目的及研究范围
本报告由欧盟知识产权局(EUIPO)发布,从技术视角深入分析生成式人工智能(GenAI)与欧盟著作权法之间的交汇问题,是其下属机构欧洲知识产权侵权观察站(Observatory)的重要研究成果。该观察站由公共与私营领域的专家与专业机构联合协作组成。
近年来,人工智能(AI)技术,尤其是GenAI的发展,日益成为公众关注与讨论的焦点。以大型语言模型(LLMs)为代表的GenAI系统,通过分析海量训练数据提取规律,构建算法,从而生成具有相似特征的全新内容。然而,随着GenAI的广泛应用,著作权相关问题也日益凸显。尽管这一技术革新为创意产业带来了前所未有的创新潜力和变革机遇,但其也引发了与著作权所有人之间的利益冲突。无论如何,此类技术的发展与应用仍必须在现行知识产权法律框架内进行,以确保创作者权益得到有效保护,促进技术与法律的协调发展。
2018年,欧盟委员会发布的《欧洲AI战略》明确提出:“需要从知识产权局和用户的双重视角,探讨AI与知识产权的互动关系,以在创新与法律确定性之间实现平衡。”基于这一战略,欧盟于2024年6月率先通过全球首部综合性AI法规——《人工智能法案》(AI Act,第2024/1689号),该法案要求在推动技术创新的同时,与现有的知识产权保护法规(如“文本与数据挖掘例外条款”及权利人的“选择退出机制”)有效衔接。
与此同时,GenAI技术对欧洲知识产权格局的影响,已在EUIPO观察站内的专家小组中展开了深入讨论。2022年,EUIPO发布了《人工智能对著作权与外观设计侵权及执法的影响》(Impact of Artificial Intelligence on the Infringement and Enforcement of Copyright and Designs)研究报告;欧盟委员会亦同步推出了两份专题报告,详细探讨了AI技术对文化创意产业所带来的机遇与挑战。这一系列的研究讨论与立法进程相互衔接,共同为本次研究提供了坚实的基础。
鉴于上述背景,EUIPO观察站委托本研究从“解决方案导向”的视角,深入分析著作权法在GenAI系统发展过程中所面临的关键技术问题与应对路径。本报告旨在为相关利益方提供政策建议与实践指引,并与欧盟委员会人工智能办公室及著作权事务部门的工作形成有益补充与协同支持。根据观察站2025年工作计划,EUIPO还将探索开发一项“选择退出机制服务”,以进一步平衡著作权持有者与人工智能开发企业之间的权利与利益关系。
核心研究目标
输入阶段:分析当前在GenAI训练过程中,用于限制、授权或保留受著作权保护作品作为训练数据的技术手段与实践;
输出阶段:研究用于识别AI生成内容以及防止生成侵权内容的相关技术手段与实践。
研究范围
本研究涵盖GenAI相关的技术、法律及市场发展背景分析,重点关注其输入与输出流程中所涉及的著作权问题,系统分析AI生态中各类主体在著作权管理方面的应对措施。同时,报告亦探讨相关的经济影响与制度性考量。
阅读背景提示
理解本报告的核心内容,需结合以下三大背景因素:
技术迭代速度:GenAI技术的发展速度远超现行法律体系的更新节奏;
法律地域性差异:欧盟著作权法律框架在结构与适用上,与其他主要司法辖区存在显著差异;
利益平衡难题:如何在鼓励技术创新与有效保护著作权之间实现动态平衡,仍是当前政策与实务层面面临的关键挑战。
执行摘要内容
过去数年,人工智能技术已取得重大突破。随着LLMs和GenAI的问世,能够生成文本、代码、图像、视频和音频内容的GenAI服务已得到广泛应用。这一发展促使政策制定者和监管机构开始审视现有法律框架应如何演进以应对AI大规模适用带来的影响,并在创新与知识产权保护之间寻求平衡。
在此背景下,本研究从欧盟著作权法视角探讨GenAI的发展态势。报告包含三大部分:(1)GenAI的技术、法律与经济分析,以深入理解GenAI的功能特性及其发展影响;(2)关于GenAI服务开发过程中使用受著作权保护内容所面临的知识产权问题;(3)输出内容所面临的著作权问题。
(1)技术、法律与经济背景
欧盟法律体系中,存在两部法律文件对GenAI的发展将产生著作权意义上的关键意义:
《数字单一市场版权指令》(The Copyright in the Single Market Directive, CDSM指令)就“文本与数据挖掘”(Text and Data Mining,TDM)建立了法律框架。作为GenAI模型训练的关键技术环节,TDM通过大规模数据采集与分析来优化算法参数,这一过程不可避免地涉及对受著作权保护作品的复制行为。其中, CDSM指令第3条为科研机构创设了TDM豁免条款,而第4条进一步将适用范围延伸至商业领域的AI开发者。特别值得注意的是,第4条例外条款赋予权利人“选择退出”(opting-out)TDM例外的权利——权利人可通过“机器可读方式”(machinereadable means)等适当形式明确声明保留其复制权。对于声明退出的作品,AI开发者必须事先取得权利人的明确授权(如签订著作权许可协议)方能合法使用。
《欧盟人工智能法案》(EU Artificial Intelligence Act,AI法案)为AI技术设立了一套全面的监管框架,其中对通用人工智能(general–purpose AI ,GPAI)模型提供商设定了特定义务。在著作权领域,这些义务包括GPAI模型提供商必须遵守CDSM指令第4条关于TDM选择退出机制的规定。提升透明度,法案强制要求GPAI提供商还需披露训练数据的详尽摘要,以便权利人行使权利。该法案同时要求GenAI系统部署者需确保生成内容具有机器可读的识别标识。
权利人与GenAI系统提供商之间的法律纠纷正在全球范围内日益增长,其中多数案件发生在美国。迄今为止,欧盟境内已出现四起涉及AI训练与著作权的诉讼,其中2024年9月德国汉堡地方法院在“Kneschke诉LAION案”中的判决具有标志性意义。尽管法院认定,LAION(GenAI训练数据集的主要提供商)可援引《数字单一市场版权指令》第3条的科研例外条款,但判决中的若干附带意见对未来法院如何解释第4条中权利保留的法律标准提供了重要参考。
与此同时,权利人与GenAI开发者之间已就受著作权保护内容用于AI训练达成多项高价值许可协议。在权利人有效行使CDSM第4条“选择退出权”后,通过直接授权内容使用,可能为其开辟新的收入渠道。本研究识别并总结了推动此类许可协议达成的五大关键因素:1.对机器学习训练数据潜在短缺的预期;2.高质量数据及其元数据标注的关键性;3.GenAI开发者的风险承受能力与其在谈判中的相对议价地位;4.合成数据作为训练输入的替代潜力;5.面向中小规模权利人的内容聚合中介服务的兴起,为其进入训练数据市场提供可行路径。
尽管不同内容领域的直接授权市场发展存在差异,但出版行业——尤其是新闻出版和学术出版领域——在授权使用与检索增强生成(RAG,详见GenAI输出部分)技术相关内容方面展现出独特优势。此类技术对于某些GenAI服务的开发至关重要。
本研究还识别出可能影响直接授权条款设计的五大关键因素:1.基准市场费率的形成机制;2.报酬计算指标的设定方式;3.授权类型的创新实践;4.将训练输入与生成输出结果相挂钩的联动式授权机制;5.基于内容资产的互惠互利式商业交换安排。
此外,报告指出一个正在引发关注的新兴问题,即《CDSM指令》第3条所规定的“科研用途TDM例外”与第4条下的“商业用途AI训练”之间,可能存在“数据洗白”问题。
一个新兴问题是《CDSM指令》第3条规定的科研用途TDM活动与第4条商业AI训练TDM活动之间可能产生的"数据洗白"现象。具体而言,部分科研机构在第3条授权范围内构建的数据集,后续若被商业AI开发者用于训练目的,可能导致科研例外被规避性用于商业应用,从而引发对科研豁免调控滥用的担忧。
(2)生成式人工智能的输入环节
数据收集是GenAI训练的首要环节,必须遵循著作权相关义务。根据具体情形,这些义务可能包括:尊重权利人提出的TDM选择退出声明,或在必要情况下,通过达成直接授权协议获得使用许可。收集到的数据需经过清洗、标注与处理,方可应用于包括模型预训练、微调以及强化学习等在内的多阶段AI训练流程。尽管目前已有多个大型AI训练数据集可公开获取,但这类数据集往往存在潜在的著作权风险,可能包含盗版内容、未经授权使用的作品、授权错误或未针对具体应用场景定制的标准化许可内容。这些问题可能引发著作权侵权责任在整个AI价值链中层层传导——从数据集创建者、GenAI系统开发者到最终服务部署方,所有环节均需遵守欧盟著作权法规以及《人工智能法案》所设定的合规义务。
当前,在线公开内容已成为AI训练数据的重要来源。传统用于搜索引擎索引的网络爬取技术,现已被广泛用于大规模采集训练数据。这一变化促使越来越多的著作权所有者采取主动措施限制其作品被用于AI训练。其中,机器人排除协议(REP)已成为事实上的网络爬取管理标准工具,并被广泛用作TDM权利保留的主要实施机制。然而,利益相关方普遍认为,REP作为TDM选择退出机制存在显著局限性,更像是一种临时性过渡方案。其主要缺陷包括:控制粒度有限、难以区分不同使用目的、依赖网站管理员主动部署、缺乏法律强制力,以及依赖网络爬虫方自愿披露身份等。为弥补其不足,一些权利人还辅以流量管理等技术手段,以进一步限制未经授权的爬取行为。
鉴于AI生态系统的高度复杂性以及各内容领域在商业模式和权利管理上的差异,目前尚未形成统一的、通用的权利保留标准。权利人通常采用法律驱动措施与技术措施相结合的策略,以实现对文本与数据挖掘(TDM)使用的有效管理。法律措施包括单方权利声明、许可协议限制、网站服务条款等;技术措施则除常用的机器人排除协议(REP)外,还涵盖TDM保留协议、内容真实性倡议(C2PA)、JPEG Trust标准等解决方案。
本研究从17项关键指标出发,对上述权利保留机制进行了系统性评估,评估维度包括:对特定内容类型的适配性(类型特异性)、对不同使用场景的区分能力(使用区分度)、以及在不同技术与法律环境下的适用灵活性(实施灵活性)等。
分析结果表明,当前所有可用措施均不具备强制执行能力,即权利保留声明的效力尚依赖TDM用户的自愿遵守与技术策略调整。为确保合规,TDM使用者需主动调整其数据收集与处理方式。在适用范围上,法律措施通常可覆盖特定作品或整个作品集;而技术措施则可分为两类:“基于位置”的机制,依赖于内容在网络上的存储位置(如URL);“基于资产”的机制,直接与内容本身绑定,无论其传播路径如何变化,依然可追踪识别。不同类型的措施各具优势与局限。来自行业利益相关方的访谈反馈显示,多措组合已成为当前权利保留实践的行业常态。
研究表明,当前技术解决方案正朝着开放标准与开源许可方向发展,以提升广泛适用性和系统间的互操作性。无论是权利人还是AI开发者,普遍支持推进权利保留机制的标准化进程,同时强调需保留对不同使用场景的适应灵活性。随着GenAI生态的持续演化,预计将逐步形成适用于各内容领域的定制化标准化实践。
当前形势表明,国家知识产权局等公共机构可在多个层面发挥关键作用:技术层面推动建立面向权利人和AI开发者的TDM权利保留联合数据库;非技术层面包括加强公众对AI与著作权问题的认知宣传,发布权利保留实施指南(如爬虫识别标记合集),并定期开展行业趋势分析,关注技术发展动态与商业授权条款的演变趋势。
(3)生成式人工智能输出环节
内容生成的技术流程因生成式人工智能(GenAI)模型的类型而异,不同类型的内容生成通常对应不同的模型架构。鉴于AI模型训练成本高昂,且频繁更新训练数据面临现实限制,业界正在加速采用检索增强生成(RAG)技术。该技术通过将信息检索机制与生成式AI能力相结合,在无需频繁重训模型的前提下,显著提升系统性能。
目前,RAG技术在AI驱动的搜索引擎(亦称“问答引擎”)中日益普及,为著作权人带来了新的挑战与机遇。RAG本身也引发了著作权争议,其风险程度在很大程度上取决于具体应用形式:若采用静态RAG(基于本地存储内容进行检索),相对较易控管;而动态RAG则可能涉及实时网络爬取,从而带来更复杂的著作权问题。
考虑到《人工智能法案》对GenAI系统输出内容的透明性提出了明确要求,近年来已开发出多种用于识别与披露合成内容属性的“生成透明度”技术措施,主要包括:1.内容来源追踪机制:如C2PA倡议、JPEG Trust倡议,以及基于区块链的Trace4EU项目;2.AI生成内容检测工具:如图像内容的StyleGAN3-Detector,或Deezer开发的音频识别方法;3.内容处理技术方案:涵盖多种数字水印与数字指纹协议;4.模型成员推断攻击(Membership Inference Attacks):用于检测AI模型是否“记忆”了特定训练数据,从而间接识别潜在的著作权风险。
本研究基于以下十项关键标准,对部分现有的生成透明度措施进行了系统性比较分析:(i) 类型分类、(ii) 多样适用性、(iii) 开放性、(iv) 市场成熟度、(v) 可读性、(vi) 成本考量、(vii) 稳健性、(viii) 互操作性、(ix) 可扩展性,以及 (x) 可靠性。该比较有助于深入理解不同措施的相对优势与局限。
在模型训练完成后,机器学习过程中提取的模式与关联关系将被嵌入至模型参数中。这些参数对最终生成内容的影响程度,取决于具体模型的架构设计。部分生成式AI模型以高度抽象的方式编码知识,使其难以直接还原训练数据;但另一些模型,特别是大型语言模型(LLMs)和生成式视觉模型,则可能存在“记忆化”(memorisation)现象。这种记忆化可能导致模型输出内容与训练输入高度相似,甚至在某些情况下直接重复原始数据。由此带来的问题不仅是技术性挑战,更可能引发法律风险,如涉嫌抄袭或侵犯著作权,特别是在模型“复述”受保护作品的场景下。
GenAI系统开发者已提出多项技术解决方案,以应对“记忆化”(memorisation)问题。常见措施包括:用于比对生成内容与潜在训练输入的检测工具、防止重复生成的输出过滤机制,以及对提示词(prompt)进行重写或过滤的策略。
一个新兴的技术研究方向是“模型遗忘”(model unlearning)与“模型编辑”(model editing)。这些方法通过擦除、调整或更新嵌入模型参数的特定信息,使开发者能够在模型部署后对已识别的问题进行修复和调整。除上述技术路径外,部分GenAI系统提供商还引入法律赔偿机制,为其客户提供一定程度的侵权风险缓释,以应对生成内容可能侵犯第三方著作权的情况。
围绕GenAI输出与著作权相关的复杂议题,也进一步凸显了公共机构在知识产权治理中的潜在作用:
1.面向GenAI开发者与政策制定者:公共机构可公开共享有关降低侵权风险、识别合成内容及推广行业良好实践的信息资源;
2.面向公众:可提供关于“伦理提示词”使用的指导,与其他相关机构协作,提高公众识别AI生成内容的能力和意识;
3.在技术层面:公共机构可作为信息共享与协作的平台,推动不同平台和GenAI系统之间输出透明度机制的互操作性。
(3)结论性观察
本研究通过技术路径梳理,系统阐明了GenAI与著作权之间的互动关系,并得出以下三项核心结论:
1.目前尚未出现单一、统一的标准机制,可供权利人用于行使其TDM权利保留声明,或用于标识与披露AI生成内容的透明度措施;
2.尽管GenAI引发的法律争议在全球范围内持续增加,研究也指出,权利人与GenAI开发者之间已达成多项高价值内容授权协议;
3.当前态势表明,公共机构可在以下方面发挥关键作用:一是为实施和管理TDM保留数据库提供技术支持;二是加强对潜在侵权输出的认知与风险预防,并推动行业良好实践的传播与应用。
作为一项颠覆性技术,GenAI的快速发展正深刻重塑创意产业与信息技术行业,显著改变了著作权所有者与AI开发者的互动模式。尽管实现法律与商业秩序之间的新平衡仍需时间,研究特别强调了一点:获取作品来源与许可使用方式的关键信息,对于实现著作权的尊重、收益分配与有效执法具有关键意义。
1
结论
本研究从欧盟著作权法的视角出发,系统探讨了生成式人工智能(GenAI)的发展动态,重点识别、分析并评估GenAI技术与著作权制度交汇处的关键趋势,特别关注AI生态系统中用于应对著作权管理挑战的各类技术措施。研究内容嵌入欧盟人工智能立法框架下,尤其聚焦与著作权相关的合规义务条款。本报告围绕三大核心板块展开分析:技术背景、GenAI输入环节与GenAI输出环节。
在技术背景部分,研究系统梳理了生成式人工智能技术的发展路径,深入分析主要模型架构的演进与关键技术的部署实践。这些技术进展发生在特定的欧盟著作权法律环境之中,主要受《数字化单一市场版权指令》(CDSM指令,Directive (EU) 2019/790)与《欧盟人工智能法案》(AI法案,Regulation (EU) 2024/1689)规制。CDSM指令对著作权及数据库权利人的专有复制权和提取权设定了若干例外情形,特别允许在无需权利人事先授权的情况下,出于特定目的开展文本与数据挖掘(TDM)活动,为AI模型训练提供了法律基础。
对于商业性(非科学研究)文本与数据挖掘(TDM)活动,权利人可通过发布符合特定法律标准的权利保留声明,将其作品排除在TDM例外适用范围之外。这些法律标准的解释与适用,将直接影响权利人行使控制权的策略选择,并对GenAI开发者的数据获取流程产生重要影响。根据《人工智能法案》,通用人工智能(GPAI)模型提供商必须制定并执行符合欧盟著作权法的合规政策,其中包括识别并尊重TDM例外条款中权利人“选择退出”声明的义务。此外,GenAI系统提供商还需确保其生成内容能够以机器可读形式加以标注,并具备可检测性,以增强输出的透明度与可追责性。
目前,从著作权角度来看,GenAI的发展正日益受到多法域内权利人与系统提供商之间司法诉讼的影响。截至目前,欧盟境内已公开四起涉及AI训练与著作权的相关诉讼案件,其中三起在德国,一起在法国。2024年9月汉堡地方法院对“Kneschke诉LAION案”的判决,成为欧盟首例就AI训练与著作权争议作出的民事判决。法院判定LAION(GenAI训练用图文数据集主要提供商)可援引CDSM指令第3条所规定的科学研究目的TDM例外条款。尽管如此,判决中的若干附带意见为未来法院在适用第4条——即商业性TDM活动中的“选择退出”机制法律标准时,提供了潜在指引。
“Kneschke诉LAION案”同时引发了对所谓“数据洗白”现象的关注——即以“科学研究”这一较为宽泛的例外条款为依据开发训练数据集,尽管这些数据集最终可能被用于商业用途。近期直接授权市场出现重大进展,权利人与GenAI开发商就受著作权保护作品的使用达成多项协议。尽管相关合同条款尚未公开,但市场趋势分析表明,直接授权机制的兴起受到多重因素推动,包括:对未来AI训练数据短缺的预期;权利人可提供的高质量元数据与内容标注所带来的附加价值;缔约双方之间的相对议价能力;专门服务于中小权利人的内容聚合与中介平台的快速发展。随着市场进一步成熟,有望逐步形成涵盖定价标准、合同条款结构及报酬基准机制的行业规范。 在这一新兴生态中,数据策展方、数据集提供商与内容分发平台正日益成为连接权利人和AI开发者之间的关键中介力量。但其核心挑战在于:如何提升许可条款的清晰性、合法性与适用性,确保内容使用符合各方预期与合规要求。此外,检索增强生成(RAG)技术在提升GenAI系统实时信息处理能力的同时,也带来了新的著作权挑战。尽管如此,RAG技术为新闻、科学和学术出版等领域的权利人提供了独特的内容授权与商业合作机会
“网络爬取”已成为当前主流的AI训练数据收集方式,并催生了一系列针对公开网络内容的自动化挖掘工具。在此背景下,机器人排除协议(REP)虽被广泛视为管理网络爬取行为的事实行业标准,但作为权利保留机制,其存在一系列固有局限:缺乏对使用场景和许可目的的精细区分,无法实现差异化控制;依赖网站管理员主动配置,易导致部署不一致、执行效果参差;不具法律强制力,完全依赖爬取方的自愿遵守;要求爬虫操作方公开披露身份和用途信息,这对使用多种爬虫工具的机构构成操作上的负担。
在当前法律与技术环境下,尚未形成统一适用的权利保留标准机制。实践中,权利人通常采用法律驱动手段(如单方声明、许可限制、网站服务条款)与技术措施相结合的方式,以表达其TDM权利保留意图。在技术路径上,现有措施大致可分为两类:“基于位置”的措施:绑定于特定存储路径或网站上的内容副本,仅对特定分发位置生效;“基于资产”的措施:直接嵌入内容本身,无论其传播路径如何变化,均可随附执行。本研究通过17项关键指标对比了各类保留措施的优劣。
尽管不同模型架构在训练与内容生成流程上存在差异,但著作权人普遍担忧,部分模型可能存在“记忆”训练数据的风险,从而生成涉嫌侵权的内容。为降低此类风险,一些模型提供商已部署多项防侵权技术措施,包括:输入输出内容自动比对、提示词事前过滤、生成内容事后筛查,以及为用户提供一定程度的法律免责保障。与此同时,诸如“模型遗忘”与“模型编辑”等新兴技术尚处研发验证阶段,其在大规模商业环境下的应用可行性仍有待进一步评估。
为响应《人工智能法案》关于生成内容“可检测性”的合规要求,模型提供商正采用来源追踪、生成内容检测、数字水印、指纹识别及成员推理攻击等多种技术方案。本研究基于10项关键指标,对各类输出透明度技术方案进行了系统比较,指出各项技术在当前均存在优势与局限。
鉴于AI生态的复杂性,知识产权局等公共机构可提供技术或非技术支撑:非技术层面包括公众意识培育、GenAI市场技术商业动态追踪、利益相关方对话协调机制建设,以及著作权管理措施的文档化工作;技术层面则可着力弥补现有技术方案缺陷,推动解决方案创新。