Meta涉嫌版权侵权，使用LibGen数据集训练AI并删除版权信息

2025-01-13 07:41:56 来源：AIbase基地作者：中企检测认证网浏览:1

meta涉嫌版权侵权，使用LibGen数据集训练AI并删除版权信息

meta正面临一起涉及版权侵权的诉讼，原告律师称，meta首席执行官马克·扎克伯格批准公司使用盗版电子书和文章的数据集来训练其Llama AI模型。该案件是针对多家科技巨头的众多版权诉讼之一，这些公司被指控在未获授权的情况下使用受版权保护的作品进行AI模型训练。

在周三晚间提交给美国加利福尼亚北区地方法院的文件中，原告重申了 meta去年年底的证词，证词中透露扎克伯格批准使用名为LibGen的数据集来进行与Llama相关的训练。LibGen被视为一个“链接聚合器”，提供大量受版权保护的学术出版物。尽管该网站因侵犯版权而多次遭到起诉和勒令关闭，但它依然持续提供来自Cengage Learning、McGraw Hill等大型出版商的作品。

文件中提到，meta内部有员工承认，LibGen是一个“我们知道是盗版的数据集”，并表示其使用可能会对公司与监管机构的谈判地位产生负面影响。尤其令人关注的是，meta工程师Nikolay Bashlykov被指控编写脚本，删除LibGen电子书中的版权信息，包括“版权”和“致谢”字样。meta还据称从科学期刊文章中删除了版权标记和源元数据，以掩盖其侵权行为。

更具争议的是，meta被指控通过torrenting方式下载LibGen内容，并帮助传播这些被盗版权的文件。torrenting是一种在网络上分发文件的方式，其中下载者在同时上传文件的同时共享内容。原告律师表示，meta通过参与torrenting实际上实施了另一种形式的版权侵权行为。尽管meta工程师对此提出保留意见，认为这一行为不合法，meta依然在生成AI负责人Ahmad Al-Dahle的支持下继续进行这一行为。

这些指控显然与《纽约时报》去年4月的报道相符，后者曾暗示meta在收集人工智能数据时采取了偷工减料的做法。据报道，meta曾雇佣非洲承包商汇总书籍摘要，并曾考虑收购出版商西蒙舒斯特。然而，meta高管认为谈判版权许可需要过长时间，合理使用原则成为了他们的主要辩护理由。

本文内容整合网站：中国政府网、百度百科、最高人民法院、知乎、国家认证认可监督管理委员会、国家知识产权局、市场监督总局

打赏

知识产权图文

更多>>

知识产权相关

更多>>