meta涉嫌版权侵权,使用LibGen数据集训练AI并删除版权信息
meta正面临一起涉及版权侵权的诉讼,原告律师称,meta首席执行官马克·扎克伯格批准公司使用盗版电子书和文章的数据集来训练其Llama AI模型。该案件是针对多家科技巨头的众多版权诉讼之一,这些公司被指控在未获授权的情况下使用受版权保护的作品进行AI模型训练。
在周三晚间提交给美国加利福尼亚北区地方法院的文件中,原告重申了 meta去年年底的证词,证词中透露扎克伯格批准使用名为LibGen的数据集来进行与Llama相关的训练。LibGen被视为一个“链接聚合器”,提供大量受版权保护的学术出版物。尽管该网站因侵犯版权而多次遭到起诉和勒令关闭,但它依然持续提供来自Cengage Learning、McGraw Hill等大型出版商的作品。
文件中提到,meta内部有员工承认,LibGen是一个“我们知道是盗版的数据集”,并表示其使用可能会对公司与监管机构的谈判地位产生负面影响。尤其令人关注的是,meta工程师Nikolay Bashlykov被指控编写脚本,删除LibGen电子书中的版权信息,包括“版权”和“致谢”字样。meta还据称从科学期刊文章中删除了版权标记和源元数据,以掩盖其侵权行为。
更具争议的是,meta被指控通过torrenting方式下载LibGen内容,并帮助传播这些被盗版权的文件。torrenting是一种在网络上分发文件的方式,其中下载者在同时上传文件的同时共享内容。原告律师表示,meta通过参与torrenting实际上实施了另一种形式的版权侵权行为。尽管meta工程师对此提出保留意见,认为这一行为不合法,meta依然在生成AI负责人Ahmad Al-Dahle的支持下继续进行这一行为。
这些指控显然与《纽约时报》去年4月的报道相符,后者曾暗示meta在收集人工智能数据时采取了偷工减料的做法。据报道,meta曾雇佣非洲承包商汇总书籍摘要,并曾考虑收购出版商西蒙舒斯特。然而,meta高管认为谈判版权许可需要过长时间,合理使用原则成为了他们的主要辩护理由。