Anthropic “蒸馏” 了人类最大的知识库

日期:2026-02-25 12:17:52 / 人气:13


2024 年初,美国一处仓库内正上演着令人费解的一幕:全新的书籍被逐一送进机器,书脊被切断、内容被扫描,完成数字化后,剩余的纸质书页便被送往回收处。这些从未被人翻阅的书籍,存在的唯一意义,就是成为 AI 公司 Anthropic 的训练数据,而下达这一指令的,正是 Anthropic 内部代号为「巴拿马项目」的秘密计划 —— 一项以破坏性方式扫描全球书籍的行动,在其规划文件中,明确标注着「不希望外界知道我们正在做这件事」。
这份隐藏的秘密,最终因美国联邦法官解封的 4000 多页版权诉讼相关文件公之于众。人们由此窥见的,不仅是一家 AI 企业的违规操作,更是整个 AI 行业在高质量数据争夺战中,为了牟利不惜突破版权边界、漠视创作者权益的真实生态。
被大模型 “吃” 掉的实体书:高质量语料的畸形获取
前沿科技企业为何用如此原始且粗暴的方式对待纸质书?答案藏在生成式 AI 对高质量训练数据的极度渴求里。Anthropic 内部早已意识到,仅依靠质量参差不齐、缺乏严谨性的网络内容,无法训练出优质的 AI 模型。正如该公司一位联合创始人 2023 年 1 月在文件中所写,书籍经过专业编辑与校对,内容结构清晰、逻辑严谨,能让 AI 学会「如何写得更好」,是网络文本难以替代的优质语料。
明知书籍的核心价值,Anthropic 却不愿通过正规渠道获取授权 —— 与出版社、作者逐一洽谈不仅耗时费力,还将付出高额的版权成本。于是,「巴拿马项目」应运而生,而在该项目启动前,Anthropic 就已开始通过盗版渠道攫取书籍资源。
法院文件显示,2021 年 6 月,Anthropic 联合创始人 Ben Mann 在 11 天内,从盗版「影子图书馆」LibGen 下载了大量侵权小说与非小说类书籍;2022 年 7 月,公开宣称「在大多数国家故意违反版权法」的 Pirate Library Mirror 网站上线后,Ben Mann 第一时间将链接发给公司员工,并用感叹号表达了对这一盗版渠道的认可。事后 Anthropic 辩称,这些盗版数据从未用于正式商业模型的训练,但这一解释显得苍白无力 —— 大量下载并存储侵权内容,所谓「未正式使用」的边界,实则由其自行定义,毫无说服力。
为推进「巴拿马项目」,Anthropic 特意聘请了曾参与创建 Google 图书项目的 Tom Turvey 主导工作,而 Google 图书项目正是因大规模无授权扫描书籍引发了长达数年的版权争议,这一人员选择,很难说是巧合。
在书籍采购环节,Anthropic 主要依靠美国二手书零售商 Better World Books、英国的 World of Books 两家书商批量拿货,单次采购动辄数万册;其内部文件还显示,员工曾讨论接洽纽约公共图书馆,甚至将目光投向资金长期不足的新图书馆,试图进一步扩大书籍获取渠道。
采购完成后,书籍数字化变成了一条标准化的工业流水线:供应商用液压切割机整齐切断书脊,散开的书页被送入高速工业扫描仪,扫描完成后,剩余纸张全部交由回收公司处理。据一家参与报价的扫描服务商提案显示,Anthropic 曾计划在六个月内完成 50 万到 200 万册书的数字化工作,其规模之巨、效率之高,令人咋舌。
面对版权争议,Anthropic 副总法律顾问 Aparna Sridhar 回应称,法院已裁定 AI 训练「本质上具有转化性」,公司选择和解,仅因「部分材料的获取方式不当,而非不能使用这些材料」。这套说辞即便在法律层面暂时站得住脚,却暴露了 Anthropic 的核心态度:它从未认为用无授权书籍训练 AI 的行为本身有错,只是觉得自己的手段不够「干净」。
行业通病:AI 巨头的集体越界,明知故犯的版权漠视
并非只有 Anthropic 在为获取数据突破版权边界,Meta、OpenAI、微软等一众 AI 巨头,均深陷图书作者的版权指控,且部分操作的细节更为戏剧性。
针对 Meta 的诉讼文件显示,2023 年已有员工对公司行为提出质疑:「用公司笔记本进行种子下载感觉不太对劲」,并专门向法务团队反映,使用种子网站下载盗版作品,可能涉嫌分发侵权内容,「在法律上可能行不通」。但这些合理顾虑,最终未能改变公司的决策。
2023 年 12 月的一封 Meta 内部邮件显示,使用 LibGen 下载盗版书籍的行为,在「上报至 CEO 马克・扎克伯格」后正式获批。邮件中还坦率写明了公司的顾虑:「如果媒体报道暗示我们使用了已知为盗版的数据集,这可能会削弱我们在监管问题上的谈判立场。」简言之,Meta 并非不知道行为违法,只是在权衡被曝光的代价,为了降低风险,员工甚至特意租用亚马逊服务器完成种子下载,避免直接追踪到 Meta 公司。
OpenAI 和微软也未能置身事外,二者同样面临图书作者的版权指控。OpenAI 甚至直接承认曾从 LibGen 下载过大量书籍,仅辩称在 ChatGPT 正式发布前,已删除相关文件,但其说辞同样难以服众。
事实上,AI 行业与创作者之间的版权冲突,并非自 Anthropic 始。早在 2000 年代初,Google 就曾因大规模无授权扫描图书馆馆藏书籍,引发了长达十年的版权诉讼。最终法院认定 Google 的做法属于「合理使用」,核心依据是 Google 仅提供书籍片段摘要,目的是引导读者找到书籍,而非替代书籍本身。
这一在当时看似合理的判决,却在二十年后成为整个 AI 行业的「法律挡箭牌」。区别在于,Google 图书只是一个索引工具,而生成式 AI 会直接消化书籍全部内容,并转化为自身输出的文字,在内容创作领域与作者形成直接竞争。行为性质已然改变,AI 行业却仍援引当年的法律逻辑为自己辩护,其合理性本身便值得商榷。
2025 年 6 月,美国联邦法官 William Alsup 裁定,Anthropic 用书籍训练 AI 的行为属于合法行为,并将这一过程比作教师「训练学生写好文章」。但这个温和的比喻,却忽略了核心的现实差异:现实中的教师不会同时训练几百万个学生,更不会依靠这些学生赚取几十亿美元,而 Anthropic 等 AI 公司,正通过无授权使用创作者的作品,实现商业上的巨额盈利。
15 亿美元和解:一笔划算的 “过路费”,创作者的双重困境
最终,Anthropic 以支付 15 亿美元和解金的方式,了结了这场版权诉讼,这一金额也创下了 AI 版权诉讼史上的纪录。但细看之下,这笔和解金对 Anthropic 而言,实则是一笔极为划算的买卖。
按照美国版权法规定,每件侵权作品的法定赔偿上限可达 15 万美元,而此次 Anthropic 的和解金折算下来,每本书的赔偿金额仅约 3000 美元,仅为法定上限的 2%。更值得注意的是,这笔赔偿金由作者和出版商平分,这一安排在创作者群体内部引发了巨大争议 —— 不少作者认为,出版商在保护作品不被 AI 滥用的过程中并未尽力,却拿走了一半赔偿,而自己才是版权受损的直接受害者。
更关键的是,这份和解协议并未要求 Anthropic 承认任何违法行为,法院此前关于「AI 训练属于合理使用」的认定依然有效。换句话说,Anthropic 用 15 亿美元买到的,不仅是诉讼的和解,更是一份法律层面的「背书」:其无授权使用书籍训练 AI 的行为,被默许继续进行。有分析人士指出,随着这一先例的确立,版权侵权对 AI 公司而言,早已不再是不可触碰的红线,而是一笔可以提前计入成本的「过路费」。
对广大书籍创作者而言,这场诉讼的结果带来的,远不止赔偿分配的争议,更是生存空间的挤压。数据显示,美国作家的年收入中位数仅约 2 万美元,而市值数千亿的 AI 公司,在未获授权的情况下肆意使用他们的作品,事后的赔偿标准却远低于法律上限。
更令人忧虑的是,AI 正以极低的成本批量生成文字内容,这些内容涌入市场后,进一步压低了原创内容的价值,让本就艰难的写作谋生变得雪上加霜。AI 用人类创作的书籍完成训练,而后生成的内容又反过来挤压人类创作者的生存空间,这样的恶性循环,正让越来越多的创作者陷入迷茫。
面对争议,AI 行业的支持者有一套自己的逻辑:AI 并不储存书籍的具体内容,只是从中提取语言规律,这就像一个人博览群书后形成自己的表达风格。这个类比并非毫无道理,却刻意省略了一个关键差异:一个人穷尽一生,也难以读完一百万本书,而 AI 能在短短几个月内,消化人类几十年甚至上百年的写作积累,随后以近乎为零的边际成本无限复制输出。规模的差异,早已改变了行为的性质,将二者简单等同,实则是一种精致的诡辩。
数百万册书籍被切断、扫描、销毁,最终只换来一份看似天价、实则对 AI 公司毫发无伤的和解协议。那些被毁掉的纸质书,再也无法复原;而训练完成的 AI,还在继续快速生成文字内容,抢占着人类创作者的市场。
这场由 Anthropic「巴拿马项目」揭开的行业真相,最令人不安的地方,莫过于此:对于书籍被肆意销毁、版权被公然侵犯的行为,始终没有人真正为其付出应有的代价,而 AI 行业对人类知识库的「蒸馏」与掠夺,还在以更隐蔽的方式继续着。

作者:杏宇娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 杏宇娱乐 版权所有