Anthropic “蒸馏” 了人类最大的知识库

日期：2026-02-25 12:17:52 / 人气：55

2024 年初，美国一处仓库内正上演着令人费解的一幕：全新的书籍被逐一送进机器，书脊被切断、内容被扫描，完成数字化后，剩余的纸质书页便被送往回收处。这些从未被人翻阅的书籍，存在的唯一意义，就是成为 AI 公司 Anthropic 的训练数据，而下达这一指令的，正是 Anthropic 内部代号为「巴拿马项目」的秘密计划 —— 一项以破坏性方式扫描全球书籍的行动，在其规划文件中，明确标注着「不希望外界知道我们正在做这件事」。
这份隐藏的秘密，最终因美国联邦法官解封的 4000 多页版权诉讼相关文件公之于众。人们由此窥见的，不仅是一家 AI 企业的违规操作，更是整个 AI 行业在高质量数据争夺战中，为了牟利不惜突破版权边界、漠视创作者权益的真实生态。
被大模型 “吃” 掉的实体书：高质量语料的畸形获取

前沿科技企业为何用如此原始且粗暴的方式对待纸质书？答案藏在生成式 AI 对高质量训练数据的极度渴求里。Anthropic 内部早已意识到，仅依靠质量参差不齐、缺乏严谨性的网络内容，无法训练出优质的 AI 模型。正如该公司一位联合创始人 2023 年 1 月在文件中所写，书籍经过专业编辑与校对，内容结构清晰、逻辑严谨，能让 AI 学会「如何写得更好」，是网络文本难以替代的优质语料。
明知书籍的核心价值，Anthropic 却不愿通过正规渠道获取授权 —— 与出版社、作者逐一洽谈不仅耗时费力，还将付出高额的版权成本。于是，「巴拿马项目」应运而生，而在该项目启动前，Anthropic 就已开始通过盗版渠道攫取书籍资源。
法院文件显示，2021 年 6 月，Anthropic 联合创始人 Ben Mann 在 11 天内，从盗版「影子图书馆」LibGen 下载了大量侵权小说与非小说类书籍；2022 年 7 月，公开宣称「在大多数国家故意违反版权法」的 Pirate Library Mirror 网站上线后，Ben Mann 第一时间将链接发给公司员工，并用感叹号表达了对这一盗版渠道的认可。事后 Anthropic 辩称，这些盗版数据从未用于正式商业模型的训练，但这一解释显得苍白无力 —— 大量下载并存储侵权内容，所谓「未正式使用」的边界，实则由其自行定义，毫无说服力。
为推进「巴拿马项目」，Anthropic 特意聘请了曾参与创建 Google 图书项目的 Tom Turvey 主导工作，而 Google 图书项目正是因大规模无授权扫描书籍引发了长达数年的版权争议，这一人员选择，很难说是巧合。
在书籍采购环节，Anthropic 主要依靠美国二手书零售商 Better World Books、英国的 World of Books 两家书商批量拿货，单次采购动辄数万册；其内部文件还显示，员工曾讨论接洽纽约公共图书馆，甚至将目光投向资金长期不足的新图书馆，试图进一步扩大书籍获取渠道。
采购完成后，书籍数字化变成了一条标准化的工业流水线：供应商用液压切割机整齐切断书脊，散开的书页被送入高速工业扫描仪，扫描完成后，剩余纸张全部交由回收公司处理。据一家参与报价的扫描服务商提案显示，Anthropic 曾计划在六个月内完成 50 万到 200 万册书的数字化工作，其规模之巨、效率之高，令人咋舌。
面对版权争议，Anthropic 副总法律顾问 Aparna Sridhar 回应称，法院已裁定 AI 训练「本质上具有转化性」，公司选择和解，仅因「部分材料的获取方式不当，而非不能使用这些材料」。这套说辞即便在法律层面暂时站得住脚，却暴露了 Anthropic 的核心态度：它从未认为用无授权书籍训练 AI 的行为本身有错，只是觉得自己的手段不够「干净」。
行业通病：AI 巨头的集体越界，明知故犯的版权漠视
并非只有 Anthropic 在为获取数据突破版权边界，Meta、OpenAI、微软等一众 AI 巨头，均深陷图书作者的版权指控，且部分操作的细节更为戏剧性。
针对 Meta 的诉讼文件显示，2023 年已有员工对公司行为提出质疑：「用公司笔记本进行种子下载感觉不太对劲」，并专门向法务团队反映，使用种子网站下载盗版作品，可能涉嫌分发侵权内容，「在法律上可能行不通」。但这些合理顾虑，最终未能改变公司的决策。
2023 年 12 月的一封 Meta 内部邮件显示，使用 LibGen 下载盗版书籍的行为，在「上报至 CEO 马克・扎克伯格」后正式获批。邮件中还坦率写明了公司的顾虑：「如果媒体报道暗示我们使用了已知为盗版的数据集，这可能会削弱我们在监管问题上的谈判立场。」简言之，Meta 并非不知道行为违法，只是在权衡被曝光的代价，为了降低风险，员工甚至特意租用亚马逊服务器完成种子下载，避免直接追踪到 Meta 公司。
OpenAI 和微软也未能置身事外，二者同样面临图书作者的版权指控。OpenAI 甚至直接承认曾从 LibGen 下载过大量书籍，仅辩称在 ChatGPT 正式发布前，已删除相关文件，但其说辞同样难以服众。
事实上，AI 行业与创作者之间的版权冲突，并非自 Anthropic 始。早在 2000 年代初，Google 就曾因大规模无授权扫描图书馆馆藏书籍，引发了长达十年的版权诉讼。最终法院认定 Google 的做法属于「合理使用」，核心依据是 Google 仅提供书籍片段摘要，目的是引导读者找到书籍，而非替代书籍本身。
这一在当时看似合理的判决，却在二十年后成为整个 AI 行业的「法律挡箭牌」。区别在于，Google 图书只是一个索引工具，而生成式 AI 会直接消化书籍全部内容，并转化为自身输出的文字，在内容创作领域与作者形成直接竞争。行为性质已然改变，AI 行业却仍援引当年的法律逻辑为自己辩护，其合理性本身便值得商榷。
2025 年 6 月，美国联邦法官 William Alsup 裁定，Anthropic 用书籍训练 AI 的行为属于合法行为，并将这一过程比作教师「训练学生写好文章」。但这个温和的比喻，却忽略了核心的现实差异：现实中的教师不会同时训练几百万个学生，更不会依靠这些学生赚取几十亿美元，而 Anthropic 等 AI 公司，正通过无授权使用创作者的作品，实现商业上的巨额盈利。
15 亿美元和解：一笔划算的 “过路费”，创作者的双重困境
最终，Anthropic 以支付 15 亿美元和解金的方式，了结了这场版权诉讼，这一金额也创下了 AI 版权诉讼史上的纪录。但细看之下，这笔和解金对 Anthropic 而言，实则是一笔极为划算的买卖。
按照美国版权法规定，每件侵权作品的法定赔偿上限可达 15 万美元，而此次 Anthropic 的和解金折算下来，每本书的赔偿金额仅约 3000 美元，仅为法定上限的 2%。更值得注意的是，这笔赔偿金由作者和出版商平分，这一安排在创作者群体内部引发了巨大争议 —— 不少作者认为，出版商在保护作品不被 AI 滥用的过程中并未尽力，却拿走了一半赔偿，而自己才是版权受损的直接受害者。
更关键的是，这份和解协议并未要求 Anthropic 承认任何违法行为，法院此前关于「AI 训练属于合理使用」的认定依然有效。换句话说，Anthropic 用 15 亿美元买到的，不仅是诉讼的和解，更是一份法律层面的「背书」：其无授权使用书籍训练 AI 的行为，被默许继续进行。有分析人士指出，随着这一先例的确立，版权侵权对 AI 公司而言，早已不再是不可触碰的红线，而是一笔可以提前计入成本的「过路费」。
对广大书籍创作者而言，这场诉讼的结果带来的，远不止赔偿分配的争议，更是生存空间的挤压。数据显示，美国作家的年收入中位数仅约 2 万美元，而市值数千亿的 AI 公司，在未获授权的情况下肆意使用他们的作品，事后的赔偿标准却远低于法律上限。
更令人忧虑的是，AI 正以极低的成本批量生成文字内容，这些内容涌入市场后，进一步压低了原创内容的价值，让本就艰难的写作谋生变得雪上加霜。AI 用人类创作的书籍完成训练，而后生成的内容又反过来挤压人类创作者的生存空间，这样的恶性循环，正让越来越多的创作者陷入迷茫。
面对争议，AI 行业的支持者有一套自己的逻辑：AI 并不储存书籍的具体内容，只是从中提取语言规律，这就像一个人博览群书后形成自己的表达风格。这个类比并非毫无道理，却刻意省略了一个关键差异：一个人穷尽一生，也难以读完一百万本书，而 AI 能在短短几个月内，消化人类几十年甚至上百年的写作积累，随后以近乎为零的边际成本无限复制输出。规模的差异，早已改变了行为的性质，将二者简单等同，实则是一种精致的诡辩。
数百万册书籍被切断、扫描、销毁，最终只换来一份看似天价、实则对 AI 公司毫发无伤的和解协议。那些被毁掉的纸质书，再也无法复原；而训练完成的 AI，还在继续快速生成文字内容，抢占着人类创作者的市场。
这场由 Anthropic「巴拿马项目」揭开的行业真相，最令人不安的地方，莫过于此：对于书籍被肆意销毁、版权被公然侵犯的行为，始终没有人真正为其付出应有的代价，而 AI 行业对人类知识库的「蒸馏」与掠夺，还在以更隐蔽的方式继续着。

作者：杏宇娱乐

Anthropic “蒸馏” 了人类最大的知识库

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →