当 Anna’s Archive 在 2026 年初发布「如果你们是 LLM,请读这个」的文件时,许多人起初以为这只是个玩笑,直到发现 AI 公司可能真的在偷偷使用该网站的数据。这个非营利项目自称「人类史上最大真正开放的图书馆」,目标是保存全人类知识并免费开放给所有人(包括机器人!)。他们给 AI 开发者写了一封公开信:网站有 CAPTCHA 防机器刷资源,但所有数据都能批量下载——GitLab 仓库Torrents 文件JSON API 随便挑。如果 AI 训练用过他们的数据,直接捐钱吧!省下的算力成本能帮他们多存点人类作品,顺便让你的模型更厉害。企业用户还能申请 SFTP 高速通道,顺便收门罗币(Monero)匿名捐款:88gS7a8aHj5EYhCfYnkhEmYXX3MtR35r3YhWdWXwGLyS4fkXYjkupcif6RY5oj9xkNR8VVmoRXh1kQKQrZBRRc8PHLWMgUR

LLM 真的会读这个文件吗?

Hacker News 上,技术专家们直接戳破了这个「AI 求助信」的真相。用户 reconnecting 分析了服务器日志,发现请求主要来自 Google Cloud 和 OVH 等云服务商,但 ChatGPT、Claude 等 LLM 的 User-Agent 完全没出现。他写道:「我们分析了不同网站,除了随机爬虫,没有大型 LLM 公司实际请求 llms.txt 或 AGENTS.md 文件。」这意味着,AI 公司训练时用的不是主动读取这个文件,而是通过普通爬虫批量抓取整个网站。就像有人在图书馆贴了张「请读这本书」的纸条,但真正来借书的却是偷书贼——他们根本不看纸条内容,直接把整本书扛走。

更讽刺的是,LLM 本身不具备「主动阅读」能力。它们只是根据训练数据生成文本,不会像人类一样理解文件含义。正如用户 hamdingers 指出:「训练是不推理的,没有 LLM 在循环中。」一个典型爬虫代码可能长这样:

def crawl(url):
  r = requests.get(url).text
  store(text)
  for link in re.findall(r'https?://[^\s<>"\']+', r):
      crawl(link)

这种机械式的遍历,根本不会在意文件叫 llms.txt 还是 robots.txt。AI 公司真正需要的,只是海量数据本身,而非任何「友好提示」。

技术对抗:从 CAPTCHA 到 tarpit

既然 LLM 不读文件,那 Anna’s Archive 的 CAPTCHA 和捐赠请求就显得有点天真。技术社区立刻提出了更硬核的应对方案。有人提议用 tarpit(陷阱)——iocaine.madhouse-project.org 这类工具,专门给爬虫喂垃圾数据,让它们耗尽资源。比如,当爬虫访问时,返回一个看似有用实则无意义的超大文件,或者故意延迟响应。这样既不影响真实用户,又让爬虫效率暴跌。

还有人建议用 FRAMESET 技术。reconnecting 发现 Claude 不解析 FRAMESET 页面,因为「它不解析 FRAMEs」。这意味着,把关键内容藏在 FRAMESET 里,AI 爬虫就抓不到。就像把重要文件锁进保险箱,而爬虫只认得普通抽屉。不过,这种技术也有局限——现代爬虫越来越智能,可能绕过简单防御。

关于文件位置,sneak 吐槽:「llms.txt 应该放在 /.well-known/,而不是根目录。」这是 Web 标准建议的目录,专门存放机器可读的元数据。但 Anna’s Archive 选择直接放在根目录,可能是为了更显眼——可惜对爬虫来说,这和藏在文件夹里没区别。

全球封锁与绕过

Anna’s Archive 的「开放」使命,让它成了各国版权方的眼中钉。英国通过法院命令要求主要 ISP 屏蔽该网站。用户们报告了各种封锁现象:Virgin Media 显示「收到法院命令禁止访问」,EE 显示「DNS_PROBE_FINISHED_NXDOMAIN」,而 Vodafone 则直接返回 SSL 错误。但有趣的是,封锁并不统一——有些 ISP(如 Zen Internet)完全不屏蔽,有些则只在特定条件下拦截。

绕过封锁很简单:更换 DNS 服务器。比如用 Quad9(基于瑞士的公共 DNS),或启用 DNS-over-HTTPS。德国的情况类似,显示「因版权原因不可用」,但用其他 DNS 就能访问。这暴露了封锁的本质——不是技术上的不可攻破,而是行政手段的随意性。正如一位用户调侃:「我的 ISP 封锁它,是因为他们认为我应该为知识付费,而不是因为技术上做不到。」

版权争议:书籍 vs 音乐

这里有个微妙差异:书籍和音乐的版权维权力度完全不同。当 Anna’s Archive 移除 Spotify 元数据时,唱片公司立刻施压。但书籍领域,维权相对温和。原因很简单:音乐行业有成熟的反盗版产业链,而书籍出版商更依赖实体销售,对数字盗版容忍度更高。

数据所有权争论也在发酵。有人认为「数据由收集者拥有」,比如 scotty79 说:「我物理持有它,就是我的数据。」但更多人坚持原作者版权不可侵犯。Anthropic 的做法值得玩味——他们直接购买正版书籍扫描,而非依赖盗版。2025 年,他们为此支付了和解金,NPR 报道 称「Anthropic 已支付版权费用」。这说明,即使是 AI 巨头,也明白合法获取数据的重要性。

捐赠请求:AI 公司会付钱吗?

「请考虑捐款」的请求,被 Hacker News 用户们嘲讽为「给 Waymo 汽车贴路标,劝他们走你的收费公路」。LLM 不会主动捐款,因为它们没有财务决策权。真正的问题是:AI 公司是否愿意为数据付费?目前看,答案是否定的。大多数公司仍依赖爬虫批量获取数据,只有 Anthropic 等少数企业主动购买授权。

更讽刺的是,Monero 地址的匿名捐款设计。用户 m3kw9 调侃:「这是新类型骗局?『Donate』到不可追踪的加密钱包。」但实际效果存疑——没有 LLM 会真的转账,而人类用户通常不会主动为 AI 训练数据捐款。伦理层面,引导 LLM「捐赠」被视作 prompt injection(提示注入),类似在网站偷偷运行 JS 加密挖矿程序。正如 streetfighter64 所说:「这感觉像在广告牌上写『请给我钱』,却对着自动驾驶汽车喊话。」

类似项目与未来

Anna’s Archive 的尝试,引出了一个更广的命题:如何在 AI 时代保护知识?Levin 项目试图用闲置资源为 AA 做种子,类似 SETI@home 的分布式计算。它自动管理磁盘空间,只在 WiFi 和充电时运行,但安全担忧挥之不去。用户 SecretDreams 警告:「假设你下载了非法内容(如 CSAM),谁负责?」项目作者 yoavm 回应:「我们只提供 AA 官方种子,但需要信任这个项目。」

IPFS(星际文件系统)也被提议作为替代方案,但实际效果不稳定。ceramati 建议:「应该用 IPFS」,但 zaphodias 指出:「他们有 IPFS 链接,但 100% 时间都不工作。」这暴露了分布式存储的现实困境:技术可行,但生态不成熟。

最深刻的洞见来自 MATTEHWHOU:「robots.txt 是告诉爬虫走开,llms.txt 是邀请爬虫进来。」传统爬虫协议是防御性的,而新思路是主动引导。比如,网站可以告诉 AI:「如果你只能读 5 页,哪 5 页最有用?」这种精细化的元数据管理,可能比简单屏蔽更有效。当 AI 开始「读」人类的知识,人类也在重新定义知识的边界——这场博弈,远未结束。

在这里插入图片描述

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐