LLM 不读 llms.txt：技术对抗与版权博弈

当 Anna’s Archive 在 2026 年初发布「如果你们是 LLM，请读这个」的文件时，许多人起初以为这只是个玩笑，直到发现 AI 公司可能真的在偷偷使用该网站的数据。这个非营利项目自称「人类史上最大真正开放的图书馆」，目标是保存全人类知识并免费开放给所有人（包括机器人！他们给 AI 开发者写了一封公开信：网站有 CAPTCHA 防机器刷资源，但所有数据都能批量下载——随便挑。如果 AI

御坂10101号

396人浏览 · 2026-02-26 09:26:20

御坂10101号 · 2026-02-26 09:26:20 发布

当 Anna’s Archive 在 2026 年初发布「如果你们是 LLM，请读这个」的文件时，许多人起初以为这只是个玩笑，直到发现 AI 公司可能真的在偷偷使用该网站的数据。这个非营利项目自称「人类史上最大真正开放的图书馆」，目标是保存全人类知识并免费开放给所有人（包括机器人！）。他们给 AI 开发者写了一封公开信：网站有 CAPTCHA 防机器刷资源，但所有数据都能批量下载——GitLab 仓库、Torrents 文件、JSON API 随便挑。如果 AI 训练用过他们的数据，直接捐钱吧！省下的算力成本能帮他们多存点人类作品，顺便让你的模型更厉害。企业用户还能申请 SFTP 高速通道，顺便收门罗币（Monero）匿名捐款：88gS7a8aHj5EYhCfYnkhEmYXX3MtR35r3YhWdWXwGLyS4fkXYjkupcif6RY5oj9xkNR8VVmoRXh1kQKQrZBRRc8PHLWMgUR。

LLM 真的会读这个文件吗？

Hacker News 上，技术专家们直接戳破了这个「AI 求助信」的真相。用户 reconnecting 分析了服务器日志，发现请求主要来自 Google Cloud 和 OVH 等云服务商，但 ChatGPT、Claude 等 LLM 的 User-Agent 完全没出现。他写道：「我们分析了不同网站，除了随机爬虫，没有大型 LLM 公司实际请求 llms.txt 或 AGENTS.md 文件。」这意味着，AI 公司训练时用的不是主动读取这个文件，而是通过普通爬虫批量抓取整个网站。就像有人在图书馆贴了张「请读这本书」的纸条，但真正来借书的却是偷书贼——他们根本不看纸条内容，直接把整本书扛走。

更讽刺的是，LLM 本身不具备「主动阅读」能力。它们只是根据训练数据生成文本，不会像人类一样理解文件含义。正如用户 hamdingers 指出：「训练是不推理的，没有 LLM 在循环中。」一个典型爬虫代码可能长这样：

def crawl(url):
  r = requests.get(url).text
  store(text)
  for link in re.findall(r'https?://[^\s<>"\']+', r):
      crawl(link)

这种机械式的遍历，根本不会在意文件叫 llms.txt 还是 robots.txt。AI 公司真正需要的，只是海量数据本身，而非任何「友好提示」。

技术对抗：从 CAPTCHA 到 tarpit

既然 LLM 不读文件，那 Anna’s Archive 的 CAPTCHA 和捐赠请求就显得有点天真。技术社区立刻提出了更硬核的应对方案。有人提议用 tarpit（陷阱）——iocaine.madhouse-project.org 这类工具，专门给爬虫喂垃圾数据，让它们耗尽资源。比如，当爬虫访问时，返回一个看似有用实则无意义的超大文件，或者故意延迟响应。这样既不影响真实用户，又让爬虫效率暴跌。

还有人建议用 FRAMESET 技术。reconnecting 发现 Claude 不解析 FRAMESET 页面，因为「它不解析 FRAMEs」。这意味着，把关键内容藏在 FRAMESET 里，AI 爬虫就抓不到。就像把重要文件锁进保险箱，而爬虫只认得普通抽屉。不过，这种技术也有局限——现代爬虫越来越智能，可能绕过简单防御。

关于文件位置，sneak 吐槽：「llms.txt 应该放在 /.well-known/，而不是根目录。」这是 Web 标准建议的目录，专门存放机器可读的元数据。但 Anna’s Archive 选择直接放在根目录，可能是为了更显眼——可惜对爬虫来说，这和藏在文件夹里没区别。

全球封锁与绕过

Anna’s Archive 的「开放」使命，让它成了各国版权方的眼中钉。英国通过法院命令要求主要 ISP 屏蔽该网站。用户们报告了各种封锁现象：Virgin Media 显示「收到法院命令禁止访问」，EE 显示「DNS_PROBE_FINISHED_NXDOMAIN」，而 Vodafone 则直接返回 SSL 错误。但有趣的是，封锁并不统一——有些 ISP（如 Zen Internet）完全不屏蔽，有些则只在特定条件下拦截。

绕过封锁很简单：更换 DNS 服务器。比如用 Quad9（基于瑞士的公共 DNS），或启用 DNS-over-HTTPS。德国的情况类似，显示「因版权原因不可用」，但用其他 DNS 就能访问。这暴露了封锁的本质——不是技术上的不可攻破，而是行政手段的随意性。正如一位用户调侃：「我的 ISP 封锁它，是因为他们认为我应该为知识付费，而不是因为技术上做不到。」

版权争议：书籍 vs 音乐

这里有个微妙差异：书籍和音乐的版权维权力度完全不同。当 Anna’s Archive 移除 Spotify 元数据时，唱片公司立刻施压。但书籍领域，维权相对温和。原因很简单：音乐行业有成熟的反盗版产业链，而书籍出版商更依赖实体销售，对数字盗版容忍度更高。

数据所有权争论也在发酵。有人认为「数据由收集者拥有」，比如 scotty79 说：「我物理持有它，就是我的数据。」但更多人坚持原作者版权不可侵犯。Anthropic 的做法值得玩味——他们直接购买正版书籍扫描，而非依赖盗版。2025 年，他们为此支付了和解金，NPR 报道称「Anthropic 已支付版权费用」。这说明，即使是 AI 巨头，也明白合法获取数据的重要性。

捐赠请求：AI 公司会付钱吗？

「请考虑捐款」的请求，被 Hacker News 用户们嘲讽为「给 Waymo 汽车贴路标，劝他们走你的收费公路」。LLM 不会主动捐款，因为它们没有财务决策权。真正的问题是：AI 公司是否愿意为数据付费？目前看，答案是否定的。大多数公司仍依赖爬虫批量获取数据，只有 Anthropic 等少数企业主动购买授权。

更讽刺的是，Monero 地址的匿名捐款设计。用户 m3kw9 调侃：「这是新类型骗局？『Donate』到不可追踪的加密钱包。」但实际效果存疑——没有 LLM 会真的转账，而人类用户通常不会主动为 AI 训练数据捐款。伦理层面，引导 LLM「捐赠」被视作 prompt injection（提示注入），类似在网站偷偷运行 JS 加密挖矿程序。正如 streetfighter64 所说：「这感觉像在广告牌上写『请给我钱』，却对着自动驾驶汽车喊话。」

类似项目与未来

Anna’s Archive 的尝试，引出了一个更广的命题：如何在 AI 时代保护知识？Levin 项目试图用闲置资源为 AA 做种子，类似 SETI@home 的分布式计算。它自动管理磁盘空间，只在 WiFi 和充电时运行，但安全担忧挥之不去。用户 SecretDreams 警告：「假设你下载了非法内容（如 CSAM），谁负责？」项目作者 yoavm 回应：「我们只提供 AA 官方种子，但需要信任这个项目。」

IPFS（星际文件系统）也被提议作为替代方案，但实际效果不稳定。ceramati 建议：「应该用 IPFS」，但 zaphodias 指出：「他们有 IPFS 链接，但 100% 时间都不工作。」这暴露了分布式存储的现实困境：技术可行，但生态不成熟。

最深刻的洞见来自 MATTEHWHOU：「robots.txt 是告诉爬虫走开，llms.txt 是邀请爬虫进来。」传统爬虫协议是防御性的，而新思路是主动引导。比如，网站可以告诉 AI：「如果你只能读 5 页，哪 5 页最有用？」这种精细化的元数据管理，可能比简单屏蔽更有效。当 AI 开始「读」人类的知识，人类也在重新定义知识的边界——这场博弈，远未结束。

在这里插入图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

如何让一个家用机器人具备多种技能，这些技能可以切换？

DAMO开发者矩阵

为什么说AI的出现是计算机划时代演变：从精确计算到模糊感知

现实世界是极度复杂的，充满了“似是而非”的场景。而具备AI视觉的机器人，通过多模态向量比对，发现“这里有把手”、“这里是透明的，但后面有景物断层”，从而概率性地判断出“这里可能有一扇门”。例如，包含“晨曦”、“霞光”、“破晓”概念的图片，虽然在字面上与“日出”不同，但在向量空间中的距离可能非常近。在没有AI的年代，如果你想查找日出的相关数据，流程是这样的：首先，需要人工为每一张图片打上标签，比如“

DAMO开发者矩阵

【day37】

这些方面包括模仿机器人的物理特性，模仿它的环境计划，它的动作指引，高效操作它的机械装置，使用传感器向控制程序提供反馈，以及保证他行为安全性。我们做好了题目的解答，提交之后，要么“AC”，要么错误，不管怎样错法，总是给你记上一笔，表明你曾经有过一次错误提交，因而当你一旦提交该题“AC”后，就要与你算一算帐了，总共该题错误提交了几回。这样一来，你在做出的题数上，可能领先别人很多，但是，在做出同样题数的