破折号的背叛:AI 入侵论坛背后的数据博弈
最近,Hacker News 上出现了一个奇怪现象:新注册账号使用 em-dash(破折号)的概率比老账号高出十倍。这不仅让排版爱好者感到困惑,更让许多人开始怀疑——是不是 AI 机器人正在悄悄占领网络讨论区?
最近,Hacker News 上出现了一个奇怪现象:新注册账号使用 em-dash(破折号)的概率比老账号高出十倍。这不仅让排版爱好者感到困惑,更让许多人开始怀疑——是不是 AI 机器人正在悄悄占领网络讨论区?
一个统计发现的异常
2026 年 2 月 25 日,一位名为 marginalia_nu 的用户在个人博客上发布了一篇分析文章。他通过统计 Hacker News 的评论数据发现,新注册账号使用 em-dash 的概率高达 17.47%,而老账号只有 1.83%。更值得注意的是,新账号提及 AI 和 LLM 的频率也比老账号高(18.67% vs 11.8%)。这些差异的统计显著性极高,p 值小到几乎不可能是随机产生的。
em-dash 原本是专业排版用的符号,用于表示停顿或插入语。在印刷和排版领域,它有明确的使用规范。但如今,这个符号却成了判断 AI 生成内容的「线索」。这让许多习惯使用 em-dash 的人感到困扰——有人指出:「我用 alt+shift± 用了十年,现在不敢用了」。
为什么 AI 喜欢用 em-dash?
为什么 AI 生成的内容特别爱用 em-dash?这可能与训练数据有关。AI 模型在训练时接触了大量文本,而这些文本中 em-dash 的使用模式可能与人类不同。但更令人担忧的是,即使知道 em-dash 是 AI 的「指纹」,很多 AI 生成工具仍然继续使用它。一位用户评论道:「你大概以为现在机器人会改掉这个习惯,但事实是,它们连基本的系统提示都不会调整——『不要用 em-dash』这种简单指令都做不到。」
实际上,em-dash 在专业写作中很常见。Robert Caro 的传记作品就大量使用 em-dash,有用户提到:「我读过 Robert Caro 的所有书——这位作者超爱用 em-dash!」但如今,这个排版习惯却成了 AI 的「标志」,让真正懂排版的人反而不敢用。
AI 评论的「套路」暴露
除了 em-dash,AI 生成的评论还有一些固定套路。例如,有人发现 AI 常用「this is [summary]」、「not just X, it’s Y」、「is real」等结构。这些套路让 AI 评论显得公式化、缺乏个性。一位用户吐槽:「每次看到『I have been thinking about this a lot lately』,我的眼睛都会翻白。」
更具体地说,一位分析者统计了新账号高频使用的词汇:
word noob new p-value
---------------------------
ai 14.93% 7.87% p=0.00016
actually 12.53% 5.34% p=1.1e-05
code 11.47% 6.04% p=0.00081
real 10.93% 2.95% p=2.6e-08
built 10.93% 2.11% p=2.1e-10
这些词汇的异常高频使用,暴露了 AI 评论的「配方」。
为什么有人用 AI 刷评论?
为什么有人用 AI 生成评论?有分析指出,这可能是为了积累老账号,用于未来的虚假宣传或操控讨论。另一位用户解释:「这些账号可能一开始只是发些无意义的评论,等积累足够多的『声望』后,再用来推广产品或影响舆论。」
例如,有人发现一个名为「aplomb1026」的账号,30 秒内连续发布两个评论,这明显超出了人类操作能力。更讽刺的是,当用户指出这个问题时,另一个账号回复:「The filter used to be effort. You had to care enough to spend weeks on something, which meant you probably understood the problem deeply. Now that filter is gone and we get a flood of『I prompted this in 20 minutes』posts where the author can’t answer a single follow-up about their own code.」
平台如何应对?
Hacker News 的管理员 dang 表示,他将继续使用 em-dash。但也有其他方案,比如 lobste.rs 采用的邀请树机制——新用户需要由老用户邀请,且邀请人的声誉会影响新用户的权限。还有人提出身份验证方案,但反对者认为这会带来隐私问题。
一位用户担忧:「信任在平台上的根基正在崩塌。」更讽刺的是,有人发现:当 Alec Schueler 评论「你的评论有大量人类特征,不像 AI」时,dmos62 回复「Exactly what an LLM would say, haha」——这说明我们已经陷入了「证明自己是人类」的悖论。
互联网的信任危机
这个现象反映了更深层的问题:当 AI 生成内容变得难以区分时,我们如何判断信息的真实性?有用户指出:「我开始故意犯语法错误,因为现在有好语法反而会被怀疑是 AI。」但另一位用户反驳:「AI 也能学着犯错,所以这根本没用。」
一位长期用户描述了这种困境:「我用了 em-dash 和正确标点很多年,现在却要担心别人觉得我是 AI。」这不只是排版习惯的问题,更是对互联网交流本质的挑战——当连「证明自己是人类」都成了图灵测试时,我们失去的可能不只是真实性,还有对彼此的信任。
未来,我们可能需要重新思考网络交流的规则。或许,真正的挑战不是区分 AI 和人类,而是如何在 AI 无处不在的时代,保持有意义的对话。毕竟,当所有人都在担心自己是否被当成机器人时,我们可能已经输掉了这场战争。

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)