BERT + 向量相似度：文本相似度计算的语义王炸组合

BERT（Bidirectional Encoder Representations from Transformers）是 Google 提出的预训练语言模型，具备双向上下文理解能力，是语义级 NLP 的开山之作。它能将一句话变成一个高维向量（通常 768 维或 1024 维），这个向量就代表了这句话的语义。

审计侠

4947人浏览 · 2025-04-10 12:49:00

审计侠 · 2025-04-10 12:49:00 发布

“相似的句子不止‘长得像’，还要‘意思像’。”

在处理文本查重、语义搜索、FAQ 匹配等任务时，仅靠关键词或哈希是不够的，尤其面对“换句话说”、“同义表达”时。此时，BERT + 向量相似度 成为了语义级文本理解的主力选手。

🧠 一、什么是 BERT？

BERT（Bidirectional Encoder Representations from Transformers）是 Google 提出的预训练语言模型，具备双向上下文理解能力，是语义级 NLP 的开山之作。

它能将一句话变成一个高维向量（通常 768 维或 1024 维），这个向量就代表了这句话的语义。

🔎 二、向量相似度的基本思想

一旦你有了两个文本的向量表示，就可以用常见的向量相似度方法来判断它们是否“语义相似”：

✅ 常用相似度计算方式：

方法	特点
Cosine 相似度	衡量两个向量的夹角（常用）
欧几里得距离	衡量两个向量的实际距离
曼哈顿距离	对抗异常值表现稳定

⚙️ 三、BERT + 向量相似度的流程

👇 示例代码（基于 Huggingface）

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

s1 = "你今天吃饭了吗？"
s2 = "你吃过饭没？"

emb1 = model.encode(s1, convert_to_tensor=True)
emb2 = model.encode(s2, convert_to_tensor=True)

cos_sim = util.pytorch_cos_sim(emb1, emb2)
print(f"相似度: {cos_sim.item():.4f}")

输出示例：

相似度: 0.89

📌 四、句向量提取策略

策略	描述
`[CLS]` 向量	通常用于分类任务，集中信息
Token 平均向量	对所有 Token 的向量取平均值
Sentence-BERT（S-BERT）	专门为句子相似度训练的 BERT 结构

推荐： 使用 Sentence-BERT，效果稳定，部署轻量。

📊 五、与 SimHash、MinHash 的对比

项目	SimHash	MinHash	BERT + 向量相似度
相似度维度	字符级	词组级	语义级
能识别改写	❌（不支持）	部分支持	✅（支持同义、句式变化）
模型大小	极小	中等	较大
速度	极快	快	慢（需 GPU 或加速）
查重能力	基本查重	精准但依赖粒度	精准查“换句话说”

🧪 六、应用场景示例

场景	效果
问答系统匹配用户问题	“买房需要什么条件？” ≈ “房产购买要求？”
新闻摘要查重	检测标题不同但内容改写的文章
语义搜索	支持按意思查文档，不止关键词
代码片段语义匹配	未来结合 CodeBERT 做智能比对

🛠️ 七、实战建议与优化

项目	建议
模型选择	推荐使用 `sentence-transformers` 提供的 S-BERT
加速方式	使用 GPU / ONNX 加速部署
向量存储方案	Faiss / Milvus / Elasticsearch 向量检索
相似度阈值设定	通常 0.85~0.9 为语义相似的阈值