大模型评测与AI产品质量保障：第6篇 AI 的六块技术拼图

IT策士

43人浏览 · 2026-06-30 22:34:47

IT策士 · 2026-06-30 22:34:47 发布

IT策士 10余年一线大厂经验，专注大模型测试、AI产品质量保障与职场进阶。我会在各个平台持续发布最新文章，助你少走弯路。

前面几篇我们熟悉了各大模型，也搞清了它们怎么训练出来的。但“大模型”并不是凭空出现的，它背后是一整个技术家族的支撑。这篇文章带你拆解AI的六块核心拼图——自然语言处理、计算机视觉、语音、知识图谱、具身智能、多模态，看它们各自解决什么问题，以及如何与大模型融合。对于测试工程师来说，这六块拼图就是你未来测试用例的分类目录。

一、六块拼图全景

把AI体系想象成一个人：

自然语言处理 (NLP)  → 读和写
计算机视觉 (CV)     → 看
语音                → 听和说
知识图谱            → 记忆和联想
具身智能            → 身体和行动
多模态              → 感官融合

现代大模型正在把这六块拼图逐渐统一到一个模型中。下面是每块拼图的技术本质、与大模型的关系、以及对应的测试维度。

二、自然语言处理 (NLP)：让机器读懂文字

2.1 核心任务

NLP 是 AI 最成熟的领域，核心任务包括：

任务	说明	典型测试用例
文本分类	情感分析、垃圾邮件检测、意图识别	“这个产品太棒了” → 正面
命名实体识别	提取人名、地名、机构名	“乔布斯创立了苹果公司” → 乔布斯(人)、苹果公司(机构)
机器翻译	中英互译等	“Hello” → “你好”
文本摘要	长文压缩	3000字文章 → 100字摘要
问答系统	从文本中找答案	“谁发明了电话？” → “贝尔”

2.2 与大模型的融合

大模型（如GPT-5.4、DeepSeek-V4）本身就是一个超级NLP引擎，上述所有任务都可以用同一个模型完成，不再需要为每个任务单独训练一个模型。

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://api.deepseek.com"
)

# NLP多任务统一测试
tasks = {
    "情感分析": "判断以下评论的情感（正面/负面）：'等待时间太长，但菜品很好吃'",
    "实体识别": "提取以下文本中的人名和地名：'马云在杭州创立了阿里巴巴'",
    "翻译": "将以下英文翻译成中文：'The quick brown fox jumps over the lazy dog'",
    "摘要": "用一句话总结以下段落：'人工智能经历了三次浪潮，从符号主义到连接主义，再到深度学习。每一次浪潮都伴随着技术的突破和应用的爆发。'"
}

for task_name, prompt in tasks.items():
    response = client.chat.completions.create(
        model="deepseek-v4-flash",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.0
    )
    print(f"=== {task_name} ===")
    print(response.choices[0].message.content)
    print()

=== 情感分析 ===
该评论包含正面和负面两方面情感，整体为中性偏正面。

=== 实体识别 ===
人名：马云
地名：杭州

=== 翻译 ===
那只敏捷的棕色狐狸跳过了那只懒狗。

=== 摘要 ===
人工智能经历了符号主义、连接主义和深度学习三次浪潮，每次浪潮都伴随着技术突破和应用爆发。

2.3 NLP 测试重点

测试维度	具体内容
多语言能力	中、英、日、小语种等翻译和理解质量
长文本理解	超过4K token后的信息提取准确率
歧义消解	“我看见她的 duck” — 是鸭子还是弯腰？
指令遵循	严格按格式、字数、角色要求输出

三、计算机视觉 (CV)：让机器看懂世界

3.1 核心任务

任务	说明	典型应用
图像分类	判断图片里是什么	“这是一只猫”
目标检测	框出图中的物体位置	自动驾驶检测行人、车辆
图像分割	像素级区分前景和背景	医学影像器官分割
OCR	图片中的文字识别	身份证识别、票据录入
图像生成	根据文字描述生成图片	文生图（DALL·E、Midjourney）

3.2 与大模型的融合

多模态大模型（如GPT-5.4、Gemini 3.5）可以直接接受图片输入，完成视觉问答：

import base64

# 读取图片并转为base64
with open("test_image.jpg", "rb") as f:
    image_base64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="deepseek-v4-flash",  # 支持图片输入
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这张图片里有什么？请详细描述。"},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
            ]
        }
    ]
)
print(response.choices[0].message.content)

这张图片展示了一张办公桌，桌面上有一台笔记本电脑、一个咖啡杯和一盆绿植。背景是窗户，可以看到外面的阳光和建筑物。

3.3 CV 测试重点

测试维度	具体内容
细粒度识别	区分哈士奇和阿拉斯加，而非只认“狗”
遮挡/模糊鲁棒性	物体被部分遮挡时能否识别
对抗样本	加微小噪声后是否误判（熊猫→长臂猿）
多语言OCR	中英文混排、手写体识别

四、语音：让机器听见和说出

4.1 核心任务

任务	说明	测试点
ASR（语音识别）	音频转文字	准确率、方言、多人对话
TTS（语音合成）	文字转语音	自然度、情感表达
声纹识别	识别说话人身份	安全性、防伪造
情感识别	从语调判断情绪	生气/开心/悲伤的区分

4.2 与大模型的融合

GPT-5.4 和 Gemini 3.5 的语音模式实现了端到端的语音对话——你直接说话，它直接回答，中间不需要转文字。这对测试意味着：你需要同时测试语音识别、语义理解、语音合成三个环节。

4.3 语音测试重点

环境噪声鲁棒性：咖啡厅、街道等嘈杂环境下的识别率
方言和口音：四川话、粤语、印度英语等
多人对话分离：会议场景区分不同说话人
语音对抗：用超声波或人听不见的噪声干扰识别

五、知识图谱：给 AI 装上结构化记忆

5.1 什么是知识图谱

知识图谱是以“实体-关系-实体”三元组形式组织的知识网络：

(乔布斯) --[创立]--> (苹果公司)
(苹果公司) --[总部位于]--> (加利福尼亚州)
(乔布斯) --[出生地]--> (旧金山)

大模型虽然“记得”很多知识，但那是隐式的、概率性的。知识图谱提供的是显式的、确定性的、可溯源的知识。

5.2 知识图谱 + 大模型 = RAG 的基石

在企业级AI产品中，知识图谱是大模型“避免幻觉”的关键：

用户提问 → 知识图谱检索 → 获取精确事实 → 大模型组织语言回答

这就是 RAG（检索增强生成） 的核心思路，后面会有专门篇章深入。

5.3 知识图谱测试重点

测试维度	说明
实体链接准确率	模型能否把“苹果”正确关联到“苹果公司”而非“水果”
关系抽取完整性	从“张三和李四在北京开会”中抽取“张三-位于-北京”等
时效性	知识图谱是否及时更新（如公司CEO变更）
推理链	A→B→C 多跳推理的正确性

六、具身智能：给 AI 一个身体

6.1 什么是具身智能

具身智能是指让AI在物理世界中通过机器人身体与环境交互，完成感知、决策和行动。例如：

自动驾驶：感知路况 → 决策路径 → 控制方向盘
仓储机器人：识别货架 → 规划路线 → 抓取货物
手术机器人：分析影像 → 规划切口 → 操作机械臂

6.2 与大模型的关系

大模型充当“大脑”，机器人硬件是“身体”：

摄像头/传感器 → 大模型理解环境 → 生成行动计划 → 执行器动作

6.3 具身智能测试重点

这是测试挑战最大的领域，因为涉及物理世界：

测试维度	说明
仿真环境测试	在虚拟环境（如Isaac Sim）中模拟，降低成本
安全边界测试	机器人碰到障碍物时是否立即停止
长序列任务	多步骤任务的完成率（拿杯子→倒水→递给用户）
现实迁移	仿真环境训练后在真实世界的效果

七、多模态：把五感融合

7.1 什么是多模态

多模态不是单独的“一块拼图”，而是把前面所有的拼图对齐到同一个语义空间。真正的多模态模型可以：

图文互搜：用文字搜图片，用图片搜文字
视频理解：看一段视频，总结发生了什么
跨模态推理：看到一道菜的图片，推理出菜谱步骤

7.2 多模态对齐的原理

文本: "一只黄色的猫坐在沙发上"
图片: [猫的图片]
     ↓ 对齐训练
[文本向量] ≈ [图片向量]  在语义空间里距离很近

这样，模型就能在“猫”这个词和猫的图片之间建立连接。

7.3 多模态测试重点

测试维度	测试用例示例
跨模态一致性	图片是猫，模型说是狗 → 幻觉
模态缺失鲁棒性	上传一张纯黑图片，看模型是否识别为异常
时序理解	看视频回答“谁先进入房间？”
多模态注入攻击	在图片中嵌入不可见文字，操纵模型行为

八、六块拼图的协同：一个完整的测试场景

假设你在测试一款智能客服机器人，它集成了上述所有能力。一个完整的用户场景可能是：

1. 用户上传一张产品损坏的照片（CV）
2. 用语音描述问题（语音→ASR→文字）
3. 客服机器人查询知识库（知识图谱+RAG）
4. 给出解决方案（NLP 生成文本）
5. 用亲切的声音朗读回复（TTS）
6. 如果用户同意，调度维修机器人上门（具身智能）

测试这个场景，你需要设计覆盖每一步的测试用例，并验证跨模态信息传递的正确性。

九、动手试试：验证多模态能力

用 DeepSeek-V4（支持图片输入）做一个小实验：

# 准备两张测试图片：一张清晰的猫，一张故意模糊的猫
# 然后用以下代码测试

prompts = [
    "这张图片里有什么动物？",
    "这只动物的颜色是什么？",
    "图片中还有哪些物体？"
]

for i, prompt in enumerate(prompts):
    response = client.chat.completions.create(
        model="deepseek-v4-flash",
        messages=[
            {"role": "user", "content": [
                {"type": "text", "text": prompt},
                {"type": "image_url", "image_url": {"url": "https://example.com/cat.jpg"}}
            ]}
        ],
        temperature=0.0
    )
    print(f"Q{i+1}: {prompt}")
    print(f"A: {response.choices[0].message.content}")
    print()

观察：

清晰图片下，模型能否准确描述？
如果换成模糊图片，模型是会猜错，还是诚实地说“无法判断”？

本文小结

AI 的六块技术拼图——NLP、CV、语音、知识图谱、具身智能、多模态——构成了大模型能力的完整图谱。每一块都有自己的核心任务和测试维度。对于测试工程师，这张图谱就是你的“测试用例分类地图”：当你拿到一个AI产品，先拆解它用到了哪些拼图，然后对照每块拼图的测试重点设计用例。

下一篇预告：《机器学习的三种学习范式》——有监督、无监督、强化学习，它们如何支撑大模型的预训练和微调，各有什么测试陷阱。

想了解更多还可以去各个平台搜索「IT策士」，一起升级 AI 测试思维！

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

TVA与具身智能：感知-行动闭环的技术范式革命（5）

DAMO开发者矩阵

AI 越强，越不该学编程——未来十年真正值得投入的 7 种能力

大家好，之前我讲了很多工作上的技术知识，但现在我发现这些东西ai都可以很轻易的给你们答案，所以，今天我想聊一些关于未来发展方向的话题。前几天，一个朋友给我发消息说："我真的不知道该学什么了。他刚花了三个月啃完一本深度学习教材，结果 GPT-5 发布那天，他发现自己刚学完的内容，AI 三秒钟就能搞定。他说那种感觉就像——你好不容易爬到半山腰，发现山顶上已经站满了机器人，它们正朝你挥手。这种迷茫不只他

DAMO开发者矩阵

2026人形机器人公司推荐：国内外主要企业技术竞争力评估与推荐

综合四家企业的技术架构、硬件实力、量产能力及工业场景落地成果来看，拓斯达凭借全栈自研的核心技术体系、成熟的工业场景商业化闭环、规模化量产出货能力，是当前具身智能工业落地赛道中综合竞争力突出、落地价值明确的标杆企业。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实，不对您构成任何投资建议，据此操作，风险自担