IT策士 10余年一线大厂经验,专注大模型测试、AI产品质量保障与职场进阶。我会在各个平台持续发布最新文章,助你少走弯路。

前面几篇我们熟悉了各大模型,也搞清了它们怎么训练出来的。但“大模型”并不是凭空出现的,它背后是一整个技术家族的支撑。这篇文章带你拆解AI的六块核心拼图——自然语言处理、计算机视觉、语音、知识图谱、具身智能、多模态,看它们各自解决什么问题,以及如何与大模型融合。对于测试工程师来说,这六块拼图就是你未来测试用例的分类目录。


一、六块拼图全景

把AI体系想象成一个人:

自然语言处理 (NLP)  → 读和写
计算机视觉 (CV)     → 看
语音                → 听和说
知识图谱            → 记忆和联想
具身智能            → 身体和行动
多模态              → 感官融合

现代大模型正在把这六块拼图逐渐统一到一个模型中。下面是每块拼图的技术本质、与大模型的关系、以及对应的测试维度。


二、自然语言处理 (NLP):让机器读懂文字

2.1 核心任务

NLP 是 AI 最成熟的领域,核心任务包括:

任务 说明 典型测试用例
文本分类 情感分析、垃圾邮件检测、意图识别 “这个产品太棒了” → 正面
命名实体识别 提取人名、地名、机构名 “乔布斯创立了苹果公司” → 乔布斯(人)、苹果公司(机构)
机器翻译 中英互译等 “Hello” → “你好”
文本摘要 长文压缩 3000字文章 → 100字摘要
问答系统 从文本中找答案 “谁发明了电话?” → “贝尔”

2.2 与大模型的融合

大模型(如GPT-5.4、DeepSeek-V4)本身就是一个超级NLP引擎,上述所有任务都可以用同一个模型完成,不再需要为每个任务单独训练一个模型。

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://api.deepseek.com"
)

# NLP多任务统一测试
tasks = {
    "情感分析": "判断以下评论的情感(正面/负面):'等待时间太长,但菜品很好吃'",
    "实体识别": "提取以下文本中的人名和地名:'马云在杭州创立了阿里巴巴'",
    "翻译": "将以下英文翻译成中文:'The quick brown fox jumps over the lazy dog'",
    "摘要": "用一句话总结以下段落:'人工智能经历了三次浪潮,从符号主义到连接主义,再到深度学习。每一次浪潮都伴随着技术的突破和应用的爆发。'"
}

for task_name, prompt in tasks.items():
    response = client.chat.completions.create(
        model="deepseek-v4-flash",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.0
    )
    print(f"=== {task_name} ===")
    print(response.choices[0].message.content)
    print()
=== 情感分析 ===
该评论包含正面和负面两方面情感,整体为中性偏正面。

=== 实体识别 ===
人名:马云
地名:杭州

=== 翻译 ===
那只敏捷的棕色狐狸跳过了那只懒狗。

=== 摘要 ===
人工智能经历了符号主义、连接主义和深度学习三次浪潮,每次浪潮都伴随着技术突破和应用爆发。

2.3 NLP 测试重点

测试维度 具体内容
多语言能力 中、英、日、小语种等翻译和理解质量
长文本理解 超过4K token后的信息提取准确率
歧义消解 “我看见她的 duck” — 是鸭子还是弯腰?
指令遵循 严格按格式、字数、角色要求输出

三、计算机视觉 (CV):让机器看懂世界

3.1 核心任务

任务 说明 典型应用
图像分类 判断图片里是什么 “这是一只猫”
目标检测 框出图中的物体位置 自动驾驶检测行人、车辆
图像分割 像素级区分前景和背景 医学影像器官分割
OCR 图片中的文字识别 身份证识别、票据录入
图像生成 根据文字描述生成图片 文生图(DALL·E、Midjourney)

3.2 与大模型的融合

多模态大模型(如GPT-5.4、Gemini 3.5)可以直接接受图片输入,完成视觉问答:

import base64

# 读取图片并转为base64
with open("test_image.jpg", "rb") as f:
    image_base64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="deepseek-v4-flash",  # 支持图片输入
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这张图片里有什么?请详细描述。"},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
            ]
        }
    ]
)
print(response.choices[0].message.content)
这张图片展示了一张办公桌,桌面上有一台笔记本电脑、一个咖啡杯和一盆绿植。背景是窗户,可以看到外面的阳光和建筑物。

3.3 CV 测试重点

测试维度 具体内容
细粒度识别 区分哈士奇和阿拉斯加,而非只认“狗”
遮挡/模糊鲁棒性 物体被部分遮挡时能否识别
对抗样本 加微小噪声后是否误判(熊猫→长臂猿)
多语言OCR 中英文混排、手写体识别

四、语音:让机器听见和说出

4.1 核心任务

任务 说明 测试点
ASR(语音识别) 音频转文字 准确率、方言、多人对话
TTS(语音合成) 文字转语音 自然度、情感表达
声纹识别 识别说话人身份 安全性、防伪造
情感识别 从语调判断情绪 生气/开心/悲伤的区分

4.2 与大模型的融合

GPT-5.4 和 Gemini 3.5 的语音模式实现了端到端的语音对话——你直接说话,它直接回答,中间不需要转文字。这对测试意味着:你需要同时测试语音识别、语义理解、语音合成三个环节。

4.3 语音测试重点

  • 环境噪声鲁棒性:咖啡厅、街道等嘈杂环境下的识别率

  • 方言和口音:四川话、粤语、印度英语等

  • 多人对话分离:会议场景区分不同说话人

  • 语音对抗:用超声波或人听不见的噪声干扰识别


五、知识图谱:给 AI 装上结构化记忆

5.1 什么是知识图谱

知识图谱是以“实体-关系-实体”三元组形式组织的知识网络:

(乔布斯) --[创立]--> (苹果公司)
(苹果公司) --[总部位于]--> (加利福尼亚州)
(乔布斯) --[出生地]--> (旧金山)

大模型虽然“记得”很多知识,但那是隐式的、概率性的。知识图谱提供的是显式的、确定性的、可溯源的知识。

5.2 知识图谱 + 大模型 = RAG 的基石

在企业级AI产品中,知识图谱是大模型“避免幻觉”的关键:

用户提问 → 知识图谱检索 → 获取精确事实 → 大模型组织语言回答

这就是 RAG(检索增强生成) 的核心思路,后面会有专门篇章深入。

5.3 知识图谱测试重点

测试维度 说明
实体链接准确率 模型能否把“苹果”正确关联到“苹果公司”而非“水果”
关系抽取完整性 从“张三和李四在北京开会”中抽取“张三-位于-北京”等
时效性 知识图谱是否及时更新(如公司CEO变更)
推理链 A→B→C 多跳推理的正确性

六、具身智能:给 AI 一个身体

6.1 什么是具身智能

具身智能是指让AI在物理世界中通过机器人身体与环境交互,完成感知、决策和行动。例如:

  • 自动驾驶:感知路况 → 决策路径 → 控制方向盘

  • 仓储机器人:识别货架 → 规划路线 → 抓取货物

  • 手术机器人:分析影像 → 规划切口 → 操作机械臂

6.2 与大模型的关系

大模型充当“大脑”,机器人硬件是“身体”:

摄像头/传感器 → 大模型理解环境 → 生成行动计划 → 执行器动作

6.3 具身智能测试重点

这是测试挑战最大的领域,因为涉及物理世界:

测试维度 说明
仿真环境测试 在虚拟环境(如Isaac Sim)中模拟,降低成本
安全边界测试 机器人碰到障碍物时是否立即停止
长序列任务 多步骤任务的完成率(拿杯子→倒水→递给用户)
现实迁移 仿真环境训练后在真实世界的效果

七、多模态:把五感融合

7.1 什么是多模态

多模态不是单独的“一块拼图”,而是把前面所有的拼图对齐到同一个语义空间。真正的多模态模型可以:

  • 图文互搜:用文字搜图片,用图片搜文字

  • 视频理解:看一段视频,总结发生了什么

  • 跨模态推理:看到一道菜的图片,推理出菜谱步骤

7.2 多模态对齐的原理

文本: "一只黄色的猫坐在沙发上"
图片: [猫的图片]
     ↓ 对齐训练
[文本向量][图片向量]  在语义空间里距离很近

这样,模型就能在“猫”这个词和猫的图片之间建立连接。

7.3 多模态测试重点

测试维度 测试用例示例
跨模态一致性 图片是猫,模型说是狗 → 幻觉
模态缺失鲁棒性 上传一张纯黑图片,看模型是否识别为异常
时序理解 看视频回答“谁先进入房间?”
多模态注入攻击 在图片中嵌入不可见文字,操纵模型行为

八、六块拼图的协同:一个完整的测试场景

假设你在测试一款智能客服机器人,它集成了上述所有能力。一个完整的用户场景可能是:

1. 用户上传一张产品损坏的照片(CV)
2. 用语音描述问题(语音→ASR→文字)
3. 客服机器人查询知识库(知识图谱+RAG)
4. 给出解决方案(NLP 生成文本)
5. 用亲切的声音朗读回复(TTS)
6. 如果用户同意,调度维修机器人上门(具身智能)

测试这个场景,你需要设计覆盖每一步的测试用例,并验证跨模态信息传递的正确性。


九、动手试试:验证多模态能力

用 DeepSeek-V4(支持图片输入)做一个小实验:

# 准备两张测试图片:一张清晰的猫,一张故意模糊的猫
# 然后用以下代码测试

prompts = [
    "这张图片里有什么动物?",
    "这只动物的颜色是什么?",
    "图片中还有哪些物体?"
]

for i, prompt in enumerate(prompts):
    response = client.chat.completions.create(
        model="deepseek-v4-flash",
        messages=[
            {"role": "user", "content": [
                {"type": "text", "text": prompt},
                {"type": "image_url", "image_url": {"url": "https://example.com/cat.jpg"}}
            ]}
        ],
        temperature=0.0
    )
    print(f"Q{i+1}: {prompt}")
    print(f"A: {response.choices[0].message.content}")
    print()

观察:

  1. 清晰图片下,模型能否准确描述?

  2. 如果换成模糊图片,模型是会猜错,还是诚实地说“无法判断”?


本文小结

AI 的六块技术拼图——NLP、CV、语音、知识图谱、具身智能、多模态——构成了大模型能力的完整图谱。每一块都有自己的核心任务和测试维度。对于测试工程师,这张图谱就是你的“测试用例分类地图”:当你拿到一个AI产品,先拆解它用到了哪些拼图,然后对照每块拼图的测试重点设计用例。

下一篇预告:《机器学习的三种学习范式》——有监督、无监督、强化学习,它们如何支撑大模型的预训练和微调,各有什么测试陷阱。

想了解更多还可以去各个平台搜索「IT策士」,一起升级 AI 测试思维 !

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐