在深度学习对话机器人中，NLU、DST、DPO、NLG 的含义如下：

MYH516

467人浏览 · 2025-09-09 20:55:20

MYH516 · 2025-09-09 20:55:20 发布

NLU（Natural Language Understanding，自然语言理解）：它是自然语言处理的一个子领域，主要作用是对用户输入的句子或者语音识别结果进行处理，旨在让计算机理解人类语言的含义，从中提取用户对话意图以及所传递的相关信息，像意图识别、实体抽取、领域识别和语义消歧等都属于其范畴。
DST（Dialogue State Tracking，对话状态跟踪） ：是对话管理的重要组成部分，其会综合当前对话历史、之前的系统动作以及 NLU 得到的当前用户意图和槽值对信息等，来跟踪并维护对话的动态状态，输出当前每个对话状态的取值的概率分布，为后续系统决策提供依据。
DPO（Direct Preference Optimization，直接偏好优化） ：是一种用于优化大语言模型的方式，可让模型输出内容更契合人类偏好。该方法直接采用人类对模型输出的偏好数据，例如 “输出 A 比输出 B 更好” 此类信息去优化模型，将偏好优化变为简单的监督学习任务，相比传统强化学习框架中的复杂奖励模型，它具有计算效率更高、稳定性更强等优势。
NLG（Natural Language Generation，自然语言生成） ：作为自然语言处理的一个子类别，是指利用人工智能从结构化和非结构化数据里创建自然语言输出的过程，其能把计算机内部的结构化数据或者决策信息转化为自然流畅的人类语言，以此作为机器人对用户的回复。