引导式问答-照片回忆录引导与撰写-TRAVOT
本文聚焦于**回忆录引导与自动撰写**。根据经验,即使**照片**和**书面材料**都有助于回忆记忆,随着时间的推移,它们单独使用的缺点也会显现出来,因为人们很难通过阅读书面材料回忆起新鲜的场景,也很难通过看到照片中的物体来回忆起主观体验。**整合来自与照片相关的用户记忆对话的信息**,并从这些信息中生成内容,为创建回忆录提供了一种很有前途的方法。因此,本文提出**TRAVO** 一种AI机器人系
论文:Conversational Robot System for Travel Memoir Generation
会议:ACM Transactions on Human-Robot Interaction 2025
作者:Kaon Shimoyama et al.
核心关键词:Human-robot interaction | Memoir | Robot conversation
一、动机 & 问题背景
1.1 研究动机
本文聚焦于回忆录引导与自动撰写。
根据经验,即使照片和书面材料都有助于回忆记忆,随着时间的推移,它们单独使用的缺点也会显现出来,因为人们很难通过阅读书面材料回忆起新鲜的场景,也很难通过看到照片中的物体来回忆起主观体验。
整合来自与照片相关的用户记忆对话的信息,并从这些信息中生成内容,为创建回忆录提供了一种很有前途的方法。
因此,本文提出TRAVO 一种AI机器人系统,其通过与用户对话来生成旅行回忆录。
1.2 问题背景与现有方法不足
作者系统分析了与回忆录引导与自动撰写 有关的三类不同工作的现有方法的局限性:
(1)基于图像的自动生成方法
- 依赖图像描述或视觉问答模型
- 只能覆盖地点、场景、物体等可见信息
- 无法获取主观体验与叙事性内容
(2)基于规则的对话系统
- 用户体验差
- 对话流程僵硬,缺乏灵活性
- 形如问卷调查,难以激发深度回忆
- 多次重复提问同一问题
- 无法激发用户产生自己没有想到的想法
(3)开放式对话模型(直接使用 LLM)
- 对话自然,但缺乏目标约束
- 易出现话题发散、重复提问、关键信息遗漏等问题
基于上述发现的问题,本文聚焦解决下面三个问题:
- 问题1:不能根据上下文提出问题
- 问题2:不能加深话题
- 问题3:多余的问题
二、TRAVOT 方法概览
本文提出TRAVOT,一种与旅行照片关联的交互式地引出用户回忆的系统。TRAVOT旨在通过受控的多轮对话,引导用户回忆照片背后的经历,并生成结构完整、具有叙事性的旅行回忆录。
TRAVOT架构 由两个主要组件组成:Response Generation Unit (响应生成单元) 和 Memoir Generation Unit(回忆录生成单元)
Response Generation Unit (响应生成单元) :让用户就他们的旅行照片进行对话,以获取回忆录创作所需的背景信息。
Memoir Generation Unit(回忆录生成单元) :使用这些背景信息和照片来生成旅行回忆录。保存对话历史记录以支持回忆录生成。
三、TRAVOT的构成
3.1 Response Generation Unit(响应生成单元)
Response Generation Unit 的主要作用是 围绕用户的旅行照片,与用户进行多轮灵活自然的对话,系统性地引导用户回忆关键经历要素,逐步获取生成回忆录所需的背景信息与叙事素材。该单元并不直接生成最终回忆录,而是承担信息引出与对话控制的核心任务。
3.1.1 Response Generation Unit 的组成
Response Generation Unit 由以下子模块构成:
-
Speech Recognition(语音识别)
将用户的语音输入转换为文本,用于后续对话理解与生成。 -
Speech Synthesis(语音合成)
将系统生成的文本回复转化为语音输出,实现自然的人机语音交互。 -
Image Captioning(图像字幕生成)
对输入的旅行照片生成客观描述,用于:- 为对话提供上下文锚点
- 限定对话主题范围,防止生成内容与照片无关
-
Prompt Control Module(提示控制模块)
是TRAVOT 系统中负责对话流程调度与生成约束的核心模块,在下一小节会重点介绍。对对话流程进行调度与约束,是 Response Generation Unit 的核心控制模块,负责:- 决定当前轮次使用的 Prompt 类型
- 管理尚未覆盖的关键信息
- 控制对话深度与节奏
-
Text Generation Module(文本生成模块)
基于当前 Prompt、对话历史及图像信息,生成系统的自然语言回复,与用户展开对话。
3.1.2 Prompt Control Module 提示控制模块
Prompt Control Module 是 TRAVOT 系统中负责对话流程调度与生成约束的核心模块。
该模块基于以下三类信息,动态更新并控制 Text Generation Module(文本生成模块)的提示(Prompt):
- 用户当前话语
- 文本生成模块上一轮的输出
- 当前照片对应的对话时间进度
通过上述信息,Prompt Control Module 实现对对话内容、话题深度以及对话节奏的统一管理。

3.1.2.1 模块组成
Prompt Control Module 由以下五个子模块构成:
- Required Questions List(必答问题列表)
- Change-of-Topic Judgment(using LLM)(换话题判断)
- Required Question Matching(using LLM)(必答问题匹配)
- Prompt Management(提示管理)
- Dialog Time Management(对话时间管理)
其中,Change-of-Topic Judgment 与 Required Question Matching 均基于 LLM 实现,用于对对话状态进行语义级判断。
3.1.2.2 Required Questions List(必答问题列表)
Required Questions List 用于刻画生成一段完整旅行回忆所需的关键信息。
Prompt Management 模块从预定义的必答问题集合中,随机选择四个问题,构成当前照片对应的“必答问题列表”。 这些问题作为必须被覆盖的语义槽位存在。每张照片随机选择其中一部分,用于约束对话中需要补全的信息。在对话过程中,每当一个问题被确认已回答,该问题即从必答问题列表中移除。
3.1.2.3 Prompt Management(提示管理)
Prompt Management 负责根据当前对话状态,构造并更新发送给 Text Generation Module 的提示。
其工作流程如下:
- 从必答问题列表中选择尚未回答的问题 (Base Prompt 自然延展当前话题)
- 构造 剩余问题提示(Remaining Question Prompt)
- 将以下信息一并发送给文本生成模块:
- 当前照片的图像字幕(image caption)
- 剩余必答问题集合
- 当前选中的提问目标
- 照片级对话切换机制
- Countdown Promp 控制对话长度,逐步引导话题收束
剩余问题提示(Remaining Question Prompt) 用于生成与当前照片标题相关的AI引导式问题,引导用户回答四个必答问题中尚未回答的一个(随机选择)。当系统围绕某一问题完成一次提问后,该问题将从必答问题列表中删除,对话继续进行,直至列表为空。
照片级对话切换机制:
当某一照片对应的 必答问题列表为空 时,系统认为该照片相关的回忆信息已充分收集。随后系统将:
- 选择下一张照片及其图像字幕
- 使用新照片重新初始化四个必答问题
- 开始针对新照片的新一轮对话
通过该机制,TRAVOT 实现了以照片为单位的分段式对话管理。
3.1.2.4 Change-of-Topic Judgment(换话题判断)
为解决对话难以深化的问题,系统引入 Change-of-Topic Judgment 模块,对用户话语进行话题延展性判断。
当用户发言后,该模块基于 LLM 对用户话语进行分析,并根据“会话是否仍具备继续可能性”进行二分类判断:
-
Topic Continuation(主题继续):
当前话语仍包含可进一步挖掘的信息,对话可继续围绕该主题展开。 -
Change Topic(主题改变):
当前话语信息密度较低,继续对话难以获得新的有效回忆,应转向其他问题或主题。
该判断结果将直接影响 Prompt Management 所采用的提示类型。
3.1.2.5 Required Question Matching(必答问题匹配)
Required Question Matching 模块用于判断某个必答问题是否已经在对话中被回答。
该模块基于 LLM,对以下两类文本进行匹配判断:
- 用户的自然语言输入
- 文本生成模块输出的系统话语
一旦系统判断某条话语已覆盖某个必答问题,该问题将立即从必答问题列表中移除,从而避免后续重复提问。
3.1.2.6 Dialog Time Management(对话时间管理)
为防止单张照片的对话时间过长,Prompt Control Module 引入对话时间管理机制。
- 每张照片对应一个最大对话时间阈值
- 当剩余对话时间少于 两分钟,且当前照片仍存在未完成的必答问题时系统将激活 倒计时提示(Countdown Prompt)
倒计时提示通过一个随时间递减的指示器,逐步引导对话收束。
指示器数值越接近零,系统越倾向于结束当前主题,并明确指示文本生成模块不要再提出新的问题。
Prompt Control Module 提示控制模块 通过结合结构化问题约束与基于 LLM 的语义判断,实现了:对话主题的动态控制 、关键信息的系统性覆盖 、对话长度与节奏的稳定管理。该模块是 TRAVOT 系统能够在自然对话与高质量回忆生成之间取得平衡的关键。
3.2 Memoir Generation Unit(回忆录生成单元)
Memoir Generation Unit 利用 Response Generation Unit 所积累的对话历史与照片信息,生成最终的旅行回忆录文本。该单元是系统中的生成阶段,不再参与对话控制。
3.2.1 输入与输出
-
输入:
- 用户与系统的完整对话历史
- 对应的旅行照片及其图像描述信息
-
输出:
- 一篇或多段结构清晰、叙事连贯的旅行回忆录文本
3.2.2 设计特点
- 回忆录生成不直接拼接对话内容
- 而是对对话中蕴含的回忆信息进行重组与叙事化表达
- 同时保留对话历史,以支持后续编辑或再次生成
上述两个模块通过对话历史这一中间表示进行解耦,使系统在交互阶段与生成阶段均具备良好的可控性与扩展性。
四、实验设置与结果
4.1 实验设置
对比方法:
- 基于规则的对话系统
- 无结构约束的自由对话系统
- TRAVOT(本文方法)
评估方式:
- 用户主观评分(回忆深度、自然度、满意度)
- 生成文本的完整性与叙事性分析
- 对话流畅性与重复率分析
4.2 实验结果

上面左图是 AI 在每次对话中提出的未包含在要求的问题中的内容的平均问题数量。
右图是照片未包含但在对话中提及的信息的平均条数。
实验结果表明:
- TRAVOT 在回忆完整性、叙事质量和用户参与度方面均优于对比方法
- 系统更容易引导用户回忆照片中未直接呈现的信息
- 用户对生成的回忆文本具有更高的情感认同感和保存意愿
结果验证了结构化引导对回忆唤醒与叙事生成的有效性。
五、结论
5.1 方法优势
- 将结构化信息需求与自然语言生成有效结合
- 显著减少自由对话中的话题发散与重复问题
- 对模型规模与微调依赖较低,工程可控性强
- 方法具有良好的迁移性,可用于会议总结、访谈记录、项目复盘等任务
5.2 方法不足
- Required Questions 依赖人工设计,灵活性有限
- Meta-LLM 判断可能存在误判与延迟
- 未支持跨会话的长期记忆建模
- 尚未引入结构化存储形式(如知识图谱)
5.3 总体评价
本文的核心贡献在于提出了一种面向叙事生成的结构化对话控制范式。
该工作为大语言模型在复杂认知任务中的可控使用提供了重要的系统设计参考。
原文与参考:
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)