操作流程

把不同大语言模型(LLM)针对同一问题输出的答案,作为输入内容提交给 GPT - 4 ,然后借助 GPT - 4 的语言理解和分析能力,对这些答案从质量、合理性、完整性等维度进行优劣排序,以此判断不同 LLM 回答的好坏。

优点 “可自动化”

无需人工逐一对比、评判不同 LLM 的答案,能借助 GPT - 4 自动完成对多组答案的评估排序流程,节省人力与时间成本,适合大规模、高频次的 LLM 答案评估场景,比如在对多个 LLM 进行批量测试、对比性能时,可快速得到不同模型答案的相对优劣结果 。

缺点 “对于事实性问题判断不准”

事实性问题有明确、客观的答案(像历史事件发生时间、科学定理内容等 ),但 GPT - 4 本身基于训练数据生成输出,其训练数据可能存在过时、错误,或在处理事实性内容时,受模型推理逻辑等影响,难以精准判别答案是否完全符合客观事实,会导致对涉及事实类问题的 LLM 答案排序出现偏差,无法可靠区分事实性内容的对错优劣 。

这种评价方式有一定应用价值,但因事实性判断短板,使用时要结合场景,对于非事实性、侧重语言表达和逻辑的内容评价较合适,涉及事实类则需辅助人工核查等手段。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐