对image caption任务做evaluation（计算Bleu1，Bleu2，Bleu3，Bleu4，METEOR，ROUGE_L，CIDEr）

用到一两个image caption任务的模型，模型中没有给出性能评估的方法，于是在github上找到了一个能够评估image caption的模型，该模型能够提供常见的评价指标的结果，包括Bleu1，Bleu2，Bleu3，Bleu4，METEOR，ROUGE_L，CIDEr，SkipThoughtsCosineSimilarity，EmbeddingAverageCosineSimilarit

xiyou__

1696人浏览 · 2021-11-23 15:29:37

xiyou__ · 2021-11-23 15:29:37 发布

用到一两个image caption任务的模型，模型中没有给出性能评估的方法，于是在github上找到了一个能够评估image caption的模型，该模型能够帮助计算常见的评价指标的结果，包括Bleu1，Bleu2，Bleu3，Bleu4，METEOR，ROUGE_L，CIDEr，SkipThoughtsCosineSimilarity，EmbeddingAverageCosineSimilarity，VectorExtremaCosineSimilarity，GreedyMatchingScore。
github地址：点击链接

依照github上的要求一步步安装后，在nlg-eval-master根目录上导入result.txt（生成的caption），caption1.txt（caption的标准结果1），caption2.txt（caption的标准结果2），caption3.txt（caption的标准结果3），caption4.txt（caption的标准结果4），caption5.txt（caption的标准结果5），并创建文件evaluation.py：

import nlgeval
res=nlgeval.compute_metrics(hypothesis='./result.txt',
                   references=['./caption1.txt','./caption2.txt','./caption3.txt','./caption4.txt','./caption5.txt'])
print(res)

就会得到各评价指标的结果。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

深度解析工程化基石：构建自动化测试的“安全带”——Harness 模式实践指南

在未来的工程实践中，随着基础设施即代码（IaC）的普及，将 Harness 与基础设施自动化工具（如 Terraform 或 Pulumi）深度融合，将成为构建“自愈型”研发流水线的必然选择。你可以将其想象为工业机器人手臂上的“卡盘”，无论夹持的是什么样的零件，卡盘的接口永远是标准化的。在一个成熟的工程中，Harness 应该负责解析容器内的 Bean 依赖，并在测试运行前将 Mock 的接口实例

DAMO开发者矩阵

从 Prompt 对话到 OpenClaw：Agent 是怎么一步步发展出来的？

Agent 的发展，不是简单从“聊天机器人”变成“更聪明的聊天机器人”。文本生成→ 中间推理→ 外部知识→ 工具调用→ 循环执行→ 工程框架→ 协议标准→ 真实工作流其中每一步都在解决一个实际问题。Prompt 对话：模型只生成答案CoT：让模型生成推理步骤RAG：让模型接入外部知识ReAct：让模型把推理和行动交替起来Toolformer / Function Calling：让行动变成工具调用