人们现在正在使用超级玛丽来对人工智能进行基准测试

需要明确的是，这款游戏与 1985 年发行的原版《超级玛丽》并不完全相同。由郝氏自主开发的 GamingAgent 为人工智能提供了基本指令，例如“如果附近有障碍物或敌人，请向左移动/跳跃以躲避”和游戏截图。有趣的是实验室发现，像 OpenAI 的o1这样的推理模型，通过一步步“思考”问题来得出解决方案，表现不如“非推理”模型，尽管在大多数基准测试中表现更强劲。最近的玛丽游戏基准测试表明，Open

qq_35582643

361人浏览 · 2025-03-06 09:02:11

qq_35582643 · 2025-03-06 09:02:11 发布

加州大学圣地亚哥分校的研究机构 Hao AI Lab 周五将 AI 投入到《超级玛丽》实况游戏中。Anthropic 的Claude 3.7表现最佳，其次是 Claude 3.5。谷歌的Gemini 1.5 Pro和 OpenAI 的GPT-4o表现不佳。需要明确的是，这款游戏与 1985 年发行的原版《超级玛丽》并不完全相同。这款游戏在模拟器中运行，并与GamingAgent框架集成，让 AI 可以控制玛丽。

由郝氏自主开发的 GamingAgent 为人工智能提供了基本指令，例如“如果附近有障碍物或敌人，请向左移动/跳跃以躲避”和游戏截图。然后人工智能以 Python 代码的形式生成输入来控制超级玛丽。游戏迫使每个模型“学习”规划复杂的动作并制定游戏策略。有趣的是实验室发现，像 OpenAI 的o1这样的推理模型，通过一步步“思考”问题来得出解决方案，表现不如“非推理”模型，尽管在大多数基准测试中表现更强劲。

研究人员表示，推理模型难以玩此类实时游戏的主要原因之一是它们需要一段时间（通常是几秒钟）来决定行动。在《超级玛丽》中，时间就是一切。一秒钟就意味着安全跳过和坠落致死之间的差别。

几十年来，游戏一直被用来衡量人工智能。但一些专家质疑将人工智能的游戏技能与技术进步联系起来是否明智，与现实世界不同，游戏往往比较抽象和简单。但它们为训练人工智能提供了理论上无限量的数据。

最近的玛丽游戏基准测试表明，OpenAI 的研究科学家兼创始成员 Andrej Karpathy 存在所谓的“评估危机”。他在X 上的一篇文章中写道：“我真的不知道现在应该关注什么（AI）指标。简而言之，我的反应是我真的不知道这些模型现在哪个好。