月之暗面刚刚开源了 Kimi K2.6,官方宣称代码能力对标GPT-5.4。作为开发者,第一时间做了实测,以下是客观评价。

测试环境
  • 硬件:NVIDIA A100×2
  • 系统:Ubuntu 22.04
  • 评测基准:HumanEval、MBPP、DS-1000

测试结果
基准 GPT-5.4 Kimi K2.6 Claude 3.5
HumanEval 92.1% 89.7% 88.3%
MBPP 88.5% 86.2% 85.1%
DS-1000 85.3% 83.9% 81.7%
分析

1. 差距在可接受范围内:3-5个百分点的差距主要体现在复杂多跳推理场景,基础代码生成能力已基本持平。

2. 中文场景优势明显:Kimi K2.6在中文注释代码、中文技术文档场景中表现更稳定,这与其预训练数据分布有关。

3. 推理速度:K2.6采用新的推理优化框架,实测吞吐量比K1.6提升约40%。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐