免费多模态大模型来了：Agnes 三大模型实测与 Claude Code 接入指南

dozenyaoyida

152人浏览 · 2026-07-02 12:00:00

dozenyaoyida · 2026-07-02 12:00:00 发布

一、产品概述

Agnes 是新加坡 Sapiens AI 公司推出的多模态大模型产品线，覆盖文本、图像、视频三大模态。Sapiens AI 是新加坡本土模型公司，也是 Agnes AI 的母公司。其模型家族包含在 PinchBench 上榜的高精度模型，专为 OpenClaw、Hermes 等智能体工具设计。

1.1 三大产品线

Agnes AI 目前运营三条产品线：

产品	定位	入口	核心功能
Agnes	聊天机器人 / API 服务	app.agnes-ai.com	对话、搜索、创作、生产力
Echo	移动端 AI 助手	echo-ai.life	多模态对话、故事创作
Pavo	创意工具	app.pavo-ai.work	短片、智能体模式、视频生成、图像生成

1.2 模型矩阵

模型	版本	模态	API 端点	上下文窗口	状态
Agnes-1.5-Flash	v1.5	文本	`/v1/chat/completions`	256K / 64K 输出	已上线
Agnes-2.0-Flash	v2.0	文本	`/v1/chat/completions`	256K / 64K 输出	已验证
Agnes-Image-2.0-Flash	v2.0	图像	`/v1/images/generations`	—	已上线
Agnes-Image-2.1-Flash	v2.1	图像	`/v1/images/generations`	—	已验证
Agnes-Video-V2.0	v2.0	视频	`/v1/videos`	—	已上线
Agnes-Image-2.5-Preview	—	图像	待公布	—	即将发布
Agnes-Video-2.5-Preview	—	视频	待公布	—	即将发布

注：Agnes-2.0-Flash 曾于 2026 年 6 月前提供 1M 上下文窗口，后因稳定性回滚至 256K。

1.3 API 基础设施

公网 API Hub：https://apihub.agnes-ai.com/v1
认证方式：AGNES_API_KEY（Bearer Token，OpenAI 兼容格式）
协议兼容：OpenAI API 兼容（Chat Completions / Images Generations / Videos）
API 平台：https://platform.agnes-ai.com（订阅管理 / Key 管理）

二、Claude Code 多模型接入方案

核心问题：如何在 Claude Code 中同时使用 Agnes 的三个模型，而不是反复切换配置？

目前接入 Agnes 有三条路径，分别作用于 Claude Code 的不同层面：

方式	作用层面	文本	图像	视频	保留 Claude
cc-switch	主模型端点切换	✅	❌	❌	❌（替换主模型）
MCP Server	工具扩展	✅	✅	✅	✅
LiteLLM 代理	主模型端点替换	✅	❌	❌	❌（替换主模型）

2.1 cc-switch：主模型切换工具（仅文本）

cc-switch 是一个开源的桌面端配置管理工具（GitHub: farion1231/cc-switch），用于在多套 Claude Code / Codex API 供应商配置之间一键切换。你目前正是用它把 Claude Code 的主模型切到 Agnes-2.0-Flash。

工作原理：每套"供应商配置"是一组凭证——ANTHROPIC_BASE_URL + ANTHROPIC_API_KEY（或 ANTHROPIC_AUTH_TOKEN）+ 可选 ANTHROPIC_MODEL。切换时，cc-switch 把选中的配置写入 Claude Code 的 ~/.claude/settings.json（env 块）或 ~/.claude.json，下次启动 Claude Code 即指向新的端点。

cc-switch GUI
   ├─ 配置 A：官方 Anthropic   (base_url=api.anthropic.com,  model=claude-...)
   ├─ 配置 B：Agnes 文本       (base_url=<agnes端点>,        model=agnes-2.0-flash)  ← 当前启用
   └─ 配置 C：GLM / DeepSeek  (...)
        │
        ▼  一键切换 → 写入 settings.json 的 env
   Claude Code 启动 → 主对话模型 = Agnes-2.0-Flash

能做什么：一键切换主对话模型，无需手动改环境变量；可管理多套供应商配置。

不能做什么：

❌ 只能切换文本主模型。cc-switch 的配置只有"一个聊天端点"，没有图像/视频模型的位置。
❌ 无法配置图像或视频模型。Claude Code 主循环只走文本对话（Messages API），没有"图像生成端点""视频生成端点"可供重定向。
❌ 替换了 Claude 主模型，失去 Claude 原生能力。

⚠️ 协议适配说明：Claude Code 走 Anthropic Messages 协议（/v1/messages）。Agnes 官方 API 为 OpenAI 兼容格式（/v1/chat/completions）。要通过 cc-switch 把主模型切到 Agnes，目标端点需提供 Anthropic 兼容接口——通常依赖中转服务或转换代理（如 claude-code-router / LiteLLM）。你当前能正常使用 Agnes-2.0-Flash，说明这一适配已具备。

2.2 MCP Server：工具扩展（文本/图像/视频）

MCP（Model Context Protocol）是 Claude Code 的标准工具扩展协议。通过开发一个 Agnes MCP Server，可以把三个模型统一暴露为工具——这是接入图像和视频模型的唯一方式。

工具定义：

工具名	功能	对应模型
`agnes_chat`	文本对话/推理	Agnes-2.0-Flash
`agnes_generate_image`	文生图/图生图	Agnes-Image-2.1-Flash
`agnes_generate_video`	视频生成（异步）	Agnes-Video-V2.0

在这里插入图片描述

工作流程：

用户 → Claude Code → 分析任务 → 选择工具
    → agnes_chat / agnes_generate_image / agnes_generate_video
    → MCP Server 转发 → apihub.agnes-ai.com
    → 返回结果 → Claude 整合展示

优势：统一入口、Claude 自主决策、三个模型一次配置全部可用、保留 Claude 原生能力

局限：需自行开发/部署 MCP Server；文本模型作为工具调用，不替代主模型

现成方案（2026-07 更新）：经检索，Agnes 生态已有可直接使用的 skill 和 MCP server，不必从零开发：

类型	仓库	星标	覆盖模态
Agent Skill	`Yacey/agnes-ai-generation-skill`	290	文本/图像/视频
官方网关+目录	`AgnesAI-Labs/AgnesAI-Models`	275	官方维护
Agent Skill	`kangarooking/agnes-free-model-skills`	137	免费层模型
Claude Code Skill	`ziho7/agnes-skills`	39	图像/视频
MCP Server	`KingingWang/agnes-mcp`	4	文本/图像/视频（Rust）

推荐 Yacey/agnes-ai-generation-skill：三模态全覆盖、人气最高、活跃维护，与本文三工具设计一致。安装前需确认其 SKILL.md 路径并链入 ~/.claude/skills/。此外本地已装的 baoyu-image-gen skill 也支持 Agnes 图像 provider（--provider agnes），可作图像生成的即时替代。

2.3 cc-switch 与 MCP 的区别

两者作用于 Claude Code 的不同层面，并非二选一：

对比维度	cc-switch	MCP Server
本质	切换主模型端点（替换底层 LLM）	给 Claude 添加工具（保留 Claude）
作用层面	主对话模型	工具调用层
文本模型	✅ 直接替换为 Agnes-2.0-Flash	✅ 作为工具调用
图像模型	❌ 不支持	✅ 作为工具调用
视频模型	❌ 不支持	✅ 作为工具调用
Claude 原生能力	❌ 被替换	✅ 保留
同时多模型	❌ 一次一个主模型	✅ 多工具并存
配置方式	GUI 一键切换 + 写 settings.json	`.mcp.json` 声明工具
运行时依赖	无（仅改配置文件）	需运行 MCP Server 进程

一句话区分：

cc-switch 回答的是"用什么模型跟我对话"（主模型层）
MCP Server 回答的是"Claude 能调用哪些额外能力"（工具层）

2.4 能否同时配置图像和视频模型？

结论：cc-switch 不能配置图像和视频模型，只能配置文本主模型。

这正是你目前"只配了文本模型"的根本原因——不是配置步骤没做对，而是 cc-switch 这条路径本身就没有图像/视频的位置。它的配置只有"一个聊天端点 + 一个模型名"，没有图像/视频模型字段；Claude Code 主循环也没有图像/视频端点可供重定向。

要补齐图像和视频，必须走 MCP Server（agnes_generate_image + agnes_generate_video 工具）。

两者可以共存，互不冲突：

模态	接入方式	说明
文本	cc-switch（已配好）	继续用 Agnes-2.0-Flash 作主模型
图像	MCP Server（agnes_generate_image）	新增工具
视频	MCP Server（agnes_generate_video）	新增工具

cc-switch 管主模型（文本），MCP Server 管图像/视频工具，两套机制并行工作。若你希望文本也走 MCP（保留 Claude 原生能力、统一入口），可把 agnes_chat 一并加入 MCP Server，文本主模型切回 Claude。

2.5 LiteLLM 代理（文本模型技术细节）

LiteLLM 是 cc-switch 之外另一种"替换主模型"的方式，原理相近但需自建代理进程。它把 OpenAI 格式请求转为 Anthropic 格式，通过修改 ANTHROPIC_BASE_URL 指向本地 LiteLLM 代理，让 Claude Code 底层使用 Agnes-2.0-Flash：

# 1. 安装 LiteLLM
pip install litellm[proxy]

# 2. 配置 litellm_config.yaml
model_list:
  - model_name: agnes-2.0-flash
    litellm_params:
      model: openai/agnes-2.0-flash
      api_base: https://apihub.agnes-ai.com/v1
      api_key: os.environ/AGNES_API_KEY
      max_tokens: 65536  # Agnes-2.0-Flash 64K 输出上限

# 3. 启动代理
litellm --config litellm_config.yaml --port 4000

# 4. 配置 Claude Code 使用 Agnes
export ANTHROPIC_BASE_URL=http://localhost:4000
export ANTHROPIC_API_KEY=sk-agnostic  # LiteLLM 虚拟 key

在这里插入图片描述

与 cc-switch 的关系：两者都"替换主模型、仅文本"。区别是 cc-switch 直接切端点（依赖目标端点已兼容 Anthropic 协议或经中转），LiteLLM 则自建转换代理。若 cc-switch 已能正常使用 Agnes 文本模型，无需再上 LiteLLM。

2.6 推荐方案：cc-switch + MCP Server 组合

针对你的现状（cc-switch 已配好文本），最优策略是组合使用：

模态	接入方式	理由
文本	cc-switch（保留现状）或 MCP `agnes_chat`	已可用；若想保留 Claude 原生能力则改走 MCP
图像	MCP Server（agnes_generate_image 工具）	唯一可行路径
视频	MCP Server（agnes_generate_video 工具）	唯一可行路径，封装异步轮询

行动建议：开发并配置 Agnes MCP Server，把图像、视频（可选文本）作为工具接入；cc-switch 维持文本主模型不变。三个模型全部可用，改动最小。

2.7 环境变量速查

变量	用途	示例
`AGNES_API_KEY`	Agnes API 认证	`sk-agnes-xxx`
`AGNES_IMAGE_MODEL`	覆盖默认图像模型	`agnes-image-2.0-flash`
`AGNES_BASE_URL`	覆盖 API 端点	`https://apihub.agnes-ai.com/v1`
`ANTHROPIC_BASE_URL`	cc-switch / LiteLLM 切换主模型端点	`https://<agnes兼容端点>`
`ANTHROPIC_MODEL`	指定主模型名称	`agnes-2.0-flash`

三、架构分析

3.1 推理基础设施

基于 API Hub 的公开信息：

推理服务部署在云端，通过 API Hub 统一暴露公网接口
限流策略按用户等级区分：Free 20RPM / Enterprise 40RPM / Token Plan 1000RPM
架构推测：API Hub（公网）→ 负载均衡 → GPU 推理集群

3.2 API 兼容性设计

Agnes 选择 OpenAI 兼容协议，降低了接入成本：

所有支持 OpenAI API 的客户端/SDK 可直接使用
LiteLLM、LangChain 等工具链零修改接入
Chat Completions + Images Generations + Videos 覆盖三大场景
视频生成采用异步任务模型，POST 创建 → GET 轮询 video_id

3.3 图像模型技术细节

基于 API 实测与官方文档：

尺寸约束：

宽度和高度必须为 32 的整数倍
长边 ≤ 2048px
总像素 ≤ ~4,000,000 (约 2K × 2K)

参考图机制：

// 支持多张参考图，通过 Data URI 传入
interface ReferenceImage {
  url: string  // data:image/png;base64,xxxxx
}

并发策略：

最大并发: 3
启动间隔: 1100ms (避免突发请求)
超时: 120s (AbortController)

3.4 视频模型技术细节

基于 GitHub 官方文档：

请求格式：

{
  "model": "agnes-video-v2.0",
  "prompt": "A cinematic shot of a cat walking on the beach at sunset",
  "height": 768,
  "width": 1152,
  "num_frames": 121,
  "frame_rate": 24
}

轮询方式：

GET https://apihub.agnes-ai.com/agnesapi?video_id=<VIDEO_ID>

能力矩阵：文生视频、图生视频、多图视频、关键帧动画

四、竞品对比

4.1 PinchBench 评测对比

PinchBench 是 Agnes AI 官方使用的评测套件，包含三个子榜单：

ClawEval 通用排行榜（文本模型，PASS^3 指标）

模型	PASS^3	排名
Claude Opus 4.6	70.8%	1
GLM 5.1	62.7%	2
Agnes-2.0-Flash	60.9%	3
GPT 5.4	60.2%	4
DeepSeek V4 Pro	58.4%	5

在这里插入图片描述

AA 图改图排行榜（图像模型，Elo 指标）

模型	Elo	排名
GPT Image 2	1250	1
Nano Banana Pro	1240	2
Agnes-Image-2.0	1178	3
Nano Banana	1174	4
FLUX.2 Pro	1169	5

在这里插入图片描述

AA 图生视频排行榜（视频模型，Elo 指标）

模型	Elo	排名
Kling 3.0 Omni	1066	1
Seedance 1.5 Pro	1000	2
Agnes-Video-V2.0	934	3
Wan 2.6	892	4
LTX-2 Pro	878	5

在这里插入图片描述

4.2 国内多模态模型对比

维度	Agnes (Sapiens AI)	通义万相 (阿里)	即梦 (字节)	豆包 (字节)
文本模型	Agnes-2.0-Flash	Qwen-3	豆包 Pro	豆包 Pro
图像模型	Agnes-Image-2.1-Flash	通义万相 2.1	即梦 2.1	Seedream 5.0
视频模型	Agnes-Video-V2.0	Wan 2.1	即梦 Video	Seaweed
API 兼容	OpenAI	DashScope	Volcengine	Volcengine
开源	否	部分开源	否	否
定价	Starter $4/月, Plus $10/月, Pro $50/月	按量计费	按量计费	按量计费
上下文窗口	256K (文本)	128K+	官网未公开	官网未公开
参考图支持	✅ Base64	✅ URL	✅ URL	✅ URL
并发限制	Free 20RPM, Token Plan 1000RPM	按套餐	按套餐	按套餐

4.3 图像生成能力对比

维度	Agnes-Image-2.1	GPT Image 2	Gemini 3 Pro	通义万相 2.1
最大分辨率	~2048×2048	3840×3840	2048×2048	2048×2048
参考图	✅	✅	✅	✅
编辑能力	✅ 图像编辑	✅ inpaint/outpaint	✅	✅
中文理解	✅	一般	待验证	✅ 优秀
API 协议	OpenAI	OpenAI Native	Google	DashScope
定价	4,000 图/天 (Token Plan)	$0.04-0.08/图	按 token	¥0.04/图

4.4 Agnes 的差异化

新加坡本土模型公司，在东南亚市场有地缘和合规优势，不受中国境内 AI 监管限制
模型专为 OpenClaw、Hermes 等智能体工具设计，强调 Agent Harness 能力而非单纯对话
支持企业级私有化部署，提供差异化限流和配额管理
文本、图像、视频三模态统一 API，减少多供应商集成成本

五、定价与配额

5.1 Token Plan 定价

计划	月费	文本请求	图像生成	视频生成
Starter	$4	1,500 次/5小时; 15,000 次/周	4,000 张/天	500 秒/天
Plus	$10	7,500 次/5小时; 75,000 次/周	4,000 张/天	500 秒/天
Pro	$50	30,000 次/5小时; 300,000 次/周	4,000 张/天	500 秒/天

5.2 速率限制（RPM）

文本模型

用户类型	公开请求 RPM	实际执行 RPM
Free / 默认	30	20
Enterprise	60	40
Token Plan	1,000	1,000

图像模型（按分辨率分级）

用户类型	1K RPM	2K RPM	3K RPM	4K RPM
Free / 默认	30 (执行 20)	20 (执行 10)	2 (执行 1)	1 (执行 1)
Enterprise	60 (执行 40)	40 (执行 20)	2 (执行 1)	2 (执行 1)
Token Plan	120 (执行 100)	120 (执行 80)	2 (执行 1)	2 (执行 1)

视频模型

用户类型	公开请求 RPM	实际执行 RPM
Free / 默认	2	1
Enterprise	2	2
Token Plan	6	5

5.3 API Key 限流池

同类型 Key 共享限流池，创建多个 Key 不会增加 RPM 或配额。不同类型 Key 使用独立池。

六、当前免费使用状态

截至 2026 年 6 月，Agnes 三个模型均提供免费层级，无需付费即可使用 API。

6.1 免费层配额

模型	免费 RPM（实际执行）	适合场景
Agnes-2.0-Flash（文本）	20 RPM	对话测试、小规模提示词评估
Agnes-Image-2.1-Flash（图像）	10 RPM（2K）	图像生成实验、概念验证
Agnes-Video-V2.0（视频）	1 RPM	视频生成测试、功能验证

⚠️ 免费层限流较严格：视频模型每秒最多 1 次请求，图像 2K 分辨率每分钟 10 次，文本每分钟 20 次。适合开发调试和概念验证，不适合生产环境。

6.2 免费层与付费层对比

对比维度	Free	Token Plan（Starter $4/月）
文本 RPM	20	1,000
图像 RPM（2K）	10	80
视频 RPM	1	5
文本配额	无固定配额	1,500 次/5小时
图像配额	无固定配额	4,000 张/天
视频配额	无固定配额	500 秒/天

免费层适合技术验证和原型开发。需要更高吞吐量的话，建议升级至 Token Plan。

七、结论与建议

7.1 当前可用方案

推荐优先评估现成的 Agnes skill / MCP 方案（见 2.2 节），已有官方仓库和多个社区实现可直接使用，不必从零开发。MCP 是 Claude Code 的标准扩展协议，配置 .mcp.json 即可声明工具，Claude 自主决策何时调用。若现成方案不满足需求（如缺少视频异步轮询封装、限流策略不匹配），再自研 MCP Server。

7.2 推荐行动

短期：优先评估现成 Agnes skill/MCP 方案（推荐 Yacey/agnes-ai-generation-skill）；图像生成通过 agnes_generate_image 工具调用，视频 API 采用异步轮询模式，需在 MCP 工具中封装 video_id 状态管理
中期：积累使用数据，评估各模型在实际场景中的表现；关注 API 稳定性和限流策略对生产环境的影响
长期：关注官方仓库 AgnesAI-Labs/AgnesAI-Models 是否提供原生 MCP/SDK，以及 Image 2.5 / Video 2.5 Preview 的发布

7.3 风险提示

API 稳定性：公网 API Hub 的实际执行 RPM 低于公开请求 RPM，限流策略可能影响生产使用
上下文回滚：Agnes-2.0-Flash 从 1M 回滚至 256K，说明模型在超长上下文下存在稳定性问题
版本迭代：图像模型已从 2.0 升级到 2.1，2.5 Preview 即将发布；视频 2.5 Preview 也在路上，API 行为可能随版本变化
免费层限制：Free / 默认用户的实际执行 RPM 较低（文本 20、图像 2K 仅 10、视频仅 1），仅适合测试

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

VXLAN 技术详解：突破传统 VLAN 局限，三层底座上构建弹性二层业务网络

DAMO开发者矩阵

基于 RPA 架构的企业微信外部群自动化：底层原理、API 设计与多群同步实战

一、为什么选择 RPA 架构的第三方 API？在企业私域流量运营和技术中台建设中，微信生态的自动化一直是个硬需求。企业微信官方虽然提供了群机器人（Webhook），但存在两个致命的限制：1.场景受限：官方机器人主要面向内部群，在包含外部客户的群聊中限制极多，无法灵活调用。2.无法主动发起：大部分高级接口需要复杂的企业资质认证，且无法做到完全模拟人工的主动下发流。为了打破这种技术壁垒，目前行业