昨天发了一篇文章提到了开源复刻 Manus 的项目:《一文看懂Manus:实测体验+开源复刻方案,无需等待邀请码》,有朋友推荐了另外一个23年已经发布的项目 OWL。

01

OWL通用智能体

OWL在 GAIA 基准测试中取得 58.18 平均分,在开源框架中排名第一!

照例先放上官方地址:

https://github.com/camel-ai/owl/

c99c404f82886b8ade1d282bb602602f.png

OWL 是一个前沿的多智能体协作框架,推动任务自动化的边界,构建在 CAMEL-AI Framework 之上。

下面是官方的演示视频。

同昨天推荐的 OpenManus 一样,OWL实现的核心功能如下:

在线搜索:使用维基百科、谷歌搜索等,进行实时信息检索

多模态处理:支持互联网或本地视频、图片、语音处理

浏览器操作:借助Playwright框架开发浏览器模拟交互,支持页面滚动、点击、输入、下载、历史回退等功能

文件解析:word、excel、PDF、PowerPoint信息提取,内容转文本/Markdown

代码执行:编写python代码,并使用解释器运行

OWL 支持自定义工作流+离线环境运行。


项目中提供了一个脚本工具复现 GAIA 上的实验结果。找到 run_gaia_roleplaying.py 文件,并运行以下命令:

python run_gaia_roleplaying.py

02

OpenHands

官方地址:

https://github.com/All-Hands-AI/OpenHands

OpenHands(以前叫 OpenDevin),这是一个由 AI 驱动的软件开发智能体平台。

OpenHands 可以执行人类开发人员可以执行的操作:修改代码、运行命令、浏览网页、调用 API,甚至从 StackOverflow 复制代码片段。

官方演示图片和视频

应用程序截图

还有贴心的中文文档:

https://docs.all-hands.dev/modules/usage/installation

OpenHands 的主要功能:

代码生成与修改:OpenHands 能够自动生成高质量的代码,帮助开发者快速完成项目核心部分,减少手动编写代码的时间。

任务自动化:平台可以像人类开发者一样执行命令、运行脚本,并通过网络完成复杂任务。

多语言支持:支持多种语言模型,如 GPT-4、Claude 和 Llama,用户可以通过 litellm 库进行配置。

多代理协作:支持多代理协作,将复杂任务分解为多个子任务由不同代理协同完成。

安全沙箱环境:提供安全的沙箱环境以确保代码执行的安全性。

Docker 部署:支持 Docker 容器化部署,用户可以通过简单的命令快速启动平台。

交互式 CLI 和无头模式:支持脚本化无头模式和交互式 CLI 模式,适用于自动化测试和后台任务处理。

社区驱动:平台遵循 MIT 许可证,鼓励社区贡献,包括代码开发、研究评估和反馈测试

OpenHands 的技术架构基于事件流架构,包含三个主要组件:

Agent 抽象:社区可以向 AgentHub 提交不同实现的 Agent 实现。

事件流:跟踪动作和观察的历史记录。

运行时:执行所有动作并将其转换为观察结果。

并且支持多种 AI 模型,如 DeepSeek R1,推荐使用这些模型获得最好的效果。

03

Browser-Use

除了上面两个强大的开源智能体框架,最后推荐一个单独的智能体项目 Browse-Use。

官方地址:https://github.com/browser-use/browser-use

该项目可结合 DeepSeek 模型,通过 AI Agent自动化操作浏览器。

例如获取财联社电报的前十条新闻资讯:

Image

可以看到 Browser-Use 获取到了数据,并且自动转为了json格式,对于抓取数据相当友好。

再进行一些后续扩展,可以实现很多场景下的需求。

Image

04

Flowith

最后隆重介绍的是具有同样功能的Flowith,不需要邀请码。

官方地址:

https://flowith.net/invitation?code=8YM46Z

(朋友们可以使用我的邀请码)

d715220b88e4aff162c3103d4194bdb3.png

核心功能与特点

基于画布和节点的界面:提供了一个直观的画布界面,用户可以通过拖放功能节点来构建复杂的工作流。这种节点式交互方式超越了传统的线性对话工具,可以更灵活地管理和组织任务。(类似工作流)

多线程交互:支持多线程对话和任务管理,用户可以同时与多个 AI 模型互动,从而提高工作效率。

知识库功能:用户可以上传本地文件并建立个性化知识库,用于存储和检索相关信息。这一功能特别适合需要处理大量数据或复杂分析的场景。

支持多种 AI 模型:Flowith 支持 GPT-4、DeepSeek V3 等主流 AI 模型,用户可以根据任务需求选择合适的模型进行交互。

模块化设计:用户可以自由组合不同的功能节点,例如文本生成、数据分析、内容创作等,形成高度个性化的自动化工作流程。


往期热门文章推荐:

一文看懂Manus:实测体验+开源复刻方案,无需等待邀请码

一手体验首款通用Agent产品Manus - 唯有惊叹。

聊一聊五种智能体模式

一文详解:DeepSeek 第五天开源的 3FS 文件系统

DeepSeek开源周第四天,昨天预测成真

DeepSeek开源第三天,只用300行代码就超越了英伟达自己。

DeepSeek 开源周第二天:DeepEP 亮相,MoE 模型效率革命来袭!

陈巍:DeekSeek最新开源FlashMLA 技术深入分析

清华团队 DeepSeek 教程完全指南(全5册)— 从日常应用到职场进阶(附下载)

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐