声明:本文来自于微信公众号 新智元,作者:新智元,授权站长之家转载发布。
【新智元导读】离了个大谱,Manus全网邀请码一票难求?激动人心的是,开源界凌晨来了一场核爆攻击,用3小时代码量开源了平替项目——OpenManus,免费体验不要邀请码!同时发布的还有另一个「Manus同款」OWL,直接干到GAIA基准测试开源最强!
昨天,所有人都被Manus刷屏了,一个邀请码已经被炒到了天价。
虽然被Manus强势刷屏,很多人却只能眼睁睁地看着,没法亲自上手体验,只因一码难求。
最新消息,就在刚刚,Manus AI的官方X账号已被平台冻结。
不过就在此时,开源界以迅雷不及掩耳之势上演了一波速度与激情——有这样一个项目,仅凭三小时的代码量,就掀翻了AI的高墙。
昨天晚上,GitHub开源了一个无需邀请码的OpenManus项目,刚刚开源不到一天,Star数就已经破千。
项目地址:https://github.com/mannaandpoem/OpenManus
现在,所有开发者都可以实测了。
其中最亮眼的,莫过于这句「只需修改config.toml即可开玩」,直接对封闭生态公开打脸。
创建环境,克隆项目并CD到目录,改一下config/config.toml里的大模型信息,再输入一行命令,就可以愉快地在terminal里体验了。
condacreate-nopen_manuspython=3.12condaactivateopen_manusgitclonehttps://github.com/mannaandpoem/OpenManus.gitcdOpenManuspipinstall-rrequirements.txtcpconfig/config.example.tomlconfig/config.toml#GlobalLLMconfiguration[llm]model="gpt-4o"base_url="https://api.openai.com/v1"api_key="sk-..."#ReplacewithyouractualAPIkeymax_tokens=4096temperature=0.0#OptionalconfigurationforspecificLLMmodels[llm.vision]model="gpt-4o"base_url="https://api.openai.com/v1"api_key="sk-..."#ReplacewithyouractualAPIkeypythonmain.py
开源界3小时复刻Manus,跟邀请码说再见
来自国内的这支团队宣布:晚餐后2小时,OpenManus的核心功能直接开源!
没有邀请码,没有壁垒,这支团队用3小时的代码量,就把邀请码机制扫进历史垃圾堆,跟饥饿营销彻底说拜拜!
OpenMunus的作者均为MetaGPT的核心贡献者。
OpenManus的实现很简单,使用到了computer use、基本的智能体和规划。
就像在Manus中那样,任何人都可以使用OpenManus,把自己的想法变为现实。
无论在手机上还是OS上,如果想做Deep Research,只要提交你的问题,它就可以帮你实现了。
比如,我们可以给OpenManus这样一个任务:「对Karpathy的网站(https://karpathy.ai/)进行全面的SEO审核,并提供详细的优化报告,包括可执行的改进建议。」
OpenManus会展开思考,将自己的任务分解为如下几步。
首先,检查网站并收集基本信息
然后,分析关键的SEO要素
第三,检查技术性SEO方面的问题
最后,整理优化建议
明确任务细节后,OpenManus就打开Karpthy的网站,开始收集信息、展开详细分析。
整个思考过程,每一步都清晰可见。
最终,它生成了一份完整、详实的Karpathy个人网站优化报告。
其中,它提出的高优先级任务如下:Meta标签优化(如优化页面标题,使其包含相关关键词)、技术设置(如创建并提交XML站点地图)、内容优化(如为所有图片添加alt文本、在个人网站上实施Schema标记等)。
OpenManus的核心,就是一个革命性的模块化Agent系统,由高度智能的专业团队,组成了一个协作网络。
- Manus主代理:项目经理,能理解用户需求,协调各个专业团队的工作。
- PlanningAgent:战略专家,将复杂的任务分解为清晰可执行的步骤。
- ToolCallAgent:技术专家,掌握各种强大工具的使用方法。
由此,开发者可以根据自身需要,自由组合不同的功能模块,创造出自己独有的AI助手。
OpenManus无缝集成了包括Claude3.5、Qwen VL Plus在内的多个顶级大模型,开发者能充分利用各个模型的优势。
为何只用短短3小时,团队就能打破Manus的高墙垄断?
原因就在于,OpenManus其实源于MetaGPT的开源积累。
我们只是把浏览器工具链嫁接到过去代码上,配合沉淀的Agent工具包,核心系统1小时就完成了。
OpenManus的另一强大功能,就是它的实时反馈机制。
LLM思维链的过程,会被可视化地呈现出来。无论是任务执行进度的实时更新、思考过程日志、文件的即时通知等,都随时可见。
此外,OpenManus还配备了一套强大的工具链,能处理各种复杂任务。
- Python代码执行器:实时生成和执行代码
- 网络搜索工具:自动获取和分析网络信息
- 浏览器自动化:模拟人类操作进行网页交互
- 文件处理系统:自动生成和管理各类文档
其中,这些工具都不是简单的独立模块,而是被精心设计的协同系统,在处理任务时能默契配合,高效完成任务。
实测生成一份关于Manus的报告
问题来了:OpenManus能成为Manus的平替吗?
OpenManus的开发者HKUST(GZ)博士生Jiayi Zhang上传了一段实测视频。
视频中他给出了这样一段提示:
深度调研和Manus这个Agent有关的信息,自己整理信息,然后写一个新闻html页面介绍它,你写的html应该尽可能美观。
接着OpenManus就开始干活了。它将这个任务分步进行,首先使用GoogleSearch搜索Manus Agent的相关信息。
在这个过程中还不断打出思考过程:「好的,让我们继续深入调研Manus,我会逐步访问搜索到的重要链接,收集信息,然后创建一个精美的HTML网页。」
它开始不断调用工具「browser_use」,访问不同的文章来搜集信息。
整理完信息,OpenManus再次输出:「现在让我们使用正确的完整路径来打开HTML文件:」渲染完后,它就给出了网页的链接。
打开后可以看到完整的报告。然而,OpenManus的能力还不止于此,在视频中,它被人要求继续完善这个页面,添加更多具体的技术细节和实际应用案例。
接着它就又开始调用起「google_search」以及「browser_use」这些工具,很快就重新给出了一个新的页面网址。
可以看出,OpenManus给出的这份关于Manus的报告,包括了Manus的诞生与发展、技术架构与创新以及实际应用案例与未来展望等。
虽然这份报告的结构看上去比较完整,但是细节还是有点乏善可陈。
Browser-use:让智能体直接操作浏览器
在OpenManus项目中,很重要的一项功能就是Browser-use。
Browser-use是一种使AI智能体能够操作浏览器的简单方式。它在GitHub上开源,许多项目都使用了它的功能,目前已经获得有超过35.8k个星星了。
项目地址:https://github.com/browser-use/browser-use
它通过提取网站的交互元素(如按钮、表单等),使AI能够自动化执行浏览器操作,例如填写表单、搜索信息或导航网页。这对于开发AI驱动的网络代理非常有用。
比如,它可以将商品添加到你的购物车,并完成结账。
甚至是阅读你的简历,然后帮你找工作!中途如果有需要,还会遵从你的指示。
作者团队
OpenManus的作者团队,此前就凭MetaGPT受到大量关注。
MetaGPT是一款开源的AI智能体框架,将多个AI模型整合在一起,模仿现实世界公司的运作,在模拟软件开发流程方面表现出色。
当时一经开源,MetaGPT就火爆全网,如今在GitHub上已经收获了49.1k stars。
向劲宇
向劲宇,研究方向为LLM智能体,强化学习和NLP,曾获得阿里巴巴数学竞赛AI赛道全球第二名。此前,他在西南交通大学获得学士学位。
于兆洋
于兆洋,研究方向是LLM智能体及其推理,此前在中国人民大学高瓴人工智能学院获得学士学位。
张佳钇
张佳钇,香港科技大学(广州) 的博士生。研究兴趣是LLM智能体,尤其关注其推理能力以及适应多种环境的智能体构建范式。此前,他在中国人民大学信息学院获得学士学位。
洪思睿
洪思睿,研究兴趣是LLM、NLP和多智能体系统。此前在暨南大学获得学士学位,在香港科技大学获得硕士学位。
One More Thing:0天复刻Manus,OWL完全开源
不仅如此,另一个来自CAMEL AI团队的0天复刻Manus通用智能体,也被开源了。
这个名为OWL的项目,直接干到开源界GAIA的性能天花板,达到57.7%,超越Hugging Face提出的Open Deep Research55.15%的表现。
项目地址:https://github.com/camel-ai/owl
简单来说,OWL是一个顶尖的多智能体协作框架,致力于突破任务自动化的界限。
在GAIA基准测试中,OWL取得了58.18的平均分,并在开源框架中排名第一。
在这个任务中,OWL智能体非常丝滑地完成了任务:调研总结GitHub仓库里都有什么。
另外,它还能自动帮我们查找今天在伦敦有什么电影。
在这个过程中,CAMEL AI对Manus的技术路线做了一波逆向工程,启动了深度复刻计划。
首先,是把Manus的核心工作流拆成6步。
- 启动一个Ubuntu容器(Agent远程工位就位)
- 知识召回(把之前学过的内容捡起来用)
- 连接数据源(数据库、网盘、云存储全覆盖)
- 把数据挂载到Ubuntu(Agent的搬砖时刻)
- 自动生成todo.md(规划任务+写待办清单)
- Ubuntu工具链+外接工具组合拳,执行全流程任务
然后,所有Manus里智能体用到的操作,团队都会给OWL配齐。
启动一个Ubuntu容器,OWL就能随时随地远程办公了。
在项目描述中,团队表达了对AI智能体的愿景:
我们的愿景是彻底改变AI智能体协作解决现实世界任务的方式。
通过利用动态的智能体交互,OWL能够在多个领域中实现更自然、高效和稳健的任务自动化。
相信我们还将不断见证各类复现项目,打破「邀请码」的垄断。
参考资料:
https://github.com/mannaandpoem/OpenManus
https://x.com/didiforx/status/1897675038972883408
https://github.com/camel-ai/owl
https://mp.weixin.qq.com/s/0AWaSNynyjjY5TpdtKN-3w