站长之家 - 业界 2025-03-10 08:57

Manus的发布,是Agent大战的一次抢跑

声明:本文来自于微信公众号 窄播,作者:李威,授权站长之家转载发布。

这是窄播Weekly的第48期,本周我们关注的商业动态是:Manus发布的节点性意义。我们认为,Manus的发布不是又一个DeepSeek时刻,而是对即将到来的AI Agent之争的一次抢跑——虽然一时成为全场焦点,却还没展现出成为冠军的实力。

3月6日凌晨,Manus头顶「全球首款通用型AI Agent产品」的称号登上舞台。在前排观众的高度赞誉和诸多官方案例效果的双重加持下,Manus迅速成为营销号和媒体的宠儿。随后,由于邀请码一码难求,用户测试中出现了卡顿、迟缓、未完成任务,使其口碑迅速两极化,陷入「套壳」质疑中。

与此同时,国内的MetaGPT和开源社区CAMEL-AI两个团队在很短时间里推出了开源的Manus复刻项目。MetaGPT的Open Manus在GitHub上收获了7000多颗星星,CAMEL-AI打造的OWL在智能体测试基准GAIA开源榜单上的得分为57.7%。借势Manus,两个团队各自收获了一次破圈效果。

抛开流量层面的造势、营销、蹭热点等行为不谈,也不在没有邀请码的条件下围绕评判Manus的实际效果,仅从产品思路及影响来看,Manus的这次抢跑会激化AI Agent的竞争,并且让「GPTs类」智能体开始退出历史舞台。

一方面,AI Agent在2024年就已经被公认会成为2025年AI竞争的重头戏。知名投行巴克莱在最新的研报中,将「推理模型」和「Agent」推为新时代的弄潮儿。Manus作为投入这波趋势中的一条鲶鱼,大概率会刺激巨头加速布局AI Agent。

进入2025年,OpenAI已经先后抛出了Operator和Deep Research两个 AI Agent。就在Manus走红的这一周,微软也发布了两个新的AI Agent。Meta也在为Facebook和Instagram推出客服领域的AI Agent。亚马逊的 AWS 被曝组建了一个致力于Agent开发的新团队,旨在帮助人们自动化生活中的部分事务。

另一方面,人们对AI Agent的定位越来越清晰,无论是开发者还是用户,都更加强调AI Agent的任务执行能力,而不是定制化的聊天能力。这也意味着,包括始作俑者OpenAI在内,都会逐渐放弃GPTs类智能体,去探索如何提升AI Agent的执行效率。Manus会让文小言和豆包中的「周易大师」们更快谢幕。

新的AI Agent竞争阶段会呈现出四个趋势:

1、从与AI合作,到监督Agent工作;

2、好的Agent一定是合格的终端消费品;

3、编程平权会带来更灵活的执行;

4、围绕Agent开始建设「统一市场」。

从与AI合作,到监督Agent工作

在2023年,人们还会将GPTs那样的,被高级Prompt搭建起来的,具备专业背景的聊天机器人称作智能体。人人都可以开发的智能体,其实是人人为不同场景定制化不同的聊天机器人,是人与AI合作完成对话任务。当时的OpenAI和百度都希望这些智能体可以成为增加ChatGPT和文心一言使用市场的工具。

事实是,低频的聊天需求聚合,根本带不来用户时长的增长。甚至,用户选择智能体也不是因为它多么有趣,而是希望它能提升自己的效率。当大模型变得足够聪明时,人们召唤算命大师可能只需要一句话,没有人会再去从众多智能体中挑选出最顺眼的算命大师。

GPTs们是在基于技术现状思考产品形态,而Manus是在打造一个载体去承载技术的未来——这也是Manus团队给到的一个避坑指南。

开发AI产品不同于开发互联网产品,后者面对的技术与平台相对稳定,搭建起更好的产品体验,类似有了智能手机,在上面去开发微信,前者强调对技术的预见性,据此来开发产品,是要设计能够让汽油更充分燃烧的发动机。

Manus之所以能够给到很多人震撼的感觉,是因为Manus展现出了人发出命令,不要对话引导,只用监督Agent执行的未来雏形,比Auto-GPT展现的自我思考、自我规划能力要更能发挥未来AI的能力。

而且,Manus也不需要像AI Agent程序员Devin一样,针对不同场景进行针对性设定,而是说一句话就能启动不同领域的任务,让人们使用AI的效率得到了提升。

当然,这样做的风险就在于,面向未来技术能力的载体,往往会在当下露怯。Devin发布后,也遭受过质疑,因为技术需要进一步迭代。而本就是要抢跑Agent比赛的Manus,既没有做好全面开放给用户使用的准备,也缺少让通用AI Agent完美无缺的技术支持。

半黑半红是他们自己早就做出了选择的结果。

好的Agent一定是合格的消费品

Manus的成功之处在于,从C端用户的需求出发,搭建起了一种高度灵活且低门槛的Agent服务模式。

在B端市场,客户只会为好的消费品买单。而且,B端客户对Agent的可靠性有更高的要求。也因此,AI Agent在B端的探索往往都是从某个垂直业务场景的优化切入,所以会有Salesforce旗下Agentforce这样的平台,为企业提供按需搭建AI Agent的服务。

在C端市场,好的消费品不只要好用,还要简单。首先,绝大部分用户甚至对自己的需求都没有一个清晰的认知,脑子里只有一个模糊想法的时候,就会去寻求AI的帮助。其次,用户即便有清晰的需求清单,知道如何分步完成,也很大概率不精通实现任务的工具。

这就导致,像字节扣子、腾讯元器这样需要用户自己搭建工作流的平台,更像是一个服务开发者的平台,而不是解决C端用户需求的平台。豆包+扣子、元器+元宝的组合也一直没能打出这套「需求对话+Agent执行」的组合拳。在OpenAI、Google、Meta的Agent尝试中,我们也还没有看到统一需求入口+多Agent能力的低门槛产品组合。

复旦大学的技术团队推出过一个名为AI2Apps的一站式AI员工开发与端侧服务平台。这个平台有一套基于浏览器的Agent操作系统,提供全套开发工具,能像Devin一样编写代码,是一种高阶版的扣子。开发者能在「建筑师Agent」的主导下完成某个岗位AI员工构建与组合。但这依然没有解决C端用户的简单使用痛点。

但在Manus,用户说出一个需求,就会有Agent先进行分析拆解,然后分配不同的Agent去执行不同的工作,调用不同API完成任务,还会有Agent负责反思和挑错。而且整个过程清晰可见,用户可以介入调整。

这是一个合格的消费品应该具备的素养,把所有用户看做小白,让他们在不懂如何编写网页,如何调用API的情况下,也能高效完成任务。

但是,Manus欠缺的是,执行具体任务的准确度与精细度。这是一个打磨不同能力Agent的过程。

OpenAI也有类似Manus的想法。Deep Research的团队成员Josh Tobin就认为,虽然这些Agent现在是独立的,但人们日后能够使用的终极Agent,不会仅局限于网页搜索、操作电脑或执行人类助手的常规任务,而是能够以更自然的方式融合所有这些功能。

但Open AI选择的是先通过定制化模型,训练出比大语言模型更适合执行具体任务的Agent。其中,Operator是一个偏重执行与操作的Agent,Deep Research更偏重信息的收集、整理、归纳。未来可能还会有其它的Agent出现,但他们最终可能会成为ChatGPT手下的员工。

编程平权会带来更灵活的执行

如果说大模型带来的是在交互灵活性上的提升,那么AI推动的编程平权,会给Agent执行任务带来更灵活的手段。

Deep Research的团队成员Josh Tobin表示,一些公司构建Agent时,会选择由人来搭建整个工作流,而工作流中的重要节点,会由大语言模型掌控,由其来决定下一步的行动。但这种方式构建出来的Agent会比较死板,难以灵活应付可能出现的所有场景。应该是,利用先进的推理模型,赋予它人类工作生活中使用的工具,直接针对期望Agent达成的结果进行优化。

所以Manus会强调「Less structure, more intelligence」,减少对AI的结构化限制,选择了依赖大模型能力来组建工作流。在大模型的指挥下,Agent会在自己的虚拟电脑上使用浏览器、编程工具等完成任务。这样的好处是随着大模型能力的增强,对任务的理解和拆分就会越准确。

在大模型做总指挥的基础上,对编程能力的调用,会带来解决复杂问题的更好方案。在Manus的演示案例中,可以看到根据搜集到的信息创作仪表盘的操作是通过编程解决的,有用户生成PPT也会先依靠编程能力写出H5页面,再把页面转存成图片。编程平权带来了执行任务的更高可控性。

在本周,前谷歌 DeepMind 研究人员Misha Laskin和Ioannis Antonoglou创立的Reflection AI获得1.3亿美元融资,要开发超级智能。他们的第一步就是构建一个自主编程工具,用于扫描代码漏洞和优化应用程序内存使用等场景。具备自主编程能力的Agent是他们构建AI工作团队的重要技术基座。

Agent需要「统一市场」建设

Manus的一个局限是,可以选择使用API调用不同的信息源和能力,但是API无法帮助Agent克服移动互联网的孤岛效应。在一些测试中,Manus能够绕过一部分平台的人机验证机制,但也会在调用其他平台的API时报错,在一些平台上收集信息时也需要人类接管进行登陆。

Agent需要一次「统一市场」的建设。

简单来看,用户在登录了Manus之后,如果想要发挥更好的效用,需要有一个连接范围极广的基于一个账号的联合登陆机制。在国外来看,能够做到这一点的是Google,即便是Meta也还差点儿意思;在国内来看,微信的连接范围广,但也不如Google账号。

即便是在互联互通的口号下,国内的互联网产品想要实现联合登陆机制,也是一个很困难的任务。所以就出现了GUI(图形用户接口)Agent,希望通过让AI读取屏幕信息,在更底层绕过App之间的墙。AutoGLM、computer use等能力的推出,都是在这个方向上做的准备。

与之相比,Manus的AI+虚拟机方案虽然更安全、更易实现,但局限多,不够底层。

一个更长远的目标是,基于GUI Agent形成一套以Agent为核心搭建的操作系统。就像Meta的首席AI专家杨立昆(Yann Lecun)所言,短期内需要让AI系统能够执行一系列行动,长期来看则需要下一代AI系统的支持。

这个操作系统,本质上就是一个融合软硬件能力,能协作不同模型的「大脑」。

ChatGPT源码推荐:小狐狸ChatGPT付费创作系统完全开源源码

推荐关键词

24小时热搜

查看更多内容

大家正在看