1.国内媒体纷纷报道Manus AI发布通用Agent产品Agent,宣称是全球第一款通用Agent产品。
2.Manus采用Multiple Agent架构,能在独立虚拟机中运行,并调用各类工具完成复杂任务。
3.然而,有分析指出,Manus背后的公司Monica.im其实是个“缝合怪”高手,其产品更像是一个高度整合的AI工作流工具。
4.与此同时,阿里推出32B推理模型QwQ-32B,击败除o1线推理模型之外的所有模型,成为全球开源榜单第一。
以上内容由腾讯混元大模型生成,仅供参考
聊聊今天的大模型事件:Manus刷屏、QwQ登顶开源榜单
2025年3月6日,国内媒体出现一堆“热血澎湃”的科技新闻:
自媒体标题很“诱人”,干掉OpenAI,将Manus跟DeepSeek相提并论。
「生成式AI的iPhone时刻」
「Agent的GPT时刻」
国运级别科技成果。。。
(1)Manus横空出世
3月6日凌晨,Manus AI (官网: https://manus.im/)正式公布 Agent 产品「Manus」,宣称是全球第一款通用 Agent 产品。能解决各类复杂多变的任务,独立思考、规划并执行复杂任务,直接交付完整成果。
跟 Claude 的 Computer use 等智能体一样,Manus 同样能操作多任务,还能帮忙点外卖订酒店,覆盖更多领域和执行质量更高,大幅超过OpenAI DeepResearch,三个难度级别上都达到最佳(sota)。
真厉害!
怎么实现的?
Manus 采用 Multiple Agent 架构,运行方式与 Anthropic 的 Computer Use 类似,完全运行在独立虚拟机中。同时还能在虚拟环境中调用各类工具 —— 编写和执行代码、浏览网页、操作应用等,直接交付完整成果。
(2)静一静
季逸超在发布会全英文陈述,产品主页也是英文。
为什么是英文?Manus 所属公司 Monica.im(https://monica.im/) 产品线广泛,包含国外市场,ChatGPT之后,推出 Monica 工具,收费让用户低成本使用国外大模型服务。
营销策略是邀请多少人获得相应额度。
是不是从国外火到国内?
Google搜索,靠前的都是国内媒体。
Google Trend上,manus排名22位,第一名有22万+检索量。
可见,Manus 在国外并没有那么热
GAIA榜单是Manus自己评测。王婆卖瓜,可能自卖自夸。
于是,专程去huggingface看了下GAIA Leaderboard,上面并没有Manus
可能还没参与比赛?
GAIA Leaderboard:https://huggingface.co/spaces/gaia-benchmark/leaderboard
没有邀请码,就无法亲自体验,导致邀请码供不应求,网上一度传闻卖到5万!
宣讲会演示示例有三个场景:
上传包含多个简历压缩包,根据提示词,Manus自动解压缩并分析简历,然后给出建议;
提出房产需求,Manus自动做房价和信息整理;
对英伟达和特斯拉股价生成分析报告
官网录屏示例上演示流程,自动化程度较高,确实让人眼前一亮。
然而,这类功能并非首创。
PC操控案例:(不含手机设备操控)
国外:
【2024-10-23】Anthropic的Computer Use
【2025-1-24】OpenAI 的 Operator
【2025-2-25】Proxy-lite
【2025-1-?】Brower Use
【2025-3-4】Poki AI发布Agent, 比 OpenAI Operator和 Anthropic Computer Use 快10倍,可靠性高10倍。
Google Gemini 去年展示过多模态Agent,通过摄像头基于10分钟记忆来打游戏
国内:
【2023-8-*】实在Agent,支持PC/Mobile设备操控,闭源
【2024-2-9】吉林大学推出ScreenAgent
【2024-10-23】上海较大刘鹏飞推出PC-Agent
【2024-11-29】智谱GLM-PC,都已经实机展示过类似的功能。
手机操控的Agent实现案例也有一堆:
【2023-12-21】腾讯推出AppAgent
【2024-6-18】北交大和阿里推出Mobile-Agent
【2024-9-7】UC伯克利推出TinyAgent
【2024-11-29】质谱的Auto-GLM
还有个人开发者的Mobile Use,等等开源实现
所以说,用Agent操控电脑、手机设备,并不新鲜,先行者已经很多了。
全球首款通用Agent未必站得住脚,还需要多方考核、验证,“全球首开通用”这个帽子为时尚早。
透过现象看本质
有人做了深入分析:
Manus 背后的公司 —— Monica.im,其实是个“缝合怪”高手。
Manus 核心能力 = Compute Use
+ 虚拟机
+ Artifacts
+ 内置多个 Agent
,更像是一个高度整合的 AI 工作流工具,而非真正的通用 AI Agent。
Agent概念自2022年ChatGPT爆火时,就已经开始流行了。产品效果依赖于基座模型能力,端到端的操作能力再强,都会被基座模型内化掉。
Munus这类Agent产品冲击最大的是Dify和Coze这种智能体编排平台。
具体实力如何?拭目以待,让子弹飞一会。
Munus具体实力待定,但这股营销风气不好,想并肩 DeepSeek 不能靠自嗨和邀请码。
(3)阿里QwQ-32B
这一天,Qwen 推出了 32B 推理模型,击败了除 o1 线推理模型之外的所有模型。
Qwen 成为全球开源榜单第一:QwQ-32B 挑落 DeepSeek R1 671B, 成为全球最佳开源模型。
QwQ-32B 在数学推理、编程能力和通用能力上与其他领先模型的性能对比,包括:DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。
LiveBench AI 上击败了所有人,包括 DeepSeek、Anthropic、Meta、Google 和 xAI
小个子也能打败大块头!
图有豆包生成,提示语:
帮我生成图片:画张拳击比赛图,小个子腾空飞起,一拳打败 体型巨大的大胖子,加上各自名字,小个子是(QwQ-32B),大胖子是(DeepSeek R1 671B)
附录
参考: