四维度实测更新后Manus：任务得手率高潮，复杂任务仍难胜任

发布日期：2025-04-09 10:48 点击次数：77

　　最近一周，AI圈最热的词当属Manus。看成北京红色蝴蝶科技有限公司推出，尚处于禁闭测试阶段的鼎新型AI智能体家具，Manus在畴昔几天既资历了“下一个DeepSeek”的高规格赞叹，也资历了因任务失败率高档问题而激发的质疑。

　　北京本领3月10日至11日，Manus在官方外交平台回话了外界关注的多样问题，公司调和首创东谈主、首席科学家季逸超暴露了Manus使用的底层模子与开源代码。3月10日17点，Manus也进行了2小时的预防，季逸超暗示，预防后Manus的故障率大幅下跌，但系统压力也更大，正致力于处置问题。

　　Manus“更新前后”的家具融会存何不同？新京报贝壳财经记者对此进行了视频、网页、笔墨、游戏四个维度的测试。测试发现，3月11日更新后，Manus任务的得手率确乎有昭彰高出，但也出现了“刻下办事负载较高，无法创建任务”的情况。

　　“咱们应该提倡多样AI原生的颠覆式鼎新，Manus团队值得提倡和饱读吹，不是因为其营销容颜，而是因为他们正不休追求新一代的AI原生诈欺形态和体验，不论是新的交互容颜、新的办事容颜照旧新的营业形态，对行业的发展齐很纷乱。”快念念慢想探究院院长，原商汤智能产业探究院首创院长田丰告诉新京报贝壳财经记者。

　　记者实测：更新后任务得手率从50%高潮至66.66%

　　比较于大言语模子类家具的交互窗口是一个小小的对话框，Manus的上风在于不仅不错念念考，还不错实行用户的号令，且是完满“可视化”——通过屏幕右侧“Manus的电脑”窗口，用户不错完满看到Manus从念念考、浏览网页到写循序以致检测bug的全过程，这种家具联想带给东谈主的新奇感就犹如头一次看到DeepSeek深度念念考的过程不异，这亦然新京报贝壳财经记者体验该家具的第一个感受。

　　但在体验后，很多用户响应Manus完成用户提交任务的得手率并不高。对此，3月9日至10日，记者向Manus建议了8项任务条目，其得手完成了4项任务，另有4项任务因多样原因未完成，照此狡计，任务得手率为50%。

　　视频说：Manus的“九子夺嫡模拟器”游戏任求实行界面

　　举例记者条目Manus以清朝康熙时代“九子夺嫡”为布景，使用Python联想一款“皇子模拟器”游戏，其领先运转邃密，如使用4分钟上网浏览贵府，探究了清朝历史和康熙九子夺嫡的布景，又区别破耗2分钟创建了皇子贵府、罢了游戏先容和变装选拔功能，并在15分钟时完成了结局系统，但当其开动“测试游戏功能并树立bug”时，循序出现了停滞不动的状态，截止发稿时已过24小时，任务仍未完成。

　　而当记者条目Manus以贝壳财经已发布的视频为模板，新制作一个10秒钟的视频新闻时，Manus起首发现我方无法怒放记者提供的抖音视频探究，并初度“乞助”了记者，但记者提供视频后，其在“准备视觉素材”时再次堕入卡顿，任务未能完成。

　　Manus向记者“乞助”条目提供视频内容电脑截图

　　而在已完成的4项任务中，有2项任务也并未达到合格水平。如记者再度尝试进行视频制作任务并成功提供素材后，Manus才得手完成了这一任务，但其提供的制品视频中唯有明慧的笔墨内容，且笔墨终末溢出了屏幕，并未达到参考视频的闭幕。

　　左为新京报贝壳财经记者提供的参考视频，右为Manus生成的视频电脑截图

　　而3月11日Manus的更新后，记者向其建议了6项任务条目，Manus得手完成了4项，比较更新前，得手率达到了66.66%，而失败的2项任务也并非中断，而是在职务开动之前就领导“刻下办事负载较高，无法创建任务。请几分钟后再试。”

　　对于更新后的Manus，季逸超暗示，“好讯息是，咱们险些把Manus的落魄文端正翻了一倍，还增强了沙盒硬件，使得故障率大幅下跌。坏讯息是，跟着故障率镌汰，当今会话运行本领变长了，系统‘汗流夹背’，失败率又开动回升……只可暂时端正一下运行速率。咱们正在致力于处置……也许这即是禁闭测试阶段的‘魔力’方位。”

　　回答问题一般耗时15分钟谜底比大言语模子更全面但并非“无所不可”

　　贝壳财经记者测试发现，凭据任务难度的不同，Manus实行任务的本领也不同，如对“联想采访提纲与视频采访剧本有规划”等几项笔墨类任务，Manus的实行本领约为15分钟至20分钟，而对于“联想金融科普互动家具”这项触及网页交互的任务，Manus耗时31分钟，最终得手制作出了一个不错进行互动的网页家具，固然其中一些具体场景的画面仍未完成，处于“半制品”，但这一经超越了大言语模子家具的能力鸿沟。

　　Manus制作的金融科普互动家具，不错看到短缺图像，但下方试题一经不错与用户互动

　　贝壳财经记者通过实测发现，Manus实行任务的本领一般在15分钟独揽，对于笔墨类的回复其实行相对纵容，联美配资况且能生成多个文档。如记者同期对DeepSeek和Manus建议“浏览B站热点视频，揣摸可能爆火的科技新闻类选题，并联想案牍”这一任务时，DeepSeek念念考76秒后给出了回答，Manus则破耗了超越15分钟，但比较DeepSeek给出了单一的笔墨回答，Manus连气儿给出了包括“B站科技内容受众分析”“B站热点科技视频分析”“潜在爆款话题分析”“视频完满案牍”在内的四个文档，回答的内容愈加充分。

　　天然，Manus也并非一个“无所不可”的AI助手，如记者下达一个联想漫画作品的任务时，Manus只生成了笔墨框架和分镜联想，暗示“看成AI助手，我无法成功绘图图像或创建视觉艺术作品”。同期，记者不雅察Manus的云霄电脑发现，其在浏览网站时使用的是旅客身份，当碰到一些需要登录才能浏览的内容，或者会员内容时，就会发生看望失败的情况，因此比较东谈主类网罗用户，Manus受到的端正更多，这也加多了它任务失败的概率。

　　田丰告诉记者，“在需要精确信源的限度，比如分析特斯拉股价，Manus只可握取雪球、搜狐等二手信息，却无法成功获得财报原文。这可能触及两方面问题：一是系统短缺优先握取巨擘信源的逻辑联想，二是受限于网罗看望权限无法爬取一手数据。这种信息落差会对用户决策形成践诺性误导。”

　　此外，在浮浅任务的融会上，Manus在效用上无法和愈加垂直的家具比较，举例记者使用Manus耗时15分钟生成了一张PDF版块的“招聘缘由”，而使用Kimi+的PPT生得手能，数分钟就生成了8页PPT招聘缘由。

　　这也许即是为何Manus团队在家具爆火后给出了领导，称众人咫尺看到的Manus照旧一个襁褓中的小婴儿，离在郑再版中想请托给众人的体验还差很远。像模子幻觉、请托物友好度、运行速率等方面齐还有很大的进步空间。

　　外部关注度高潮 Manus鼎新更多在家具层面而非模子层面

　　另一方面，同为广受关注的AI家具，比较DeepSeek，Manus在初期“爆火”的传播旅途上有所不同：DeepSeek是从海外科技社区先行火爆，之后再传归国内，而Manus则是由国内先行传播，颠倒是首个翔实实测是从自媒体的公众号开动，加上Manus家具首创东谈主肖弘自己曾推出过微伴助手等企业微信营销诈欺，因此对于Manus爆火是基于“营销”的质疑永远连续于耳。

　　但贝壳财经记者持重到，比较3月6日Manus初期火爆时外网平台英文用户险些“无东谈主问津”的态势，近几日英文用户对Manus的盘问正开动慢慢增多，如谷歌搜索首创团队成员DeedyDas在3月9日发文称，“深度探究+自动操作+电脑使用+可人+牵挂功能，Manus即是咱们所痛快应该有的AI Agent。”3月11日，贝壳财经记者发现X平台上搜索靠前的对于Manus的盘问均为英文用户。

　　田丰告诉贝壳财经记者，Manus看成家具的中枢冲破在于构建了任务调治引擎。具体来说有三个鼎新点：它粗略将复杂任务解析成明晰的子任务清单，比如完满展示调研才能的逻辑框架；它像增强版搜索引擎，会主动握取网页贵府进行归纳整理，而不是被迫恭候指示；它因循及时稽察任务进程条，若其因循中段修改任务，表面上这种迭代机制能大幅进步效用。

　　在他看来，Manus咫尺短板也很昭彰，凭据他3月10日的实测，Manus实行复杂任务时超越40%会失败，“举例我条目分析40个AI器用，系统需要在全过程中持续佩带落魄文，最终可能因为超出算力端正或办事器负载，任务崩溃了。不错说，刻下Manus更合适生计场景而非专考场景。”

　　“坦率地说，咫尺用户粗略测试的Manus家具更像是0.1内测版块，而并非1.0版块，是以该家具需要快速迭代，才不会冷冷清清。Manus展现了细粒度、开放性的任务流、自动化引擎，固然有些跌跌撞撞，但给了众人很好的指向，同期这亦然一款AI原生诈欺，因为唯有通过多款大模子才能因循器用流。”田丰说。

　　3月11日，有讯息称Manus平台将与阿里通义千问团队达成政策配合，对此，阿里通义方面回复新京报贝壳财经记者称，“Manus和通义千问确乎在进行开源模子方面的配合。咱们期待与更多全球AI鼎新者开展配合。”

　　由此来看，Manus的鼎新更多在家具层面而非模子层面，多位不雅看Manus云电脑窗口的用户告诉贝壳财经记者，看着Manus在窗口中“很致力于”地实行任务，“一下子就通晓了什么是AI Agent”。智灵能源CTO朱旭琪则在接受贝壳财经记者采访时暗示，Manus把OpenAI曾展示过的“虚构机”操作作念出了比较好的交互性，可圈可点。

　　对于Manus所代表的AI Agent类家具在改日的发展，田丰合计，刻下最大的防碍是生态禁闭。如当用户条目比价京东拼多多，Manus只可搜到新闻稿而拿不到实在商品数据，因为平台屏蔽了搜索引擎爬虫。处置旅途有两个：一是通过生态协商开放MCP接口，二是模拟东谈主类操作继承用户账号完成动作。但两者齐存在现实防碍——前者痛心大厂的“护城河”，后者则需要用户交出账号端正权存在信任危急。而一款AI Agent家具能否在这么的逆境中“杰出重围”，还需要多重覆按。

热点资讯

让建站和SEO变得简单