Manus实测,它和DeepSeek有什么不同?

自3月5日开启内测以来,人工智能应用 Manus 出圈走红。3月12日晚间,Manus在自有 X 账号上表示,7天以来Manus使用申请等候名单增加到两百万人次。

澎湃新闻·对齐Lab在获得内测码后,使用Manus进行了四种任务测试。总体而言,Manus作为“开箱即用”的创新智能体应用有不少优点:交互界面友好、拆解需求能力强、多AI协作有条不紊、设计功底强,但在信息整合能力、细节优化、交付完成度上还有待提高。

Manus和AI Agent究竟是什么?

有别于之前爆火的DeepSeek,Manus并不是一个新的人工智能大模型,而是一款让AI大模型协作的人工智能体(AI Agent)。也就是说,Manus不创造大模型,而是使用市面上已经存在的大模型打造了一个为人服务的“助理”。理论上,AI Agent能够以类似人类的方式工作,通过大模型来“理解”用户需求,“规划”达成目标的路径,调用包括大模型在内的各种“工具”来执行任务。

Manus所处的AI Agent赛道刚刚兴起,虽然不乏竞品,却还没有产生现象级的产品。

Smiliarweb数据显示,在2月全球增速最高的10个AI产品中,只有Dify一家与Agent概念有关(Manus目前处于逐步放开的测试阶段)。但Dify更准确的定位是Agent开发平台,并不是像Manus这样的AI Agent应用。AI产品中流量最高的,还是集中在AI聊天机器人这个品类。但从全球AI APP的访问量总榜来看,除了DeepSeek这样的新晋爆款,其他高访问量AI产品大多是上榜多时且存在增长困难的问题。

平均一个任务用时40分钟,Manus擅长做什么?

从Manus官方和Discord社区发布的测试案例来看,网页、报告、PPT是用户希望Manus生成的主要内容产品,符合大部分打工人、学生群体的需求。

根据不同的任务难度,我们分别测试了Manus在svg图像生成、数据可视化、游戏设计、数据挖掘、网页交互设计等方面的能力。

我们使用理解能力、准确性、设计能力和代码能力这四个维度,对Manus测试过的四个任务进行了评估。Manus最擅长的是理解需求后拆解任务,在不同任务难度下均能达到7分以上的标准(满分10分)。此外,Manus的网页设计能力和审美也值得称赞。在“小王子智能体世界”项目中,Manus在没有提示词的引导下,通过理解故事和设定自主完成了风格化的设计。

Manus 的工作原理是使用多个 AI 模型协同决策,这些 AI 模型会自动拆解任务目标、生成执行计划,调用工具接口完成文件操作、数据处理等任务,并实时根据反馈动态调整策略,实现复杂任务的自主执行,从而实现一句提示词就将任务执行到底的效果。Manus 的所有工作流程均在云端虚拟机上完成。

提示词和参考资料越详细,项目的完成效果可能越好。“上海赏樱地图网页”的项目里,我们将上海市各区的赏樱地点、花期等信息整理成表格喂给Manus,生成内容的质量明显提升,任务用时也是4个任务中最短的。可见,信息检索和数据爬取等内容整合工作,是比较费时费力的。

为了更好地说明Manus的工作原理,我们在上海赏樱地图的任务回放基础上,制作了一个解释Manus工作流程的视频。

Manus实测,它和DeepSeek有什么不同?

AI永远“使命必达”,幻觉问题更加凸显

在 Manus 执行任务的各个环节中,我们最关心的是资料和数据收集的准确性及整合能力。在 “模拟投资网页游戏” 中,我们要求 Manus 生成不同历史阶段的投资标的数据。以梳理 2005 年每月黄金价格为例,Manus 的梳理方法是依据新闻报道筛选出核心事件,比如 “2005 年,黄金价格突破 450 美元 / 盎司”,然后结合相关历史数据和统计方法,通过特定算法生成模拟趋势的数据。

通过核查2005年的黄金价格后可知,2005年全球黄金市场的月均价格确实一度超过了450 美元 / 盎司,但Manus提供的每月黄金数据与真实数据均有不同程度的偏差。也就是说,这些数据是 AI 在满足当年突破 450 美元这一点的基础上“填空”出来的。然而,这个生造数据的过程, AI 并不会告诉你。这也就是各家大模型都在努力解决的 AI 幻觉问题,Manus 调用的是现成的大模型,也自然存在着这样的幻觉问题。

如果不去细抠任务中的各个环节,不论是网页、PPT还是报告,Manus的工作成果可以用可圈可点来形容。加上Manus允许用户实时观看自己的操作过程,给人一种信赖感。这种产品设计上的技巧,规避了AI的一些能力不足的问题。

这是市面上一些大模型和AI应用的通病,通过营造出一种什么问题都能解决的氛围,来满足市场和用户的期待。尤其是在需求沟通、任务执行和总结汇报上,AI给出的范式总是有模有样。加上擅长“高情商的表达”,给用户提供了很多情绪价值。但仔细去核验的话,幻觉、误用、不准确等问题其实并不少见。毕竟在激烈的竞争中,AI是不会轻易和你说它做不到的。

从实测体验来说,以Manus为代表的AI Agent确实在把完成一件事的门槛越拉越低,但也把做好一件事的标准越拉越高。越是对创意有着高要求,对内容准确性、真实性近乎严苛的领域,流程化的工具就只能陪你半程。更加精准地理解世界、理解人类,将成为决定工作品质与成果的关键,让个人在未来的竞争格局中占据一席之地。

作为一个串联AI大模型的工具,Manus也有很多当下大模型的通病。但在涉及隐私等重要的细节问题上,Manus的很多处理方式还是值得借鉴的。比如,Manus不会使用用户提供的API,哪怕你强制要求它使用;在涉及儿童相关的内容时,即便没有提示词的引导,Manus也会加上一个工作步骤,去验证内容和设计是不是适合儿童观看;Manus会让用户选择是否将项目部署到公网。这些机制和设定,都能体现一款产品对人的尊重和保护。

在每一次等待 Manus 创作的过程中,虽然实际时长远远短于人类自己创作的时长,但期盼的心情总酿成一种度秒如年的感受。

这种感受,就像在电脑刚刚普及的年代,你守在一台老式电脑前,眼巴巴地看着一张图像逐行加载。每一行像素的显现,都勾得人心痒痒。那一刻,就仿佛望向互联网时代的大门。而现如今, AI 虽有各种不完美,但也同样给人一种希望,新技术引领的新时代又再次开启了。

澎湃新闻·对齐Lab Manus实测项目回看:

1、上海赏樱数据可视化项目设计,https://manus.im/share/Pihrl1JUmNZ0moPhoWfyh6?replay=1

2、AI公司产品的交互式可视化网页设计,https://manus.im/share/MoZ9vlZnUVWnuG49BNFqjG?replay=1

3、小王子世界观AI代理网页游戏设计,https://manus.im/share/5ZuJ0R75Clzr7X6iaNLFNb?replay=1

4、什么是AI大模型的通俗讲解SVG卡片,https://manus.im/share/uytfTaasg9O9JpPnJU40jx?replay=1

上一篇:《促进和规范数据跨境流动规定》实施一周年,数据出境安全管理工作取得积极成效
下一篇:爱莲江头 百年清风——寻访周敦颐爱莲文化中的家风家训
免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。

2、如因作品内容、版权和其他问题请与本站管理员联系,我们将在收到通知后的3个工作日内进行处理。