了解 Manus AI,一款超越 OpenAI 的 Deep Research 的 AI 代理,并有望成为下一个“DeepSeek 时刻”

由初创公司 Monica 开发的中国人工智能机器人 Manus 正在引起轰动,它是首批完全自主的人工智能代理之一,它不仅可以响应指令,还可以独立规划和执行任务。

自 2025 年 3 月 6 日推出以来,Manus 既引发了炒作,也引发了质疑。虽然有人称之为中国第二个“DeepSeek 时刻”,但其他人则质疑它是否真的名副其实,指出早期报告显示存在故障、循环错误和性能不一致等问题。

在本文中,我将分析 Manus AI 是什么、它如何工作、它实际上能做什么,以及它是否代表着一次飞跃还是仅仅是另一个被过度炒作的 AI 实验。

什么是 Manus AI?

Manus AI 是一个自主的人工智能代理,可以在极少的人工输入下执行多步骤任务。Manus 无需等待用户不断提示并做出被动响应,而是可以自行规划、执行和优化任务。

Manus 背后的想法是超越基本的聊天机器人式人工智能,创建一个能够作为真正的数字助理并做出明智决策的系统。

例如,它可以从单个提示开始并生成无需其他提示的仪表板

请注意,Manus 将仪表板部署到永久公共 URL,您可以在此处访问。

无论是分析金融交易、筛选求职者还是搜索出租物业,Manus 都旨在处理大量信息、比较选项并提供结构化、优化的解决方案。您可以在此处查看更多示例,但请注意,Manus AI 团队进行了选择,这些示例可能是经过精心挑选的。

Manus AI 如何工作?

Manus AI 可以作为自主 AI 代理运行,其功能如下:

  • 使用在线资源检索信息并核实事实。
  • 数据处理和可视化,包括结构化分析和交互式仪表板。
  • 代码执行和自动化,允许其编写、测试和部署脚本。
  • Web 自动化,实现与 Web 应用程序的交互、填写表单和抓取数据。

让我们更详细地解释一下 Manus AI 的工作原理。

多代理系统和任务执行

根据廖建的初步发现,Manus AI 通过结构化的代理循环运行,逐步迭代处理任务。每个会话都遵循以下流程:

  1. 分析事件:了解用户请求和任务的当前状态。
  2. 选择工具:为下一步选择适当的工具或 API 调用。
  3. 执行命令:在 Linux 沙箱中运行 shell 脚本、Web 自动化或数据处理。
  4. 迭代:根据新数据改进其操作,重复循环直至任务完成。
  5. 提交结果:以消息、报告或部署的应用程序的形式向用户发送结构化输出。
  6. 待机模式:进入空闲状态,直到需要进一步的用户输入。

ad_4nxfjhbfmua6aljnubveuwhygnxp3paheqz46zpbbg-arctradgbmygaaw2vzxjockenjk4ssnxlr0hfheapwi8cwexd_hkkhlsba4zgswsdfbcqixocrpydx5emrszxbaxpd_-ni

核心架构特色

Manus AI 的核心架构功能使其能够像人类一样与计算机交互,但在受控环境中进行。这些功能包括:

  • Linux 沙盒环境:Manus 在受控的执行空间内运行,它可以在其中安装软件、运行脚本和操作文件。
  • Shell 和命令行执行:AI 可以执行 shell 命令、管理进程并自动执行系统任务。
  • 集成的 Web 浏览器控制:Manus 可以浏览网站、提取数据、与 Web 元素交互,甚至在浏览器控制台内执行 JavaScript。
  • 文件系统管理:它可以读取、写入和组织文件,使其对于处理基于文档的工作流程很有用。
  • 部署能力:Manus 可以部署应用程序,包括在公共 URL 上建立网站和托管服务。

安全和限制

每个 Manus AI 会话都独立运行,防止用户访问彼此的执行环境。此外,工具和命令都经过沙盒处理,从而降低了未经授权的系统访问风险。Manus AI 还被禁止在没有明确权限的情况下创建用户帐户或绕过安全措施。

尽管 Manus AI 具有自主性,但由于其上下文窗口有限,其一次处理的数据量仍然存在限制。

Manus AI 基准

虽然我们还没有大量的基准数据,但 Manus AI 是使用 GAIA 基准进行评估的,该测试旨在衡量 AI 代理处理现实世界问题解决任务的能力。为了确保结果可重复,Manus 使用与其生产版本相同的配置进行评估。

结果表明,Manus 的表现明显优于之前的最先进 (SOTA) 模型,包括OpenAI 的深度研究系统:

ad_4nxcooelpdjtqrrmkcfnqjxcgtsrcadka6uuzr7qos5efeme5glbh4nrf_5kdbii4wxd3coopgtgzsjzsngrhxpaoc8dpnl9umf1ikk_ltuiq9yz-sprohuccrdohlxwlviyimuuggw

来源:Manus AI

该基准从三个难度级别对人工智能代理进行评估:

  1. 1 级(基础任务):Manus AI 得分为 86.5%,明显高于 OpenAI Deep Research 的 74.3%,也远高于之前的 SOTA 的 67.9%。
  2. 第 2 级(中级任务):Manus 保持了 70.1% 的强劲表现,略胜 OpenAI Deep Research(69.1%),并高于之前的 SOTA(67.4%)。
  3. 3 级(复杂任务):Manus 也领先这一类别,得分为 57.7%,而 OpenAI 为 47.6%,之前的最佳模型为 42.3%。

Manus AI 在所有难度级别上都处于领先地位,这表明它可能是目前最强大的自主 AI 代理之一。然而,在较高难度级别上得分下降表明,即使是最好的 AI 模型在最复杂、多步骤的推理任务上也仍然举步维艰。

虽然这些基准测试令人印象深刻,但实际性能通常与受控测试不同。Manus AI 的实际可用性将取决于它处理不可预测任务的能力,以及它的自主性是否会给用户工作流程带来实际的改进。

如何访问 Manus AI?

目前,Manus AI 的访问权限仅限于邀请制测试阶段。如果您有兴趣访问,请按照以下步骤操作:

  1. 访问官方网站:导航到Manus AI 网站。
  2. 加入等候名单:单击右上角的“开始”按钮,然后单击“申请访问权限”。
  3. 等待邀请:加入候补名单后,您需要等待邀请码发送到您的注册邮箱。由于需求量很大,此过程可能需要一些时间。
  4. 激活您的帐户:收到邀请码后,请按照电子邮件中提供的说明激活您的 Manus AI 帐户。

谨慎对待提供邀请码的非官方来源,因为它们可能不合法。始终使用官方渠道访问 Manus AI。

Manus AI 是“DeepSeek 时刻”吗?

Manus AI 可能成为 AI 的“DeepSeek 时刻”,让我来解释一下原因。DeepSeek-R1 并没有改变格局,因为我们突然转向了它。事实上,我们中的许多人在最初几天尝试过它,甚至无法使用它,因为他们的服务器无法处理负载——他们今天仍然在为此苦苦挣扎。但 DeepSeek 是一个转折点,因为它证明了三件事:

  1. 我们可以用我们认为必要成本的一小部分来构建强大的推理模型。
  2. 先进的人工智能芯片可能并不像我们想象的那么重要。
  3. 开源人工智能不再处于追赶地位——它与封闭的专有模型相当,甚至超越了它们。

我认为 Manus AI 是 DeepSeek 的一个潜在时刻,它适用于代理型人工智能而非推理型人工智能。它挑战了强大的人工智能代理需要庞大的基础设施、封闭的生态系统和高昂的成本这一假设。

根据Jian Liao 的初步发现,Manus 结合了 Claude Sonnet、Qwen 微调和模块化 AI 代理,表明您可以构建一个高度强大的自主系统,而无需从头开始训练庞大的专有模型。

这次发布也正值一个非常有趣的时刻——正如谣言四起,OpenAI 计划推出三款高级 AI 代理,订阅费从 2,000 美元到 20,000 美元不等。如果 Manus AI 兑现其低成本、开放访问自主 AI 的承诺,它可能会迫使像 OpenAI 这样的公司重新考虑 AI 自动化是否需要被锁定在昂贵的付费墙后面。

尽管如此,仍然存在一些合理的担忧,我们将在下一节中探讨这些问题。

Manus AI 早期问题

Manus 已经因为循环错误、过度依赖现有模型和安全风险而受到批评。虽然它在理论上令人兴奋,但它是否真的能大规模发挥作用仍是一个悬而未决的问题。如果它遵循 DeepSeek 的道路,它可能在概念上具有革命性,但在执行上却令人沮丧——一个很少有人能可靠使用的强大系统。

例如,早期测试人员指出了几个问题:

  • 故障和不一致:一些用户报告说,当任务定义不明确时,Manus 会循环或陷入重复循环,难以做出复杂的决策。
  • 过度依赖现有模型:对其架构的调查表明,Manus 大量整合了 Claude Sonnet 和 Qwen 微调,而不是使用独特的专有模型。这引发了人们的担忧,即它是否真正开创了新的 AI 方法,还是只是巧妙地编排了现有技术。
  • 安全和隐私风险:Manus 能够执行命令、检索文件并与外部系统交互,这导致一些人对其安全控制产生质疑。如果没有正确进行沙盒处理,能够访问敏感数据的自主 AI 可能会带来意想不到的漏洞。

本文内容来源于公开网络,出于传递信息之目的整理发布。原文版权归原作者所有,若涉及侵权请先提供版权后联系我们删除

(0)
WP之家WP之家
上一篇 2025年3月20日 下午10:05
下一篇 2025年3月20日 下午10:27

相关推荐

  • 小红书信息流、搜索广告双升级 提升品牌投放效果

    4月28日 消息:为了更好的适配信息流和搜索两大场景的特性,小红书近期宣布对「信息流广告」和「搜索广告」进行了双重升级,从用户决策链路出发,最大程度提升品牌投放效果。 小红书信息流升级 小红书信息流,是用户…

    教程资讯 2025年3月29日
  • 哔哩哔哩直播把弹幕开在游戏里面方法介绍

    哔哩哔哩直播把弹幕开在游戏里面方法介绍,b站直播怎么把弹幕放在游戏界面,下面请看小编的详细介绍吧! 进入到哔哩哔哩界面点击直播 进入到界面找到弹幕图标 进入到界面点击开启弹幕即可 以上就是wp之家小编整理的…

    2025年4月5日
  • 2020版百度竞价关键词匹配方式介绍

    了解百度搜索推广2020版新关键词匹配模式 1、匹配模式详细定义及案例说明一精确匹配 详细定义:广告主提交的关键词及关键词的同义变体,会与用户的搜索词一致. 2、匹配模式详细定义及案例说明一短语匹配详细定义:广…

    教程资讯 2025年3月29日
  • 百度品牌广告系列产品有哪些?

    1、什么是百度品牌广告? 百度官方说法:百度品牌广告推广直接目的是在提高品牌形象的同时,获得越来越多消费者的喜爱和信赖,逐步提高品牌产品的市场占有率。只要把用户搜索品牌广告,百度的首页上出现相关信息,…

    2025年3月29日
  • WordPress 缓存终极指南(看完不需要看别人教程)

    缓存是运行网站的重要方面。这是提高网站性能的首选,并且应该是您在启动时首先实施的事情之一。 多亏了插件,WordPress 中的缓存不需要花费数小时来设置,也不需要任何特殊技能。 在本指南中,您将了解 WordPress …

    2025年3月29日
  • 夸克网盘简历模板在什么地方 夸克网盘简历模板具体位置一览

    夸克网盘简历模板在什么地方 夸克网盘简历模板具体位置一览,有的用户们想要知道简历模板在什么地方,那么各位就跟随小编来看看吧。 夸克网盘简历模板具体位置一览 进入夸克,打开夸克网盘。 在夸克网盘界面,点击“…

    2025年4月5日
  • 巨量引擎上线“账户优选起量”多账户起量模式

    1、什么是账户优选起量 「账户优选起量」是一款作用于账户粒度的投中优化类产品,系统依据客户跑量诉求对账户整体进行实时监控、统筹规划、高维调优,对账户内计划预算进行最优分配,在合适的时间调用合适的起量策…

    2025年3月29日
  • 《抖音》2024温暖中国活动什么时候开启

    抖音温暖中国活动是福利活动,参加活动用户即可瓜分20亿,那么具体什么时候开启呢?下面一起来看看吧! 答:活动将会在2024年1月25日开始-2024年2月18日结束. 1、活动一:集生肖卡。时问为1月25日0 点至2月9日18点…

    2025年4月5日