百度近期发布了两款全新AI模型:ERNIE 4.5和ERNIE X1 。
ERNIE 4.5 是一种可用于日常任务的通用多模态模型,可与 OpenAI 的GPT-4o和DeepSeek 的 V3竞争。
而 ERNIE X1 则是一种专门为数学和复杂编码等高级任务而设计的推理模型。它将与DeepSeek-R1和 OpenAI 的o3-mini一起进入竞争激烈的市场。
百度 X1 型号的最大卖点是它的价格比 DeepSeek-R1 便宜一半,但据称性能相当。不过,到目前为止,我们还没有看到 X1 的任何基准测试,因此这一说法还有待验证。
另一方面,ERNIE 4.5 确实具有良好的基准测试结果,但对于中国以外的用户来说似乎不是特别用户友好,我认为这将极大地影响它的采用。
百度新发布的 ERNIE 会不会成为又一个“DeepSeek 时刻”?我的第一印象是——不会。但让我们进一步了解这些新模型。在这篇博客中,我将消除干扰,并分解 ERNIE 4.5 和 X1 的要点。
百度的ERNIE 4.5是什么?
ERNIE 4.5 是百度最新的多模态 AI模型,是一款专为日常任务和交互而设计的多功能通才。作为一个多模态系统,ERNIE 4.5 可以同时处理多种数据类型,集成文本、图像、音频和视频。
在官方的简短演示中,我们看到了 ERNIE 4.5 处理文本和视频的一个例子:
这并不是百度进军人工智能领域的第一步。该公司最初成立于 2000 年,是中国领先的搜索引擎(通常被称为“中国谷歌”),几年前开始认真投资人工智能。百度自 2019 年以来一直在开发 ERNIE(通过知识整合增强表示),并于 2023 年发布了 ERNIE Bot。
然而,百度在亚洲人工智能市场的主导地位最近受到了阿里巴巴的 Qwen 模型和 DeepSeek 等创新型新竞争对手的压力。
借助 ERNIE 4.5,百度直接与 DeepSeek 的 V3、Qwen 2.5 Max或 OpenAI 的 GPT-4o 竞争。
百度的ERNIE X1是什么?
ERNIE X1 是一种专门为数学和复杂编码等高级任务而设计的推理模型。与 DeepSeek-R1 或OpenAI 的 o1类似,这种类型的模型向用户明确展示了其思维过程,使其更容易理解它如何得出特定的答案或解决方案。
公司继续大力投资 ERNIE X1 等以推理为重点的模型,因为这些模型直接针对带来明显商业价值的任务。根据 Anthropic 的最新数据,推理和编码任务是企业的主要用例,占 AI 采用的很大一部分。
资料来源:人类经济指数
尽管人工智能发展迅速,但全球企业采用率仍然较低,而在推理密集型领域(数学、编码、高级分析)表现出色的模型更有可能提供有形的商业价值,推动收入增长并加速企业市场对人工智能的采用。
百度 ERNIE X1 的主要卖点是其积极的定价策略。以下是与 DeepSeek-R1 的快速比较(定价信息截至 2025 年 3 月 17 日准确):
模型 |
每 100 万代币的投入成本(最低) |
每 100 万代币的输出成本 |
DeepSeek-R1 |
0.135 美元(折扣价)- 0.55 美元(标准价) |
0.55 美元(折扣价) – 2.19 美元(标准价) |
摇奖 X1 |
0.28 美元 |
1.10 美元 |
在标准费率下(不包括内容缓存),百度的说法 — — ERNIE X1 的性能与 DeepSeek-R1 相当,但价格只有一半 — — 是正确的,特别是在输出代币定价方面。
然而,根据 DeepSeek 的折扣价(每天 UTC 时间 16:30-00:30 适用),情况正好相反:ERNIE X1 的价格会变成原来的两倍。
尽管定价具有吸引力,但百度尚未提供详细的基准测试来确认 ERNIE X1 相对于 DeepSeek-R1 的性能,这给其在现实世界的竞争力留下了一些不确定性。
在我们等待 ERNIE X1 的基准测试时,让我们来了解有关 ERNIE 4.5 性能的更多细节。
ERNIE 4.5 基准
百度发布了基准测试,将 ERNIE 4.5 与领先的多模式和基于文本的模型进行了比较,包括 OpenAI 的 GPT-4o、GPT-4.5和 DeepSeek 的 V3。让我们从多模式功能开始,了解一下主要结果。
多模态基准
在多模态基准测试中,ERNIE 4.5 的表现优于 GPT-4o,平均得分为 77.77,而 GPT-4o 的平均得分为 73.92,领先 3.85 分。
来源:百度
具体来说,ERNIE 4.5 在七个评估基准中的六个中超越了 GPT-4o:
- CCBench :评估文本和图像中的常识推理。ERNIE 4.5 得分约为 81,略高于 GPT-4o 的约 79 分。
- OCRBench :评估光学字符识别能力,重点是从图像中提取文本。ERNIE 4.5 的得分约为 88,超过了 GPT-4o 的约 81。
- ChartQA :测试对图表中呈现的数据的理解。ERNIE 4.5 得分约为 82,略高于 GPT-4o 的约 81。
- MMMU :衡量不同主题的多模态推理能力。GPT-4o 以 ~70 领先,而 ERNIE 4.5 得分 ~64,表明还有改进空间。
- MathVista :在视觉环境中评估数学推理。ERNIE 4.5 得分约为 69,优于 GPT-4o 的约 61。
- DocVQA :评估根据文档视觉效果回答问题的能力。ERNIE 4.5 表现出色,得分约为 91,而 GPT-4o 得分约为 85。
- MVBench :专注于动态视频任务中的时间理解,需要对帧序列进行推理。ERNIE 4.5 得分约为 72,明显优于 GPT-4o 的约 63。
纯文本基准
在纯文本任务中,ERNIE 4.5 的平均得分为79.6 ,略高于 GPT-4.5 的平均得分 79.14,同时也超过了 DeepSeek-V3(~77)。
来源:百度
这些结果表明 ERNIE 4.5 在多模态文档理解、数学和中文语言基准测试中特别具有竞争力。然而,它在特定编码基准测试(如 LiveCodeBench)上的表现较弱,凸显了其在专门编码任务中的潜在局限性。
让我们快速分解几个关键基准:
- MMLU-Pro :评估各个学科的多任务学习。ERNIE 4.5 得分约为 78,略低于 GPT-4.5 的约 79。
- GPQA :评估通用问答。ERNIE 4.5 得分约 57,落后于 GPT-4.5 的约 61。
- C-Eval :衡量中国人的常识和推理能力。ERNIE 4.5 以 ~88 领先,优于 GPT-4.5 的 ~80。
- CMMLU :测试中文多任务理解。ERNIE 4.5 得分约 88,高于 GPT-4.5 的约 80。
- Math-500 :衡量模型解决具有挑战性的高中数学问题的能力。ERNIE 4.5(~82)落后于领先者 DeepSeek-V3(~88)和 GPT-4.5(~84)。
- CMath :评估中文数学解题能力。ERNIE 4.5 以 ~95 领先,超过 DeepSeek-V3 的 ~85。
- LiveCodeBench :衡量实时编码能力。ERNIE 4.5 得分约为 35,低于 GPT-4.5 的约 45,表明编码任务还有改进空间。
如何访问 ERNIE 4.5 和 ERNIE X1
您可以直接通过百度网站上的官方聊天机器人应用程序尝试百度的 ERNIE 4.5 和 X1:yiyan.baidu.com。
然而,根据我的个人经验,它存在一些可用性问题。界面目前主要以中文提供,这对非中文使用者来说是一个挑战——虽然你可以使用浏览器的自动翻译功能,但翻译并不流畅,用户体验也会受到影响。
来源:百度
此外,无法使用 Google 或 GitHub 登录,这是我在 DeepSeek 或 Qwen 等竞争对手上没有遇到过的问题。我仍然尝试创建一个帐户,但我无法使用我的欧洲电话号码填写注册表。
如何通过 API 访问 ERNIE
对于有兴趣集成 ERNIE 4.5 的开发人员,已经可以通过百度官方平台千帆获得 API 访问。定价为每 100 万输入代币 0.55 美元起,每 100 万输出代币 2.20 美元起。
截至 2024 年 3 月 17 日,ERNIE X1 尚未通过 API 提供,但百度提到很快就会提供。
此外,百度宣布计划于 2025 年 6 月 30 日起开源 ERNIE 4.5。此举可以通过使模型更易于访问和适应性提高国际采用率。
百度还打算将 ERNIE 4.5 和 X1 整合到其生态系统的各种产品中——包括百度搜索和问诊APP——不过时间表和细节仍有待确认。
ERNIE 对人工智能市场的影响
百度 ERNIE 4.5 和 ERNIE X1 的发布延续了我在中国人工智能行业看到的一个显著模式——优先考虑颠覆而不是立即可用性的策略。
与谷歌、OpenAI 或 Mistral 等公司不同,这些公司通常会花费大量时间(通常为 8 至 12 个月或更长时间)来确保其产品符合严格的稳定性、安全性、隐私性和安全性标准,而中国人工智能公司似乎更倾向于快速部署引人注目但仍处于早期、未完善状态的产品。
和 ManusAI 和 DeepSeek 一样,百度的 ERNIE 模型也遵循类似的趋势。它们积极进入市场,主要目的是颠覆定价结构和竞争假设。尤其是 ERNIE X1 模型,它明确将自己定位为性能可与 DeepSeek-R1 媲美,但成本只有后者的一半——尽管百度尚未公开提供详细的基准来支持这些说法。
尽管 ERNIE 4.5 显示出真正具有竞争力的基准测试结果,但像我这样的国际用户仍然遇到障碍,特别是具有挑战性的注册流程和语言可访问性问题。
总体而言,ERNIE 4.5 和 X1 的发布强化了这样一种理念:中国人工智能公司愿意在短期内牺牲一些稳定性和用户体验,只要他们能够快速推动市场发展并引发全行业的讨论。
这种方法是否可持续还有待观察,但不可否认的是,它能够有效地迫使全球人工智能市场加快发展速度,并以不同的方式思考在当前市场竞争的意义。
本文内容来源于公开网络,出于传递信息之目的整理发布。原文版权归原作者所有,若涉及侵权请先提供版权后联系我们删除