百度 ERNIE 4.5 和 X1：功能、访问、DeepSeek 比较

百度近期发布了两款全新AI模型：ERNIE 4.5和ERNIE X1 。

ERNIE 4.5 是一种可用于日常任务的通用多模态模型，可与 OpenAI 的GPT-4o和DeepSeek 的 V3竞争。

而 ERNIE X1 则是一种专门为数学和复杂编码等高级任务而设计的推理模型。它将与DeepSeek-R1和 OpenAI 的o3-mini一起进入竞争激烈的市场。

百度 X1 型号的最大卖点是它的价格比 DeepSeek-R1 便宜一半，但据称性能相当。不过，到目前为止，我们还没有看到 X1 的任何基准测试，因此这一说法还有待验证。

另一方面，ERNIE 4.5 确实具有良好的基准测试结果，但对于中国以外的用户来说似乎不是特别用户友好，我认为这将极大地影响它的采用。

百度新发布的 ERNIE 会不会成为又一个“DeepSeek 时刻”？我的第一印象是——不会。但让我们进一步了解这些新模型。在这篇博客中，我将消除干扰，并分解 ERNIE 4.5 和 X1 的要点。

百度的ERNIE 4.5是什么？

ERNIE 4.5 是百度最新的多模态 AI模型，是一款专为日常任务和交互而设计的多功能通才。作为一个多模态系统，ERNIE 4.5 可以同时处理多种数据类型，集成文本、图像、音频和视频。

在官方的简短演示中，我们看到了 ERNIE 4.5 处理文本和视频的一个例子：

这并不是百度进军人工智能领域的第一步。该公司最初成立于 2000 年，是中国领先的搜索引擎（通常被称为“中国谷歌”），几年前开始认真投资人工智能。百度自 2019 年以来一直在开发 ERNIE（通过知识整合增强表示），并于 2023 年发布了 ERNIE Bot。

然而，百度在亚洲人工智能市场的主导地位最近受到了阿里巴巴的 Qwen 模型和 DeepSeek 等创新型新竞争对手的压力。

借助 ERNIE 4.5，百度直接与 DeepSeek 的 V3、Qwen 2.5 Max或 OpenAI 的 GPT-4o 竞争。

百度的ERNIE X1是什么？

ERNIE X1 是一种专门为数学和复杂编码等高级任务而设计的推理模型。与 DeepSeek-R1 或OpenAI 的 o1类似，这种类型的模型向用户明确展示了其思维过程，使其更容易理解它如何得出特定的答案或解决方案。

公司继续大力投资 ERNIE X1 等以推理为重点的模型，因为这些模型直接针对带来明显商业价值的任务。根据 Anthropic 的最新数据，推理和编码任务是企业的主要用例，占 AI 采用的很大一部分。

资料来源：人类经济指数

尽管人工智能发展迅速，但全球企业采用率仍然较低，而在推理密集型领域（数学、编码、高级分析）表现出色的模型更有可能提供有形的商业价值，推动收入增长并加速企业市场对人工智能的采用。

百度 ERNIE X1 的主要卖点是其积极的定价策略。以下是与 DeepSeek-R1 的快速比较（定价信息截至 2025 年 3 月 17 日准确）：

模型	每 100 万代币的投入成本（最低）	每 100 万代币的输出成本
DeepSeek-R1	0.135 美元（折扣价）- 0.55 美元（标准价）	0.55 美元（折扣价） – 2.19 美元（标准价）
摇奖 X1	0.28 美元	1.10 美元

在标准费率下（不包括内容缓存），百度的说法 — — ERNIE X1 的性能与 DeepSeek-R1 相当，但价格只有一半 — — 是正确的，特别是在输出代币定价方面。

然而，根据 DeepSeek 的折扣价（每天 UTC 时间 16:30-00:30 适用），情况正好相反：ERNIE X1 的价格会变成原来的两倍。

尽管定价具有吸引力，但百度尚未提供详细的基准测试来确认 ERNIE X1 相对于 DeepSeek-R1 的性能，这给其在现实世界的竞争力留下了一些不确定性。

在我们等待 ERNIE X1 的基准测试时，让我们来了解有关 ERNIE 4.5 性能的更多细节。

ERNIE 4.5 基准

百度发布了基准测试，将 ERNIE 4.5 与领先的多模式和基于文本的模型进行了比较，包括 OpenAI 的 GPT-4o、GPT-4.5和 DeepSeek 的 V3。让我们从多模式功能开始，了解一下主要结果。

多模态基准

在多模态基准测试中，ERNIE 4.5 的表现优于 GPT-4o，平均得分为 77.77，而 GPT-4o 的平均得分为 73.92，领先 3.85 分。

来源：百度

具体来说，ERNIE 4.5 在七个评估基准中的六个中超越了 GPT-4o：

CCBench ：评估文本和图像中的常识推理。ERNIE 4.5 得分约为 81，略高于 GPT-4o 的约 79 分。
OCRBench ：评估光学字符识别能力，重点是从图像中提取文本。ERNIE 4.5 的得分约为 88，超过了 GPT-4o 的约 81。
ChartQA ：测试对图表中呈现的数据的理解。ERNIE 4.5 得分约为 82，略高于 GPT-4o 的约 81。
MMMU ：衡量不同主题的多模态推理能力。GPT-4o 以 ~70 领先，而 ERNIE 4.5 得分 ~64，表明还有改进空间。
MathVista ：在视觉环境中评估数学推理。ERNIE 4.5 得分约为 69，优于 GPT-4o 的约 61。
DocVQA ：评估根据文档视觉效果回答问题的能力。ERNIE 4.5 表现出色，得分约为 91，而 GPT-4o 得分约为 85。
MVBench ：专注于动态视频任务中的时间理解，需要对帧序列进行推理。ERNIE 4.5 得分约为 72，明显优于 GPT-4o 的约 63。

纯文本基准

在纯文本任务中，ERNIE 4.5 的平均得分为79.6 ，略高于 GPT-4.5 的平均得分 79.14，同时也超过了 DeepSeek-V3（~77）。

来源：百度

这些结果表明 ERNIE 4.5 在多模态文档理解、数学和中文语言基准测试中特别具有竞争力。然而，它在特定编码基准测试（如 LiveCodeBench）上的表现较弱，凸显了其在专门编码任务中的潜在局限性。

让我们快速分解几个关键基准：

MMLU-Pro ：评估各个学科的多任务学习。ERNIE 4.5 得分约为 78，略低于 GPT-4.5 的约 79。
GPQA ：评估通用问答。ERNIE 4.5 得分约 57，落后于 GPT-4.5 的约 61。
C-Eval ：衡量中国人的常识和推理能力。ERNIE 4.5 以 ~88 领先，优于 GPT-4.5 的 ~80。
CMMLU ：测试中文多任务理解。ERNIE 4.5 得分约 88，高于 GPT-4.5 的约 80。
Math-500 ：衡量模型解决具有挑战性的高中数学问题的能力。ERNIE 4.5（~82）落后于领先者 DeepSeek-V3（~88）和 GPT-4.5（~84）。
CMath ：评估中文数学解题能力。ERNIE 4.5 以 ~95 领先，超过 DeepSeek-V3 的 ~85。
LiveCodeBench ：衡量实时编码能力。ERNIE 4.5 得分约为 35，低于 GPT-4.5 的约 45，表明编码任务还有改进空间。

如何访问 ERNIE 4.5 和 ERNIE X1

您可以直接通过百度网站上的官方聊天机器人应用程序尝试百度的 ERNIE 4.5 和 X1：yiyan.baidu.com。

然而，根据我的个人经验，它存在一些可用性问题。界面目前主要以中文提供，这对非中文使用者来说是一个挑战——虽然你可以使用浏览器的自动翻译功能，但翻译并不流畅，用户体验也会受到影响。

来源：百度

此外，无法使用 Google 或 GitHub 登录，这是我在 DeepSeek 或 Qwen 等竞争对手上没有遇到过的问题。我仍然尝试创建一个帐户，但我无法使用我的欧洲电话号码填写注册表。

如何通过 API 访问 ERNIE

对于有兴趣集成 ERNIE 4.5 的开发人员，已经可以通过百度官方平台千帆获得 API 访问。定价为每 100 万输入代币 0.55 美元起，每 100 万输出代币 2.20 美元起。

截至 2024 年 3 月 17 日，ERNIE X1 尚未通过 API 提供，但百度提到很快就会提供。

此外，百度宣布计划于 2025 年 6 月 30 日起开源 ERNIE 4.5。此举可以通过使模型更易于访问和适应性提高国际采用率。

百度还打算将 ERNIE 4.5 和 X1 整合到其生态系统的各种产品中——包括百度搜索和问诊APP——不过时间表和细节仍有待确认。

ERNIE 对人工智能市场的影响

百度 ERNIE 4.5 和 ERNIE X1 的发布延续了我在中国人工智能行业看到的一个显著模式——优先考虑颠覆而不是立即可用性的策略。

与谷歌、OpenAI 或 Mistral 等公司不同，这些公司通常会花费大量时间（通常为 8 至 12 个月或更长时间）来确保其产品符合严格的稳定性、安全性、隐私性和安全性标准，而中国人工智能公司似乎更倾向于快速部署引人注目但仍处于早期、未完善状态的产品。

和 ManusAI 和 DeepSeek 一样，百度的 ERNIE 模型也遵循类似的趋势。它们积极进入市场，主要目的是颠覆定价结构和竞争假设。尤其是 ERNIE X1 模型，它明确将自己定位为性能可与 DeepSeek-R1 媲美，但成本只有后者的一半——尽管百度尚未公开提供详细的基准来支持这些说法。

尽管 ERNIE 4.5 显示出真正具有竞争力的基准测试结果，但像我这样的国际用户仍然遇到障碍，特别是具有挑战性的注册流程和语言可访问性问题。

总体而言，ERNIE 4.5 和 X1 的发布强化了这样一种理念：中国人工智能公司愿意在短期内牺牲一些稳定性和用户体验，只要他们能够快速推动市场发展并引发全行业的讨论。

这种方法是否可持续还有待观察，但不可否认的是，它能够有效地迫使全球人工智能市场加快发展速度，并以不同的方式思考在当前市场竞争的意义。

本文内容来源于公开网络，出于传递信息之目的整理发布。原文版权归原作者所有，若涉及侵权请先提供版权后联系我们删除