DeepSeek 小幅AI更新，性能悄然比肩谷歌旗舰模型

中国人工智能初创公司“小幅”更新，推理能力实现重大飞跃

深度求索的最新 R1 模型悄然崛起，成为谷歌旗舰人工智能的强大竞争对手，挑战闭源大型语言模型在人工智能推理领域的主导地位

在人工智能飞速发展的版图中，微小的改进往往对全球科技领导力产生巨大影响。中国初创公司深度求索（DeepSeek）在此背景下，交出了一份被业界观察家称为“战略性低调的大师级表现”的答卷。5 月 28 日，该公司发布了其 R1 推理模型的“小幅版本更新”——然而，这一描述似乎与综合评估中显现出的实质性性能提升大相径庭。

根据我们内部基准测试，更新后的模型 R1-0528 已悄然将自身定位为谷歌 Gemini 2.5 Pro 的有力替代品，这标志着在围绕技术转让和国家安全的持续地缘政治紧张局势下，中国人工智能能力取得了重要里程碑。这款 6850 亿参数的开源模型在 Hugging Face 平台以宽松的 MIT 许可证发布，它不仅是一款易于获取的研究工具，更是一项强大的商业产品，对领先闭源竞争对手的定价策略构成了挑战。

“小幅”改进背后的隐秘革命

尽管深度求索的公开信息传递相对低调，但内部性能指标揭示了其核心人工智能能力的革命性升级。该公司通过用户社区而非正式新闻渠道发布更新的做法，暗示了一种有意为之的策略，即在最大化技术影响力的同时，尽量减少外界关注。

根据我们在自有硬件上运行的测试，我们估计该模型的成本约为每百万输出代币 2.5 美元——显著低于 Gemini 2.5 Pro Preview 05-06 的价格。然而，其庞大的计算负荷也显而易见：它每秒生成约 32.4 个代币，平均完成时间超过数分钟，这凸显了高级推理任务的复杂性。

我们内部的技术评估显示，R1-0528 解决了早期版本存在的根本性弱点，尤其是在数学推理和代码生成方面。该模型的输出容量已翻倍至约 2 万个代币，从而能够对复杂查询给出更全面的回应，同时也会增加大规模应用的成本。

缩小与行业领导者的性能差距

人工智能推理模型的竞争格局日益分化，GPT o3 和 Claude 4 的推理能力通常占据顶尖梯队。R1-0528 的性能表现表明，深度求索已成功将自身定位在我们认为的“第一梯队”推理能力中，仅次于 GPT o3 high/medium 和 Claude 4 Sonnet/Opus 的推理能力。

在数学推理方面——这历来是开源人工智能模型的弱项——R1-0528 展示出显著进步。以前的版本在计算精度上存在困难，而更新后的模型则表现出大幅降低的幻觉率和更可靠的问题解决方法。编程能力也同样取得了进展，表明其输出更加深思熟虑且易于维护。

该模型的写作能力或许是最引人注目的发展。评估者指出，它在情感共鸣和文学复杂性方面与谷歌 Gemini 2.5 Pro 惊人地相似，这使得一些人猜测可能存在从 Gemini 2.5 Pro 进行知识蒸馏的情况——这在人工智能开发中是一种常见但有争议的做法。

对全球人工智能竞争的战略影响

深度求索的做法反映了开源人工智能开发的更广泛趋势，即公司越来越注重在保持成本优势的同时，与领先的闭源模型性能相媲美。MIT 许可证的决定尤其表明了对底层技术的信心，因为它允许无限制的商业部署。

然而，重大挑战依然存在。稳定性问题困扰着该模型，代码生成仅在少数测试案例中能产生一致结果。逻辑推理任务的输出变异性可高达 27%，这表明在生产部署前仍需持续改进。

该模型在推理过程中偶尔会从其他语言切换到英语，这凸显了人工智能训练中复杂的语言动态，即无论模型的预期市场如何，英语数据往往在训练集中占据主导地位。

市场定位与经济动态

从商业角度看，R1-0528 占据了一个引人入胜的市场地位，业界观察家将其描述为“比更强的模型更便宜，比更便宜的模型更强大”。对于那些需要复杂推理能力但又对成本敏感、不愿支付顶级闭源替代品高昂溢价的应用而言，这种定位可能尤其具有吸引力。

该模型的计算密集度高——需要大量的处理能力和更长的完成时间——这可能会限制其在实时应用中的适用性。然而，对于批处理、内容生成以及那些速度次于准确性的复杂分析任务而言，R1-0528 提供了一个极具吸引力的价值主张。

开源人工智能发展的未来之路

深度求索对此次发布的审慎态度——将一次实质性升级视作常规维护——表明了其在市场定位和竞争动态方面深思熟虑的战略思维。该公司似乎更专注于逐步展示能力并促进自然采用，而非采取激进的营销攻势。

行业分析师认为，此次发布可能是在为更重大的公告做准备，当前的改进将作为未来突破的基础。该公司在与现有闭源模型几乎持平的同时，还能保持成本优势，这为其扩大市场渗透奠定了良好基础。

R1-0528 不仅仅是一次常规的软件更新——它体现了中国人工智能能力从雄心勃勃的实验走向精密执行的成熟过程。尽管与绝对顶尖的闭源模型相比仍存在差距，但其发展轨迹预示着全球人工智能开发中心的能力正在加速趋同。

对于正在评估人工智能解决方案的企业用户而言，R1-0528 提供了一瞥日益多极化的人工智能格局，其中地理来源可能变得不如性能、成本和特定应用需求那么重要。该模型作为现有闭源产品可靠替代品的出现，预示着全球人工智能竞争进入了一个新阶段——其特点是功能强大的替代品而非明确的层级结构。

我们仍在等待更多第三方评估，例如来自 LiveBench.ai 的评估，以获得更广泛和独立的性能视角。