深度求索 Prover-V2 内幕:为何这个 6710 亿参数模型可能成为人工智能数学推理未来的关键
2025 年 4 月 30 日,在中国的一个节日前夕,深度求索悄然发布了一个模型,在人工智能领域一个利基但具有基础重要性的角落——形式化数学推理领域——引起了巨大轰动。当更广泛的人工智能竞赛专注于聊天机器人个性和引人注目的多模态演示时,深度求索一直在加倍投入到一个不太引人注目但具有战略意义的关键领域——自动定理证明。
DeepSeek-Prover-V2,他们最新的开源模型,可能不会在社交媒体上引起轰动,但其影响却波及学术界、工程界和未来的通用人工智能 (AGI) 系统。凭借 6710 亿参数的强大支持和与 Lean 4 形式化证明的深度集成,它不仅解决了数学问题,还在代码中形式化了数学真理。对于长期投资者、研究机构和人工智能基础设施利益相关者而言,该模型不仅仅是一个好奇之物,它是一个基准,也可能是一个蓝图。
冷启动数学引擎——深度求索如何训练定理证明大语言模型
DeepSeek-Prover-V2 不仅仅是对现有模型的微调。它的核心创新在于它如何生成合成的“冷启动”数据,用于在原本数据极其稀疏的领域中训练模型。
要理解为什么这很重要,请考虑以下几点:与自然语言不同,形式化证明需要严格的逻辑、严格的语法和可验证的结果。它们不容情。没有模糊或风格差异的余地。
深度求索的答案是什么?使用其自身的基础模型 DeepSeek-V3 作为老师。该流程将复杂的数学定理分解为一系列结构化的子目标,每个子目标通过 Lean 4 转换为形式逻辑。这些证明步骤首先由较小的 70 亿参数模型处理以提高效率,一旦解决,它们就会被编织成一个连贯的思维链推理轨迹,形成一个合成的冷启动数据集。
这种递归生成框架不仅仅是聪明,它还具有可扩展性。深度求索本质上构建了一个自学习循环,模仿了数学家分解问题的方式:思考、简化、证明、综合。
从数据到强化——通过验证的推理进行训练
一旦合成了冷启动数据,深度求索就会进入强化学习阶段。但不是使用人工标注的数据,而是使用具有可验证结果的问题。模型获得二元反馈:它是否产生了正确的证明?
这个反馈循环将非正式推理(大语言模型的自然领域)与形式逻辑(Lean 4 的严格领域)连接起来。最终结果 DeepSeek-Prover-V2-671B 不仅仅是用文字进行推理,它还在生成机器和数学家都可以逐行验证的证明。
性能数据增强了它的前景:
- 在 MiniF2F 测试(数学推理的基准)中,通过率为 88.9%
- 在 PutnamBench 上解决了 658 个问题中的 49 个,这是一组精英级数学挑战
从背景来看,这些数字推动了神经定理证明的最新技术水平。虽然这听起来可能不如图像生成或对话代理那么吸引人,但其潜在能力更容易转移到稳健、可靠的人工智能推理系统。
ProverBench——形式化数学评估的新标准
除了模型之外,深度求索还发布了 ProverBench,这是一个包含 325 个经过严格形式化的问题的数据集。这包括:
- 来自最近 AIME 竞赛的 15 个问题
- 来自核心数学领域的更多问题:代数、微积分、实分析和复分析以及概率
这一点很重要,因为以前的形式化定理证明数据集要么过于合成,要么过于狭窄。ProverBench 带来了平衡:现实世界的教育相关性、竞争性问题难度以及各种各样的数学结构。
数据集分解:
领域 | 问题数量 |
---|---|
微积分 | 90 |
线性代数 | 50 |
抽象代数 | 40 |
数论 | 40 |
AIME | 15 |
其他 | 90 |
通过发布模型和此基准,深度求索不仅仅是在炫耀能力,它还在邀请严格的比较和公开实验。
投资者影响——为何这个利基很重要
对于一个随意的观察者来说,形式化定理证明可能看起来像是一个研究虚荣项目。但对于任何追踪通用人工智能竞赛的人来说,模式变得越来越清晰。深度求索的路线图优先考虑:
- 数学和编码模型
- 多模态集成
- 自然语言推理
并且按照这个顺序。
从投资和战略的角度来看,像 Prover-V2 这样的数学模型特别有吸引力的是它们的可验证性。在一个幻觉是大型语言模型 (LLM) 的致命弱点的世界中,定理证明器提供了一个罕见的优势:确定性的正确性。要么证明成立,要么不成立。
几位专家暗示,DeepSeek-Prover-V2 不是最终目标,而是一个战略性的垫脚石。一位内部人士称其为深度求索即将推出的通用模型的“数据合成器”,可能代号为 V4 或 R2。这些未来的系统可能会将 Prover-V2 的严格推理集成到更广泛、更通用的模型中,这些模型可以编写代码、写作并以人类水平的精度解决跨领域的问题。
换句话说,深度求索可能正在悄悄地为可验证、可问责的通用人工智能系统构建基础——该系统超越了单词预测,进入了逻辑推理和可信赖的输出。
技术访问和开源发布
在一个封闭模型日益成为常态的行业中,深度求索决定以 70 亿和 6710 亿参数两种配置开源 Prover-V2 值得注意。它邀请全球合作和实验,尤其是在教育、研究和 Lean 4 的工具链开发方面。
这两个模型都可以在 Hugging Face 上找到,可以通过 Transformers 轻松集成。更大的 6710 亿参数模型镜像了 DeepSeek-V3 架构,提供高达 32K 的上下文长度和可用于推理的性能。
示例推理包括完整的 Lean 4 代码生成,包括:
- 定理公式化
- 证明计划生成
- 使用 Lean 语法的形式证明执行
为何人工智能的未来可能是形式化的
总而言之,DeepSeek-Prover-V2 并非为了有趣地解决教科书问题。它是为了解决 人工智能的验证问题——一次一个形式证明。
主要收获:
- 递归证明合成实现了可扩展的冷启动学习
- 该模型将非正式的大语言模型推理与形式证明结构相结合
- 它在主要的数学基准上优于之前的模型
- 它为未来的评估引入了一个新的开放基准 (ProverBench)
- 它标志着更广泛的通用人工智能战略,专注于可验证的智能
对于人工智能投资者、研究实验室和高级工程团队来说,深度求索的形式化定理证明工作可能是迄今为止最清晰的信号,表明严肃的下一代人工智能能力的发展方向——不是朝着更广泛的对话,而是朝着更深入、可证明的思想。
即将推出的深度求索 R2:人工智能领域一个强大的新竞争者
中国科技公司深度求索即将推出的人工智能模型 DeepSeek R2 凭借其令人印象深刻的规格和成本优势,有望挑战西方人工智能的主导地位。R2 预计将于 2025 年 5 月初发布,据报道具有混合专家混合架构,拥有 1.2 万亿个参数——是其前身的两倍。据传,该模型使用华为的昇腾 910B 芯片集群在 5.2 PB 的数据上进行训练,实现了 512 PetaFLOPS 的卓越计算效率,硬件利用率达到 82%。
R2 的预期功能包括增强的推理能力、对图像和视频的多模态支持、高级编码能力以及超出 R1 的中文和英文能力之外的扩展多语言支持。或许最具颠覆性的是深度求索报告的成本优势——据称 R2 的构建成本比 OpenAI 的 GPT-4o 便宜 97.3%,企业定价预计仅为每百万输入 token 0.07 美元。这种成本效率,加上与领先的西方模型相当或可能更优越的性能,使 DeepSeek R2 成为全球人工智能领域的一个重要挑战者。虽然这些规格在正式发布之前仍未得到证实,但人工智能界正在密切关注深度求索准备推出其下一代模型。