中国AI初创公司凭借奥林匹克级别推理模型缩小与美国科技巨头的差距
开放权重LLM在顶尖数学和编程竞赛中斩获金牌级表现,挑战OpenAI和谷歌的主导地位
DeepSeek发布了两款全新大语言模型,其推理能力媲美甚至超越了OpenAI的GPT-5和谷歌的Gemini-3-Pro,标志着日益激烈的全球AI竞赛又一个里程碑,并引发了关于硅谷早期领先地位能否持续的疑问。
该公司今天宣布,其DeepSeek-V3.2-Speciale模型在2025年国际数学奥林匹克竞赛、中国数学奥林匹克竞赛和国际信息学奥林匹克竞赛中取得了金牌级表现。最值得一提的是,该系统在国际大学生程序设计竞赛全球总决赛中,在人类参赛者中排名第二——这一表现表明,AI系统在高度专业化的领域正接近或匹敌顶尖人类的问题解决能力。
“其重要性不仅在于它们达到了有竞争力的性能水平,”一位审阅了技术论文但因未经授权公开讲话而要求匿名的AI研究员表示,“更在于它们是用一个拥有大约6000亿参数的开放权重模型实现的——这比许多竞争对手的模型都要小——而且成本仅为一小部分。”
此次发布标志着与以往AI模型的不同,那些模型在结合扩展推理和实际工具使用方面面临困难。DeepSeek-V3.2引入了该公司称之为“思维融合”的技术,使得模型能够进行多步骤逻辑推理,同时调用外部工具和API——该公司声称这是业界首创。
然而,这项成就也伴随着重要的注意事项,这些注意事项揭示了当前AI技术的潜力和局限性。早期测试的用户反馈揭示了一个明显的鸿沟:尽管该模型在数学、逻辑和代码生成等形式推理方面表现出色,但在细微的语言理解和上下文解释方面却显得力不从心。
CTOL.digital工程团队的一名成员表示,“语义理解仍然薄弱。”该模型“难以把握隐含意图”,并且经常“停留在表面关键词匹配而非真正理解上下文”。其他人指出,尽管该系统在数学方面表现出强大能力,但其对复杂中文文本(其母语)的理解却落后于包括谷歌的Gemini和阿里巴巴的通义千问模型在内的竞争对手。
支撑该模型在数学上取得突破的扩展推理链也带来了实际挑战。专为最大推理能力而设计的DeepSeek-V3.2-Speciale变体,可能需要数分钟才能响应复杂查询,并消耗比标准模型多得多的计算token,这为无法预测何时需要冗长推理的用户增加了成本。
这种技术方法与早期专业AI系统的工作方式根本不同。它不是简单地在训练数据上进行模式匹配,而是生成可见的推理链,在得出结论之前从多个维度检查并重新检查其工作。这种透明性既提供了验证机会,也揭示了实现可靠逻辑性能所需的计算开销。
DeepSeek的进展发生在全球AI行业竞争格局不断变化的背景下。该公司指出,开放权重模型正在“显著缩小与OpenAI和谷歌专有系统之间的差距”。与此同时,技术材料中提供的结论表明,AI格局本身可能正在整合:“随着市场成熟,以及阿里巴巴等大型互联网公司快速追赶,LLMs的未来可能已经转移到大型公司手中。”
这一评估与美国的发展不谋而合,在那里,OpenAI尽管拥有先发优势并与微软持续合作,但正面临来自谷歌资源丰富的AI部门日益激烈的竞争。曾经看似不可逾越的先发优势正在被侵蚀,因为计算资源、人才和训练技术正在整个行业中扩散。
这些模型已在包括HuggingFace和ModelScope在内的平台上以开源许可发布,研究人员和开发者可以通过API访问。V3.2-Speciale模型的专用API端点将持续开放至12月中旬,供社区评估。
尚不清楚的是,这种在竞赛环境中令人印象深刻的专业推理能力,是否能转化为那种能使此类系统真正实现变革的通用语言理解能力。用户反馈表明,原始推理能力和真正的理解能力仍然是截然不同的挑战,解决其中一个并不意味着能自动解决另一个。
尽管存在关于商业主导地位和上下文理解能力的问题,DeepSeek的发展轨迹表明该公司将继续引领大语言模型研究的前沿。尽管地缘政治限制、市场准入局限以及来自资金更雄厚竞争对手的竞争等因素可能会限制其商业影响力,但DeepSeek已将自己定位为系统性缩小开放权重模型与最佳闭源LLM之间差距的先驱。每次发布,该公司都证明了尖端AI能力不必被封闭在专有壁垒之后——这一理念使DeepSeek成为许多研究人员现在认为的LLM领域的灯塔,即便商业格局日益拥挤和竞争激烈,它仍照亮了前进的道路。
