DeepSeek新AI模型V3.1-Terminus在复杂推理方面击败谷歌Gemini,而收费却低40倍

作者
CTOL Editors - Lang Wang
7 分钟阅读

DeepSeek V3.1-Terminus崛起为AI推理新引擎

中国人工智能开发商的最新发布在复杂推理任务中展示了显著进步,同时维持了激进的定价策略,这可能重塑企业AI的应用格局。

DeepSeek于2025年9月22日发布了V3.1-Terminus,标志着这家中国AI公司混合模型架构的重大提升。业内专家认为,此举可能加速全球向更强大推理系统转变的进程。这款增强型模型在基于工具的任务中表现出显著改进,同时保持了公司颠覆性的低价结构,这已经对西方竞争对手构成了压力。

DeepSeek
DeepSeek

突破性性能指标预示全新竞争格局

初步基准测试显示,V3.1-Terminus在复杂推理能力方面实现了显著飞跃,HLE(高级专业知识)评分从15.9分跃升至21.7分,超越了谷歌的Gemini 2.5 Pro,使其成为全球第二高性能的系统,仅次于OpenAI的GPT-5(25.32分)。

最显著的提升出现在工具利用场景中。BrowseComp评分从30.0分攀升至38.5分,而Terminal-bench性能从31.3分提高到36.7分。这些改进体现了模型在多步骤网页搜索和复杂智能体驱动任务方面的增强能力,这些都是关键的企业用例。

然而,优化过程也揭示了一些有趣的权衡。虽然英语网页浏览性能显著提升,但中文网页浏览性能略有下降,从49.2分降至45.0分。技术分析师将此归因于DeepSeek解决了语言混合问题,此问题此前曾通过更广泛的查询解释创造了意想不到的搜索优势。

通过神经-符号融合实现架构创新

模型性能的提升部分源于其与知识交互协议(Knowledge Interaction Protocol,KIP)的集成。KIP是一个新颖的框架,解决了当前大型语言模型架构中的根本性局限。与传统的向量数据库或键值存储不同,KIP采用了图原生的设计原则,其中概念和命题以相互连接的节点和关系形式存在。

我们CTOL工程团队的一名成员将该系统描述为“从‘健忘的天才’到‘知识渊博的伙伴’的根本性转变”,强调了该协议能够在交互中保持结构化、持久的记忆。该框架引入了知识胶囊(knowledge capsules),这些是原子且幂等(idempotent)的单元,实现了分布式知识共享和版本控制功能,这在以前的生产级AI系统中是无法实现的。

该协议的自举架构允许模式(schemas)在图结构内部演变,可能实现无需外部基础设施依赖的持续学习。早期实践表明,这可能将AI智能体从静态程序转变为动态进化的系统,能够进行跨领域推理和协作式知识开发。

定价策略维持对西方模型的竞争压力

DeepSeek保持了其激进的定价结构,每百万输出token收费1.68美元——远低于GPT-5和Claude Opus 4.1高达每百万token75.00美元的费率。其API实现了复杂的缓存机制,缓存命中(cache hits)每百万token收费0.07美元,缓存未命中(cache misses)收费0.56美元,为涉及重复任务的企业部署带来了成本效益。

这种定价方式反映了DeepSeek在中国AI生态系统中的更广泛战略定位,国家支持使其能够采取激进的市场渗透策略,而西方竞争对手在保持利润率的同时难以匹敌。该模型仍受中国AI系统普遍存在的国家审查要求限制,这可能会限制其在敏感企业环境中的应用,但扩大了其在一般商业应用中的可及性。

技术架构揭示战略设计决策

V3.1-Terminus建立在DeepSeek于8月推出的双模式架构基础之上,保持了独立的“思考”和“非思考”操作模式,并针对不同任务类别进行了优化。思考模式处理需要多步骤推理的复杂、基于工具的操作,而非思考模式则管理直接的对话交互。

两种模式都支持高达128,000个token的上下文窗口,并在额外8400亿个token上进行了训练,同时使用了更新的token生成器和提示模板。这种训练方法反映了DeepSeek迭代改进的方法论,而非彻底的架构大修,从而在保持系统稳定性的同时,实现了快速部署。

该模型可在多个平台(包括应用程序、网页和API接口)上使用,其开源权重通过Hugging Face在MIT许可下发布,这展示了DeepSeek对广泛可及性和开发者采用的承诺。

在DeepSeek准备发布其下一代大型语言模型之际,V3.1-Terminus标志着当前这一代模型的出色收官。该模型在推理任务方面的突破性表现,结合其混合神经-符号架构和颠覆性定价策略,为企业对生产级AI系统的期望树立了新标杆。行业观察家认为,V3.1-Terminus可能是对这一代能力的最明确宣言,在DeepSeek即将发布的新版本可能再次重新定义竞争格局之前,这预示着AI技术进步的迅猛步伐丝毫没有减缓的迹象,随着行业为下一次进化飞跃做准备。

本分析基于当前市场数据和既定性能指标。投资决策应考虑地缘政治因素、监管发展和个体组织需求。读者应咨询合格的财务顾问以获取个性化投资建议。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明