举报人揭露华为旗舰人工智能项目涉嫌欺诈和不当行为

华为旗舰人工智能项目被曝涉嫌欺诈和不当行为

华为著名诺亚方舟实验室的一名核心成员发布了详细指控，声称公司旗舰盘古大语言模型的开发过程中存在普遍的不当行为、抄袭和学术不端。

这名匿名举报人于2025年7月9日在GitHub上发布的爆料，前所未有地揭示了他们所描述的中国最负盛名的科技巨头之一内部的“黑暗核心”。根据信件内容，华为在人工智能领域所取得的斐然成就，可能建立在虚假结果、窃取知识产权以及一种“惩罚诚信，奖励欺骗”的文化之上。

指控的核心是一种被称为“套壳”的做法——华为据称获取了竞争对手的模型，进行了表面改动，并将其包装成自有开发成果。举报人声称，在交付结果的压力下，一个由“王云鹤小模型实验室”领导的团队，将阿里巴巴的Qwen-110B模型进行重新包装，略作调整后更名为“135B V2”。

据报道，内部分析揭示了确凿证据：架构不匹配、与Qwen完全相同的参数分布，以及源代码中仍包含“Qwen”名称。举报人指控，该模型被部署给下游客户，并在内部获得赞誉，尽管许多团队成员对这种欺骗行为感到“震惊”。

一位熟悉情况的AI研究人员对本报记者表示，由于担心遭到报复而要求匿名：“这个模型不只是相似——它本质上就是Qwen，只是贴了个华为的标签而已。任何具备检查架构技术知识的人都能看出真相。”

也许最具破坏性的是围绕华为发布的盘古Ultra基准测试的指控。举报人声称，该模型报告在ARC-Easy基准测试中显示出数学上不可能的100%准确率——这一结果立即被外部专家标记为“不切实际或捏造的”。

华为前诺亚方舟实验室工程师提供了一个令人不安的解释：团队没有在完整数据集（ARC-Easy约5200个问题）上进行测试，而是仅评估了用于内部快速检查的100个样本子集。据称，这些部分结果在时间压力下被纳入了最终的公开报告，营造出满分的假象。

此外，诸如RACE等基准测试是使用简化方法进行评估的，这使得分数比竞争对手使用的传统基于困惑度的方法高出多达40分。这些虚高的结果随后直接与使用更严格方法评估的其他模型分数进行比较——这种误导性比较违反了学术规范。

这封信揭示了丑闻背后深刻的个人层面。作者描述了敬业的工程师多年来的艰苦卓绝工作，他们相信华为打造英伟达人工智能硬件国产替代品的使命。据报道，团队在华为昇腾NPU上训练了越来越大的模型，面临着重大的技术挑战。

与涉嫌抄袭的135B V2不同，举报人声称，135B V3模型（盘古Ultra）是由他们的团队“从零开始真实训练”的，使用了更精炼的分词器和改进的训练流程。这款模型——被描述为“血汗和牺牲的真正产物”——实现了有竞争力的性能，并具有“干净的训练，没有损失尖峰”，这在大模型训练中是罕见的壮举。

一位被确认为“Blealtan”的前工程师表示：“我可以接受糟糕的结果，但我无法接受愚蠢的结果。”他是一名清华大学博士，曾负责诺亚方舟实验室的MoE（混合专家模型）基础设施。

其次，硬件层面值得特别关注。如果华为昇腾芯片在与英伟达产品相比的大规模AI训练中确实存在困难，支持英伟达的供应链公司可能会比之前预期的更长时间保持其竞争优势。

最后，这场丑闻可能加速中国对人工智能基准测试报告的监管，可能会带来合规挑战，但也为提供第三方验证服务的公司带来机会。

一位技术投资策略师指出：“我们所目睹的，可能是中国人工智能行业的一个分水岭时刻。市场未来可能会奖励透明度，惩罚不透明。”

免责声明：本分析仅反映当前市场状况和既定指标。过往业绩不预示未来结果。读者应咨询财务顾问以获取个性化投资建议。

由于华为尚未正式回应这些指控，其全面影响尚不确定。然而，显而易见的是，在中国人工智能革命光鲜的公告和令人印象深刻的基准测试之下，可能存在远超此前认知的复杂性和争议。