模型本身就是复制品:德国法院如何重塑人工智能经济学
慕尼黑一家法院裁定OpenAI的ChatGPT通过“记忆”构成版权侵权——将训练数据从灰色地带变为可计费资产。
2025年11月11日,慕尼黑地方法院作出了硅谷最担忧的裁决。一位法官深入审视了一个大型语言模型的核心,并认定其权重本身就构成侵权复制品。在GEMA 诉 OpenAI一案中,第42民事庭裁定,ChatGPT对九首德国歌曲歌词的编码——从赫伯特·格罗内迈尔的《男人》到罗尔夫·祖科夫斯基备受欢迎的生日歌曲——违反了版权法。侵权行为不仅仅发生在歌词出现在屏幕上时。它始于这些歌词在训练期间被嵌入GPT-4参数的那一刻。
人工智能公司很少公开承认的是:有时,模型本身就是“犯罪现场”,而不仅仅是工具。当“学习”越界成为“存储”时,欧洲一度安全的文本和数据挖掘例外条款就不再适用。
罚款金额以科技巨头的标准来看可能不大——九首歌曲的罚款为数十万欧元——但其法律余震却是巨大的。OpenAI一度自信的法律结构已经出现裂缝。法院赋予GEMA调查权、禁令救济,以及一种可以适用于模型可能“反刍”的每一件受版权保护作品的侵权理论。这不再仅仅是一场诉讼。这相当于对人工智能整个供应链征收关税。
法院究竟说了什么
裁决中的核心概念是大多数头条新闻都忽略的:记忆化。当大型语言模型在文本上训练时,它们理应学习模式——语法、语义、关系——而不是记忆精确的文本行。但研究表明,模型确实可以并且会“记忆”某些数据,尤其是稀有或重复的材料。GEMA通过用无害的查询提示ChatGPT,并观察它几乎逐字输出原始歌词,从而证明了这一点。巧合?法院表示不是。
法官们得出结论,这构成了两项独立的侵权行为。
首先,记忆化本身根据欧盟《信息社会指令》第2条构成复制。为什么?因为这些歌词“可复制地固定”在模型的数学权重中——即使它们并未以可见文本的形式存储。该指令涵盖“任何媒介和任何形式”的复制,而欧洲法院(CJEU)的裁决明确指出,即使是技术可以提取的间接可感知的副本也符合条件。由于ChatGPT可以按指令重现歌词,因此它完全符合这一定义。
其次,聊天机器人生成的输出是额外的复制和公共传播行为——由OpenAI而非其用户承担责任。GEMA使用的提示很简单(“写出[歌曲名]的歌词”),这意味着内容来自模型的训练,而非用户创造。OpenAI的辩护——“是用户让我这样做的”——当场崩溃。
最重要的是,法院驳回了OpenAI最喜欢的“挡箭牌”:即训练受德国版权法第44b条保护的主张,该条款旨在实施欧盟的《数字单市场指令》。该条款允许为文本和数据挖掘进行复制,但仅限于副本是临时的且仅用于分析时。法官裁定,当模型永久存储受保护作品并允许商业重用时,这并非分析——这是打着创新旗号的盗用。法律保护的是为了获取洞察而进行的挖掘,而不是为了转售而进行的记忆。
为何这会动摇人工智能的商业模式
如果这项裁决在上诉后——无论是向德国联邦最高法院还是欧洲法院——得以维持,它可能会将训练数据从免费资源转变为有价商品。三张多米诺骨牌已经开始摇晃。
证据开示颠覆了权力动态。 一旦模型权重被视为侵权复制品,原告就有权要求训练来源的透明度。当这些秘密本身可能包含侵权证据时,OpenAI无法再以“商业秘密”为由进行掩盖。GEMA刚刚表明,拥有大量数据的著作权集体管理组织可以打开“黑箱”并胜诉。每一家出版商、唱片公司和图片库现在都有了一张可供遵循的法律路线图。
责任落在运营方,而非数据爬取方。 早期的版权纠纷围绕数据集构建展开——公司在爬取数据时是否非法复制了材料?这项裁决将焦点转向了之后:模型本身的保留。即使数据集是合法爬取的,永久记忆化也成为一种新的侵权。这使风险敞口翻倍。当侵权行为存在于模型架构内部时,过滤器也无济于事。重训模型并非一劳永逸的解决方案——这等同于承认你的基础是建立在他人财产之上的。
规模经济学被颠覆。 模型越好,其潜在法律漏洞越大。一个训练了十万亿个token的系统比一个训练了百亿个token的系统有更多潜在的侵权行为。模型强大的规模本身也使其成为巨大的法律目标。而且这项理论不取决于作品是德国的还是音乐作品——任何受版权保护、可复制的文本都可能引发索赔。
投资方程式:为变革定价
对于那些将人工智能视为算力加人才的简单方程式的投资者而言,这项裁决引入了第三个变量:权利清算。未来有三条显而易见的路径。
情景A – 现状崩溃。 OpenAI上诉失败,欧洲法院在2027或2028年之前予以确认。在欧盟运营的每个AI模型都必须许可其训练数据,否则将面临禁令。著作权集体管理组织将推出生成式AI(GenAI)关税——GEMA已经有草案了。前沿模型的训练成本将上升10-20%,而小型参与者无法应对雪崩般的权利支付。市场将整合,集中于拥有许可数据的巨头,如谷歌或和解后的OpenAI。欧盟《人工智能法案》的数据治理要求突然变得严厉:“了解你的来源,否则付出代价。”
情景B – 商业休战。 OpenAI悄然与GEMA达成和解——支付现金并获得一份前瞻性许可——但不承认有罪。然后它通过CISAC(代表全球240家著作权集体管理组织的伞形组织)达成更广泛的协议。微软作为OpenAI的商业伙伴,将成本吸收到Azure在欧盟的定价中。利润率略微收缩,可能1-2%,但业务趋于稳定。其他公司也效仿。数据将从“免费但有风险”变为“付费但安全”。赢家包括权利聚合商、合规科技公司以及能够负担许可费用的大型参与者。输家?初创公司、学术实验室以及人工智能民主化的梦想。
情景C – 司法管辖规避。 与此同时,美国法院在《纽约时报》、Getty和作家团体提起的持续诉讼中继续倾向于“变革性合理使用”。结果是形成跨大西洋分裂。公司在欧盟以外地区训练和托管模型,然后向欧洲用户提供“缩水版”服务。欧盟的人工智能生态系统将遭受打击,因为全球模型将剔除欧洲数据以避免许可麻烦。监管机构将以数据本地化法律回应,加剧分歧。科技巨头可以驾驭这个迷宫,但本土人工智能初创公司则不能。
最现实的结果可能是情景B和C的混合:音乐和新闻领域(存在集体权利管理)达成和解,艺术和图书领域(权利分散)陷入僵局,以及人工智能能力缓慢的区域性碎片化。但方向是 unmistakable:欧洲刚刚结束了“先斩后奏”的时代。 训练数据现在有了价格标签,谈判正通过一场又一场的诉讼进行。
GEMA因九首歌曲获胜的几十万欧元不会对OpenAI的财务造成影响。重要的是先例:一家法院裁定模型权重本身可以被视为版权侵权的证据。下一个索赔者不会满足于少量赔偿。他们将要求分享自发布以来通过侵权产出所赚取的每一欧元。而现在,一家欧洲法院表示,这是一个值得回答的问题。
非投资建议
