证据开示之利器:版权案如何成为硅谷的隐私先例
当法律证据开示演变成数据监控
OpenAI于11月12日发布的声明标志着人工智能公司与传统媒体之间较量的一个转折点。通过拒绝《纽约时报》提出的宽泛的证据开示要求,OpenAI不仅仅是对一场诉讼的反击,它更是在法律证据开示与大规模数据监控之间划清了界限。
《泰晤士报》要求的并非内部备忘录或训练数据。它索取的是远比这些更具个人性质的信息:2022年12月至2024年11月期间2000万条ChatGPT对话记录。试想一下——海量的人类思想、秘密和日常闲聊涌入AI界面。该报纸的目标是找到证据,证明用户利用ChatGPT绕过其付费墙,声称AI间接与新闻业的最后一个稳定收入来源竞争,并侵蚀了该来源。
但这场斗争的意义远不止于一场单一的诉讼。如果法院支持《泰晤士报》,未来针对AI的诉讼可能会演变成大规模的隐私侵犯。原告可能会要求访问数百万条用户对话,将证据开示变成对人们私人数字生活进行“撒网式”搜寻。OpenAI最初面临14亿条聊天记录的要求,经过讨价还价后降至2000万条——这一“妥协”的规模仍超过美国历史上大多数刑事调查。
法律细节在此至关重要。2025年5月,美国治安法官奥娜·T·王(Ona T. Wang)命令OpenAI无限期保存所有对话日志,凌驾于其标准的30天删除规定之上,影响了超过4亿用户。尽管该命令的部分内容后来对运营数据有所放宽,但历史数据样本仍受法院扣押。OpenAI坚称这是为了保护用户隐私,而《泰晤士报》则指责该公司阻挠(调查)——尤其是在另一家AI公司已在另一起案件中交出了500万条用户聊天记录之后。
证据开示相称性中的不对称问题
这场法律拉锯战暴露出一个更深层次的问题:规模。人工智能的运作方式与传统诉讼截然不同。当OpenAI提出保护隐私的替代方案时——例如针对《泰晤士报》内容的关键词搜索、分类摘要和严格的去识别化协议——《泰晤士报》拒绝了这些提议。
为什么?因为其诉讼依赖于两项主张,而这两项主张需要不同类型的证据。第一项主张称OpenAI非法使用《泰晤士报》文章训练ChatGPT,这涉及到训练数据。第二项主张则认为ChatGPT帮助用户绕过《泰晤士报》的付费墙并“反刍”其内容——这只能通过大规模用户行为数据来证明。这就是该报纸坚持要审查这2000万条对话的原因。
问题症结所在。这些聊天记录中的大部分与《泰晤士报》完全无关。它们包括类似心理治疗的忏悔、个人理财建议、健康问题——用户与他们认为安全的工具之间的私人时刻。即使《泰晤士报》不会直接查看它们;相反,外部律师和技术承包商将在保护令下处理它们。隐私倡导者警告称,对于如此私密的数据来说,这种设置过于漏洞百出。
证据开示规则旨在防止“撒网式”搜寻,但这些旧标准在AI庞大的数据量面前正在崩溃。一场普通诉讼可能涉及数千份文件。而此案则涉及数千万条对话片段,每个片段都是潜在的个人细节雷区,算法并非总能彻底清除。
华尔街的“证据开示税”:市场为何关注法院程序
投资者正密切关注。这不再仅仅是版权问题——它关乎证据开示本身如何重塑AI的商业模式。三大财务压力点尤为突出。
首先,证据开示成为经常性成本。如果2000万条聊天记录的开示成为AI诉讼的新常态——目前有50多起类似案件悬而未决——那将使一次性法律成本转变为永久性开销。公司将需要建立全职系统进行数据清洗、加密和安全审查。这些成本随用户基数规模而增加。对于OpenAI每周约8亿的ChatGPT用户来说,这不是一笔小数目,而是一种结构性转变。规模较小的AI实验室可能无法承受这一负担。
其次,是加密与创新速度。OpenAI承诺增加客户端加密和自动化隐私控制,这将限制多少真实用户数据可用于模型改进。如果加密成为标准,模型质量将更多地依赖昂贵的授权数据和企业自愿提供的数据源。这让微软、谷歌和苹果等巨头占据优势——它们买得起数据。OpenAI真正的目标似乎很明确:彻底将自己从数据托管链中移除。
第三,媒体影响力正在转移。即使《泰晤士报》的证据开示要求日后被缩减,其强硬立场也增强了出版商在与AI公司谈判中的筹码。每家主要媒体现在都可以将此案作为要求许可费的先例。突然之间,证据开示的威胁成为谈判筹码。回头来看,新闻集团(News Corp)和阿克塞尔·施普林格(Axel Springer)等公司达成的协议显得非常明智。
在华尔街,《纽约时报》公司股价接近63美元,接近历史新高。投资者看到了订阅业务的稳定性以及AI诉讼带来的上涨空间。但这里也存在公关成本——被描绘成要求访问数百万陌生人私人聊天的公司,可能会损害公众舆论,并使陪审团的看法复杂化。与此同时,微软高达3.85万亿美元的估值几乎未受影响;对投资者而言,这场争斗只是背景噪音。然而,这场争议催生出的更快、企业级的隐私工具可能赋予微软的Copilot巨大的信任优势。
大多数分析师预计法院会采取折衷方案。最可能的结果是?审查范围缩小,仅限于实际匹配《泰晤士报》内容的聊天记录,并在严格条件下进行审查。这将在不使大规模监控常态化的前提下,验证绕过付费墙的主张。这种情况发生的几率:未来六个月内约为60%至70%。
机构学习曲线
真正的启示是:法律系统正在实时学习,旧的证据开示规则不适用于新的AI世界。2000万条对话不仅仅是“文件”。它们是思想、情感、好奇心和身份的反映——以数据的形式呈现,但本质上是人类的。法院尚未为此做好准备。
如果OpenAI在2026年兑现其加密承诺,那么未来案件的整个问题都将不复存在。毕竟,你无法传唤以不可读形式存在的数据。这就是长远策略——关掉数据龙头,而不仅仅是赢得一场诉讼。每家主要的AI公司都在争相效仿。
这个案件不再仅仅关乎版权或合理使用。它关乎为纸质文件设计的证据开示规则能否适用于基于人类经验训练的万亿参数模型。《泰晤士报》希望证明ChatGPT窃取了新闻内容。但在此过程中,它可能会打破一个更根本的假设——当你与机器对话时,对话内容保持私密。
恰当的“义愤填膺”时机
双方都应因其选择性愤怒而受到审视。《泰晤士报》索要2000万条聊天记录的要求并非新鲜事——自2025年夏季以来,这一要求一直在证据开示阶段推进,而OpenAI早在当年8月就提出了这一确切的样本规模。OpenAI在11月12日发起的隐私“十字军东征”恰好发生于德国法院裁定该公司侵犯知识产权之后。这场公关攻势与其说是真正的隐私原则,不如说是战术性转移——利用用户同情心来掩盖系统性版权侵权的新闻头条。与此同时,《泰晤士报》数月前拒绝了保护隐私的搜索替代方案,但直到现在才因此面临公众反弹,这得益于OpenAI对新闻周期的操控。证据开示之争是真实的;这场公开较量的时机,则是一场精心策划的戏码,旨在双方都需要掩盖自身矛盾时重塑叙事。
非投资建议
