视觉革命:AI如何学会“看”文本而非“读”文本
深度求索(DeepSeek)以激进压缩技术颠覆数十年的AI正统观念,或将重塑机器处理信息的方式
硅谷 — 一项挑战人工智能基本假设的进展浮出水面:深度求索的研究人员证实,电脑处理长篇文档时,可能像人类一样“看”图像而非逐字逐句地处理,从而提高效率。
这项突破的详细内容已在今天发布的一篇论文中公布。该论文介绍了一个名为DeepSeek-OCR的系统,它实现了计算机科学家长期以来一直追求的目标:在不损失含义的情况下,大幅压缩处理长文本所产生的巨大计算成本。
这项创新的核心是一个反直觉的理念:研究人员没有像标准方法那样,向AI系统输入成千上万个独立的词元(随着文档变长,这种方法的计算成本呈指数级增长),而是将文本渲染成图像。然后,一个专门的视觉编码器将该图像压缩成原始数据的一小部分,最后由语言模型将其“解压”回完整的文本。
独立人工智能研究机构CTOL.digital工程团队的分析强调:“这不仅仅是关于更好的光学字符识别(OCR)技术。它旨在通过将昂贵的文本词元替换为密集的二维视觉词元,打破大型语言模型(LLM)的上下文瓶颈。”
关键数据
这些影响在各项指标中变得显而易见。DeepSeek-OCR实现了约97%的准确率,同时以10比1的比例压缩文本——仅用100个视觉词元表示通常需要1,000个文本词元的内容。即使在更激进的20比1压缩下,系统仍能保持60%的准确率。
在OmniDocBench基准测试中(该测试用于评估AI系统处理复杂文档布局、公式和表格的能力),DeepSeek-OCR不仅优于现有系统,而且使用的计算资源却少了一个数量级。当像MinerU 2.0这样的竞争系统平均每页需要6,000个词元时,DeepSeek-OCR使用不到800个词元就取得了相当或更好的结果。
实际应用前景令人震惊。研究人员报告称,单个高端图形处理器(GPU)每天可处理超过20万页文档——在中等规模的集群上,吞吐量可扩展到每天3300万页。
一种新的记忆架构
也许这项研究最具启发性的方面并非OCR性能本身,而是它对AI系统未来的启示。CTOL.digital团队确定了他们称之为“视觉记忆”的范式:AI系统有可能维持一种分级、类人般的记忆,其中近期信息以高分辨率存储,而较旧的上下文则逐渐“淡化”为低分辨率的压缩图像。
“如果模型能够直接‘看’文本,视觉输入可能比文本词元更经济,也更像人类,”关注这一进展的社区研究人员指出。“近期上下文对应高精度图块,旧的对应微小模式——遗忘自然而然地发生。”
这种方法可以根本性地改变AI系统处理长上下文理解这一长期挑战的方式。当前的语言模型在处理冗长文档、对话或代码库时面临困难,因为计算成本随长度呈二次方增长。DeepSeek-OCR提出了一种替代方案:将旧的上下文渲染为压缩图像,同时保持近期信息的完整性,并允许对遥远上下文的自然“遗忘”。
突破背后的架构
该系统的效率源于精心设计的三阶段编码器架构,总计约3.8亿个参数,并配备了一个30亿参数的“专家混合”(Mixture-of-Experts)解码器,在每个推理步骤中仅激活5.7亿个参数。
编码器的第一阶段采用窗口注意力机制,局部处理高分辨率图像,而不会耗尽内存。卷积网络随后执行激进的16倍下采样(这是关键的压缩步骤),最后通过一个全局注意力阶段捕获当前可控词元数量下的整体上下文。
CTOL.digital的分析强调了这种设计的精妙之处:“一个1024×1024的图像生成4096个补丁词元,在全局注意力之前下采样到256个词元——这使得激活保持在可控范围。”
训练该系统需要处理约4300万个图像-文本对以实现基本的OCR功能,另有1600万个专用对用于图表解析和化学结构识别等高级任务。该团队在20个节点上进行训练,每个节点配备8个高端GPU,达到了日益定义前沿AI研究的规模。
超越文本识别
该系统展示的能力远超简单文本转录。它能将图表解析为结构化数据,将化学图转换为标准符号,解释几何图形,并处理约100种语言。在演示中,它不仅能输出纯文本,还能输出包括HTML表格、Markdown和基于坐标的布局等结构化格式。
然而,CTOL.digital团队也指出了重要的注意事项:“97%的准确率对于严格的OCR用例来说还不够;这个想法很棒,但在高风险流程中准确率可能不足。” 对于医疗记录或金融合同等对完美准确率不容置疑的应用,人工监督仍将是必不可少的。
创新模式
这一进展符合深度求索AI更广泛的创新模式,该公司因发布挑战主流方法的开创性研究而获得认可。“深度求索不断推出其他人需要多年才能尝试的基础模型理念,”AI研究社区的成员观察到。“这感觉像是通用人工智能(AGI)导向的研究,而非产品上的微调。”
这项研究也引发了关于AI系统中视觉与语言未来关系引人入胜的问题。如果视觉词元能够承载大约是文本词元十倍的语义内容(这是从压缩比中得出的经验法则),那么未来的AI系统是否可能完全放弃文本词元化,转而采用视觉处理?
“如果这能够扩展,”研究人员推测,“下一代长上下文LLM可能会记住‘思维的截图’,而不是原始的词元串。”
前方之路
关键问题依然存在。这种方法如何从精心格式化的文档推广到自由格式的文本?对于不同的布局,最佳的平铺和分辨率策略是什么?在保持压缩优势的同时,能否进一步提高准确率阈值?
CTOL.digital团队提出了核心挑战:“自由格式的文本究竟如何映射到一个能够实现最大压缩的渲染形式?”
然而,即便存在这些开放性问题,DeepSeek-OCR所代表的也不仅仅是光学字符识别(OCR)领域的一次渐进式进步。它提出了一种根本不同的方式,以解决AI系统最持久的挑战之一:高效处理长而复杂的信息。
在一个AI系统越来越以其保持上下文、理解细微之处和高效大规模运行的能力来衡量的时代,“上下文光学压缩”技术可能不仅仅是一个巧妙的工程技巧。它是人工智能如何更像人类一样学习记忆和遗忘的一瞥。
代码和模型权重已公开发布,确保更广泛的研究社区能够在此基础上进行构建、验证和扩展。这究竟是一次暂时的探索,还是AI架构的持久性转变,仍有待观察。但目前,视觉革命已经开始——这绝非虚言。
技术论文和实现细节可通过深度求索AI的公共仓库获取。CTOL.digital工程团队的分析是独立进行的。
