【国盛计算机】DeepSeekOCR2速递:模拟人类阅读习惯重排阅读顺序,实

丹萱谈生活文化 2026-01-28 01:16:01

【国盛计算机】DeepSeek OCR2 速递:模拟人类阅读习惯重排阅读顺序,实现OCR效果提升 [太阳]传统OCR的痛点是什么? 现实文档大多存在图文混排,AI容易读错顺序,导致OCR给出的结果较为混乱。 [太阳]DeepSeek-OCR2做了什么? 将“阅读顺序/阅读逻辑”的处理,从解码器(LLM)前置到了编码器(Encoder)中。Deepseek创新性提出Visual Causal Flow(视觉因果流),先依据语义将文档重排为符合阅读逻辑的顺序,让编码器先将 2D 文档内容“按语义重排为 1D 因果流”,再交给 LLM 生成,从而让视觉编码器学会了一种更接近“人类阅读习惯”的机制。 [太阳]效果如何? OmniDocBench v1.5测试综合得分 91.09,相比上一代deepseek OCR显著提升。 [太阳]技术启发? DeepSeek-OCR 2 最值得关注的意义在于,将二维理解拆解为两个层级的“一维因果推理”:Encoder 负责构建阅读流,Decoder 负责生成与推理。未来的影响也许不仅限于OCR,而有可能扩大至一切多模态领域任务,也许都有望从这种“先学会读顺序”的思路中获益。 风险提示:ai技术迭代不及预期,ai落地不及预期,宏观经济波动的风险。

0 阅读:9
丹萱谈生活文化

丹萱谈生活文化

感谢大家的关注