DeepSeek开源OCR新模型!单张A100日处理可超20万页数据
简单来看,团队的思路是,既然一张图就能包含大量文字信息,同时用的 Token 更少,那就可以将文本转成图像,这就是题目中提到的“光学压缩”,用视觉模态压缩文本信息。这一结果显示出该方法在长上下文压缩和大模型的记忆遗忘机制等研究方向上具有相当潜力。
论文提到,当前的大语言模型在处理过程中面临着重大的计算挑战,文本内容过长,因此团队探索了一种具有潜力的解决方案:利用视觉模态作为文本信息的高效压缩介质。
具体来说,这一OCR模型可以将文本压缩成视觉模态,所谓“一图胜千言”,这样可以消耗更少的Token,测试显示,通过文本到图像的方法可以实现近 10 倍无损上下文压缩,OCR 准确率还能保持在 97% 以上。
/最新!公安机关对“野人小孩”父母展开调查,家人称将让孩子落户北京,同意不让孩子赤裸爬行deepseek,律师提醒
/财经早报:国内芯片领域现200亿大手笔投资 白银价格高涨买银条要排队丨2025年10月20日
/十大机构看后市:短期波折不影响A股中长期走势,牛市还有纵深,四季度还有科技行情,超调提供较好介入时机原文出处:DeepSeek开源OCR新模型!单张A100日处理可超20万页数据,感谢原作者,侵权必删!