DeepSeek 再开源:3B OCR 模型,用视觉方式压缩文本
据介绍,DeepSeek-OCR 参数量约3B ,是对“光学二维映射压缩”技术在长文本上下文处理中的可行性的一次初步探索deepseek。
模型核心由 DeepEncoder 与 DeepSeek3B-MoE-A570M 解码器构成:DeepEncoder 负责在高分辨率输入下保持低激活状态,实现高压缩比并生成适量视觉token,解码器则负责将这些 token 转化为精确文本信息。原文出处:DeepSeek 再开源:3B OCR 模型,用视觉方式压缩文本,感谢原作者,侵权必删!