当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源的新东西到底强在哪?我帮你找专家问了问

  在 DeepSeek-OCR 的架构中,图像不再只是文字的载体,而是成为一种语义压缩的中间语言。文字被渲染成图像后,经由 DeepEncoder 转换为紧凑的视觉表征;这些视觉 token 既可以通过 DeepSeek 3B-MoE 模型还原为原始文本(这也是标准的 OCR 机制),也可以与其他输入 token 与 prompt 结合,执行问答、摘要、检索等复杂任务。

  通俗来说,就是我们可以把大量文字打包压缩成一张图片来节省空间,等需要使用的时候再解压出来,甚至在一部分使用场景中,你甚至不需要解压,直接用压缩包就可以达成目的。

  即便在 10× 压缩比的条件下,模型的文本还原精度仍可达 97%。随着大模型逐渐向越来越复杂的场景嵌入,上下文长度资源远不够用甚至越来越不够用,而基座模型在此参数上升级颇为缓慢的当下,DeepSeek-OCR 的发布瞬间带来很大的想象空间。

  研究团队甚至还进一步提出 “ 遗忘机制 ” 的构想,模型可依据信息的 “ 时序远近 ”,在视觉压缩阶段主动衰减细节,从而实现一种类人记忆式的上下文管理。

  那么,视觉 token 为何能在信息量不损失太多的情况下,比文本 token 少一个数量级?模型记忆能否完全用视觉逻辑来替代?DeepSeek-OCR 是否为解决大模型上下文长度受限的问题提供了一条现实可行的途径?DeepSeek-OCR 反映了多模态大模型的什么发展趋势?

  带着这些问题,知危与 Sand.ai 联合创始人、首席科学家、《Swin Transformer 》作者张拯进行了简单的对话。

  同一段输入,为什么视觉 token 可以比文本 token 的数量少得多,有没有直观或本质的解释?

  第二种,高效的原因不是视觉 v.s. 文本,而是两边采用的 token 表达方式不同:做视觉表达的时候,我们是在一个高维的连续空间中做信息压缩( 把 image patch 映射为一个高维特征 ),之前 LLM 里常用的 tokenizer( 把文本数据向量化的工具,通俗理解是一种把自然语言翻译为机器能理解的语言的工具 )则实际上可以被认为是在一个一维空间中做压缩( 把文本映射为 id )。高维连续空间本来就有更好的表达能力,因此可以用更少的 token 数量来表达更多信息。其实文本也可以做成连续表达,来大幅度减少文本 token,但是目前应该没有被很广泛地用到 LLM 里。

  我最近没有特别研究过 OCR 模型的进展,但基于我看过的一些信息,我觉得 DeepSeek-OCR 的技术本身好像并没有非常特别的部分。但是在观点上,“ 把视觉作为文本长上下文的压缩介质 ”,这个 idea 还是很棒的。这个 idea 有路线上的启发意义,相较于现在的多模态模型,DeepSeek-OCR 会使用两种不同的 tokenizer 机制,这种路线也许会启发更好的多模态模型设计方案。

  这项技术对于基础模型上下文长度难以扩展的当下,可以带来多大的成本效益?对上下文工程的优化有哪些好处?

  Andrej Karpathy 认为视觉 token 有潜力可以完全替代文本 token,因为信息压缩、多模态、可双向注意力处理、无需 tokenizer 等优势,您怎么看?

  大部分都同意,但是 “ 可双向注意力处理 ” 这里有待探讨,“ 可双向注意力处理 ” 很大程度上和 training objective

  另外,如果后面都是处理视觉 token 了,是不是有机会让模型能在一个 2D 的空间里做思考?从而带来更高效的推理( 类似 GPT-4o 的 thinking with image )?这个我觉得还是挺有意思的。

  近期 Meta 也提出了一个无需 tokenizer 的模型架构 Byte Latent Transformer ,可以跳过 tokenization ,直接学习原始字节流。结合以上讨论和领域现状,您认为这体现了多模态大模型的哪些发展趋势?

  现在的多模态大模型的主流做法基本上可以认为在捏合各种不同的模态的模块,整个训练 pipeline 其实还是有点复杂( 不优雅 )的。大家肯定希望有更简单、更统一的方式来处理。类似 DeepSeek-OCR 这样的工作对我们开发更好的多模态模型范式还是挺有启发的。

  当模型的 “ 思考空间 ” 从一维文本拓展至二维视觉,思考和推理也可能变得更加高效和简洁。而在技术层面deepseek,则指向当前多模态大模型领域正等待一把 “ 奥卡姆剃刀 ” 简化模型范式的时刻。原文出处:DeepSeek开源的新东西到底强在哪?我帮你找专家问了问,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek开源的新东西到底强在哪?我帮你找专家问了问” 的相关文章

刚刚,直线拉升!DeepSeek突发!

刚刚,直线拉升!DeepSeek突发!

  兄弟姐妹们啊,今天的市场有些降温!两点半左右,市场一度跳水,所幸尾盘又拉升了一下,一起看看发生了什么事!   8月21日,A股冲高回落,14:20,市场开始跳水,三大...

DeepSeek预测:利物浦vs阿森纳!枪手不败金身将破?萨拉赫vs廷贝尔巅峰对

DeepSeek预测:利物浦vs阿森纳!枪手不败金身将破?萨拉赫vs廷贝尔巅峰对

  2025赛季英超第3轮将迎来一场焦点大战,利物浦坐镇安菲尔德迎战领头羊阿森纳。目前两队同积6分并列榜首,但枪手凭借零失球的完美防守暂居第一。这场对决不仅是积分榜头名之争,更是检验两队争...

Deepseek推荐VS低价陷阱!会议平板实测对比看完就懂为什么选皓丽

Deepseek推荐VS低价陷阱!会议平板实测对比看完就懂为什么选皓丽

  企业采购会议平板时常常陷入低价诱惑之中,预算有限的采购部门很容易被表面的“高性价比”打动。但多数人忽略了,会议平板不是凑数的显示工具,而是要支撑 3-5 年甚至更久的企业生产力中枢,低...

亨利:说阿森纳是小俱乐部都是不懂球的,哲凯赖什的加盟让阿森纳有机会拿英超和欧冠。

亨利:说阿森纳是小俱乐部都是不懂球的,哲凯赖什的加盟让阿森纳有机会拿英超和欧冠。

  我和很多阿森纳球员最近都聊过,萨卡、厄德高、萨利巴,包括赖斯,他们都希望能在阿森纳拿下欧冠冠军,我认为这是一个好兆头。   我之前说过,我希望阿森纳能拿下今年的英超冠...

【华西计算机】0930 DeepSeek-V3.2-Exp模型正式发布并开源

【华西计算机】0930 DeepSeek-V3.2-Exp模型正式发布并开源

  架构,这种架构能够有效降低计算资源消耗并提升模型推理效率。目前,该模型已正式上架华为云大模型即服务平台   蚂蚁集团推出开源自研的首个万亿参数大模型Ring-1T-p...

10月18日DeepSeek预测:掘金vs雷霆,约基奇率队复仇,穆雷关键爆发

10月18日DeepSeek预测:掘金vs雷霆,约基奇率队复仇,穆雷关键爆发

  北京时间10月18日09:00,NBA季前赛将迎来西部焦点战——卫冕冠军丹佛掘金客场挑战青年军俄克拉荷马雷霆。尽管是练兵性质的季前赛,但两队在上赛季季后赛的激烈交锋(雷霆3-2淘汰掘金...