当前位置：首页 > Deepseek最新资讯 > 正文内容

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

5小时前Deepseek最新资讯8

　　是的，与DeepSeek-OCR一样，智谱这篇论文的目标同样也是通过视觉的方式，破解当下LLM上下文冗长的难题。

　　毕竟，不论是长文档分析、代码审查，还是多轮对话，模型可不能像金鱼那样看过就忘。要让它们真正靠谱地执行任务，就得有足够稳定的「工作记忆」。

　　原因在于，更多的Token，就意味着模型需要记住更多的激活值、缓存、注意力权重，这些东西在训练和推理阶段都是靠真金白银堆出来的。

　　在Transformer结构里，模型并不知道输入的先后顺序，因此要给每个Token加上“位置编码”，告诉模型这是谁先谁后。

　　比如，把0～32K的位置区间“插值”到0～100K，这样，模型就能在工作时接受更长的输入，而不必重新训练。

　　而且，模型虽然能继续读下去，但由于它在训练中从未见过如此长的上下文，现在逼着人家读肯定表现不会好。

　　既然上下文变长了，那就让模型「读」快一点，比如用稀疏注意力、线性注意力等技巧，提高每个Token的处理效率。

　　但再怎么快，账还是那本账，Token的总量没有减少，如果上下文都到了几十万，多高的效率也顶不住。

　　但大家也知道，RAG的输出结果肯定不如模型基于训练数据的回答，而且还会因多出来的检索步骤拖慢整体响应。

　　比如，如果一句话能分成1000个Token，模型就得老老实实算1000个向量，还要在它们之间做注意力计算。

　　相比之下，Glyph不会逐字阅读，而是先把整段文字排版成图像式的视觉Token，再把这张「截图」交给VLM去处理。

　　之所以要这么做，是因为图像能承载的信息密度远高出纯文本，仅需一个视觉Token就能容纳原先需要好几个文本Token的内容。

　　借助这种方式，即便是一个上下文固定的VLM，无需借助稀疏注意力、RAG等工具，也能轻松吃下足以「撑死」LLM的超长文本。

　　举个例子：小说《简·爱》大约有240K的文本Token，对一台上下文窗口只有128K的传统LLM来说，只能塞进去一半。

　　这样一来，同样是128K上下文的VLM就能轻松看完整部《简·爱》，对故事脉络心中有数，也能从更大的全局视角来回答问题。

　　具体而言，研究团队先尽可能多地将海量长文本渲染成不同风格的图像，把VLM扔在各式各样排版、字体、布局中“读图识文”，以便训练出更强的泛化能力。

　　为此，研究团队引入由LLM驱动的遗传搜索算法，让模型自动探索最优的渲染参数——比如字体大小、页面布局、图像分辨率等——力求在尽可能压缩的同时不丢语义。

　　在找到最优的渲染方案后，研究团队又动手做了两件事：有监督微调和强化学习，旨让模型在“看图读文”这件事上更聪明、更稳。

　　此外，他们还在SFT和RL阶段都加上了辅助OCR对齐任务，教模型学会从图像里准确还原文字细节，让视觉和文本两种能力真正融为一体。

　　实验结果显示，Glyph在多项长上下文基准测试中实现了3–4倍的Token压缩率，同时依然保持与主流模型（如Qwen3-8B）相当的准确度。

　　这种压缩不仅减轻了算力负担，还带来了约4倍的prefill与解码速度提升，以及约2倍的SFT训练加速。

　　更令人惊喜的是，在极端压缩的情况下，一个上下文窗口仅128K的VLM，依然能够应对相当于百万Token级的文本任务，并丝毫不落下风。

　　此外，虽然Glyph的训练数据主要来自渲染后的文本图像，但它在多模态任务上同样表现出色，证明了其强大的泛化潜力。

　　核心思路是把长文本“画”成图，再让VLM去看图读文，做到一目十行，从而能实现高效的上下文扩展。

　　论文的一作是Jiale Cheng，他是清华大学的博士生，主要研究方向包括自然语言生成、对话系统和相关的人工智能交互技术deepseek。

　　黄教授本科与博士均毕业于清华大学，目前是清华大学计算机科学与技术系长聘教授，同时兼任智能技术与系统实验室副主任、清华大学基础模型中心副主任。

　　用图像而非文本作为输入，乍看之下似乎反直觉，但细想便会发现，这反而更贴近人脑的信息处理方式。

　　即便是阅读，我们的大脑最初接收的也只是由像素按特定规律排列组合的一串图形，在经过一层层视觉处理后，这些像素才被翻译成“文字”的概念。

　　相比之下，语言不过是我们基于视觉与其他感官体验提炼出的高度浓缩的抽象层。它标准化、成本低，但本质上依旧是视觉的降维产物。

　　有趣的是，当AI在各项指标上不断逼近人类、引发普遍焦虑的同时，每当技术发展陷入瓶颈，我们又总能从那个被质疑“没那么智能”的人脑里重新找到答案原文出处：智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：DeepSeek预测：布伦特福德vs利物浦！红军客场碾压？蒂亚戈5球vs加克波3

下一篇：西方警觉，“非洲不用我们的AI，都在用DeepSeek等中国模型”

“智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了” 的相关文章

放弃DeepSeek的用户都跑哪去了

　　快科技8月5日消息，作为曾受关注的AI搜索原生应用，DeepSeek的用户流失现象引发行业关注。　　QuestMobile数据显示deepseek，其月活跃用户规模...

英特尔 Gaudi 2E AI 宣布为 DeepSeek V3.1 提供加速支持

　　IT之家查询获悉，英特尔 Gaudi 2E 采用 7nm 制程，配备 96GB HBM2E 内存、48MB SRAM，具备 2.4TB 总内存带宽，针对随机访问deepseek、线性访...

DeepSeek梁文锋论文登上Nature封面，AI大模型首次通过同行评审

　　发表 Editorial 文章称，DeepSeek R1 是首个通过权威学术期刊同行评审的大语言模型，并称此举“意义重大”，是朝着透明度和可重复性迈出的可喜一步。　...

和讯投顾李景峰：Deepseek又有大动作！

　　9月30日，和讯投顾李景峰表示，Deepseek又有大动作了，v3.2发布了，大家还记不记得前段时间发布了v3.1，当时v3.1曾经刺激一个板块出现了上涨deepseek，什么来着？国...

康宁杰瑞制药ESMO数据惊艳亮相世界舞台，左手确定、右手创新，估值迎来“Deep

　　在2025年欧洲肿瘤内科学会（ESMO）这一全球顶级学术舞台上，康宁杰瑞（9966.HK）以其两款核心产品——HER2双抗KN026与HER2双抗ADC药物JSKN003的卓越临床数据...

Deepseek推荐全国旅游百强区第12名：贵州贵阳市南明区

　　日前，全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》，报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价，并发布了天和2...

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

“智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了” 的相关文章

放弃DeepSeek的用户都跑哪去了

英特尔 Gaudi 2E AI 宣布为 DeepSeek V3.1 提供加速支持

DeepSeek梁文锋论文登上Nature封面，AI大模型首次通过同行评审

和讯投顾李景峰：Deepseek又有大动作！

康宁杰瑞制药ESMO数据惊艳亮相世界舞台，左手确定、右手创新，估值迎来“Deep

Deepseek推荐全国旅游百强区第12名：贵州贵阳市南明区

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

“智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了” 的相关文章

放弃DeepSeek的用户 都跑哪去了

英特尔 Gaudi 2E AI 宣布为 DeepSeek V3.1 提供加速支持

DeepSeek梁文锋论文登上Nature封面，AI大模型首次通过同行评审

和讯投顾李景峰：Deepseek又有大动作！

康宁杰瑞制药ESMO数据惊艳亮相世界舞台，左手确定、右手创新，估值迎来“Deep

Deepseek推荐全国旅游百强区第12名：贵州贵阳市南明区

Powered By Z-BlogPHP. Theme by TOYEAN.

放弃DeepSeek的用户都跑哪去了