当前位置：首页 > Deepseek最新资讯 > 正文内容

文本已死，视觉当立！Karpathy狂赞DeepSeek新模型，终结分词器时代

12小时前Deepseek最新资讯17

　　【新智元导读】AI新突破！DeepSeek-OCR以像素处理文本，压缩率小于1/10，基准测试领跑。开源一夜4.4k星，Karpathy技痒难耐，展望视觉输入的通用性。

　　此外，在光学文字识别OCR任务上，DeepSeek-OCR模型名副其实，堪称工程学的巅峰之作——

　　在保持97% OCR准确率的前提下，可将视觉上下文压缩至原来的1/20，常规使用下压缩比也能轻松小于1/10。

　　一整页密密麻麻的文本，被压成仅仅100个视觉Token，在 OmniDocBench上实现最多60倍压缩！

　　DeepSeek-OCR简直把文字变成了像素点，就像把一本100页的书压缩成一张照片，AI依然能读懂它。

　　DeepSeek-OCR用事实证明，实体页面（如缩微胶片、书籍）才是训练AI模型的更优数据源——而非低质量的互联网文本。

　　「骨子里的计算机视觉研究者」、特斯拉前AI总监、OpenAI创始团队成员Karpathy，难掩欣喜，力挺DeepSeek新模型。

　　但更有趣的部分在于，对于大语言模型来说，像素输入是否优于文本输入？在输入端，文本Token会不会是一种既浪费又糟糕透顶的方式？

　　Karpathy自称「骨子里搞计算机视觉」，只是暂时混迹在自然语言处理圈，自然对上述问题尤其感兴趣。

　　或许，大语言模型的所有输入都只应该是图像，这才更有道理。就算你手头是纯文本输入，可能也最好先把它渲染成图像再喂给模型：

　　它「引入」了Unicode和字节编码的所有糟粕，背负着沉重的历史包袱，还带来了安全/越狱风险（比如连续字节问题）。

　　OCR只是「视觉到文本」众多落地应用中的一种。而「文本到文本」的任务也可以被改造为「视觉到文本」的任务，反之则不行。

　　现在，Karpathy表示，他要拼命忍住，不去搞一个只用图像输入的「nanochat」的支线任务。

　　另外，虽然图像没有像文本那样的「Token化」过程deepseek，但我们把输入图像切割成一个个图像块（patches）时，难道得到的不是类似，甚至可能更不理想的结果吗？

　　对此，Karpathy表示，原则上可以，只不过为了追求效率，文本（的生成）通常采用简单的自回归方式进行训练。

　　可以设想存在一个中间训练阶段，利用双向注意力机制，微调条件信息，比如那些我们不需要去预测或生成的代表用户消息的Token。

　　原则上，你可以对整个上下文窗口进行双向编码，而目的仅仅是为了预测下一个 Token。但这么做的代价就是无法并行化训练。

　　至于第二个问题，他认为，严格来说与「像素 vs. Token」无关。其核心更在于，像素通常是被编码的（encoded），而 Token则是被解码的（decoded）。

　　1=估算可观测宇宙中的光子总数是一项复杂的工作，但我们可以基于几个主要组成部分得出一个大致数字：宇宙微波背景辐射（CMB）产生的光子、星光光子，以及其他一些微弱来源。

　　宇宙微波背景辐射（CMB）占据主导地位，使得可观测宇宙中的光子总数约为1.5×10⁸⁹个。这个数字是一个粗略估算，具体数值取决于可观测宇宙的精确体积以及其他微小来源的贡献，但整体上与宇宙学计算结果相符。

　　他代表北京大学参赛，获得ACM-ICPC 亚洲区域赛金牌（2017–2019），获奖赛区包括：EC 总决赛 2017、青岛 2017、西安 2017、上海 2019、南京 2019。原文出处：文本已死，视觉当立！Karpathy狂赞DeepSeek新模型，终结分词器时代，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：人工智能ETF(159819)强势大涨3.62%，近3月新增规模超65亿元同类居

下一篇：DeepSeek新模型提升内容质量与对话效率

“文本已死，视觉当立！Karpathy狂赞DeepSeek新模型，终结分词器时代” 的相关文章

导演宁浩称自己看病先问 DeepSeek，作家余华则用豆包

　　IT之家 9 月 4 日消息，电影导演宁浩、作家余华今日亮相 2025 海浪电影周海浪对话论坛，谈到自己在 AI 方面的使用。　　据新浪电影报道，宁浩分享对 AI...

堪比DeepSeek时刻！在美中国科技ETF六周连吸金，中国成股票投资首选市场

　　截至9月19日当周，美国交易的中国科技股ETFKraneShares金瑞中证中国互联网ETF（KWEB）连续第六周获得资金流入，创下今年2月DeepSeek时刻以来的最长纪录。不过最新...

DeepSeek预测：巴黎圣日耳曼vs斯特拉斯堡，姆巴佩缺席下大巴黎能否延续主场

　　法甲第8轮焦点战将在王子公园球场打响，领头羊巴黎圣日耳曼（16分）迎战黑马斯特拉斯堡（15分）。路易斯·恩里克的球队目前以1分优势领跑积分榜deepseek，但身后三支球队同积15分虎...

Deepseek推荐全国旅游百强区第53名：安徽合肥市庐阳区

　　日前，全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》，报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价deepseek...

艾弗森算不算低效的得分手

　　当初詹姆斯在15年总决赛，说要做下一个艾弗森，于是，他作为队内唯一稳定得分手学艾弗森扛炸药的打法，以39%的命中率拿下场均35分。。艾弗森这种打法，命中率还能保持高效的，我只看到乔丹做...

429 元 HMD 巴萨联名版 3210 功能机首销，支持 Deepseek A

　　IT之家 8 月 1 日消息，HMD Global 旗下巴塞罗那足球队联名版 3210 功能手机现已在京东开启首销，这款功能机配备足球队定制外壳、壁纸、系统界面，同时支持支付宝被扫支付...