当前位置:首页 > Deepseek最新资讯 > 正文内容

华安证券-计算机行业周报:DeepSeek~V3.2~Exp 发布,训练推理提效

20小时前Deepseek最新资讯21

  技术层面:1)DeepSeek Spare Attention(DSA)首次实现细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现长文本训练和推理效率的大幅提升。根据各领域性能公开评测集结果(通用、搜索、代码、代码智能体、数学),DeepSeek-V3.2-Exp表现与V3.1-Terminus基本持平;2)开源TileLang与CUDA两种算子,TileLang由北大团队研发,专为简化高难度GPU算子开发而设计,将成为替代主流OpenAI领域特定语言Triton的有力备选,TileLang将调度空间与数据流解耦,使开发者能够直观地控制数据在硬件中的流动,根据TileLang在GitHub的说明文档,不仅支持英伟达CUDA,还已扩展支持华为昇腾等国产芯片。DeepSeek使用高级语言TileLang进行快速原型开发,以支持更深入的探索。在最后阶段deepseek,以TileLang作为精度基线,逐步使用底层语言实现更高效的版本。

  受益于新模型服务成本大幅降低,API调用价格相应下调。目前DeepSeek-V3.2-Exp API价格为输入0.2元/百万tokens(缓存命中),2元/百万tokens(缓存未命中),输出3元/百万tokens。

  新价格政策下开发者调用DeepSeek API的成本将降低50%以上。我们认为,DeepSeek-V3.2-Exp在技术层面探索了新的稀疏注意力机制,推动中国算力生态协同创新与演进,进一步将模型与算法层面的创新,与中间层的编译语言与更底层的计算芯片协同起来,推动中国算力生态的成长。模型发布后华为昇腾和寒武纪均第一时间宣布完成适配工作,表明国产AI算力生态已进入模型与芯片协同设计阶段。相关公司:神州数码、寒武纪、品高股份、北京利尔、安博通、优刻得、浪潮信息、紫光股份、超讯通信、首都在线。

  1)下游预算限制信息化支出;2)财政与货币政策低于预期;3)供应链波动加大,影响科技产业发展。原文出处:华安证券-计算机行业周报:DeepSeek~V3.2~Exp 发布,训练推理提效,API同步降价-251012,感谢原作者,侵权必删!

标签: deepseek

“华安证券-计算机行业周报:DeepSeek~V3.2~Exp 发布,训练推理提效” 的相关文章

第三届北京交叉科学大会“人工智能时代的场所精神”论坛在京举行

第三届北京交叉科学大会“人工智能时代的场所精神”论坛在京举行

  8月23日,由北京交叉学会与泛华集团低碳设计研究院联合主办的“人工智能时代的场所精神”前沿交叉论坛在北京成功举行。   泛华建设集团董事长杨天举,中国女医师协会副会长...

国金证券-电子行业周报:Deepseek发布V3.1模型,继续重点看好AI算力硬

国金证券-电子行业周报:Deepseek发布V3.1模型,继续重点看好AI算力硬

  Deepseek发布V3.1模型,继续重点看好AI算力硬件。8月21日,DeepSeek正式发布最新版本DeepSeek-V3.1模型,核心创新在于混合推理能力,支持思考/非思考两种模...

DeepSeek-V3.1发布:国产算力生态跃迁新纪元

DeepSeek-V3.1发布:国产算力生态跃迁新纪元

  DeepSeek最新发布的V3.1大模型,通过自研的UE8M0 FP8精度标准,首次实现了从算法架构到硬件适配的全栈国产化协同。该技术通过动态调整浮点数的尾数与指数位分配,在国产芯片制...

淘宝上的DeepSeek卖9块9,真魔幻

淘宝上的DeepSeek卖9块9,真魔幻

  要知道别看DeepSeek的风,已经过去半年了,但是现在,你有时候还是有可能会见着这个可能会让你PTSD的玩意的。   我第一反应,这是什么菩萨,居然自己部了Deep...

DeepSeek与智谱将发布新模型

DeepSeek与智谱将发布新模型

  9月29日,AI从业者发现DeepSeek-V3.2新模型已被上传至社区平台HuggingFace,随后被删除。另外,记者了解到deepseek,智谱新模型GLM-4.6也将于近日发布...

所以说反对樊粉网暴其他队员,就是支持樊振东本人啊

所以说反对樊粉网暴其他队员,就是支持樊振东本人啊

  都current world ranking了,不需要世排吗,而且还有种子排名,不看世排看啥呢   都current world ranking了...