当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构

4小时前Deepseek最新资讯22

  8月21日,DeepSeek正式发布其最新版本DeepSeek-V3.1,该版本采用了UE8M0 FP8 Scale的参数精度。据悉,这一技术规格专门为即将发布的下一代国产芯片进行优化设计。

  新版本在技术架构方面实现重要突破,引入了混合推理架构设计。该架构允许单一模型同时支持思考模式与非思考模式两种运行状态。用户可通过官方应用程序或网页端的深度思考按钮自由切换不同模式。

  与此同时,V3.1版本在运行效率方面取得显著提升。相比前代DeepSeek-R1-0528,新版本能够在更短时间内提供响应结果。通过思维链压缩训练技术,模型在输出token数量减少20%至50%的情况下,仍能保持相同的任务表现水平。

  在智能体能力方面,V3.1通过后训练优化实现了质的飞跃。新模型在工具使用、编程任务以及复杂搜索等智能体相关任务中表现获得较大幅度提升。在代码修复测评SWE与命令行终端环境测试中,该模型展现出更强的处理能力。

  技术规格方面,V3.1版本将上下文窗口扩展至128K,并新增对Anthropic API格式的支持。API接口同步升级deepseek,提供deepseek-chat与deepseek-reasoner两个不同接口,分别对应非思考模式和思考模式。

  值得注意的是,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。这些调整旨在更好地适配即将推出的国产芯片硬件环境。

  官方应用程序与网页端模型已同步升级为DeepSeek-V3.1版本。据了解,公司计划于2025年9月6日起执行新的API定价方案并取消夜间优惠政策。原文出处:DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构” 的相关文章

DeepSeek母公司员工套取上亿元被抓,幻方量化称为个人行为

DeepSeek母公司员工套取上亿元被抓,幻方量化称为个人行为

  近日,国内顶级量化私募机构幻方量化陷入一场牵涉金额高达1.18亿元的返佣案件。此案涉及幻方量化市场总监李橙,时间跨度长达六年。案件曝光后,幻方量化作为大模型DeepSeek的母公司,其...

Deepseek推荐全国旅游百强县市第97名:宁夏贺兰县

Deepseek推荐全国旅游百强县市第97名:宁夏贺兰县

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价,并发布了天和2...

杭钢股份涨停,DeepSeek-R2刺激算力需求+东数西算概念

杭钢股份涨停,DeepSeek-R2刺激算力需求+东数西算概念

  截至9时59分,杭钢股份涨幅为9.98%,最新价9.81元,总市值331.30亿元deepseek,封板资金5.92亿元,成交额16.59亿元,换手率5.21%,所属行业为钢铁行业。...

DeepSeek预测:狼队VS曼城!哈兰德率队血洗莫利纽,瓜帅开启卫冕之路

DeepSeek预测:狼队VS曼城!哈兰德率队血洗莫利纽,瓜帅开启卫冕之路

  英超2025赛季揭幕战即将打响!狼队坐镇莫利纽球场迎战卫冕冠军曼城。上赛季勉强保级的狼队,首轮就要面对四连冠的蓝月亮,这场“饿狼斗土豪”的戏码充满看点。   狼队上赛...

Deepseek推荐全国旅游百强区第19名:湖南长沙市岳麓区

Deepseek推荐全国旅游百强区第19名:湖南长沙市岳麓区

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》deepseek,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价...

[JR热议]电竞小说角色“简茸”被指融梗,作者声称无原型不知道GSL

[JR热议]电竞小说角色“简茸”被指融梗,作者声称无原型不知道GSL

  最近,电竞题材小说《我行让我上》作者酱子贝声称小说角色“无原型”,却遭到大众质疑,认为主角“简茸”融梗知名电竞选手Uzi,还融合了选手刘青松(Crisp)的特点,直接就是引发wb各家粉...