DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构
8月21日,DeepSeek正式发布其最新版本DeepSeek-V3.1,该版本采用了UE8M0 FP8 Scale的参数精度。据悉,这一技术规格专门为即将发布的下一代国产芯片进行优化设计。
新版本在技术架构方面实现重要突破,引入了混合推理架构设计。该架构允许单一模型同时支持思考模式与非思考模式两种运行状态。用户可通过官方应用程序或网页端的深度思考按钮自由切换不同模式。
与此同时,V3.1版本在运行效率方面取得显著提升。相比前代DeepSeek-R1-0528,新版本能够在更短时间内提供响应结果。通过思维链压缩训练技术,模型在输出token数量减少20%至50%的情况下,仍能保持相同的任务表现水平。
在智能体能力方面,V3.1通过后训练优化实现了质的飞跃。新模型在工具使用、编程任务以及复杂搜索等智能体相关任务中表现获得较大幅度提升。在代码修复测评SWE与命令行终端环境测试中,该模型展现出更强的处理能力。
技术规格方面,V3.1版本将上下文窗口扩展至128K,并新增对Anthropic API格式的支持。API接口同步升级deepseek,提供deepseek-chat与deepseek-reasoner两个不同接口,分别对应非思考模式和思考模式。
值得注意的是,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。这些调整旨在更好地适配即将推出的国产芯片硬件环境。
官方应用程序与网页端模型已同步升级为DeepSeek-V3.1版本。据了解,公司计划于2025年9月6日起执行新的API定价方案并取消夜间优惠政策。原文出处:DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构,感谢原作者,侵权必删!