当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布新一代AI模型:推理更强,使用成本降一半

2周前 (09-30)Deepseek最新资讯89

  中国人工智能开发商 DeepSeek 推出了一款实验性大型语言模型(LLM),号称在训练与推理能力上有显著提升,并能以更低的成本运行。

  总部位于杭州的DeepSeek表示,该模型采用 稀疏注意力(sparse attention) 技术,使得API(应用程序接口)调用价格可降低一半。API是企业和开发者接入AI模型的主要方式,按使用次数或调用量付费。

  DeepSeek在开发者社区 Hugging Face 上发布文章称,这款新模型是其“下一代AI产品线的重要进展”。

  随着国内外竞争日益激烈,中国科技企业正不断升级自研大模型。就在上周,巴巴推出了其迄今规模最大、功能最强的新一代旗舰模型。

  事实上,谷歌与OpenAI等国际巨头早在2019年就探索过稀疏注意力技术。OpenAI当时指出,对于超大规模输入,完整的注意力矩阵计算成本过高deepseek,而“稀疏模式”可通过只关注部分关键输入,大幅提高效率。

  DeepSeek在随新模型发布的论文中介绍称,该模型采用了 “闪电索引器(lightning indexer)” 与 “精细化的token选择机制”,确保注意力计算仅应用于最相关的token。

  值得注意的是,华为云已在周一晚间发文确认,已“快速完成”对 DeepSeek-V3.2-Exp 模型的适配工作。

  目前,DeepSeek的V3.1版本与阿里巴巴的通义千问Qwen3系列,在人工智能分析平台的全球LLM排名中位列中国前两名,仅次于OpenAI、xAI与Anthropic等国际厂商。原文出处:DeepSeek发布新一代AI模型:推理更强,使用成本降一半,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek发布新一代AI模型:推理更强,使用成本降一半” 的相关文章

朱啸虎警示行业:DeepSeek重要地位尚未被充分认知

朱啸虎警示行业:DeepSeek重要地位尚未被充分认知

  行业活动中,来自知名投资机构的代表对人工智能发展格局作出重要研判。活动由科技创新企业与行业媒体共同筹办,聚焦人工智能领域前沿动向。   金沙江创投核心管理层成员在研讨...

DeepSeek和Kimi首轮就被淘汰,这项大模型对抗赛说明了什么?

DeepSeek和Kimi首轮就被淘汰,这项大模型对抗赛说明了什么?

  谷歌发起的“首届大模型对抗赛”,在赛前就已经话题度拉满,但是随着8月5日比赛正式打响,参赛AI展现出的水平或许令人有些失望。相比于两款中国模型DeepSeek-R1和Kimi K2 I...

Deepseek推荐全国旅游百强区第43名:四川成都市双流区

Deepseek推荐全国旅游百强区第43名:四川成都市双流区

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价,并发布了天和2...

青云上线 DeepSeek-V3.1,128k 上下文+混合推理

青云上线 DeepSeek-V3.1,128k 上下文+混合推理

  青云科技旗下 AI 算力云服务——基石智算CoresHub正式上线 DeepSeek-V3.1 模型,以底层架构的颠覆性革新与 128k 超长上下文能力deepseek,为用户开启 A...

全网爆火的DeepSeek「UE8M0 FP8」,原来英伟达早已支持

全网爆火的DeepSeek「UE8M0 FP8」,原来英伟达早已支持

  NVIDIA PTX ISA(并行线程执行,PTX 指令集)文档里面早就已经出现了 .ue8m0 这个数据类型   这相当于DeepSeek V3.1 把原本只在硬件...

站在DeepSeek肩膀上,小红书开源首款多模态模型:看懂表情包与数学题,一手实

站在DeepSeek肩膀上,小红书开源首款多模态模型:看懂表情包与数学题,一手实

  智东西8月7日报道,昨天,小红书hi lab(人文智能实验室)开源了其首款多模态大模型dots.vlm1,这一模型基于DeepSeek V3打造,并配备了由小红书自研的12亿参数视觉编...