当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

4个月前 (02-26)DeepSeek技术交流231

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

理想同学App正式接入DeepSeek

理想同学App正式接入DeepSeek

北京商报讯(记者 刘晓梦)2月19日,理想汽车宣布,旗下人工智能助手理想同学App全面接入DeepSeek R1&V3 671B满血版,并实现与理想自研MindGPT大模型的双向自由切换。据了...

广东多地政府部门接入DeepSeek

广东多地政府部门接入DeepSeek

【广东多地政府部门接入DeepSeek】财联社2月15日电,广东多地政府部门开始在政务系统部署接入DeepSeek。据了解,2月8日,深圳市龙岗区政务服务和数据管理局已经在政务外网部署上线了DeepS...

DeepSeek公告:DeepSeek R1网页/API不可用 随后DeepSeek更新状态显示网页故障已恢复

DeepSeek公告:DeepSeek R1网页/API不可用 随后DeepSeek更新状态显示网页故障已恢复

DeepSeek于服务状态页面公告,DeepSeek R1网页/API不可用。(本文来自第一财经)3月20日午间,DeepSeek服务状态页面显示,DeepSeek R1网页/API不可用。随后,De...

梁文锋的秘密武器:DeepSeek R2或5月问世,成本仅GPT-4o的2.7%

梁文锋的秘密武器:DeepSeek R2或5月问世,成本仅GPT-4o的2.7%

五月将至,中美科技巨头或将迎来新一轮巅峰对决。先是在4月中旬,OpenAI一口气发布了GPT-4.1 o3、o4 mini系列模型;谷歌则拿出了Gemini 2.5 Flash Preview,一个混...

DeepSeek+腾讯双重龙头!“强得可怕”,连创历史新高!

DeepSeek+腾讯双重龙头!“强得可怕”,连创历史新高!

云计算利好频出。2月18日,A股主要指数集体调整。截至收盘,沪指跌0.93%,深证成指跌1.61%,两大科创指数跌幅均在2%左右水平。沪深两市成交额接近1.8万亿元,较昨日缩量逾千亿。行业板块呈现普跌...

智领未来,观遍天下!四川观察接入DeepSeek大模型开启智能媒体新时代

智领未来,观遍天下!四川观察接入DeepSeek大模型开启智能媒体新时代

近日,四川观察正式接入DeepSeek,以AI技术赋能内容生产、分发传播、用户互动及安全风控全链条,开启媒体行业“智变”新篇章。此举标志着四川观察在媒体融合与技术创新领域再攀高峰,以“技术+内容”双轮...