从卖算力到卖Token,AI基础设施变样了

  过去两年,智算中心最常见的叙事是GPU数量、峰值算力、集群规模和机柜交付速度。但企业真正把大模型接进业务系统之后,更需要关注的是“同样一笔预算,能产出多少有效Token,推理能不能稳定,成本能不能算清”等问题。

  21世纪经济报道记者从联想中国方面了解到,业内判断,算力基础设施的价值正在从最基础的“提供资源”,转向“支撑企业持续、稳定、低成本地产生Token”,这背后涉及非常复杂的系统化工程,业界正在探索解决方案。

  2023年以来,各地智算中心加速建设,GPU、服务器、机柜成为投资重点。但AI进入推理和应用阶段后,客户要买的不是一堆静态设备,而是持续可调用的智能服务。

  算力中心如果只完成硬件堆叠,缺少调度、模型适配、缓存管理、容错、安全和成本核算,就可能变成“能跑模型,但跑不出经济性”的基础设施。

  由联想中国基础设施业务群战略总监黄山等主创撰写的《词元工厂》一书提出,企业AI应被看作一种可管理、可度量、可盈利的生产实体。书中强调,建设Token工厂除了采购算力以外,还要覆盖数据治理、算力系统、软件栈优化、能耗管理、安全合规和ROI核算。

  这套说法尚未成为行业统一标准,但它回应了企业AI落地中的真实问题。许多企业已经完成模型接入或局部试点,但一旦进入生产系统,瓶颈往往不只在于模型能力,还在于数据、调度、缓存、容错、安全、能耗、运维等能力。

  黄山在采访中进一步分析了Token工厂要补的短板。他提到,Token工厂需要完善数据治理、计算系统、能效管理、安全合规和运维管理等环节。

  万全异构智算平台V5.0强调分层解耦、PD分离、KV Cache共享缓存优化、芯模编译优化等能力,目标是提升训练和推理效率。超节点方案则面向大规模模型训练与推理,单节点可搭载40张GPU,FP8算力超过28 PFLOPS,HBM显存超过5.76TB,并强调低时延互联和部署效率。

  “万全异构智算平台希望把每百万Token的硬件成本控在一块钱以内。”黄山表示,AI基础设施的竞争已经变成了软硬件、网络、供电、散热、调度和运维的系统效率竞争。

  联想中国基础设施业务群服务器事业部总经理周韬在采访中透露,联想问天早期做产品规划时,服务器市场主要围绕通用计算和HPC,产品路线更多跟随CPU路线图。CPU厂商通常会给出三年、五年的清晰路线,服务器厂商可以按照相对稳定的节奏规划产品。

  AI兴起后,变量开始增多。周韬说,不确定性主要不在CPU,而在GPU和应用层,“有的GPU更新迭代特别快,你还没有来得及把这个产品上市,它可能已经过时了。”模型、一体机、智能体应用持续切换财经热点,传统服务器产品的长周期研发方式开始不适应市场节奏。

  据周韬介绍,联想提出了“敏态”产品规划。传统服务器量产前需要适配大量CPU、内存、SSD、硬盘等配置组合,测试验证周期很长。但AI服务器客户的配置反而更集中,厂商可以先围绕更可能放量的配置做样机,送客户测试;客户确认需求后,再转入量产。

  周韬称,这种方式可以把原来18个月甚至更长的规划验证周期压缩到几个月,也让研发投入从一年两三个产品,扩展到一年10个、15个产品,其中只要有三四个成功就可以接受。

  这背后是AI基础设施产业节奏的变化。模型和应用更新太快,硬件厂商很难再用传统服务器时代的长周期方式押注未来。服务器厂商不仅要比供应链和交付能力,也要判断哪些GPU、哪些模型、哪些客户场景会形成真实需求,并用更低成本完成快速试错。

  超节点也体现了这种变化。周韬提到,未来CPU和GPU组合会越来越多,CPU有x86、C86、ARM等路线,GPU厂商也很多,因此联想尝试做CPU、GPU分离,让二者能够更自由地组合。

  他还提到800伏垂直供电、高速互联、PCIe Gen6、光互联、整机柜浸没式等技术方向,并判断超节点不像普通AI服务器那样适合广泛客户,未来核心用户大概率会集中在少数头部客户。

  对多数传统企业而言,更现实的问题不是自建万卡集群,而是如何以较低门槛获得稳定推理、模型路由、Agent编排、安全合规和成本核算能力。

  能源约束也正在推高AI基础设施的工程门槛。算力扩张不只是IT部门预算问题,还会触及供电、散热、能源调度和数据中心承载能力。周韬在采访中表示,部分OEM形态GPU单卡功耗已经超过八九百瓦,“奔着一千瓦去了”,未来新一代产品基本都要做液冷。

  液冷背后还涉及制造和交付。周韬透露,整机柜液冷测试交付需要超过3吨的承重能力,整机柜耗电达到兆瓦级,如果工厂供电达不到十兆瓦,几乎无法做整机柜液冷或超节点生产;液冷接头精密,生产环境也要做洁净度改造。这些细节说明,AI基础设施竞争也延伸到了工厂改造、供电能力、生产洁净度和工程交付等更深的层面。

  AI进入产业场景后,最贵的是“确定性”,这是一项把不确定的模型、应用、能耗和安全问题,转化为可度量、可交付、可持续优化的系统化工程。从卖算力到卖Token,AI基础设施变样了

评论

发表回复