执游网

DeepSeek指路算力优化路径,国产AI有望实现生态闭环

  DeepSeek同时考虑算法精度和系统效率。除了极致的底层优化,协同优化也可能让大模型在利用国产算力时达到甚至超越英伟达GPU的性能。从最顶层的产品应用到底层的基础设施,大模型的每一个层级都已经形成了非常好的生态,每一个层级上都存在着优化空间。

  ·未来推理算力或将有2-3个数量级的提升。训练算力需求仍会有所增长,总体来看,算力需求会激增,成本会更高,但算力成本还有巨大压缩空间,单位算力成本将下降,效率得到提升。

  “原来大家觉得训练模型只需要招一批算法工程师,再融一大笔钱,买一大批卡,这事就能干了。但现在不是了,现在还需要招一批懂系统的人,这是AI行业的一个很大变化。”上海交通大学长聘教轨副教授、无问芯穹首席科学家戴国浩日前在接受澎湃科技采访时表示,DeepSeek使用的训练服务算力并没有随模型尺寸等比例成倍增加,而是通过底层优化释放底层硬件性能、软硬件协同创新“压榨”算力,大模型“炼制”开始追求极致性价比。

  利用2048张H800 GPU,预估不到两个月时间训练DeepSeek V3。H800每小时每卡2美元租赁成本,训练成本550万美元左右,其中不包括前期探索模型架构、消融实验等开销。戴国浩表示,DeepSeek打响生态闭环第一枪,对国产算力优化提出更清晰的路径。总体来看,算力需求会激增,推理算力或将有2-3个数量级的提升,算力成本会更高,但算力成本还有巨大压缩空间,单位算力成本将下降,效率得到提升。

  上海交通大学长聘教轨副教授、无问芯穹首席科学家戴国浩。

  底层优化释放底层硬件性能

  拆解DeepSeek的技术报告,相对于模型架构、预训练方法和后训练方法,DeepSeek着重介绍系统架构。相比之下,国外开源模型的公开技术报告中对于系统架构的介绍篇幅较少。

  戴国浩表示,DeepSeek的极致性价比来自于两大类优化,一是了解硬件细节,实现极致的底层优化;二是打通软件硬件,实现联合协同优化。前者基于确定性的算法模型及底层硬件,开展通信优化、内存优化,这些优化不改变任何程序执行结果。后者如混合精度的量化、对底层硬件的修改,扩大系统的优化空间。

  例如在通信优化上,DeepSeek采用双向流水线机制,让计算和通信将近100%重叠,实现更大的专家并行,使得模型能够像流水线一样“边算边传”,这被认为是使用有限资源训练更大模型的有效手段。在底层优化上,PTX的优化使得系统和模型可以更好地释放底层硬件性能,这也是DeepSeek能够更精细控制底层硬件、实现“边算边传”的重要原因。

  训练一个大模型,首先要有GPU。但开发者并不需要关注底层硬件的模样,只需要通过Python等高层次语言或英伟达CUDA等硬件接口进行编程,最终调用底层的GPU。而能够直接和底层硬件发生交互的PTX一般被隐藏在CUDA的驱动中,PTX是比CUDA更底层的硬件接口编程语言。越接近底层的语言对硬件的利用效率越高,在同样硬件能力下实现更精细的通信任务管理,将最费时的跨界点通信效率提升60%,跑出效果更好的模型。

  PTX编程并非行业机密,但此前几乎所有大模型算法工程师不会接触到这一层语言。因此,如果能够编程和调用PTX,就可以更好地调用底层硬件。不过,戴国浩解释,这并不意味着绕过了英伟达CUDA的垄断。从编程范式来看,DeepSeek在某些代码上绕过了CUDA的编程,但并未完全绕开CUDA生态。

  软硬件协同创新“压榨”算力

  “从最顶层的产品应用到底层的基础设施,大模型的每一个层级都已经形成了非常好的生态,每一个层级上都存在着优化空间。”戴国浩表示,除了极致的底层优化,协同优化也可能让大模型在利用国产算力时达到甚至超越英伟达GPU的性能。“原来的算法架构只考虑算法精度,大家觉得只要算法足够好就行了,但DeepSeek同时考虑算法精度和系统效率。”

  例如英伟达H800集成了FP8计算单元,戴国浩表示,使用更低精度训练,理论上可带来2倍的计算加速和50%的显存降低。但由于低精度训练极易损失模型效果,以及大模型高昂的试错成本,开源社区中尚无项目实现大规模FP8预训练落地。而DeepSeek实现了FP8低比特训练出高质量模型,坚定“榨干”硬件所有潜力。

  DeepSeek采用MLA(隐空间注意力计算机制)架构和MoE(混合专家模型)架构,MLA架构可进一步降低推理消耗的内存。在模型训练过程中,MoE架构采用1个共享专家和256个路由专家,每个token激活8个路由专家。

  据介绍,MoE架构训练超大模型,最大的挑战是负载均衡。DeepSeek引入一个专家偏见(expert bias),保证专家负载均衡,提升集群效率。专家偏见只影响专家路由,不产生任何梯度影响。专家偏见动态调整,如果某个专家过载,就会降低偏见,如果某个专家负载不足,就会增加偏见。DeepSeek采用MoE架构,又在算法和软件层面解决了MoE本身由于专家并行带来的通信开销问题,充分挖掘了算法、软件、硬件协同创新。

  打响国产AI生态闭环第一枪

  “无论是底层优化,还是协同优化,必须要对底层硬件和系统有非常深刻的理解,既要懂算法,又要懂硬件。”戴国浩表示,以PTX编程为例,这需要开发者清晰了解英伟达的硬件是如何制造的,因此门槛高,大模型公司少有对PTX编程。业内拥有系统优化能力的团队懂PTX编程,但模型训练本身投入大,难以持续优化。

  DeepSeek打响了第一枪,对国产算力优化提出了更清晰的路径。降低算力成本是国内发展大模型的核心之一。软硬件协同路径包含模型、系统、芯片等关键因素,在国外,这三者已经形成了完备的闭环生态。戴国浩表示,在以往的认知中,使用国外的芯片预训练、使用国外的模型做微调,得到的模型跟国外的闭源或开源模型相比总存在一定差距,国内的系统、芯片也难以形成闭环生态。但DeepSeek的出现使得国内的模型超越了国外的模型,软硬件协同降低了算力成本,这套方法论可以打破现在的闭环生态瓶颈。

  戴国浩说,DeepSeek在论文中单独用2页文字提出对于未来硬件设计的发展建议,进一步佐证了模型、系统、硬件的闭环路线。国外的闭环AI生态始终是一个同构的AI系统,其核心竞争力就在于CUDA-X的垂直整合能力。因此,他认为,未来国内AI发展要通过调动跨越软硬件和上下游生态,加大模型、芯片、系统协同优化和垂直打通,例如根据新一代模型架构来定义未来芯片的底层电路实现、根据国产AI系统的互联通信方式设计高效的混合专家模型架构。

  “如何将国内的模型、系统和芯片形成自主可控的闭环,这是未来一定会发生的事。”戴国浩表示,DeepSeek的崛起对国产算力的发展是好消息。未来推理算力或将有2-3个数量级的提升。训练算力需求仍会有所增长。总体来看,算力需求会激增,成本会更高,但算力成本还有巨大压缩空间,单位算力成本将下降,效率得到提升。

 

  戴国浩判断,未来大模型的发展趋势,一是继续国产化,二是极致的软硬件协同优化带来成本下降,提升模型训练和应用的极致性价比。性价比越高,算力需求量就越大,算力越吃紧。当前中国算力生态存在供不应求和供过于求的双重矛盾,中国特有的AI基础设施格局是多模型和多芯片,存在大量异构算力,需要把他们变得能用、好用,在使用闭环中形成硬件和算法的正向循环。戴国浩表示,要通过软硬协同和多元异构压榨算力,降低获取强大基座模型的成本,解决算力缺口,以有限算力实现国产模型能力赶超。

最热新游

黄仁勋最新表态:存储芯片供应紧张的局面将持续数年

  当地时间6月7日,英伟达CEO黄仁勋在韩国表示,存储芯片供应紧张的局面将持续数年。

  另据韩国媒体报道,黄仁勋与SK集团会长崔泰源将于周一(6月8日)宣布合作计划。黄仁勋说:“我们的合作覆盖多个领域,包括人工智能超级计算机、中央处理器、新型个人电脑以及机器人(15.870, 0.30, 1.93%)技术。此次会面就是为敲定相关规划。”

  黄仁勋:内存短缺将持续数年

  6月7日,黄仁勋时隔七个月举行“Kkanbu聚会”。他当天造访了首尔三成洞的Kkanbu炸鸡店,去年他曾在此与三星电子会长李在镕、现代汽车集团会长郑义宣共享炸鸡啤酒。此次,他与SK集团高管们共饮啤酒。

  据韩国媒体报道,黄仁勋一行与SK集团会长崔泰源、SK海力士社长郭鲁正、SK电讯社长郑载贤同席而坐。餐桌上摆放着炸鸡拼盘、凯利啤酒瓶和烧酒瓶。SK高管们手撕炸鸡,黄仁勋与他们碰杯共饮生啤。

  在店内交谈约30分钟后,黄仁勋向店外的记者分发炸鸡,崔泰源则分发SK海力士“HBM芯片”零食袋。崔泰源还为部分市民持有的半导体基板模型签名。

  黄仁勋对媒体记者表示:“我们的合作覆盖多个领域,包括人工智能超级计算机、中央处理器、新型个人电脑以及机器人技术。此次会面就是为敲定相关规划,明日或将公布具体内容。”他补充道,“托尼(崔泰源)和我是非常亲密的朋友。”

  谈及全球存储芯片短缺问题时,黄仁勋指出:“我预计这种情况还将持续数年。”他说,“整个行业供应链,从晶圆、封装到硅光模块等环节均供应不足,根源在于市场需求居高不下。这一紧缺状况还会持续数年。”

  黄仁勋与崔泰源会长并肩而坐的位置,正是去年11月他会见李在镕和郑义宣的同一地点,两人还进行了“交杯酒”仪式。

  与此同时,崔泰源将于当地时间6月8日上午8时30分在首尔钟路区瑞麟大楼与黄仁勋再次会面。SK集团相关人士透露:“这将是30分钟的会议,在私下会晤后说明英伟达与SK之间的合作方向。”

  另据NewSis报道,黄仁勋和崔泰源将于8日上午直接向媒体宣布“SK-NVIDIA”合作计划。

  谈及与李在镕的会面,黄仁勋表示:“他正在出差。”并补充道:“几周前他来加州看我,我们共进了愉快的晚餐。”黄仁勋还暗示将于8日与三星电子副会长全永铉会面,当被问及相关问题时回应:“我很期待与他见面。”

  英伟达将在韩国设立研发中心

  据外媒7日报道,英伟达将在韩国设立研发(R&D)中心,目前已开始招聘相关人才。该中心预计将成为英伟达加强与韩国人工智能(AI)技术合作的重要据点。

  据报道,英伟达未来计划与三星、SK、现代汽车、LG等韩国主要企业携手强化AI供应链,并在机器人(Robotics)和物理AI(Physical AI)领域展开合作。

  黄仁勋表示,他此行为韩国带来了“众多商业机会”这一惊喜礼物,同时首次公开了英伟达在韩国建设研发中心的计划。此前,业界曾预测,黄仁勋此次访韩可能推动英伟达在韩国建立AI相关研发中心,如今这一计划已被正式确认。

  黄仁勋表示:“我们已经开始招聘相关人才,并计划在新的园区持续扩大招聘规模。待人才储备达到一定规模后,我们将立即启动研发中心建设。”

  他指出,人工智能、机器人技术以及先进制造业环境,是英伟达决定在韩国设立研发中心的重要原因。

  6月5日,黄仁勋发布了芯片行业的重要消息:三大存储巨头——三星电子、SK海力士和美光科技均已获准供应英伟达下一代Vera Rubin平台所需的最尖端高带宽存储器。

  黄仁勋此次访问正值三星电子和SK海力士的存储芯片需求激增之际,这为韩国的经济增长提供了支撑。

  作为英伟达HBM产品的主要供应商,SK海力士上个月市值突破了1万亿美元,加入竞争对手三星电子和美国美光科技的行列。

  近日,英伟达首席财务官科莱特·克雷斯在美国银行全球技术会议上的发言中指出,随着新一代芯片的推出,英伟达认为其可触达市场(addressable market,即潜在市场规模 )有望翻倍。

  美国银行在克雷斯发表主题演讲后重申了对这家芯片制造商的“买入”评级及350美元的目标价,该目标价较周五(6月5日)收盘价有70%的上涨空间。

  美国银行的分析师维韦克·阿里亚在报告中写道,英伟达凭借其新创新获得的增长空间十分可观。他援引英伟达的预测称,每一代新系统都能显著扩大公司的可触达市场:从当前Blackwell Ultra的每吉瓦约400亿美元,到Vera Rubin和Rubin Ultra的每吉瓦600亿至800亿美元,再到Feynman的每吉瓦约1000亿美元。

 

  阿里亚指出,尽管具体数字可能存在差异,但英伟达每一代都在覆盖AI系统中更多的环节。阿里亚还将英伟达称为“多元化之王”,这得益于其同时为超大规模企业以及日益增长的AI云、工业和企业公司提供服务的混合业务结构。