首页 景点排名文章正文

OpenAI抢GPU“煎熬”?微软GB300超算救场,数天训万亿LLM

景点排名 2025年10月12日 22:35 2 cc

最近OpenAI内部有点“热闹”,不是要发布新模型,而是各个团队为了抢GPU吵得不可开交。

OpenAI抢GPU“煎熬”?微软GB300超算救场,数天训万亿LLM

总裁GregBrockman之前在“MatthewBerman”播客里吐槽,说管GPU分配这事儿,简直让他揪心又累人。

老实讲,OpenAI今年也没少砸钱,一共投了70亿在算力上。

本来以为这笔钱能撑一阵子,后来发现大模型训练太“吃”算力,50亿都砸进研发训练里了,剩下20亿只用在推理计算上。

这么看,LLM训练就像个无底洞,也难怪他们一边内部抢资源,一边忙着找外面的合作方。

OpenAI抢GPU“煎熬”?微软GB300超算救场,数天训万亿LLM

员工对GPU的在意程度,说出来可能有人不信,谁都想把算力拿到自己项目里,毕竟有了GPU,才能把那些“绝妙的点子”落地。

OpenAI也没办法,只能把算力分成“研究”和“应用产品”两块,等一个项目快结束了,首席产品官KevinWeil再把硬件资源调给新项目。

这套机制看着清楚,但架不住需求多,有时候真的是拆东墙补西。

OpenAI抢GPU“煎熬”?微软GB300超算救场,数天训万亿LLM

微软送“算力巨兽”:4600多块GPU,数天训完万亿模型

就在OpenAI为GPU头疼的时候,老搭档微软出手了,纳德拉直接官宣,给OpenAI送了台全球独一份的超算,里面装了4600多块GB300NVL72,未来还打算加到十万块GPU。

这超算可不是随便攒的,它是在之前GB200v6虚拟机的基础上升级的,而GB200v6早就在OpenAI里用过,效果还不错。

这次的GB300v6更狠,每个机架里塞了18个虚拟机,一共72个GPU。

OpenAI抢GPU“煎熬”?微软GB300超算救场,数天训万亿LLM

通过专门的NVLink和NVSwitch,机架里的数据传输速率能到130TB/s,还带了37TB的高速内存,以前的内存瓶颈直接没了。

像那些长上下文的AI任务,现在推理速度快了不少,AI智能体响应也更及时。

网络方面也下了血本,用了最快的Quantum-X800Gbp/sInfiniBand,搭了个“全连接胖树”架构,能跨机架连数万个GPU。

OpenAI抢GPU“煎熬”?微软GB300超算救场,数天训万亿LLM

散热也考虑到了,搞了独立的“散热器单元”,还配了设施级冷却方案,既保证机器稳定,又不浪费水,这点比不少老超算强。

更重要的是软件层面,微软把存储、编排、调度的软件栈全重构了,要是软件跟不上,硬件再强也是白搭,现在这套优化后的软件,能把超算的性能全发挥出来。

英伟达说,有了这台超算,OpenAI训万亿参数的模型,不用等好几周,几天就能搞定,这速度,简直是给OpenAI插上了翅膀。

OpenAI抢GPU“煎熬”?微软GB300超算救场,数天训万亿LLM

AI圈的“算力军备赛”:谁有GPU,谁就有话语权

微软这波操作,其实也把AI圈的“算力军备赛”推得更激烈了,不止OpenAI,其他巨头早就动起来了。

Meta的扎克伯格之前就说,要把“人均算力”当成核心优势;谷歌搞了TPUv5e集群,主打性价比;亚马逊AWS也出了Trainium芯片,专门优化推理成本。

OpenAI自己也没闲着,奥特曼上个月说要搞“算力密集型服务”。

OpenAI抢GPU“煎熬”?微软GB300超算救场,数天训万亿LLM

本来以为他们是想省点算力,后来发现其实是想把更多算力砸进新想法里,毕竟GPU数量直接决定AI能做多少事,手里的算力多了,才能试更多新方向。

不过说实话,现在的AI竞争早就不是只比算法了,谁手里有更多算力,谁就能先把模型训出来,抢占先机。

但也不能只堆算力不搞创新,要是光拼硬件不琢磨新玩法,早晚得被别人超过。

OpenAI抢GPU“煎熬”?微软GB300超算救场,数天训万亿LLM

像未来的多模态AI、AI智能体,肯定需要更多算力,但也得有匹配的技术创新,不然再多GPU也没用。

OpenAI的算力困境不是个例,是整个AI圈都要面对的问题,微软的超算帮它解了燃眉之急,但后续还得靠自己平衡算力和创新。

OpenAI抢GPU“煎熬”?微软GB300超算救场,数天训万亿LLM

毕竟在AI这条路上,光有算力不够,能把算力用在刀刃上,想出更多实用的AI玩法,才是真本事。

未来谁能在算力储备和技术创新之间找到平衡点,谁就能在AI竞赛里走得更远。

发表评论

vv号 网站地图 Copyright © 2013-2024 vv号. All Rights Reserved.