英偉達(dá)H100體系800G光模塊需求幾何?
在英偉達(dá)DGX H100 SuperPOD最新的NVLink Switch架構(gòu)算力架構(gòu)下,GPU+NVLink+NVSwitch+NVLink交換機(jī)的架構(gòu)需要大量800G通信連接方案, NVLink系統(tǒng)大致可對應(yīng)GPU與800光模塊1:4-1:5的數(shù)量關(guān)系,IB NDR網(wǎng)絡(luò)則需要更多。
英偉達(dá)占訓(xùn)練推理環(huán)節(jié)GPU幾乎90%以上份額,在DGX H100 SuperPOD架構(gòu)引入更高速NVLink方案,且用NVLink和InfiniBand的PCIe兩套體系解決通信問題。盡管目前InfiniBand NDR網(wǎng)絡(luò)是主流,但新的NVLink Switch的架構(gòu)在H100硬件基礎(chǔ)上,在某些AI場景下可以貢獻(xiàn)比IB網(wǎng)絡(luò)接近翻倍的性能。AI發(fā)展的基礎(chǔ)是算力提升,預(yù)計極致性能和極致功耗是未來硬件架構(gòu)發(fā)展的主要驅(qū)動,預(yù)計400G/800G以上速率的網(wǎng)絡(luò)方案將加速放量。 在H100最新的NVLink Switch架構(gòu)下試算,單服務(wù)器NVLink下需要18對、36個osfp,也就是36個800G;一個POD集群的32臺服務(wù)器則需要36x32=1152個800G光模塊。若不采用NVLink Switch架構(gòu)或者需要多集群擴(kuò)容,需要使用InfiniBandNDR網(wǎng)絡(luò),則采用傳統(tǒng)葉脊雙層架構(gòu),需要800G+2x400G(NDR)的方案,數(shù)量關(guān)系可參考普通集群,核心是系統(tǒng)內(nèi)帶寬激增,依據(jù)不同規(guī)模可另外計算。