主題一:淺析:NVIDA GPU卡SXM和PCIe之間的差異性
1.?前言
PCIe(peripheral component interconnect express)是一種高速串行計(jì)算機(jī)擴(kuò)展總線標(biāo)準(zhǔn),是英特爾公司在2001年提出來(lái)的,它的出現(xiàn)主要是為了取代AGP接口,優(yōu)點(diǎn)就是兼容性比較好,數(shù)據(jù)傳輸速率高、潛力大。
SXM是英偉達(dá)公司設(shè)計(jì)出來(lái)的,它的出現(xiàn)主要是為高性能計(jì)算和數(shù)據(jù)中心提高更強(qiáng)的計(jì)算能力和傳輸速度。SXM接口的GPU通常是存在于DGX系統(tǒng)板上,該DGX系統(tǒng)板支持4張GPU-SXM或則8張GPU-SXM,而每個(gè)GPU之間通過(guò)NVLink進(jìn)行通信。
2.NVIDA GPU-SXM講解
NVIDA GPU-SXM主要是針對(duì)英偉達(dá)的高端GPU服務(wù)器,NVIDA GPU-SXM和NVIDA GPU-PCIe這兩種卡都能實(shí)現(xiàn)服務(wù)器的通信,但是實(shí)現(xiàn)的方式是不一樣的。SXM規(guī)格的一般用在英偉達(dá)的DGX服務(wù)器中,通過(guò)主板上集成的NVSwitch實(shí)現(xiàn)NVLink的連接,不需要通過(guò)主板上的PCIe進(jìn)行通信,它能支持8塊GPU卡的互聯(lián)互通,實(shí)現(xiàn)了GPU之間的高帶寬。
這里說(shuō)的NVLink技術(shù)不僅能夠?qū)崿F(xiàn)CPU和GPU直連,能夠提供高速帶寬,還能夠?qū)崿F(xiàn)交互通信,大幅度提高交互效率,從而滿足最大視覺(jué)計(jì)算工作負(fù)載的需求。
3.?NVIDA GPU-PCIe講解
把PCIe GPU卡插到PCIe插槽上,然后和CPU、同一個(gè)服務(wù)器上其他的GPU卡進(jìn)行通信,也可以通過(guò)網(wǎng)卡與其他的服務(wù)器節(jié)點(diǎn)上的設(shè)備進(jìn)行通信,這種就是PCIe的通信方式,但是這種傳輸速度不快。如果想要和SXM一樣,有很快的傳輸速度,可以使用NVlink橋接器實(shí)現(xiàn)GPU和CPU之間的通信,但是和SXM不一樣的地方就是它只能實(shí)現(xiàn)2塊GPU卡之間的通信。


4.?兩者的差異
性能
由于SXM使用了NVLink的技術(shù),與傳統(tǒng)的PCIe系統(tǒng)解決方案相比,它能夠?qū)崿F(xiàn)顯存和性能拓展,性能方面要比PCIe強(qiáng)得多。
我們來(lái)看看A100 80G SXM和A100 80GB PCIe的對(duì)比

我們可以從圖3中可以看出A100 80G SXM的GPU顯存帶寬是2039GB/S,而A100 80G PCIe的顯存帶寬是1935GB/S,SXM的帶寬是高于PCIe的帶寬。
PCIe版本可以通過(guò)lvlink橋接器來(lái)達(dá)到相同帶寬,但是PCIe只能實(shí)現(xiàn)2塊GPU卡之間的通信,而SXM能夠?qū)崿F(xiàn)而可以實(shí)現(xiàn)4GPU或則8GPU之間的通信。
?市面上的價(jià)格
就拿H800舉例,目前京東上,H800 80G PCIe是缺貨狀態(tài),市面上的價(jià)格在20萬(wàn)起。H800 80G SXM不接受單卡出售,接受整機(jī)定制。如果有需求的小伙伴,歡迎私信我們!我們是一家專(zhuān)門(mén)做定制化服務(wù)的工廠!
接口類(lèi)型
SXM是專(zhuān)為GPU設(shè)計(jì)的接口,而PCIe是一種通用的計(jì)算機(jī)總線接口。
連接方式
SXM接口是基于NVLink技術(shù)的互聯(lián)方式,能夠?qū)崿F(xiàn)多個(gè)GPU直接互聯(lián)。而PCIe接口是一個(gè)相對(duì)通信的協(xié)議,相比SXM來(lái)說(shuō),傳播速度會(huì)慢一些。
帶寬和延遲
SXM接口采用了NVLink的技術(shù),可以提供更高的帶寬和更低的延遲,可以加快GPU之間的數(shù)據(jù)傳輸。PCIe接口的帶寬和延遲相對(duì)來(lái)說(shuō),會(huì)低一些。數(shù)據(jù)傳輸速度沒(méi)有SXM接口那么快。
維護(hù)性
由于SXM的出現(xiàn),是具有針對(duì)性的,是專(zhuān)門(mén)為GPU設(shè)計(jì)的接口,所以能提供更好穩(wěn)定性和可靠維護(hù)性,減少系統(tǒng)故障發(fā)生的可能性,而PCIe是通用型接口,會(huì)容易受到系統(tǒng)中其他設(shè)備的影響,影響到系統(tǒng)的穩(wěn)定性和可靠性。
?
5.?超微支持的設(shè)備(H800為例)
Supermicro 擁有四款支持 H800-GPU-SXM 平臺(tái)

Supermicro 擁有三款支持 H800-GPU-PCIe 平臺(tái)

有不懂的地方,歡迎私信我們,一起學(xué)習(xí)交流進(jìn)步。Tel:18127760911
VX:Eddie18127760911
6.總結(jié)
大家可根據(jù)自己的應(yīng)用需求和系統(tǒng)配置,在預(yù)算內(nèi),選擇相對(duì)應(yīng)的接口類(lèi)型。