【轉(zhuǎn)】性能優(yōu)化挑戰(zhàn)重重,鯤鵬 HPC 如何突破算力桎梏?
性能優(yōu)化挑戰(zhàn)重重,鯤鵬 HPC 如何突破算力桎梏?
news2023/9/10 8:57:33
比起高性能計(jì)算(High Performance Computing,縮寫(xiě) HPC),很多人對(duì)“超級(jí)計(jì)算機(jī)”感覺(jué)更熟悉一些。但事實(shí)上,超級(jí)計(jì)算機(jī)就是 HPC 系統(tǒng)的最尖端水平。在全球超級(jí)計(jì)算機(jī) TOP500 中,位列榜首的美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的“頂點(diǎn)”系統(tǒng),其浮點(diǎn)運(yùn)算速度為每秒 14.86 億億次。而這份榜單的入圍門(mén)檻也是達(dá)到了每秒 1.14 千萬(wàn)億次的運(yùn)算速度。
如此強(qiáng)大的計(jì)算能力,究竟能為技術(shù)的應(yīng)用落地帶來(lái)什么?
看似陽(yáng)春白雪的 HPC 已走向平民化
不同于側(cè)重?cái)?shù)據(jù)密集型、I/O 密集型應(yīng)用的云計(jì)算,HPC 強(qiáng)大的算力可用于解決大規(guī)模科學(xué)問(wèn)題計(jì)算和海量數(shù)據(jù)的處理。早期 HPC 架構(gòu)和相關(guān)設(shè)備均為封閉機(jī)型和專(zhuān)屬架構(gòu),應(yīng)用也僅限于科學(xué)研究、航天航空、油田勘探等高精尖領(lǐng)域,因此,HPC 曾被喻為是 IT 行業(yè)“金字塔上的明珠”。隨著計(jì)算機(jī)技術(shù)的發(fā)展以及數(shù)據(jù)量和數(shù)據(jù)價(jià)值的不斷增加,HPC 的應(yīng)用領(lǐng)域在不斷擴(kuò)大,未來(lái)也將愈加“平民化”。
從目前來(lái)看,其應(yīng)用場(chǎng)景大致可分為以下三類(lèi):
計(jì)算密集型應(yīng)用(Computing-intensive):大型科學(xué)工程計(jì)算、數(shù)值模擬等。其應(yīng)用領(lǐng)域?yàn)槭?、氣象、CAE、核能、制藥、環(huán)境監(jiān)測(cè)分析、系統(tǒng)仿真等。
數(shù)據(jù)密集型應(yīng)用(Data-intensive):數(shù)字圖書(shū)館、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘及計(jì)算可視化等。其應(yīng)用領(lǐng)域?yàn)閳D書(shū)館、銀行、證券、稅務(wù)、決策支持系統(tǒng)等。
通信密集型應(yīng)用(Network-intensive):協(xié)同工作、網(wǎng)格計(jì)算、遙控和遠(yuǎn)程診斷等。其應(yīng)用領(lǐng)域:網(wǎng)站、信息中心、搜索引擎、電信、流媒體等。
總體來(lái)看,中國(guó)企業(yè)正處于數(shù)字化轉(zhuǎn)型的高速期,上云速度加快、數(shù)據(jù)量迅速增長(zhǎng),對(duì)大數(shù)據(jù)的利用能力已成為企業(yè)的核心競(jìng)爭(zhēng)力,企業(yè)對(duì) HPC 的需求程度前所未有的提升。那么,作為一項(xiàng)技術(shù)門(mén)檻高、落地復(fù)雜的系統(tǒng)工程技術(shù),HPC 在中國(guó)企業(yè)中的應(yīng)用真的進(jìn)入普及期了嗎?
HPC 應(yīng)用對(duì)計(jì)算速度有著極高的要求,這意味著這類(lèi)機(jī)群在系統(tǒng)的處理器、內(nèi)存帶寬、運(yùn)算方式、I/O、存儲(chǔ)等方面也都要追尋性能方面的極致。目前,也只有大規(guī)模的機(jī)構(gòu)才有能力建立獨(dú)有的 HPC 平臺(tái)的能力。
然而在互聯(lián)網(wǎng)時(shí)代,大企業(yè)追求輕資產(chǎn)化,努力實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,傳統(tǒng) HPC 平臺(tái)由于存在運(yùn)維成本高、擴(kuò)容難、資源利用率低、數(shù)據(jù)不流動(dòng)等問(wèn)題,難以適應(yīng)企業(yè)的業(yè)務(wù)發(fā)展,甚至成為了瓶頸。那么,企業(yè)如何使這些老舊的 HPC 系統(tǒng)變得更高效靈活?中小企業(yè)是否也能以較低的云成本將 HPC 引入業(yè)務(wù)?
HPC 應(yīng)用如何實(shí)現(xiàn)高性能?
“在高性能計(jì)算領(lǐng)域,由于計(jì)算量非常大,僅是提高很少量的百分點(diǎn)都能為企業(yè)帶來(lái)巨大的經(jīng)濟(jì)效益,這其中包括時(shí)間的縮短、成本的降低以及能耗的降低。所以在該領(lǐng)域下,業(yè)界普遍都在追求非常極致的性能、性?xún)r(jià)比與能耗比。這樣就迫使服務(wù)提供商要從應(yīng)用需求出發(fā),根據(jù)應(yīng)用的特點(diǎn)來(lái)設(shè)計(jì)硬件和軟件,然后再把這三者做無(wú)縫的整合,從而達(dá)到更高的性能?!?/p>
華為 IT 產(chǎn)品線(xiàn) HPC Lab 主任、HPC 首席技術(shù)專(zhuān)家丁肇輝在接受 InfoQ 采訪(fǎng)時(shí)表示。
提及 HPC 應(yīng)用的性能問(wèn)題,不同領(lǐng)域下的差異很大,通常企業(yè)用戶(hù)需要基于自身的應(yīng)用需求特征來(lái)進(jìn)行定制化匹配,通過(guò)一系列測(cè)試工具對(duì) HPC 系統(tǒng)進(jìn)行精細(xì)化的研究分析后,找到可以調(diào)整和優(yōu)化的部分,然后通過(guò)硬件升級(jí)、軟件性能調(diào)優(yōu)、應(yīng)用擴(kuò)展等不同方法來(lái)提高系統(tǒng)的整體性能,以期達(dá)到硬件系統(tǒng)與應(yīng)用之間的平衡。
在《通過(guò)鯤鵬全棧 HPC 軟件套件提升應(yīng)用性能》的演講中,丁肇輝將 HPC 應(yīng)用性能優(yōu)化分為四個(gè)層次:應(yīng)用、計(jì)算、I/O、通信,對(duì)應(yīng)的優(yōu)化手段如下:

應(yīng)用:由各個(gè)領(lǐng)域的科學(xué)家、軟件開(kāi)發(fā)專(zhuān)家基于各自領(lǐng)域的算法,對(duì)求解方法進(jìn)行創(chuàng)新,并采用不同的編程模型。
計(jì)算:影響計(jì)算的主要是軟件技術(shù),如編譯器、Runtime 和數(shù)學(xué)庫(kù),可以從三個(gè)入手進(jìn)行優(yōu)化,也可通過(guò)異構(gòu)加速來(lái)提升計(jì)算效率。
I/O:通常 HPC 并行任務(wù)的并發(fā) I/O 操作不應(yīng)采用簡(jiǎn)單的 POSIX I/O,而應(yīng)選擇 MPI-IO。此外,對(duì)存儲(chǔ)硬件進(jìn)行優(yōu)化也可以提高 I/O 的效率 。
通信:MPI 是最常用的 HPC 通信接口,MPI 集合通信、RDMA 等技術(shù)都適用于大規(guī)模并行計(jì)算機(jī)集群,可有效構(gòu)建高性能、低延遲的存儲(chǔ)網(wǎng)絡(luò)。當(dāng)然,對(duì)網(wǎng)絡(luò)設(shè)備的優(yōu)化也不能忽視。
不容忽視的軟件調(diào)優(yōu)
雖然很多性能問(wèn)題都可以通過(guò)硬件配置的升級(jí)或優(yōu)化得到解決,但軟件調(diào)優(yōu)部分也決不能忽視。
丁肇輝解釋道:“HPC 其實(shí)服務(wù)的是科學(xué)計(jì)算,由于科學(xué)計(jì)算的領(lǐng)域差異很大,導(dǎo)致其應(yīng)用特征差異也較大。因此如果要設(shè)計(jì)出能夠覆蓋各種場(chǎng)景下應(yīng)用計(jì)算需求的硬件,其實(shí)難度還是非常大的。所以在硬件盡可能突破極致性能的同時(shí),也需要軟件接入來(lái)確保一定層面上的靈活性?!?/p>
從開(kāi)始設(shè)計(jì)到最終完成,軟件優(yōu)化在整個(gè)軟件開(kāi)發(fā)周期中都將起到連續(xù)迭代的作用。
“在假定硬件不變的前提下,計(jì)算角度的優(yōu)化目標(biāo)就是將 CPU 的算力發(fā)揮出來(lái),消除內(nèi)存墻等常見(jiàn)問(wèn)題。
通信層面的優(yōu)化則以減少網(wǎng)絡(luò)擁塞為目的,盡量能夠讓計(jì)算和通信的過(guò)程能夠疊加,一邊計(jì)算一邊做通信。
I/O 的瓶頸與訪(fǎng)存類(lèi)似,就是盡可能利用更快速、更低時(shí)延的存儲(chǔ)來(lái)達(dá)到一定的目的。但是由于其容量較低,需要考慮如何在多級(jí)的存儲(chǔ)之間做切換。另一方面是要盡可能發(fā)揮 I/O 并行度的優(yōu)勢(shì)。通常 HPC 的存儲(chǔ)節(jié)點(diǎn)是分布式的,能夠把分布式的多個(gè)存儲(chǔ)節(jié)點(diǎn)都發(fā)揮出來(lái),來(lái)實(shí)現(xiàn)并行 I/O?!?/p>
而需要解決這三個(gè)層面的問(wèn)題,華為主要從架構(gòu)和算法兩個(gè)方面進(jìn)行創(chuàng)新:
1、MPI底層架構(gòu)優(yōu)化
高性能計(jì)算之所以能達(dá)到極高的計(jì)算速度,是因?yàn)樵谠摷荷线\(yùn)行的應(yīng)用程序一般使用并行算法,把一個(gè)大的普通問(wèn)題根據(jù)一定的規(guī)則分為許多小的子問(wèn)題,在集群內(nèi)的不同節(jié)點(diǎn)上進(jìn)行計(jì)算,而這些小問(wèn)題的處理結(jié)果,經(jīng)過(guò)處理可合并為原問(wèn)題的最終結(jié)果。由于這些小問(wèn)題的計(jì)算一般是可以并行完成的,從而可以縮短問(wèn)題的處理時(shí)間。
目前,國(guó)內(nèi)外在高性能計(jì)算機(jī)系統(tǒng)中,最廣泛使用的并行編程環(huán)境是 MPI(Message Passing Interface),它也已成為國(guó)際上的一種并行程序的標(biāo)準(zhǔn)。OpenMPI(open Message Passing Interface)是流行的開(kāi)源 MPI 之一,具有模塊化涉及、易于擴(kuò)展等特點(diǎn)。

在 Open MPI 底層架構(gòu)中,UCX 實(shí)現(xiàn)了針對(duì)多種協(xié)議的優(yōu)化的點(diǎn)對(duì)點(diǎn)通信。不過(guò)由于 UCX 將集合操作轉(zhuǎn)化為點(diǎn)對(duì)點(diǎn)通信的組合,很多對(duì)于點(diǎn)對(duì)點(diǎn)操作的初始化邏輯是多余的。對(duì)此,在華為 MPI 中,引入 UCG(Unified Communication)的概念,對(duì) UCX 框架進(jìn)行了重構(gòu)。根據(jù)丁肇輝在演講中的介紹,UCG 把集合操作定義在 UCX 層,使 UCX 通信的初始化邏輯從 Per message operation 變?yōu)?Per collective operation,可以讓軟件在更底層感知到集合通信,從而節(jié)省很多軟件上的開(kāi)銷(xiāo),包括程序的初始化、數(shù)據(jù)結(jié)構(gòu)的創(chuàng)建等操作。據(jù)了解,目前 UCG 已開(kāi)源,且已經(jīng)被社區(qū)接受。
總體而言,華為 MPI 具有以下幾個(gè)特點(diǎn):
基于開(kāi)源 Open MPI 實(shí)現(xiàn);
通信算法基于 Open UCX 進(jìn)行重構(gòu)和優(yōu)化;
支持鯤鵬系列處理器與 x86 CPU;
針對(duì)華為硬件的算法優(yōu)化、硬件卸載;
與華為自研軟件與業(yè)界流行軟件無(wú)縫集成。
2、基于UCG算法的創(chuàng)新
基于并行計(jì)算的高性能系統(tǒng)需要保持計(jì)算和通信性能的平衡性,其中,集合通信是通信系統(tǒng)的重要組成部分,負(fù)責(zé)進(jìn)程之間的數(shù)據(jù)操作和同步操作。當(dāng)并行應(yīng)用的規(guī)模越來(lái)越大時(shí),所使用的處理器的規(guī)模也越來(lái)越大,集合通信組內(nèi)部進(jìn)程之間的通信量相應(yīng)增大,且需要相互協(xié)作完成通信語(yǔ)義,因此集合通信往往成為系統(tǒng)的性能瓶頸,需要優(yōu)化集合通信以提高整體系統(tǒng)性能。
在演講中,丁肇輝老師介紹了對(duì)集合通信算法的優(yōu)化,分為節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間兩部分。在節(jié)點(diǎn)內(nèi),結(jié)合共享內(nèi)存技術(shù)和 CPU 內(nèi)部的拓?fù)涓兄?,華為對(duì) MPI_bcast 進(jìn)行了優(yōu)化,見(jiàn)下圖:

在 NUMA 架構(gòu)下,對(duì)于同一塊內(nèi)存,節(jié)點(diǎn)內(nèi)多個(gè)處理器的訪(fǎng)問(wèn)效率通常是不均衡的,此時(shí)可以通過(guò)多個(gè)共享內(nèi)存塊和 Flag 提高效率。
在節(jié)點(diǎn)間,華為對(duì) B-nominal 算法進(jìn)行了升級(jí),提出“K-nominal 算法”,如下圖:


K-nominal 算法具有更好的普適性,Bcast 算法可通過(guò) LogkN 階段通信完成,配合節(jié)點(diǎn)內(nèi)共享內(nèi)存算法可以達(dá)到最優(yōu)通信效果。尤其是在 OpenMPI 下通過(guò)算法來(lái)自動(dòng)調(diào)整通信包大小、規(guī)模以及正確的 k 值,K-nominal 的表現(xiàn)要比 B-nomial 這樣一個(gè)典型的分級(jí)分步驟的集合通信算法來(lái)說(shuō),效果更好。
根據(jù)丁肇輝的介紹,經(jīng)過(guò)小包測(cè)試后,華為 MPI 在 x86 上相較于 OpenMPI 提高了 2 倍以上,在鯤鵬上也提高了 2 倍。

鯤鵬 HPC 軟件套件還將進(jìn)行怎樣的完善和迭代?
鯤鵬 HPC 在 2020 年將會(huì)發(fā)布一套完整的軟件棧體系;目前來(lái)看,比較受業(yè)內(nèi)關(guān)注的 MPI 和調(diào)度器這兩個(gè)組件將是近期更新的重點(diǎn)。而編譯器的版本則會(huì)相對(duì)穩(wěn)定一些。以調(diào)度器為例,由于存在很多和用戶(hù)之間產(chǎn)生直接交互的復(fù)雜功能,所以需要時(shí)刻關(guān)注用戶(hù)的反饋,根據(jù)用戶(hù)所提出的不同需求來(lái)進(jìn)行版本迭代,因此為了適應(yīng)用戶(hù)的新需求會(huì)加速該版本的迭代。
突破性能極限,未來(lái)更值得期待
軟件優(yōu)化固然重要,但來(lái)自底層的革新才能突破性能極限。
早年間,支撐 HPC 高速運(yùn)轉(zhuǎn)的 CPU 均基于 x86 架構(gòu),而過(guò)多考慮功耗層面的 ARM 因在效能表現(xiàn)上無(wú)法滿(mǎn)足應(yīng)用場(chǎng)景的極致計(jì)算需求,在市場(chǎng)上總是叫好不叫座。隨著摩爾定律作為行業(yè)標(biāo)桿的鐵律越來(lái)越難以為繼,x86 體系遭遇瓶頸。加之 ARM 在功耗和效能之間又在不斷取得更高的平衡,數(shù)據(jù)中心高效節(jié)能的市場(chǎng)訴求也愈加強(qiáng)烈,此前不被看好的架構(gòu)開(kāi)始在服務(wù)器市場(chǎng)發(fā)揮影響力,特別是 HPC 服務(wù)器市場(chǎng)。
2019 年 1 月,華為重磅推出自主研發(fā)且基于 ARM 架構(gòu)的鯤鵬 920 芯片,該芯片具備業(yè)界頂尖的制程工藝、集成 8 通道 DDR4。由于采用“眾核”架構(gòu),鯤鵬 920 可以做到最高 64 個(gè)物理 CPU 核,尤其適合大規(guī)模并行的計(jì)算場(chǎng)景。
基于此,華為以高性能服務(wù)器、大容量存儲(chǔ)為基礎(chǔ),推出了端到端的高性能計(jì)算解決方案,包括基礎(chǔ)設(shè)施、硬件資源、系統(tǒng)環(huán)境、集群管理、服務(wù)平臺(tái)、行業(yè)應(yīng)用等方面,讓整個(gè) HPC 的應(yīng)用系統(tǒng)達(dá)到最佳的性能。而無(wú)論是服務(wù)器,還是編譯器、MPI、調(diào)試器、函數(shù)庫(kù)等基礎(chǔ)軟件,均可與企業(yè)原有的配置兼容,并實(shí)現(xiàn)性能上的優(yōu)化和提升。

鯤鵬 HPC 全棧
IT 應(yīng)用開(kāi)發(fā)部署直接決定著企業(yè)數(shù)字化創(chuàng)新的能力,這將會(huì)有效地觸發(fā) HPC 應(yīng)用量的急劇增加,同時(shí),應(yīng)用的多線(xiàn)程和高并發(fā)技術(shù)走向,也將催生出更多的 HPC 需求。而隨著高性能計(jì)算應(yīng)用的日益廣泛和深入,高性能計(jì)算系統(tǒng)技術(shù)創(chuàng)新、計(jì)算環(huán)境創(chuàng)新與應(yīng)用創(chuàng)新等各個(gè)層面還將遇到新的挑戰(zhàn)與機(jī)遇。為了讓鯤鵬 HPC 更好地服務(wù)于各行各業(yè),華為將在 HPC 領(lǐng)域進(jìn)行長(zhǎng)期的技術(shù)投入,包括:
平臺(tái)層:計(jì)算系統(tǒng)(x86、TaiShan)、下一代 NAS 存儲(chǔ)系統(tǒng)、網(wǎng)絡(luò)互聯(lián)(低時(shí)延技術(shù));
中間件:華為 MPI、工具鏈、集群管理、作業(yè)調(diào)度;
上層應(yīng)用:氣象 & 海洋、制造、計(jì)算化學(xué)、生命科學(xué)、油 & 氣、AI 等領(lǐng)域。
我們有理由相信,這顆 IT 行業(yè)“金字塔上的明珠”在底層的革新中,將發(fā)揮更大的價(jià)值。
作者 | 王曉青
原文地址:https://huaweicloud.blog.csdn.net/article/details/105240993?
鯤鵬HPC
鯤鵬使能HPC全棧,面向行業(yè)應(yīng)用場(chǎng)景,提供最優(yōu)的HPC集群解決方案
HPC解決方案架構(gòu)
HPC行業(yè)生態(tài)
HPC集群管理與調(diào)度
HPC基礎(chǔ)軟件
HPC基礎(chǔ)硬件
鯤鵬HPC多瑙套件 體驗(yàn)Demo
伙伴案例
學(xué)習(xí)實(shí)踐
支持與反饋
【版本發(fā)布】?Hyper MPI 1.3.0版本發(fā)布,新增了Allgatherv、Scatterv集合操作的優(yōu)化
2023/06/30
【版本發(fā)布】?鯤鵬HPC 22.0.0.SPC005補(bǔ)丁版本發(fā)布
2023/07/24
【版本發(fā)布】?鯤鵬HPC 23.0.RC1正式版本發(fā)布,重點(diǎn)發(fā)布Donau Portal、Donau Scheduler配套特性
2023/06/30
【版本發(fā)布】?Hyper MPI 1.3.0版本發(fā)布,新增了Allgatherv、Scatterv集合操作的優(yōu)化
2023/06/30
【版本發(fā)布】?鯤鵬HPC 22.0.0.SPC005補(bǔ)丁版本發(fā)布
2023/07/24
更多公告
HPC 解決方案架構(gòu)
HPC聚焦資源調(diào)度效率低、應(yīng)用性能優(yōu)化難等關(guān)鍵挑戰(zhàn),通過(guò)全棧架構(gòu)創(chuàng)新、軟硬件自研、基礎(chǔ)軟件優(yōu)化和行業(yè)應(yīng)用性能調(diào)優(yōu)等技術(shù)構(gòu)建全棧高性能計(jì)算基礎(chǔ)平臺(tái),幫助客戶(hù)釋放平臺(tái)算力,縮短產(chǎn)品上市周期,提升企業(yè)產(chǎn)品競(jìng)爭(zhēng)力。
架構(gòu)簡(jiǎn)介
HPC總體架構(gòu)由基礎(chǔ)設(shè)施、硬件平臺(tái)、基礎(chǔ)軟件、集群管理與調(diào)度軟件和行業(yè)應(yīng)用組成。
行業(yè)應(yīng)用
當(dāng)前可以支持并應(yīng)用的行業(yè),包含氣象、制造、EDA、政府HPC、教育科研、生命科學(xué);對(duì)于開(kāi)源行業(yè)應(yīng)用,可以通過(guò)?鯤鵬代碼遷移工具?加快軟件遷移效率,通過(guò)?鯤鵬性能分析工具?分析HPC性能指標(biāo),定位瓶頸點(diǎn)
集群管理與調(diào)度
提供統(tǒng)一高效的集群計(jì)算多瑙套件(多瑙管理平臺(tái)和多瑙調(diào)度器)
基礎(chǔ)軟件
提供或兼容通信庫(kù)(Hyper MPI)、畢昇編譯器、鯤鵬KML數(shù)學(xué)庫(kù)、openEuler/其他操作系統(tǒng)
硬件平臺(tái)
提供多樣化的計(jì)算資源、高性能存儲(chǔ)及主流高速網(wǎng)絡(luò)
基礎(chǔ)設(shè)施
提供模塊化的數(shù)據(jù)中心
HPC 行業(yè)生態(tài)
行業(yè)TOP應(yīng)用已完成鯤鵬驗(yàn)證,可覆蓋80%算力空間

氣象
氣候/氣象/海洋/環(huán)境
核心應(yīng)用 WRF/ROMS/NEMO
了解更多

生命科學(xué)
基因測(cè)序/冷凍電鏡/制藥
核心應(yīng)用 GATK/BWA/Bowtie/Relion/Amber
了解更多

制造
流體力學(xué)/電磁設(shè)計(jì)/多物理場(chǎng)模擬
核心應(yīng)用 OpenFOAM/SU2
了解更多

教育科研
分子動(dòng)力學(xué)/量子化學(xué)
核心應(yīng)用 VASP/Lammps/Gromacs/QE/CP2K
了解更多

HPC軟件倉(cāng)庫(kù)
主流HPC軟件可執(zhí)行文件,涵蓋氣象海洋、制造仿真、生命科學(xué)、基礎(chǔ)科研等領(lǐng)域

軟件兼容性查詢(xún)工具
更多HPC開(kāi)源軟件兼容性請(qǐng)?jiān)L問(wèn)軟件兼容性查詢(xún)工具
HPC 集群管理與調(diào)度
多瑙管理平臺(tái)
多瑙調(diào)度器
多瑙管理平臺(tái)
多瑙管理平臺(tái)是華為全自研的HPC集群管理平臺(tái),通過(guò)可視化界面為用戶(hù)提供了便捷的HPC集群系統(tǒng)數(shù)據(jù)管理和軟硬件資源管理功能,串聯(lián)整個(gè)工作流程,幫助用戶(hù)合理地進(jìn)行作業(yè)調(diào)度和資源分配,提升集群系統(tǒng)計(jì)算能力利用率。
價(jià)值優(yōu)勢(shì)
1、操作系統(tǒng)桌面風(fēng)格:Web界面桌面風(fēng)格布局,多窗口多任務(wù)高效操作
2、設(shè)計(jì)計(jì)算一體化:支持基于Linux平臺(tái)的遠(yuǎn)程2D/3D可視化,打通設(shè)計(jì)與計(jì)算全流程
3、資源分析與監(jiān)控:多維度分析集群運(yùn)行歷史,實(shí)時(shí)監(jiān)控集群資源使用
4、異構(gòu)多集群管理:同時(shí)管理多瑙調(diào)度集群和第三方調(diào)度集群,數(shù)據(jù)與資源統(tǒng)一管理
關(guān)鍵技術(shù)
1、支持Linux 2D/3D展示,用戶(hù)可通過(guò)Web界面進(jìn)行數(shù)據(jù)遠(yuǎn)程處理
2、可視化拖拽進(jìn)行提交表單布局,簡(jiǎn)化用戶(hù)配置
3、元數(shù)據(jù)驅(qū)動(dòng)界面展示,靈活定義報(bào)表和監(jiān)控視圖,易于擴(kuò)展
4、安全的跨集群數(shù)據(jù)傳輸
軟件下載查看文檔
HPC 基礎(chǔ)軟件
Hyper MPI
畢昇編譯器
鯤鵬數(shù)學(xué)庫(kù)
Hyper MPI
性能提升
Hyper MPI是基于Open MPI 4.1.1和Open UCX 1.10.1,支持MPI-V3.1標(biāo)準(zhǔn)的并行計(jì)算API接口,新增了優(yōu)化的集合通信框架。同時(shí),Hyper MPI對(duì)數(shù)據(jù)密集型和高性能計(jì)算提供了網(wǎng)絡(luò)加速能力,使能了節(jié)點(diǎn)間高速通信網(wǎng)絡(luò)和節(jié)點(diǎn)內(nèi)共享內(nèi)存機(jī)制,以及優(yōu)化的集合通信算法。Hyper MPI的UCX COLL通信框架能夠支持的最大數(shù)據(jù)包長(zhǎng)度為2^32字節(jié)。
價(jià)值優(yōu)勢(shì)
1、Allreduce性能,小包接口時(shí)延降低60%,中包接口時(shí)延降低3倍
2、Bcast性能,小包接口時(shí)延降低79%
3、Barrier性能,時(shí)延降低66%
4、Alltoallv性能,降低中小包接口時(shí)延,端到端收益7%
關(guān)鍵技術(shù)
1、拓?fù)涓兄惴?/p>
2、Tree類(lèi)算法實(shí)現(xiàn)集合通信加速
3、Ring算法加速大包集合通信
4、Plummer&Ladd算法
5、Rabenseifner算法
了解詳情
適用范圍
適用于高性能計(jì)算通用場(chǎng)景。
HPC 基礎(chǔ)硬件
TaiShan 200服務(wù)器
2280均衡型
2個(gè)鯤鵬920處理器
2個(gè)xPU
TaiShan 200服務(wù)器
1280高密型
2個(gè)鯤鵬920處理器
鯤鵬HPC多瑙套件 體驗(yàn)Demo
操作體驗(yàn)
功能介紹
多瑙套件 操作體驗(yàn)Demo
通過(guò)多瑙套件完成應(yīng)用中心、監(jiān)控中心、報(bào)表中心、計(jì)費(fèi)中心操作;同時(shí)進(jìn)行設(shè)計(jì)計(jì)算一體化,全流程體驗(yàn)。
* Demo登錄:用戶(hù)名 admin/密碼 admin
立即體驗(yàn)
伙伴案例
中國(guó)科學(xué)技術(shù)大學(xué)超級(jí)計(jì)算中心平臺(tái)
面向中國(guó)科學(xué)技術(shù)大學(xué)所有學(xué)科的用戶(hù)提供科學(xué)與工程計(jì)算服務(wù),構(gòu)建海量數(shù)據(jù)處理的高IO性能計(jì)算模擬系統(tǒng),集群采用全液冷散熱,機(jī)房整體空間降低50%,實(shí)現(xiàn)更高能效比,基于鯤鵬的OpenFoam應(yīng)用性能提升20%,助力中科大的科研創(chuàng)新。
學(xué)習(xí)實(shí)踐
實(shí)驗(yàn)
在鯤鵬BMS上進(jìn)行WRF部署與性能優(yōu)化
Rated 5 stars out of 5
2小時(shí)
757
微認(rèn)證
基于鯤鵬HPC解決方案的應(yīng)用實(shí)踐