【轉(zhuǎn)】高性能計算HPC入門十問

高性能計算HPC入門十問

Julian
創(chuàng)作聲明:內(nèi)容包含虛構(gòu)創(chuàng)作
現(xiàn)象級的ChatGPT,帶火了高性能算力需求,在機(jī)器學(xué)習(xí)/深度學(xué)習(xí)應(yīng)用域, HPC 應(yīng)用已成為 AI 應(yīng)用的代名詞,AI 奇點時刻的來臨以及其與 HPC 深度融合,讓我不得不更新HPC筆記。
1、什么是高性能計算/ HPC
High Performance Computing, HPC是一種技術(shù)[i],它使用并行工作的強(qiáng)大處理器集群,處理海量多維數(shù)據(jù)集(大數(shù)據(jù)),并以極高的速度解決復(fù)雜問題?!緜€人定義】不用把HPC理解成一個系統(tǒng)或者超級計算機(jī),就理解成并行計算、集群計算以及網(wǎng)格分布式計算技術(shù)就好。 HPC 非常適合需要高性能數(shù)據(jù)分析的各種應(yīng)用程序,例如高頻交易、仿真模擬、計算機(jī)輔助設(shè)計、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等。
2、高性能/HPC到底是指什么
【簡單說】一般認(rèn)為HPC 系統(tǒng)的運(yùn)行速度通常要比商用臺式機(jī)、筆記本電腦或服務(wù)器系統(tǒng)快一百萬倍以上。
當(dāng)我們談?wù)摳咝阅苡嬎銜r,性能一般是指計算系統(tǒng)及時處理大量數(shù)據(jù)或進(jìn)行復(fù)雜計算的能力。 HPC 系統(tǒng)通常設(shè)計用于處理極大的工作負(fù)載并高速執(zhí)行計算,這使非常適合科學(xué)研究、金融建模和其他計算密集型任務(wù)等應(yīng)用程序。在衡量 HPC 系統(tǒng)的性能時,通常會考慮幾個因素,包括:
處理器性能:指系統(tǒng)中中央處理器(CPU)或圖形處理器(GPU)的處理能力。 HPC 系統(tǒng)通常使用多個并行工作的處理器來提高處理能力。
內(nèi)存性能:這是指系統(tǒng)內(nèi)存(RAM)的速度和容量。 HPC 系統(tǒng)通常需要大量內(nèi)存來支持復(fù)雜的計算和大型數(shù)據(jù)集。
I/O 性能:這是指數(shù)據(jù)可以從系統(tǒng)的存儲設(shè)備輸入和輸出的速度。 HPC 系統(tǒng)通常需要高速存儲設(shè)備來支持大型數(shù)據(jù)集的快速處理。
網(wǎng)絡(luò)性能:這是指連接 HPC 系統(tǒng)各個組件的網(wǎng)絡(luò)的速度和容量。 高速網(wǎng)絡(luò)在 HPC 系統(tǒng)中對于支持多個處理器和存儲設(shè)備之間的通信至關(guān)重要。
小結(jié)一下,在 HPC 中性能是一個多方面的概念,涵蓋了很多因素,包括處理器、內(nèi)存、I/O 和網(wǎng)絡(luò)性能。HPC 系統(tǒng)的目標(biāo)是優(yōu)化所有這些因素,為需要執(zhí)行的特定任務(wù)或應(yīng)用程序提供最高級別的性能。
3、HPC系統(tǒng)和超級計算機(jī)有什么關(guān)系
HPC(高性能計算)和超級計算機(jī)這兩個術(shù)語經(jīng)常互換使用,并且沒有明確的定義來區(qū)分它們。 一般來說,超級計算機(jī)被認(rèn)為是最大、最強(qiáng)大的 HPC 系統(tǒng)類型。在硬件方面,超級計算機(jī)通常具有大量計算節(jié)點和高速互連,以及 GPU 或 FPGA 等專用處理器。 它們還可能包括用于加速特定類型計算的專用硬件,例如量子計算或人工智能。
超級計算機(jī)通常用于需要大量處理能力、內(nèi)存和存儲的科學(xué)和技術(shù)計算應(yīng)用程序。 示例包括氣候建模、天體物理學(xué)模擬和藥物發(fā)現(xiàn)??偟膩碚f,雖然 HPC 和超級計算之間沒有明確的區(qū)別,但超級計算機(jī)通常被認(rèn)為是最大和最強(qiáng)大的 HPC 系統(tǒng)類型,用于要求最苛刻的科學(xué)和技術(shù)計算應(yīng)用程序。
4、典型的HPC集群規(guī)模
2022年12月中國高性能計算學(xué)術(shù)年會(CCF HPC China 2022)上發(fā)布了一份《開放架構(gòu)HPC技術(shù)與生態(tài)白皮書》[ii]。里面記錄了19個用戶ARM架構(gòu)HPC平臺的規(guī)模,我摘錄幾個用戶的情況你自己感受一下。
用戶平臺規(guī)模平臺軟件其他上海交通大學(xué)“交我算”校級計算平臺“交我算”鯤鵬超算共100個計算節(jié)點,節(jié)點采用雙路華為鯤鵬920處理器(64核),每個計算節(jié)點擁有128核處理器和256GB內(nèi)存,總計12800核,系統(tǒng)的理論雙精度峰值性能達(dá)133TFLOPS提供18款常用的高性能計算軟件開放使用,覆蓋了材料科學(xué)、生命科學(xué)、大氣科學(xué)和流體力學(xué)4大高性能計算應(yīng)用領(lǐng)域鯤鵬集群的平均利用率約為41.2%,共服務(wù)了校內(nèi)74個課題組,計算作業(yè)數(shù)量超100萬個蘭州大學(xué)超算中心鯤鵬HPC集群2020年6月投入使用,一共20個節(jié)點,每個節(jié)點采用兩顆華為鯤鵬920處理器,每顆主頻2.6GHz,48核心,512GB內(nèi)存,總核數(shù)1960,節(jié)點之間為100Gb InfiniBand計算網(wǎng)絡(luò)目前集群上部署過氣象預(yù)測模式軟件WRF、CESM、NEMO,分子動力學(xué)軟件GROMACS、LAMMPS、AmberTools、NAMD、CP2k,第一性原理軟件Quantum Espresso,生物信息軟件BUSCO、HMMER、Bamtools、Trimmomatic、Mmseqs Repeatmasker、Bwa、Griaffe、Gemoma、Samtools、PASA、vg pack等。
中國科學(xué)技術(shù)大學(xué)超級計算中心瀚海20超級計算系統(tǒng)20臺華為Taishan 2280V2服務(wù)器,每臺含有2顆鯤鵬920 CPU (48核,2.6GHz),256GB DDR4 2666MHz內(nèi)存,采用100GE(支持RoCE)高速互聯(lián),共1920顆核心,峰值性能40萬億次/秒。該套系統(tǒng)于2019年底建成。目前在用賬戶102個,涉及物理學(xué)、材料科學(xué)、核科學(xué)、信息科學(xué)、地學(xué)等,從2020年至今,共完成作業(yè)35萬個,累計860萬CPU核小時
國家超級計算天津中心天河新一代超級計算機(jī)
國家超級計算深圳中心(深圳云計算中心)深圳超算總投資12.3億元,一期建設(shè)用地面積1.2萬平方米,總建筑面積4.3萬平方米。深圳超算配置有國產(chǎn)曙光6000超級計算機(jī)系統(tǒng),2010年6月世界超算TOP500排名第二,運(yùn)算速度達(dá)每秒1271萬億次近十年來,累計服務(wù)三萬個以上用戶團(tuán)隊,完成各類計算任務(wù)逾千萬個,完成15億核小時計算,服務(wù)企事業(yè)單位和科研院所過萬家,擬構(gòu)建深圳超算二期E級超級計算機(jī)
國家超級計算長沙中心中心基于國內(nèi)新一代超算先進(jìn)技術(shù),采用可配置柔性體系結(jié)構(gòu)和高速互連等關(guān)鍵技術(shù),部署了“天河”新一代主機(jī)系統(tǒng)。計算部件采用國產(chǎn)ARM指令集兼容架構(gòu)CPU和邁創(chuàng)-3000加速器。系統(tǒng)包含計算處理、服務(wù)處理、互連通信、全局存儲、監(jiān)控診斷、基礎(chǔ)架構(gòu)和輔助算力系統(tǒng)等部分。系統(tǒng)64位通用超算精度不低于200P Flops,系統(tǒng)磁盤總?cè)萘坎簧儆?0PB,點點雙向通信帶寬不低于400Gbps。
5、HPC的技術(shù)核心
標(biāo)準(zhǔn)計算系統(tǒng)主要使用串行計算來解決問題,它將工作負(fù)載分成一系列任務(wù),然后在同一處理器上依次執(zhí)行這些任務(wù)。相比之下,HPC 則利用大規(guī)模并行計算在多個計算機(jī)服務(wù)器或處理器上同時運(yùn)行多個任務(wù)。
計算機(jī)集群( HPC 集群)由多個聯(lián)網(wǎng)的高速計算機(jī)服務(wù)器組成,并有一個集中式調(diào)度器來管理并行計算工作負(fù)載。 這些計算機(jī)被稱為節(jié)點,使用多核 CPU,也可能包括 GPU,通過高性能組件把HPC 集群中的所有其他計算資源(網(wǎng)絡(luò)、內(nèi)存、存儲和文件系統(tǒng))高速、高吞吐量、低延遲的連接和同步起來,并行、高效完成計算任務(wù),實現(xiàn)高性能。
HPC 的核心技術(shù)是使用并行計算以大規(guī)模并行的方式解決復(fù)雜的計算問題,幾個在 HPC 系統(tǒng)中實現(xiàn)并行計算的關(guān)鍵技術(shù),如多核處理器、并行編程框架、高速互連、分布式文件系統(tǒng)和加速器等軟硬件技術(shù),實現(xiàn)高水平的性能和處理能力。
6、HPC系統(tǒng)軟件情況
HPC系統(tǒng)軟件包括:

操作系統(tǒng),通常是Linux/Unix
系統(tǒng)管理,提供集群完整供應(yīng)、管理和監(jiān)控等功能
計劃程序或工作負(fù)載管理,調(diào)度器根據(jù)優(yōu)先級、策略和隊列來管理作業(yè),以實現(xiàn)最佳的資源利用率。
應(yīng)用軟件開發(fā)生態(tài)系統(tǒng)
編程軟件環(huán)境,包括編譯器、庫、性能庫和具有特定調(diào)優(yōu)功能的消息傳遞并行編程環(huán)境等
網(wǎng)絡(luò)結(jié)構(gòu)軟件
存儲文件系統(tǒng)
存儲基準(zhǔn)
遠(yuǎn)程可視化或遠(yuǎn)程計算,支持對模擬建模進(jìn)行交互式或近實時監(jiān)控,尤其適用于執(zhí)行 3D 渲染的繁重圖形任務(wù)。
HPC 數(shù)據(jù)管理, 涉及數(shù)據(jù)管理全過程,包括數(shù)據(jù)采集、存儲、元數(shù)據(jù)管理、層次結(jié)構(gòu)、分層、訪問、共享、傳輸、遷移、傳輸、跟蹤、壓縮、加密、安全、ETL、保存、治理、備份、冗余和恢復(fù)等
生產(chǎn)力工具
融合、超融合和可組合的基礎(chǔ)設(shè)施
7、HPC應(yīng)用軟件

建模與仿真(M&S),創(chuàng)建和開發(fā)設(shè)計以測試系統(tǒng)、現(xiàn)象和過程的物理世界中的假設(shè),以驗證技術(shù)決策。通過圖形和計算機(jī)編程、統(tǒng)計分析、2D 和 3D 以及更高維度的虛擬或增強(qiáng)現(xiàn)實模型,在現(xiàn)實條件下對設(shè)計進(jìn)行測試。

工程,比如計算流體動力學(xué) (CFD) 仿真模型適用于工程(空氣動力學(xué)、航空航天分析、超音速、工業(yè)設(shè)計、傳熱、發(fā)動機(jī)和燃燒設(shè)計)、汽車設(shè)計(隧道)、自然科學(xué)(天氣模擬和預(yù)測)、環(huán)境工程(空氣污染)、生物工程(細(xì)胞、分子、組織、系統(tǒng)模擬)、電影和游戲行業(yè)的視覺效果。
生物信息學(xué)、醫(yī)療保健、制藥, 旨在從生物數(shù)據(jù)庫中提取有意義的信息以進(jìn)行序列或結(jié)構(gòu)分析
零售和商業(yè)銀行和保險企業(yè),量化高頻交易、金融客戶個性化 (FCP) 業(yè)務(wù)、風(fēng)險管理投資組合模擬和情景測試、實時金融模型風(fēng)險管理 (MRM)等
量子計算(QC)
人工智能(AI), HPC 應(yīng)用已成為 AI 應(yīng)用的代名詞,尤其是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用。AI 與 HPC 的融合推動了機(jī)器學(xué)習(xí) (ML) 和深度學(xué)習(xí) (DL) 軟件納入 HPC 軟件堆棧。 神經(jīng)網(wǎng)絡(luò)算法需大量數(shù)據(jù),訓(xùn)練數(shù)據(jù)集龐大,ChatGPT的火爆一定程度上后續(xù)會進(jìn)一步推動HPC算力需求的提升[iii]。
8、HPC 與云計算
就在十年前,HPC 的高昂成本還令大多數(shù)組織對其望而卻步,這涉及到擁有或租賃一臺超級計算機(jī),或在內(nèi)部數(shù)據(jù)中心構(gòu)建和托管 HPC 集群。而如今,云中的 HPC,也稱為 HPC as a Service (HPCaaS),為公司利用HPC 提供了一種更快捷、可擴(kuò)展且更經(jīng)濟(jì)的方式。 HPCaaS 通常包括訪問云服務(wù)商托管的 HPC 集群和基礎(chǔ)架構(gòu),配套HPC服務(wù)及云上各種服務(wù)(如 AI 和數(shù)據(jù)分析)。
9、HPC 用例[iv]
HPC應(yīng)用已成為 AI 應(yīng)用的代名詞,尤其是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用;如今大多數(shù)的 HPC 系統(tǒng)在創(chuàng)建時,都將這些工作負(fù)載納入了考量范疇。 這些 HPC 應(yīng)用正在推動以下領(lǐng)域的持續(xù)創(chuàng)新:
醫(yī)療保健、基因組學(xué)和生命科學(xué)。?人類基因組測序的首次嘗試耗時長達(dá)?13 年;而如今,HPC 系統(tǒng)可以在不到一天的時間內(nèi)完成這項工作。 在醫(yī)療保健和生命科學(xué)領(lǐng)域,HPC 的其他應(yīng)用還包括藥物發(fā)現(xiàn)和設(shè)計、癌癥快速診斷和分子建模。
金融服務(wù)。?除了自動交易和欺詐檢測(如上所述),HPC 還支持蒙特卡羅模擬和其他風(fēng)險分析方法的應(yīng)用。
政府和國防。?在這一領(lǐng)域,兩個日益增長的 HPC 用例是天氣預(yù)報和氣候建模,這兩個用例都涉及處理大量的歷史氣象數(shù)據(jù)和氣候相關(guān)數(shù)據(jù)點每日數(shù)百萬次的變化。 其他政府和國防應(yīng)用包括能源研究和情報工作。
能源。?在與政府和國防領(lǐng)域重疊的某些用例中,能源相關(guān) HPC 應(yīng)用包括地震數(shù)據(jù)處理、油藏模擬和建模、地理空間分析、風(fēng)場模擬和地形測繪。
10、HPC展望
HPC與 AI、大數(shù)據(jù)、數(shù)據(jù)分析和量子計算的融合加速了基礎(chǔ)設(shè)施整合,以實現(xiàn)從小規(guī)模、中型到EB規(guī)模的最佳性能/成本比,并創(chuàng)造出以前沒有涉及的新HPC業(yè)務(wù)市場。
對IT從業(yè)者來說,HPC 存儲和數(shù)據(jù)管理需更全面、更深入的研究,以便在數(shù)據(jù)處理、數(shù)據(jù)集成、數(shù)據(jù)保護(hù)和安全、數(shù)據(jù)工作流管理以及本地、公有云和混合環(huán)境等方面來進(jìn)行改進(jìn)、細(xì)化和簡化。
計算、存儲、應(yīng)用程序和基礎(chǔ)架構(gòu)的 HPC 性能基準(zhǔn)和指標(biāo)缺乏標(biāo)準(zhǔn)化,這為供應(yīng)商和從業(yè)者提供市場及研究的機(jī)會。

以上,都是個人看法,是我基于已知公開信息作出的“有限理性”判斷。如有異議,你是對的。如覺有益,請幫助轉(zhuǎn)發(fā)或點個“在看”,讓更多人看到,更多人同行,我們可以走得更遠(yuǎn)。
[i]?https://www.ibm.com/topics/supercomputing
[ii]?https://www.ccf.org.cn/Media_list/TC/2022-12-13/781317.shtml
[iii]?https://server.zhiding.cn/server/2023/0208/3147388.shtml
[iv]?https://research.ibm.com/blog/AI-supercomputer-Vela-GPU-cluster
發(fā)布于 2023-03-27 23:30?IP 屬地上海
高性能計算
高性能服務(wù)器
高性能