|
高性能計算(high-performance computing,HPC)用于處理海量數(shù)據(jù),可實時或接近實時地解決當今最復(fù)雜的計算問題。 HPC的最大特征是使用大量并行工作的強大處理器集群,來處理海量多維數(shù)據(jù)集(大數(shù)據(jù)),并以極高的速度解決復(fù)雜問題。HPC系統(tǒng)的運行速度通常比最快的商用臺式機、筆記本電腦或服務(wù)器系統(tǒng)快100多萬倍。 幾十年來,HPC系統(tǒng)范式一直是超級計算機,這是一種專門構(gòu)建的計算機,包含數(shù)百萬個處理器或處理器內(nèi)核。超級計算機仍然和我們在一起;目前最快的超級計算機是美國的Frontier,處理速度為1.102 exaflops,即每秒千萬億次浮點運算(flops)。但是今天,越來越多的組織在本地或云中托管的高速計算機服務(wù)器集群上運行HPC解決方案。 HPC工作負載揭示了重要的新見解,這些見解可以增進人類知識并創(chuàng)造顯著的競爭優(yōu)勢。例如,HPC用于對DNA進行測序,實現(xiàn)股票交易自動化,運行人工智能(AI)算法和模擬,如那些實現(xiàn)自動駕駛汽車的算法,實時分析來自物聯(lián)網(wǎng)傳感器、雷達和GPS系統(tǒng)的萬億字節(jié)數(shù)據(jù)流,以做出瞬間決策。 HPC是如何工作的? 標準計算系統(tǒng)主要使用串行計算來解決問題——它將工作負載劃分為一系列任務(wù),然后在同一處理器上一個接一個地執(zhí)行任務(wù)。 相比之下,HPC利用大規(guī)模并行計算。并行計算在多個計算機服務(wù)器或處理器上同時運行多個任務(wù)。大規(guī)模并行計算是使用數(shù)萬到數(shù)百萬個處理器或處理器核心的并行計算。 (1)計算機集群(也稱為HPC集群): HPC集群由多個聯(lián)網(wǎng)的高速計算機服務(wù)器組成,帶有一個管理并行計算工作負載的集中式調(diào)度程序。被稱為節(jié)點的計算機使用高性能多核CPU,或者今天更有可能使用GPU(圖形處理單元),非常適合進行嚴格的數(shù)學(xué)計算、機器學(xué)習(xí)模型和圖形密集型任務(wù)。一個HPC群集可以包含100,000個或更多節(jié)點。 (2)高性能組件: HPC群集中的所有其他計算資源(網(wǎng)絡(luò)、內(nèi)存、存儲和文件系統(tǒng))都是高速、高吞吐量和低延遲的組件,可以與節(jié)點保持同步,并優(yōu)化群集的計算能力和性能。 高性能計算和云計算 就在十年前,由于高性能計算的高成本(包括擁有或租賃一臺超級計算機,或者在內(nèi)部數(shù)據(jù)中心構(gòu)建和托管一個高性能計算集群),大多數(shù)組織都無法實現(xiàn)高性能計算。 如今,云中的HPC(有時稱為HPC即服務(wù),或HPCaaS)為公司利用HPC提供了一種速度更快、可擴展性更強、更經(jīng)濟實惠的方式。HPCaaS通常包括對托管在云服務(wù)提供商數(shù)據(jù)中心的HPC集群和基礎(chǔ)架構(gòu)的訪問,以及生態(tài)系統(tǒng)功能(如人工智能和數(shù)據(jù)分析)和HPC專業(yè)知識。如今,云計算中的HPC受到三種趨勢的推動: (1)需求激增。各行各業(yè)的組織越來越依賴于實時洞察和競爭優(yōu)勢,這些優(yōu)勢來自于解決只有HPC應(yīng)用才能解決的復(fù)雜問題。例如,信用卡欺詐檢測——事實上我們所有人都依賴它,而且我們大多數(shù)人都曾經(jīng)經(jīng)歷過——越來越依賴HPC來更快地識別欺詐并減少惱人的誤報,即使欺詐活動在擴大,欺詐者的策略也在不斷變化。 (2)低延遲、高吞吐量RDMA網(wǎng)絡(luò)的普及。RDMA(遠程直接內(nèi)存訪問)使一臺聯(lián)網(wǎng)的計算機能夠訪問另一臺聯(lián)網(wǎng)計算機的內(nèi)存,而不涉及任何一臺計算機的操作系統(tǒng)或中斷任何一臺計算機的處理。這有助于最小化延遲和最大化吞吐量。新興的高性能RDMA結(jié)構(gòu),包括Infiniband、虛擬接口架構(gòu)和融合以太網(wǎng)RDMA(RoCE)從本質(zhì)上使基于云的高性能計算成為可能。 (3)廣泛的公共云和私有云HPCaaS可用性。如今,每個領(lǐng)先的公共云服務(wù)提供商都提供HPC服務(wù)。雖然一些組織繼續(xù)在內(nèi)部運行高度管控或敏感的HPC工作負載,但許多組織正在采用或遷移到由硬件和解決方案供應(yīng)商提供的私有云HPC解決方案。 HPC使用案例 HPC應(yīng)用已經(jīng)成為人工智能應(yīng)用的代名詞,特別是機器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用。如今,大多數(shù)HPC系統(tǒng)都考慮到了這些工作負載,這些HPC應(yīng)用正在推動以下領(lǐng)域的持續(xù)創(chuàng)新。 醫(yī)療保健、基因組學(xué)和生命科學(xué)。人類基因組測序的第一次嘗試花了13年時間,如今的HPC系統(tǒng)可以在不到一天的時間內(nèi)完成這項工作。醫(yī)療保健和生命科學(xué)中的其他HPC應(yīng)用包括藥物發(fā)現(xiàn)和設(shè)計、快速癌癥診斷和分子建模。 金融服務(wù)。除了自動交易和欺詐檢測(如上所述),HPC還支持蒙特卡羅模擬(Monte Carlo simulation)和其他風險分析方法中的應(yīng)用。 政府和國防。該領(lǐng)域中兩個日益增長的HPC使用案例是天氣預(yù)測和氣候建模,這兩個案例都涉及處理大量的歷史氣象數(shù)據(jù)和數(shù)百萬與氣候相關(guān)的數(shù)據(jù)點的每日變化。其他政府和國防應(yīng)用包括能源研究和情報工作。 能源。在一些與政府和國防重疊的情況下,與能源相關(guān)的HPC應(yīng)用包括地震數(shù)據(jù)處理、油藏模擬和建模、地理空間分析、風模擬和地形測繪。(Donna Zhang,張底剪報)
|