高性能計(jì)算平臺(tái)主要包括登錄管理節(jié)點(diǎn)、臺(tái)圖形節(jié)點(diǎn),并行存儲(chǔ)系統(tǒng),計(jì)算刀片,胖節(jié)點(diǎn),以及配套軟件及基礎(chǔ)設(shè)施部分。

一、 管理登錄節(jié)點(diǎn)
管理節(jié)點(diǎn)主要用于運(yùn)行集群監(jiān)控管理軟件、用戶信息管理服務(wù)、計(jì)算子網(wǎng)管理服務(wù)、作業(yè)調(diào)度服務(wù)、時(shí)間同步服務(wù)等集群系統(tǒng)服務(wù)。這些關(guān)鍵系統(tǒng)服務(wù)均配置為互備冗余模式,保障整個(gè)集群系統(tǒng)的高可用性。管理節(jié)點(diǎn)硬件本身也配置有冗余電源、本地硬盤RAID保護(hù)等可靠性保障措施。
登錄節(jié)點(diǎn)主要用于用戶程序編譯、算例準(zhǔn)備,文件上傳下載,作業(yè)提交控制等用戶交互操作。登錄節(jié)點(diǎn)CPU與計(jì)算節(jié)點(diǎn)架構(gòu)相同,保障用戶編譯程序的執(zhí)行效率。

二、 臺(tái)圖形節(jié)點(diǎn)
高性能計(jì)算平臺(tái)作為集群前后處理節(jié)點(diǎn),防止圖形節(jié)點(diǎn)故障影響作業(yè)運(yùn)行,同時(shí)提升圖形資源量。
三、 并行存儲(chǔ)系統(tǒng)
高性能計(jì)算集群在多個(gè)節(jié)點(diǎn)進(jìn)行大規(guī)模并行計(jì)算的同時(shí),需要進(jìn)行大量文件及數(shù)據(jù)訪問(wèn),對(duì)于系統(tǒng)的存儲(chǔ)性能也提出非常高的要求,系統(tǒng)對(duì)存儲(chǔ)要求主要?dú)w結(jié)為以下幾點(diǎn):
u 全局文件的統(tǒng)一印象
高性能集群相比其它應(yīng)用而言,一個(gè)顯著的特點(diǎn)為保證參與計(jì)算的所有節(jié)點(diǎn)具有統(tǒng)一的文件印 象,也就是說(shuō),在任何一個(gè)節(jié)點(diǎn)、對(duì)某一個(gè)文件的讀寫、修改都會(huì)在其它節(jié)點(diǎn)生效,實(shí)現(xiàn)這一個(gè)功能,往往需要通過(guò)網(wǎng)絡(luò)文件系統(tǒng)來(lái)實(shí)現(xiàn),較為傳統(tǒng)的為NFS系統(tǒng),當(dāng)前,由于集群規(guī)模的增大和訪問(wèn)性能的要求逐漸提高,并行文件系統(tǒng)在中大規(guī)模的高性能集群中使用越來(lái)越廣泛。
u 全局文件的高速訪問(wèn)
對(duì)于某些規(guī)模較大集群,或者某些高IO應(yīng)用集群,由于對(duì)存儲(chǔ)的訪問(wèn)量很大,對(duì)共享存儲(chǔ)的訪問(wèn)性能也提出了較高要求。通常,我們需要通過(guò)提高磁盤陣列的性能、存儲(chǔ)介質(zhì)的性能、磁盤陣列訪問(wèn)接口的性能和IO節(jié)點(diǎn)的網(wǎng)絡(luò)性能來(lái)提高存儲(chǔ)的訪問(wèn)性能。對(duì)于更高IO需求的系統(tǒng),可以通過(guò)并行存儲(chǔ)系統(tǒng)來(lái)實(shí)現(xiàn)海量文件的并發(fā)讀寫。
u 存儲(chǔ)系統(tǒng)的大容量
由于高性能集群的規(guī)模巨大、數(shù)據(jù)處理能力驚人,高性能集群集中存儲(chǔ)的容量也往往非常驚人,動(dòng)輒達(dá)到數(shù)十TB,在某些對(duì)海量存儲(chǔ)需求的系統(tǒng)中,存儲(chǔ)往往達(dá)到上百TB,甚至PB量級(jí)。
u 存儲(chǔ)系統(tǒng)的高可靠性
高性能集群承擔(dān)著重要的科研任務(wù),用戶的數(shù)據(jù)具有極高的價(jià)值,同時(shí),存儲(chǔ)為全局系統(tǒng),一旦出現(xiàn)故障,將導(dǎo)致整個(gè)系統(tǒng)不可用。所以在存儲(chǔ)系統(tǒng)中,無(wú)論IO節(jié)點(diǎn)、存儲(chǔ)交換機(jī)、還是存儲(chǔ)磁盤陣列,存儲(chǔ)介質(zhì),每個(gè)環(huán)節(jié)都要盡可能的保證高可靠性和高可用性。可以通過(guò)冗余電源、高級(jí)別RAID、雙機(jī)熱備、數(shù)據(jù)備份等各種手段保證存儲(chǔ)系統(tǒng)的高可靠性。
四、 刀片/機(jī)架式計(jì)算節(jié)點(diǎn)
計(jì)算節(jié)點(diǎn)保證計(jì)算資源池,提升集群負(fù)載能力。提供充足的本地IO性能,滿足計(jì)算中臨時(shí)文件的快速讀寫需求。

TC4600E刀片服務(wù)器系統(tǒng)
五、 胖節(jié)點(diǎn)
胖節(jié)點(diǎn)主要應(yīng)對(duì)通用計(jì)算節(jié)點(diǎn)不能滿足的計(jì)算作業(yè),例如電磁仿真類計(jì)算,內(nèi)存需求高,通常超過(guò)1TB內(nèi)存需求,且跨節(jié)點(diǎn)效率低,只適合單節(jié)點(diǎn)計(jì)算,結(jié)構(gòu)強(qiáng)度類計(jì)算,如ABAQUS,并行效率低,不適合多節(jié)點(diǎn)同時(shí)計(jì)算,內(nèi)存需求高,節(jié)點(diǎn)內(nèi)存不能滿足作業(yè)需求時(shí),計(jì)算中的臨時(shí)數(shù)據(jù)會(huì)寫入本地硬盤,嚴(yán)重影響計(jì)算速度。
六、集群管理系統(tǒng)
高性能計(jì)算平臺(tái)需建設(shè)一套高性能集群管理系統(tǒng)(Gridview)。對(duì)高性能平臺(tái)進(jìn)行作業(yè)監(jiān)控,資源監(jiān)控,資產(chǎn)管理,賬號(hào)管理,權(quán)限管理,作業(yè)調(diào)度等,同時(shí)提供高性能計(jì)算所需的編譯器、MPI、數(shù)學(xué)庫(kù)等。

