算力、數(shù)據(jù)、AI已經成為驅動當今社會技術發(fā)展的三架馬車,而算力也從傳統(tǒng)的超級計算向云超算的方向發(fā)展。本書旨在探討當前超級計算與云計算的融合而給算力帶來的新的發(fā)展,介紹當前在算力領域的一些實踐和探索,從理論到工程,幫助讀者了解超級計算的關鍵技術與未來發(fā)展,從而更好地應用和發(fā)展高性能技術。
算力已成為科技創(chuàng)新和發(fā)展的重要支撐,算力經濟也成為數(shù)字經濟社會的重要支柱。本書基于兩位作者多年來的行業(yè)實踐和思考編寫而成,從為什么需要超級計算機、超級計算機能解決什么樣的問題、超級計算機的演變與發(fā)展,以及超級計算的發(fā)展等方面進行了深入討論,更對當前廣受關注的算力經濟進行了深刻的詮釋。本書既具科普性,又具有專業(yè)性和前沿性,無論是算力和算力經濟相關行業(yè)的技術人員、管理人員,還是超級計算技術的愛好者,都能從本書中受益。
如果說蒸汽機是工業(yè)革命的引擎,發(fā)電機是電氣時代的引擎,那么計算機就是數(shù)字信息時代的引擎,而超級計算機是引領科學計算創(chuàng)新、攀登新高峰的引擎。
通常,人們認為計算機就是用來計算的,因為它算得快、算得準。這個觀點沒有錯, 早發(fā)明計算機就是為了計算(Computation),而計算機的能力也稱為算力(Computing Power),特別是在密碼破譯中,計算機發(fā)揮了巨大作用。這是個博弈問題,只要我方計算機算得比敵方快,敵方就很難破譯我方的密碼,而我方就可能破譯敵方密碼。隨著計算機應用領域的擴展,計算機應用已經無處不在了。我們已經從單純地依靠計算機計算的時期邁入了數(shù)字時代,即計算機世界可以是物理世界的一個數(shù)字模型。在這個數(shù)字虛擬空間中,我們幾乎可以做任何想做的事情,比如戰(zhàn)場模擬對抗、汽車碰撞、數(shù)字風洞、大氣模擬等。這時,我們發(fā)現(xiàn)解決這類問題的計算規(guī)模是巨大的,數(shù)據(jù)是海量的,普通計算機無法承載和完成這類任務,所以超級計算機應運而生。
在和業(yè)內的首席信息官(CIO)們接觸時,他們常常會問,超級計算機到底有什么用?在決策要上馬的超級計算機項目時,他們往往困惑于需要多大的計算能力。更為糾結的是,這個方案應該找誰來規(guī)劃?企業(yè)董事長或財務總監(jiān)則關心投資回報率怎么衡量。其實,問題的核心在于不知道超級計算機能解決我的什么問題。我們可以看到,很多創(chuàng)新企業(yè)或產品的背后都有超級計算機的助力,從薯片生產到新能源汽車、宇宙大爆炸研究、太空之旅都利用了超級計算機來解決問題。
我們可以看到,超級計算機的應用對一個制造企業(yè)是非常重要的。業(yè)內人士有一個共識,即制造業(yè)每投資1美元用于超級計算機的建設,就會產生83美元的收入和20美元的利潤。
現(xiàn)在,公有云的發(fā)展如火如荼,云的概念深入人心,我國許多城市也在致力于建設超級計算中心。但人們總覺得超級計算中心和公有云是兩條路上跑的車,完全沒有交集。事實是這樣嗎?我們試圖在書中探討、回答這個問題。
本書就為什么需要超級計算機、超級計算機能解決什么樣的問題、超級計算機的演變與發(fā)展,以及超級計算與云計算的融合發(fā)展展開深入的探討,希望讀者對以上問題有個深入的理解。對那些希望或者正在建設超級計算機的CIO們來說,本書可以給他們提供建設方法和方向、技術方面的提示和經驗分享。
希望這本書能讓更多人了解高性能計算,用好高性能計算的算力服務,讓算力經濟發(fā)揮更大的作用。祝大家閱讀愉快!
張福波 張云泉
2022年6月
張福波 天云軟件創(chuàng)始人、首席科學家,在軟件行業(yè)有30多年的工作經驗。在比利時皇家根特大學獲得博士學位,獲得多項技術專利。曾為美國羅斯拉姆斯核物理中心開發(fā)超級計算機調度系統(tǒng)。參與和主持了國家863制造網格項目,作為網格專家參與實施了當時國內大超級計算中心上海超級計算中心的建設項目。1988年參與銀河二號超級計算機的設計和編譯系統(tǒng)的建設。曾被評為中國軟件十大領軍人物。
張云泉博士,中科院計算所研究員,博士生導師,并行軟件實驗室主任。中國工業(yè)與應用數(shù)學學會副秘書長,中國計算機學會理事、會士、高性能計算專業(yè)委員會秘書長,中國智能計算產業(yè)聯(lián)盟執(zhí)行理事長,ACM中國高性能計算專家委員會主席,中國軟件行業(yè)協(xié)會常務理事。主要研究方向為并行程序設計和性能評價、并行計算和并行編程模型等。獲2000年和2019年國家科技進步獎二等獎各一項,2021年度ACM 戈登·貝爾獎提名,首屆CCF青竹獎。中國高性能計算機TOP100排行榜創(chuàng)始人和發(fā)布者,國際人工智能算力排行榜AIPerf500發(fā)起人,PAC、CCF CPC和ACM IPCC超算大賽創(chuàng)始人。擔任國際會議程序委員會委員和共同主席一百余次。國家基因庫高級顧問,青海省大數(shù)據(jù)與云計算咨詢專家委員會委員,貴州省農業(yè)大數(shù)據(jù)專家委員會委員等。
目錄
序一
序二
序三
前言
第1章 什么是超級計算機1
1.1 超級計算機簡史 2
1.2 現(xiàn)代超級計算機 8
1.2.1 并行計算和并發(fā)計算 11
1.2.2 分布式計算系統(tǒng) 12
1.2.3 超級計算機的能源使用和熱量管理 25
1.3 超級計算機的發(fā)展 26
1.3.1 量子計算機的概念和重要性 30
1.3.2 量子計算機中的量子糾纏 30
1.3.3 量子計算機的研發(fā) 31
1.3.4 未來的超級計算機 32
1.4 超級計算與算力經濟 33
第2章 超級計算機及其應用43
2.1 超級計算機是科技研發(fā)和創(chuàng)新的引擎 44
2.1.1 人均算力消費反映了一個國家的科技創(chuàng)新水平44
2.1.2 超級計算機與人工智能 46
2.1.3 超級計算機與機器學習 48
2.1.4 超級計算機的應用領域 49
2.2 超級計算機與工業(yè)智能制造 55
2.2.1 CAE的下一個時代是數(shù)字孿生 56
2.2.2 人工智能結合HPC提升制造效率 59
2.2.3 工業(yè)4.0和HPC 60
2.3 超級計算機與人工智能、大數(shù)據(jù)的融合 63
2.3.1 超級計算機與人工智能、大數(shù)據(jù)融合
是必然的趨勢 63
2.3.2 融合的案例 68
第3章 超級計算機的建設與管理71
3.1 超級計算機的集群建設 72
3.1.1 建設HPC集群前需要了解的知識 72
3.1.2 建設HPC集群需要考慮的因素 79
3.1.3 建設HPC集群 88
3.2 應用集成平臺和調度引擎 95
3.2.1 集群調度軟件和應用集成中臺 96
3.2.2 SD-WAN和多地HPC資源池共享 103
3.3 我國超算的發(fā)展 103
3.3.1 中國TOP100排行榜和世界TOP500排行榜 103
3.3.2 上海超算中心助力工程仿真應用 116
3.3.3 神威太湖之光:獨立自主研發(fā)的超級
計算機的樣板 123
第4章 超級計算與云計算131
4.1 傳統(tǒng)超級計算與云計算 133
4.1.1 超級計算與云計算的區(qū)別 133
4.1.2 超級計算和云計算的經濟學 134
4.2 超級計算和云計算的融合 138
4.2.1 超算上云已是大勢所趨 138
4.2.2 世界知名高性能計算云提供商 141
4.2.3 超級計算向云靠攏 144
4.2.4 高性能計算云的彈性集群即服務 148
4.2.5 亞馬遜HPC云 151
4.2.6 我國超算上云的情況 164
4.3 我國的超級計算云 165
4.3.1 超算云和云超算 165
4.3.2 阿里云的E-HPC 167
4.3.3 北京超級云計算中心的超算云 179
參考文獻185
后記與致謝189