企業(yè)數(shù)字化基石——阿里巴巴云計(jì)算基礎(chǔ)設(shè)施實(shí)踐
定 價(jià):109 元
叢書名:阿里巴巴集團(tuán)技術(shù)叢書
- 作者:高山淵 等
- 出版時(shí)間:2020/1/1
- ISBN:9787121373886
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:F724.6-39
- 頁(yè)碼:356
- 紙張:
- 版次:01
- 開本:16開
讀者對(duì)象:本書梳理基礎(chǔ)設(shè)施演進(jìn)過(guò)程中的思路、得失、最佳實(shí)踐、未來(lái)路徑規(guī)劃等,讓技術(shù)管理者、技術(shù)架構(gòu)師和研發(fā)人員能夠更清晰地知道基礎(chǔ)設(shè)施的未來(lái)在哪里,對(duì)基礎(chǔ)設(shè)施的發(fā)展和未來(lái)有一定的了解,可以更好地使用基礎(chǔ)設(shè)施提供的技術(shù)和服務(wù),讓阿里巴巴在基礎(chǔ)設(shè)施上的經(jīng)驗(yàn)成為國(guó)家和行業(yè)基礎(chǔ)設(shè)施發(fā)展的重要參考,因此無(wú)論是對(duì)于軟件工程師、測(cè)試工程師、運(yùn)維工程師、軟件架構(gòu)師、技術(shù)經(jīng)理,還是對(duì)于資深I(lǐng)T人士,本書都極具參考價(jià)值。
在互聯(lián)網(wǎng)行業(yè)中,云計(jì)算基礎(chǔ)設(shè)施技術(shù)具有非常重要的作用與影響,一方面,在電商、金融科技、云計(jì)算、大數(shù)據(jù)、AI等重要戰(zhàn)略領(lǐng)域發(fā)展的過(guò)程中,云計(jì)算基礎(chǔ)設(shè)施技術(shù)的重要支撐作用已經(jīng)無(wú)可替代;另一方面,云計(jì)算基礎(chǔ)設(shè)施技術(shù)已經(jīng)成為許多類型業(yè)務(wù)的直接競(jìng)爭(zhēng)力,甚至在云計(jì)算、AI等領(lǐng)域中,計(jì)算能力、存儲(chǔ)能力、網(wǎng)絡(luò)能力都成為業(yè)務(wù)的一部分。本書將詳細(xì)地闡述阿里巴巴在基礎(chǔ)設(shè)施上的實(shí)踐細(xì)節(jié)及先進(jìn)技術(shù),包括數(shù)據(jù)中心、網(wǎng)絡(luò)、服務(wù)器、計(jì)算硬件、存儲(chǔ)硬件,以及智能化運(yùn)營(yíng)與自動(dòng)化運(yùn)維等內(nèi)容。本書是由AIS(Alibaba Infrastructure Service)組織編寫的,歷時(shí)三年,AIS是負(fù)責(zé)阿里巴巴集團(tuán)所有基礎(chǔ)設(shè)施的研發(fā)、運(yùn)營(yíng)、維護(hù)等工作的部門。本書梳理了基礎(chǔ)設(shè)施演進(jìn)過(guò)程中的思路、得失、最佳實(shí)踐、未來(lái)路徑規(guī)劃等,可以讓IT企業(yè)的管理者、軟件工程師、測(cè)試工程師、運(yùn)維工程師、軟件架構(gòu)師、技術(shù)經(jīng)理能夠更清晰地知道基礎(chǔ)設(shè)施的根本在哪里,而且還可以讓IT企業(yè)客戶對(duì)基礎(chǔ)設(shè)施的發(fā)展和未來(lái)有一定的了解,以便更好地使用基礎(chǔ)設(shè)施提供的技術(shù)和服務(wù),讓阿里巴巴在基礎(chǔ)設(shè)施上的經(jīng)驗(yàn)成為國(guó)家和行業(yè)基礎(chǔ)設(shè)施發(fā)展的參考。
主要作者簡(jiǎn)介高山淵,花名康伯,2004年進(jìn)入互聯(lián)網(wǎng)行業(yè),2007年加入阿里巴巴集團(tuán),先后負(fù)責(zé)過(guò)阿里巴巴的CDN運(yùn)維、聚石塔、大數(shù)據(jù)平臺(tái)(ODPS/Hadoop)、云計(jì)算、服務(wù)器、數(shù)據(jù)中心等運(yùn)維和研發(fā)工作,現(xiàn)擔(dān)任AIS(阿里巴巴基礎(chǔ)設(shè)施事業(yè)部)首席架構(gòu)師及IDC研發(fā)事業(yè)部總經(jīng)理。蔡德忠,阿里云智能基礎(chǔ)設(shè)施首席網(wǎng)絡(luò)架構(gòu)師,負(fù)責(zé)阿里巴巴基礎(chǔ)網(wǎng)絡(luò)架構(gòu)工作,主持設(shè)計(jì)了全新一代高可靠、高智能和低延時(shí)(HAIL)數(shù)據(jù)中心架構(gòu),以及基于SDN和SR的全球網(wǎng)絡(luò)流量調(diào)度系統(tǒng),領(lǐng)導(dǎo)了阿里巴巴IPv6的架構(gòu)設(shè)計(jì)和大規(guī)模部署。在此之前,Dennis 作為思科 Distinguished Engineer,在美國(guó)思科擔(dān)任運(yùn)營(yíng)商事業(yè)群全球市場(chǎng)產(chǎn)品和解決方案 Lead Architect。聯(lián)合著作及貢獻(xiàn)過(guò)多項(xiàng)Internet RFCs 標(biāo)準(zhǔn)和十幾項(xiàng)美歐專利。獲得清華大學(xué)工學(xué)學(xué)士,北京大學(xué)和美國(guó) DePaul University 計(jì)算機(jī)科學(xué)碩士學(xué)位。趙曉雪,現(xiàn)任阿里巴巴研究員,阿里云智能基礎(chǔ)設(shè)施智能運(yùn)維團(tuán)隊(duì)負(fù)責(zé)人。加入阿里巴巴之前在美國(guó)谷歌總部基礎(chǔ)設(shè)施部門任職多年。在數(shù)據(jù)中心,云計(jì)算和網(wǎng)絡(luò)等領(lǐng)域都有豐富的研究和實(shí)踐經(jīng)驗(yàn)。美國(guó)加州大學(xué)伯克利分校博士。擁有多項(xiàng)專利和論文。
目 錄
第1章 基礎(chǔ)設(shè)施架構(gòu)綜述 / 1
1.1 基礎(chǔ)設(shè)施的概念 / 1
1.2 基礎(chǔ)設(shè)施作為技術(shù)驅(qū)動(dòng)力 / 3
1.3 基礎(chǔ)設(shè)施的技術(shù)價(jià)值 / 7
1.3.1 技術(shù)安全 / 8
1.3.2 穩(wěn)定性 / 9
1.3.3 TCO / 10
1.3.4 穩(wěn)定性、性能、成本的平衡 / 11
1.3.5 追求效率、標(biāo)準(zhǔn)化、規(guī)范化 / 11
1.4 基礎(chǔ)設(shè)施的核心競(jìng)爭(zhēng)力特征 / 12
第2章 TCO建模 / 13
2.1 靜態(tài)TCO模型 / 14
2.1.1 數(shù)據(jù)中心CapEx / 15
2.1.2 服務(wù)器及網(wǎng)絡(luò)設(shè)備CapEx / 16
2.1.3 OpEx / 16
2.1.4 產(chǎn)能/TCO / 16
2.2 動(dòng)態(tài)TCO模型 / 17
2.3 TCO最優(yōu) / 18
第3章 數(shù)據(jù)中心能效 / 22
3.1 數(shù)據(jù)中心電能利用率 / 22
3.2 數(shù)據(jù)中心服務(wù)器電能利用率 / 30
3.2.1 服務(wù)器電源的能效 / 31
3.2.2 服務(wù)器風(fēng)扇的能效 / 33
3.3 數(shù)據(jù)中心基礎(chǔ)設(shè)施使用率 / 35
3.4 小結(jié) / 37
第4章 數(shù)據(jù)中心 / 39
4.1 數(shù)據(jù)中心面臨的挑戰(zhàn) / 39
4.1.1 中國(guó)能源供給結(jié)構(gòu)對(duì)數(shù)據(jù)中心
的影響 / 39
4.1.2 新政策環(huán)境下數(shù)據(jù)中心面臨的
技術(shù)升級(jí)挑戰(zhàn) / 41
4.1.3 云計(jì)算業(yè)務(wù)給數(shù)據(jù)中心帶來(lái)的
機(jī)遇與挑戰(zhàn) / 41
4.2 數(shù)據(jù)中心技術(shù)的發(fā)展趨勢(shì) / 43
4.2.1 數(shù)據(jù)中心技術(shù)演進(jìn)的路線與
趨勢(shì) / 43
4.2.2 阿里巴巴數(shù)據(jù)中心的演進(jìn)路線
與趨勢(shì) / 46
4.3 數(shù)據(jù)中心能源與供電技術(shù) / 49
4.3.1 數(shù)據(jù)中心能源的選擇與引入 / 49
4.3.2 數(shù)據(jù)中心電氣系統(tǒng)架構(gòu)演進(jìn)的
趨勢(shì)與路線 / 54
4.3.3 數(shù)據(jù)中心電氣關(guān)鍵技術(shù)與設(shè)備 / 59
4.4 阿里巴巴數(shù)據(jù)中心供電工程
實(shí)踐案例 / 68
4.4.1 分布式不間斷供電和集中式
不間斷供電的比較 / 68
4.4.2 240V+PSU集中供電系統(tǒng) / 70
4.4.3 天蝎BBS / 71
4.4.4 服務(wù)器BBU / 73
4.4.5 機(jī)柜DPS / 74
4.5 數(shù)據(jù)中心制冷技術(shù) / 76
4.5.1 數(shù)據(jù)中心制冷系統(tǒng)架構(gòu)的選擇
與設(shè)計(jì) / 76
4.5.2 連續(xù)制冷 / 89
4.5.3 制冷系統(tǒng)的節(jié)能措施 / 91
4.6 面向下一代IT系統(tǒng)的冷卻技術(shù) / 96
4.6.1 液冷技術(shù)簡(jiǎn)介 / 96
4.6.2 冷板式液冷技術(shù) / 98
4.6.3 浸沒(méi)式液冷技術(shù) / 99
4.6.4 不同冷卻技術(shù)對(duì)比 / 100
4.7 數(shù)據(jù)中心制冷技術(shù)的發(fā)展
趨勢(shì) / 102
4.8 阿里巴巴數(shù)據(jù)中心冷卻工程
實(shí)踐案例 / 103
4.8.1 千島湖數(shù)據(jù)中心 / 103
4.8.2 張北新風(fēng)自然冷數(shù)據(jù)中心 / 105
第5章 數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)和關(guān)鍵
技術(shù) / 112
5.1 超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)概述 / 112
5.1.1 超大規(guī)模數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)
及其技術(shù)演變 / 112
5.1.2 超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)的未來(lái)
發(fā)展趨勢(shì) / 115
5.2 阿里巴巴數(shù)據(jù)中心網(wǎng)絡(luò) / 118
5.2.1 云計(jì)算對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)的核心
要求 / 118
5.2.2 阿里巴巴數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)
演進(jìn) / 120
5.2.3 阿里巴巴數(shù)據(jù)中心網(wǎng)絡(luò)HAIL
架構(gòu)的設(shè)計(jì)理念 / 122
5.2.4 阿里巴巴數(shù)據(jù)中心網(wǎng)絡(luò)HAIL
架構(gòu)簡(jiǎn)介 / 130
5.2.5 阿里巴巴數(shù)據(jù)中心交換機(jī) / 131
5.2.6 阿里巴巴 vSwitch / 138
5.2.7 阿里巴巴數(shù)據(jù)中心網(wǎng)絡(luò)光互聯(lián)
技術(shù) / 141
5.3 數(shù)據(jù)中心網(wǎng)絡(luò)協(xié)議和高性能
網(wǎng)絡(luò) / 142
5.3.1 數(shù)據(jù)中心網(wǎng)絡(luò)互聯(lián)協(xié)議 / 142
5.3.2 高性能網(wǎng)絡(luò) RDMA技術(shù) / 145
5.4 可編程芯片和高性能網(wǎng)關(guān)
平臺(tái) / 146
5.4.1 基于x86高性能軟件網(wǎng)關(guān)平臺(tái)
Netframe / 146
5.4.2 基于可編程交換機(jī)與SDN技術(shù)
的硬件交換平臺(tái) / 147
5.5 網(wǎng)絡(luò)可視化技術(shù) / 148
5.5.1 網(wǎng)絡(luò)可視化前端技術(shù) / 149
5.5.2 網(wǎng)絡(luò)可視化后端技術(shù) / 150
5.6 城域網(wǎng)光傳輸技術(shù) / 151
5.6.1 城域網(wǎng)架構(gòu)簡(jiǎn)介 / 151
5.6.2 光傳輸技術(shù) / 154
第6章 服務(wù)器技術(shù) / 159
6.1 服務(wù)器簡(jiǎn)介 / 159
6.1.1 服務(wù)器系統(tǒng)分級(jí) / 160
6.1.2 服務(wù)器行業(yè)生態(tài) / 161
6.1.3 服務(wù)器應(yīng)用場(chǎng)景 / 162
6.1.4 服務(wù)器面臨的挑戰(zhàn) / 162
6.1.5 服務(wù)器設(shè)計(jì)考慮 / 163
6.2 服務(wù)器研發(fā)和技術(shù)體系 / 164
6.2.1 數(shù)據(jù)中心服務(wù)器研發(fā)模式 / 165
6.2.2 數(shù)據(jù)中心服務(wù)器工程技術(shù)之
主板 / 167
6.2.3 數(shù)據(jù)中心服務(wù)器工程技術(shù)之
散熱技術(shù) / 170
6.2.4 服務(wù)器結(jié)構(gòu)工程技術(shù) / 174
6.2.5 服務(wù)器監(jiān)控及運(yùn)維體系 / 189
6.2.6 服務(wù)器測(cè)試及性能評(píng)估
體系 / 191
6.3 軟硬件優(yōu)化 / 197
6.4 服務(wù)器演進(jìn)展望 / 198
6.4.1 阿里巴巴的服務(wù)器演進(jìn) / 198
6.4.2 計(jì)算/存儲(chǔ)分離和部件化 / 199
6.4.3 進(jìn)一步解耦CPU-Storage,
CPU-GPU,CPU-MEM和
架構(gòu)一體化 / 201
6.5 硬件安全體系 / 203
6.5.1 可信計(jì)算 / 204
6.5.2 可信執(zhí)行環(huán)境 / 205
6.5.3 內(nèi)存安全 / 208
6.5.4 構(gòu)建完善的硬件安全體系 / 209
第7章 計(jì)算硬件技術(shù) / 211
7.1 通用計(jì)算 / 212
7.1.1 x86 / 212
7.1.2 Non-IA / 215
7.1.3 Non-IA與x86的比較 / 218
7.1.4 典型業(yè)務(wù)與通用計(jì)算 / 219
7.2 異構(gòu)計(jì)算 / 221
7.2.1 GPU / 221
7.2.2 FPGA / 225
7.2.3 ASIC / 227
7.2.4 CPU、GPU、FPGA、ASIC
簡(jiǎn)單比較 / 230
7.3 邊緣計(jì)算 / 230
7.4 總線互聯(lián) / 233
7.4.1 QPI/UPI / 233
7.4.2 NV-Link / 234
7.4.3 CAPI / 234
7.4.4 CCIX / 235
7.5 計(jì)算與業(yè)務(wù)軟硬件結(jié)合 / 236
7.6 小結(jié) / 238
第8章 存儲(chǔ)硬件技術(shù) / 239
8.1 內(nèi)存 / 240
8.1.1 DDR / 240
8.1.2 NVDIMM與UltraDIMM / 241
8.1.3 AEP / 243
8.1.4 HBM與HMC / 243
8.2 HDD / 245
8.2.1 基本原理 / 245
8.2.2 大容量硬盤應(yīng)用 / 247
8.2.3 HDD的發(fā)展趨勢(shì) / 251
8.3 SSD / 251
8.3.1 NAND Flash / 254
8.3.2 2D/3D NAND / 254
8.3.3 SSD的使用 / 259
8.4 新型存儲(chǔ)介質(zhì) / 261
8.4.1 3D XPoint / 261
8.4.2 ReRAM / 264
8.4.3 NVMe / 265
8.5 新型存儲(chǔ)介質(zhì)應(yīng)用 / 265
8.6 自研存儲(chǔ)產(chǎn)品AliFlash / 269
8.6.1 雙模式SSD / 269
8.6.2 開放通道模式 / 270
8.6.3 開放通道模式的應(yīng)用路徑 / 272
8.6.4 AliFlash與業(yè)務(wù)軟硬件結(jié)合 / 273
8.7 存儲(chǔ)路徑 / 276
8.7.1 傳統(tǒng)文件系統(tǒng) / 276
8.7.2 KV存儲(chǔ) / 278
8.7.3 SPDK / 279
8.8 NVMoF / 280
8.9 近存儲(chǔ)計(jì)算 / 283
8.9.1 本地近存儲(chǔ)計(jì)算 / 283
8.9.2 遠(yuǎn)端近存儲(chǔ)計(jì)算 / 285
8.10 小結(jié) / 288
第9章 基礎(chǔ)設(shè)施智能化運(yùn)營(yíng)與
自動(dòng)化運(yùn)維 / 289
9.1 基礎(chǔ)設(shè)施資源運(yùn)營(yíng)智能化 / 290
9.1.1 需求預(yù)測(cè) / 291
9.1.2 數(shù)據(jù)中心機(jī)架位容量規(guī)劃 / 293
9.1.3 智能制造的發(fā)展趨勢(shì) / 295
9.2 基礎(chǔ)設(shè)施資源交付自動(dòng)化 / 296
9.2.1 通過(guò)帶外網(wǎng)絡(luò)實(shí)現(xiàn)的遠(yuǎn)程自動(dòng)
開關(guān)機(jī) / 296
9.2.2 服務(wù)器操作系統(tǒng)自動(dòng)化安裝 / 297
9.2.3 自動(dòng)化部署遇到的問(wèn)題及解決
方案 / 300
9.3 基礎(chǔ)設(shè)施智能監(jiān)管控 / 300
9.3.1 可用性監(jiān)控分析 / 301
9.3.2 電熱異常感知 / 301
9.3.3 能效優(yōu)化 / 304
9.4 物理機(jī)自動(dòng)化維修 / 305
9.4.1 故障發(fā)現(xiàn) / 305
9.4.2 故障預(yù)測(cè) / 307
9.4.3 故障維修 / 307
9.5 集群自動(dòng)化運(yùn)維 / 309
9.5.1 集群自動(dòng)化運(yùn)維的主要設(shè)計(jì)
思想 / 309
9.5.2 物理機(jī)集群智能自愈系統(tǒng) / 311
9.6 網(wǎng)絡(luò)智能變更系統(tǒng) / 314
9.6.1 變更穩(wěn)定性挑戰(zhàn) / 314
9.6.2 解決方案 / 315
9.6.3 網(wǎng)絡(luò)智能化變更系統(tǒng) / 316
9.7 無(wú)人值守的數(shù)據(jù)中心 / 317
第10章 IDC、網(wǎng)絡(luò)、服務(wù)器的
一體化 / 319
10.1 基礎(chǔ)設(shè)施的最優(yōu)化匹配 / 319
10.1.1 大集群與業(yè)務(wù)的最優(yōu)匹配 / 319
10.1.2 IDC建筑、網(wǎng)絡(luò)大集群、服務(wù)
器的宏觀優(yōu)化 / 320
10.1.3 機(jī)架功耗、服務(wù)器功耗、網(wǎng)
絡(luò)端口利用率的微觀優(yōu)化 / 321
10.2 整機(jī)架交付:OCP、天蝎
與AliRack / 322
10.3 面向業(yè)務(wù)的一體化解決方案:
HPC、超算、AI / 323
10.4 系統(tǒng)技術(shù)分層與協(xié)作 / 327
10.5 全系統(tǒng)模擬器 / 328
第11章 總結(jié)及展望 / 330
11.1 2022年——世界第一的基礎(chǔ)
設(shè)施 / 330
11.2 基礎(chǔ)設(shè)施5.0——AI、異構(gòu)、
智能化 / 332
11.3 基礎(chǔ)設(shè)施6.0——一體化最優(yōu)
基礎(chǔ)設(shè)施架構(gòu) / 332
11.4 五年之后的基礎(chǔ)設(shè)施——?jiǎng)?chuàng)新
的機(jī)制保障 / 333
11.4.1 NASA與達(dá)摩院——阿里巴巴
的科技創(chuàng)新 / 333
11.4.2 AIS的創(chuàng)新機(jī)制 / 333
11.4.3 前瞻布局與戰(zhàn)略拖動(dòng) / 334
11.5 量子與未來(lái) / 334
11.5.1 量子通信 / 334
11.5.2 量子計(jì)算 / 335