本書講解了大數(shù)據(jù)系統(tǒng)運行維護(hù)過程中的各個主要階段及其任務(wù), 包括配置管理、基礎(chǔ)運維管理、故障管理、性能管理、安全管理、高可用性管理、變更及升級管理、運維場景應(yīng)用及服務(wù)資源管理, 內(nèi)容全面且翔實, 兼具基礎(chǔ)理論知識與運維實踐經(jīng)驗, 特別是重點介紹了大數(shù)據(jù)系統(tǒng)的運維特點及運維技能, 以保障大數(shù)據(jù)系統(tǒng)的穩(wěn)定可靠運行, 更好地支撐大數(shù)據(jù)的商業(yè)應(yīng)用價值。
劉鵬,教授,清華大學(xué)博士畢業(yè),現(xiàn)任南京云創(chuàng)大數(shù)據(jù)科技股份有限公司總經(jīng)理,兼任中國大數(shù)據(jù)應(yīng)用聯(lián)盟人工智能專家委員會主任、中國信息協(xié)會教育分會人工智能教育專家委員會主任、教育部全國普通高校畢業(yè)生就業(yè)創(chuàng)業(yè)指導(dǎo)委員會委員、第45屆世界技能大賽中國區(qū)云計算選拔賽裁判長/專家指導(dǎo)組組長、2019年全國大學(xué)生數(shù)學(xué)建模比賽命題人、工信部云計算研究中心專家。
姜才康,華東計算所碩士畢業(yè),現(xiàn)任中國外匯交易中心工程運行部總經(jīng)理。長期從事銀行間市場(含外匯市場、貨幣市場、債券市場、衍生品市場)的系統(tǒng)設(shè)計開發(fā)、系統(tǒng)運維、標(biāo)準(zhǔn)制定等工作。主持或技術(shù)擔(dān)綱完成了數(shù)十項全國性大型關(guān)鍵系統(tǒng)建設(shè)及重點研究項目,探索中國金融領(lǐng)域的系統(tǒng)建設(shè)技術(shù)路徑及方法;構(gòu)建全方位的銀行間市場風(fēng)險治理和運維安全體系;制定多項銀行間市場技術(shù)規(guī)劃及技術(shù)標(biāo)準(zhǔn),建成并不斷完善銀行間市場技術(shù)生態(tài)圈。數(shù)十次獲得人民銀行科技發(fā)展獎和上海市科技進(jìn)步獎。
李四明,軟件工程碩士,副教授,系統(tǒng)分析師,獲得國家科技進(jìn)步獎三等獎,擁有多項軟件著作專利;主持開發(fā)了醫(yī)院HIS系統(tǒng)、移動臨床系統(tǒng)、移動輸液系統(tǒng)、移動藥品實時監(jiān)管系統(tǒng)、農(nóng)民健康體檢協(xié)同系統(tǒng),承擔(dān)過智慧城市、智慧社區(qū)的整體架構(gòu)工作。
第 1 章 配置管理
1.1 配置管理內(nèi)容 2
1.1.1 配置管理術(shù)語定義 2
1.1.2 應(yīng)用軟件配置 3
1.1.3 硬件配置 3
1.2 配置管理方法 7
1.2.1 配置流程 7
1.2.2 配置自動發(fā)現(xiàn) 11
1.3 配置管理工具 11
1.3.1 CMDB 數(shù)據(jù)庫介紹與實踐 11
1.3.2 自動配置工具 14
1.3.3 云時代下的 CMDB 24
1.4 其他運維工具 24
1.4.1 Ambari 24
1.4.2 CLI 工具 26
1.4.3 Ganglia 27
1.4.4 Cloudera Manager 28
1.4.5 其他工具 31
1.5 作業(yè)與練習(xí) 32
參考文獻(xiàn) 32
第 2 章 基礎(chǔ)運維管理
2.1 系統(tǒng)建設(shè) 33
2.1.1 技術(shù)方案 34
2.1.2 部署實施 35
2.1.3 測試驗收 39
2.2 系統(tǒng)管理對象 40
2.2.1 系統(tǒng)管理對象 40
2.2.2 系統(tǒng)軟件 40
2.2.3 系統(tǒng)硬件 42
2.2.4 系統(tǒng)數(shù)據(jù) 43
2.2.5 IT 供應(yīng)商 43
2.3 系統(tǒng)管理內(nèi)容 44
2.3.1 事件管理 45
2.3.2 問題管理 45
2.3.3 配置管理 46
2.3.4 變更管理 46
2.3.5 發(fā)布管理 47
2.3.6 知識管理 47
2.3.7 日志管理 48
2.3.8 備份管理 48
2.4 系統(tǒng)管理工具 49
2.4.1 資產(chǎn)管理 49
2.4.2 監(jiān)控管理 49
2.4.3 流程管理 50
2.4.4 外包管理 51
2.5 系統(tǒng)管理制度規(guī)范 51
2.5.1 系統(tǒng)管理標(biāo)準(zhǔn) 51
2.5.2 系統(tǒng)管理制度 51
2.5.3 系統(tǒng)管理規(guī)范 52
2.6 日常巡檢 52
2.6.1 檢查內(nèi)容分類 52
2.6.2 巡檢方法分類 53
2.6.3 巡檢流程 54
2.7 日志管理 54
2.7.1 平臺及組件相關(guān)命令 55
2.7.2 日志和告警監(jiān)控 62
2.8 作業(yè)與練習(xí) 67
參考文獻(xiàn) 68
第 3 章 故障管理
3.1 集群結(jié)構(gòu) 69
3.2 故障報告 70
3.2.1 故障發(fā)現(xiàn) 70
3.2.2 影響分析 71
3.3 故障處理 72
3.3.1 故障診斷 72
3.3.2 故障排除 73
3.4 故障后期管理 74
3.4.1 建立和更新知識庫 74
3.4.2 故障預(yù)防 74
3.5 作業(yè)與練習(xí) 75
參考文獻(xiàn) 75
第 4 章 性能管理
4.1 性能分析 76
4.1.1 性能因子 76
4.1.2 性能指標(biāo) 77
4.2 性能監(jiān)控工具 78
4.2.1 GUI 79
4.2.2 集群 CLI 82
4.2.3 操作系統(tǒng)自帶工具 87
4.2.4 Ganglia 92
4.2.5 其他監(jiān)控工具 95
4.3 性能優(yōu)化 95
4.3.1 Hadoop 集群配置規(guī)劃優(yōu)化 95
4.3.2 Hadoop 性能優(yōu)化 96
4.3.3 作業(yè)優(yōu)化 100
4.4 作業(yè)與練習(xí) 108
參考文獻(xiàn) 108
第 5 章 安全管理
5.1 安全概述 109
5.2 資產(chǎn)安全管理 110
5.2.1 環(huán)境設(shè)施安全 110
5.2.2 設(shè)備安全 110
5.3 應(yīng)用安全 111
5.3.1 技術(shù)安全 111
5.3.2 數(shù)據(jù)安全 114
5.4 安全威脅 115
5.4.1 人為失誤 115
5.4.2 外部攻擊 116
5.4.3 信息泄密 122
5.4.4 災(zāi)害 122
5.5 安全措施 123
5.5.1 安全制度規(guī)范 123
5.5.2 安全防范措施 123
5.6 作業(yè)與練習(xí) 124
參考文獻(xiàn) 124
第 6 章 高可用性管理
6.1 高可用性概述 125
6.2 高可用性技術(shù) 126
6.2.1 系統(tǒng)架構(gòu) 126
6.2.2 容災(zāi) 128
6.2.3 監(jiān)控 128
6.2.4 故障轉(zhuǎn)移 134
6.3 業(yè)務(wù)連續(xù)性管理 134
6.3.1 災(zāi)備系統(tǒng) 134
6.3.2 應(yīng)急預(yù)案 138
6.3.3 日常演練 138
6.4 作業(yè)與練習(xí) 139
參考文獻(xiàn) 139
第 7 章 變更及升級管理
7.1 變更管理概述 140
7.1.1 變更管理目標(biāo) 140
7.1.2 變更管理范圍 140
7.1.3 變更管理的種類 140
7.1.4 變更管理的原則 141
7.2 變更管理流程 141
7.2.1 變更的組織架構(gòu) 141
7.2.2 變更的管理策略 141
7.2.3 變更的流程控制 142
7.2.4 變更管理流程 142
7.3 變更配置管理 144
7.4 通用系統(tǒng)升級流程 144
7.4.1 業(yè)務(wù)數(shù)據(jù)集環(huán)境備份 144
7.4.2 系統(tǒng)升級部署的常用策略(藍(lán)綠/滾動/灰度) 145
7.4.3 業(yè)務(wù)服務(wù)驗證 146
7.4.4 數(shù)據(jù)割接與用戶割接 152
7.4.5 回滾策略 155
7.5 作業(yè)與練習(xí) 156
參考文獻(xiàn) 156
第 8 章 運維場景應(yīng)用
8.1 運維場景描述 157
8.2 運維應(yīng)用版本升級 158
8.2.1 Hadoop 升級管理 158
8.2.2 Spark 升級管理 159
8.2.3 Hive SQL 升級管理 161
8.2.4 ZooKeeper 升級管理 163
8.3 微服務(wù)與容器虛擬化 165
8.3.1 業(yè)務(wù)應(yīng)用容器化—Docker 165
8.3.2 容器的集群化管理與編排—k8s 169
8.3.3 微服務(wù)監(jiān)控與服務(wù)追蹤 177
8.4 云原生運維 178
8.4.1 持續(xù)集成與持續(xù)交付 178
8.4.2 Jenkins 流水線 179
8.4.3 自動化持續(xù)部署 180
8.4.4 服務(wù)的注冊與發(fā)現(xiàn) 181
8.4.5 服務(wù)的熔斷與限流 182
8.5 作業(yè)與練習(xí) 183
參考文獻(xiàn) 183
第 9 章 服務(wù)資源管理
9.1 業(yè)務(wù)能力管理 185
9.1.1 業(yè)務(wù)需求評估 185
9.1.2 業(yè)務(wù)需求趨勢預(yù)測 186
9.2 服務(wù)能力管理 187
9.2.1 人員能力動態(tài)管理 187
9.2.2 服務(wù)成本動態(tài)管理 189
9.2.3 技術(shù)與工具管理 190
9.3 服務(wù)資源整合 190
9.3.1 不同角色的責(zé)權(quán)劃分 190
9.3.2 用戶、供應(yīng)商、廠商的典型協(xié)作方式 192
9.4 作業(yè)與練習(xí) 193
參考文獻(xiàn) 194
附錄 A 大數(shù)據(jù)和人工智能實驗環(huán)境
附錄 B Hadoop 環(huán)境要求
附錄 C 名詞解釋