這是一本能指導IT運維團隊養(yǎng)成數字化思維、掌握數字化運維能力、構建數字化運維體系的著作。它能幫助企業(yè)在數字化轉型的過程中,讓運維團隊從成本部門變?yōu)閮r值創(chuàng)造中心,并與企業(yè)的戰(zhàn)略方向相契合,為企業(yè)順利實現(xiàn)數字化轉型提供技術保障。
本書將數據智能、協(xié)同網絡、員工賦能、一切皆服務4個數字化思維作為運維場景數字化落地的指導思想,創(chuàng)新性地提出組織、流程、平臺、場景四位一體的數字化運維體系。不僅為數字化運維提供思想指導、方法論體系,還為數字化運維提供落地思路和實踐指導,指出數字化運維的方向是人機協(xié)同。
全書的內容圍繞運維體系的價值創(chuàng)造和數字化運維體系的構建與落地展開,主要包含如下幾個方面。
(1)運維數字化轉型的價值與本質
從價值創(chuàng)造角度重點分析數字化轉型下的IT運維價值與運維體系,指出運維數字化轉型的本質是構建應對復雜環(huán)境的適應性系統(tǒng)。
(2)適應性組織
從組織角度重點分析如何從組織架構、專業(yè)崗位、人員能力、目標管理、思維模式等方面打造具備成長型、人機協(xié)同的適應性組織。
(3)全在線流程
從流程角度重點分析如何用數字化思維重塑故障、變更、服務、架構、服務、知識等流程。
(4)賦能型平臺
從平臺角度重點分析如何推進賦能型平臺的建設,實現(xiàn)具備良好擴展性能力的運維平臺。
(5)場景革命
從場景角度重點提出了數字化場景構建方法,幫助運維將組織沉淀下來的知識與機制場景化。
(1)作者背景資深:運維數字化領域領軍人物,現(xiàn)任廣發(fā)證券信息技術部數字化運維研發(fā)團隊負責人,參與多項行業(yè)標準制定。
(2)作者經驗豐富:作者從事運維工作近15年,其中在金融領域有超過10年的運維經驗,有多項重大運維工程的實戰(zhàn)經驗。
(3)17位專家推薦:廣發(fā)證券副總經理兼首席信息官辛治運、廣發(fā)證券信息技術部副總經理兼董事總經理李立峰、優(yōu)锘科技CEO 陳傲寒,優(yōu)維科技CEO王津銀等17位專家強烈推薦。
(4)數字化運維標準著作:指導IT運維團隊養(yǎng)成數字化思維、掌握數字化運維能力、構建數字化運維體系,為企業(yè)順利實現(xiàn)數字化轉型提供技術保障。
數智萬物時代
“天下大勢,浩浩蕩蕩,順之者昌,逆之者亡!
在全球經濟下行、局部戰(zhàn)爭加劇、單邊經濟制裁、信息技術架構變革等因素的影響下,數字化轉型既是當今企業(yè)必須面對的挑戰(zhàn),也是必須把握的機遇。企業(yè)將以數字化思維,結合數字化技術,構建一個符合價值創(chuàng)造與價值捕獲的數字世界,需要對現(xiàn)有商業(yè)模式、運營方式、企業(yè)文化進行創(chuàng)新和重塑,以實現(xiàn)業(yè)務價值。
轉型是一個持續(xù)認識自己、暢想未來的過程,做對的事與用對的方法尤為重要。企業(yè)雖然已經知道數字化轉型的重要性,但是對選擇小步試錯的局部改良來影響核心商業(yè)模式的方式,還是選擇從局部擴展到整體,大刀闊斧地對商業(yè)模式、業(yè)務模式、運營模式、管理模式進行顛覆性變革的方式,仍有困惑。本書涉及的企業(yè)是傳統(tǒng)金融企業(yè),對于這類企業(yè)來說徹底顛覆已有商業(yè)模式比較難落實,所以實現(xiàn)數字化轉型更容易的辦法是用數字化思維將原有業(yè)務重新做一遍。不同企業(yè)在數字化轉型上的實踐各有不同,但仍有一些異曲同工之處,比如建立頂層設計的價值創(chuàng)造,聚焦組織外部的客戶服務、產品或商業(yè)模式創(chuàng)新的數字化業(yè)務,聚焦組織內部運營管理的數字化管理,聚焦技術賦能的數字化技術。
價值創(chuàng)造的重點是自上而下圍繞企業(yè)業(yè)務和管理各領域的數字化轉型愿景和目標,形成企業(yè)核心價值主張。各業(yè)務線及運營管理線基于企業(yè)核心價值主張,采用數字化思維,逐層分解具體的價值創(chuàng)造活動。分解后的活動是價值創(chuàng)造的生產端,產生的價值將傳遞到企業(yè),終有效利用數據資產。結合機器算法與算力是價值創(chuàng)造的關鍵。
數字化業(yè)務的重點是將業(yè)務與數字技術進行融合,持續(xù)提升業(yè)務運營效率與客戶體驗,通常包括業(yè)務線上化、數據業(yè)務化、業(yè)務智能化。業(yè)務線上化是以數字思維重塑成熟業(yè)務場景,實現(xiàn)業(yè)務在線,落地數據資產的有序生成和有效歸集;數據業(yè)務化是變現(xiàn)在線數據價值,通過在線感知外部政策環(huán)境、市場變化、客戶體驗、內部員工反饋等信息,提升客戶體驗,讓當前業(yè)務價值增長,并利用數字技術進行業(yè)務創(chuàng)新,重構產品及服務交付方式,發(fā)現(xiàn)新的業(yè)務增長點;業(yè)務智能化是推動人機協(xié)同的業(yè)務模式,提供實時、可靠的在線業(yè)務服務。
數字化管理的重點是結合企業(yè)規(guī)模建立適合的管理機制、流程。不少大中型企業(yè)提出構建敏捷前臺與中臺管理體系,實現(xiàn)大平臺支持一線精兵作戰(zhàn)的協(xié)同模式。這種中臺管理體系是通過共享、沉淀、復用、協(xié)同和賦能等機制,實現(xiàn)企業(yè)資源總體協(xié)調與配置,保障制度有效落地,促進機制傳導順暢,確保各個環(huán)節(jié)合規(guī),達到支持前臺業(yè)務敏捷落地的效果。
數字化管理與數字化業(yè)務的落地需要敏捷高效的技術架構與科學有效的IT風險管控體系支撐。在技術架構方面,有別于傳統(tǒng)封閉式、垂直式技術架構,數字化技術架構需要以平臺化思維構建服務化、云化的開放架構,打造可共享、可擴展、可共生的技術平臺。在風險管控體系方面,結合當前國際形勢、全球經濟下行等挑戰(zhàn),構建業(yè)務連續(xù)性保障、安全保障、質量保障體系。
運維數字世界
運維價值繼承于IT價值,IT價值繼承于企業(yè)核心價值。運維數字世界要如何構建以及構建成什么樣子,遵循企業(yè)價值創(chuàng)造的整體方向。本書基于金融企業(yè)的特點,將運維當前的價值創(chuàng)造總結為“提高業(yè)務連續(xù)性保障水平”“提升業(yè)務交付速度”“輔助提升客戶體驗”
“提升IT服務質量”4點。其中,業(yè)務連續(xù)性保障是整個運維,乃至IT領域基礎的工作;數字化轉型中組織重點需要快速響應客戶需求,業(yè)務交付是運維關鍵價值鏈;以客戶為中心并提升客戶體驗,已成為大部分公司的關鍵戰(zhàn)略目標,運維數據能夠為提升客戶體驗賦能;IT服務質量管理將推動IT服務全面軟件化,提升IT服務效能。
數字化思維是運維場景數字化終落地的指導思想。本書提出圍繞“協(xié)同網絡、數據智能、一切皆服務、員工賦能”四個關鍵詞,重新設計運維工作場景。四個關鍵詞的關系是:利用實時在線的運維數字化空間搭建實時互動的多角色協(xié)同網絡,支持在線遠程協(xié)作;數據智能對協(xié)同網絡中眾多有效連接進行強化;采用一切皆服務的理念實現(xiàn)所見即所得的服務交付,連接IT服務供需雙方;員工不僅是有效連接的核心節(jié)點,也是協(xié)同網絡的設計者與建設者,需要加強為員工賦能,重塑員工生產力,激發(fā)運維組織創(chuàng)新。
人機協(xié)同是數字化運維的方向。人機協(xié)同聚焦在通過機器輔助運維洞察、決策與執(zhí)行,是在原來運維參與者的協(xié)同網絡上,增加了機器角色。人機協(xié)同運維模式關鍵的角色仍是人,利用人的創(chuàng)造力,結合機器所提供的數據和算法,輔助人執(zhí)行運維任務。人機協(xié)同將是AIOps的一個發(fā)展方向,未來運維組織中將出現(xiàn)各種各樣的機器角色。
平臺化管理是復雜運維數字世界的管理方法。組織擴大到一定規(guī)模,以個人經驗、個體責任心、工作習慣為主的方式容易引發(fā)操作風險,且無法量化績效,管理規(guī)范無法落地。平臺化管理是利用數據、算法、平臺承擔管理工作,為管理者提供數字化的“洞察、決策、執(zhí)行”閉環(huán)能力,讓每個人的工作過程可觀測,輔助管理者了解參與人員的能力,并基于數據制定一些方法幫助員工提升能力。
組織、流程、平臺、場景組成運維數字世界。其中,組織關注組織結構、崗位設置、人員能力的持續(xù)提升,以適應不斷變化的環(huán)境;流程關注結合實踐與組織稟賦,實現(xiàn)在線化、自動化;平臺關注“析”層面落地領先的AIOps算法與數據“采、存、算、管、用”的能力,“控”層面落地自動化執(zhí)行的能力,“管”層面落地流程機制的能力,“監(jiān)”層面落地對機器世界的感知能力;場景關注運維組織智慧的結晶,利用數字化思維,整合組織、流程、平臺,實現(xiàn)運維數字化。
本書組織和結構
相比于其他運維書籍,本書力求從實踐經驗中梳理數字化運維體系的結構,從體系價值創(chuàng)造、組織、流程、平臺、場景5部分進行分析。
部分重點介紹數字化轉型下的運維價值與運維體系。行業(yè)中有不少運維數字化轉型話題與解決方案,但很多未切中數字化轉型的本質。部分首先介紹了數字化是什么,企業(yè)核心價值創(chuàng)造是什么,以及IT價值創(chuàng)造又是什么;其次將IT價值傳遞到運維組織,梳理了運維價值創(chuàng)造,以及實現(xiàn)相關價值創(chuàng)造的方法;后歸納了運維數字化轉型的本質是構建應對復雜環(huán)境的適應性系統(tǒng)。
第二部分關注運維組織,重點介紹數字化運維體系下的適應性組織。適應性組織由組織架構、專業(yè)崗位、人員能力、目標管理、思維模式等組成。相比傳統(tǒng)職能型組織,適應性組織是成長型、人機協(xié)同型組織。
第三部分關注運維流程,重點介紹在線化、數字化流程。相比企業(yè)內其他部門,運維組織的故障管理、變更管理、服務、架構、知識管理等流程化水平比較高。數字化轉型給運維流程的啟發(fā)是用數字化思維重塑現(xiàn)有流程。
第四部分關注運維平臺,重點介紹賦能型平臺。推進平臺建設需要規(guī)劃好平臺體系,建設具有良好擴展性的運維平臺。該部分主要圍繞“監(jiān)、管、控、析”的監(jiān)控平臺、IT服務管理平臺、運維操作平臺、運維數據平臺展開介紹。
第五部分關注運維場景,重點介紹數字化運維場景。運維場景是每個運維團隊沉淀下來的寶貴知識,不同企業(yè)的運維場景各有不同,場景融匯了團隊在組織、流程、平臺方面的智慧。數字化運維需要用“連接、數據、賦能”的數字化思維,重新將運維沉淀下來的智慧場景化。
讀者對象
運維工程師面臨復雜度越來越高的機器、應用、邏輯、數據、協(xié)作關系,并很早就開始應用工具應對該挑戰(zhàn)。本書以數字化為切入點,將數字化思維融入運維體系,是對本人運維知識體系的一個總結,內容源于真實運維場景的思考,涉及知識面較廣。編寫本書的目的是體系化地梳理企業(yè)數字化轉型下的運維體系建設,希望給運維行業(yè)數字化轉型提供一些幫助。書中的部分觀點在我的微信訂閱號“運維之路”中有提到,從訂閱號的反饋看,對本書主題感興趣的對象包括:
一線運維工作者;
運維管理決策者;
運維開發(fā)團隊;
IT服務產品的產品經理;
IT服務解決方案工程師;
IT服務供應商決策者;
IT服務供應商銷售與售前工程師;
希望快速了解運維某個領域的投資經理。
推薦語
推薦序一
推薦序二
推薦序三
推薦序四
前 言
部分 數智萬物下的運維
第1章 數智萬物時代已至2
1.1 數智萬物時代3
1.2 企業(yè)價值創(chuàng)造4
1.3 IT價值創(chuàng)造6
第2章 數智萬物下的運維價值創(chuàng)造9
2.1 運維價值創(chuàng)造9
2.2 提高業(yè)務連續(xù)性保障水平11
2.3 提升業(yè)務交付速度14
2.4 輔助提升客戶體驗15
2.5 提升IT服務質量18
第3章 構建應對復雜環(huán)境的數字化
運維體系21
3.1 復雜與不確定性22
3.2 運維復雜性因素22
3.3 構建運維適應性系統(tǒng)25
第二部分 適應性組織
第4章 數字化賦能運維管理32
4.1 運維之痛32
4.2 數字化賦能運維組織轉型36
第5章?組織架構40
5.1 常規(guī)運維組織架構40
5.2 成長型組織43
5.3 人機協(xié)同賦能組織架構46
第6章 崗位與能力50
6.1 職能型運維團隊崗位50
6.2 橫向優(yōu)化型崗位55
6.3 從SRE到BRE57
第7章 目標管理62
7.1 SLA、SLO、SLI62
7.2 OKR65
7.3 做好運維時間管理68
第8章 數字化運維思維模式71
8.1 主動運營思維71
8.2 事件驅動思維76
8.3 數字化工作空間思維79
8.4 敏捷思維81
第9章 數字化運維研發(fā)84
9.1 運維研發(fā)團隊模式84
9.2 金融企業(yè)運維研發(fā)協(xié)作模式86
9.3 運維平臺建設88
第三部分 全在線流程
第10章 流程無處不在96
10.1 運維流程概覽96
10.2 運維流程管理實踐99
第11章 復雜故障場景下的管理閉環(huán)106
11.1 故障的相關定義106
11.2 故障管理閉環(huán)周期108
11.3 故障管理能力增長飛輪110
第12章 防微杜漸,未雨綢繆114
12.1 混沌工程114
12.2 應急演練119
第13章 統(tǒng)籌協(xié)同,快速恢復122
13.1 故障發(fā)現(xiàn)122
13.2 故障響應126
13.3 故障定位130
13.4 故障恢復134
第14章 不浪費任何一個故障137
14.1 復盤137
14.2 故障復盤方法139
第15章 變更管理142
15.1 變更管理概述142
15.2 變更流程144
15.3 變更管理切入點145
第16章 服務目錄與服務臺149
16.1 從被動運維支持轉化為主動建立
服務149
16.2 服務目錄153
16.3 服務臺156
第17章 架構管理159
17.1 常見的技術架構159
17.2 技術架構穩(wěn)定性保障162
17.3 架構管理164
第18章 運維知識管理167
18.1 知識管理概述167
18.2 運維知識管理概述169
18.3 運維知識工程172
第19章 流程指標175
19.1 運維流程指標概述175
19.2 流程指標運營178
第四部分 賦能型平臺
第20章 數字化運維平臺架構186
20.1 一體化平臺187
20.2 “監(jiān)、管、控、析”平臺能力191
20.3 運維中臺194
第21章 平臺落地原則197
21.1 可擴展197
21.2 場景整合198
21.3 自主可控200
21.4 小步快跑200
第22章 運維監(jiān)控平臺202
22.1 從飛機監(jiān)控示例看監(jiān)控203
22.2 從分層看源端監(jiān)控工具206
22.3 統(tǒng)一監(jiān)控告警208
22.4 統(tǒng)一監(jiān)控指標數據212
22.5 性能管理213
22.6 觀察者視角下的監(jiān)控215
22.7 可觀測218
22.8 監(jiān)控運營220
第23章 IT服務管理平臺225
23.1 ServiceNow225
23.2 ITSM系統(tǒng)建設230
23.3 CMDB235
23.4 CMDB數據治理241
第24章 運維操作平臺248
24.1 操作平臺能力248
24.2 持續(xù)交付251
24.3 RPA256
24.4 低代碼259
24.5 作業(yè)調度261
第25章 運維數據平臺265
25.1 運維數據資產265
25.2 行業(yè)數據分析解決方案274
25.3 AIOps運維模式281
25.4 夯實數據底座290
25.5 運維數據治理297
25.6 運維數據可視化307
第五部分 場景革命
第26章 場景驅動314
26.1 場景建設方法論314
26.2 構建場景地圖319
26.3 構建敏捷的運維場景平臺326
第27章 場景地圖全景331
27.1 常規(guī)例行工作場景331
27.2 非例行工作場景337
第28章 連接利器ChatOps341
28.1 ChatOps概述341
28.2 ChatOps解決方案343
28.3 ChatOps的應用場景346
第29章 數據賦能場景350
29.1 數字化感知350
29.2 管理運營353
29.3 技術運營356
第30章 場景案例361
30.1 應急管理場景361
30.2 變更管理場景366
30.3 周末測試場景371
30.4 應急演練場景374