關(guān)于Linux企業(yè)級高可用實踐真?zhèn)飨盗袌D書
經(jīng)過三年多時間的打磨,Linux企業(yè)級高可用實踐真?zhèn)飨盗袌D書終于與讀者見面了。本系列圖書是系統(tǒng)高可用的最佳實踐總結(jié)。無論是自建平臺還是流行的公有云平臺,高可用系
統(tǒng)的架構(gòu)基本上都包含以下三部分:
z前端的負載均衡,實現(xiàn)應(yīng)用層面的可用性及可擴展性。
z分布式的監(jiān)控系統(tǒng),作為高可用系統(tǒng)的耳目,在無人值守的情況下隨時監(jiān)控基礎(chǔ)設(shè)施和應(yīng)用的運行情況。
z底層的超融合集群,不僅能加快系統(tǒng)和應(yīng)用的部署速度,而且能把整個業(yè)務(wù)層面的可用性提到更高的層次。
筆者現(xiàn)有的高可用環(huán)境由負載均衡(前端)、Proxmox VE超融合高可用集群(包含Proxmox Backup Server多副本備份)、Centreon分布式監(jiān)控平臺(千里眼、順風(fēng)耳)組成。與10年前
相比,運維壓力減輕很多。本系列圖書正是基于筆者的親身實踐而寫,包括《Proxmox VE超融合集群實踐真?zhèn)鳌贰斗植际奖O(jiān)控平臺Centreon實踐真?zhèn)鳌泛汀禠inux 負載均衡實踐真?zhèn)鳌贰?/p>
Linux企業(yè)級高可用實踐真?zhèn)飨盗袌D書有以下特點:
(1)原創(chuàng)性。本系列圖書的內(nèi)容為筆者實際工作場景(脫敏后的真實運行環(huán)境)的再現(xiàn)和還原,凝聚筆者二十多年的經(jīng)驗、教訓(xùn)與心得體會,旨在讓后來者少踩坑,少走彎路。
(2)時效性。本系列圖書所采用的系統(tǒng)、工具版本為當前主流穩(wěn)定版本,短時間內(nèi)不會過時,易于獲取并部署到真實的生產(chǎn)環(huán)境。
(3)非全面性。本系列圖書不是使用手冊,書中內(nèi)容根據(jù)實際需要在軟件或工具功能上做取舍,不可能面面俱到。即便如此,讀者按書中的思路、實踐方法去操作,應(yīng)該可以將自己所需要的功能一一實現(xiàn)。
(4)接地氣。書中講的更多的是思路、實踐經(jīng)驗及部分感言,是比較接地氣的。
本系列圖書適合有一定Linux基礎(chǔ)并且從事系統(tǒng)運維的技術(shù)人員、計算機專業(yè)學(xué)生、高可用系統(tǒng)架構(gòu)研究者閱讀。
關(guān)于本書
Centreon是一款分布式開源監(jiān)控平臺,易于安裝、管理,可支持大規(guī)模的網(wǎng)絡(luò)監(jiān)控。Centreon基于大名鼎鼎的Nagios,并對其進行了二次封裝。Centreon以ISO鏡像方式一鍵部署,以Web方式添加監(jiān)控對象;管理界面簡潔直觀、性能強勁(監(jiān)控引擎掃描監(jiān)控對象時,不頻繁查詢數(shù)據(jù)集);可單機監(jiān)控,也可與Poller組成集群,以支持大規(guī)模網(wǎng)絡(luò)監(jiān)控或者監(jiān)控受保護的內(nèi)部網(wǎng)絡(luò)。
在開源領(lǐng)域,有多種可選的監(jiān)控平臺,比較主流的有Zabbix、Nagios、Prometheus等。目前Zabbix在國內(nèi)的知名度最高,除了產(chǎn)品本身優(yōu)秀,還與其有力的宣傳有關(guān)。作為Nagios的繼任者,Centreon在功能及易用性上可以與Zabbix相媲美,筆者建議大家有條件的話嘗試使用Centreon,畢竟多一個選擇就是多一條路。
致謝
為盡可能地保證行文和技術(shù)上的正確性,在本書寫作時特邀請Linux系統(tǒng)管理員曾俊輝先生全程參與,在此表示特別感謝!
田 逸
2022年12月
第1章 監(jiān)控那些事 / 1
1.1 筆者的監(jiān)控之旅 / 1
1.2 監(jiān)控的分類 / 4
1.3 有效監(jiān)控 / 5
1.4 經(jīng)驗之談 / 5
第2章 認識開源分布式監(jiān)控平臺Centreon / 7
2.1 Centreon的主要特征 / 7
2.2 Centreon的主要組成部分 / 10
2.2.1 操作系統(tǒng)CentOS / 10
2.2.2 數(shù)據(jù)庫MySQL / 10
2.2.3 Web服務(wù)器Apache / 11
2.2.4 應(yīng)用程序PHP / 12
2.2.5 Centreon相關(guān)組件 / 12
2.2.6 Centreon分布式監(jiān)控架構(gòu) / 15
2.3 Centreon Web管理界面簡述 / 16
第3章 安裝和部署Centreon 20.10 / 20
3.1 安裝和部署需求 / 20
3.2 安裝前的準備工作 / 22
3.3 以ISO方式安裝Centreon / 23
3.4 在操作系統(tǒng)CentOS 7上安裝 Centreon / 32
3.4.1 安裝Centreon的先決條件 / 32
3.4.2 準備yum安裝源 / 33
3.4.3 安裝CentreonCentral Server / 34
3.4.4 修改數(shù)據(jù)庫LimitNOFILE限制 (可選) / 35
3.4.5 修改PHP時區(qū) / 35
3.4.6 將所有相關(guān)服務(wù)設(shè)置成隨系統(tǒng)開機啟動 / 36
3.4.7 啟動所有服務(wù) / 36
3.5 驗證Centreon安裝的正確性 / 36
第4章 Centreon初始化及配置詳解 / 38
4.1 Centreon初始化設(shè)置 / 38
4.2 Centreon 20相關(guān)信息初探 / 43
4.2.1 Centreon相關(guān)性賬號 / 43
4.2.2 主要配置文件 / 44
4.3 Web管理后臺登錄 / 51
4.4 注意事項 / 51
第5章 部署第一個監(jiān)控實例 / 53
5.1 添加主機 / 53
5.2 添加依附于主機的服務(wù) / 60
5.3 導(dǎo)出數(shù)據(jù)并啟動Centreon引擎 / 62
5.4 操作步驟匯總 / 68
5.5 驗證監(jiān)控有效性 / 68
第6章 監(jiān)控生產(chǎn)環(huán)境之準備工作 / 70
6.1 確定監(jiān)控范圍 / 70
6.2 告警工具準備 / 71
6.3 釘釘告警 / 71
6.3.1 準備釘釘群組機器人 / 71
6.3.2 將告警整合進Centreon / 76
6.4 短信告警 / 82
6.5 郵件告警 / 83
第7章 監(jiān)控生產(chǎn)環(huán)境之主機資源監(jiān)控 / 86
7.1 監(jiān)控主機資源 / 86
7.1.1 安裝NRPE / 86
7.1.2 安裝Nagios插件 / 87
7.1.3 在被監(jiān)控端配置NRPE / 88
7.1.4 驗證NRPE / 91
7.1.5 為監(jiān)控服務(wù)器CentreonCentral添加主機資源監(jiān)控項 / 93
7.1.6 主機資源監(jiān)控驗證 / 98
7.2 模擬故障告警 / 99
7.3 批量部署NRPE監(jiān)控主機資源 / 104
第8章 監(jiān)控生產(chǎn)環(huán)境之服務(wù)監(jiān)控 / 107
8.1 監(jiān)控服務(wù) / 107
8.1.1 監(jiān)控負載均衡(Keepalived HAProxy)/ 107
8.1.2 監(jiān)控Proxmox VE超融合集群 / 111
8.2 監(jiān)控小型站點 / 115
8.2.1 監(jiān)控Nginx服務(wù) / 115
8.2.2 監(jiān)控PHP服務(wù) / 116
8.2.3 監(jiān)控MySQL數(shù)據(jù)庫 / 117
8.2.4 綜合性監(jiān)控 / 123
第9章 Centreon日常維護及管理 / 125
9.1 Centreon日常維護 / 125
9.1.1 Centreon相關(guān)服務(wù)的啟停 / 125
9.1.2 Centreon數(shù)據(jù)備份 / 126
9.1.3 Centreon故障處理 / 129
9.2 CentreonCentral日常管理 / 131
9.2.1 添加聯(lián)系人/用戶 / 131
9.2.2 刪除被監(jiān)控主機 / 140
9.2.3 刪除聯(lián)系人/用戶 / 141
9.3 Nagios插件腳本撰寫 / 142
9.3.1 監(jiān)控日志文件是否生成 (check_logfile) / 142
9.3.2 監(jiān)控日志文件大小 (check_logsize) / 143
9.4 CentreonCentral告警靜默 / 144
9.4.1 立刻保持靜默 / 144
9.4.2 固定時間靜默 / 146
第10章 Centreon的使用技巧 / 148
10.1 創(chuàng)建Centreon模板 / 148
10.2 自定義CentreonCentral管理后臺視圖(Custom Views) / 153
10.3 復(fù)制監(jiān)控對象 / 156
10.4 多用戶釘釘機器人報警 / 158
10.4.1 創(chuàng)建釘釘群組 / 158
10.4.2 創(chuàng)建自定義釘釘群組機器人 / 159
10.4.3 創(chuàng)建另一個釘釘機器人調(diào)用腳本 / 160
10.4.4 Centreon Web管理后臺創(chuàng)建通知命令 / 161
10.4.5 創(chuàng)建聯(lián)系人并關(guān)聯(lián)釘釘 / 163
10.4.6 聯(lián)系人/用戶附屬到主機或者服務(wù) / 164
第11章 Centreon版本升級 / 165
11.1 Centreon小版本升級 / 165
11.1.1 更新Centreon yum源 / 165
11.1.2 Centreon在線更新 / 166
11.1.3 重啟PHP及Apache服務(wù) / 167
11.1.4 Centreon管理后臺更新 / 168
11.1.5 重啟其他相關(guān)服務(wù) / 172
11.2 Centreon大版本升級 / 172
11.1.1 更新系統(tǒng)及Centreon yum源 / 172
11.1.2 Centreon更新 / 173
11.2.3 啟動新的PHP 7.2 / 173
11.2.4 驗證升級是否正常 / 177
11.3 Centreon版本升級的變化 / 178
第12章 Centreon分布式監(jiān)控 / 180
12.1 安裝Centreon分布式Poller / 181
12.2 為中央服務(wù)器添加Poller / 183
12.2.1 以SSH協(xié)議連接遠端Poller / 183
12.2.2 以gorgone協(xié)議連接遠端Poller / 187
12.3 通過遠端Poller監(jiān)控私有網(wǎng)絡(luò) / 190
12.3.1 需求及場景描述 / 191
12.3.2 添加受保護的內(nèi)網(wǎng)主機 / 191
12.3.3 添加主機服務(wù)項 / 192
12.3.4 模擬故障,驗證監(jiān)控是否有效 / 193
第13章 Centreon備份與恢復(fù) / 196
13.1 最快的備份及恢復(fù) / 197
13.1.1 Centreon系統(tǒng)備份 / 197
13.1.2 Centreon系統(tǒng)快速恢復(fù) / 199
13.2 簡化性的Centreon備份及恢復(fù) / 202
13.2.1 備份MariaDB數(shù)據(jù)庫 / 202
13.2.2 備份非數(shù)據(jù)庫文件 / 203
13.2.3 Centreon中央監(jiān)控服務(wù)器恢復(fù) / 203
13.3 經(jīng)驗總結(jié) / 205
第14章 Centreon典型故障處理 / 207
14.1 遠端Poller故障 / 207
14.2 CentreonCentral中央監(jiān)控服務(wù)器故障 / 211
14.2.1 CentreonCentral Web管理后臺不能登錄 / 211
14.2.2 Cdb服務(wù)不能啟動 / 212
14.2.3 Centreon Poller間歇性停止故障 / 213
14.3 NRPE故障 / 217
14.3.1 普通賬號權(quán)限問題 / 218
14.3.2 遠端Poller內(nèi)的NRPE權(quán)限問題 / 220
第15章 雜項 / 222
15.1 Centreon高可用性(HA) / 222
15.2 監(jiān)控更大規(guī)模的網(wǎng)絡(luò) / 224
15.3 Centreon的安全性 / 225