本書基于作者多年的教學與實踐進行編寫,重點介紹Kafka消息系統的核心原理與架構,內容涉及開發(fā)、運維、管理與架構。全書共11章,第1章,介紹Kafka體系架構基礎,包括消息系統的基本知識、Kafka的體系架構與ZooKeeper;第2章,介紹Kafka的環(huán)境部署,以及基本的應用程序開發(fā);第3章,介紹Kafka的生產者及其運行機制,包括生產者的創(chuàng)建和執(zhí)行過程、生產者的消息發(fā)送模式和生產者的高級特性等;第4章,介紹Kafka的消費者及其運行機制,包括消費者的消費模式、消費者組與消費者、消費者的偏移量與提交及消費者的高級特性等;第5章,介紹Kafka服務器端的核心原理,包括主題與分區(qū)、消息的持久性與傳輸保障、Kafka配額與日志的管理;第6章,介紹Kafka的流處理引擎Kafka Stream;第7章,介紹使用不同的工具監(jiān)控Kafka,包括Kafka Manager、Kafka Tool、KafkaOffsetMonitor和JConsole;第8章至第11章,介紹Kafka與外部系統的集成,包括集成Flink、集成Storm、集成Spark和集成Flume。
趙渝強(趙強老師),18年以上的IT行業(yè)從業(yè)經歷,清華大學計算機軟件專業(yè)畢業(yè),京東大學大數據學院院長,Oracle中國有限公司高級技術顧問,華為官方認證講師,曾在BEA、甲骨文、摩托羅拉等世界500強公司擔任高級軟件架構師或咨詢顧問等要職,精通大數據、數據庫、容器技術、中間件技術和Java技術。
第1章 Kafka體系架構基礎 1
1.1 什么是消息系統 1
1.2 消息系統的分類 2
1.2.1 同步消息機制與異步消息機制 3
1.2.2 隊列與主題 4
1.3 Kafka的體系架構 5
1.3.1 消息服務器 6
1.3.2 主題、分區(qū)與副本 6
1.3.3 生產者 7
1.3.4 消費者與消費者組 8
1.4 分布式協調服務ZooKeeper 9
1.4.1 ZooKeeper集群的架構 9
1.4.2 ZooKeeper的節(jié)點類型 10
1.4.3 ZooKeeper的觀察機制 13
1.4.4 ZooKeeper的分布式鎖 14
1.4.5 ZooKeeper在Kafka中的作用 17
1.5 準備實驗環(huán)境 17
1.5.1 安裝CentOS操作系統 17
1.5.2 配置CentOS操作系統 23
1.5.3 安裝JDK 24
第2章 部署Kafka 25
2.1 部署ZooKeeper 25
2.1.1 ZooKeeper的核心配置文件 26
2.1.2 部署ZooKeeper的Standalone模式 28
2.1.3 部署ZooKeeper的集群模式 32
2.1.4 測試ZooKeeper集群 35
2.2 安裝部署Kafka 36
2.2.1 單機單Broker的部署 40
2.2.2 單機多Broker的部署 42
2.2.3 多機多Broker的部署 43
2.2.4 使用命令行測試Kafka 44
2.3 Kafka配置參數詳解 45
2.4 Kafka在ZooKeeper中保存的數據 46
2.5 開發(fā)客戶端程序測試Kafka 47
2.5.1 開發(fā)Java版本的客戶端程序 48
2.5.2 開發(fā)Scala版本的客戶端程序 50
第3章 Kafka的生產者 53
3.1 Kafka生產者的執(zhí)行過程 53
3.2 創(chuàng)建Kafka生產者 54
3.2.1 創(chuàng)建基本的消息生產者 54
3.2.2 發(fā)送自定義消息對象 55
3.3 生產者的消息發(fā)送模式 60
3.4 生產者的高級特性 61
3.4.1 生產者分區(qū)機制 61
3.4.2 生產者壓縮機制 66
3.4.3 生產者攔截器 67
3.5 生產者的參數配置 71
第4章 Kafka的消費者 77
4.1 Kafka消費者的消費模式 77
4.1.1 消息的推送模式 77
4.1.2 消息的拉取模式 77
4.1.3 推送模式與拉取模式的區(qū)別 78
4.1.4 消息者組 78
4.2 創(chuàng)建Kafka消費者 79
4.2.1 創(chuàng)建基本的消息消費者 79
4.2.2 接收自定義消息對象 80
4.3 消費者與消費者組 82
4.3.1 消費者和消費者組與分區(qū)的關系 82
4.3.2 分區(qū)的重平衡 85
4.4 消費者的偏移量與提交 86
4.4.1 偏移量與重平衡 86
4.4.2 偏移量的提交方式 87
4.5 消費者的高級特性 90
4.5.1 消費者的分區(qū)策略 90
4.5.2 重平衡監(jiān)聽器 93
4.5.3 消費者的攔截器 95
4.5.4 消費者的優(yōu)雅退出 97
4.6 消費者的參數配置 98
第5章 Kafka的服務器端 102
5.1 主題與分區(qū) 102
5.1.1 主題和分區(qū)的關系 102
5.1.2 主題的管理 103
5.1.3 使用KafkaAdminClient 109
5.2 消息的持久性 111
5.2.1 Kafka消息持久性概述 111
5.2.2 Kafka的持久化原理解析 112
5.2.3 持久化的讀寫流程 114
5.2.4 為什么要建立分段和索引 115
5.3 消息的傳輸保障 115
5.3.1 生產者的ack機制 115
5.3.2 消費者與高水位線 116
5.4 副本和Leader副本的選舉 117
5.5 Kafka配額的管理 118
5.6 Kafka的日志刪除與壓縮 120
5.6.1 日志的刪除 120
5.6.2 日志的壓縮 120
5.6.3 清理的實現細節(jié) 120
5.7 Kafka與ZooKeeper 123
5.7.1 ZooKeeper扮演的角色 123
5.7.2 Kafka在ZooKeeper中存儲的數據 124
5.8 服務器端參數設置 125
第6章 流處理引擎Kafka Stream 130
6.1 Kafka Stream的體系架構 130
6.1.1 為什么需要Kafka Stream 130
6.1.2 Kafka Stream的體系架構 131
6.1.3 執(zhí)行Kafka Stream示例程序 132
6.2 開發(fā)自己的Kafka Stream應用程序 134
6.3 Kafka Stream中的數據模型 139
6.3.1 KStream與KTable 139
6.3.2 狀態(tài)管理 141
6.4 Kafka Stream中的窗口計算 144
6.4.1 時間 144
6.4.2 窗口 145
第7章 監(jiān)控Kafka 151
7.1 Kafka的監(jiān)控指標 151
7.2 使用Kafka客戶端監(jiān)控工具 153
7.2.1 Kafka Manager 153
7.2.2 Kafka Tool 157
7.2.3 KafkaOffsetMonitor 162
7.2.4 JConsole 163
7.3 監(jiān)控ZooKeeper 166
第8章 Kafka與Flink集成 168
8.1 Flink的體系架構 168
8.1.1 Flink中的數據集 168
8.1.2 Flink的生態(tài)圈體系 169
8.1.3 Flink的體系架構 171
8.2 安裝部署Flink Standalone模式 172
8.2.1 Flink Standalone模式的部署 174
8.2.2 在Standalone模式上執(zhí)行Flink任務 178
8.3 Flink DataSet API算子 181
8.4 Flink DataStream API算子 191
8.5 集成Flink與Kafka 196
8.5.1 將Kafka作為Flink的Source Connector 197
8.5.2 將Kafka作為Flink的Sink Connector 200
第9章 Kafka與Storm集成 203
9.1 離線計算與流式計算 203
9.2 Apache Storm的體系架構 205
9.3 部署Apache Storm 207
9.3.1 部署Storm的偽分布模式 209
9.3.2 部署Storm的全分布模式 213
9.3.3 Storm HA模式 216
9.4 執(zhí)行Apache Storm任務 220
9.4.1 執(zhí)行WordCountTopology 220
9.4.2 Storm的其他管理命令 224
9.5 開發(fā)自己的Storm任務 224
9.5.1 Storm Topology任務處理的數據模型 224
9.5.2 開發(fā)自己的WordCountTopology任務 226
9.6 集成Kafka與Storm 232
9.6.1 Storm從Kafka中接收數據 233
9.6.2 測試Kafka與Storm的集成 236
9.6.3 Storm將數據輸出到Kafka 238
第10章 Kafka與Spark集成 240
10.1 Spark基礎 240
10.1.1 Spark的特點 241
10.1.2 Spark的體系架構 242
10.2 安裝部署Spark環(huán)境 243
10.2.1 偽分布模式的單節(jié)點環(huán)境部署 246
10.2.2 全分布模式的環(huán)境安裝部署 248
10.3 執(zhí)行Spark任務 249
10.3.1 使用spark-submit提交任務 249
10.3.2 交互式命令行工具spark-shell 251
10.4 Spark的核心編程模型 256
10.4.1 什么是RDD 256
10.4.2 RDD的算子 257
10.4.3 開發(fā)自己的WordCount程序 260
10.5 流式計算引擎Spark Streaming 264
10.5.1 什么是Spark Streaming 264
10.5.2 離散流 265
10.5.3 開發(fā)自己的Spark Streaming程序 266
10.6 集成Kafka與Spark Streaming 269
10.6.1 基于Receiver的方式 269
10.6.2 直接讀取的方式 271
第11章 Kafka與Flume集成 274
11.1 Apache Flume基礎 274
11.1.1 Apache Flume的體系架構 274
11.1.2 Apache Flume的安裝和部署 278
11.2 Flume的Source組件 280
11.3 Flume的Channel組件 282
11.4 Flume的Sink組件 283
11.5 集成Kafka與Flume 287