人工智能技術(shù)正以一種超快的速度深刻地改變著我們的生活,引導(dǎo)了第四次工業(yè)革命。美團作為國內(nèi)O2O領(lǐng)域領(lǐng) 先的服務(wù)平臺,結(jié)合自身的業(yè)務(wù)場景和數(shù)據(jù),積極進行了人工智能領(lǐng)域的應(yīng)用探索。在美團的搜索、推薦、計算廣告、風(fēng)控、圖像處理等領(lǐng)域,相關(guān)的人工智能技術(shù)得到廣泛的應(yīng)用。本書包括通用流程、數(shù)據(jù)挖掘、搜索和推薦、計算廣告、深度學(xué)習(xí)以及算法工程6大部分內(nèi)容,全面介紹了美團在多個重要方面對機器學(xué)習(xí)的應(yīng)用。
本書非常適合有一定機器學(xué)習(xí)基礎(chǔ)的工程技術(shù)人員和在校大學(xué)生學(xué)習(xí)和閱讀。通過本書,有經(jīng)驗的算法工程師可以了解美團在這方面的做法,在校大學(xué)生可以學(xué)習(xí)機器學(xué)習(xí)算法如何在具體的業(yè)務(wù)場景中落地。
美團科學(xué)家張錦懋作序推薦,美團技術(shù)委員會執(zhí)行主席劉彭程以及美團科學(xué)家、副總裁夏華夏傾力推薦
美團AI O2O智慧結(jié)晶,機器學(xué)習(xí)算法落地實踐,內(nèi)容涵蓋搜索、推薦、風(fēng)控、計算廣告、圖像處理領(lǐng)域
作者來源于一線資-深工程師,內(nèi)容非常接地氣,可指導(dǎo)開發(fā)一線的工程師
美團算法團隊由數(shù)百名優(yōu)秀算法工程師組成,負責(zé)構(gòu)建美團這個生活服務(wù)互聯(lián)網(wǎng)大平臺的大腦,涵蓋搜索、推薦、廣告、風(fēng)控、機器學(xué)習(xí)、計算機視覺、語音、自然語言處理、智能調(diào)度、機器人和無人配送等多個技術(shù)方向,在幫助美團數(shù)億活躍用戶改善用戶體驗的同時,也幫助餐飲、酒店、婚慶、麗人、親子等200多個行業(yè)的數(shù)百萬商戶提升運營效率。我們致力于通過算法和人工智能技術(shù),幫大家吃得更好,活得更好。
第 一部分 通用流程
第 1章 問題建模 2
1.1 評估指標(biāo) 3
1.1.1 分類指標(biāo) 4
1.1.2 回歸指標(biāo) 7
1.1.3 排序指標(biāo) 9
1.2 樣本選擇 10
1.2.1 數(shù)據(jù)去噪 11
1.2.2 采樣 12
1.2.3 原型選擇和訓(xùn)練集選擇 13
1.3 交叉驗證 14
1.3.1 留出法 14
1.3.2 K折交叉驗證 15
1.3.3 自助法 16
參考文獻 17
第 2章 特征工程 18
2.1 特征提取 18
2.1.1 探索性數(shù)據(jù)分析 19
2.1.2 數(shù)值特征 20
2.1.3 類別特征 22
2.1.4 時間特征 24
2.1.5 空間特征 25
2.1.6 文本特征 25
2.2 特征選擇 27
2.2.1 過濾方法 28
2.2.2 封裝方法 31
2.2.3 嵌入方法 31
2.2.4 小結(jié) 32
2.2.5 工具介紹 33
參考文獻 33
第3章 常用模型 35
3.1 邏輯回歸 35
3.1.1 邏輯回歸原理 35
3.1.2 邏輯回歸應(yīng)用 38
3.2 場感知因子分解機 39
3.2.1 因子分解機原理 39
3.2.2 場感知因子分解機原理 40
3.2.3 場感知因子分解機的應(yīng)用 41
3.3 梯度提升樹 42
3.3.1 梯度提升樹原理 42
3.3.2 梯度提升樹的應(yīng)用 44
參考文獻 44
第4章 模型融合 45
4.1 理論分析 46
4.1.1 融合收益 46
4.1.2 模型誤差 分歧分解 46
4.1.3 模型多樣性度量 48
4.1.4 多樣性增強 49
4.2 融合方法 50
4.2.1 平均法 50
4.2.2 投票法 52
4.2.3 Bagging 54
4.2.4 Stacking 55
4.2.5 小結(jié) 56
參考文獻 57
第二部分 數(shù)據(jù)挖掘
第5章 用戶畫像 60
5.1 什么是用戶畫像 60
5.2 用戶畫像數(shù)據(jù)挖掘 63
5.2.1 畫像數(shù)據(jù)挖掘整體架構(gòu) 63
5.2.2 用戶標(biāo)識 65
5.2.3 特征數(shù)據(jù) 67
5.2.4 樣本數(shù)據(jù) 68
5.2.5 標(biāo)簽建!69
5.3 用戶畫像應(yīng)用 83
5.3.1 用戶畫像實時查詢系統(tǒng) 83
5.3.2 人群畫像分析系統(tǒng) 87
5.3.3 其他系統(tǒng) 90
5.3.4 線上應(yīng)用效果 91
5.4 小結(jié) 91
參考文獻 91
第6章 POI實體鏈接 92
6.1 問題的背景與難點 92
6.2 國內(nèi)酒店P(guān)OI實體鏈接解決方案 94
6.2.1 酒店P(guān)OI實體鏈接 94
6.2.2 數(shù)據(jù)清洗 96
6.2.3 特征生成 97
6.2.4 模型選擇與效果評估 100
6.2.5 索引粒度的配置 101
6.3 其他場景的策略調(diào)整 101
6.4 小結(jié) 103
第7章 評論挖掘 104
7.1 評論挖掘的背景 104
7.1.1 評論挖掘的粒度 105
7.1.2 評論挖掘的維度 105
7.1.3 評論挖掘的整合思考 106
7.2 評論標(biāo)簽提取 106
7.2.1 數(shù)據(jù)的獲取及預(yù)處理 107
7.2.2 無監(jiān)督的標(biāo)簽提取方法 109
7.2.3 基于深度學(xué)習(xí)的標(biāo)簽提取方法 111
7.3 標(biāo)簽情感分析 113
7.3.1 評論標(biāo)簽情感分析的特殊性 113
7.3.2 基于深度學(xué)習(xí)的情感分析方法 115
7.3.3 評論標(biāo)簽情感分析的后續(xù)優(yōu) 化與思考 118
7.4 評論挖掘的未來應(yīng)用及實踐 119
7.5 小結(jié) 119
參考文獻 119
第三部分 搜索和推薦
第8章 O2O場景下的查詢理解與 用戶引導(dǎo) 122
8.1 現(xiàn)代搜索引擎原理 123
8.2 精確理解查詢 124
8.2.1 用戶查詢意圖的定義與識別 125
8.2.2 查詢實體識別與結(jié)構(gòu)化 129
8.2.3 召回策略的變遷 130
8.2.4 查詢改寫 131
8.2.5 詞權(quán)重與相關(guān)性計算 134
8.2.6 類目相關(guān)性與人工標(biāo)注 135
8.2.7 查詢理解小結(jié) 136
8.3 引導(dǎo)用戶完成搜索 137
8.3.1 用戶引導(dǎo)的產(chǎn)品定義與衡量 標(biāo)準(zhǔn) 137
8.3.2 搜索前的引導(dǎo)查詢詞 推薦 140
8.3.3 搜索中的引導(dǎo)查詢補全 143
8.3.4 搜索后的引導(dǎo)相關(guān)搜索 145
8.3.5 效率提升與效果提升 145
8.3.6 用戶引導(dǎo)小結(jié) 149
8.4 小結(jié) 149
參考文獻 150
第9章 O2O場景下排序的特點 152
9.1 系統(tǒng)概述 154
9.2 在線排序服務(wù) 154
9.3 多層正交A/B測試 155
9.4 特征獲取 155
9.5 離線調(diào)研系統(tǒng) 156
9.6 特征工程 156
9.7 排序模型 157
9.8 場景化排序 160
9.9 小結(jié) 165
第 10章 推薦在O2O場景的應(yīng)用 166
10.1 典型的O2O推薦場景 166
10.2 O2O推薦場景特點 167
10.2.1 O2O場景的地理位置因素 168
10.2.2 O2O場景的用戶歷史行為 168
10.2.3 O2O場景的實時推薦 169
10.3 美團推薦實踐推薦框架 169
10.4 美團推薦實踐推薦召回 170
10.4.1 基于協(xié)同過濾的召回 171
10.4.2 基于位置的召回 171
10.4.3 基于搜索查詢的召回 172
10.4.4 基于圖的召回 172
10.4.5 基于實時用戶行為的召回 172
10.4.6 替補策略 172
10.5 美團推薦實踐推薦排序 173
10.5.1 排序特征 173
10.5.2 排序樣本 174
10.5.3 排序模型 175
10.6 推薦評價指標(biāo) 176
參考文獻 176
第四部分 計算廣告
第 11章 O2O場景下的廣告營銷 178
11.1 O2O場景下的廣告業(yè)務(wù)特點 178
11.2 商戶、用戶和平臺三者利益平衡 180
11.2.1 商戶效果感知 180
11.2.2 用戶體驗 181
11.2.3 平臺收益 182
11.3 O2O廣告機制設(shè)計 183
11.3.1 廣告位設(shè)定 183
11.3.2 廣告召回機制 183
11.3.3 廣告排序機制 184
11.4 O2O推送廣告 187
11.5 O2O廣告系統(tǒng)工具 190
11.5.1 面向開發(fā)人員的系統(tǒng)工具 190
11.5.2 面向廣告主和運營人員的 工具 192
11.6 小結(jié) 194
參考文獻 194
第 12章 用戶偏好和損失建!196
12.1 如何定義用戶偏好 196
12.1.1 什么是用戶偏好 196
12.1.2 如何衡量用戶偏好 196
12.1.3 對不同POI 的偏好 197
12.1.4 用戶對 POI 偏好的衡量 197
12.2 廣告價值與偏好損失的兌換 198
12.2.1 優(yōu)化目標(biāo) 199
12.2.2 模型建!199
12.3 Pairwise 模型學(xué)習(xí) 201
12.3.1 GBRank 202
12.3.2 RankNet 204
參考文獻 205
第五部分 深度學(xué)習(xí)
第 13章 深度學(xué)習(xí)概述 208
13.1 深度學(xué)習(xí)技術(shù)發(fā)展歷程 209
13.2 深度學(xué)習(xí)基礎(chǔ)結(jié)構(gòu) 211
13.3 深度學(xué)習(xí)研究熱點 216
13.3.1 基于深度學(xué)習(xí)的生成式模型 216
13.3.2 深度強化學(xué)習(xí) 218
參考文獻 219
第 14章 深度學(xué)習(xí)在文本領(lǐng)域的應(yīng)用 220
14.1 基于深度學(xué)習(xí)的文本匹配 221
14.2 基于深度學(xué)習(xí)的排序模型 231
14.2.1 排序模型簡介 231
14.2.2 深度學(xué)習(xí)排序模型的演進 232
14.2.3 美團的深度學(xué)習(xí)排序模型 嘗試 235
14.3 小結(jié) 237
參考文獻 237
第 15章 深度學(xué)習(xí)在計算機視覺中的 應(yīng)用 238
15.1 基于深度學(xué)習(xí)的OCR 238
15.1.1 OCR技術(shù)發(fā)展歷程 239
15.1.2 基于深度學(xué)習(xí)的文字檢測 244
15.1.3 基于序列學(xué)習(xí)的文字識別 248
15.1.4 小結(jié) 251
15.2 基于深度學(xué)習(xí)的圖像智能審核 251
15.2.1 基于深度學(xué)習(xí)的水印檢測 252
15.2.2 明星臉識別 254
15.2.3 色情圖片檢測 257
15.2.4 場景分類 257
15.3 基于深度學(xué)習(xí)的圖像質(zhì)量排序 259
15.3.1 圖像美學(xué)質(zhì)量評價 260
15.3.2 面向點擊預(yù)測的圖像質(zhì)量 評價 260
15.4 小結(jié) 263
參考文獻 264
第六部分 算法工程
第 16章 大規(guī)模機器學(xué)習(xí) 268
16.1 并行計算編程技術(shù) 268
16.1.1 向量化 269
16.1.2 多核并行OpenMP 270
16.1.3 GPU編程 272
16.1.4 多機并行MPI 273
16.1.5 并行編程技術(shù)小結(jié) 276
16.2 并行計算模型 276
16.2.1 BSP 277
16.2.2 SSP 279
16.2.3 ASP 280
16.2.4 參數(shù)服務(wù)器 281
16.3 并行計算案例 284
16.3.1 XGBoost并行庫Rabit 284
16.3.2 MXNet并行庫PS-Lite 286
16.4 美團并行計算機器學(xué)習(xí)平臺 287
參考文獻 289
第 17章 特征工程和實驗平臺 290
17.1 特征平臺 290
17.1.1 特征生產(chǎn) 290
17.1.2 特征上線 293
17.1.3 在線特征監(jiān)控 301
17.2 實驗管理平臺 302
17.2.1 實驗平臺概述 302
17.2.2 美團實驗平臺Gemini 304