爬蟲實(shí)戰(zhàn):從數(shù)據(jù)到產(chǎn)品
定 價(jià):69 元
- 作者:賀思聰
- 出版時(shí)間:2019/3/1
- ISBN:9787121355080
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:244
- 紙張:
- 版次:01
- 開本:16開
本書從多個(gè)數(shù)據(jù)項(xiàng)目實(shí)例出發(fā),介紹爬蟲、反爬蟲的各種案例,使讀者了解到數(shù)據(jù)抓取和分析的完整過程。書中案例的難度由淺入深,以作者原創(chuàng)的代碼為主,不借助現(xiàn)成的框架,強(qiáng)調(diào)在數(shù)據(jù)采集過程中的發(fā)散思維,總結(jié)攻克反爬蟲的思維模式,實(shí)現(xiàn)以低成本的方式得到想要的數(shù)據(jù)的愿望。最后,用一個(gè)“愛飛狗”的例子,為讀者展示如何從0到1地開發(fā)一個(gè)大數(shù)據(jù)產(chǎn)品。
賀思聰,碩士,畢業(yè)于電子科技大學(xué)機(jī)械電子工程專業(yè),現(xiàn)服務(wù)于思特沃克軟件技術(shù)成都有限公司任 高級(jí)咨詢師職位,長期關(guān)注互聯(lián)網(wǎng)前沿技術(shù),有多年爬蟲經(jīng)驗(yàn)。
第1章 基礎(chǔ)知識(shí) 1
1.1 什么是爬蟲 1
1.2 數(shù)據(jù)獲取渠道 2
1.3 抓包分析工具 4
1.4 爬蟲和反爬蟲的斗爭 5
1.5 數(shù)據(jù)處理、分析和可視化 20
1.6 延深閱讀 21
第2章 基于位置信息的爬蟲Ⅰ 23
2.1 背景及目標(biāo) 23
2.2 爬蟲原理 24
2.3 數(shù)據(jù)來源分析 26
2.4 簡單的矩形區(qū)域爬取方式 38
2.5 高級(jí)區(qū)域爬取方式 46
2.6 坐標(biāo)轉(zhuǎn)換 49
2.7 存儲(chǔ)數(shù)據(jù)的方式 49
2.8 數(shù)據(jù)導(dǎo)入 51
2.9 基本數(shù)據(jù)分析 52
2.10 地圖可視化 56
2.11 軌跡可視化 58
2.12 總結(jié) 60
第3章 基于位置信息的爬蟲Ⅱ 62
3.1 背景及目標(biāo) 62
3.2 爬蟲原理 62
3.3 優(yōu)化方案一 71
3.4 優(yōu)化方案二 75
3.5 優(yōu)化方案三 82
3.6 導(dǎo)入數(shù)據(jù)到數(shù)據(jù)庫 97
3.7 基本數(shù)據(jù)分析及可視化 100
3.8 總結(jié) 117
第4章 網(wǎng)站信息爬取及可視化 118
4.1 背景及目標(biāo) 118
4.2 網(wǎng)站API分析 118
4.3 數(shù)據(jù)爬取 122
4.4 數(shù)據(jù)導(dǎo)入 129
4.5 數(shù)據(jù)分析及可視化 133
4.6 總結(jié) 173
第5章 基于逆向分析小程序的爬蟲 174
5.1 背景及目標(biāo) 174
5.2 數(shù)據(jù)來源分析 176
5.3 數(shù)據(jù)爬取方案 177
5.4 轉(zhuǎn)換數(shù)據(jù)格式 195
5.5 總結(jié) 196
第6章 從數(shù)據(jù)到產(chǎn)品 197
6.1 從一張機(jī)票說起 197
6.2 從價(jià)值探索到交付落地 201
6.3 數(shù)據(jù)爬取 203
6.4 爬蟲架構(gòu)設(shè)計(jì) 203
6.5 發(fā)現(xiàn)數(shù)據(jù)的價(jià)值 211
6.6 創(chuàng)新的不確定性 223
6.7 產(chǎn)品設(shè)計(jì) 226
6.8 產(chǎn)品交付 235
6.9 總結(jié) 236