第 1章 使用第三方庫(kù)實(shí)現(xiàn)信息抓取 1
任務(wù)1 使用第三方庫(kù)實(shí)現(xiàn)北京公交站點(diǎn)頁(yè)面信息抓取 2
1.1.1 介紹爬蟲(chóng) 2
1.1.2 HTTP 5
1.1.3 HTML 9
1.1.4 使用第三方庫(kù)實(shí)現(xiàn)爬蟲(chóng)功能 10
1.1.5 技能實(shí)訓(xùn) 14
任務(wù)2 使用第三方庫(kù)實(shí)現(xiàn)北京公交站點(diǎn)詳細(xì)信息抓取 14
1.2.1 lxml庫(kù) 14
1.2.2 第三方庫(kù)數(shù)據(jù)抓取及保存 17
1.2.3 技能實(shí)訓(xùn) 19
本章小結(jié) 19
本章作業(yè) 20
第 2章 初探Scrapy爬蟲(chóng)框架 21
任務(wù)1 安裝Scrapy爬蟲(chóng)框架并創(chuàng)建爬蟲(chóng)工程 22
2.1.1 根據(jù)使用場(chǎng)景劃分爬蟲(chóng)種類 22
2.1.2 開(kāi)發(fā)基于Scrapy爬蟲(chóng)框架的工程 25
任務(wù)2 學(xué)習(xí)并掌握Scrapy爬蟲(chóng)框架各模塊的功能 30
2.2.1 Scrapy爬蟲(chóng)工程組成 30
2.2.2 Scrapy爬蟲(chóng)框架架構(gòu) 34
本章小結(jié) 36
本章作業(yè) 36
第3章 提取網(wǎng)頁(yè)數(shù)據(jù) 37
任務(wù)1 使用Scrapy的選擇器提取豆瓣電影信息 38
3.1.1 Response對(duì)象 38
3.1.2 css選擇器 42
3.1.3 多層級(jí)網(wǎng)頁(yè)爬取 44
3.1.4 技能實(shí)訓(xùn) 49
任務(wù)2 使用正則表達(dá)式從電影介紹詳情中提取指定信息 50
3.2.1 正則表達(dá)式 50
3.2.2 技能實(shí)訓(xùn) 55
本章小結(jié) 55
本章作業(yè) 55
第4章 Scrapy數(shù)據(jù)保存(文件、MySQL、MongoDB) 57
任務(wù)一 使用Feed exports將爬取的電影信息保存到常見(jiàn)數(shù)據(jù)格式文件中 58
4.1.1 Feed exports 58
4.1.2 技能實(shí)訓(xùn) 62
任務(wù)2 使用pipeline將爬取的電影信息數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中 63
4.2.1 Python操作MySQL數(shù)據(jù)庫(kù) 63
4.2.2 pipeline模塊 66
4.2.3 將數(shù)據(jù)保存到MongoDB中 68
4.2.4 技能實(shí)訓(xùn) 73
本章小結(jié) 73
本章作業(yè) 73
第5章 Scrapy反反爬技術(shù) 75
任務(wù)1 學(xué)習(xí)反爬蟲(chóng)和反反爬蟲(chóng)策略 76
5.1.1 反爬蟲(chóng)方法和反反爬蟲(chóng)策略 76
5.1.2 Scrapy設(shè)置實(shí)現(xiàn)反反爬 78
5.1.3 技能實(shí)訓(xùn) 85
任務(wù)2 學(xué)習(xí)Scrapy框架中更多常用的設(shè)置 86
5.2.1 抓取需要登錄的網(wǎng)站 86
5.2.2 Scrapy常用擴(kuò)展設(shè)置 90
本章小結(jié) 91
本章作業(yè) 91
第6章 Selenium+瀏覽器加載動(dòng)態(tài)數(shù)據(jù) 93