本教材是一門基于工作過程開發(fā)出來的學(xué)習(xí)領(lǐng)域教材,主要講解了爬取靜態(tài)網(wǎng)頁、爬取動(dòng)態(tài)網(wǎng)頁、爬取APP數(shù)據(jù)、反爬蟲策略及解決辦法、爬蟲優(yōu)化策略,面向不同工作場景,劃分為若干個(gè)學(xué)習(xí)情境,內(nèi)容由淺入深,囊括了目前行業(yè)爬取數(shù)據(jù)的全部主流技術(shù)。第一部分是爬取靜態(tài)網(wǎng)頁,由三個(gè)學(xué)習(xí)情境講述:使用Requests+BeautifulSoup4+CSV,使用Mechanize+BeautifulSoup4+CSV,使用Scrapy+XPath+MySQL爬取數(shù)據(jù)。第二部分是爬取動(dòng)態(tài)網(wǎng)頁,使用兩個(gè)學(xué)習(xí)情境描述:使用Scrapy+JSON+MySQL使用Selenium+PhantomJS爬取數(shù)據(jù)。第三部分是爬取APP數(shù)據(jù)由使用Fiddler+Requests爬取新聞?lì)怉PP接口數(shù)據(jù)描述。第四部分反爬蟲策略及解決辦法。由常見反爬蟲策略及解決辦法,處理輸入式驗(yàn)證碼校驗(yàn)講述。第五部分是爬蟲優(yōu)化策略,講述了Scrapy+Redis分布式爬取數(shù)據(jù)。
導(dǎo)言
單元1 爬取靜態(tài)網(wǎng)頁
學(xué)習(xí)情境1.1 使用Requests+BeautifulSoup4+CSV爬取天氣預(yù)報(bào)數(shù)據(jù)
學(xué)習(xí)情境描述
學(xué)習(xí)目標(biāo)
任務(wù)書
獲取信息
工作計(jì)劃
進(jìn)行決策
知識(shí)準(zhǔn)備
相關(guān)案例
工作實(shí)施
評(píng)價(jià)反饋
拓展思考
學(xué)習(xí)情境1.2 使用Mechanize+BeautifulSoup4+CSV爬取百度搜索結(jié)果數(shù)據(jù)
學(xué)習(xí)情境描述
學(xué)習(xí)目標(biāo)
任務(wù)書
獲取信息
工作計(jì)劃
進(jìn)行決策
知識(shí)準(zhǔn)備
相關(guān)案例
工作實(shí)施
評(píng)價(jià)反饋
拓展思考
學(xué)習(xí)情境1.3 使用Scrapy+XPath+PyMySQL爬取汽車銷售分頁數(shù)據(jù)
學(xué)習(xí)情境描述
學(xué)習(xí)目標(biāo)
任務(wù)書
獲取信息
工作計(jì)劃
進(jìn)行決策
知識(shí)準(zhǔn)備
相關(guān)案例
工作實(shí)施
評(píng)價(jià)反饋
拓展思考
單元2 爬取動(dòng)態(tài)網(wǎng)頁
學(xué)習(xí)情境2.1 使用Scrapy+JSON+PyMySQL爬取百度圖片數(shù)據(jù)
學(xué)習(xí)情境描述
學(xué)習(xí)目標(biāo)
任務(wù)書
獲取信息
工作計(jì)劃
進(jìn)行決策
知識(shí)準(zhǔn)備
相關(guān)案例
工作實(shí)施
評(píng)價(jià)反饋
拓展思考
學(xué)習(xí)情境2.2 使用Selenium+PhantomJS爬取漫畫數(shù)據(jù)
學(xué)習(xí)情境描述
學(xué)習(xí)目標(biāo)
任務(wù)書
獲取信息
工作計(jì)劃
進(jìn)行決策
知識(shí)準(zhǔn)備
相關(guān)案例
工作實(shí)施
評(píng)價(jià)反饋
拓展思考
單元3 爬取App數(shù)據(jù)
學(xué)習(xí)情境3.1 使用Fiddler+Requests爬取新聞?lì)怉pp接口數(shù)據(jù)
學(xué)習(xí)情境描述
學(xué)習(xí)目標(biāo)
任務(wù)書
獲取信息
工作計(jì)劃
進(jìn)行決策
知識(shí)準(zhǔn)備
相關(guān)案例
工作實(shí)施
評(píng)價(jià)反饋
拓展思考
單元4 反爬蟲策略及解決辦法
學(xué)習(xí)情境4.1 常見反爬蟲策略及解決辦法
學(xué)習(xí)情境描述
學(xué)習(xí)目標(biāo)
教學(xué)引導(dǎo)
知識(shí)準(zhǔn)備
拓展思考
學(xué)習(xí)情境4.2 處理輸入式驗(yàn)證碼校驗(yàn)
學(xué)習(xí)情境描述
學(xué)習(xí)目標(biāo)
任務(wù)書
獲取信息
進(jìn)行決策
知識(shí)準(zhǔn)備
相關(guān)案例
工作實(shí)施
評(píng)價(jià)反饋
拓展思考
單元5 爬蟲優(yōu)化策略
學(xué)習(xí)情境 Scrapy+Redis分布式爬取電影數(shù)據(jù)
學(xué)習(xí)情境描述
學(xué)習(xí)目標(biāo)
任務(wù)書
獲取信息
工作計(jì)劃
進(jìn)行決策
知識(shí)準(zhǔn)備
相關(guān)案例
工作實(shí)施
評(píng)價(jià)反饋
拓展思考
附錄A 《Python網(wǎng)絡(luò)爬蟲》1+X對(duì)照表