精品在线,午夜理论欧美理论片

本書采用簡(jiǎn)潔強(qiáng)大的Python 語(yǔ)言，介紹了網(wǎng)頁(yè)抓取，并為抓取新式網(wǎng)絡(luò)中的各種數(shù)據(jù)類型提供了全面的指導(dǎo)。第一部分重點(diǎn)介紹網(wǎng)頁(yè)抓取的基本原理：如何用Python 從網(wǎng)絡(luò)服務(wù)器請(qǐng)求信息，如何對(duì)服務(wù)器的響應(yīng)進(jìn)行基本處理，以及如何以自動(dòng)化手段與網(wǎng)站進(jìn)行交互。第二部分介紹如何用網(wǎng)絡(luò)爬蟲測(cè)試網(wǎng)站，自動(dòng)化處理，以及如何通過(guò)更多的方式接入網(wǎng)絡(luò)。

前言　　xi 第　一部分創(chuàng)建爬蟲第　1 章初見網(wǎng)絡(luò)爬蟲　3 1.1　網(wǎng)絡(luò)連接　3 1.2　BeautifulSoup 簡(jiǎn)介　5 1.2.1　安裝BeautifulSoup　6 1.2.2　運(yùn)行BeautifulSoup　8 1.2.3　可靠的網(wǎng)絡(luò)連接以及異常的處理　9 第　2 章復(fù)雜HTML 解析　13 2.1　不是一直都要用錘子　13 2.2　再端一碗BeautifulSoup　14 2.2.1　BeautifulSoup 的find() 和find_all()　16 2.2.2　其他BeautifulSoup 對(duì)象　18 2.2.3　導(dǎo)航樹　18 2.3　正則表達(dá)式　22 2.4　正則表達(dá)式和BeautifulSoup　25 2.5　獲取屬性　26 2.6　Lambda 表達(dá)式　26 第3　章編寫網(wǎng)絡(luò)爬蟲　28 3.1　遍歷單個(gè)域名　28 3.2　抓取整個(gè)網(wǎng)站　32 3.3　在互聯(lián)網(wǎng)上抓取　36 第4　章網(wǎng)絡(luò)爬蟲模型　41 4.1　規(guī)劃和定義對(duì)象　41 4.2　處理不同的網(wǎng)站布局　45 4.3　結(jié)構(gòu)化爬蟲　49 4.3.1　通過(guò)搜索抓取網(wǎng)站　49 4.3.2　通過(guò)鏈接抓取網(wǎng)站　52 4.3.3　抓取多種類型的頁(yè)面　54 4.4　關(guān)于網(wǎng)絡(luò)爬蟲模型的思考　55 第5　章 Scrapy　57 5.1　安裝Scrapy　57 5.2　創(chuàng)建一個(gè)簡(jiǎn)易爬蟲　59 5.3　帶規(guī)則的抓取　60 5.4　創(chuàng)建item　64 5.5　輸出item　66 5.6　item 管線組件　66 5.7　Scrapy 日志管理　69 5.8　更多資源　70 第6　章存儲(chǔ)數(shù)據(jù)　71 6.1　媒體文件　71 6.2　把數(shù)據(jù)存儲(chǔ)到CSV　74 6.3　MySQL　75 6.3.1　安裝MySQL　76 6.3.2　基本命令　78 6.3.3　與Python 整合　81 6.3.4　數(shù)據(jù)庫(kù)技術(shù)與最佳實(shí)踐　84 6.3.5　MySQL 里的“六度空間游戲”　86 6.4　Email　88 第二部分　高級(jí)網(wǎng)頁(yè)抓取第7　章讀取文檔　93 7.1　文檔編碼　93 7.2　純文本　94 7.3　CSV　98 7.4　PDF　100 7.5　微軟Word 和.docx　102 第8　章數(shù)據(jù)清洗　106 8.1　編寫代碼清洗數(shù)據(jù)　106 8.2　數(shù)據(jù)存儲(chǔ)后再清洗　111 第9　章自然語(yǔ)言處理　115 9.1　概括數(shù)據(jù)　116 9.2　馬爾可夫模型　119 9.3　自然語(yǔ)言工具包　124 9.3.1　安裝與設(shè)置　125 9.3.2　用NLTK 做統(tǒng)計(jì)分析　126 9.3.3　用NLTK 做詞性分析　128 9.4　其他資源　131 第　10 章穿越網(wǎng)頁(yè)表單與登錄窗口進(jìn)行抓取　132 10.1　Python Requests 庫(kù)　132 10.2　提交一個(gè)基本表單　133 10.3　單選按鈕、復(fù)選框和其他輸入　134 10.4　提交文件和圖像　136 10.5　處理登錄和cookie　136 10.6　其他表單問(wèn)題　139 第　11 章抓取JavaScript　140 11.1　JavaScript 簡(jiǎn)介　140 11.2　Ajax 和動(dòng)態(tài)HTML　143 11.2.1　在Python 中用Selenium 執(zhí)行JavaScript　144 11.2.2　Selenium 的其他webdriver　149 11.3　處理重定向　150 11.4　關(guān)于JavaScript 的最后提醒　151 第　12 章利用API 抓取數(shù)據(jù)　152 12.1　API 概述　152 12.1.1　HTTP 方法和API　154 12.1.2　更多關(guān)于API 響應(yīng)的介紹　155 12.2　解析JSON 數(shù)據(jù)　156 12.3　無(wú)文檔的API　157 12.3.1　查找無(wú)文檔的API　159 12.3.2　記錄未被記錄的API　160 12.3.3　自動(dòng)查找和記錄API　160 12.4　API 與其他數(shù)據(jù)源結(jié)合　163 12.5　再說(shuō)一點(diǎn)API　165 第　13 章圖像識(shí)別與文字處理　167 13.1　OCR 庫(kù)概述　168 13.1.1　Pillow　168 13.1.2　Tesseract　168 13.1.3　NumPy　170 13.2　處理格式規(guī)范的文字　171 13.2.1　自動(dòng)調(diào)整圖像　173 13.2.2　從網(wǎng)站圖片中抓取文字　176 13.3　讀取驗(yàn)證碼與訓(xùn)練Tesseract　178 13.4　獲取驗(yàn)證碼并提交答案　183 第　14 章避開抓取陷阱　186 14.1　道德規(guī)范　186 14.2　讓網(wǎng)絡(luò)機(jī)器人看著像人類用戶　187 14.2.1　修改請(qǐng)求頭　187 14.2.2　用JavaScript 處理cookie　189 14.2.3　時(shí)間就是一切　191 14.3　常見表單安全措施　191 14.3.1　隱含輸入字段值　192 14.3.2　避免蜜罐　192 14.4　問(wèn)題檢查表　194 第　15 章用爬蟲測(cè)試網(wǎng)站　196 15.1　測(cè)試簡(jiǎn)介　196 15.2　Python 單元測(cè)試　197 15.3　Selenium 單元測(cè)試　201 15.4　單元測(cè)試與Selenium 單元測(cè)試的選擇　205 第　16 章并行網(wǎng)頁(yè)抓取　206 16.1　進(jìn)程與線程　206 16.2　多線程抓取　207 16.2.1　競(jìng)爭(zhēng)條件與隊(duì)列　209 16.2.2　threading 模塊　212 16.3　多進(jìn)程抓取　214 16.3.1　多進(jìn)程抓取　216 16.3.2　進(jìn)程間通信　217 16.4　多進(jìn)程抓取的另一種方法　219 第　17 章遠(yuǎn)程抓取　221 17.1　為什么要用遠(yuǎn)程服務(wù)器　221 17.1.1　避免IP 地址被封殺　221 17.1.2　移植性與擴(kuò)展性　222 17.2　Tor 代理服務(wù)器　223 17.3　遠(yuǎn)程主機(jī)　224 17.3.1　從網(wǎng)站主機(jī)運(yùn)行　225 17.3.2　從云主機(jī)運(yùn)行　225 17.4　其他資源　227 第　18 章網(wǎng)頁(yè)抓取的法律與道德約束　228 18.1　商標(biāo)、版權(quán)、專利　228 18.2　侵害動(dòng)產(chǎn)　230 18.3　計(jì)算機(jī)欺詐與濫用法　232 18.4　robots.txt 和服務(wù)協(xié)議　233 18.5　3 個(gè)網(wǎng)絡(luò)爬蟲　236 18.5.1　eBay 起訴Bidder’s Edge 侵害其動(dòng)產(chǎn)　236 18.5.2　美國(guó)政府起訴Auernheimer 與《計(jì)算機(jī)欺詐與濫用法》　237 18.5.3　Field 起訴Google：版權(quán)和robots.txt　239 18.6　勇往直前　239 關(guān)于作者　241 關(guān)于封面　241

你還可能感興趣

我要評(píng)論