關(guān)于我們
書(shū)單推薦
新書(shū)推薦
|
Python爬蟲(chóng)實(shí)戰(zhàn)基礎(chǔ)
本書(shū)介紹Python網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)從業(yè)者應(yīng)掌握的基礎(chǔ)技能。本書(shū)以網(wǎng)絡(luò)爬蟲(chóng)為核心,涉及大大小小數(shù)十個(gè)能力體系。本書(shū)的前半部分介紹爬蟲(chóng)開(kāi)發(fā)的基礎(chǔ)知識(shí),包括爬蟲(chóng)開(kāi)發(fā)必備的環(huán)境搭建方法、開(kāi)發(fā)中常用工具的使用方法和技巧、網(wǎng)頁(yè)的構(gòu)成原理和網(wǎng)頁(yè)信息提取的方法、常用數(shù)據(jù)庫(kù)的使用方法和應(yīng)用場(chǎng)景,如通過(guò)Redis內(nèi)置的布隆過(guò)濾器實(shí)現(xiàn)大規(guī)模URL地址的去重任務(wù)。本書(shū)的后半部分主要講解網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)所需的必要能力,包括網(wǎng)絡(luò)通信的底層原理、背后涉及的互聯(lián)網(wǎng)協(xié)議標(biāo)準(zhǔn)及如何對(duì)這些協(xié)議進(jìn)行分析并加以利用,使用Docker部署網(wǎng)絡(luò)爬蟲(chóng)所需的環(huán)境和爬蟲(chóng)項(xiàng)目的打包部署,使用網(wǎng)絡(luò)爬蟲(chóng)的核心請(qǐng)求庫(kù)實(shí)現(xiàn)與服務(wù)器端和客戶端的通信和交互,使用自動(dòng)化神器Selenium對(duì)復(fù)雜的爬蟲(chóng)需求進(jìn)行快速實(shí)現(xiàn),以及網(wǎng)絡(luò)爬蟲(chóng)的多任務(wù)開(kāi)發(fā),重點(diǎn)是通過(guò)多線程和多進(jìn)程來(lái)提高爬蟲(chóng)效率。
本書(shū)面向準(zhǔn)備從事或正在從事網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)的從業(yè)者以及對(duì)網(wǎng)絡(luò)爬蟲(chóng)有濃厚興趣的愛(ài)好者。
你還可能感興趣
我要評(píng)論
|