国产在线观看乱码精品,国产精品水嫩水嫩

本書主要以純案例驅(qū)動的形式，分別使用和結(jié)合使用requests庫、selenium庫，從互聯(lián)網(wǎng)上收集數(shù)據(jù)。主要內(nèi)容包括收集靜態(tài)網(wǎng)頁數(shù)據(jù)，網(wǎng)頁解析，JSON數(shù)據(jù)，JSON解析，多級翻頁，cookie和session，驗(yàn)證登錄，多線程，數(shù)據(jù)的存儲，收集到的數(shù)據(jù)包括靜態(tài)網(wǎng)頁數(shù)據(jù)、json、圖片、音頻、視頻等數(shù)據(jù)，并對獲取的數(shù)據(jù)進(jìn)行清洗。適合Python初學(xué)者，也適合研究Python的廣大科研人員、學(xué)者、工程技術(shù)人員。本教材采用純的案例，和簡單的注釋，其他一些先修的知識是在其他課程有開設(shè)。

現(xiàn)階段，隨著大數(shù)據(jù)和人工智能技術(shù)的研究不斷深入發(fā)展，網(wǎng)絡(luò)數(shù)據(jù)采集與清洗越來越具有較為廣泛的應(yīng)用范圍。本書是為數(shù)據(jù)采集與清洗課程編寫的教材，其內(nèi)容選取符合教學(xué)大綱要求，以案例驅(qū)動展開，兼顧內(nèi)容的廣度和深度，適用面廣。
本書的第1章主要闡述網(wǎng)絡(luò)爬蟲的基本概念、基本流程、爬蟲合法性問題、反爬蟲技術(shù)以及爬蟲的預(yù)備知識。第2~9章主要講解爬蟲的各種技術(shù)，分別討論Requests庫、JSON數(shù)據(jù)爬取、XPath解析及網(wǎng)頁數(shù)據(jù)爬取、IP代理、Selenium庫、Selenium與Requests結(jié)合使用、異步爬蟲、正則表達(dá)式等基本技術(shù)的實(shí)現(xiàn)；爬取的內(nèi)容包括HTML文檔、JSON數(shù)據(jù)、圖片、音頻、視頻，以及這些類型數(shù)據(jù)的持久化保存。第10章講解數(shù)據(jù)的簡單清洗。第11章講解一個綜合案例，結(jié)合Requests和Selenium，分別采用單線程和多線程實(shí)現(xiàn)對不同網(wǎng)站的數(shù)據(jù)爬取，并進(jìn)行相應(yīng)的數(shù)據(jù)清洗操作。
全書采用Python為主要描述語言。Python是一種面向?qū)ο蟮母呒壨ㄓ媚_本編程語言，其語法簡潔，簡單易懂。相比其他語言，Python更容易配置，在字符處理方面靈活，并且在爬蟲程序開發(fā)中具有先天的優(yōu)勢，是開發(fā)者的首選編程語言。Python最初被用于編寫Shell(自動化腳本)，伴隨著版本不斷更新以及語言新功能的加入，其作為爬蟲編程語言優(yōu)勢更加突出。因此，越來越多的開發(fā)者選擇Python用于大型爬蟲項(xiàng)目開發(fā)。Python自帶有多種爬取模板，可以利用Requests和Selenium第三方庫模擬人工瀏覽器訪問的行為，實(shí)現(xiàn)起來便捷；爬蟲程序爬取網(wǎng)頁之后，需要對網(wǎng)頁進(jìn)行諸如過濾標(biāo)簽、提取文本等處理。Python擁有簡短的文檔處理功能，能夠用簡短代碼處理絕大部分文檔。
從課程性質(zhì)上來講，數(shù)據(jù)采集與清洗是一門專業(yè)選修課，側(cè)重于應(yīng)用。它的教學(xué)要求是：理解互聯(lián)網(wǎng)大數(shù)據(jù)采集的主要技術(shù)；掌握各種典型爬蟲的技術(shù)原理、技術(shù)框架、實(shí)現(xiàn)方法、主要開源包的使用；理解對爬蟲采集到的網(wǎng)頁數(shù)據(jù)的處理方法及文本處理，并會使用Python進(jìn)行技術(shù)實(shí)現(xiàn)。本書的學(xué)習(xí)過程通過案例驅(qū)動的方式展開，幫助讀者貫穿爬蟲、數(shù)據(jù)清洗的過程，培養(yǎng)讀者掌握從互聯(lián)網(wǎng)上采集數(shù)據(jù)的技術(shù)，能夠獨(dú)立完成數(shù)據(jù)采集和清洗工作，對培養(yǎng)學(xué)生的數(shù)據(jù)處理能力、信息分析與應(yīng)用能力、信息表達(dá)能力具有重要作用，為后期的生產(chǎn)實(shí)習(xí)、畢業(yè)設(shè)計(jì)以及未來的工作奠定一定的實(shí)踐基礎(chǔ)。
本書內(nèi)容以實(shí)戰(zhàn)為主，適合高等院校相關(guān)專業(yè)的學(xué)生閱讀，可以作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)的本科或?qū)？平滩模部梢宰鳛樾畔㈩愊嚓P(guān)專業(yè)的選修教材，也適合Python培訓(xùn)機(jī)構(gòu)作為實(shí)訓(xùn)教材。講課學(xué)時可設(shè)置為30~40學(xué)時。本書文字通俗，簡單易懂，便于自學(xué)，也可供從事大數(shù)據(jù)處理等工作的科技人員參考。只需要掌握Python程序設(shè)計(jì)便可以學(xué)習(xí)本書。

配套資源
為了方便教學(xué)，本書配有微課視頻、教學(xué)課件、源代碼。
（1）獲取微課視頻方式：
讀者可以先掃描本書封底的文泉云盤防盜碼，再掃描書中相應(yīng)的視頻二維碼，即可觀看教學(xué)視頻。
（2）其他資源可先掃描本書封底的文泉云盤防盜碼，再掃描下方二維碼，即可獲取。

教學(xué)課件

源代碼

你還可能感興趣

我要評論