本書是一本應用爬蟲技術(shù)進行數(shù)據(jù)采集、整理和數(shù)據(jù)可視化的實戰(zhàn)讀物。本書以高效開源的python語言編寫,python擁有多重開源的網(wǎng)絡爬蟲工具、數(shù)據(jù)分析工具和數(shù)據(jù)可視化的工具,代碼簡潔,便于學習。本書集中于常用的python第三方工具,從工具的安裝、引入到方法和屬性做了詳細的介紹,同時對各種方法和屬性通過大量案例講解幫助讀者理解。每一章都有基礎(chǔ)應用到綜合實戰(zhàn),每一個案例都經(jīng)過實戰(zhàn)檢驗。本書既強調(diào)基礎(chǔ),又力求體現(xiàn)新知識與新技術(shù),在編寫體例上采用簡約的文字表述,配合詳細操作步驟的圖片,圖文并茂,直觀明了。注重理論和實踐相結(jié)合,設置了知識圖譜、學習目標、知識指南、任務實訓、結(jié)果分析等模塊。為了讓讀者能夠及時地檢查自己的學習效果,把握自己的學習進度,每節(jié)都附有豐富的鞏固訓練,前五章還配有測試題,并通過配套的技能訓練項目來加強學生技能的培養(yǎng)。
第1章Python爬蟲應用基礎(chǔ) (主要介紹爬蟲中重點應用知識)
1.1 Python的安裝與開發(fā)環(huán)境配置
1.1.1在Windows上安裝
1.1.2開發(fā)環(huán)境介紹
1.2 Python的基礎(chǔ)
1.2.1 Python的基本語法
1.2.2數(shù)據(jù)類型與常用函數(shù)
1.2.3邏輯控制
1.3 Python序列應用(爬蟲常用)
1.4 Python中的函數(shù)與類(含生成器、模塊概念)
1.5 異常處理
第2章 python網(wǎng)頁下載技術(shù)
2.1 HTTP協(xié)議簡介
2.1.1 HTTP請求消息
2.1.2 HTTP響應消息
2.2 爬蟲基礎(chǔ)簡介
2.2.1 爬蟲分類
2.2.2 爬蟲框架
2.3 robots協(xié)議
2.4 網(wǎng)頁下載器requests庫的應用
2.4.1 安裝
2.4.2 requests庫的常用方法
2.4.3 requests爬蟲之定義請求頭
2.4.4 requests庫的響應信息
第3章 頁面解析技術(shù)
3.1 html dom 基礎(chǔ)
3.2 css selector定位器
3.2.1 安裝應用環(huán)境
3.2.2 css選擇器詳解
3.2.3 lxml etree解釋器
3.2.4 css選擇器綜合應用實戰(zhàn)
3.3 BeautifulSoup4
3.3.1 安裝環(huán)境
3.3.2 bs4庫的應用
3.3.3 BeautifulSoup類的基本元素與常用方法
3.3.4 bs4綜合應用實戰(zhàn)
3.4 Xpath
3.4.1 Xpath基礎(chǔ)
3.4.2 Xpath語法
3.4.3 XPath Helper插件
3.4.4 XPath綜合應用
3.4.5 加密文字處理
3.4.6 字符串中無用字符清洗方法
3.5 正則表達式
3.5.1 語法
3.5.2 re模塊中的常用函數(shù)
3.5.3 常用正則表達式
3.5.4 正則表達式解析網(wǎng)頁應用實戰(zhàn)
第4章 爬蟲之文件存儲
4.1 Python文件系統(tǒng)
4.1.1基本的文件讀寫
4.1.2 python文件與目錄操作(os模塊)
4.2 CSV文件
4.2.1 CSV簡介
4.2.2 CSV的讀寫與格式轉(zhuǎn)換
4.3 json文件
4.3.1 json文件簡介
4.3.2 json文件的讀寫
4.5 MySQL數(shù)據(jù)庫
4.5.1 MySQL的配置
4.5.2元組與列表方式讀寫MySQL
4.5.3 字典方式讀寫MySQL
4.6 網(wǎng)頁數(shù)據(jù)清洗與存儲綜合應用
第5章 Scrapy框架
5.1 Scray工作機制
5.2 Scrapy的安裝與入門
5.2.1 安裝環(huán)境
5.2.2 Scrapy框架部件功能介紹
5.3編寫Scrapy爬蟲
5.3.1 Scrapy框架模式編寫bs4中的綜合應用程序
5.3.2 綜合應用實戰(zhàn)
第6章 動態(tài)網(wǎng)頁爬取
6.1 JavaScript與AJAX技術(shù)
6.1.1 JavaScript語言
6.1.2 AJAX
6.2抓取AJAX數(shù)據(jù)
6.2.1分析數(shù)據(jù)
6.2.2提取數(shù)據(jù)
6.2.3 綜合實戰(zhàn)(爬取起點中文網(wǎng)信息寫入txt文件)
6.3 抓取動態(tài)內(nèi)容
6.3.1動態(tài)渲染頁面
6.3.2使用Selenium
6.3.3 綜合實戰(zhàn)
第7章 數(shù)據(jù)可視化
7.1 pandas 應用
7.2 matplotlib應用
7.3 pyecharts 應用