本書將圍繞“市場競爭數(shù)據(jù)調(diào)研”這一項(xiàng)目需求進(jìn)行講解,開篇將該需求拆解為全網(wǎng)市場數(shù)據(jù)概覽、京東市場數(shù)據(jù)調(diào)研、蘇寧市場數(shù)據(jù)調(diào)研等幾部分。文稿除開篇外分5個(gè)項(xiàng)目,項(xiàng)目一至項(xiàng)目三將講解網(wǎng)絡(luò)爬蟲相關(guān)理論及實(shí)操。其中項(xiàng)目一以全網(wǎng)電商市場數(shù)據(jù)初步采集為主線,描述如何掌握以網(wǎng)絡(luò)爬蟲技術(shù)為基礎(chǔ)的多個(gè)網(wǎng)站、平臺數(shù)據(jù)采集分析工具的使用。項(xiàng)目二利用八爪魚數(shù)據(jù)采集器采集京東商城商品數(shù)據(jù)(價(jià)格、銷量、評價(jià)等數(shù)據(jù)),描述如何掌握利用八爪魚完成網(wǎng)頁數(shù)據(jù)采集技能。項(xiàng)目三則將利用Python網(wǎng)絡(luò)爬蟲進(jìn)行蘇寧商城市場競爭數(shù)據(jù)采集,描述如何掌握Python網(wǎng)絡(luò)爬蟲中常用的庫及技巧。項(xiàng)目四、五則是數(shù)據(jù)采集后的數(shù)據(jù)操作,項(xiàng)目四講述選擇合理的方式將采集數(shù)據(jù)進(jìn)行存儲,項(xiàng)目五則講述如何將雜亂有誤的數(shù)據(jù)進(jìn)行規(guī)范。本書可作為高職高專院校電子商務(wù)、市場營銷等商科專業(yè)的教材,也可作為即將進(jìn)入數(shù)據(jù)分析行業(yè)初學(xué)者的技能學(xué)習(xí)讀本。
朱景偉,男,講師,就職于義烏工商職業(yè)技術(shù)學(xué)院,商務(wù)數(shù)據(jù)分析與應(yīng)用專業(yè)副主任,主要承擔(dān)《商務(wù)數(shù)據(jù)采集》、《數(shù)據(jù)化營銷》、《商務(wù)數(shù)據(jù)與應(yīng)用基礎(chǔ)》、《商務(wù)數(shù)據(jù)分析技術(shù)》、《電子商務(wù)大賽模擬軟件》的教學(xué)工作
開?篇
項(xiàng)目一 平臺類數(shù)據(jù)工具使用
任務(wù)1.1 指數(shù)類數(shù)據(jù)工具——百度指數(shù)
【基礎(chǔ)知識】
一、趨勢研究
二、需求圖譜
三、人群畫像
【任務(wù)實(shí)施】
【思考題】
任務(wù)1.2 電商平臺數(shù)據(jù)工具——生意參謀
【基礎(chǔ)知識】
一、首頁
二、實(shí)時(shí)概況
三、流量和品類
四、交易和服務(wù)
五、市場
【任務(wù)實(shí)施】
【思考題】
任務(wù)1.3 插件類數(shù)據(jù)工具——店偵探
【基礎(chǔ)知識】
一、店偵探簡介
二、店偵探插件安裝及使用
【任務(wù)實(shí)施】
一、店偵探插件數(shù)據(jù)采集
二、店偵探競店數(shù)據(jù)采集
【思考題】
任務(wù)1.4 新媒體類數(shù)據(jù)工具——飛瓜
【基礎(chǔ)知識】
【任務(wù)實(shí)施】
【思考題】
項(xiàng)目二 網(wǎng)絡(luò)數(shù)據(jù)采集器使用
任務(wù)2.1 京東產(chǎn)品信息試采——八爪魚基礎(chǔ)教程
【基礎(chǔ)知識】
一、HTTP請求響應(yīng)過程
二、爬蟲的基本原理
三、八爪魚介紹
【任務(wù)實(shí)施】
一、八爪魚簡易模式的使用
二、八爪魚自定義模式的使用
【思考題】
任務(wù)2.2 京東評論內(nèi)容采集——Ajax
【基礎(chǔ)知識】
【任務(wù)實(shí)施】
【思考題】
任務(wù)2.3 京東評論內(nèi)容修正——XPath
【基礎(chǔ)知識】
一、XPath概念
二、查看和調(diào)試XPath
三、XPath表達(dá)式
【任務(wù)實(shí)施】
【思考題】
任務(wù)2.4 京東評論圖片采集——正則表達(dá)式
【基礎(chǔ)知識】
【任務(wù)實(shí)施】
【思考題】
任務(wù)2.5 用戶登錄模式采集——自定義Cookie
【基礎(chǔ)知識】
一、靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁
二、無狀態(tài)HTTP
三、Cookie
四、Session
五、Cookie屬性結(jié)構(gòu)
【任務(wù)實(shí)施】
【思考題】
項(xiàng)目三 蘇寧市場競爭數(shù)據(jù)采集
任務(wù)3.1 蘇寧請求流程分析——Chrome&Postman
【基礎(chǔ)知識】
一、打開Chrome開發(fā)者工具
二、 Elements
三、 Network
【任務(wù)實(shí)施】
一、搜索結(jié)果列表頁分析
二、蘇寧產(chǎn)品詳情頁參數(shù)分析
三、蘇寧產(chǎn)品評論參數(shù)分析
【思考題】
任務(wù)3.2 蘇寧產(chǎn)品列表請求——Requests庫的使用
【基礎(chǔ)知識】
一、基本用法
二、高級用法
【任務(wù)實(shí)施】
【思考題】
任務(wù)3.3 列表響應(yīng)數(shù)據(jù)提取——lxml&RE庫
【基礎(chǔ)知識】
一、lxml庫
二、RE庫
【任務(wù)實(shí)施】
一、蘇寧產(chǎn)品URL提取
二、蘇寧clusterId提取
【思考題】
任務(wù)3.4 評論響應(yīng)數(shù)據(jù)輸出——JSON
【基礎(chǔ)知識】
一、JSON基礎(chǔ)知識
二、JSON用法
【任務(wù)實(shí)施】
【思考題】
任務(wù)3.5 蘇寧用戶賬號登錄——Selenium&ChromeDriver
【基礎(chǔ)知識】
一、環(huán)境配置
二、基礎(chǔ)用法
【任務(wù)實(shí)施】
【思考題】
項(xiàng)目四 采集數(shù)據(jù)存儲
任務(wù)4.1 最簡單的文件型存儲——Excel、CSV文件
【基礎(chǔ)知識】
一、Excel文件
二、CSV文件
【任務(wù)實(shí)施】
一、使用Excel存儲數(shù)據(jù)
二、使用CSV存儲數(shù)據(jù)
三、Excel與CSV文件互轉(zhuǎn)
【思考題】
任務(wù)4.2 最普通的關(guān)系型數(shù)據(jù)庫——MySQL
【基礎(chǔ)知識】
一、MySQL認(rèn)知
二、MySQL的安裝
三、MySQL可視化客戶端的使用
【任務(wù)實(shí)施】
一、MySQL數(shù)據(jù)庫的數(shù)據(jù)操作
二、MySQL數(shù)據(jù)庫與Excel文件的交互
【思考題】
任務(wù)4.3 最潮流的分布式數(shù)據(jù)庫——MongoDB
【基礎(chǔ)知識】
一、MongoDB認(rèn)知
二、MongoDB的安裝
三、MongoDB可視化客戶端的使用
【任務(wù)實(shí)施】
【思考題】
項(xiàng)目五 數(shù)據(jù)清洗
任務(wù)5.1 數(shù)據(jù)規(guī)范處理——表格規(guī)范
【基礎(chǔ)知識】
一、數(shù)據(jù)類型
二、一維表vs二維表
【任務(wù)實(shí)施】
一、數(shù)據(jù)類型轉(zhuǎn)換
二、數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換
【思考題】
任務(wù)5.2 錯(cuò)誤數(shù)據(jù)處理——查錯(cuò)補(bǔ)缺
【基礎(chǔ)知識】
【任務(wù)實(shí)施】
一、缺失值處理
二、重復(fù)值處理
三、邏輯錯(cuò)誤處理
【思考題】
任務(wù)5.3 文本數(shù)據(jù)處理——文本操作
【基礎(chǔ)知識】
【任務(wù)實(shí)施】
一、查找替換
二、單元格特殊字符去除
三、文本數(shù)據(jù)提取
【思考題】
任務(wù)5.4 無序數(shù)據(jù)處理——篩選排序
【基礎(chǔ)知識】
一、邏輯“與”“或”“非”
二、排序依據(jù)
【任務(wù)實(shí)施】
一、數(shù)據(jù)篩選
二、數(shù)據(jù)排序
【思考題】
任務(wù)5.5 數(shù)據(jù)分合處理——拆分合并
【基礎(chǔ)知識】
【任務(wù)實(shí)施】
一、數(shù)據(jù)拆分
二、數(shù)據(jù)合并
三、合并單元格拆分
【思考題】
參考文獻(xiàn)