數(shù)據(jù)挖掘已經(jīng)廣泛應(yīng)用于各行各業(yè),并催生了數(shù)據(jù)分析師的興起。本書結(jié)合項(xiàng)目實(shí)踐,首先對(duì)數(shù)據(jù)挖掘的核心問題進(jìn)行了總結(jié),并以保險(xiǎn)推薦為例說明數(shù)據(jù)挖掘過程中每個(gè)步驟需要關(guān)注之處; 然后,結(jié)合香水銷售分析,討論可視化圖形的基本應(yīng)用。為增強(qiáng)本書的實(shí)用性,提高讀者的動(dòng)手能力,后續(xù)章節(jié)詳細(xì)地分析了數(shù)據(jù)挖掘在銀行信用卡、餐飲、商務(wù)酒店、制造業(yè)、公安等領(lǐng)域的應(yīng)用。此外,本書還介紹了卷積神經(jīng)網(wǎng)絡(luò)在音頻數(shù)據(jù)處理方面的實(shí)際應(yīng)用。
本書內(nèi)容深入淺出,案例生動(dòng)形象,可以作為高校相關(guān)專業(yè)數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)商務(wù)數(shù)據(jù)分析等課程的實(shí)驗(yàn)教材,也可以供學(xué)習(xí)數(shù)據(jù)分析的社會(huì)人士參考。
數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉的領(lǐng)域,本書通過少數(shù)實(shí)際的具體案例,闡述數(shù)據(jù)分析項(xiàng)目分析的過程以及一些要點(diǎn),可作為普通高等學(xué)校數(shù)據(jù)挖掘、商務(wù)數(shù)據(jù)分析、商務(wù)智能等課程的案例和實(shí)驗(yàn)指導(dǎo)材料,也可供有志于數(shù)據(jù)分析師的讀者參考。
前言
目前,高校的數(shù)據(jù)分析類課程(如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析等)教學(xué)方式大多以知識(shí)點(diǎn)為核心組織教學(xué),學(xué)生主要以學(xué)習(xí)知識(shí)為主,工程應(yīng)用實(shí)踐機(jī)會(huì)較少。教師將所要教授的知識(shí)點(diǎn)在課堂上講述,課后再以作業(yè)練習(xí)、課程實(shí)驗(yàn)、課程設(shè)計(jì)等形式幫助學(xué)生深入理解課堂上所學(xué)的知識(shí)。盡管為提高教學(xué)效果,目前許多高校嘗試了大型開放式網(wǎng)絡(luò)課程(Massive Open Online Course,MOOC)、翻轉(zhuǎn)課堂、移動(dòng)課堂、同伴學(xué)習(xí)和小規(guī)模限制性在線課程(Small Private Online Course,SPOC)等教學(xué)方法的改革,但總體上來說,對(duì)于應(yīng)用性較強(qiáng)的課程教學(xué),還存在改進(jìn)的空間,尤其是對(duì)學(xué)生的動(dòng)手實(shí)踐能力要求較高的數(shù)據(jù)分析類課程。現(xiàn)有的教學(xué)方法在傳授理論知識(shí)時(shí),缺少實(shí)際應(yīng)用環(huán)節(jié)的支持,學(xué)生缺少在實(shí)際應(yīng)用的背景下充分理解所學(xué)知識(shí)的機(jī)會(huì),難以培養(yǎng)學(xué)生應(yīng)用專業(yè)知識(shí)分析解決問題的技能和創(chuàng)新思維能力。
數(shù)據(jù)分析的方法是科學(xué),但這些方法的選擇和應(yīng)用過程因問題而異,帶有很強(qiáng)的藝術(shù)性。在現(xiàn)有專業(yè)課程教學(xué)模式下,學(xué)生僅僅了解需要學(xué)習(xí)基本的理論知識(shí),缺少實(shí)踐動(dòng)手經(jīng)歷,難以獲得這些知識(shí)的應(yīng)用技巧,很少接觸與企業(yè)實(shí)際項(xiàng)目相關(guān)的內(nèi)容,因此學(xué)生的應(yīng)用能力較弱,與企業(yè)實(shí)際的需求脫節(jié)。例如,在數(shù)據(jù)分析課程中,一般的教學(xué)方式是教師將具體數(shù)據(jù)分析的方法教授給學(xué)生,學(xué)生能夠理解算法或方法的內(nèi)容,但難以解決實(shí)際項(xiàng)目中應(yīng)用具體算法碰到的問題。目前亟待克服數(shù)據(jù)分析類課程教學(xué)脫離企業(yè)所需能力的培養(yǎng)痛點(diǎn),在課程學(xué)習(xí)的知識(shí)基礎(chǔ)上,解決實(shí)際問題,引導(dǎo)學(xué)生解決數(shù)據(jù)分析實(shí)際問題的必要技能和思維方法。
實(shí)際上,數(shù)據(jù)分析絕大部分的教材和書籍還基本停留在基本理論和方法的介紹,實(shí)驗(yàn)部分的內(nèi)容比較簡單或者缺失,實(shí)際應(yīng)用的內(nèi)容不足。還有些實(shí)戰(zhàn)性的書籍沒有按照教材的方式編寫,案例也比較粗略,數(shù)據(jù)分析過程中的一些技能解釋膚淺。有關(guān)實(shí)際項(xiàng)目中數(shù)據(jù)分析過程思路的分析以及難點(diǎn)解析對(duì)教學(xué),尤其是對(duì)實(shí)驗(yàn)或案例教學(xué)非常重要。最近幾年,作者與多家企業(yè)合作,在數(shù)據(jù)分析領(lǐng)域辛苦耕耘,親自參與了多個(gè)實(shí)際數(shù)據(jù)分析項(xiàng)目,熟悉數(shù)據(jù)分析過程的酸甜苦辣,希望通過本教材彌補(bǔ)國內(nèi)數(shù)據(jù)分析實(shí)用教材的不足,也希望本教材的出版能改善國內(nèi)數(shù)據(jù)分析類課程教學(xué)資料短缺的情況。
學(xué)習(xí)數(shù)據(jù)分析的最好方法就是做中學(xué),使用實(shí)際數(shù)據(jù)解決實(shí)際問題,而不是單純學(xué)習(xí)技術(shù)。實(shí)際上,有效的數(shù)據(jù)分析需要對(duì)業(yè)務(wù)進(jìn)行深入理解,在此基礎(chǔ)上形成有效的分析思路,并通過實(shí)驗(yàn)反復(fù)比較,才能真正解決客戶的問題。在數(shù)據(jù)時(shí)代,現(xiàn)實(shí)應(yīng)用中往往不乏數(shù)據(jù)。從生活中的小數(shù)據(jù)、簡單問題開始,做各種假設(shè),探索其中的規(guī)律。不斷嘗試常用的分析語言、工具和技術(shù),在應(yīng)用中不斷學(xué)習(xí)新的知識(shí),彌補(bǔ)課堂教學(xué)的不足,尤其是體會(huì)數(shù)據(jù)分析過程中書本上難得看到的分析技巧,并在應(yīng)用中舉一反三。如此反復(fù),隨著分析問題的深入,不斷提高分析能力,體會(huì)數(shù)據(jù)分析的艱辛和解決客戶問題的快樂。
本教材不局限于數(shù)據(jù)分析基本理論和基本方法的介紹,而是立足實(shí)際應(yīng)用,突出實(shí)際數(shù)據(jù)分析項(xiàng)目中的思路,以及數(shù)據(jù)分析中的難點(diǎn)。但希望讀者具有一定的統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)(數(shù)據(jù)挖掘)、數(shù)據(jù)科學(xué),以及必要的相關(guān)專業(yè)知識(shí)。也不追求過多的案例堆積,希望讀者能理解數(shù)據(jù)分析的思路,舉一反三。這些內(nèi)容是作者多年項(xiàng)目實(shí)踐和教學(xué)成果的總結(jié),其中的分析思路只有參與實(shí)際的項(xiàng)目,才能體驗(yàn)到數(shù)據(jù)分析的難點(diǎn)和藝術(shù)性,這是目前教學(xué)過程中培養(yǎng)學(xué)生工程性思維的重要問題,也是真正提高學(xué)生創(chuàng)新能力和動(dòng)手能力的手段。這些內(nèi)容是數(shù)據(jù)分析的基礎(chǔ),也是從事大數(shù)據(jù)分析必須掌握的知識(shí)和技能。有關(guān)數(shù)據(jù)挖掘常用算法的介紹,讀者可以參閱作者已經(jīng)出版的教材《商務(wù)智能(第4版)》(清華大學(xué)出版社,2016年)或其他專業(yè)書籍。
全書分為11章,具體的內(nèi)容簡介如下:
第1章從數(shù)據(jù)分析的流程出發(fā),討論了在數(shù)據(jù)分析各個(gè)階段需要做的工作以及經(jīng)常遇到的主要問題,尤其是數(shù)據(jù)挖掘算法使用時(shí)容易遇到的難題。數(shù)據(jù)挖掘過程有一定的標(biāo)準(zhǔn),但是針對(duì)具體的業(yè)務(wù)需求,如何設(shè)計(jì)合理、有效的數(shù)據(jù)分析流程,需要有一定的經(jīng)驗(yàn)和技巧,數(shù)據(jù)的預(yù)處理、算法的選擇等主要步驟都充分體現(xiàn)了數(shù)據(jù)挖掘的藝術(shù)性。
第2章以保險(xiǎn)產(chǎn)品推薦項(xiàng)目為例,突出了數(shù)據(jù)挖掘選擇合適的算法并非很簡單的事情,需要在理解分析問題以及對(duì)多種算法熟悉的基礎(chǔ)上,通過實(shí)驗(yàn)對(duì)初選的幾種算法進(jìn)行比較、調(diào)優(yōu),才能選擇對(duì)解決問題效果比較好的算法。
第3章介紹了多維分析常用的可視化圖形,這是數(shù)據(jù)分析的基本功。這些圖形可以幫助數(shù)據(jù)分析師探索數(shù)據(jù),找出數(shù)據(jù)中存在的問題以及基本規(guī)律。
第4章介紹了IBM SPSS Modeler 18數(shù)據(jù)挖掘工具的常用組件。在學(xué)習(xí)數(shù)據(jù)分析的不同階段,根據(jù)學(xué)習(xí)者的基礎(chǔ)、問題的分析難度等,可以選擇不同的工具或平臺(tái)。盡管分析工具并不是數(shù)據(jù)挖掘最重要的事情,但學(xué)習(xí)成本低、功能強(qiáng)大的分析工具對(duì)于問題的解決也是不可少的。對(duì)于編程基礎(chǔ)有限的數(shù)據(jù)分析師,可以選擇類似IBM SPSS Modeler 18的挖掘工具或TensorFlow等開源工具。盡管如此,對(duì)于有一定數(shù)據(jù)分析基礎(chǔ)的讀者,推薦學(xué)習(xí)Python、R等針對(duì)數(shù)據(jù)分析的語言,這些語言比較靈活,功能也十分強(qiáng)大。
第5章對(duì)香水的銷售數(shù)據(jù)進(jìn)行分析,討論受歡迎的香水以及特點(diǎn),并找出影響香水銷售的主要因素,為香水的營銷提供依據(jù)。
第6章對(duì)銀行的客戶信用記錄、申請(qǐng)客戶信息、拖欠歷史記錄、消費(fèi)歷史記錄等人口屬性、交易數(shù)據(jù)進(jìn)行綜合分析,討論用戶銀行信用卡拖欠和欺詐行為特征,為銀行推廣信用卡以及風(fēng)險(xiǎn)管理提供依據(jù)。
第7章從大眾點(diǎn)評(píng)網(wǎng)抓取火鍋店海底撈的菜品介紹以及客戶評(píng)論數(shù)據(jù),以客戶為中心,分析客戶對(duì)火鍋的偏好,為火鍋店的選址、菜品的選擇和設(shè)計(jì),以及火鍋店的競爭力都提供了參考。
第8章以攜程網(wǎng)上某商務(wù)賓館的客戶評(píng)分、評(píng)論數(shù)據(jù)為基礎(chǔ),通過情感分析,分析了客戶對(duì)商務(wù)賓館的偏好,并了解客戶的消費(fèi)行為,比較多家商務(wù)賓館的競爭優(yōu)劣勢,為商務(wù)賓館改進(jìn)經(jīng)營提供了參考。
第9章在某耐熱導(dǎo)線工廠最近2年的質(zhì)量管理數(shù)據(jù)的基礎(chǔ)上,分析了這些數(shù)據(jù)存在的問題,探索耐熱導(dǎo)線的加工流程中幾個(gè)工序之間半成品或成品質(zhì)量指標(biāo)的關(guān)系,提高最終產(chǎn)品的合格率。
第10章利用公安人口數(shù)據(jù)和違法犯罪人員行為特點(diǎn)的數(shù)據(jù),建立風(fēng)險(xiǎn)評(píng)分模型,實(shí)現(xiàn)對(duì)高危人群的特征分析,識(shí)別具有違法、犯罪、可疑或可能的高危人員。
第11章討論深度學(xué)習(xí)在音頻處理領(lǐng)域的應(yīng)用,介紹了常用的深度神經(jīng)網(wǎng)絡(luò)模型,重點(diǎn)分析卷積神經(jīng)網(wǎng)絡(luò)在音頻質(zhì)量評(píng)價(jià)領(lǐng)域的應(yīng)用。
數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉的領(lǐng)域,本書通過少數(shù)實(shí)際的具體案例,闡述數(shù)據(jù)分析項(xiàng)目的過程以及一些要點(diǎn),可作為普通高等學(xué)校數(shù)據(jù)挖掘商務(wù)數(shù)據(jù)分析商務(wù)智能等課程的案例和實(shí)驗(yàn)指導(dǎo)材料,也可供有志于數(shù)據(jù)分析師的讀者參考。配套實(shí)驗(yàn)數(shù)據(jù)、源代碼、軟件等可以從清華大學(xué)出版社網(wǎng)站下載。由于作者水平有限,書中難免有錯(cuò)誤之處,希望讀者不吝指出。
在寫作的過程中,胡遠(yuǎn)文、于召鑫、黃黎明、蒲實(shí)、朱榮斌等在資料收集方面做了一些工作,在此表示感謝。
趙衛(wèi)東2017年8月
復(fù)旦大學(xué)
目錄
第1章數(shù)據(jù)分析過程的主要問題
1.1業(yè)務(wù)理解
1.2數(shù)據(jù)理解
1.3數(shù)據(jù)質(zhì)量問題與預(yù)處理
1.4數(shù)據(jù)分析常見陷阱
1.5數(shù)據(jù)分析方法的選擇
1.5.1分類算法
1.5.2聚類算法
1.5.3關(guān)聯(lián)分析
1.5.4回歸分析
1.5.5深度學(xué)習(xí)
1.5.6統(tǒng)計(jì)方法
1.6數(shù)據(jù)分析結(jié)果的評(píng)價(jià)
1.6.1分類算法的評(píng)價(jià)
1.6.2聚類結(jié)果的評(píng)價(jià)
1.6.3關(guān)聯(lián)分析的評(píng)價(jià)
1.6.4回歸分析結(jié)果的評(píng)價(jià)
1.6.5深度學(xué)習(xí)的評(píng)價(jià)
1.7數(shù)據(jù)分析團(tuán)隊(duì)的組建
1.7.1項(xiàng)目經(jīng)理
1.7.2業(yè)務(wù)專家
1.7.3數(shù)據(jù)工程師
1.7.4數(shù)據(jù)建模人員
1.7.5可視化人員
1.7.6評(píng)估人員
1.8數(shù)據(jù)分析人才培養(yǎng)的難題
1.8.1數(shù)理要求高
1.8.2跨學(xué)科綜合能力
1.8.3國內(nèi)技術(shù)資料少
1.8.4實(shí)踐機(jī)會(huì)少
第2章數(shù)據(jù)挖掘算法的選擇保險(xiǎn)產(chǎn)品推薦
2.1業(yè)務(wù)理解
2.2數(shù)據(jù)分析目標(biāo)
2.3數(shù)據(jù)探索
2.3.1數(shù)據(jù)質(zhì)量評(píng)估
2.3.2探索數(shù)據(jù)統(tǒng)計(jì)特性
2.3.3數(shù)據(jù)降維
2.4模型選擇過程
2.4.1算法初選
2.4.2算法驗(yàn)證
2.4.3算法優(yōu)化
2.4.4平衡數(shù)據(jù)集
2.4.5修改模型參數(shù)
2.5總結(jié)
第3章常用可視化的多維分析
3.1箱圖
3.2雷達(dá)圖
3.3標(biāo)簽云
3.4氣泡圖
3.5樹圖
3.6地圖
3.7高低圖
3.8雙軸圖
3.9關(guān)系圖
3.10熱圖
第4章SPSS Modeler建模組件介紹
4.1數(shù)據(jù)預(yù)處理組件
4.1.1數(shù)據(jù)清理組件
4.1.2數(shù)據(jù)集成組件
4.1.3數(shù)據(jù)選擇組件
4.1.4數(shù)據(jù)變換組件
4.2數(shù)據(jù)挖掘建模組件
4.2.1模型篩選
4.2.2自動(dòng)建模
4.2.3決策樹模型
4.2.4貝葉斯網(wǎng)絡(luò)模型
4.2.5神經(jīng)網(wǎng)絡(luò)模型
4.2.6支持向量機(jī)模型
4.2.7時(shí)間序列模型
4.2.8統(tǒng)計(jì)模型
4.2.9聚類模型
4.2.10關(guān)聯(lián)分析
4.2.11KNN模型
4.2.12數(shù)據(jù)挖掘模式評(píng)估
4.3知識(shí)表示
4.3.1圖形節(jié)點(diǎn)
4.3.2數(shù)據(jù)輸出
4.3.3數(shù)據(jù)導(dǎo)出
第5章香水銷售分析
5.1香水銷售數(shù)據(jù)預(yù)處理
5.2香水銷售數(shù)據(jù)統(tǒng)計(jì)分析
5.3影響香水銷量的因素分析
5.4香水適用場所關(guān)聯(lián)分析
5.5香水聚類分析
5.6香水營銷建議
第6章銀行信用卡欺詐與拖欠行為分析
6.1客戶信用等級(jí)影響因素
6.1.1客戶信用卡申請(qǐng)數(shù)據(jù)預(yù)處理
6.1.2信用卡申請(qǐng)成功影響因素
6.2信用卡客戶信用等級(jí)影響因素
6.3基于消費(fèi)的信用等級(jí)影響因素
6.4信用卡欺詐判斷模型
6.4.1基于Apriori算法的欺詐模型
6.4.2基于判別的欺詐模型
6.4.3基于分類算法的欺詐模型
6.5欺詐人口屬性分析
6.5.1欺詐人口屬性統(tǒng)計(jì)分析
6.5.2基于邏輯回歸的欺詐人口屬性分析
6.5.3逾期還款的客戶特征
6.5.4基于決策樹分析逾期客戶特征
6.5.5基于回歸分析逾期客戶特征
6.5.6根據(jù)消費(fèi)歷史分析客戶特征
6.5.7基于聚類分析客戶特征
6.5.8基于客戶細(xì)分的聚類分析
第7章海底撈火鍋運(yùn)營分析
7.1火鍋相關(guān)數(shù)據(jù)抓取
7.2數(shù)據(jù)預(yù)處理
7.3數(shù)據(jù)分析
7.3.1海底撈運(yùn)營分析
7.3.2店鋪選址分析
7.4菜品關(guān)聯(lián)分析
7.5用戶評(píng)論與評(píng)分的關(guān)聯(lián)分析
7.6顧客情感分析
第8章商務(wù)賓館競爭分析
8.1目前經(jīng)濟(jì)型酒店行業(yè)競爭態(tài)勢
8.2用戶相關(guān)數(shù)據(jù)準(zhǔn)備
8.3通過Python編程抓取評(píng)論
8.4數(shù)據(jù)預(yù)處理
8.5商務(wù)賓館客戶數(shù)據(jù)分析
8.5.1酒店評(píng)分影響因素
8.5.2酒店評(píng)分與酒店業(yè)績關(guān)系
8.5.3酒店評(píng)分分析
8.5.4客戶情感分析
8.5.5競爭分析
8.6建議
第9章耐熱導(dǎo)線工廠質(zhì)量管理數(shù)據(jù)分析
9.1項(xiàng)目概述
9.2耐熱導(dǎo)線生產(chǎn)質(zhì)量數(shù)據(jù)預(yù)處理
9.3耐熱鋁線質(zhì)量檢測數(shù)據(jù)分析
第10章基于邏輯回歸模型的高危人員分析
10.1高危人員分析需求
10.2高危人群相關(guān)數(shù)據(jù)收集與預(yù)處理
10.3建立模型
第11章卷積神經(jīng)網(wǎng)絡(luò)在音頻質(zhì)量評(píng)價(jià)領(lǐng)域的應(yīng)用
11.1深度學(xué)習(xí)基礎(chǔ)
11.1.1深度學(xué)習(xí)的發(fā)展過程
11.1.2深度學(xué)習(xí)常用技術(shù)框架
11.1.3常用的深度學(xué)習(xí)算法
11.2音頻質(zhì)量評(píng)價(jià)
11.2.1音頻樣本及特征預(yù)處理
11.2.2音頻特征選擇
11.2.3卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練
11.2.4模型參數(shù)調(diào)優(yōu)
11.3性能驗(yàn)證
參考文獻(xiàn)