統(tǒng)計(jì)挖掘與機(jī)器學(xué)習(xí):大數(shù)據(jù)預(yù)測(cè)建模和分析技術(shù)(原書第3版)
定 價(jià):149 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:[美]布魯斯·拉特納(Bruce Ratner)
- 出版時(shí)間:2021/9/1
- ISBN:9787111689942
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP311.13
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書是一本區(qū)分統(tǒng)計(jì)數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘的圖書。它創(chuàng)造性地匯編了數(shù)據(jù)挖掘技術(shù),解決了對(duì)經(jīng)典和現(xiàn)代統(tǒng)計(jì)方法框架的擴(kuò)展,用于預(yù)測(cè)建模和大數(shù)據(jù)分析。SM-DM為數(shù)據(jù)挖掘領(lǐng)域新晉的數(shù)據(jù)科學(xué)家所面臨的共同問題提供了適當(dāng)?shù)慕鉀Q方案。它的展示側(cè)重于數(shù)據(jù)科學(xué)家(通常被稱為統(tǒng)計(jì)學(xué)家、數(shù)據(jù)采礦者和數(shù)據(jù)分析師)的需求,提供實(shí)用但又強(qiáng)大的、簡(jiǎn)單而又有洞察力的量化技術(shù),其中大部分使用了新機(jī)器學(xué)習(xí)影響改進(jìn)的舊統(tǒng)計(jì)方法。
本書創(chuàng)造性地匯編了數(shù)據(jù)挖掘技術(shù),將統(tǒng)計(jì)數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘進(jìn)行了區(qū)分,對(duì)經(jīng)典和現(xiàn)代統(tǒng)計(jì)方法框架進(jìn)行了擴(kuò)展,以用于預(yù)測(cè)建模和大數(shù)據(jù)分析。本書為數(shù)據(jù)挖掘領(lǐng)域新晉的數(shù)據(jù)科學(xué)家所面臨的共同問題提供了適當(dāng)?shù)慕鉀Q方案,并側(cè)重于數(shù)據(jù)科學(xué)家的需求,提供了實(shí)用且強(qiáng)大、簡(jiǎn)單而富有洞察力的量化技術(shù),其中大部分使用了受新機(jī)器學(xué)習(xí)影響改進(jìn)的舊統(tǒng)計(jì)方法。 在這本暢銷書的新版里,作者大幅修改并重新組織章節(jié)內(nèi)容,新增了一些富有創(chuàng)意且用途廣泛的機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)方面的內(nèi)容。簡(jiǎn)單而有針對(duì)性的量化處理方法使得本書在數(shù)據(jù)挖掘圖書領(lǐng)域別具一格。
第3版前言
大數(shù)據(jù)的預(yù)測(cè)分析法在本書第2版出版之后的四年來一直保持著穩(wěn)定的熱度。我之所以決定寫作新版,不是因?yàn)榈?版的成功,而是因?yàn)槲沂盏降拇罅空娣答仯ㄗx者來信)。而且,重要的是,我需要分享解決問題的方法。這些問題還沒有被人們普遍接受的、可靠的或者已知的解決方案。與上一版一樣,約翰·圖基(John Tukey)原則是推進(jìn)統(tǒng)計(jì)學(xué)的發(fā)展以及提高靈活性、實(shí)用性、創(chuàng)新性和普遍性所必需的,是各章介紹的新分析法和建模方法論的試金石。
第3版的主要目標(biāo)如下:
1)擴(kuò)充核心內(nèi)容,包括解決問題的策略和方法,它們來自預(yù)測(cè)分析學(xué)術(shù)會(huì)議和統(tǒng)計(jì)建模研討會(huì),以及我對(duì)Statistics on the Table [1]的一些想法。
2)重新編輯現(xiàn)有章節(jié),提高寫作質(zhì)量;修改結(jié)尾部分,使內(nèi)容更緊湊。
3)提供本書推薦的分析方法和建模的統(tǒng)計(jì)子程序。我使用Base SAS和STAT/SAS。這些子程序也可以從 http://www.geniq.net/articles.html#section9下載,代碼很容易轉(zhuǎn)換成用戶喜歡的其他語言。
在第2版的基礎(chǔ)上,本書新增了13章,它們穿插在原來的章節(jié)中間,以限度地保證內(nèi)容的連貫性。新章節(jié)如下:
第2章介紹統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)。如果人們不留意,可能就會(huì)按下刪除鍵,刪掉統(tǒng)計(jì)學(xué)和統(tǒng)計(jì)學(xué)家,代之以科學(xué)和數(shù)據(jù)科學(xué)家。我討論了近期出現(xiàn)的術(shù)語數(shù)據(jù)科學(xué)是否意味著統(tǒng)計(jì)學(xué)是一個(gè)發(fā)展更快的領(lǐng)域的子集合,或者數(shù)據(jù)科學(xué)是否掩蓋了當(dāng)前的統(tǒng)計(jì)學(xué)應(yīng)用狀況。
第8章介紹一個(gè)市場(chǎng)份額估算模型,其獨(dú)特之處是不采用常規(guī)的基于抽樣調(diào)研的市場(chǎng)份額情境分析,而是采用主成分分析(PCA)作為估算一個(gè)真實(shí)案例的市場(chǎng)份額的基礎(chǔ)。我提供了構(gòu)建這個(gè)案例研究的市場(chǎng)份額模型的SAS子程序。
第11章介紹無抽樣調(diào)研數(shù)據(jù)預(yù)測(cè)錢包份額。這種預(yù)測(cè)錢包份額(SOW)的日常方法需要抽樣調(diào)研數(shù)據(jù)。由于抽樣調(diào)研工作耗時(shí)多、成本高,而且會(huì)出現(xiàn)不可靠數(shù)據(jù),所以通常不采用。我提供了一種不需要數(shù)據(jù)就能預(yù)測(cè)SOW的兩步法。步定義一個(gè)準(zhǔn)SOW并通過模擬法對(duì)總金額進(jìn)行估算。第二步采用分?jǐn)?shù)邏輯斯諦回歸法預(yù)測(cè)SOW_q,巧妙地將普通的邏輯斯諦回歸用于比例或比率不變的因變量。我給出了詳細(xì)的案例分析和SAS子程序,讀者會(huì)發(fā)現(xiàn)這種方法很有價(jià)值。
第19章提出了一種基于模型的潛在類別分析(LCA)聚類方法。這種細(xì)分的創(chuàng)新型策略包含在時(shí)間序列數(shù)據(jù)的應(yīng)用之中。時(shí)間序列LCA模型是一種完全不同的方法,可以作為處理截面數(shù)據(jù)集中的時(shí)間序列數(shù)據(jù)的模板。這種LCA法可以替代目前流行的基于數(shù)據(jù)的啟發(fā)式k均值法。我提供了SAS子程序,數(shù)據(jù)挖掘人員可以用來執(zhí)行與演示類似的市場(chǎng)細(xì)分工作。我還提供了一種將時(shí)間序列數(shù)據(jù)合并到其他截面數(shù)據(jù)集中的獨(dú)特方法。
隨后是第20章。文獻(xiàn)通常會(huì)介紹各種可以用來進(jìn)行市場(chǎng)細(xì)分的聚類方法,而有關(guān)如何解讀細(xì)分結(jié)果的文獻(xiàn)卻寥寥無幾。這一章提供了一種理解客戶細(xì)分的便捷方法。我用一個(gè)常見的簡(jiǎn)單例子說明新方法,以充分展示這種方法的威力。本章提供了執(zhí)行這種新方法所用的SAS子程序,數(shù)據(jù)挖掘人員可以將這個(gè)有價(jià)值的統(tǒng)計(jì)技術(shù)收入工具箱。
第21章是第20章的擴(kuò)展。本章的目的是提供一種理解統(tǒng)計(jì)回歸模型的簡(jiǎn)單方法,即普通小二乘法和邏輯斯諦回歸(LR)模型。我用一個(gè)LR模型演示了這種方法,展示了這種方法的威力。這種方法含有補(bǔ)充信息,用于彌補(bǔ)一直以來人們需要依靠回歸系數(shù)才能理解統(tǒng)計(jì)回歸模型的不足。我提供了SAS子程序,可以作為其他統(tǒng)計(jì)方法的一個(gè)有價(jià)值的補(bǔ)充。
第23章介紹大數(shù)據(jù)建模,接在使用CHAID作為歸因方法的章節(jié)之后。缺失的數(shù)據(jù)會(huì)警告統(tǒng)計(jì)學(xué)家:除非你知道如何接納我,否則你毫無勝算。在大數(shù)據(jù)出現(xiàn)之前,用傳統(tǒng)的基于數(shù)據(jù)的方法(完整案例分析)處理任何數(shù)據(jù)集都會(huì)出現(xiàn)問題。這些方法能否有效用于大數(shù)據(jù)分析令人懷疑。我提出了一個(gè)兩步法,即先用完整的回應(yīng)數(shù)據(jù)建模,然后用PCA對(duì)不完整的回應(yīng)數(shù)據(jù)建模。這兩個(gè)模型可以單獨(dú)使用,也可以與具體任務(wù)目標(biāo)結(jié)合使用。我提供了這種方法的SAS子程序,它會(huì)成為統(tǒng)計(jì)建模者的一個(gè)有用工具。
第24章高度融合了藝術(shù)、科學(xué)、數(shù)字和詩歌,它們都受到了埃及金字塔、達(dá)·芬奇和愛因斯坦的啟發(fā)。這一章會(huì)引發(fā)你的思考。
第27章是對(duì)前一章的補(bǔ)充。營(yíng)銷人員使用十分位分析評(píng)估他們的回應(yīng)模型相對(duì)于隨機(jī)獲得的回應(yīng)的可預(yù)測(cè)優(yōu)勢(shì)。我定義了兩種新指標(biāo),即回應(yīng)模型十分位分析精確度和隨機(jī)模型十分位精確度,可以讓營(yíng)銷人員對(duì)回應(yīng)模型的優(yōu)缺點(diǎn)進(jìn)行更深入的評(píng)估。我提供了構(gòu)建這兩種新指標(biāo)的SAS子程序,這會(huì)成為市場(chǎng)營(yíng)銷統(tǒng)計(jì)學(xué)家的可靠工具。
第28章將評(píng)估回應(yīng)模型的方法擴(kuò)展到適當(dāng)使用對(duì)照組(文獻(xiàn)中使用諸如提升或凈提升度模型這類名稱),以替代第27章中討論的隨機(jī)模型。有關(guān)凈提升度模型的文獻(xiàn)有很多,有些相互矛盾而且容易引起混淆。我提供了另一種方法T-C凈提升度模型,這是一個(gè)簡(jiǎn)單、直觀、可靠、易于實(shí)現(xiàn)和理解的模型,緩解了有關(guān)這個(gè)主題的文獻(xiàn)之間的不相容情況。我提供了T-C凈提升度模型的SAS子程序,統(tǒng)計(jì)學(xué)家可以用于建模,而不必購買昂貴的軟件。
對(duì)于統(tǒng)計(jì)學(xué)家來說,當(dāng)踏上數(shù)據(jù)處理旅程時(shí),第34章會(huì)給
第3版前言
第2版前言
致謝
關(guān)于作者
第1章 引論 1
1.1 個(gè)人計(jì)算機(jī)與統(tǒng)計(jì)學(xué) 1
1.2 統(tǒng)計(jì)學(xué)和數(shù)據(jù)分析 2
1.3 EDA簡(jiǎn)介 3
1.4 EDA范式 4
1.5 EDA的弱點(diǎn) 5
1.6 小數(shù)據(jù)和大數(shù)據(jù) 5
1.6.1 數(shù)據(jù)規(guī)模特征 6
1.6.2 數(shù)據(jù)規(guī)模:個(gè)人觀點(diǎn) 7
1.7 數(shù)據(jù)挖掘范式 7
1.8 統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí) 8
1.9 統(tǒng)計(jì)數(shù)據(jù)挖掘 9
參考資料 9
第2章 數(shù)據(jù)處理相關(guān)學(xué)科:統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué) 11
2.1 引言 11
2.2 背景 11
2.3 統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)的比較 12
2.4 討論:統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)的不同之處 18
2.5 本章小結(jié) 19
2.6 結(jié)語 19
參考資料 19
第3章 變量評(píng)估的兩種基本數(shù)據(jù)挖掘方法 21
3.1 引言 21
3.2 相關(guān)系數(shù) 21
3.3 散點(diǎn)圖 22
3.4 數(shù)據(jù)挖掘 24
3.4.1 示例3.1 24
3.4.2 示例3.2 24
3.5 平滑散點(diǎn)圖 25
3.6 一般關(guān)聯(lián)性檢驗(yàn) 27
3.7 本章小結(jié) 28
參考資料 29
第4章 用于評(píng)估成對(duì)變量的基于CHAID的數(shù)據(jù)挖掘方法 30
4.1 引言 30
4.2 散點(diǎn)圖 30
4.3 平滑散點(diǎn)圖 31
4.4 CHAID入門 32
4.5 用更平滑的散點(diǎn)圖進(jìn)行基于CHAID的數(shù)據(jù)挖掘 33
4.6 本章小結(jié) 36
參考資料 37
第5章 校直數(shù)據(jù)的簡(jiǎn)單性和可取性對(duì)建模十分重要 38
5.1 引言 38
5.2 數(shù)據(jù)的直度和對(duì)稱度 38
5.3 數(shù)據(jù)挖掘是高級(jí)概念 39
5.4 相關(guān)系數(shù) 39
5.5。▁x3,yy3)散點(diǎn)圖 40
5.6 挖掘(xx3,yy3)關(guān)系 41
5.7 基于遺傳算法的數(shù)據(jù)挖掘如何處理數(shù)據(jù) 43
5.8 校直多個(gè)變量 43
5.9 本章小結(jié) 44
參考資料 44
第6章 排序數(shù)據(jù)對(duì)稱化:提高數(shù)據(jù)預(yù)測(cè)能力的統(tǒng)計(jì)數(shù)據(jù)挖掘方法 45
6.1 引言 45
6.2 量度范圍 45
6.3 莖葉圖 47
6.4 箱線圖 47
6.5 排序數(shù)據(jù)對(duì)稱處理方法的圖示 47
6.5.1 示例1 48
6.5.2 示例2 50
6.6 本章小結(jié) 56
參考資料 56
第7章 主成分分析:多變量評(píng)估的統(tǒng)計(jì)數(shù)據(jù)挖掘方法 57
7.1 引言 57
7.2 EDA重新表述范式 57
7.3 關(guān)鍵點(diǎn) 58
7.4 PCA基礎(chǔ) 58
7.5 示例詳解 58
7.6 PCA的代數(shù)特征 59
7.7 一個(gè)不常見示例 60
7.7.1 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析 61
7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析結(jié)果 61
7.8 用PCA構(gòu)造準(zhǔn)交互變量 62
7.9 本章小結(jié) 66
第8章 市場(chǎng)份額估算:一個(gè)特殊的數(shù)據(jù)挖掘案例 67
8.1 引言 67
8.2 背景 67
8.3 一個(gè)特殊的數(shù)據(jù)挖掘案例 68
8.4 構(gòu)建RAL的YUM市場(chǎng)份額模型 69
8.4.1 市場(chǎng)份額模型的十分位分析 76
8.4.2 YUM_3mos市場(chǎng)份額模型的結(jié)論 76
8.5 本章小結(jié) 77
附錄8.A 生成 PROMO_Code啞變量 77
附錄8.B PROMO_Code啞變量的PCA 77
附錄8.C PROMO_Code啞變量上的邏輯斯諦回歸YUM_3mos 78
附錄8.D 生成YUM_3mos_wo_PROMO_CodeEff 78
附錄 8.E 將變量標(biāo)準(zhǔn)化為位于[0, 1]內(nèi) 78
參考資料 79
第9章 相關(guān)系數(shù)在[-1, 1]內(nèi)取值,是這樣嗎 80
9.1 引言 80
9.2 相關(guān)系數(shù)的基礎(chǔ)知識(shí) 80
9.3 計(jì)算相關(guān)系數(shù) 81
9.4 重新配對(duì) 82
9.5 計(jì)算經(jīng)調(diào)整的相關(guān)系數(shù) 84
9.6 重新配對(duì)的意義 84
9.7 本章小結(jié) 84
第10章 邏輯斯諦回歸:回應(yīng)建模方法 85
10.1 引言 85
10.2 邏輯斯諦回歸模型 86
10.2.1 示例 86
10.2.2 為L(zhǎng)RM打分 87
10.3 案例分析 88
10.4 logit值和logit散點(diǎn)圖 89
10.5 校直數(shù)據(jù)的重要性 90
10.6 校直數(shù)據(jù)的重述 91
10.6.1 冪階梯法 91
10.6.2 突起規(guī)則 91
10.6.3 測(cè)量校直數(shù)據(jù) 92
10.7 校直示例數(shù)據(jù) 92
10.7.1 FD2_OPEN的重述 93
10.7.2 INVESTMENT的重述 94
10.8 在突起規(guī)則不適用的情況下選用的技術(shù) 95
10.8.1 擬合logit值散點(diǎn)圖 95
10.8.2 平滑預(yù)測(cè)值與實(shí)際值散點(diǎn)圖 96
10.9 MOS_OPEN的重述 96
10.10 評(píng)估變量的重要性 99
10.10.1 計(jì)算G統(tǒng)計(jì)量 99
10.10.2 單變量的重要性 100
10.10.3 變量子集合的重要性 100
10.10.4 不同變量子集合的重要性比較 100
10.11 案例的重要變量 101
10.12 變量的相對(duì)重要性 102
10.13 案例變量的子集合 103
10.14 模型預(yù)測(cè)準(zhǔn)確性的可視化指標(biāo) 104
10.14.1 得分組的平滑殘差散點(diǎn)圖 104
10.14.2 基于十分位組的平滑預(yù)測(cè)與實(shí)際值散點(diǎn)圖 106
10.