定 價(jià):59 元
叢書(shū)名:大數(shù)據(jù)技術(shù)叢書(shū)
- 作者:張良均 ... [等] 著
- 出版時(shí)間:2016/6/1
- ISBN:9787111540526
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:302
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:16K
本書(shū)主要分為三個(gè)部分,基礎(chǔ)篇、建模應(yīng)用篇和Rattle篇。基礎(chǔ)篇(第1~5章)介紹了有關(guān)R語(yǔ)言的安裝與使用、R語(yǔ)言中的數(shù)據(jù)結(jié)構(gòu)、常用操作和繪圖功能等基礎(chǔ)功能。建模應(yīng)用篇(第6~10章)主要介紹了目前在數(shù)據(jù)挖掘中的常用的建模方法在R語(yǔ)言中的實(shí)現(xiàn)函數(shù),并對(duì)輸出結(jié)果進(jìn)行了解釋?zhuān)兄谧x者快速掌握應(yīng)用R語(yǔ)言進(jìn)行分析挖掘建模的方法。Rattle篇(第11章)介紹了一個(gè)R語(yǔ)言的圖形界面工具。圖書(shū)配套提供了程序代碼及數(shù)據(jù),讀者可通過(guò)上機(jī)實(shí)驗(yàn),快速掌握書(shū)中所介紹的R語(yǔ)言的使用方法。
公認(rèn)*威教材,數(shù)據(jù)挖掘資深專(zhuān)家10余年大數(shù)據(jù)挖掘與實(shí)施經(jīng)驗(yàn)結(jié)晶。華南師范大學(xué)、廣東工業(yè)大學(xué)、廣西科技大學(xué)等20余所大學(xué)選為教材,附贈(zèng)源代碼,配有教學(xué)PPT和上機(jī)實(shí)驗(yàn)
10余位數(shù)據(jù)挖掘領(lǐng)域資深專(zhuān)家和科研人員,10余年大數(shù)據(jù)挖掘咨詢(xún)與實(shí)施經(jīng)驗(yàn)結(jié)晶。
為零基礎(chǔ)R語(yǔ)言與數(shù)據(jù)挖掘教學(xué)和自學(xué)量身打造,系統(tǒng)講解R語(yǔ)言與數(shù)據(jù)挖掘的必備知識(shí),配有大量的上機(jī)實(shí)驗(yàn)、源代碼和教學(xué)PPT資源。
為什么要寫(xiě)本書(shū)R語(yǔ)言是什么?R是一種適用于統(tǒng)計(jì)分析計(jì)算和圖像處理的語(yǔ)言,受S語(yǔ)言和Scheme語(yǔ)言影響發(fā)展而來(lái)。早期R是基于S語(yǔ)言的一個(gè)GNU項(xiàng)目,所以也可以當(dāng)作S語(yǔ)言的一種實(shí)現(xiàn),通常用S語(yǔ)言編寫(xiě)的代碼都可以不做任何修改地在R環(huán)境下運(yùn)行。R的語(yǔ)法來(lái)自Scheme,作為一款誕生于20世紀(jì)90年代的語(yǔ)言,R已經(jīng)成為S統(tǒng)計(jì)編程語(yǔ)言的一類(lèi)實(shí)現(xiàn)方式。
R編程語(yǔ)言在數(shù)字分析與機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)成為一款重要的工具。隨著機(jī)器逐步成為愈發(fā)核心的數(shù)據(jù)生成器,該語(yǔ)言的人氣也一路攀升。正如Tiobe、PyPL以及Redmonk等編程語(yǔ)言人氣排名所指出,R語(yǔ)言所受到的關(guān)注程度正在快速提升。Rexer Analytics發(fā)布的2013年數(shù)據(jù)挖掘人員調(diào)查顯示,70%的數(shù)據(jù)挖掘人員使用R軟件進(jìn)行分析工作,其中有24%將其作為主要工具。這些結(jié)果類(lèi)似于 2013 年KDnuggets調(diào)查的結(jié)果,該調(diào)查指出有61%的響應(yīng)者表示正在使用R處理分析、數(shù)據(jù)挖掘和數(shù)據(jù)科學(xué)工作。相比前一年,這一比例上升了16%。
R語(yǔ)言有一些明顯的優(yōu)勢(shì):
1)R語(yǔ)言作為一款開(kāi)源軟件,是完全免費(fèi)的,對(duì)比昂貴的SPSS和SAS等統(tǒng)計(jì)軟件,這無(wú)疑是一個(gè)巨大的優(yōu)勢(shì)。
2)R語(yǔ)言擁有一個(gè)龐大的社區(qū)來(lái)進(jìn)行維護(hù),龐大的軟件包生態(tài)系統(tǒng)無(wú)疑是R語(yǔ)言最為突出的優(yōu)勢(shì)之一。
3)R語(yǔ)言具備可擴(kuò)展能力且擁有豐富的功能選項(xiàng),幫助開(kāi)發(fā)人員構(gòu)建自己的工具及方法,從而順利實(shí)現(xiàn)數(shù)據(jù)分析。
4)R語(yǔ)言簡(jiǎn)單易學(xué)。雖與C語(yǔ)言之類(lèi)的程序設(shè)計(jì)語(yǔ)言已差別很大(比如語(yǔ)言結(jié)構(gòu)相對(duì)松散,使用變量前不需要明確正式定義變量類(lèi)型等),但仍保留了程序設(shè)計(jì)語(yǔ)言的基礎(chǔ)邏輯與自然的語(yǔ)言風(fēng)格。
從R的普及來(lái)看,國(guó)外的普及度要明顯好于國(guó)內(nèi),與盜版Windows的泛濫會(huì)影響Linux在中國(guó)的普及一樣,破解的MATLAB與SPSS的存在也影響了R在中國(guó)的使用。但在國(guó)外高校的統(tǒng)計(jì)系,R幾乎是一門(mén)必修的語(yǔ)言,具有統(tǒng)治性的地位。在工業(yè)界,作為互聯(lián)網(wǎng)公司翹楚的Google內(nèi)部也有不少工程使用R進(jìn)行數(shù)據(jù)分析工作。隨著數(shù)據(jù)挖掘在國(guó)內(nèi)的發(fā)展,國(guó)內(nèi)對(duì)R語(yǔ)言的需求必將隨之一起發(fā)展。
總的來(lái)說(shuō),R語(yǔ)言是一款用于統(tǒng)計(jì)分析、數(shù)據(jù)可視化和預(yù)測(cè)建模的數(shù)據(jù)分析軟件,它不單單只是一門(mén)語(yǔ)言,更是一個(gè)數(shù)據(jù)計(jì)算與分析的環(huán)境。R支持幾乎所有數(shù)據(jù)分析所需的數(shù)據(jù)處理、統(tǒng)計(jì)模型和圖表,支持大量的第三方功能包,涵蓋了從統(tǒng)計(jì)計(jì)算到機(jī)器學(xué)習(xí),從金融分析到生物信息,從社會(huì)網(wǎng)絡(luò)分析到自然語(yǔ)言處理,從各種數(shù)據(jù)庫(kù)各種語(yǔ)言接口到高性能計(jì)算模型等內(nèi)容。隨著大數(shù)據(jù)時(shí)代的來(lái)臨,數(shù)據(jù)挖掘?qū)⒏訌V泛地滲透到各行各業(yè)中去,而R語(yǔ)言作為數(shù)據(jù)挖掘里的熱門(mén)工具,將會(huì)有更多其他行業(yè)的人加入到R語(yǔ)言的使用者行列中來(lái)。R語(yǔ)言的使用課程成為高校中數(shù)學(xué)與統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的重要課程將是必然的趨勢(shì)。
本書(shū)特色本書(shū)從實(shí)際應(yīng)用出發(fā),結(jié)合實(shí)例及應(yīng)用場(chǎng)景,深入淺出地介紹了R語(yǔ)言應(yīng)用的相關(guān)知識(shí):R語(yǔ)言的安裝及使用、數(shù)據(jù)對(duì)象與數(shù)據(jù)讀寫(xiě)、常用數(shù)據(jù)管理、圖形探索、高級(jí)繪圖工具及常用的建模算法在R語(yǔ)言中的實(shí)現(xiàn)方式。書(shū)中以R語(yǔ)言的函數(shù)應(yīng)用為主,先介紹了函數(shù)的應(yīng)用場(chǎng)景及使用格式,再給出函數(shù)的應(yīng)用實(shí)例,最后對(duì)函數(shù)的運(yùn)行結(jié)果做出了解釋?zhuān)瑢⒄莆蘸瘮?shù)應(yīng)用的所需知識(shí)點(diǎn)按照實(shí)際使用的流程展示出來(lái)。
為方便理解R語(yǔ)言中相關(guān)函數(shù)的使用,本書(shū)提供示例代碼及所用數(shù)據(jù)等相關(guān)資源下載,讀者可以從“泰迪杯”全國(guó)數(shù)據(jù)挖掘挑戰(zhàn)賽網(wǎng)站(http://www.tipdm.org/ts/747.jhtml)免費(fèi)獲取。也可以通過(guò)熱線電話(40068-40020)、企業(yè)QQ(40068-40020)及以下微信公眾號(hào)咨詢(xún)獲取。
TipDM 張良均〈大數(shù)據(jù)挖掘產(chǎn)品與服務(wù)〉本書(shū)適用對(duì)象開(kāi)設(shè)有數(shù)據(jù)挖掘課程的高校教師和學(xué)生。
目前國(guó)內(nèi)不少高校將數(shù)據(jù)挖掘引入本科教學(xué)中,在數(shù)學(xué)、計(jì)算機(jī)、自動(dòng)化、電子信息、金融等專(zhuān)業(yè)開(kāi)設(shè)了數(shù)據(jù)挖掘技術(shù)相關(guān)的課程,但目前這一課程的教學(xué)工具仍然為SPSS、SAS等傳統(tǒng)統(tǒng)計(jì)工具,并沒(méi)有使用R語(yǔ)言作為挖掘工具。本書(shū)提供了有關(guān)R語(yǔ)言的從安裝到使用的一系列知識(shí),將能有效指導(dǎo)高校教師和學(xué)生使用R語(yǔ)言工具進(jìn)行數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘開(kāi)發(fā)人員。
這類(lèi)人員可以在理解數(shù)據(jù)挖掘應(yīng)用需求和設(shè)計(jì)方案的基礎(chǔ)上,結(jié)合書(shū)中提供的R語(yǔ)言的使用方法快速實(shí)現(xiàn)數(shù)據(jù)挖掘應(yīng)用的編程。
進(jìn)行數(shù)據(jù)挖掘應(yīng)用研究的科研人員。
許多科研院所為了更好地對(duì)科研工作進(jìn)行管理,紛紛開(kāi)發(fā)了適應(yīng)自身特點(diǎn)的科研業(yè)務(wù)管理系統(tǒng),并在使用過(guò)程中積累了大量的科研信息數(shù)據(jù)。R語(yǔ)言可以提供一個(gè)優(yōu)異的環(huán)境對(duì)這些數(shù)據(jù)進(jìn)行挖掘分析應(yīng)用。
關(guān)注高級(jí)數(shù)據(jù)分析的人員。
R語(yǔ)言作為一個(gè)專(zhuān)業(yè)的數(shù)據(jù)分析軟件,能為數(shù)據(jù)分析人員提供可靠的依據(jù)。
如何閱讀本書(shū)本書(shū)主要分為三個(gè)部分,基礎(chǔ)篇、建模應(yīng)用篇和Rattle篇。基礎(chǔ)篇介紹了有關(guān)R語(yǔ)言的安裝與使用、R語(yǔ)言中的數(shù)據(jù)結(jié)構(gòu)、常用操作和繪圖功能等基礎(chǔ)功能。建模應(yīng)用篇主要介紹了目前在數(shù)據(jù)挖掘中常用的建模方法在R語(yǔ)言中的實(shí)現(xiàn)函數(shù),并對(duì)輸出結(jié)果進(jìn)行了解釋?zhuān)兄谧x者快速掌握應(yīng)用R語(yǔ)言進(jìn)行分析挖掘建模的方法。讀者可結(jié)合本書(shū)提供的示例代碼及數(shù)據(jù)進(jìn)行上機(jī)實(shí)驗(yàn),快速掌握R語(yǔ)言的使用方法。
第一部分是基礎(chǔ)篇(第1~5章),第1章主要介紹了R語(yǔ)言及圖形操作工具RStudio的安裝及使用方法,第2章對(duì)R語(yǔ)言中的數(shù)據(jù)類(lèi)型和數(shù)據(jù)對(duì)象及不同格式的數(shù)據(jù)讀入和導(dǎo)出R語(yǔ)言進(jìn)行了介紹,第3章描述了R語(yǔ)言中對(duì)數(shù)據(jù)所能做的常用操作,包括變量的重命名、缺失值分析、排序、隨機(jī)抽樣等,第4、5章主要對(duì)R語(yǔ)言的繪圖功能進(jìn)行了介紹,涵蓋常用圖形如散點(diǎn)圖、直方圖、條形圖、箱線圖等,且一并介紹了一些基于R語(yǔ)言的可用于生成交互式圖形的軟件包。
第二部分是建模應(yīng)用篇(第6~10章),主要對(duì)數(shù)據(jù)挖掘中常用算法的函數(shù)在R語(yǔ)言中的使用方法及其結(jié)果進(jìn)行了介紹,涵蓋了目前數(shù)據(jù)挖掘的5大類(lèi)算法,包括分類(lèi)與預(yù)測(cè)、聚類(lèi)分析、關(guān)聯(lián)規(guī)則、智能推薦和時(shí)間序列。按照從模型建立到模型評(píng)價(jià)架構(gòu)的順序進(jìn)行介紹,使讀者能熟練地掌握從建模到對(duì)模型評(píng)價(jià)的完整建模過(guò)程。
第三部分是Rattle篇(第11章),介紹了一個(gè)R語(yǔ)言的圖形界面工具Rattle,此工具能夠在一個(gè)圖形化的界面上對(duì)本書(shū)介紹的R語(yǔ)言功能進(jìn)行操作,使讀者能更好地體驗(yàn)到使用R語(yǔ)言進(jìn)行數(shù)據(jù)挖掘的整個(gè)流程。
勘誤和支持除封面署名作者外,參加本書(shū)編寫(xiě)工作的還有黃博、陳婷婷、王路、陳玉輝、楊征、施興、徐英剛、鄭澤如、張樂(lè)兒、黃東鑫等。由于水平有限,編寫(xiě)時(shí)間倉(cāng)促,書(shū)中難免會(huì)出現(xiàn)一些錯(cuò)誤或者不準(zhǔn)確的地方,懇請(qǐng)讀者批評(píng)指正。本書(shū)內(nèi)容的更新將及時(shí)在“泰迪杯”全國(guó)數(shù)據(jù)挖掘挑戰(zhàn)賽網(wǎng)站上發(fā)布。讀者可通過(guò)微信公眾號(hào)TipDM、TipDM官網(wǎng)反饋有關(guān)問(wèn)題。也可通過(guò)熱線電話或企業(yè)QQ進(jìn)行在線咨詢(xún)。
致謝本書(shū)編寫(xiě)過(guò)程中得到了廣大高校師生的大力支持,在此謹(jǐn)向華南農(nóng)業(yè)大學(xué)、華南師范大學(xué)、廣東工業(yè)大學(xué)、廣東技術(shù)師范學(xué)院、華南理工大學(xué)、韓山師范學(xué)院、中山大學(xué)、貴州師范學(xué)院等單位給予支持的領(lǐng)導(dǎo)及師生致以深深的謝意。
在本書(shū)編輯和出版過(guò)程中還得到了參與“泰迪杯”全國(guó)數(shù)據(jù)挖掘挑戰(zhàn)賽的眾多師生及機(jī)械工業(yè)出版社楊福川老師無(wú)私的幫助與支持,在此一并表示感謝。
張良均,資深大數(shù)據(jù)挖掘?qū)<遥呒?jí)信息項(xiàng)目管理師,有近20年的大數(shù)據(jù)挖掘應(yīng)用、咨詢(xún)和培訓(xùn)經(jīng)驗(yàn),被稱(chēng)為“中國(guó)大數(shù)據(jù)挖掘培訓(xùn)教父”。為電信、電力、政府、互聯(lián)網(wǎng)、生產(chǎn)制造、零售、銀行、生物、化工、醫(yī)藥等多個(gè)行業(yè)上百家大型企業(yè)提供過(guò)數(shù)據(jù)挖掘應(yīng)用與咨詢(xún)服務(wù),實(shí)踐經(jīng)驗(yàn)豐富。現(xiàn)任廣東工業(yè)大學(xué)、華南師范大學(xué)、華南農(nóng)業(yè)大學(xué)等6所高校兼職教授。著有《神經(jīng)網(wǎng)絡(luò)實(shí)用教程》《數(shù)據(jù)挖掘:實(shí)用案例分析》《R語(yǔ)言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》等暢銷(xiāo)圖書(shū)。
謝佳標(biāo),資深R語(yǔ)言專(zhuān)家,多次于中國(guó)R語(yǔ)言大會(huì)發(fā)表演講,具有十余年的數(shù)據(jù)挖掘?qū)崙?zhàn)經(jīng)驗(yàn)。目前于某上市互聯(lián)網(wǎng)游戲公司,任高級(jí)數(shù)據(jù)分析師,負(fù)責(zé)大數(shù)據(jù)挖掘及可視化。培訓(xùn)過(guò)的精品課程有:《R語(yǔ)言基礎(chǔ)培訓(xùn)》《數(shù)據(jù)分析之R語(yǔ)言實(shí)戰(zhàn)》《機(jī)器學(xué)習(xí)與R語(yǔ)言實(shí)踐》等。
萬(wàn)正勇,某國(guó)際投行VP,有超過(guò)10年的金融系統(tǒng)大數(shù)據(jù)挖掘及分析經(jīng)驗(yàn),超過(guò)15年的大型金融機(jī)構(gòu)核心交易系統(tǒng)規(guī)劃設(shè)計(jì)開(kāi)發(fā)經(jīng)驗(yàn)。數(shù)據(jù)庫(kù)及中間件專(zhuān)家,先后獲得中國(guó)首屆十大杰出數(shù)據(jù)庫(kù)工程師,Oracle 中間件 ACE Director以及 Oracle 數(shù)據(jù)庫(kù) ACE 等稱(chēng)號(hào)。曾為電信,電力,航空,銀行,保險(xiǎn),互聯(lián)網(wǎng),交通,制造等等行業(yè)相關(guān)龍頭企業(yè)提供過(guò)咨詢(xún)服務(wù)。著有《衍生數(shù)學(xué)》,《Oracle數(shù)據(jù)庫(kù)DBA專(zhuān)題技術(shù)精粹》等暢銷(xiāo)書(shū)
前 言
第一部分 基礎(chǔ)篇
第1章 R語(yǔ)言的安裝與使用 2
1.1 R安裝與升級(jí) 3
1.2 R使用入門(mén) 4
1.2.1 R操作界面 4
1.2.2 RStudio窗口介紹 5
1.2.3 R常用操作 6
1.3 R數(shù)據(jù)分析包 8
1.4 配套資源使用說(shuō)明 10
1.5 小結(jié) 10
1.6 上機(jī)實(shí)驗(yàn) 10
第2章 數(shù)據(jù)對(duì)象與數(shù)據(jù)讀寫(xiě) 12
2.1 數(shù)據(jù)類(lèi)型 12
2.2 數(shù)據(jù)結(jié)構(gòu) 16
2.2.1 向量 16
2.2.2 矩陣 19
2.2.3 數(shù)組 24
2.2.4 數(shù)據(jù)框 25
2.2.5 因子 28
2.2.6 列表 31
2.3 數(shù)據(jù)文件的讀寫(xiě) 34
2.3.1 鍵盤(pán)輸入數(shù)據(jù) 34
2.3.2 讀取不同格式的數(shù)據(jù) 35
2.3.3 從其他統(tǒng)計(jì)軟件獲取數(shù)據(jù) 37
2.3.4 從數(shù)據(jù)庫(kù)獲取數(shù)據(jù) 37
2.3.5 從網(wǎng)頁(yè)獲取數(shù)據(jù) 39
2.4 小結(jié) 40
2.5 上機(jī)實(shí)驗(yàn) 40
第3章 R語(yǔ)言常用數(shù)據(jù)管理 42
3.1 變量的重命名 42
3.2 缺失值分析 45
3.3 數(shù)據(jù)排序 46
3.4 隨機(jī)抽樣 48
3.5 數(shù)值運(yùn)算函數(shù) 49
3.6 字符串處理 52
3.7 文本分詞 56
3.8 apply函數(shù)族 62
3.9 數(shù)據(jù)整合 65
3.10 控制流 68
3.11 函數(shù)的編寫(xiě) 71
3.12 小結(jié) 72
3.13 上機(jī)實(shí)驗(yàn) 73
第4章 圖形探索 75
4.1 圖形元素 76
4.1.1 顏色 76
4.1.2 點(diǎn) 80
4.1.3 文本 82
4.1.4 線條 86
4.1.5 圖例 91
4.1.6 坐標(biāo)軸 92
4.2 圖形組合 94
4.3 圖形保存 97
4.4 圖形函數(shù) 98
4.5 小結(jié) 116
4.6 上機(jī)實(shí)驗(yàn) 116
第5章 高級(jí)繪圖工具 117
5.1 lattice包繪圖工具 117
5.1.1 繪圖特色 117
5.1.2 基本圖形 122
5.2 ggplot2包繪圖工具 135
5.2.1 從qplot開(kāi)始 135
5.2.2 ggplot作圖 137
5.3 交互式繪圖工具簡(jiǎn)介 142
5.3.1 rCharts包 143
5.3.2 recharts包 147
5.3.3 googleVis包 147
5.3.4 htmlwidgets包 148
5.3.5 shiny包 153
5.4 小結(jié) 163
5.5 上機(jī)實(shí)驗(yàn) 163
第二部分 建模應(yīng)用篇
第6章 分類(lèi)與預(yù)測(cè) 166
6.1 回歸分析 166
6.2 決策樹(shù) 175
6.2.1 C4.5算法 176
6.2.2 CART算法 178
6.2.3 C5.0算法 180
6.3 人工神經(jīng)網(wǎng)絡(luò) 181
6.4 KNN算法 183
6.5 樸素貝葉斯分類(lèi) 185
6.6 其他分類(lèi)與預(yù)測(cè)算法函數(shù) 187
6.7 分類(lèi)與預(yù)測(cè)算法評(píng)價(jià) 192
6.8 小結(jié) 196
6.9 上機(jī)實(shí)驗(yàn) 196
第7章 聚類(lèi)分析 198
7.1 K-Means聚類(lèi)分析函數(shù) 199
7.2 層次聚類(lèi)算法 204
7.3 其他聚類(lèi)分析函數(shù) 207
7.4 小結(jié) 211
7.5 上機(jī)實(shí)驗(yàn) 212
第8章 關(guān)聯(lián)規(guī)則 213
8.1 Apriori關(guān)聯(lián)規(guī)則 214
8.2 小結(jié) 226
8.3 上機(jī)實(shí)驗(yàn) 226
第9章 智能推薦 228
9.1 智能推薦模型構(gòu)建 228
9.2 智能推薦模型評(píng)價(jià) 232
9.3 小結(jié) 235
9.4 上機(jī)實(shí)驗(yàn) 235
第10章 時(shí)間序列 237
10.1 ARIMA模型 237
10.2 其他時(shí)間序列模型 245
10.3 小結(jié) 250
10.4 上機(jī)實(shí)驗(yàn) 251
第三部分 Rattle篇
第11章 可視化數(shù)據(jù)挖掘工具Rattle 254
11.1 Rattle簡(jiǎn)介及其安裝 254
11.1.1 Rattle簡(jiǎn)介 254
11.1.2 Rattle安裝 254
11.2 功能預(yù)覽 255
11.3 數(shù)據(jù)導(dǎo)入 256
11.3.1 導(dǎo)入CSV數(shù)據(jù) 256
11.3.2 導(dǎo)入ARFF數(shù)據(jù) 261
11.3.3 導(dǎo)入ODBC數(shù)據(jù) 262
11.3.4 R Dataset——導(dǎo)入其他數(shù)據(jù)源 264
11.3.5 導(dǎo)入RData File數(shù)據(jù)集 267
11.3.6 導(dǎo)入Library數(shù)據(jù) 268
11.4 數(shù)據(jù)探索 269
11.4.1 數(shù)據(jù)總體概況 269
11.4.2 數(shù)據(jù)分布探索 272
11.4.3 相關(guān)性 275
11.4.4 主成分 277
11.4.5 交互圖 278
11.5 數(shù)據(jù)建模 283
11.5.1 聚類(lèi)分析 283
11.5.2 關(guān)聯(lián)規(guī)則 288
11.5.3 決策樹(shù) 291
11.5.4 隨機(jī)森林 293
11.6 模型評(píng)估 296
11.6.1 混淆矩陣 296
11.6.2 風(fēng)險(xiǎn)圖 296
11.6.3 ROC圖及相關(guān)圖表 297
11.6.4 模型得分?jǐn)?shù)據(jù)集 298
11.7 小結(jié) 299
11.8 上機(jī)實(shí)驗(yàn) 299
參考資料 301