第1 章 分析學(xué)入門 / 1 /
分析學(xué)與分析有區(qū)別嗎 / 3 /
數(shù)據(jù)挖掘該歸何處 / 3 /
分析學(xué)何以突然受到追捧 / 4 /
分析學(xué)的應(yīng)用領(lǐng)域 / 6 /
分析學(xué)面臨的主要挑戰(zhàn) / 6 /
分析學(xué)的發(fā)展歷史 / 8 /
分析學(xué)的簡單分類 / 12 /
分析學(xué)的前沿技術(shù)——以IBM Watson 為例 / 17 /
第2 章 數(shù)據(jù)挖掘入門 / 25 /
數(shù)據(jù)挖掘是什么 / 28 /
哪些不屬于數(shù)據(jù)挖掘 / 30 /
數(shù)據(jù)挖掘最常見的應(yīng)用 / 32 /
數(shù)據(jù)挖掘能夠發(fā)現(xiàn)怎樣的規(guī)律 / 36 /
常用的數(shù)據(jù)挖掘工具 / 41 /
數(shù)據(jù)挖掘的負(fù)面影響:隱私問題 / 46 /
第3 章 數(shù)據(jù)挖掘過程 / 54 /
數(shù)據(jù)庫知識獲取過程 / 54 /
跨行業(yè)標(biāo)準(zhǔn)化數(shù)據(jù)挖掘流程 / 56 /
SEMMA / 62 /
數(shù)據(jù)挖掘六西格瑪方法 / 66 /
哪種方法最好 / 69 /
第4 章 數(shù)據(jù)與數(shù)據(jù)挖掘的方法 / 74 /
數(shù)據(jù)挖掘中的數(shù)據(jù)屬性 / 74 /
數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理 / 77 /
數(shù)據(jù)挖掘方法 / 82 /
預(yù)測法 / 83 /
分類法 / 83 /
決策樹 / 91 /
數(shù)據(jù)挖掘中的聚類分析 / 93 /
K 均值聚類算法 / 97 /
關(guān)聯(lián)法 / 98 /
Apriori 算法 / 102 /
對數(shù)據(jù)挖掘的誤解與事實 / 103 /
第5 章 數(shù)據(jù)挖掘算法 / 112 /
近鄰算法 / 113 /
評估相似性:距離度量 / 114 /
人工神經(jīng)網(wǎng)絡(luò) / 117 /
支持向量機 / 128 /
線性回歸 / 133 /
邏輯回歸 / 138 /
時間序列預(yù)測 / 140 /
第6 章 文本分析和情感分析 / 145 /
自然語言處理 / 150 /
文本挖掘應(yīng)用 / 154 /
文本挖掘的流程 / 159 /
文本挖掘工具 / 171 /
情感分析 / 172 /
第7 章 大數(shù)據(jù)分析學(xué) / 183 /
大數(shù)據(jù)從何而來 / 184 /
定義“大數(shù)據(jù)”的V 們 / 186 /
大數(shù)據(jù)的關(guān)鍵概念 / 190 /
大數(shù)據(jù)分析處理的商業(yè)問題 / 195 /
大數(shù)據(jù)科技 / 196 /
數(shù)據(jù)科學(xué)家 / 205 /
大數(shù)據(jù)和流分析法 / 208 /
數(shù)據(jù)流挖掘 / 210 /
譯者后記 / 213 /
杜爾森·德倫博士的著作簡明清晰、內(nèi)容豐富,為渴望了解數(shù)據(jù)分析、數(shù)據(jù)挖掘和“大數(shù)據(jù)”的讀者提供了實用的學(xué)習(xí)工具。在商業(yè)活動越來越復(fù)雜、越來越趨向全球化的今天,決策者必須依靠現(xiàn)有的信息采取快速準(zhǔn)確的行動,現(xiàn)代數(shù)據(jù)挖掘和分析是制定決策所必不可少的。本書明確了該領(lǐng)域當(dāng)前的最佳做法,向讀者——主要是學(xué)生和從業(yè)者——展示了如何應(yīng)用數(shù)據(jù)的挖掘與分析發(fā)現(xiàn)數(shù)據(jù)隱含的規(guī)律與聯(lián)系,如何利用這些信息改進并提升整個決策過程。
作者選取了適量的概念、技術(shù)和案例幫助讀者真正理解數(shù)據(jù)挖掘技術(shù)的運行原理。這些技術(shù)包括:數(shù)據(jù)挖掘過程、方法與技術(shù),數(shù)據(jù)的作用與管理,工具與量表,文本與網(wǎng)頁挖掘,情感分析,以及接下來與最新大數(shù)據(jù)分析方法的整合。
在第1 章中,作者巧妙地將數(shù)據(jù)分析的源頭追溯到了第二次世界大戰(zhàn)時期(見圖1—2),使用下列期刊的讀者信息作為數(shù)據(jù):20 世紀(jì)70 年代的《決策支持系統(tǒng)》(Decision Support Systems)、20 世紀(jì)80 年代的《企業(yè)/ 高管IS 系統(tǒng)》(Enterprise/Executive IS Systems)以及我們都聽說過的20 世紀(jì)90 年代和21世紀(jì)初期的《商務(wù)智能》(Business Intelligence),最后還有當(dāng)前的《分析》(Analytics)和《大數(shù)據(jù)時代》(Big Data)。第1 章的內(nèi)容為后續(xù)即將論述的數(shù)據(jù)挖掘打下基礎(chǔ)。
在第2 章中,作者對數(shù)據(jù)挖掘進行了簡明易懂的描述,并進行了準(zhǔn)確的分類,將數(shù)據(jù)挖掘與其他幾個相關(guān)的術(shù)語區(qū)分開來,明確表示了數(shù)據(jù)挖掘的實際意義是發(fā)現(xiàn)知識。認(rèn)識到數(shù)據(jù)挖掘?qū)嵸|(zhì)上是在堅持許多原則的基礎(chǔ)上解決問題與制定決策,無疑是思維上的一次洗禮,許多人都認(rèn)為數(shù)據(jù)挖掘本身是一種新概念。這一章運用現(xiàn)實生活中的真實案例、具有啟發(fā)性的圖表以及平實的語言,向廣大讀者揭開了數(shù)據(jù)挖掘的神秘面紗。這種方法十分巧妙,將數(shù)據(jù)挖掘這樣看似復(fù)雜而又富有技術(shù)含量的話題介紹給了普羅大眾。
在第3 章中,德倫博士以淺顯易懂的形式向讀者展示了規(guī)范數(shù)據(jù)挖掘過程的不同方法。該章介紹的第一種方法是數(shù)據(jù)庫知識獲取(Knowledge Discovery in Database,KDD),這種方法由業(yè)界先驅(qū)尤薩馬·法雅德(Usama Fayyad)首創(chuàng)。德倫博士在討論中展示了KDD 技術(shù),并用圖表加以說明(見圖3—1),清楚地顯示了運用KDD 技術(shù)進行數(shù)據(jù)挖掘的過程。與此同時,這一章還介紹了眾多團體或個人提出的其他數(shù)據(jù)挖掘方案,這些方案共同構(gòu)成了數(shù)據(jù)挖掘這一領(lǐng)域基本思想的沿革發(fā)展。為了顯示這些方案的實用性,德倫博士還在最后提供了一個案例研究——“挖掘癌癥數(shù)據(jù),獲取最新知識”。
第4 章主要研究數(shù)據(jù)挖掘中使用到的數(shù)據(jù),包括目前越來越頻繁使用的文本數(shù)據(jù)(即非結(jié)構(gòu)化、非數(shù)字性的數(shù)據(jù),占當(dāng)今世界可用數(shù)據(jù)的近90%)。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘最重要的一步,要建立實際可用的模型,所用的數(shù)據(jù)必須經(jīng)過處理統(tǒng)計,否則就像俗語中說的“無用輸入,無用輸出”。因此,在數(shù)據(jù)挖掘過程中近乎90% 以上的時間都花在了數(shù)據(jù)準(zhǔn)備這一環(huán)節(jié)。德倫博士竭盡所能采取種種方法統(tǒng)計整理數(shù)據(jù),為進一步的數(shù)據(jù)分析做好準(zhǔn)備,這些準(zhǔn)備包括打造數(shù)據(jù)鏈,測試數(shù)據(jù)組,為學(xué)習(xí)者提供最人性化的k 倍交叉核實界面(見圖4—6)。
在第5 章中,德倫博士介紹了最常見的數(shù)據(jù)挖掘運算,其講解簡明易懂,外行人也能看出門道。此外,他還全面介紹了神經(jīng)網(wǎng)絡(luò)與支持向量機(Support Vector Machines,SVM),使這些原本晦澀難懂的數(shù)學(xué)工具變得生動易學(xué)。其中,德倫博士親自設(shè)計的演算示例也讓本書物超所值。
第6 章詳細(xì)講述了文本挖掘(即文本分析)。一開始,德倫博士引用了我們在2012 年出版的《實用數(shù)據(jù)挖掘》(Practical Data Mining,我本人是這本書的主編)首次使用的圖表。博士成功地將我們1 100 頁的著作濃縮成短短一章——事實上,這樣的濃縮版本對初學(xué)者而言更有意義。干得漂亮,德倫!
最后,在第7 章中,德倫博士介紹了當(dāng)前分析領(lǐng)域一個炙手可熱的名詞——大數(shù)據(jù)分析。我們幾乎每天都能在新聞中聽到“大數(shù)據(jù)”這個詞,它到底是什么意思呢?對不同的人而言,這個詞有著不同的含義。但作為一個在數(shù)據(jù)挖掘領(lǐng)域活躍了15 年以上的人,我可以說每時每刻都與大數(shù)據(jù)打交道。數(shù)據(jù)存儲空間的成本越來越低,云存儲逐漸進入人們的生活,一臺小小的筆記本電腦都能夠進行數(shù)據(jù)分析中的分配步驟和多線程運算。輕薄的平板電腦甚至能夠勝過幾十年前存放在開著冷氣的庫房中的主服務(wù)器。現(xiàn)在人們甚至可以用智能手機管理幾個服務(wù)器和云存儲。數(shù)據(jù)正日漸變“大”,而處理數(shù)據(jù)所需的物理實體卻越來越“小”。
但是大多數(shù)人對大數(shù)據(jù)都存在著誤解,至少在我看來是這樣的。許多人認(rèn)為數(shù)據(jù)挖掘必須用到大數(shù)據(jù)。我與住院醫(yī)師有過10 年的合作,他們希望在為期一年的項目中研究盡可能多的案例,但在有限的時間內(nèi)只能找到一部分所需的材料。以傳統(tǒng)統(tǒng)計學(xué)標(biāo)準(zhǔn)來看,這些小型數(shù)據(jù)組的研究是沒有任何意義的,但是我發(fā)現(xiàn),使用工具學(xué)習(xí)這種現(xiàn)代數(shù)據(jù)挖掘方法,往往能夠從小數(shù)據(jù)組中得到有用的假設(shè),獲得從前使用傳統(tǒng)費雪學(xué)派p 值統(tǒng)計法不可能得到的信息。在20世紀(jì),傳統(tǒng)統(tǒng)計學(xué)還被認(rèn)為是非主流的統(tǒng)計方法,而在20 世紀(jì)以前,貝葉斯統(tǒng)計法(Bayesian statistics)曾統(tǒng)領(lǐng)了數(shù)據(jù)分析領(lǐng)域長達幾百年之久。隨著21 世紀(jì)的到來,貝葉斯統(tǒng)計的現(xiàn)代形式,包括SVM、NN 及其他工具學(xué)習(xí)模型卷土重來,我們又回到了貝葉斯的時代。雖然對于“傳統(tǒng)統(tǒng)計訓(xùn)練”而言,還需要一定時間來理解和跟上時代的潮流,但是統(tǒng)計領(lǐng)域的前沿陣地?zé)o疑是屬于貝葉斯統(tǒng)計法、數(shù)據(jù)挖掘和大數(shù)據(jù)的。
所有想要了解數(shù)據(jù)挖掘并在這一方面掌握一技之長的讀者都應(yīng)該選擇這本書,當(dāng)閱讀到本書的最后一頁就會發(fā)現(xiàn),你已經(jīng)完全了解這一領(lǐng)域,如蛹化蝶飛。
加里·麥尼 博士(Dr. Gary D. Miner)
戴爾信息管理集團軟件事業(yè)部
高級分析師、醫(yī)療保健應(yīng)用專家
。ㄆ鋬刹恐髟(jīng)獲得PROSE 獎)
……