本書詳細介紹了數(shù)據(jù)科學領域的相關智能技術,包括數(shù)據(jù)分析、基本學習算法、模糊邏輯、人工神經網絡、基因算法和進化計算、使用R語言進行大數(shù)據(jù)分析等。本書可以作為高等院校計算機專業(yè)本科生和研究生,以及其他專業(yè)研究生的人工智能課程的教材,也可以作為相關教師和數(shù)據(jù)分析技術人員的參考書。
信息和通信技術(ICT)已成為開展業(yè)務的常用工具。憑借ICT提供的高度適用性和支持,許多困難的計算任務都得到了簡化。另一方面,信息和通信技術也成為創(chuàng)造挑戰(zhàn)的關鍵因素!如今,如果不使用智能技術,那么在各領域收集的數(shù)據(jù)規(guī)模將遠遠超過我們縮減數(shù)據(jù)和分析數(shù)據(jù)的能力。積累的(大)數(shù)據(jù)中隱藏著很多有價值的信息。然而,要獲得這些有價值的信息和洞察力是非常困難的。因此,幫助人類從數(shù)據(jù)中提取知識的新一代計算理論和工具是必不可少的。畢竟,為什么這些本質上聰明、智能的工具和技術不用來最小化人的參與,以及有效地管理海量數(shù)據(jù)呢?
計算智能技術,包括神經網絡、模糊系統(tǒng)、進化計算以及其他的機器學習領域,在用于支持業(yè)務決策的數(shù)據(jù)識別、可視化、分類和分析等方面非常有效。已開發(fā)的計算智能理論已經應用于工程、數(shù)據(jù)分析、預測、醫(yī)療保健等許多領域。本書將這些技巧結合在一起來解決數(shù)據(jù)科學中的問題。
最近出現(xiàn)的“數(shù)據(jù)科學”一詞,特指一個使得海量數(shù)據(jù)變得有意義的新行業(yè)。但是,處理數(shù)據(jù)并使其有意義這一點具有悠久歷史。數(shù)據(jù)科學是一套用于支持和指導從數(shù)據(jù)中提取信息和洞察力的基本原則。與數(shù)據(jù)科學最密切相關的概念很可能是數(shù)據(jù)挖掘——通過包含這些原則,從數(shù)據(jù)中提取知識的技術。數(shù)據(jù)科學的核心輸出是數(shù)據(jù)產品。數(shù)據(jù)產品可以是從推薦列表到儀表板的任何產品,也可以是支持實現(xiàn)更明智決策的任何產品。分析是數(shù)據(jù)科學的核心。分析側重根據(jù)統(tǒng)計模型來理解數(shù)據(jù)。它關注數(shù)據(jù)的收集、分析和解釋,以及數(shù)據(jù)分析結果的有效組織、展示和交流。
這本教材旨在滿足希望從事數(shù)據(jù)科學和計算智能領域的研究和開發(fā)人員的需求。
全書概覽
自1994年以來,我們在不同地方以不同形式教授了本書中的主題。特別是,本書基于作者過去幾年在不同大學和不同研究機構所教授的研究生課程,其內容涉及各種數(shù)據(jù)科學的相關知識。來自參與者和同事的反饋在很大程度上幫助我們改進了本書的內容。
本書可以作為研究生或高年級本科生的一些課程的教科書或主要參考書,這些課程包括智能控制、計算科學、應用人工智能以及數(shù)據(jù)庫中的知識發(fā)現(xiàn)等。
本書以智能的方式為讀者設計和實現(xiàn)用于實際應用的數(shù)據(jù)分析方案奠定了堅實的基礎。本書共分為9章。
下面簡要介紹每一章中的內容。
數(shù)據(jù)對于任何企業(yè)而言都是重要資產。數(shù)據(jù)可以為客戶行為、市場資訊以及運營績效等領域提供有價值的洞察力。數(shù)據(jù)科學家搭建智能系統(tǒng)來管理、解釋、理解數(shù)據(jù),并從這些數(shù)據(jù)中獲取關鍵知識。第1章概述了數(shù)據(jù)科學的這些方面。特別強調的是,幫助學生確定數(shù)據(jù)科學思維在數(shù)據(jù)驅動型企業(yè)中的重要性。
數(shù)據(jù)科學項目不同于典型的商業(yè)智能項目。第2章概述了數(shù)據(jù)生命周期、數(shù)據(jù)科學項目生命周期以及數(shù)據(jù)分析生命周期。本章還著重解釋了標準的數(shù)據(jù)分析過程。
對于數(shù)據(jù)科學家而言,最常見的任務是預測和機器學習。機器學習側重于數(shù)據(jù)建模,以及與數(shù)據(jù)科學相關的方法和學習算法。第3章詳細介紹了數(shù)據(jù)科學家和分析師所使用的方法和算法。
模糊集合可以用作通用的近似器,這對建模未知的對象至關重要。如果操作員能夠在特定情景下通過語言描述要采取的行動類型,那么使用數(shù)據(jù)對他的控制行為進行建模就非常有用。第4章介紹了模糊邏輯的基本概念及其在數(shù)據(jù)科學中的實際應用。
第5章介紹了人工神經網絡——一種模擬人腦的計算智能技術。人工神經網絡的一個重要特征是其適應性,其中“通過實例學習”取代了解決問題時的傳統(tǒng)“編程”。另一個顯著特征是允許快速計算的內在并行性。本章為神經網絡和深度學習提供了實用的入門知識。
進化計算是一種創(chuàng)新的優(yōu)化方法。進化計算的一個領域——遺傳算法——涉及全局優(yōu)化算法的使用。遺傳算法基于自然選擇和遺傳學機制。第6章描述了機器學習環(huán)境中的進化計算,特別是生物進化和遺傳算法。
當問題計算較困難或者僅僅是計算復雜度太高時,元啟發(fā)式被認為是用于優(yōu)化的健壯性方法。雖然元啟發(fā)式通常不會生成最優(yōu)解決方案,但它們可以在適當?shù)挠嬎銜r間內提供合理的解決方案,例如通過使用隨機機制。元啟發(fā)式和數(shù)據(jù)分析有著共同的基礎,因為它們通過增量操作,在難解的搜索空間中尋找近似結果。第7章簡要介紹了元啟發(fā)式方法的基本要素,如自適應記憶方法和群體智能。本章還進一步討論了分類方法,如案例推理。這種分類方法基于這一思想,即以前已解決問題的積累經驗可以很好地代表新的情況。基于案例的推理已用于重要的現(xiàn)實世界應用中。
為了利用好大數(shù)據(jù),就需要不斷地進行分析,并利用數(shù)據(jù)中的價值。這需要一個基礎架構,可以管理和處理大量的結構化和非結構化數(shù)據(jù)——數(shù)據(jù)流和存儲中的數(shù)據(jù)——并且可以保護數(shù)據(jù)隱私和安全。第8章提供了廣泛的、涵蓋大數(shù)據(jù)的技術和工具,這些技術和工具支持高級分析、數(shù)據(jù)隱私以及倫理和安全問題。
第9章給出了R編程語言的簡單介紹。R語言既優(yōu)雅又靈活,并且具有用于數(shù)據(jù)處理的大量語法。R還包含強大的圖形功能。
最后,附錄提供了一系列在實踐中處理數(shù)據(jù)科學的流行工具。在整本書中,真實世界的案例研究和練習都是為了強調該材料所涵蓋的某些方面,并激發(fā)思想。
讀者對象
本
譯者序
前言
第1章 緒論 1
1.1 引言 1
1.2 數(shù)據(jù)科學的歷史 2
1.3 現(xiàn)代商業(yè)中數(shù)據(jù)科學的重要性 3
1.4 數(shù)據(jù)科學家 5
1.5 三維數(shù)據(jù)科學活動 6
1.5.1 管理數(shù)據(jù)流 7
1.5.2 處理數(shù)據(jù)管理 8
1.5.3 數(shù)據(jù)分析 11
1.6 數(shù)據(jù)科學與其他領域交叉 11
1.7 數(shù)據(jù)分析思維 13
1.8 應用領域 13
1.8.1 資源的可持續(xù)發(fā)展 13
1.8.2 利用社交平臺進行各種活動 14
1.8.3 智能Web應用 14
1.8.4 Google自動統(tǒng)計員項目 15
1.9 應用計算智能管理數(shù)據(jù)科學活動 15
1.10 商業(yè)中的數(shù)據(jù)科學場景 17
1.11 有助于數(shù)據(jù)科學的工具和技術 17
1.11.1 數(shù)據(jù)清洗工具 18
1.11.2 數(shù)據(jù)管理和建模工具 19
1.11.3 數(shù)據(jù)可視化工具 20
1.12 練習 21
參考文獻 22
第2章 數(shù)據(jù)分析 23
2.1 引言 23
2.2 跨行業(yè)標準過程 24
2.3 數(shù)據(jù)分析生命周期 25
2.4 數(shù)據(jù)科學項目生命周期 27
2.5 數(shù)據(jù)分析的復雜性 28
2.6 從數(shù)據(jù)到洞察力 30
2.7 構建分析能力:銀行案例 31
2.8 數(shù)據(jù)質量 32
2.9 數(shù)據(jù)準備過程 33
2.10 溝通分析結果 34
2.10.1 溝通分析結果的策略 34
2.10.2 數(shù)據(jù)可視化 35
2.10.3 可視化技術 36
2.11 練習 37
參考文獻 37
第3章 基本學習算法 38
3.1 從數(shù)據(jù)中學習 38
3.2 監(jiān)督學習 40
3.2.1 線性回歸 40
3.2.2 決策樹 41
3.2.3 隨機森林 46
3.2.4 k-近鄰算法 47
3.2.5 邏輯回歸 49
3.2.6 模型組合器 50
3.2.7 樸素貝葉斯 53
3.2.8 貝葉斯信念網絡 54
3.2.9 支持向量機 56
3.3 無監(jiān)督學習 57
3.3.1 Apriori 算法 58
3.3.2 k-means算法 60
3.3.3 用于數(shù)據(jù)壓縮的降維 62
3.4 強化學習 62
3.5 案例研究:使用機器學習進行市場營銷活動 65
3.6 練習 66
參考文獻 67
第4章 模糊邏輯 68
4.1 引言 68
4.2 模糊隸屬函數(shù) 70
4.2.1 三角形隸屬函數(shù) 71
4.2.2 梯形隸屬函數(shù) 71
4.2.3 高斯隸屬函數(shù) 71
4.2.4 sigmoid隸屬函數(shù) 72
4.3 隸屬值分配方法 72
4.4 模糊化與解模糊化方法 73
4.5 模糊集合操作 73
4.5.1 模糊集合的并集 74
4.5.2 模糊集合的交集 74
4.5.3 模糊集合的補集 74
4.6 模糊集合性質 76
4.7 模糊關系 76
4.8 模糊命題 79
4.8.1 模糊連接詞 79
4.8.2 析取 79
4.8.3 合取 80
4.8.4 否定 80
4.8.5 蘊含 80
4.9 模糊推理 80
4.10 基于模糊規(guī)則的系統(tǒng) 81
4.11 數(shù)據(jù)科學的模糊邏輯 82
4.11.1 應用1:Web內容挖掘 83
4.11.2 應用2:Web結構挖掘 84
4.11.3 應用3:Web使用挖掘 85
4.11.4 應用4:環(huán)境和社交數(shù)據(jù)處理 86
4.12 用模糊邏輯進行數(shù)據(jù)科學活動的工具和技術 87
4.13 練習 88
參考文獻 88
第5章 人工神經網絡 89
5.1 引言 89
5.2 符號學習方法 90
5.3 人工神經網絡及其特點 91
5.4 ANN模型 93
5.4.1 Hopfield模型 93
5.4.2 感知器模型 94
5.4.3 多層感知器 96
5.4.4 多層感知器的深度學習 98
5.4.5 其他ANN模型 100
5.4.6 線性回歸與神經網絡 101
5.5 ANN工具和程序 102
5.6 社交網絡平臺上的情感挖掘 103
5.6.1 情感挖掘相關工作 103
5.6.2 廣泛架構 104
5.6.3 神經網絡設計 104
5.7 應用與挑戰(zhàn) 106
5.8 關注點 107
5.9 練習 108
參考文獻 109
第6章 遺傳算法與進化計算 111
6.1 引言 111
6.2 遺傳算法 112
6.3 遺傳算法的基本原理 114
6.3.1 個體編碼 114
6.3.2 變異 114
6.3.3 交叉 115
6.3.4 適應度函數(shù) 116
6.3.5 選擇 116
6.3.6 其他編碼策略 117
6.4 利用遺傳算法進行函數(shù)優(yōu)化的實例 118
6.5 模式與模式定理 120
6.5.1 實例、定義位和模式順序 120
6.5.2 模式的重要性 121
6.6 基于特殊應用的遺傳算子 121
6.7 進化編程 123
6.8 遺傳算法在醫(yī)療保健中的應用 124
6.8.1 醫(yī)療保健案例 124
6.8.2 基于遺傳算法的病人調度系統(tǒng) 125
6.8.3 編碼候選者 127
6.8.4 種群上的操作 127
6.8.5 其他應用 128
6.9 練習 130
參考文獻 131
第7章 其他元啟發(fā)式和分類方法 132
7.1 引言 132
7.2 自適應記憶過程 132
7.2.1 禁忌搜索 133
7.2.2 分散搜索 134
7.2.3 路徑重連 136
7.3 群體智能 136
7.3.1 蟻群優(yōu)化 137
7.3.2 人工蜂群算法 138
7.3.3 河流形成動力學 139
7.3.4 粒子群優(yōu)化 139
7.3.5 隨機擴散搜索 141
7.3.6 群體智能與大數(shù)據(jù) 142
7.4 案例推理 142
7.4.1 案例推理中的學習 144
7.4.2 案例推理與數(shù)據(jù)科學 145
7.4.3 處理復雜的領域 146
7.5 粗糙集 146
7.6 練習 148
參考文獻 148
第8章 分析和大數(shù)據(jù) 149
8.1 引言 149
8.2 傳統(tǒng)分析與大數(shù)據(jù)分析 150
8.3 大規(guī)模并行處理 152
8.3.1 MapReduce 152
8.3.2 與RDBMS的比較 154
8.3.3 共享存儲的并行編程 155
8.3.4 Apache Hadoop 生態(tài)系統(tǒng) 155
8.3.5 Hadoop分布式文件系統(tǒng) 157
8.4 NoSQL