定 價:152 元
叢書名:大數(shù)據(jù)科學(xué)研究叢書
- 作者:夏換,楊秀璋,于小民編著
- 出版時間:2019/3/1
- ISBN:9787030606365
- 出 版 社:科學(xué)出版社
- 中圖法分類:TP274
- 頁碼:292
- 紙張:
- 版次:31
- 開本:B5
隨著計算機和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和廣泛普及,互聯(lián)網(wǎng)已經(jīng)成為人類獲取知識的最大平臺。在爬取了Web網(wǎng)頁語料后,需要通過數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析來獲取數(shù)據(jù)的價值,從而造福人類,推動社會發(fā)展。本書主要是Web大數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析的實戰(zhàn)指南,內(nèi)容包括三部分:基礎(chǔ)知識、基于Python的數(shù)據(jù)預(yù)處理、基于Python的數(shù)據(jù)分析
更多科學(xué)出版社服務(wù),請掃碼獲取。
目錄
第一部分 基礎(chǔ)知識
第1章 概述 3
1.1 大數(shù)據(jù)預(yù)處理和分析 3
1.2 各章概要 8
1.3 如何閱讀本書 12
第2章 數(shù)據(jù)挖掘基礎(chǔ)知識 14
2.1 數(shù)據(jù)挖掘 14
2.2 有監(jiān)督學(xué)習(xí) 16
2.3 無監(jiān)督學(xué)習(xí) 17
2.4 部分監(jiān)督學(xué)習(xí) 19
第3章 關(guān)系型數(shù)據(jù)庫和語料知識庫 21
3.1 關(guān)系型數(shù)據(jù)庫 21
3.2 SQL基礎(chǔ)知識 23
3.3 Python調(diào)用數(shù)據(jù)庫 32
3.4 常見的語料知識庫 39
第4章 正則表達式和基本字符串函數(shù) 48
4.1 正則表達式 48
4.2 基本字符串函數(shù) 58
4.3 字符編碼簡介 64
第二部分 基于Python的大數(shù)據(jù)預(yù)處理
第5章 數(shù)據(jù)預(yù)處理相關(guān)介紹 71
5.1 預(yù)處理概述 71
5.2 中文分詞 72
5.3 數(shù)據(jù)清洗 74
5.4 詞性標(biāo)注基礎(chǔ) 75
5.5 向量空間模型及特征提取 76
5.6 權(quán)重計算 76
第6章 中文分詞技術(shù)及Jieba工具 77
6.1 中文分詞技術(shù)介紹 77
6.2 常用中文分詞工具 80
6.3 Jieba中文分詞工具 81
6.4 案例分析:使用Jieba對百度百科摘要信息進行中文分詞 91
第7章 數(shù)據(jù)清洗及停用詞過濾 94
7.1 數(shù)據(jù)清洗的概念 94
7.2 數(shù)據(jù)清洗常見方法 97
7.3 停用詞過濾 98
第8章 詞性標(biāo)注 106
8.1 詞性標(biāo)注概述 106
8.2 BosonNLP詞性標(biāo)注 109
8.3 Jieba工具詞性標(biāo)注 115
8.4 案例分析:基于Jieba工具的詞性標(biāo)注 120
第9章 向量空間模型及特征提取 124
9.1 向量空間模型 124
9.2 特征提取 126
9.3 余弦相似性 129
9.4 案例分析:基于向量空間模型的余弦相似度計算 131
第10章 權(quán)重計算及TF-IDF 139
10.1 權(quán)重計算 139
10.2 TF-IDF 141
10.3 Scikit-Learn中的TF-IDF使用方法 143
10.4 案例分析:TF-IDF計算中文語料權(quán)重 146
第三部分 基于Python的大數(shù)據(jù)分析
第11章 Python大數(shù)據(jù)分析的常用庫介紹 157
11.1 數(shù)據(jù)挖掘概述 157
11.2 開發(fā)軟件安裝過程 159
11.3 Scikit-Learn庫 165
11.4 NumPy、SciPy、Matplotlib庫 169
第12章 基于Python的聚類數(shù)據(jù)分析 175
12.1 聚類概述 175
12.2 聚類算法基本用法 178
12.3 案例分析:基于Birch層次聚類算法及PAC降維顯示聚類圖像 190
第13章 基于Python的分類算法分析 206
13.1 分類概述 206
13.2 Python分類算法基本用法 214
13.3 案例分析:基于新聞數(shù)據(jù)分類算法的示例 229
第14章 基于Python的LDA主題模型 242
14.1 LDA主題模型 242
14.2 LDA安裝過程 244
14.3 LDA基本用法 245
14.4 案例分析:LDA主題模型分布計算 254
第15章 基于Python的神經(jīng)網(wǎng)絡(luò)分析 265
15.1 神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識 265
15.2 神經(jīng)網(wǎng)絡(luò)的Python簡單實現(xiàn) 271
15.3 Python神經(jīng)網(wǎng)絡(luò)工具包 275
15.4 案例分析:使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練 280
參考文獻 283