定 價(jià):129 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:[印度] 迪潘揚(yáng)·薩卡(Dipanjan Sarkar)
- 出版時(shí)間:2020/10/1
- ISBN:9787111666776
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:0
- 紙張:
- 版次:
- 開本:16開
本書遵循結(jié)構(gòu)化和綜合性的方法,介紹了文本和語(yǔ)言語(yǔ)法、結(jié)構(gòu)和語(yǔ)義的基礎(chǔ)概念和高級(jí)概念。從自然語(yǔ)言和Python的基礎(chǔ)開始,進(jìn)而學(xué)習(xí)先進(jìn)的分析理念和機(jī)器學(xué)習(xí)概念。全面提供了自然語(yǔ)言處理(NLP)和文本分析的主要概念和技術(shù)。包含了豐富的真實(shí)案例實(shí)現(xiàn)技術(shù),例如構(gòu)建分類新聞文章的文本分類系統(tǒng),使用主題建模和文本摘要分析app或游戲評(píng)論,進(jìn)行熱門電影概要的聚類分析和電影評(píng)論的情感分析。介紹了基于Python和流行NLP開源庫(kù)和文本分析實(shí)用工具,如自然語(yǔ)言工具包(nltk)、gensim、scikit-learn、spaCy和Pattern。
譯者序
推薦序
前言
致謝
作者簡(jiǎn)介
技術(shù)審校者簡(jiǎn)介
第1章 自然語(yǔ)言處理基礎(chǔ)1
1.1 自然語(yǔ)言2
1.1.1 什么是自然語(yǔ)言2
1.1.2 語(yǔ)言哲學(xué)2
1.1.3 語(yǔ)言習(xí)得和用法4
1.2 語(yǔ)言學(xué)6
1.3 語(yǔ)言句法和結(jié)構(gòu)7
1.3.1 單詞9
1.3.2 短語(yǔ)10
1.3.3 從句12
1.3.4 語(yǔ)法13
1.3.5 語(yǔ)序類型學(xué)20
1.4 語(yǔ)言語(yǔ)義21
1.4.1 詞匯語(yǔ)義關(guān)系22
1.4.2 語(yǔ)義網(wǎng)絡(luò)和模型24
1.4.3 語(yǔ)義表示25
1.5 文本語(yǔ)料庫(kù)31
1.5.1 文本語(yǔ)料庫(kù)標(biāo)注及使用31
1.5.2 流行的語(yǔ)料庫(kù)32
1.5.3 訪問(wèn)文本語(yǔ)料庫(kù)33
1.6 自然語(yǔ)言處理38
1.6.1 機(jī)器翻譯38
1.6.2 語(yǔ)音識(shí)別系統(tǒng)39
1.6.3 問(wèn)答系統(tǒng)39
1.6.4 上下文識(shí)別與消解39
1.6.5 文本摘要40
1.6.6 文本分類40
1.7 文本分析40
1.8 機(jī)器學(xué)習(xí)41
1.9 深度學(xué)習(xí)41
1.10 本章小結(jié)42
第2章 Python自然語(yǔ)言處理43
2.1 了解Python43
2.2 Python之禪44
2.3 應(yīng)用:何時(shí)使用Python45
2.4 缺點(diǎn):何時(shí)不用Python47
2.5 Python的實(shí)現(xiàn)和版本47
2.6 建立強(qiáng)大的Python環(huán)境48
2.6.1 用哪個(gè)Python版本48
2.6.2 用哪個(gè)操作系統(tǒng)49
2.6.3 集成開發(fā)環(huán)境49
2.6.4 環(huán)境設(shè)置50
2.6.5 軟件包管理52
2.6.6 虛擬環(huán)境53
2.7 Python語(yǔ)法和結(jié)構(gòu)55
2.8 使用文本數(shù)據(jù)55
2.8.1 字符串文字56
2.8.2 表示字符串57
2.8.3 字符串操作和方法58
2.9 基本的文本處理和分析:綜合案例67
2.10 自然語(yǔ)言處理框架70
2.11 本章小結(jié)71
第3章 處理和理解文本73
3.1 文本預(yù)處理和整理74
3.1.1 刪除HTML標(biāo)簽74
3.1.2 文本標(biāo)記解析76
3.1.3 刪除重音字符87
3.1.4 擴(kuò)展縮寫詞87
3.1.5 刪除特殊字符89
3.1.6 大小寫轉(zhuǎn)換89
3.1.7 文本校正89
3.1.8 詞干提取96
3.1.9 詞形還原99
3.1.10 刪除停用詞100
3.1.11 將以上整合在一起—構(gòu)建文本規(guī)范器101
3.2 理解文本句法和結(jié)構(gòu)102
3.2.1 安裝必要的依賴項(xiàng)103
3.2.2 機(jī)器學(xué)習(xí)的重要概念105
3.2.3 詞性標(biāo)注105
3.2.4 淺層解析或分塊112
3.2.5 依存關(guān)系解析120
3.2.6 成分結(jié)構(gòu)解析123
3.3 本章小結(jié)129
第4章 用于文本表示的特征工程131
4.1 理解文本數(shù)據(jù)132
4.2 構(gòu)建文本語(yǔ)料庫(kù)132
4.3 預(yù)處理文本語(yǔ)料庫(kù)133
4.4 傳統(tǒng)特征工程模型135
4.4.1 詞袋模型135
4.4.2 n-gram詞袋模型137
4.4.3 TF-IDF模型137
4.4.4 提取新文檔的特征143
4.4.5 文檔相似度143
4.4.6 主題模型146
4.5 高級(jí)特征工程模型149
4.5.1 加載圣經(jīng)語(yǔ)料庫(kù)150
4.5.2 Word2Vec模型150
4.5.3 基于Gensim的強(qiáng)大Word2Vec模型163
4.5.4 Word2Vec特征用于機(jī)器學(xué)習(xí)任務(wù)165
4.5.5 GloVe模型169
4.5.6 GloVe特征用于機(jī)器學(xué)習(xí)任務(wù)170
4.5.7 FastText模型173
4.5.8 FastText特征用于機(jī)器學(xué)習(xí)任務(wù)174
4.6 本章小結(jié)175
第5章 文本分類176
5.1 什么是文本分類177
5.1.1 正式定義177
5.1.2 主要的文本分類類型178
5.2 自動(dòng)文本分類178
5.2.1 正式定義179
5.2.2 文本分類任務(wù)類型180
5.3 文本分類藍(lán)圖180
5.4 數(shù)據(jù)檢索182
5.5 數(shù)據(jù)預(yù)處理和規(guī)范化183
5.6 構(gòu)建訓(xùn)練和測(cè)試數(shù)據(jù)集186
5.7 特征工程技術(shù)187
5.7.1 傳統(tǒng)特征工程模型188
5.7.2 高級(jí)特征工程模型188
5.8 分類模型189
5.8.1 多項(xiàng)式樸素貝葉斯190
5.8.2 邏輯回歸191
5.8.3 支持向量機(jī)193
5.8.4 集成模型194
5.8.5 隨機(jī)森林195
5.8.6 梯度提升機(jī)195
5.9 評(píng)估分類模型196
5.10 構(gòu)建和評(píng)估文本分類器199
5.10.1 分類模型的詞袋特征200
5.10.2 分類模型的TF-IDF特征202
5.10.3 比較模型性能評(píng)估205
5.10.4 分類模型的Word2Vec嵌入205
5.10.5 分類模型的GloVe嵌入207
5.10.6 分類模型的FastText嵌入208
5.10.7 模型調(diào)優(yōu)209
5.10.8 模型性能評(píng)估212
5.11 應(yīng)用217
5.12 本章小結(jié)217
第6章 文本摘要和主題模型219
6.1 文本摘要和信息提取220
6.1.1 關(guān)鍵短語(yǔ)提取220
6.1.2 主題建模221
6.1.3 自動(dòng)文檔摘要221
6.2 重要概念221
6.3 關(guān)鍵短語(yǔ)提取223
6.3.1 搭配223
6.3.2 基于權(quán)重標(biāo)簽的短語(yǔ)提取228
6.4 主題建模231
6.5 研究論文的主題建模232
6.5.1 主要目標(biāo)232
6.5.2 數(shù)據(jù)檢索233
6.5.3 加載和查看數(shù)據(jù)集233
6.5.4 基本文本整理234
6.6 Gensim的主題模型235
6.6.1 特征工程的文本表示236
6.6.2 潛在語(yǔ)義索引238
6.6.3 從頭開始實(shí)現(xiàn)LSI主題模型245
6.6.4 LDA250
6.6.5 MALLET的LDA模型257
6.6.6 LDA調(diào)優(yōu):查找最佳主題數(shù)259
6.6.7 解釋主題模型結(jié)果263
6.6.8 預(yù)測(cè)新研究論文的主題266
6.7 Scikit-Learn的主題模型269
6.7.1 特征工程的文本表示270
6.7.2 潛在語(yǔ)義索引270
6.7.3 LDA274
6.7.4 非負(fù)矩陣分解276
6.7.5 預(yù)測(cè)新研究論文的主題279
6.7.6 可視化主題模型280
6.8 自動(dòng)文檔摘要282
6.8.1 文本整理284
6.8.2 特征工程的文本表示285
6.8.3 潛在語(yǔ)義分析285
6.8.4 TextRank288
6.9 本章小結(jié)291
第7章 文本相似度和聚類293
7.1 基本概念294
7.1.1 信息檢索294
7.1.2 特征工程294
7.1.3 相似度度量295
7.1.4 無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法295
7.2 文本相似度295
7.3 分析詞項(xiàng)相似度296
7.3.1 漢明距離297
7.3.2 曼哈頓距離298
7.3.3 歐幾里得距離300
7.3.4 萊文斯坦編輯距離300
7.3.5 余弦距離和相似度304
7.4 分析文檔相似度307
7.5 構(gòu)建電影推薦系統(tǒng)308
7.5.1 加載和查看數(shù)據(jù)集308
7.5.2 文本預(yù)處理310
7.5.3 提取TF-IDF特征311
7.5.4 成對(duì)文檔相似度的余弦相似度311
7.5.5 查找與示例電影最相似的電影312
7.5.6 構(gòu)建電影推薦系統(tǒng)313
7.5.7 獲取流行的電影列表313
7.5.8 成對(duì)文檔相似度的Okapi BM25排名315
7.6 文檔聚類322
7.7 電影聚類323
7.7.1 特征工程324
7.7.2 k-均值聚類324
7.7.3 近鄰傳播算法329
7.7.4 Ward凝聚層次聚類332
7.8 本章小結(jié)335
第8章 語(yǔ)義分析336
8.1 語(yǔ)義分析簡(jiǎn)介337
8.2 探索WordNet337
8.2.1 理解同義詞集338
8.2.2 分析詞匯的語(yǔ)義關(guān)系339
8.3 詞義消歧345
8.4 命名實(shí)體識(shí)別347
8.5 從零開始構(gòu)建NER標(biāo)注器353
8.6 使用訓(xùn)練的NER模型構(gòu)建端到端的NER標(biāo)注器360
8.7 分析語(yǔ)義表示362
8.7.1 命題邏輯362
8.7.2 一階邏輯364
8.8 本章小結(jié)368
第9章 情感分析369
9.1 問(wèn)題描述370
9.2 安裝依賴項(xiàng)370
9.3 獲取數(shù)據(jù)370
9.4 文本預(yù)處理與規(guī)范化371
9.5 無(wú)監(jiān)督的詞典模型372
9.5.1 Bing Liu詞典373
9.5.2 MPQA主觀詞典373
9.5.3 pattern詞典374
9.5.4 TextBlob詞典374
9.5.5 AFINN詞典376
9.5.6 SentiWordNet詞典377
9.5.7 VADER詞典380
9.6 使用有監(jiān)督的學(xué)習(xí)進(jìn)行情感分類382
9.7 傳統(tǒng)的有監(jiān)督機(jī)器學(xué)習(xí)模型384
9.8 新的有監(jiān)督深度學(xué)習(xí)模型386
9.9 高級(jí)的有監(jiān)督深度學(xué)習(xí)模型392
9.10 分析情感成因399
9.10.1 解釋預(yù)測(cè)模型399
9.10.2 分析主題模型404
9.11 本章小結(jié)409
第10章 深度學(xué)習(xí)的前景410
10.1 為什么我們對(duì)嵌入癡迷411
10.2 詞嵌入模型的趨勢(shì)412
10.3 通用句子嵌入模型的趨勢(shì)413
10.4 理解文本分類問(wèn)題417
10.5 使用通用句子嵌入417
10.5.1 加載依賴417
10.5.2 加載和查看數(shù)據(jù)集418
10.5.3 構(gòu)建訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)集419
10.5.4 基本文本整理419
10.5.5 構(gòu)建數(shù)據(jù)接入函數(shù)420
10.5.6 使用通用句子編碼器構(gòu)建深度學(xué)習(xí)模型421
10.5.7 模型訓(xùn)練421
10.5.8 模型評(píng)估423
10.6 紅利:使用不同的通用句子嵌入進(jìn)行遷移學(xué)習(xí)423
10.7 本章小結(jié)與展望429