預(yù)處理并將文本向量化成高維特征表示。
·執(zhí)行文檔分類和主題建模。
·通過可視化診斷指導(dǎo)模型選擇過程。
·提取關(guān)鍵短語、命名實體和圖結(jié)構(gòu),實現(xiàn)文本數(shù)據(jù)推斷。
·建立對話框架,實現(xiàn)聊天機器人和語言驅(qū)動交互。
·用Spark擴展處理能力,用神經(jīng)網(wǎng)絡(luò)實現(xiàn)對更復(fù)雜模型的支持。
從新聞、講話,到社交媒體上非正式的聊天,自然語言是最豐富、且尚未充分利用的數(shù)據(jù)源之一。不但數(shù)據(jù)源源不斷,在使用環(huán)境中還在不斷調(diào)整、變化;還包含了很多傳統(tǒng)數(shù)據(jù)源未能傳達(dá)的信息。打開自然語言寶藏的鑰匙,就是基于文本分析的創(chuàng)造性應(yīng)用。這本實戰(zhàn)指南介紹了從數(shù)據(jù)科學(xué)家角度如何建立語言感知產(chǎn)品并有效應(yīng)用機器學(xué)習(xí)。
您將學(xué)到如何用Python實現(xiàn)健壯、可重復(fù)和可擴展的文本分析,包括上下文特征和語言特征工程、向量化、分類、主題建模、實體解析、圖分析和可視化操作。在本書的最后,您將獲得解決眾多復(fù)雜現(xiàn)實問題的實用方法。
Benjamin Bengfort是一位專門研究分布式系統(tǒng)、機器學(xué)習(xí)及其他相關(guān)技術(shù)的計算機科學(xué)家。
Rebecca Bilbro是一名數(shù)據(jù)科學(xué)家和Python程序員,致力于研究機器學(xué)習(xí)工作流的可視化診斷。
Tony Ojeda是District Data Labs的創(chuàng)始人和CEO,專注于商業(yè)策略應(yīng)用分析、優(yōu)化、預(yù)測服務(wù),以及開源工具使用課程。
陳光,北京郵電大學(xué)副教授,主要研究方向為機器學(xué)習(xí)和自然語言處理。
目錄
前言 1
第1章 語言與計算 13
數(shù)據(jù)科學(xué)范式 14
語言感知數(shù)據(jù)產(chǎn)品 .16
語言即數(shù)據(jù) 21
小結(jié) .29
第 2 章 構(gòu)建自定義語料庫 31
語料庫是什么? .32
語料庫數(shù)據(jù)管理 .35
語料庫讀取器 39
小結(jié) .49
第3章 語料庫預(yù)處理與處置 50
分解文檔.50
語料庫的轉(zhuǎn)換 60
小結(jié) .67
第4章 文本向量化和轉(zhuǎn)換流水線 68
空間中的詞 69
Scikit-Learn API .81
流水線 .88
小結(jié) .93
第5章 面向文本分析的文本分類 95
文本分類.96
構(gòu)建文本分類應(yīng)用 .99
小結(jié) .110
第6章 文本相似性聚類 . 112
文本上的無監(jiān)督學(xué)習(xí) 112
文檔相似性聚類 .114
文檔主題建模 127
小結(jié) .139
第7章 上下文感知文本分析 140
基于語法的特征提取 141
n-Gram特征提取 147
n-Gram語言模型 155
小結(jié) .165
第8章 文本可視化 166
可視化特征空間 .167
模型診斷.185
可視化操縱 193
小結(jié) .196
第9章 文本的圖分析 .198
圖計算與分析 200
從文本中抽取圖 .204
實體解析.216
小結(jié) .221
第10章 聊天機器人 223
對話基礎(chǔ).224
禮貌對話規(guī)則 231
有趣的問題 239
學(xué)習(xí)幫助.250
小結(jié) .257
第11章 利用多處理和Spark擴展文本分析259
Python多處理 .260
Spark集群計算 271
小結(jié) .289
第12章 深度學(xué)習(xí)與未來 .291
應(yīng)用神經(jīng)網(wǎng)絡(luò) 292
神經(jīng)網(wǎng)絡(luò)語言模型 .292
情感分析.303
未來(幾乎)已來 .309
詞匯表 311