本書以如何在語料庫的教與學(xué)及其應(yīng)用、語料庫科研中習(xí)得Python能力的邏輯關(guān)系為線索,描述了Python的價值、意義和作用,并將內(nèi)容組合成可有效助力于Python能力習(xí)得的三個層次。*層次是掌握與語料庫相關(guān)的基礎(chǔ)性代碼;第二層次是活學(xué)活用這些基礎(chǔ)性代碼;第三層次是以創(chuàng)新方式運(yùn)用這些代碼去解決與語料庫相關(guān)的較為復(fù)雜的問題。Python是語料文本處理的利器,需要在一定的理念指導(dǎo)下方可充分理解其在特定領(lǐng)域內(nèi)所呈現(xiàn)的特征,而本書的首要目標(biāo)就是幫助讀者去運(yùn)用這一語言 技術(shù)理念,其次才是Python技術(shù)本身。
本書的適用讀者是那些設(shè)想從語料庫中挖掘出更多信息的文科生、文科教師或相關(guān)的研究人員。
本書的特色有三:
● 一是聚焦于語料庫。所有的代碼、代碼段或代碼塊均圍繞語料庫這一主題展開,所處理的對象是語料庫研究過程需要面對的各種相關(guān)問題。
● 二是語言 技術(shù) 法律三位一體。這意味著案例的解釋都包含了三方面的要素,而非從純粹的技術(shù)角度出發(fā)。所選擇的語料也多是法律文本,目的是為了呈現(xiàn)法律文本的語篇特征,即以法律文本通過技術(shù)研究獲取其語言學(xué)方面的特征信息。
● 三是深入淺出,易學(xué)易用。本書強(qiáng)調(diào)編程并非是工科專業(yè)的專利,文科生同樣可以學(xué)會編程,而且能夠編寫出更為細(xì)膩、更利于語言學(xué)處理的代碼。再者,閱讀本書至少可習(xí)得一種能力即讀懂代碼的能力,就像學(xué)會一門自然語言一樣。
管新潮,職業(yè)譯者,長期從事德英漢翻譯實(shí)踐,至今已累計翻譯和審校德英漢字?jǐn)?shù)達(dá)3000萬(包括審校);主要翻譯領(lǐng)域涉及海洋工程與船舶制造(英語)、醫(yī)學(xué)(英語)、法律(德語 英語)、機(jī)電(德語)等;建有各類相關(guān)語料庫,如英漢醫(yī)學(xué)平行語料、英漢海洋工程平行語料庫、英漢法律平行語料庫、德漢合同文本平行語料庫、馬克思《資本論》德漢平行語料庫(百年)、德語法院判決書語料庫等。曾經(jīng)或正在為國際知名企業(yè)提供語言服務(wù)解決方案,如德國勞氏船級社、挪威船級社、艾斯維爾出版社、施普林格出版社、華為技術(shù)公司、畢馬威咨詢公司等。主要研究方向:語料庫翻譯學(xué)、翻譯管理與技術(shù)、法律翻譯、語料數(shù)據(jù)分析(Python)。現(xiàn)任上海交通大學(xué)外國語學(xué)院MTI導(dǎo)師。主持國家級項(xiàng)目3個,發(fā)表論文15篇,出版專著2部、譯著10部,擁有專利2項(xiàng)、軟件著作權(quán)2項(xiàng)。
第1章 緒論
1.1 語料庫與Python
1.1.1 語料庫的若干維度
1.1.2 語料庫的技術(shù)實(shí)現(xiàn)
1.2 本書概要
上篇 語料文本的基礎(chǔ)性代碼
第2章 語料文本的讀取及其運(yùn)行結(jié)果的輸出
2.1 概述
2.2 語料文本的讀取
2.2.1 讀取NLTK固有語料庫
2.2.2 讀取自制語料庫
2.2.3 讀取非獨(dú)立存儲的語料文本
2.2.4 讀取docx格式的語料文本
2.2.5 讀取xlsx格式的語料文本
2.3 語料文本運(yùn)行結(jié)果的輸出
2.3.1 操作界面直接輸出結(jié)果
2.3.2 輸出txt文件格式
2.3.3 輸出xlsx文件格式
2.4 中文語料文本的讀取和結(jié)果輸出
2.4.1 自制語料庫
2.4.2 非獨(dú)立存儲的語料文本
第3章 語料庫應(yīng)用的基礎(chǔ)性代碼
3.1 概述
3.2 停用詞的使用
3.2.1 不同語種的停用詞
3.2.2 自有停用詞的設(shè)置
3.3 文本降噪代碼
3.3.1 具體代碼的功用
3.3.2 組合使用代碼的功用
3.3.3 降噪與文本計數(shù)
3.4 語料文本的語言學(xué)處理代碼
3.4.1 字母大小寫轉(zhuǎn)換
3.4.2 詞形還原
3.4.3 文本分句或分詞
3.4.4 詞性標(biāo)注
3.5 語料庫詞頻排序
3.5.1 簡單詞頻排序
3.5.2 降噪處理后詞頻排序
3.5.3 清除停用詞后排序
3.6 語料庫檢索與統(tǒng)計
3.6.1 上下文關(guān)鍵詞檢索
3.6.2 類符形符比
3.6.3 N連詞提取
3.6.4 指定詞檢索與統(tǒng)計
3.7 中文語料文本的處理方法
3.7.1 上下文關(guān)鍵詞檢索
3.7.2 中文停用詞
第4章 數(shù)據(jù)可視化
4.1 概述
4.2 表格繪制
4.3 圖形繪制
4.3.1 詞頻圖形繪制
4.3.2 柱狀圖和點(diǎn)狀圖繪制
4.4 詞云圖繪制
4.4.1 英文文本詞云圖
4.4.2 中文文本詞云圖
第5章 代碼運(yùn)行錯誤分析
5.1 概述
5.2 錯誤分析案例
5.2.1 輸入輸出錯誤(IOError)
5.2.2 對象屬性錯誤(AttributeError)
5.2.3 數(shù)據(jù)類型錯誤(TypeError)
5.2.4 變量名稱錯誤(NameError)
5.2.5 索引錯誤(IndexError)
5.2.6 縮進(jìn)錯誤(IndentationError)
5.2.7 參數(shù)類型錯誤(ValueError)
5.2.8 語法錯誤(SyntaxError)
5.2.9 Unicode解碼錯誤(UnicodeDecodeError)
5.2.10 關(guān)鍵字錯誤(KeyError)
中篇 基礎(chǔ)性代碼的組合使用
第6章 算法、代碼與編程
6.1 篇章結(jié)構(gòu)
6.2 算法和代碼
6.2.1 算法
6.2.2 代碼
6.3 選擇不同代碼的影響
6.3.1 分詞處理方式對后續(xù)文本分析的影響
6.3.2 不同的降噪效果
6.3.3 鏈表、字符串、元組和字典對比
6.3.4 停用詞的功用
6.4 Python與既有語料庫工具的關(guān)系
第7章 基礎(chǔ)性代碼的語料庫組合應(yīng)用
7.1 以Excel文件格式輸出術(shù)語(類符)
7.1.1 簡單輸出術(shù)語
7.1.2 按詞頻輸出術(shù)語
7.2 以Excel文件格式輸出表格
7.3 語篇詞匯密度的計算
7.4 語篇詞匯復(fù)雜性的計算
7.5 語篇詞長分布的計算
7.6 NLTK固有語料庫
7.6.1 總統(tǒng)就職演說語料庫
7.6.2 華爾街雜志語料庫
7.6.3 其他相關(guān)語料庫介紹
下篇 Python探索路徑
第8章 Python的語料庫拓展應(yīng)用
8.1 概述
8.2 單語語料導(dǎo)入Excel工作簿
8.3 KWIC檢索功能的拓展
8.4 語篇詞形還原
8.5 術(shù)語提取效果的改進(jìn)
8.6 語篇段落對齊
8.7 應(yīng)用語言學(xué)文獻(xiàn)計量研究的數(shù)據(jù)提取
8.8 專業(yè)通用詞的提取路徑探索
附錄1 與本書相關(guān)的加載模塊與函數(shù)命令對應(yīng)表
附錄2 Python2 和Python3部分代碼對比
附錄3 部分NLTK固有語料庫
附錄4 漢英對照術(shù)語表
索引