●章緒論
1.1語料庫與Python
1.1.1語料庫的若干維度
1.1.2語料庫的技術實現
1.2本書概要
上篇語料文本的基礎性代碼
第2章語料文本的讀取及其運行結果的輸出
2.1概述
2.2語料文本的讀取
2.2.1讀取NLTK固有語料庫
2.2.2讀取自制語料庫
2.2.3讀取非獨立存儲的語料文本
2.2.4讀取docx格式的語料文本
2.2.5讀取xlsx格式的語料文本
2.3語料文本運行結果的輸出
2.3.1操作界面直接輸出結果
2.3.2輸出txt文件格式
2.3.3輸出xlsx文件格式
2.4中文語料文本的讀取和結果輸出
2.4.1自制語料庫
2.4.2非獨立存儲的語料文本
第3章語料庫應用的基礎性代碼
3.1概述
3.2停用詞的使用
3.2.1不同語種的停用詞
3.2.2自有停用詞的設置
3.3文本降噪代碼
3.3.1具體代碼的功用
3.3.2組合使用代碼的功用
3.3.3降噪與文本計數
3.4語料文本的語言學處理代碼
3.4.1字母大小寫轉換
3.4.2詞形還原
3.4.3文本分句或分詞
3.4.4詞性標注
3.5語料庫詞頻排序
3.5.1簡單詞頻排序
3.5.2降噪處理後詞頻排序
3.5.3清除停用詞後排序
3.6語料庫檢索與統計
3.6.1上下文關鍵詞檢索
3.6.2類符形符比
3.6.3N連詞提取
3.6.4指定詞檢索與統計
3.7中文語料文本的處理方法
3.7.1上下文關鍵詞檢索
3.7.2中文停用詞
第4章數據可視化
4.1概述
4.2表格繪制
4.3圖形繪制
4.3.1詞頻圖形繪制
4.3.2柱狀圖和點狀圖繪制
4.4詞雲圖繪制
4.4.1英文文本詞雲圖
4.4.2中文文本詞雲圖
第5章代碼運行錯誤分析
5.1概述
5.2錯誤分析案例
5.2.1輸入輸出錯誤(IOError)
5.2.2對像屬性錯誤(AttributeError)
5.2.3數據類型錯誤(TypeError)
5.2.4變量名稱錯誤(NameError)
5.2.5索引錯誤(IndexError)
5.2.6縮進錯誤(IndentationError)
5.2.7參數類型錯誤(ValueError)
5.2.8語法錯誤(SyntaxError)
5.2.9Unicode解碼錯誤(UnicodeDecodeError)
5.2.10關鍵字錯誤(KeyError)
中篇基礎性代碼的組合使用
第6章算法、代碼與編程
6.1篇章結構
6.2算法和代碼
6.2.1算法
6.2.2代碼
6.3選擇不同代碼的影響
6.3.1分詞處理方式對後續文本分析的影響
6.3.2不同的降噪效果
6.3.3鏈表、字組和字典對比
6.3.4停用詞的功用
6.4Python與既有語料庫工具的關繫
第7章基礎性代碼的語料庫組合應用
7.1以Excel文件格式輸出術語(類符)
7.1.1簡單輸出術語
7.1.2按詞頻輸出術語
7.2以Excel文件格式輸出表格
7.3語篇詞彙密度的計算
7.4語篇詞彙復雜性的計算
7.5語篇詞長分布的計算
7.6NLTK固有語料庫
7.6.1總統就職演說語料庫
7.6.2華爾街雜志語料庫
7.6.3其他相關語料庫介紹
下篇Python探索路徑
第8章Python的語料庫拓展應用
8.1概述
8.2單語語料導入Excel工作簿
8.3KWIC檢索功能的拓展
8.4語篇詞形還原
8.5術語提取效果的改進
8.6語篇段落對齊
8.7應用語言學文獻計量研究的數據提取
8.8專業通用詞的提取路徑探索
附錄1與本書相關的加載模塊與函數命令對應表
附錄2Python2和Python3部分代碼對比
附錄3部分NLTK固有語料庫
附錄4漢英對照術語表
索引
內容簡介
本書為“語料庫翻譯學文庫”繫列之一,是靠前靠前本介紹如何將Python編程工具融入語料庫語言學和翻譯學研究與應用的圖書。它將如何習得Python的語料庫編程能力分成三個層次,即靠前層次是Python基礎性代碼應用能力的習得,第二層次是針對特定問題的基礎性代碼組合應用能力的習得,第三層次是針對語料庫研究和應用中出現的問題如何實現靈活運用Python編程工具的能力的習得。本書具有很強的可操作性,適用於語料庫研究和教學,可提升語料庫數據挖掘和分析的有效性。書中與語料庫相關的代碼均經過學生的測試,具有顯著的適用性。本書采用案例形式進行解說,特別是第二和第三層次的案例均為作者實際科研和教學經驗所得。本書讀者對像為廣大的文科生和從業者。