自然語言處理Python進階
作 者: (印)克裡希納·巴夫薩(Krishna Bhavsar) 等 著 陳鈺楓 譯
定 價: 59
出?版?社: 機械工業出版社
出版日期: 2019年01月01日
頁 數: 207
裝 幀: 平裝
ISBN: 9787111616436
●譯者序
前言
作者簡介
審校者簡介
章 語料庫和WordNet 1
1.1 引言 1
1.2 訪問內置語料庫 1
1.3 外部語料庫,加載並訪問 3
1.4 計算布朗語料庫中三種不同類別的特殊疑問詞 5
1.5 探討網絡文本和聊天文本的詞頻分布 7
1.6 使用WordNet進行詞義消歧 9
1.7 選擇兩個不同的同義詞集,使用WordNet探討上位詞和下位詞的概念 12
1.8 基於WordNet計算名詞、動詞、形容詞和副詞的平均多義性 15
第2章 針對原始文本,獲取源數據和規範化 17
2.1 引言 17
2.2 字符串操作的重要性 17
2.3 深入實踐字符串操作 19
2.4 在Python中讀取PDF文件 21
2.5 在Python中讀取Word文件 23
2.6 使用PDF、DOCX和純文本文件,創建用戶自定義的語料庫 26
2.7 讀取RSS信息源的內容 29
2.8 使用BeautifulSoup解析HTML 31
第3章 預處理 34
3.1 引言 34
3.2 分詞——學習使用NLTK內置的分詞器 34
3.3 詞干提取——學習使用NLTK內置的詞干提取器 36
3.4 詞形還原——學習使用NLTK中的WordnetLemmatizer函數 38
3.5 停用詞——學習使用停用詞語料庫及其應用 40
3.6 編輯距離——編寫計算兩個字符串之間編輯距離的算法 42
3.7 處理兩篇短文並提取共有詞彙 44
第4章 正則表達式 50
4.1 引言 50
4.2 正則表達式——學習使用*、 和? 50
4.3 正則表達式——學習使用$和^,以及如何在單詞內部(非開頭與結尾處)進行模式匹配 52
4.4 匹配多個字符串和子字符串 54
4.5 學習創建日期正則表達式和一組字符集合或字符範圍 56
4.6 查找句子中所有長度為5的單詞,並進行縮寫 58
4.7 學習編寫基於正則表達式的分詞器 59
4.8 學習編寫基於正則表達式的詞干提取器 60
第5章 詞性標注和文法 63
5.1 引言 63
5.2 使用內置的詞性標注器 63
5.3 編寫你的詞性標注器 65
5.4 訓練你的詞性標注器 70
5.5 學習編寫你的文法 73
5.6 編寫基於概率的上下文無關文法 76
5.7 編寫遞歸的上下文無關文法 79
第6章 分塊、句法分析、依存分析 82
6.1 引言 82
6.2 使用內置的分塊器 82
6.3 編寫你的簡單分塊器 84
6.4 訓練分塊器 87
6.5 遞歸下降句法分析 90
6.6 shift-reduce句法分析 93
6.7 依存句法分析和主觀依存分析 95
6.8 線圖句法分析 97
第7章 信息抽取和文本分類 101
7.1 引言 101
7.2 使用內置的命名實體識別工具 102
7.3 創建字典、逆序字典和使用字典 104
7.4 特征集合選擇 109
7.5 利用分類器分割句子 113
7.6 文本分類 116
7.7 利用上下文進行詞性標注 120
第8章 高階自然語言處理實踐 124
8.1 引言 124
8.2 創建一條自然語言處理管道 124
8.3 解決文本相似度問題 131
8.4 主題識別 136
8.5 文本摘要 140
8.6 指代消解 143
8.7 詞義消歧 147
8.8 情感分析 150
8.9 高階情感分析 153
8.10 創建一個對話助手或聊天機器人 157
第9章 深度學習在自然語言處理中的應用 163
9.1 引言 163
9.2 利用深度神經網絡對電子郵件進行分類 168
9.3 使用一維卷積網絡進行IMDB情感分類 175
9.4 基於雙向LSTM的IMDB情感分類模型 179
9.5 利用詞向量實現高維詞在二維空間的可視化 183
0章 深度學習在自然語言處理中的不錯應用 188
10.1 引言 188
10.2 基於莎士比亞的著作使用LSTM技術自動生成文本 188
10.3 基於記憶網絡的情景數據問答 193
10.4 使用循環神經網絡LSTM進行語言建模以預測最優詞 199
10.5 使用循環神經網絡LSTM構建生成式聊天機器人 203
內容簡介
這本書將從一個實用的角度讓你從頭開始理解和實現NLP解決方案,將從訪問內置數據源和創建自己的數據源開始帶你踏上一段旅程。到時候將可以編寫復雜的NLP解決方案,包括文本規範化、預處理、詞性標注、句法解析等。
(印)克裡希納·巴夫薩(Krishna Bhavsar) 等 著 陳鈺楓 譯