●第 1 章 新手上路 11.1 自然語言與編程語言 . 21.1.1 詞彙量 . 21.1.2 結構化 . 21.1.3 歧義性 . 31.1.4 容錯性 . 31.1.5 易變性 . 41.1.6 簡略性 . 41.2 自然語言處理的層次 . 41.2.1 語音、圖像和文本 .. 51.2.2 中文分詞、詞性標注和命名實體識別 . 51.2.3 信息抽取 . 61.2.4 文本分類與文本聚類 .. 61.2.5 句法分析 . 61.2.6 語義分析與篇章分析 .. 71.2.7 其他高級任務 71.3 自然語言處理的流派 . 81.3.1 基於規則的專家繫統 .. 81.3.2 基於統計的學習方法 .. 91.3.3 歷史 . 91.3.4 規則與統計 . 111.3.5 傳統方法與深度學習 111.4 機器學習 .. 121.4.1 什麼是機器學習 131.4.2 模型 .. 131.4.3 特征 .. 131.4.4 數據集 .. 151.4.5 監督學習 .. 161.4.6 無監督學習 . 171.4.7 其他類型的機器學習算法 .. 181.5 語料庫 191.5.1 中文分詞語料庫 191.5.2 詞性標注語料庫 191.5.3 命名實體識別語料庫 201.5.4 句法分析語料庫 201.5.5 文本分類語料庫 201.5.6 語料庫建設 . 211.6 開源工具 .. 211.6.1 主流NLP 工具比較 .. 211.6.2 Python 接口 231.6.3 Java 接口 . 281.7 總結 . 31第 2 章 詞典分詞 322.1 什麼是詞 .. 322.1.1 詞的定義 .. 322.1.2 詞的性質--齊夫定律 .. 332.2 詞典 . 342.2.1 HanLP 詞典 . 342.2.2 詞典的加載 . 342.3 切分算法 .. 362.3.1 接近切分 .. 362.3.2 正向匹配 . 372.3.3 逆向匹配 . 392.3.4 雙向匹配 . 402.3.5 速度評測 .. 432.4 字典樹 462.4.1 什麼是字典樹 . 462.4.2 字典樹的節點實現 472.4.3 字典樹的增刪改查實現 .. 482.4.4 首字散列其餘二分的字典樹 . 502.4.5 前綴樹的妙用 . 532.5 雙數組字典樹 552.5.1 雙數組的定義 . 552.5.2 狀態轉移 .. 562.5.3 查詢 .. 562.5.4 構造* 572.5.5 全切分與匹配 602.6 AC 自動機 .. 602.6.1 從字典樹到AC 自動機 612.6.2 goto 表 612.6.3 output 表 .. 622.6.4 fail 表 632.6.5 實現 .. 652.7 基於雙數組字典樹的AC 自動機 . 672.7.1 原理 .. 672.7.2 實現 .. 672.8 HanLP 的詞典分詞實現 712.8.1 DoubleArrayTrieSegment 722.8.2 AhoCorasickDoubleArrayTrie-Segment . 732.9 準確率評測 . 742.9.1 準確率 .. 742.9.2 混淆矩陣與TP/FN/FP/TN .. 752.9.3 準確率 .. 762.9.4 召回率 .. 762.9.5 F1 值 .. 772.9.6 中文分詞中的P、R、F1 計算 .. 772.9.7 實現 .. 782.9.8 第二屆國際中文分詞評測 .. 792.9.9 OOV Recall Rate 與IV Recall Rate . 812.10 字典樹的其他應用 . 832.10.1 停用詞過濾 .. 832.10.2 簡繁轉換 872.10.3 拼音轉換 902.11 總結 . 91第3 語法與中文分詞 . 923.1 語言模型 .. 923.1.1 什麼是語言模型 923.1.2 馬爾可夫語法 .. 943.1.3  語法 .. 953.1.4 數據稀疏與平滑策略 963.2 中文分詞語料庫 . 963.2.1 1998 年《人民日報》語料庫PKU . 973.2.2 微軟亞洲研究院語料庫MSR 983.2.3 繁體中文分詞語料庫 983.2.4 語料庫統計 . 993.3 訓練 . 1003.3.1 加載語料庫 .. 1013.3.2 語法 .. 1013.3.3 語法 .. 1033.4 預測 .. 1043.4.1 加載模型 1043.4.2 構建詞網 1073.4.3 節點間的距離計算 1113.4.4 詞圖上的維特比算法 . 1123.4.5 與用戶詞典的集成 1153.5 評測 .. 1183.5.1 標準化評測 .. 1183.5.2 誤差分析 1183.5.3 調整模型 1193.6 日語分詞 1223.6.1 日語分詞語料 .. 1223.6.2 訓練日語分詞器 . 1233.7 總結 .. 124第4 章 隱馬爾可夫模型與序列標注 . 1254.1 序列標注問題 . 1254.1.1 序列標注與中文分詞 . 1264.1.2 序列標注與詞性標注 . 1274.1.3 序列標注與命名實體識別 1284.2 隱馬爾可夫模型 .. 1294.2.1 從馬爾可夫假設到隱馬爾可夫模型 1294.2.2 初始狀態概率向量 . 1304.2.3 狀態轉移概率矩陣 . 1314.2.4 發射概率矩陣 .. 1324.2.5 隱馬爾可夫模型的三個基本用法 .. 1334.3 隱馬爾可夫模型的樣本生成 1334.3.1 案例--醫療診斷 . 1334.3.2 樣本生成算法 .. 1364.4 隱馬爾可夫模型的訓練 .. 1384.4.1 轉移概率矩陣的估計 . 1384.4.2 初始狀態概率向量的估計 1394.4.3 發射概率矩陣的估計 . 1404.4.4 驗證樣本生成與模型訓練 1414.5 隱馬爾可夫模型的預測 .. 1424.5.1 概率計算的前向算法 . 1424.5.2 搜索狀態序列的維特比算法 .. 1434.6 隱馬爾可夫模型應用於中文分詞 . 1474.6.1 標注集 1484.6.2 字符映射 1494.6.3 語料轉換 1504.6.4 訓練 1514.6.5 預測 1524.6.6 評測 1534.6.7 誤差分析 1544.7 二階隱馬爾可夫模型* 1544.7.1 二階轉移概率張量的估計 1554.7.2 二階隱馬爾可夫模型中的維特比算法 1564.7.3 二階隱馬爾可夫模型應用於中文分詞 1584.8 總結 .. 159第5 章 感知機分類與序列標注 . 1605.1 分類問題 1605.1.1 定義 1605.1.2 應用 1615.2 線性分類模型與感知機算法 1615.2.1 特征向量與樣本空間 . 1625.2.2 決策邊界與分離超平面 1645.2.3 感知機算法 .. 1675.2.4 損失函數與隨機梯度下降* 1695.2.5 投票感知機和平均感知機 1715.3 基於感知機的人名性別分類 1745.3.1 人名性別語料庫 . 1745.3.2 特征提取 1745.3.3 訓練 1755.3.4 預測 1765.3.5 評測 1775.3.6 模型調優 1785.4 結構化預測問題 .. 1805.4.1 定義 1805.4.2 結構化預測與學習的流程 1805.5 線性模型的結構化感知機算法 .. 1805.5.1 結構化感知機算法 . 1805.5.2 結構化感知機與序列標注 1825.5.3 結構化感知機的維特比解碼算法 .. 1835.6 基於結構化感知機的中文分詞 .. 1865.6.1 特征提取 1875.6.2 多線程訓練 .. 1895.6.3 特征裁剪與模型壓縮* . 1905.6.4 創建感知機分詞器 . 1925.6.5 準確率與性能 .. 1945.6.6 模型調整與在線學習* . 1955.6.7 中文分詞特征工程* . 1975.7 總結 .. 199第6 章 條件隨機場與序列標注 . 2006.1 機器學習的模型譜繫 2006.1.1 生成式模型與判別式模型 2016.1.2 有向與無向概率圖模型 2026.2 條件隨機場 .. 2056.2.1 線性鏈條件隨機場 . 2056.2.2 條件隨機場的訓練* 2076.2.3 對比結構化感知機 . 2106.3 條件隨機場工具包 . 2126.3.1 CRF++ 的安裝 2126.3.2 CRF++ 語料格式 2136.3.3 CRF++ 特征模板 2146.3.4 CRF++ 命令行訓練 2156.3.5 CRF++ 模型格式* 2166.3.6 CRF++ 命令行預測 2176.3.7 CRF++ 代碼分析* 2186.4 HanLP 中的CRF++ API 2206.4.1 訓練分詞器 .. 2206.4.2 標準化評測 .. 2206.5 總結 .. 221第7 章 詞性標注 . 2227.1 詞性標注概述 . 2227.1.1 什麼是詞性 .. 2227.1.2 詞性的用處 .. 2237.1.3 詞性標注 2237.1.4 詞性標注模型 .. 2237.2 詞性標注語料庫與標注集 . 2247.2.1 《人民日報》語料庫與PKU 標注集 .. 2257.2.2 國家語委語料庫與863 標注集 . 2317.2.3 《誅仙》語料庫與CTB 標注集 .. 2347.3 序列標注模型應用於詞性標注 .. 2367.3.1 基於隱馬爾可夫模型的詞性標注 .. 2377.3.2 基於感知機的詞性標注 2387.3.3 基於條件隨機場的詞性標注 .. 2407.3.4 詞性標注評測 .. 2417.4 自定義詞性 .. 2427.4.1 樸素實現 2427.4.2 標注語料 2437.5 總結 .. 244第8 章 命名實體識別 . 2458.1 概述 .. 2458.1.1 命名實體 2458.1.2 命名實體識別 .. 2458.2 基於規則的命名實體識別 . 2468.2.1 基於規則的音譯人名識別 2478.2.2 基於規則的日本人名識別 2488.2.3 基於規則的數詞英文識別 2498.3 命名實體識別語料庫 .. 2508.3.1 1998 年《人民日報》語料庫 . 2508.3.2 微軟命名實體識別語料庫 2518.4 基於層疊隱馬爾可夫模型的角色標注框架 2528.4.1 基於角色標注的中國人名識別 .. 2528.4.2 基於角色標注的地名識別 .. 2578.4.3 基於角色標注的機構名識別 .. 2588.5 基於序列標注的命名實體識別 .. 2608.5.1 特征提取 2618.5.2 基於隱馬爾可夫模型序列標注的命名實體識別 .. 2628.5.3 基於感知機序列標注的命名實體識別 2648.5.4 基於條件隨機場序列標注的命名實體識別 2658.5.5 命名實體識別標準化評測 2658.6 自定義領域命名實體識別 . 2668.6.1 標注領域命名實體識別語料庫 .. 2678.6.2 訓練領域模型 .. 2678.7 總結 .. 268第9 章 信息抽取 . 2709.1 新詞提取 2709.1.1 概述 2709.1.2 基本原理 2709.1.3 信息熵 2719.1.4 互信息 2729.1.5 實現 2739.2 關鍵詞提取 .. 2769.2.1 詞頻統計 2779.2.2 TF-IDF .. 2789.2.3 TextRank .. 2809.3 短語提取 2839.4 關鍵句提取 .. 2849.4.1 BM25 . 2849.4.2 TextRank .. 2859.5 總結 .. 287第 10 章 文本聚類 . 28810.1 概述 .. 28810.1.1 聚類 28810.1.2 聚類的應用 .. 29010.1.3 文本聚類 29010.2 文檔的特征提取 29110.2.1 詞袋模型 29110.2.2 詞袋中的統計指標 . 29310.3 k 均值算法 29310.3.1 基本原理 29410.3.2 初始質心的選取 . 29410.3.3 更快的準則函數 . 29710.3.4 實現 29810.4 重復二分聚類算法 .. 30010.4.1 基本原理 30010.4.2 自動判斷聚類個數k .. 30110.4.3 實現 30210.5 標準化評測 .. 30310.5.1 P、R 和F1 值 .. 30310.5.2 語料庫 30410.5.3 評測試驗 30510.6 總結 .. 305第 11 章 文本分類 . 30611.1 文本分類的概念 30611.2 文本分類語料庫 30711.3 文本分類的特征提取 . 30811.3.1 分詞 30911.3.2 卡方特征選擇 .. 30911.3.3 詞袋向量 31211.4 樸素貝葉斯分類器 .. 31211.4.1 樸素貝葉斯法原理 . 31211.4.2 樸素貝葉斯文本分類器實現 .. 31411.5 支持向量機分類器 .. 31711.5.1 線性支持向量機* .. 31711.5.2 線性支持向量機文本分類器實現 31911.6 標準化評測 .. 32011.6.1 評測指標P、R、F1 32011.6.2 試驗結果 32111.7 情感分析 32111.7.1 ChnSentiCorp 情感分析語料庫 32211.7.2 訓練情感分析模型 . 32211.7.3 拓展試驗 32311.8 總結 .. 323第 12 章 依存句法分析 . 32412.1 短語結構樹 .. 32412.1.1 上下文無關文法 . 32412.1.2 短語結構樹 .. 32512.1.3 賓州樹庫和中文樹庫 . 32612.2 依存句法樹 .. 32712.2.1 依存句法理論 .. 32712.2.2 中文依存句法樹庫 . 32812.2.3 依存句法樹的可視化 . 33112.3 依存句法分析 . 33312.3.1 基於圖的依存句法分析 33312.3.2 基於轉移的依存句法分析 33312.4 基於轉移的依存句法分析 .. 33412.4.1 Arc-Eager 轉移繫統 . 33412.4.2 特征提取 33612.4.3 Static 和Dynamic Oracle 33712.4.4 Dynamic Oracle 與感知機在線學習 . 33812.4.5 柱搜索 33912.5 依存句法分析API 34012.5.1 訓練模型 34012.5.2 標準化評測 .. 34112.6 案例:基於依存句法樹的意見抽取 .. 34212.7 總結 .. 344第 13 章 深度學習與自然語言處理 34513.1 傳統方法的局限 34513.1.1 數據稀疏 34513.1.2 特征模板 34713.1.3 誤差傳播 34813.2 深度學習與優勢 34813.2.1 深度學習 34813.2.2 用稠密向量解決數據稀疏 35213.2.3 用多層網絡自動提取特征表示 .. 35213.2.4 端到端的設計 .. 35313.3 word2vec .. 35313.3.1 語言學上的啟發 . 35413.3.2 CBOW 模型 . 35413.3.3 訓練詞向量 .. 35513.3.4 單詞語義相似度 . 35713.3.5 詞語類比 35813.3.6 短文本相似度 .. 35913.4 基於神經網絡的高性能依存句法分析器 . 36013.4.1 Arc-Standard 轉移繫統 .. 36013.4.2 特征提取 36113.4.3 實現與接口 .. 36113.5 自然語言處理進階 .. 363自然語言處理學習資料推薦 . 365