了得網圖書_自然語言處理入門

作者:何晗著

定價:99

出版社:人民郵電出版社

出版日期:2019年10月01日

頁數:0

裝幀:簡裝

ISBN:9787115519764

●第 1 章新手上路 11.1 自然語言與編程語言 . 21.1.1 詞彙量 . 21.1.2 結構化 . 21.1.3 歧義性 . 31.1.4 容錯性 . 31.1.5 易變性 . 41.1.6 簡略性 . 41.2 自然語言處理的層次 . 41.2.1 語音、圖像和文本 .. 51.2.2 中文分詞、詞性標注和命名實體識別 . 51.2.3 信息抽取 . 61.2.4 文本分類與文本聚類 .. 61.2.5 句法分析 . 61.2.6 語義分析與篇章分析 .. 71.2.7 其他高級任務 71.3 自然語言處理的流派 . 81.3.1 基於規則的專家繫統 .. 81.3.2 基於統計的學習方法 .. 91.3.3 歷史 . 91.3.4 規則與統計 . 111.3.5 傳統方法與深度學習 111.4 機器學習 .. 121.4.1 什麼是機器學習 131.4.2 模型 .. 131.4.3 特征 .. 131.4.4 數據集 .. 151.4.5 監督學習 .. 161.4.6 無監督學習 . 171.4.7 其他類型的機器學習算法 .. 181.5 語料庫 191.5.1 中文分詞語料庫 191.5.2 詞性標注語料庫 191.5.3 命名實體識別語料庫 201.5.4 句法分析語料庫 201.5.5 文本分類語料庫 201.5.6 語料庫建設 . 211.6 開源工具 .. 211.6.1 主流NLP 工具比較 .. 211.6.2 Python 接口 231.6.3 Java 接口 . 281.7 總結 . 31第 2 章詞典分詞 322.1 什麼是詞 .. 322.1.1 詞的定義 .. 322.1.2 詞的性質--齊夫定律 .. 332.2 詞典 . 342.2.1 HanLP 詞典 . 342.2.2 詞典的加載 . 342.3 切分算法 .. 362.3.1 接近切分 .. 362.3.2 正向匹配 . 372.3.3 逆向匹配 . 392.3.4 雙向匹配 . 402.3.5 速度評測 .. 432.4 字典樹 462.4.1 什麼是字典樹 . 462.4.2 字典樹的節點實現 472.4.3 字典樹的增刪改查實現 .. 482.4.4 首字散列其餘二分的字典樹 . 502.4.5 前綴樹的妙用 . 532.5 雙數組字典樹 552.5.1 雙數組的定義 . 552.5.2 狀態轉移 .. 562.5.3 查詢 .. 562.5.4 構造* 572.5.5 全切分與匹配 602.6 AC 自動機 .. 602.6.1 從字典樹到AC 自動機 612.6.2 goto 表 612.6.3 output 表 .. 622.6.4 fail 表 632.6.5 實現 .. 652.7 基於雙數組字典樹的AC 自動機 . 672.7.1 原理 .. 672.7.2 實現 .. 672.8 HanLP 的詞典分詞實現 712.8.1 DoubleArrayTrieSegment 722.8.2 AhoCorasickDoubleArrayTrie-Segment . 732.9 準確率評測 . 742.9.1 準確率 .. 742.9.2 混淆矩陣與TP/FN/FP/TN .. 752.9.3 準確率 .. 762.9.4 召回率 .. 762.9.5 F1 值 .. 772.9.6 中文分詞中的P、R、F1 計算 .. 772.9.7 實現 .. 782.9.8 第二屆國際中文分詞評測 .. 792.9.9 OOV Recall Rate 與IV Recall Rate . 812.10 字典樹的其他應用 . 832.10.1 停用詞過濾 .. 832.10.2 簡繁轉換 872.10.3 拼音轉換 902.11 總結 . 91第3 語法與中文分詞 . 923.1 語言模型 .. 923.1.1 什麼是語言模型 923.1.2 馬爾可夫語法 .. 943.1.3 語法 .. 953.1.4 數據稀疏與平滑策略 963.2 中文分詞語料庫 . 963.2.1 1998 年《人民日報》語料庫PKU . 973.2.2 微軟亞洲研究院語料庫MSR 983.2.3 繁體中文分詞語料庫 983.2.4 語料庫統計 . 993.3 訓練 . 1003.3.1 加載語料庫 .. 1013.3.2 語法 .. 1013.3.3 語法 .. 1033.4 預測 .. 1043.4.1 加載模型 1043.4.2 構建詞網 1073.4.3 節點間的距離計算 1113.4.4 詞圖上的維特比算法 . 1123.4.5 與用戶詞典的集成 1153.5 評測 .. 1183.5.1 標準化評測 .. 1183.5.2 誤差分析 1183.5.3 調整模型 1193.6 日語分詞 1223.6.1 日語分詞語料 .. 1223.6.2 訓練日語分詞器 . 1233.7 總結 .. 124第4 章隱馬爾可夫模型與序列標注 . 1254.1 序列標注問題 . 1254.1.1 序列標注與中文分詞 . 1264.1.2 序列標注與詞性標注 . 1274.1.3 序列標注與命名實體識別 1284.2 隱馬爾可夫模型 .. 1294.2.1 從馬爾可夫假設到隱馬爾可夫模型 1294.2.2 初始狀態概率向量 . 1304.2.3 狀態轉移概率矩陣 . 1314.2.4 發射概率矩陣 .. 1324.2.5 隱馬爾可夫模型的三個基本用法 .. 1334.3 隱馬爾可夫模型的樣本生成 1334.3.1 案例--醫療診斷 . 1334.3.2 樣本生成算法 .. 1364.4 隱馬爾可夫模型的訓練 .. 1384.4.1 轉移概率矩陣的估計 . 1384.4.2 初始狀態概率向量的估計 1394.4.3 發射概率矩陣的估計 . 1404.4.4 驗證樣本生成與模型訓練 1414.5 隱馬爾可夫模型的預測 .. 1424.5.1 概率計算的前向算法 . 1424.5.2 搜索狀態序列的維特比算法 .. 1434.6 隱馬爾可夫模型應用於中文分詞 . 1474.6.1 標注集 1484.6.2 字符映射 1494.6.3 語料轉換 1504.6.4 訓練 1514.6.5 預測 1524.6.6 評測 1534.6.7 誤差分析 1544.7 二階隱馬爾可夫模型* 1544.7.1 二階轉移概率張量的估計 1554.7.2 二階隱馬爾可夫模型中的維特比算法 1564.7.3 二階隱馬爾可夫模型應用於中文分詞 1584.8 總結 .. 159第5 章感知機分類與序列標注 . 1605.1 分類問題 1605.1.1 定義 1605.1.2 應用 1615.2 線性分類模型與感知機算法 1615.2.1 特征向量與樣本空間 . 1625.2.2 決策邊界與分離超平面 1645.2.3 感知機算法 .. 1675.2.4 損失函數與隨機梯度下降* 1695.2.5 投票感知機和平均感知機 1715.3 基於感知機的人名性別分類 1745.3.1 人名性別語料庫 . 1745.3.2 特征提取 1745.3.3 訓練 1755.3.4 預測 1765.3.5 評測 1775.3.6 模型調優 1785.4 結構化預測問題 .. 1805.4.1 定義 1805.4.2 結構化預測與學習的流程 1805.5 線性模型的結構化感知機算法 .. 1805.5.1 結構化感知機算法 . 1805.5.2 結構化感知機與序列標注 1825.5.3 結構化感知機的維特比解碼算法 .. 1835.6 基於結構化感知機的中文分詞 .. 1865.6.1 特征提取 1875.6.2 多線程訓練 .. 1895.6.3 特征裁剪與模型壓縮* . 1905.6.4 創建感知機分詞器 . 1925.6.5 準確率與性能 .. 1945.6.6 模型調整與在線學習* . 1955.6.7 中文分詞特征工程* . 1975.7 總結 .. 199第6 章條件隨機場與序列標注 . 2006.1 機器學習的模型譜繫 2006.1.1 生成式模型與判別式模型 2016.1.2 有向與無向概率圖模型 2026.2 條件隨機場 .. 2056.2.1 線性鏈條件隨機場 . 2056.2.2 條件隨機場的訓練* 2076.2.3 對比結構化感知機 . 2106.3 條件隨機場工具包 . 2126.3.1 CRF++ 的安裝 2126.3.2 CRF++ 語料格式 2136.3.3 CRF++ 特征模板 2146.3.4 CRF++ 命令行訓練 2156.3.5 CRF++ 模型格式* 2166.3.6 CRF++ 命令行預測 2176.3.7 CRF++ 代碼分析* 2186.4 HanLP 中的CRF++ API 2206.4.1 訓練分詞器 .. 2206.4.2 標準化評測 .. 2206.5 總結 .. 221第7 章詞性標注 . 2227.1 詞性標注概述 . 2227.1.1 什麼是詞性 .. 2227.1.2 詞性的用處 .. 2237.1.3 詞性標注 2237.1.4 詞性標注模型 .. 2237.2 詞性標注語料庫與標注集 . 2247.2.1 《人民日報》語料庫與PKU 標注集 .. 2257.2.2 國家語委語料庫與863 標注集 . 2317.2.3 《誅仙》語料庫與CTB 標注集 .. 2347.3 序列標注模型應用於詞性標注 .. 2367.3.1 基於隱馬爾可夫模型的詞性標注 .. 2377.3.2 基於感知機的詞性標注 2387.3.3 基於條件隨機場的詞性標注 .. 2407.3.4 詞性標注評測 .. 2417.4 自定義詞性 .. 2427.4.1 樸素實現 2427.4.2 標注語料 2437.5 總結 .. 244第8 章命名實體識別 . 2458.1 概述 .. 2458.1.1 命名實體 2458.1.2 命名實體識別 .. 2458.2 基於規則的命名實體識別 . 2468.2.1 基於規則的音譯人名識別 2478.2.2 基於規則的日本人名識別 2488.2.3 基於規則的數詞英文識別 2498.3 命名實體識別語料庫 .. 2508.3.1 1998 年《人民日報》語料庫 . 2508.3.2 微軟命名實體識別語料庫 2518.4 基於層疊隱馬爾可夫模型的角色標注框架 2528.4.1 基於角色標注的中國人名識別 .. 2528.4.2 基於角色標注的地名識別 .. 2578.4.3 基於角色標注的機構名識別 .. 2588.5 基於序列標注的命名實體識別 .. 2608.5.1 特征提取 2618.5.2 基於隱馬爾可夫模型序列標注的命名實體識別 .. 2628.5.3 基於感知機序列標注的命名實體識別 2648.5.4 基於條件隨機場序列標注的命名實體識別 2658.5.5 命名實體識別標準化評測 2658.6 自定義領域命名實體識別 . 2668.6.1 標注領域命名實體識別語料庫 .. 2678.6.2 訓練領域模型 .. 2678.7 總結 .. 268第9 章信息抽取 . 2709.1 新詞提取 2709.1.1 概述 2709.1.2 基本原理 2709.1.3 信息熵 2719.1.4 互信息 2729.1.5 實現 2739.2 關鍵詞提取 .. 2769.2.1 詞頻統計 2779.2.2 TF-IDF .. 2789.2.3 TextRank .. 2809.3 短語提取 2839.4 關鍵句提取 .. 2849.4.1 BM25 . 2849.4.2 TextRank .. 2859.5 總結 .. 287第 10 章文本聚類 . 28810.1 概述 .. 28810.1.1 聚類 28810.1.2 聚類的應用 .. 29010.1.3 文本聚類 29010.2 文檔的特征提取 29110.2.1 詞袋模型 29110.2.2 詞袋中的統計指標 . 29310.3 k 均值算法 29310.3.1 基本原理 29410.3.2 初始質心的選取 . 29410.3.3 更快的準則函數 . 29710.3.4 實現 29810.4 重復二分聚類算法 .. 30010.4.1 基本原理 30010.4.2 自動判斷聚類個數k .. 30110.4.3 實現 30210.5 標準化評測 .. 30310.5.1 P、R 和F1 值 .. 30310.5.2 語料庫 30410.5.3 評測試驗 30510.6 總結 .. 305第 11 章文本分類 . 30611.1 文本分類的概念 30611.2 文本分類語料庫 30711.3 文本分類的特征提取 . 30811.3.1 分詞 30911.3.2 卡方特征選擇 .. 30911.3.3 詞袋向量 31211.4 樸素貝葉斯分類器 .. 31211.4.1 樸素貝葉斯法原理 . 31211.4.2 樸素貝葉斯文本分類器實現 .. 31411.5 支持向量機分類器 .. 31711.5.1 線性支持向量機* .. 31711.5.2 線性支持向量機文本分類器實現 31911.6 標準化評測 .. 32011.6.1 評測指標P、R、F1 32011.6.2 試驗結果 32111.7 情感分析 32111.7.1 ChnSentiCorp 情感分析語料庫 32211.7.2 訓練情感分析模型 . 32211.7.3 拓展試驗 32311.8 總結 .. 323第 12 章依存句法分析 . 32412.1 短語結構樹 .. 32412.1.1 上下文無關文法 . 32412.1.2 短語結構樹 .. 32512.1.3 賓州樹庫和中文樹庫 . 32612.2 依存句法樹 .. 32712.2.1 依存句法理論 .. 32712.2.2 中文依存句法樹庫 . 32812.2.3 依存句法樹的可視化 . 33112.3 依存句法分析 . 33312.3.1 基於圖的依存句法分析 33312.3.2 基於轉移的依存句法分析 33312.4 基於轉移的依存句法分析 .. 33412.4.1 Arc-Eager 轉移繫統 . 33412.4.2 特征提取 33612.4.3 Static 和Dynamic Oracle 33712.4.4 Dynamic Oracle 與感知機在線學習 . 33812.4.5 柱搜索 33912.5 依存句法分析API 34012.5.1 訓練模型 34012.5.2 標準化評測 .. 34112.6 案例：基於依存句法樹的意見抽取 .. 34212.7 總結 .. 344第 13 章深度學習與自然語言處理 34513.1 傳統方法的局限 34513.1.1 數據稀疏 34513.1.2 特征模板 34713.1.3 誤差傳播 34813.2 深度學習與優勢 34813.2.1 深度學習 34813.2.2 用稠密向量解決數據稀疏 35213.2.3 用多層網絡自動提取特征表示 .. 35213.2.4 端到端的設計 .. 35313.3 word2vec .. 35313.3.1 語言學上的啟發 . 35413.3.2 CBOW 模型 . 35413.3.3 訓練詞向量 .. 35513.3.4 單詞語義相似度 . 35713.3.5 詞語類比 35813.3.6 短文本相似度 .. 35913.4 基於神經網絡的高性能依存句法分析器 . 36013.4.1 Arc-Standard 轉移繫統 .. 36013.4.2 特征提取 36113.4.3 實現與接口 .. 36113.5 自然語言處理進階 .. 363自然語言處理學習資料推薦 . 365

這是一本務實的入門書，助你零起點上手自然語言處理。HanLP 作者何晗彙集多年經驗，從基本概念出發，逐步介紹中文分詞、詞性標注、命名實體識別、信息抽取、文本聚類、文本分類、句法分析這幾個熱門問題的算法原理與工程實現。書中通過對多種算法的講解，比較了它們的優缺點和適用場景，同時詳細演示生產級成熟代碼，助你真正將自然語言處理應用在生產環境中。隨著本書的學習，你將從普通程序員晉級為機器學習工程師，最後進化到自然語言處理工程師。

何晗著

何晗（@hankcs）自然語言處理類庫 HanLP 作者（GitHub 加星超過 14 600），“碼農場”博主（日活躍讀者數超過 3000），埃默裡大學計算機博士生，研究方向是句法分析、語義分析與問答繫統。HanLP 和“碼農場”是 NLP 領域實用的學習資源，何晗大約每周處理一次 HanLP GitHub上的 Issues。

商品搜索

商品分类

【醫學】

【各大出版社】

【医学】

【各大出版社】