●前言
第1章 自然語言處理概述
1.1 自然語言處理的定義
1.2 自然語言處理的應用領域
1.3 自然語言處理的發展歷程
1.4 自然語言處理的研究現狀和發展趨勢
1.5 自然語言處理的知識和技術儲備
本章小結
第2章 自然語言處理編程基礎
2.1 Python基礎
2.1.1 Python語言概述
2.1.2 Python基礎知識
2.2 NumPy和Pandas的使用
2.2.1 NumPy的使用
2.2.2 Pandas的使用
2.3 深度學習框架PyTorch
2.3.1 PyTorch簡介及環境搭建
2.3.2 PyTorch入門
本章小結
第3章 機器學習算法基礎
3.1 分類算法
3.1.1 樸素貝葉斯模型
3.1.2 決策樹模型
3.1.3 支持向量機模型
3.1.4 邏輯回歸模型
3.2 聚類算法
3.2.1 原型聚類
3.2.2 密度聚類
3.2.3 層次聚類
3.3 模型評估與選擇
3.3.1 經驗誤差與過擬合
3.3.2 評估方法
3.3.3 性能度量
3.4 概率圖模型
3.4.1 隱馬爾可夫模型(HMM)
3.4.2 條件隨機場模型
3.4.3 LDA模型
3.5 集成學習
3.5.1 個體與集成
3.5.2 XGboost模型
3.5.3 Bagging和隨機森林
3.6 人工神經網絡與深度學習
3.6.1 人工神經網絡與深度學習概述
3.6.2 BP神經網絡
3.6.3 卷積神經網絡(CNN)
3.6.4 循環神經網絡(RNN)與LSTM
本章小結
第4章 中文分詞
4.1 基於詞表的分詞算法
4.1.1 正向優選匹配算法
4.1.2 逆向優選匹配算法
4.1.3 雙向優選匹配算法
4.1.4 案例實現
4.2 基於統計模型的分詞算法
4.2.1 N-gram模型
4.2.2 基於N-gram模型的分詞算法
4.2.3 案例實現
4.3 基於序列標注的分詞算法
4.3.1 序列標注下的隱馬爾可夫模型
4.3.2 基於隱馬爾可夫模型進行中文分詞
4.3.3 維特比(Viterbi)算法
4.3.4 其他基於序列標注的分詞算法
4.3.5 案例實現
4.4 中文分詞工具
4.4.1 常見的中文分詞工具
4.4.2 Jieba分詞
4.4.3 案例實現
本章小結
第5章 關鍵詞提取
5.1 TextRank關鍵詞提取算法
5.1.1 PageRank算法
5.1.2 TextRank算法
5.1.3 案例實現
5.2 TE-IDF關鍵詞提取算法
5.2.1 評估詞的重要性的常見指標
5.2.2 TF-IDF算法
5.2.3 案例實現
本章小結
第6章 訓向量技術
6.1 詞向量技術發展歷程
6.1.1 詞向量概述
6.1.2 詞向量的發展歷程
6.2 Word2vec
6.2.1 Word2vec的基本原理
6.2.2 Word2vec的兩種訓練模型
6.2.3 Word2vec的兩種優化方法
6.2.4 案例實現
6.3 注意力機制
6.3.1 Encoder-Decoder樞架
6.3.2 注意力機制概述
6.3.3 注意力機制的發展
6.4 BERT預訓練模型
6.4.1 Transformer模型
6.4.2 BERT模型
6.4.3 案例實現
本章小結
第7章 文本分類
7.1 文本分類概述
7.2 基於樸素貝葉斯的文本分類方法
7.2.1 基於樸素貝葉斯算法的文本分類流程
7.2.2 案例實現
7.3 基於深度學習的文本分類
7.3.1 基於卷積神經網絡的文本分類
7.3.2 案例實現
7.4 開放領域文本分類
7.4.1 開放領域文本分類簡介
7.4.2 案例實現
本章小結
第8章 文本信息抽取
8.1 命名實體識別
8.1.1 命名實體識別概述
8.1.2 基於LSTM的命名實體識別
8.1.3 細粒度命名實體識別
8.2 實體關繫抽取
8.2.1 關繫抽取概述
8.2.2 基於卷積神經網絡的關繫抽取算法
8.2.3 實體關繫的聯合抽取算法
8.3 事件抽取
8.3.1 事件抽取概述
8.3.2 事件檢測
8.3.3素抽取
本章小結
第9章 機器閱讀理解
9.1 機器閱讀理解概述
9.2 抽取式閱讀理解
9.2.1 抽取式閱讀理解概述
9.2.2 基於BiDAF的抽取式閱讀理解案例
9.2.3 基於預訓練模型的抽取式閱讀理解
9.3 選擇式閱讀理解
9.3.1 選擇式閱讀理解概述
9.3.2 基於Co-Match的選擇式閱讀理解案例
9.3.3 基於預訓練模型的選擇式閱讀理解
本章小結
第10章 文本生成與文本摘要
10.1 文本生成與文本摘要概述
10.2 抽取式文本摘要
10.2.1 傳統方法
10.2.2 基於RNN的抽取式文本摘要
10.2.3 基於預訓練模型的抽取式文本摘要
10.3 生成式文本摘要
10.3.1 早期的Seq2Seg模型
10.3.2 Seq2Seq+Atention模型
10.3.3 指針生成網絡
10.3.4 預訓練模型+微調
10.4 文本摘要案例
10.4.1 文本摘要常用數據集
10.4.2 使用TextRank進行簡單的抽取式摘要
10.4.3 使用預訓練模型進行文本摘要
本章小結
第11章 對話繫統
11.1 任務型對話繫統
11.1.1 模塊化方法
……
參考文獻
自然語言處理是人工智能的重要分支,本書是一本自然語言處理的入門教材,主要面向高年級本科生和低年級研究生。本著理論結合實踐的基本原則,本書共分為11章,其中第1章概述了自然語言處理的研究內容、發展歷程、技術特色和當前現狀,是概述性的一章。第2章是自然語言處理的編程基礎,對Python語言及其相關模塊進行了介紹。第3章是自然語言處理的算法基礎,主要對常見的機器學習算法(分類算法、聚類算法、模型評估方法、概率圖模型、集成學習、人工神經網絡等)進行了講解。第4~5章從統計學方法入手講解了自然語言處理的兩個基礎任務:分詞和關鍵詞抽取。第6章則講解了當前流行的詞向量技術,尤其是Word2vec和大規模預訓練模型BERT。第7~11章分別對當前自然語言處理的熱門研究領域展開講解,包括文本分類、信息抽取、機器閱讀理解、文本生成和摘要抽取、對話和聊天繫統等。 本書除了可以作為高等院校計算機、大數據和等