●第1章 文本分析
1.1 文本分析的目的
1.1.1 結構化數據與非結構化數據
1.1.2 查找
1.1.3 發現
1.2 文本分析的基本技術
1.2.1 文本分析技術的全貌
1.2.2 基於文本分析技術的本書結構分析
第2章 日語文本分析:預處理的要點
2.1 文本數據的獲取
2.1.1 作為分析對像文本數據的條件
2.1.2 青空文庫
2.1.3 利用維基百科API獲取文本
2.1.4 從PDF和Word文檔中獲取文本
2.1.5 從Web頁面中獲取文本
2.1.6 使用API獲取文本的方法
2.1.7 從DBpedia中獲取文本
2.1.8 其他獲取文本的方法
2.2 語素分析
2.2.1 語素分析的目的
2.2.2 語素分析引擎的種類
2.2.3 MeCab分詞包的使用
2.2.4 Janome分詞包的使用
2.2.5 與字典的結合使用
第3章 傳統的文本分析與檢索技術
3.1 相關性分析
3.1.1 語素分析與相關性分析的關繫
3.1.2 CaboCha的使用
3.1.3 使用naruhodo進行可視化處理
3.2 檢索
3.2.1 Elasticsearch的安裝
3.2.2 Elasticsearch的使用
3.3 日文檢索
3.3.1 Python應用程序接口的導入
3.3.2 日文用分析器的設置
3.3.3 日文文檔的檢索
3.3.4 復雜的日文檢索(同義詞和字典的使用)
3.4 檢索結果的評分
3.4.1 TF-IDF
3.4.2 Elasticsearch中的評分功能
3.5 類似檢索
第4章 基於商用API的文本分析與檢索技術
4.1 IBM Cloud中的文本分析API概覽
4.1.1 Watson API服務的總覽
4.1.2 Natural Language Understanding(NLU)
4.1.3 Knowledge Studio
4.1.4 Discovery
4.1.5 其他的API
4.2 NLU
4.2.1 NLU(自然語言理解)
4.2.2 實例的創建
4.2.3 使用Python時的推薦操作
4.2.4 實體提取功能
4.2.5 關繫提取功能
4.2.6 評價分析功能
4.2.7 關鍵詞提取功能
4.2.8 其他功能
4.3 Knowledge Studio
4.3.1 何謂Knowledge Studio
4.3.2 創建模型所必需的操作流程
4.3.3 實例與Workspace的創建
4.3.4 事先準備操作(定義Type System/字典)
4.3.5 標注操作(從讀入文檔到人工標注)
4.3.6 機器學習模型的訓練與評估
4.3.7 模型的使用方法(與NLU聯動)
4.4 Discovery
4.4.1 何謂Discovery
4.4.2 文檔的讀取
4.4.3 Enrich
4.4.4 Query
4.4.5 排名學習
4.5 使用Discovery模塊
4.5.1 環境的創建
4.5.2 數據集合的創建
4.5.3 管理界面
4.5.4 使用SDU定義字段
4.5.5 字段的詳細定義(字段管理、Enrich設置)
4.5.6 文檔的讀入
4.5.7 使用DQL進行搜索
4.5.8 同義詞字典的使用
4.5.9 與Knowledge Studio的聯動
4.6 通過API使用Discovery
4.6.1 API的初始化
4.6.2 文檔的載入與刪除
4.6.3 搜索
4.6.4 語素字典的使用
4.6.5 相似搜索的執行
4.7 基於Discovery的排名學習
4.7.1 何謂排名學習
4.7.2 使用圖形界面工具進行排名學習
4.7.3 性能/儀表盤功能
4.8 通過API使用Discovery進行排序學習
4.8.1 排序學習的準備
4.8.2 學習的實施
第5章 Word2Vec與BERT
5.1 Word2Vec模型概要
5.1.1 Word2Vec的學習方法
5.1.2 Word2Vec模型的結構
5.1.3 學習時的目的與真正的目標
5.1.4 Word2Vec所生成特征向量的性質
5.2 Word2Vec的使用
5.2.1 自行學習的方法
5.2.2 使用已經完成訓練的模型
5.3 Word2Vec應用案例
5.3.1 將Word2Vec作為簡易分類器用於預處理
5.3.2 在商用API內部的運用
5.3.3 在自動推薦繫統中的應用
5.4 Word2Vec的關聯技術
5.4.1 Glove
5.4.2 fastText
5.4.3 Doc2Vec
5.5 遷移學習與BERT
5.5.1 圖像識別與遷移學習
5.5.2 BERT的特點
5.5.3 具有通用性的預先學習
5.5.4 各種適用領域
5.5.5 基於較新研究成果的神經網絡模型
5.5.6 使用預先學習模型
《Python自然語言處理入門》是一本使用Python解釋在人工智能領域備受關注的自然語言分析方法的入門書,內容涵蓋“檢索技術”“實體提取”“關繫提取”“語素分析”和“評估/情感/概念分析”等自然語言處理中的常用知識,同時對傳統技術和引入了AI新技術的特點作了對比。全書以一線AI工程師的實際項目經驗為後盾,對自然語言處理的要點進行了歸納總結,並介紹了使用Python程序、API、商業服務(IBMWatson)和OSS(MeCab/Elasticsearch/Word2Vec)等進行自然語言處理的實用方法,在最後一章中,還介紹了BERT的相關內容,特別適合想學習自然語言處理的理工科學生和人工智能工程師進行參考和學習。