內容介紹 | |
開本:16開 紙張:膠版紙 包裝:平裝-膠訂 是否套裝:否 國際標準書號ISBN:9787111588559 作者:[美]茱莉亞·斯拉格 出版社:機械工業出版社 出版時間:2018年04月 
" 目錄 前言1 第1章 整潔文本格式7 比較整潔文本結構與其他數據結構8 unnest_tokens函數8 整理Jane Austen的作品10 gutenbergr包13 詞頻13 總結17 第2章 基於整潔數據的情感分析18 情感數據集18 內連接的情感分析21 比較三個情感詞典24 常見的正面單詞和負面單詞26 Wordclouds模塊 28前言1 第1章 整潔文本格式7 比較整潔文本結構與其他數據結構8 unnest_tokens函數8 整理Jane Austen的作品10 gutenbergr包13 詞頻13 總結17 第2章 基於整潔數據的情感分析18 情感數據集18 內連接的情感分析21 比較三個情感詞典24 常見的正面單詞和負面單詞26 Wordclouds模塊 28 除單詞外的其他30 總結32 第3章 分析詞和文件頻率:tf-idf33 Jane Austen小說中的詞項頻率34 Zipf定律35 bind_tf_idf函數38 物理學語料庫41 總結45 第4章 詞之間的關繫:n-gram及相關性46 n-gram詞條化46 用widyr包對單詞對計數並計算相關性60 總結66 第5章 非整潔格式轉換67 使文檔–詞項矩陣整潔67 將整潔文本數據轉換為矩陣74 總結84 第6章 主題建模85 LDA 86 示例:博大的圖書館館藏91 LDA方法的替代實現 101 總結102 第7章 案例研究:Twitter歸檔文件比較103 單詞使用情況的比較107 單詞使用情況的變化109 收藏和轉發113 總結 117 第8章 案例研究:N數據挖掘118 NASA如何組織數據118 共現單詞與相關單詞123 計算描述字段的tf-idf129 總結142 第9章 案例研究:分析Usenet文本143 預處理143 新聞組中的單詞146 情感分析151 總結159 參考文獻160 | | |