![](/c3/65097708617.jpg)
出版社:中國電力出版社 ISBN:9787519838294 商品編碼:65097708617 品牌:文軒 出版時間:2017-12-01 代碼:88 作者:本傑明·班福特(BenjaminBengfo
"![](http://img14.360buyimg.com/cms/jfs/t1/203358/9/26405/134589/62f4a34cEcdefae53/84e082ed3b03dbc0.jpg) 作 者:(美)本傑明·班福特(Benjamin Bengfort),(美)瑞貝卡·比爾布羅(Rebecca Bilbro),(美)托尼·奧傑達(Tony Ojeda) 著 陳光 譯 定 價:88 出 版 社:中國電力出版社 出版日期:2017年12月01日 頁 數:328 裝 幀:平裝 ISBN:9787519838294 ●前言1 第1章語言與計算13 數據科學範式14 語言感知數據產品16 語言即數據21 小結29 第2章構建自定義語料庫31 語料庫是什麼?32 語料庫數據管理35 語料庫讀取器39 小結49 第3章語料庫預處理與處置50 分解文檔50 語料庫的轉換60 小結67 第4章文本向量化和轉換流水線68 空間中的詞69 Scikit-LearnAPI81 流水線88 小結93 第5章面向文本分析的文本分類95 文本分類96 構建文本分類應用99 小結110 第6章文本相似性聚類112 文本上的無監督學習112 文檔相似性聚類114 文檔主題建模127 小結139 第7章上下文感知文本分析140 基於語法的特征提取141 n-Gram特征提取147 n-Gram語言模型155 小結165 第8章文本可視化166 可視化特征空間167 模型診斷185 可視化操縱193 小結196 第9章文本的圖分析198 圖計算與分析200 從文本中抽取圖204 實體解析216 小結221 第10章聊天機器人223 對話基礎224 禮貌對話規則231 有趣的問題239 學習幫助250 小結257 第11章利用多處理和Spark擴展文本分析259 Python多處理260 Spark集群計算271 小結289 第12章深度學習與未來291 應用神經網絡292 神經網絡語言模型292 情感分析303 未來(幾乎)已來309 詞彙表311 ·預處理並將文本向量化成高維特征表示。 ·執行文檔分類和主題建模。 ·通過可視化診斷指導模型選擇過程。 ·提取關鍵短語、命名實體和圖結構,實現文本數據推斷。 ·建立對話框架,實現聊天機器人和語言驅動交互。 ·用Spark擴展處理能力,用神經網絡實現對更復雜模型的支持。 (美)本傑明·班福特(Benjamin Bengfort),(美)瑞貝卡·比爾布羅(Rebecca Bilbro),(美)托尼·奧傑達(Tony Ojeda) 著 陳光 譯 Benjamin Bengfort是一位專門研究分布式繫統、機器學習及其他相關技術的計算機科學家。Rebecca Bilbro是一名數據科學家和Python程序員,致力於研究機器學習工作流的可視化診斷。Tony Ojeda是District Data Labs的創始人和CEO,專注於商業策略應用分析、優化、預測服務,以及開源工具使用課程。陳光,北京郵電大學副教授,主要研究方向為機器學習和自然語言處理。 前言我們生活在一個充滿各種各樣數字助理的世界,這使我們能與其他人以及大量的信息資源建立聯繫。這些智能設備的部分吸引力,在於它們不僅能傳達信息;在一定程度上,它們也能理解信息,將大量數據聚合、過濾和彙總,處理成易於理解的形式,在高層次上促進人與人的交互。機器翻譯、問答繫統、語音識別、文本摘要,以及聊天機器人等應用,正成為我們計算生活中不可或缺的一部分。如果已經瀏覽過本書,那麼你可能會和我們一樣,對將自然語言理解組件包含在更廣泛的應用和軟件中的可能性感到興奮。語言理解組件建立在現代文本分析框架之上:結合了字符串操作、詞彙資源、計算語言學和機器學習算法等技術、方法的工具包,用來在語言數據和機器可理解形式之間進行相互轉換。不過,在我們開始討論這些方法和技術之前,明確這套框架的挑戰和機遇,以及為什麼現在討論這些正當其時這兩個問題非常重要。典型的美國高中畢業生已經記住了大約60000 個單詞和數千個語等 ![](https://img10.360buyimg.com/imgzone/jfs/t1/147514/7/5440/73116/5f34a3beE3ba58783/f5b2391383f5625c.jpg)
" |