![](/c49/30/10538704796.jpg)
出版社:人民郵電 ISBN:9787115427106 商品編碼:10538704796 開本:16 出版時間:2016-07-01 代碼:59 作者:杜春曉...
" 基本信息 - 商品名稱:Python數據挖掘入門與實踐/圖靈程序設計叢書
- 作者:(澳)羅伯特·萊頓|譯者:杜春曉
- 代碼:59
- 出版社:人民郵電
- ISBN號:9787115427106
其他參考信息 - 出版時間:2016-07-01
- 印刷時間:2016-07-01
- 版次:1
- 印次:1
- 開本:16開
- 包裝:平裝
- 頁數:236
- 字數:372千字
編輯推薦語 在數據規模急速膨脹的大數據時代,數據挖掘這項甄別重要數據的核心技術正發揮越來越重要的作用。它將賦予你解決實際問題的“超能力”:預測體育賽事結果、**投放廣告、根據作品的風格解決作者歸屬問題,等等。 羅伯特·萊頓著的這本《Python數據挖掘入門與實踐》使用簡單易學且擁有豐富第三方庫和良好社區氛圍的Python語言,由淺入深,以真實數據作為研究對像,真刀實槍地向讀者介紹Python數據挖掘的實現方法。通過本書,讀者將邁入數據挖掘的殿堂,透徹理解數據挖掘基礎知識,掌握解決數據挖掘實際問題的*佳實踐! 內容提要 羅伯特·萊頓著的這本《Python數據挖掘入門與 實踐》作為數據挖掘入門讀物,介紹了數據挖掘的基 礎知識、基本工具和實踐方法,通過循序漸進地講解 算法,帶你輕松踏上數據挖掘之旅。本書采用理論與 實踐相結合的方式,呈現了如何使用決策樹和隨機森 林算法預測美國職業籃球聯賽比賽結果,如何使用親 和性分析方法推薦電影,如何使用樸素貝葉斯算法進 行社會媒體挖掘,等等。本書也涉及神經網絡、深度 學習、大數據處理等內容。 本書面向願意學習和嘗試數據挖掘的程序員。 作者簡介 羅伯特·萊頓,計算機科學博士,網絡犯罪問題和文本分析方面的專家。多年來一直熱衷於Python編程,參與過scikit-learn庫等很多開源庫的開發,曾擔任2014年度“谷歌編程之夏”項目導師。他曾與全球幾大數據挖掘公司密切合作,挖掘真實數據並研發相關應用。他的公司dataPipeline為多個行業提供數據挖掘和數據分析解決方案。 杜春曉,英語語言文學學士,軟件工程碩士。其他譯著有《電子達人一我的**本Raspberry Pi入門手冊》《Python數據分析》。新浪微博:@宜_生。 目錄 **章 開始數據挖掘之旅 1.1 數據挖掘簡介 1.2 使用Python和IPython Notebook 1.2.1 安裝Python 1.2.2 安裝IPython 1.2.3 安裝scikit-learn庫 1.3 親和性分析示例 1.3.1 什麼是親和性分析 1.3.2 商品推薦 1.3.3 在NumPy中加載數據集 1.3.4 實現簡單的排序規則 1.3.5 排序找出*佳規則 1.4 分類問題的簡單示例 1.5 什麼是分類 1.5.1 準備數據集 1.5.2 實現OneR算法 1.5.3 測試算法 1.6 小結 第2章 用scikit-learn估計器分類 2.1 scikit-learn估計器 2.1.1 近鄰算法 2.1.2 距離度量 2.1.3 加載數據集 2.1.4 努力實現流程標準化 2.1.5 運行算法 2.1.6 設置參數 2.2 流水線在預處理中的應用 2.2.1 預處理示例 2.2.2 標準預處理 2.2.3 組裝起來 2.3 流水線 2.4 小結 第3章 用決策樹預測獲勝球隊 3.1 加載數據集 3.1.1 采集數據 3.1.2 用pandas加載數據集 3.1.3 數據集清洗 3.1.4 提取新特征 3.2 決策樹 3.2.1 決策樹中的參數 3.2.2 使用決策樹 3.3 NBA 比賽結果預測 3.4 隨機森林 3.4.1 決策樹的集成效果如何 3.4.2 隨機森林算法的參數 3.4.3 使用隨機森林算法 3.4.4 創建新特征 3.5 小結 第4章 用親和性分析方法推薦電影 4.1 親和性分析 4.1.1 親和性分析算法 4.1.2 選擇參數 4.2 電影推薦問題 4.2.1 獲取數據集 4.2.2 用pandas加載數據 4.2.3 稀疏數據格式 4.3 Apriori算法的實現 4.3.1 Apriori算法 4.3.2 實現 4.4 抽取關聯規則 4.5 小結 第5章 用轉換器抽取特征 5.1 特征抽取 5.1.1 在模型中表示事實 5.1.2 通用的特征創建模式 5.1.3 創建好的特征 5.2 特征選擇 5.3 創建特征 5.4 創建自己的轉換器 5.4.1 轉換器API 5.4.2 實現細節 5.4.測試 5.4.4 組裝起來 5.5 小結 第6章 使用樸素貝葉斯進行社會媒體挖掘 6.1 消歧 6.1.1 從社交網站下載數據 6.1.2 加載數據集並對其分類 6.1.3 Twitter數據集重建 6.2 文本轉換器 6.2.1 詞袋 6.2.2語法 6.2.3 其他特征 6.3 樸素貝葉斯 6.3.1 貝葉斯定理 6.3.2 樸素貝葉斯算法 6.3.3 算法應用示例 6.4 應用 6.4.1 抽取特征 6.4.2 將字典轉換為矩陣 6.4.3 訓練樸素貝葉斯分類器 6.4.4 組裝起來 6.4.5 用F1值評估 6.4.6 從模型中獲取*多有用的特征 6.5 小結 第7章 用圖挖掘找到感興趣的人 7.1 加載數據集 7.1.1 用現有模型進行分類 7.1.2 獲取Twitter好友信息 7.1.3 構建網絡 7.1.4 創建圖 7.1.5 創建用戶相似度圖 7.2 尋找子圖 7.2.1 連通分支 7.2.2 優化參數選取準則 7.3 小結 第8章 用神經網絡破解驗證碼 8.1 人工神經網絡 8.2 創建數據集 8.2.1 繪制驗證碼 8.2.2 將圖像切分為單個的字母 8.2.3 創建訓練集 8.2.4 根據抽取方法調整訓練數據集 8.3 訓練和分類 8.3.1 反向傳播算法 8.3.2 預測單詞 8.4 用詞典提升正確率 8.4.1 尋找*相似的單詞 8.4.2 組裝起來 8.5 小結 第9章 作者歸屬問題 9.1 為作品找作者 9.1.1 相關應用和使用場景 9.1.2 作者歸屬 9.1.3 獲取數據 9.2 功能詞 9.2.1 統計功能詞 9.2.2 用功能詞進行分類 9.3 支持向量機 9.3.1 用SVM分類 9.3.2 內核 9.4 語法 9.5 使用安然公司數據集 9.5.1 獲取安然數據集 9.5.2 創建數據集加載工具 9.5.3 組裝起來 9.5.4 評估 9.6 小結 **0章 新聞語料分類 10.1 獲取新聞文章 10.1.1 使用Web API獲取數據 10.1.2 數據資源寶庫reddit 10.1.3 獲取數據 10.2 從任意網站抽取文本 10.2.1 尋找任意網站網頁中的主要內容 10.2.2 組裝起來 10.3 新聞語料聚類 10.3.1 k-means算法 10.3.2 評估結果 10.3.3 從簇中抽取主題信息 10.3.4 用聚類算法做轉換器 10.4 聚類融合 10.4.1 證據累積 10.4.2 工作原理 10.4.3 實現 10.5 線上學習 10.5.1 線上學習簡介 10.5.2 實現 10.6 小結 **1章 用深度學習方法為圖像中的物體進行分類 11.1 物體分類 11.2 應用場景和目標 11.3 深度神經網絡 11.3.1 直觀感受 11.3.2 實現 11.3.3 Theano簡介 11.3.4 Lasagne簡介 11.3.5 用nolearn實現神經網絡 11.4 GPU優化 11.4.1 什麼時候使用GPU進行計算 11.4.2 用GPU運行代碼 11.5 環境搭建 11.6 應用 11.6.1 獲取數據 11.6.2 創建神經網絡 11.6.3 組裝起來 11.7 小結 **2章 大數據處理 12.1 大數據 12.2 大數據應用場景和目標 12.3 MapReduce 12.3.1 直觀理解 12.3.2 單詞統計示例 12.3.3 Hadoop MapReduce 12.4 應用 12.4.1 獲取數據 12.4.2 樸素貝葉斯預測 12.5 小結 附錄 接下來的方向
" |