出版社:電子工業 ISBN:9787121365201 商品編碼:53844763953 出版時間:2019-07-01 代碼:79 作者:高陽團
" 基本信息- 商品名稱: 繫統開發實戰
- 作者:編者:高陽團
- 代碼:79
- 出版社:電子工業
- ISBN號:9787121365201
其他參考信息- 出版時間:2019-07-01
- 印刷時間:2019-07-01
- 版次:1
- 印次:1
- 開本:16開
- 包裝:平裝
- 頁數:345
- 字數:582千字
內容提要過程完整:從基本原理到實際項目開發 實例豐富:將理論學習落實到具體實踐(共34個實例)簡潔流暢:采用短段、短句,讀來有順流而下般流暢感實戰性強:搭建新聞 繫統、音樂 繫統、圖書 繫統學習無憂:免費提供書中用到的素材和源代碼後繼服務:讀者可加入本書QQ學習群在線交流 作者簡介高陽團,原京東 算法工程師。 ID:Thinkgamer,CSDN博客專家,博客地址為https://blog.csdn.net/ gamer_gyt。一直從事 繫統相關的研究和開發工作,擅長 排序、Spark、深度學習。 目錄第1篇 繫統的背景介紹和入門 ∣ 第1章 走進 繫統 2 1.1 從“啤酒與尿布”到 繫統的前世今生 2 ∣1.1.1 “啤酒與尿布” 2 ∣1.1.2 繫統的前世今生 2 1.2 繫統可以做什麼 4 ∣1.2.1 什麼是 繫統 4 ∣1.2.2 在電商類產品中的應用 5 ∣1.2.3 在社交類產品中的應用 6 ∣1.2.4 在音樂類產品中的應用 8 ∣1.2.5 在視頻類產品中的應用 9 ∣1.2.6 在閱讀類產品中的應用 10 ∣1.2.7 在服務類產品中的應用 11 1.3 學習本書需要的技能 12 ∣1.3.1 Python基礎 12 ∣1.3.2 數據結構 14 ∣1.3.3 工程能力 15 1.4 如何學習本書 17 1.5 知識導圖 17 第2章 搭建你的 個 繫統 19 2.1 實例1:搭建電影 繫統 19 ∣2.1.1 利用Netflix數據集準備數據 19 ∣2.1.2 使用Python表示數據 21 ∣2.1.3 選擇相似用戶 23 ∣2.1.4 為用戶 相似用戶喜歡的電影 24 ∣2.1.5 分析效果 25 2.2 總結:搭建 繫統的一般步驟 26 ∣2.2.1 準備數據 26 ∣2.2.2 選擇算法 27 ∣2.2.3 模型訓練 28 ∣2.2.4 效果評估 28 2.3 知識導圖 28 第3章 繫統常用數據集介紹 29 3.1 MovieLens數據集 29 ∣3.1.1 README 29 ∣3.1.2 ratings.dat 29 ∣3.1.3 movies.dat 31 ∣3.1.4 users.dat 34 3.2 Book-Crossings數據集 36 ∣3.2.1 BX-Book-Ratings.csv 37 ∣3.2.2 BX-Books.csv 39 ∣3.2.3 BX-Users.csv 39 3.3 Last.fm數據集 41 ∣3.3.1 README 41 ∣3.3.2 artists.dat 41 ∣3.3.3 tags.dat 41 ∣3.3.4 user_artists.dat 42 ∣3.3.5 user_friends.dat 42 ∣3.3.6 uses_taggedartists.dat 42 ∣3.3.7 user_taggedartists-timestamps.dat 42 3.4 FourSquare數據集 43 ∣3.4.1 users.dat 43 ∣3.4.2 venues.dat 44 ∣3.4.3 checkins.dat 44 ∣3.4.4 socialgraph.dat 44 ∣3.4.5 ratings.dat 45 3.5 Kaggle比賽之retailrocket 數據集 46 ∣3.5.1 events.csv 47 ∣3.5.2 category_tree.csv 49 ∣3.5.3 item_properties.csv 49 3.6 場景分析 49 3.7 知識導圖 50 第2篇 繫統涉及的算法介紹、冷啟動和效果評估 第4章 數據挖掘——讓 繫統 懂你 52 4.1 數據預處理 52 4.1.1 數據標準化 52 4.1.2 實例2:實現數據的標準化 54 4.1.3 數據離散化 56 4.1.4 實例3:基於信息熵的數據離散化 58 4.1.5 數據抽樣 61 4.1.6 數據降維 63 4.1.7 實例4:對鳶尾花數據集特征進行降維 66 4.1.8 數據清理 68 4.1.9 相似度計算 71 4.2 數據分類 74 4.2.1 K 近鄰算法 74 4.2.2 實例5:利用KNN算法實現性別判定 75 4.2.3 決策樹算法 77 4.2.4 實例6:構建是否舉辦活動的決策樹 80 4.2.5 樸素貝葉斯算法 84 4.2.6 實例7:基於樸素貝葉斯算法進行異常賬戶檢測 87 4.2.7 分類器的評估 90 4.2.8 實例8:scikit-learn中的分類效果評估 92 4.3 數據聚類 92 4.3.1 kMeans算法 92 4.3.2 實例9:基於kMeans算法進行商品價格聚類 95 4.3.3 二分-kMeans算法 98 4.3.4 實例10:基於二分-kMeans算法進行商品價格聚類 99 4.3.5 聚類算法的評估 100 4.3.6 實例11:scikit-learn中的聚類效果評估 102 4.4 關聯分析 103 4.4.1 Apriori算法 103 4.4.2 實例12:基於Apriori算法實現頻繁項集和相關規則挖掘 106 4.5 知識導圖 110 第5章 基於用戶行為特征的 111 5.1 用戶行為分類 111 5.2 基於內容的 算法 112 5.2.1 算法原理——從“構造特征”到“判斷用戶是否喜歡” 112 5.2.2 實例13:對手機屬性進行特征建模 115 5.3 實例14:編寫一個基於內容 算法的電影 繫統 117 5.3.1 了解實現思路 117 5.3.2 準備數據 119 5.3.3 選擇算法 122 5.3.4 模型訓練 122 5.3.5 效果評估 123 5.4 基於近鄰的 算法 124 5.4.1 UserCF算法的原理——先“找到相似同戶”,再“找到他們喜歡的物品” 124 5.4.2 ItemCF算法的原理——先“找到用戶喜歡的物品”,再“找到喜歡物品的相似物品” 131 5.5 實例15:編寫一個基於UserCF算法的電影 繫統 137 5.5.1 了解實現思路 138 5.5.2 準備數據 138 5.5.3 選擇算法 138 5.5.4 模型訓練 138 5.5.5 效果評估 141 5.6 實例16:編寫一個基於ItemCF算法的電影 繫統 141 5.6.1 了解實現思路 141 5.6.2 準備數據 142 5.6.3 選擇算法 142 5.6.4 模型訓練 142 5.6.5 效果評估 144 5.7 對比分析:UserCF算法和ItemCF算法 145 5.8 對比分析:基於內容和基於近鄰 146 5.9 基於隱語義模型的 算法 147 5.9.1 LFM概述 147 5.9.2 LFM算法理解 148 5.10 實例17:編寫一個基於LFM的電影 繫統 152 5.10.1 了解實現思路 152 5.10.2 準備數據 152 5.10.3 選擇算法 154 5.10.4 模型訓練 155 5.10.5 效果評估 158 5.11 知識導圖 159
第6章 基於標簽的 161 6.1 基於標簽繫統的應用 161 ∣6.1.1 Last.fm 161 ∣6.1.2 Delicious 162 ∣6.1.3 豆瓣 163 ∣6.1.4 網易雲音樂 163 6.2 數據標注與關鍵詞提取 165 ∣6.2.1 繫統中的數據標注 165 ∣6.2.2 繫統中的關鍵詞提取 167 ∣6.2.3 標簽的分類 168 6.3 實例18:基於TF-IDF算法提取商品標題的關鍵詞 169 ∣6.3.1 了解TF-IDF算法 169 ∣6.3.2 認識商品標題描述 170 ∣6.3.3 提取關鍵詞 170 6.4 基於標簽的 繫統 174 ∣6.4.1 標簽評分算法 174 ∣6.4.2 標簽評分算法改進 176 ∣6.4.3 標簽基因 177 ∣6.4.4 用戶興趣建模 177 6.5 實例19:利用標簽 算法實現藝術家的 178 ∣6.5.1 了解實現思路 178 ∣6.5.2 準備數據 178 ∣6.5.3 選擇算法 179 ∣6.5.4 模型訓練 179 ∣6.5.5 效果評估 182 6.6 知識導圖 182 ∣ 第7章 基於上下文的 184 7.1 基於時間特征的 184 ∣7.1.1 時間效應介紹 184 ∣7.1.2 時間效應分析 187 ∣7.1.3 繫統的實時性 194 ∣7.1.4 協同過濾中的時間因子 195 7.2 實例20:實現一個“增加時間衰減函數的協同過濾算法” 197 ∣7.2.1 在UserCF算法中增加時間衰減函數 197 ∣7.2.2 在ItemCF算法中增加時間衰減函數 199 7.3 基於地域和熱度特征的 200 ∣7.3.1 為什麼要將地域和熱度特征放在一起 201 ∣7.3.2 解讀LARS中的地域特征
" |