R語言數據分析項目開發實戰
作 者: (印)戈皮·薩博拉曼尼(Gopi Subramanian) 著 楊崇珉 譯
定 價: 109
出?版?社: 清華大學出版社
出版日期: 2019年09月01日
頁 數: 307
裝 幀: 平裝
ISBN: 9787302533641
●章 關聯規則挖掘 1
1.1 理解推薦繫統 2
1.1.1 事務 2
1.1.2 加權事務 3
1.1.3 Web應用程序 3
1.2 零售商用例和數據 4
1.3 關聯規則挖掘 6
1.4 關聯銷售營銷活動 22
1.4.1 杠杆效應 25
1.4.2 確信度 26
1.5 加權關聯規則挖掘 27
1.6 基於超鏈接的主題搜索(HITS) 34
1.7 負關聯規則 41
1.8 規則的可視化 45
1.9 封裝 49
1.10 本章小結 56
第2章 基於內容的模糊邏輯推薦繫統 57
2.1 基於內容的推薦繫統 58
2.2 新聞聚合器用例和數據 62
2.3 設計基於內容的推薦引擎 67
2.3.1 構建相似度索引 69
2.3.2 搜索機制 75
2.4 完整的R代碼 94
2.5 本章小結 101
第3章 協同過濾機制 102
3.1 協同過濾 102
3.1.1 基於內存的方案 104
3.1.2 基於模型的方案 104
3.1.3 隱因子模型方案 106
3.2 recommenderlab數據包 107
3.3 用例和數據 111
3.4 設計並實現協同過濾機制 120
3.4.1 評級矩陣 120
3.4.2 標準化 121
3.4.3 隨機劃分訓練集和測試集 123
3.4.4 訓練模型 125
3.5 完整的R代碼 136
3.6 本章小結 142
第4章 基於深度神經網絡的時序數據 143
4.1 時序數據 144
4.1.1 非季節性時序 145
4.1.2 季節性時序 146
4.1.3 回歸問題 147
4.2 深度神經網絡 150
4.2.1 前向循環 152
4.2.2 反向循環 153
4.3 MXNet數據包 153
4.4 MXNet中的符號編程 155
4.4.1 softmax激活函數 159
4.4.2 用例和數據 162
4.4.3 基於時序預測的深度網絡 163
4.5 訓練-測試集劃分 165
4.6 完整的R代碼 177
4.7 本章小結 185
第5章 Twitter文本情感分類 186
5.1 核密度估計 187
5.2 Twitter文本 191
5.3 情感分類 192
5.3.1 字典方法 192
5.3.2 機器學習方法 193
5.3.3 當前方案 193
5.4 基於字典的評級機制 194
5.5 文本預處理 197
5.5.1 詞頻逆文檔頻率(TFIDF)方案 199
5.5.2 Delta TDIDF 200
5.6 構建情感分析分類器 202
5.7 整合RShiny應用程序 206
5.8 完整的R代碼 210
5.9 本章小結 215
第6章 記錄鏈接—隨機和機器學習方案 216
6.1 用例 216
6.2 使用RecordLinkage 217
6.2.1 特征生成 218
6.2.2 字符串比較 221
6.2.3 語音特征 222
6.3 隨機記錄鏈接 223
6.3.1 期望優選化方法 223
6.3.2 基於權重的方法 229
6.4 基於機器學習的記錄鏈接 232
6.4.1 無監督學習 233
6.4.2 監督學習 234
6.5 構建RShiny應用程序 239
6.6 完整的R代碼 242
6.6.1 特征生成 242
6.6.2 期望優選化方法 244
6.6.3 基於權重的方法 245
6.6.4 機器學習方法 246
6.6.5 RShiny應用程序 247
6.7 本章小結 249
第7章 流式數據聚類分析 250
7.1 流式數據及其面臨的挑戰 250
7.1.1 邊界問題 251
7.1.2 漂移問題 251
7.1.3 單路處理 252
7.1.4 實行性 252
7.2 流式聚類 252
7.3 流數據包 253
7.3.1 數據流數據 253
7.3.2 作為靜態模擬器的DSD 254
7.3.3 連接至內存、文件或數據庫的DSD 259
7.3.4 in-flight操作 261
7.3.5 將DSD連接至真實的數據流 261
7.3.6 數據流任務 261
7.4 用例和數據 266
7.4.1 速度層 267
7.4.2 批處理層 267
7.4.3 蓄水池采樣 270
7.5 完整的R代碼 272
7.6 本章小結 274
第8章 分析並理解網絡 276
8.1 R語言中的圖 277
8.1.1 頂點的度 280
8.1.2 頂點強度 280
8.1.3 鄰接矩陣 280
8.1.4 R中的更多網絡 281
8.1.5 頂點的中心度 282
8.1.6 節點的遠度和近度 282
8.1.7 計算節點間的最短路徑 283
8.1.8 圖的隨機遍歷 283
8.2 用例和數據 283
8.3 數據準備 285
8.4 商品網絡分析 289
8.5 編寫RShiny應用程序 296
8.6 完整的R代碼 302
8.7 本章小結 307
內容簡介
本書詳細闡述了與數據分析相關的基本解決方案,主要包括關聯規則挖掘、基於內容的模糊邏輯推薦繫統、協同過濾機制、基於深度神經網絡的時序數據、Twitter文本情感分類、記錄鏈接—隨機和機器學習方案、流式數據聚類分析、分析並理解網絡等內容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關方案的實現過程。
本書既可作為高等院校計算機及相關專業的教材和教學參考書,也可作為相關開發人員的自學教材和參考手冊。