出版社:人民郵電出版社 ISBN:9787115522337 商品編碼:64942912741 品牌:文軒 出版時間:2019-12-01 代碼:89 作者:福斯特·普羅沃斯特(FosterProvos
" 作 者:(美)福斯特·普羅沃斯特(Foster Provost),(美)湯姆·福西特(Tom Fawcett) 著 郭鵬程,管晨 譯 定 價:89 出 版 社:人民郵電出版社 出版日期:2019年12月01日 頁 數:278 裝 幀:平裝 ISBN:9787115522337 ●贊譽xiii
前言xv
第1章緒論:數據分析式思維1
1.1數據機遇無處不在1
1.2案例:颶風Frances2
1.3案例:預測用戶流失3
1.4數據科學、數據工程和數據驅動型決策4
1.5數據處理和“大數據”6
1.6從大數據1.0到大數據2.06
1.7數據與數據科學能力:一種戰略性資產7
1.8數據分析式思維9
1.9關於本書10
1.10重新審視數據挖掘和數據科學11
1.11數據科學:一門新興的實驗性學科12
1.12小結12
第2章商業問題及其數據科學解決方案14
2.1從商業問題到數據挖掘任務14
2.2有監督方法與無監督方法17
2.3數據挖掘及其結果18
2.4數據挖掘流程19
2.4.1業務理解環節20
2.4.2數據理解環節21
2.4.3數據準備環節22
2.4.4建模環節22
2.4.5評估環節23
2.4.6部署環節24
2.5管理數據科學團隊的含義25
2.6其他分析技巧與技術26
2.6.1統計26
2.6.2數據庫查詢27
2.6.3數據倉庫28
2.6.4回歸分析28
2.6.5機器學習與數據挖掘28
2.6.6運用以上技術解決商業問題29
2.7小結30
第3章預測建模導論:從相關性到有監督的劃分31
3.1建模、歸納與預測32
3.2有監督的劃分35
3.2.1選取富信息屬性36
3.2.2示例:基於信息增益進行屬性選擇42
3.2.3使用樹形結構模型進行有監督的劃分46
3.3劃分的可視化52
3.4把樹視作規則組53
3.5概率估計54
3.6示例:用樹型歸納解決用戶流失問題56
3.7小結59
第4章用模型擬合數據61
4.1根據數學函數分類62
4.1.1線性判別函數64
4.1.2目標函數的很優化66
4.1.3示例:基於數據挖掘線性判別式67
4.1.4用線性判別函數對實例進行評分和排序68
4.1.5支持向量機簡介69
4.2通過數學函數進行回歸71
4.3類概率估計和邏輯“回歸”73
4.4示例:對比邏輯回歸和樹型歸納77
4.5非線性方程、支持向量機和神經網絡81
4.6小結83
第5章避免過擬合84
5.1泛化能力84
5.2過擬合85
5.3過擬合檢驗86
5.3.1保留數據和擬合圖86
5.3.2樹型歸納的過擬合問題88
5.3.3數值函數的過擬合問題89
5.4示例:線性函數的過擬合90
5.5*示例:過擬合為何有害95
5.6從保留評估到交叉驗證96
5.7用戶流失數據集回顧99
5.8學習曲線100
5.9避免過擬合與控制復雜度101
5.9.1樹型歸納中的過擬合規避102
5.9.2避免過擬合的一般方法102
5.9.3*參數優化中的過擬合規避104
5.10小結106
第6章相似性、近鄰和簇107
6.1相似性和距離108
6.2最近鄰推理109
6.2.1示例:威士忌分析110
6.2.2用最近鄰來進行預測建模111
6.2.3近鄰的數量及其影響113
6.2.4幾何解釋、過擬合和復雜度控制115
6.2.5最近鄰方法的問題118
6.3與相似性和最近鄰相關的一些重要技術細節119
6.3.1混合屬性119
6.3.2*其他距離函數120
6.3.3*組合函數:計算近鄰的評分122
6.4聚類124
6.4.1示例:威士忌分析回顧124
6.4.2層次聚類125
6.4.3最近鄰回顧:根據形心的聚類128
6.4.4示例:對商業新聞報道進行聚類132
6.4.5理解聚類結果135
6.4.6*用有監督學習產生簇描述136
6.5退一步:解決業務問題與數據探索139
6.6小結140
第7章決策分析思維(一):如何評估一個模型142
7.1對分類器的評估143
7.1.1簡單準確率的問題143
7.1.2混淆矩陣144
7.1.3樣本類別不均衡的問題144
7.1.4成本收益不均衡的問題147
7.2分類問題的推廣147
7.3一個重要的分析框架:期望值148
7.3.1用期望值規範分類器的使用148
7.3.2用期望值規範分類器的評估149
7.4評估、基線性能以及對數據投資的意義155
7.5小結157
第8章模型性能的可視化159
8.1排序,而不是分類159
8.2利潤曲線161
8.3ROC圖像和曲線163
8.4ROC曲線下面積168
8.5累積響應曲線和提升曲線168
8.6示例:用戶流失模型的性能分析171
8.7小結177
第9章證據和概率179
9.1示例:向線上目標用戶投放廣告179
9.2根據概率合並證據181
9.2.1聯合概率與獨立性181
9.2.2貝葉斯法則182
9.3將貝葉斯法則應用到數據科學中183
9.3.1條件獨立和樸素貝葉斯184
9.3.2樸素貝葉斯的優劣勢186
9.4證據“提升度”的模型187
9.5示例:Facebook“”的證據提升度188
9.6小結190
第10章文本的表示和挖掘191
10.1為什麼文本很重要192
10.2為什麼文本很難處理192
10.3表示法193
10.3.1詞袋模型193
10.3.2詞頻193
10.3.3度量稀疏度:逆文檔頻率195
10.3.4TFIDF196
10.4示例:爵士音樂家197
10.5*IDF和熵的關繫200
10.6詞袋模型之外的方法202
10.6.1n-grams序列202
10.6.2命名實體提取202
10.6.3主題模型203
10.7示例:通過挖掘新聞報道預測股價變動204
10.7.1任務204
10.7.2數據205
10.7.3數據處理207
10.7.4結果208
10.8小結211
第11章決策分析思維(二):面向分析工程212
11.1為慈善機構尋找很好捐贈人213
11.1.1期望值框架:分解商業問題,重組解決方案213
11.1.2簡短的題外話:選擇性偏差214
11.2更復雜的用戶流失示例回顧215
11.2.1期望值框架:構建更復雜的商業問題215
11.2.2評估激勵的影響216
11.2.3從期望值分解到數據科學解決方案217
11.3小結219
第12章其他數據科學任務與技術220
12.1共現和關聯:尋找匹配項221
12.1.1度量意外:提升度和杠杆率221
12.1.2示例:啤酒和彩票222
12.1.3Facebook的關聯223
12.2用戶畫像:尋找典型行為225
12.3鏈路預測和社交推薦229
12.4數據約簡、潛在信息和電影推薦230
12.5偏差、方差和集成方法233
12.6數據驅動的因果解釋和一個病毒式營銷示例235
12.7小結236
第13章數據科學和經營戰略237
13.1數據分析式思維,終極版237
13.2用數據科學取得競爭優勢238
13.3用數據科學保持競爭優勢239
13.3.1令人敬畏的歷史優勢240
13.3.2獨一無二的知識產權240
13.3.3獨一無二的無形抵押資產240
13.3.4優秀的數據科學家241
13.3.5優秀的數據科學管理242
13.4吸引和培養數據科學家及其團隊243
13.5檢驗數據科學案例分析244
13.6做好準備,接受來源各異的創意245
13.7做好準備,評估數據科學項目提案245
13.7.1數據挖掘提案示例246
13.7.2BigRed提案中的缺陷246
13.8企業的數據科學成熟度247
第14章總結250
14.1數據科學的基本概念250
14.1.1將基本概念應用於新問題:挖掘移動設備數據252
14.1.2改變對商業問題解決方案的思考方式253
14.2數據做不到的:圈中人回顧254
14.3隱私、道德和挖掘個人數據256
14.4數據科學是否還有更多內容257
14.5最後一例:從眾包到雲包257
14.6最後的話258
附錄A提案評估指南259
附錄B另一個提案示例262
參考文獻265
術語表273
關於作者278 數據挖掘是現代企業從數據中提取有用信息、獲取競爭優勢的重要方法。針對數據科學的這一商業應用,本書進行了深入解讀,不僅詳細介紹了數據挖掘的環節、常用分析技術和基本模型,還提供了數據科學解決方案的提案示例和評估指南。同時,為了便於讀者理解,本書不僅分析了大量商業示例,在業務情景下闡釋數據挖掘的基本概念和原理,還使用大量圖表輔助解釋數學細節。因此,讀者無需專業數學背景即可閱讀本書。
" |