了得網圖書_商戰數據挖掘你需要了解的數據科學與分析思維

作者:(美)福斯特·普羅沃斯特(Foster Provost),(美)湯姆·福西特(Tom Fawcett) 著郭鵬程,管晨譯

定價:89

出版社:人民郵電出版社

出版日期:2019年12月01日

頁數:278

裝幀:平裝

ISBN:9787115522337

●贊譽xiii

前言xv

第1章緒論：數據分析式思維1

1.1數據機遇無處不在1

1.2案例：颶風Frances2

1.3案例：預測用戶流失3

1.4數據科學、數據工程和數據驅動型決策4

1.5數據處理和“大數據”6

1.6從大數據1.0到大數據2.06

1.7數據與數據科學能力：一種戰略性資產7

1.8數據分析式思維9

1.9關於本書10

1.10重新審視數據挖掘和數據科學11

1.11數據科學：一門新興的實驗性學科12

1.12小結12

第2章商業問題及其數據科學解決方案14

2.1從商業問題到數據挖掘任務14

2.2有監督方法與無監督方法17

2.3數據挖掘及其結果18

2.4數據挖掘流程19

2.4.1業務理解環節20

2.4.2數據理解環節21

2.4.3數據準備環節22

2.4.4建模環節22

2.4.5評估環節23

2.4.6部署環節24

2.5管理數據科學團隊的含義25

2.6其他分析技巧與技術26

2.6.1統計26

2.6.2數據庫查詢27

2.6.3數據倉庫28

2.6.4回歸分析28

2.6.5機器學習與數據挖掘28

2.6.6運用以上技術解決商業問題29

2.7小結30

第3章預測建模導論：從相關性到有監督的劃分31

3.1建模、歸納與預測32

3.2有監督的劃分35

3.2.1選取富信息屬性36

3.2.2示例：基於信息增益進行屬性選擇42

3.2.3使用樹形結構模型進行有監督的劃分46

3.3劃分的可視化52

3.4把樹視作規則組53

3.5概率估計54

3.6示例：用樹型歸納解決用戶流失問題56

3.7小結59

第4章用模型擬合數據61

4.1根據數學函數分類62

4.1.1線性判別函數64

4.1.2目標函數的很優化66

4.1.3示例：基於數據挖掘線性判別式67

4.1.4用線性判別函數對實例進行評分和排序68

4.1.5支持向量機簡介69

4.2通過數學函數進行回歸71

4.3類概率估計和邏輯“回歸”73

4.4示例：對比邏輯回歸和樹型歸納77

4.5非線性方程、支持向量機和神經網絡81

4.6小結83

第5章避免過擬合84

5.1泛化能力84

5.2過擬合85

5.3過擬合檢驗86

5.3.1保留數據和擬合圖86

5.3.2樹型歸納的過擬合問題88

5.3.3數值函數的過擬合問題89

5.4示例：線性函數的過擬合90

5.5*示例：過擬合為何有害95

5.6從保留評估到交叉驗證96

5.7用戶流失數據集回顧99

5.8學習曲線100

5.9避免過擬合與控制復雜度101

5.9.1樹型歸納中的過擬合規避102

5.9.2避免過擬合的一般方法102

5.9.3*參數優化中的過擬合規避104

5.10小結106

第6章相似性、近鄰和簇107

6.1相似性和距離108

6.2最近鄰推理109

6.2.1示例：威士忌分析110

6.2.2用最近鄰來進行預測建模111

6.2.3近鄰的數量及其影響113

6.2.4幾何解釋、過擬合和復雜度控制115

6.2.5最近鄰方法的問題118

6.3與相似性和最近鄰相關的一些重要技術細節119

6.3.1混合屬性119

6.3.2*其他距離函數120

6.3.3*組合函數：計算近鄰的評分122

6.4聚類124

6.4.1示例：威士忌分析回顧124

6.4.2層次聚類125

6.4.3最近鄰回顧：根據形心的聚類128

6.4.4示例：對商業新聞報道進行聚類132

6.4.5理解聚類結果135

6.4.6*用有監督學習產生簇描述136

6.5退一步：解決業務問題與數據探索139

6.6小結140

第7章決策分析思維（一）：如何評估一個模型142

7.1對分類器的評估143

7.1.1簡單準確率的問題143

7.1.2混淆矩陣144

7.1.3樣本類別不均衡的問題144

7.1.4成本收益不均衡的問題147

7.2分類問題的推廣147

7.3一個重要的分析框架：期望值148

7.3.1用期望值規範分類器的使用148

7.3.2用期望值規範分類器的評估149

7.4評估、基線性能以及對數據投資的意義155

7.5小結157

第8章模型性能的可視化159

8.1排序，而不是分類159

8.2利潤曲線161

8.3ROC圖像和曲線163

8.4ROC曲線下面積168

8.5累積響應曲線和提升曲線168

8.6示例：用戶流失模型的性能分析171

8.7小結177

第9章證據和概率179

9.1示例：向線上目標用戶投放廣告179

9.2根據概率合並證據181

9.2.1聯合概率與獨立性181

9.2.2貝葉斯法則182

9.3將貝葉斯法則應用到數據科學中183

9.3.1條件獨立和樸素貝葉斯184

9.3.2樸素貝葉斯的優劣勢186

9.4證據“提升度”的模型187

9.5示例：Facebook“”的證據提升度188

9.6小結190

第10章文本的表示和挖掘191

10.1為什麼文本很重要192

10.2為什麼文本很難處理192

10.3表示法193

10.3.1詞袋模型193

10.3.2詞頻193

10.3.3度量稀疏度：逆文檔頻率195

10.3.4TFIDF196

10.4示例：爵士音樂家197

10.5*IDF和熵的關繫200

10.6詞袋模型之外的方法202

10.6.1n-grams序列202

10.6.2命名實體提取202

10.6.3主題模型203

10.7示例：通過挖掘新聞報道預測股價變動204

10.7.1任務204

10.7.2數據205

10.7.3數據處理207

10.7.4結果208

10.8小結211

第11章決策分析思維（二）：面向分析工程212

11.1為慈善機構尋找很好捐贈人213

11.1.1期望值框架：分解商業問題，重組解決方案213

11.1.2簡短的題外話：選擇性偏差214

11.2更復雜的用戶流失示例回顧215

11.2.1期望值框架：構建更復雜的商業問題215

11.2.2評估激勵的影響216

11.2.3從期望值分解到數據科學解決方案217

11.3小結219

第12章其他數據科學任務與技術220

12.1共現和關聯：尋找匹配項221

12.1.1度量意外：提升度和杠杆率221

12.1.2示例：啤酒和彩票222

12.1.3Facebook的關聯223

12.2用戶畫像：尋找典型行為225

12.3鏈路預測和社交推薦229

12.4數據約簡、潛在信息和電影推薦230

12.5偏差、方差和集成方法233

12.6數據驅動的因果解釋和一個病毒式營銷示例235

12.7小結236

第13章數據科學和經營戰略237

13.1數據分析式思維，終極版237

13.2用數據科學取得競爭優勢238

13.3用數據科學保持競爭優勢239

13.3.1令人敬畏的歷史優勢240

13.3.2獨一無二的知識產權240

13.3.3獨一無二的無形抵押資產240

13.3.4優秀的數據科學家241

13.3.5優秀的數據科學管理242

13.4吸引和培養數據科學家及其團隊243

13.5檢驗數據科學案例分析244

13.6做好準備，接受來源各異的創意245

13.7做好準備，評估數據科學項目提案245

13.7.1數據挖掘提案示例246

13.7.2BigRed提案中的缺陷246

13.8企業的數據科學成熟度247

第14章總結250

14.1數據科學的基本概念250

14.1.1將基本概念應用於新問題：挖掘移動設備數據252

14.1.2改變對商業問題解決方案的思考方式253

14.2數據做不到的：圈中人回顧254

14.3隱私、道德和挖掘個人數據256

14.4數據科學是否還有更多內容257

14.5最後一例：從眾包到雲包257

14.6最後的話258

附錄A提案評估指南259

附錄B另一個提案示例262

參考文獻265

術語表273

關於作者278

數據挖掘是現代企業從數據中提取有用信息、獲取競爭優勢的重要方法。針對數據科學的這一商業應用，本書進行了深入解讀，不僅詳細介紹了數據挖掘的環節、常用分析技術和基本模型，還提供了數據科學解決方案的提案示例和評估指南。同時，為了便於讀者理解，本書不僅分析了大量商業示例，在業務情景下闡釋數據挖掘的基本概念和原理，還使用大量圖表輔助解釋數學細節。因此，讀者無需專業數學背景即可閱讀本書。

商品搜索

商品分类

【醫學】

【各大出版社】