了得網圖書_精通數據科學從線性回歸到深度學習

作者:唐亙著著作

定價:99

出版社:人民郵電出版社

出版日期:2018年06月01日

頁數:411

裝幀:平裝

ISBN:9787115479105

●第1章數據科學概述1
1.1挑戰2
1.1.1工程實現的挑戰2
1.1.2模型搭建的挑戰3
1.2機器學習5
1.2.1機器學習與傳統編程5
1.2.2監督式學習和非監督式學習8
1.3統計模型8
1.4關於本書10
第2章Python安裝指南與簡介：告別空談12
2.1Python簡介13
2.1.1什麼是Python15
2.1.2Python在數據科學中的地位16
2.1.3不可能繞過的第三方庫17
2.2Python安裝17
2.2.1Windows下的安裝18
2.2.2Mac下的安裝21
2.2.3Linux下的安裝24
2.3Python上手實踐26
2.3.1Pythonshell26
2.3.2第一個Python程序：WordCount28
2.3.3Python編程基礎30
2.3.4Python的工程結構34
2.4本章小結35
第3章數學基礎：惱人但又不可或缺的知識36
3.1矩陣和向量空間37
3.1.1標量、向量與矩陣37
3.1.2特殊矩陣39
3.1.3矩陣運算39
3.1.4代碼實現42
3.1.5向量空間44
3.2概率：量化隨機46
3.2.1定義概率：事件和概率空間47
3.2.2條件概率：信息的價值48
3.2.3隨機變量：兩種不同的隨機50
3.2.4正態分布：殊途同歸52
3.2.5P-value：自信的猜測53
3.3微積分55
3.3.1導數和積分：位置、速度55
3.3.2極限：變化的終點57
3.3.3復合函數：鏈式法則58
3.3函數：偏導數59
3.3.5極值與最值：很優選擇59
3.4本章小結61
第4章線性回歸：模型之母62
4.1一個簡單的例子64
4.1.1從機器學習的角度看這個問題66
4.1.2從統計學的角度看這個問題69
4.2上手實踐：模型實現73
4.2.1機器學習代碼實現74
4.2.2統計方法代碼實現77
4.3模型陷阱82
4.3.1過度擬合：模型越復雜越好嗎84
4.3.2模型幻覺之統計學方案：假設檢驗87
4.3.3模型幻覺之機器學習方案：懲罰項89
4.3.4比較兩種方案92
4.4模型持久化92
4.4.1模型的生命周期93
4.4.2保存模型93
4.5本章小結96
第5章邏輯回歸：隱藏因子97
5分類問題：是與否98
5.1.1線性回歸：為何失效98
5.1.2窗口效應：看不見的纔是關鍵100
5.1.3邏輯分布：勝者生存102
5.1.4參數估計之似然函數：統計學角度104
5.1.5參數估計之損失函數：機器學習角度104
5.1.6參數估計之最終預測：從概率到選擇106
5.1.7空間變換：非線性到線性106
5.2上手實踐：模型實現108
5.2.1初步分析數據：直觀印像108
5.2.2搭建模型113
5.2.3理解模型結果116
5.3評估模型效果：孰優孰劣118
5.3.1查準率與查全率119
5.3.2ROC曲線與AUC123
5分類問題：超越是與否127
5.4邏輯回歸：邏輯分布的威力128
5.4.2One-vs.-al129
5.4.3模型實現130
5.5非均衡數據集132
5.5.1準確度悖論132
5.5.2一個例子133
5.5.3解決方法135
5.6本章小結136
第6章工程實現：計算機是怎麼算的138
6.1算法思路：模擬滾動139
6.2數值求解：梯度下降法141
6.3上手實踐：代碼實現142
6.3.1TensorFlow基礎143
6.3.2定義模型148
6.3.3梯度下降149
6.3.4分析運行細節150
6.4更優化的算法：隨機梯度下降法153
6.4.1算法細節153
6.4.2代碼實現154
6.4.3兩種算法比較156
6.5本章小結158
第7章計量經濟學的啟示：他山之石159
7.1定量與定性：變量的數學運算合理嗎161
7.2定性變量的處理162
7.2.1虛擬變量162
7.2.2上手實踐：代碼實現164
7.2.3從定性變量到定量變量168
7.3定量變量的處理170
7.3.1定量變量轉換為定性變量171
7.3.2上手實踐：代碼實現171
7.3.3基於卡方檢驗的方法173
7.4顯著性175
7.5多重共線性：多變量的煩惱176
7.5.1多重共線性效應176
7.5.2檢測多重共線性180
7.5.3解決方法185
7.5.4虛擬變量陷阱188
7.6內生性：變化來自何處191
7.6.1來源192
7.6.2內生性效應193
7.6.3工具變量195
7.6.4邏輯回歸的內生性198
7.6.5模型的聯結200
7.7本章小結201
第8章監督式學習：目標明確202
8.1支持向量學習機203
8.1.1直觀例子204
8.1.2用數學理解直觀205
8.1.3從幾何直觀到很優化問題207
8.1.4損失項209
8.1.5損失函數與懲罰項210
8.1.6Hardmargin與softmargin比較211
8.1.7支持向量學習機與邏輯回歸：隱藏的假設213
8.2核函數216
8.2.1空間變換：從非線性到線性216
8.2.2拉格朗日對偶218
8.2.3支持向量220
8.2.4核函數的定義：優化運算221
8.2.5常用的核函數222
8.2.6Scalevariant225
8.3決策樹227
8.3.1決策規則227
8.3.2評判標準229
8.3.3代碼實現231
8.3.4決策樹預測算法以及模型的聯結231
8.3.5剪枝235
8.4樹的集成238
8.4.1隨機森林238
8.4.2Randomforestembedding239
8.4.3GBTs之梯度提升241
8.4.4GBTs之算法細節242
8.5本章小結244
第9章生成式模型：量化信息的價值246
9.1貝葉斯框架248
9.1.1蒙提霍爾問題248
9.1.2條件概率249
9.1.3先驗概率與後驗概率251
9.1.4參數估計與預測公式251
9.1.5貝葉斯學派與頻率學派252
9.2樸素貝葉斯254
9.2.1特征提取：文字到數字254
9.2.2伯努利模型256
9.2.3多項式模型258
9.2.4TF-IDF259
9.2.5文本分類的代碼實現260
9.2.6模型的聯結265
9.3判別分析266
9.3.1線性判別分析267
9.3.2線性判別分析與邏輯回歸比較269
9.3.3數據降維270
9.3.4代碼實現273
9.3.5二次判別分析275
9.4隱馬爾可夫模型276
9.4.1一個簡單的例子276
9.4.2馬爾可夫鏈278
9.4.3模型架構279
9.4.4中文分詞：監督式學習280
9.4.5中文分詞之代碼實現282
9.4.6股票市場：非監督式學習284
9.4.7股票市場之代碼實現286
9.5本章小結289
第10章非監督式學習：聚類與降維290
10.1K-means292
10.1.1模型原理292
10.1.2收斂過程293
10.1.3如何選擇聚類個數295
10.1.4應用示例297
10.2其他聚類模型298
10.2.1混合高斯之模型原理299
10.2.2混合高斯之模型實現300
10.2.3譜聚類之聚類結果303
10.2.4譜聚類之模型原理304
10.2.5譜聚類之圖片分割307
10.3Pipeline308
10.4主成分分析309
10.4.1模型原理310
10.4.2模型實現312
10.4.3核函數313
10.4.4KernelPCA的數學原理315
10.4.5應用示例316
10.5奇異值分解317
10.5.1定義317
10.5.2截斷奇異值分解317
10.5.3潛在語義分析318
10.5.4大型推薦繫統320
10.6本章小結323
第11章分布式機器學習：集體力量325
11.1Spark簡介327
11.1.1Spark安裝328
11.1.2從MapReduce到Spark333
11.1.3運行Spark335
11.1.4SparkDataFrame336
11.1.5Spark的運行架構339
11.2很優化問題的分布式解法341
11.2.1分布式機器學習的原理341
11.2.2一個簡單的例子342
11.3大數據模型的兩個維度344
11.3.1數據量維度344
11.3.2模型數量維度346
11.4開源工具的另一面348
11.4.1一個簡單的例子349
11.4.2開源工具的阿喀琉斯之踵351
11.5本章小結351
第12章神經網絡：模擬人的大腦353
12.355
12.1.模型355
12.1.2Sigmo邏輯回歸356
12.1.3Softmax函邏輯回歸358
12.2神經網絡360
12.2.1圖形表示360
12.2.2數學基礎361
12.2.3分類例子363
12.2.4代碼實現365
12.2.5模型的聯結369
12.3反向傳播算法370
12.3.1隨機梯度下降法回顧370
12.3.2數學推導371
12.3.3算法步驟373
12.4提高神經網絡的學習效率373
12.4.1學習的原理373
12.4.2激活函數的改進375
12.4.3參數初始化378
12.4.4不穩定的梯度380
12.5本章小結381
第13章深度學習：繼續探索383
13.1利用神經網絡識別數字384
13.1.1搭建模型384
13.1.2防止過擬合之懲罰項386
13.1.3防止過擬合之dropout387
13.1.4代碼實現389
13.2卷積神經網絡394
13.2.1模型結構之卷積層395
13.2.2模型結構之池化層397
13.2.3模型結構之完整結構399
13.2.4代碼實現400
13.2.5結構真的那麼重要嗎405
13.3其他深度學習模型406
13.3.1遞歸神經網絡406
13.3.2長短期記憶407
13.3.3非監督式學習409
13.4本章小結411

本書全面講解了數據科學的相關知識，從統計分析學到機器學習、深度學習中用到的算法及模型，借鋻經濟學視角給出模型的相關解釋，深入探討模型的可用性，並結合大量的實際案例和代碼幫助讀者學以致用，將具體的應用場景和現有的模型相結合，從而更好地發現模型的潛在應用場景。本書可作為數據科學家和數據工程師的學習用書，也適合對數據科學有強烈興趣的初學者使用，同時也可作為高等院校計算機、數學及相關專業的師生用書和培訓學校的教材。

唐亙著著作

唐亙，數據科學家，專注於機器學習和大數據。曾獲得復旦大學的數學和計算機雙學士學位；巴黎綜合理工的金融碩士學位；法國國立統計與經濟管理學校的數據科學碩士學位。熱愛並積極參與是Apache Spark和Scikit-Learn等開源項目。作為講師和技術顧問，為多家機構（包括惠普、華為、復旦大學等）提供百餘場技術培訓。此前的工作和研究集中於經濟和量化金融，曾參與經濟合作與發展組織（OECD）的研究項目並發表論文，並擔任英國知名在線出版社Packt的技術審稿人。

商品搜索

商品分类

【醫學】

【各大出版社】

【医学】

【各大出版社】