了得網圖書_現代數據科學(R語言·第2版) 圖書

作者:(美)本傑明·S.鮑默,(美)丹尼爾·T.卡普蘭,(美)尼古拉斯·J.霍頓著張小明,郭華,張騫允譯

定價:128

出版社:清華大學出版社

出版日期:2022年03月01日

頁數:552

裝幀:平裝

ISBN:9787302598794

"《現代數據科學(R語言●第2版)》是面向本科生的綜合性數據科學教材，通過結合使用統計和計算方式來解決現實中的數據問題。本書不僅專注於案例或編程語法，還講述如何利用近期新R/RStudio計算環境中的統計編程，從各種數據中提取有意義的信息，進而解決重大問題。"

●第Ⅰ部分數據科學簡介
第1章序言：為什麼有數據科學？ 2
1.1 數據科學是什麼 3
1.2 案例學習：棒球資料統計分析的演變 5
1.3 數據集 6
1.4 擴展資源 7
第2章數據可視化 8
2.1 2012年聯邦大選周期 8
2.1.1 這兩組數據有區別嗎？ 10
2.1.2 圖形變化 11
2.1.3 檢查變量之間的關繫 12
2.1.4 網絡 14
2.2 組成數據圖形 15
2.2.1 數據圖形分類 15
2.2.2 顏色 17
2.2.3 剖析數據圖形 19
2.3 數據圖形的重要性：挑戰者號 21
2.4 創建有效的演示 25
2.5 更廣闊的數據可視化世界 25
2.6 擴展資源 27
2.7 練習題 28
2.8 附加練習 29
第3章圖形語法 30
3.1 數據圖形語法 30
3.1.1 畫面 31
3.1.2 刻度 33
3.1.3 指南 35
3.1.4 方面 35
3.1.5 層次 36
3.2 R中的規範數據圖形 38
3.2.1 單變量顯示 38
3.2.顯示 40
3.2.3 地圖 46
3.2.4 網絡 46
3.3 擴展示例：歷史嬰兒名字 47
3.3.1 至今仍活著的人口的百分比 48
3.3.2 最普通的女性名字 53
3.4 擴展資源 56
3.5 練習題 56
3.6 附加練習 58
第4章在一張表中整理數據 59
4.1 數據整理語法 59
4.1.1 select()和filter() 59
4.1.2 mutate()和rename() 62
4.1.3 arrange() 64
4.1.4 用group_by()進行summarize() 66
4.2 擴展示例：Ben在大都會隊(Mets)的時間 67
4.3 擴展資源 75
4.4 練習題 76
4.5 附加練習 79
第5章多張表的數據整理 80
5.1 inner_join() 80
5.2 left_join() 82
5.3 擴展示例：Manny Ramirez 83
5.4 擴展資源 90
5.5 練習題 90
5.6 附加練習 92
第6章數據規整 93
6.1 規整數據 93
6.1.1 動機 93
6.1.2 規整的數據是什麼 95
6.2 重塑數據 101
6.2.1 用於從寬到窄以及從窄到寬轉換的數據動詞 103
6.2.2 pivot_wider()函數 103
6.2.3 pivot_longer()函數 103
6.2.4 list-column 104
6.2.5 示例：中性姓名 108
6.3 命名約定 110
6.4 數據獲取 111
6.4.1 數據表友好的格式 111
6.4.2 API 115
6.4.3 清洗數據 115
6.4.4 示例：日本核反應堆 121
6.5 擴展資源 124
6.6 練習題 124
6.7 附加練習 127
第7章迭代 128
7.1 向量化操作 128
7.2 利用dplyr實現across() 131
7.3 map()函數族 132
7.4 在一維向量上迭代 133
7.4.1 迭代已知函數 133
7.4.2 迭代任意函數 134
7.5 在子組上迭代 135
7.5.1 示例：期望獲勝率 136
7.5.2 示例：年度領導者 138
7.6 仿真 140
7.7 擴展示例：與BMI相關的因子 142
7.8 擴展資源 145
7.9 練習題 145
7.10 附加練習 145
第8章數據科學倫理學 146
8.1 引言 146
8.2 真實的謊言 146
8.2.1 堅持你的立場 147
8.2.1 全球溫度 147
8.2.3 COVID-19報道 148
8.3 數據科學在社會中的作用 149
8.4 職業道德的一些設置 150
8.4.1 CEO 150
8.4.2 就業歧視 150
8.4.3 “Gaydar” 151
8.4.4 種族預測 151
8.4.5 數據爬取 152
8.4.6 可重復的電子表格分析 152
8.4.7 藥物危害 152
8.4.8 法律談判 153
8.5 道德行為的一些指導性原則 153
8.5.1 CEO 154
8.5.2 就業歧視 154
8.5.3 “Gaydar” 154
8.5.4 種族預測 154
8.5.5 數據爬取 155
8.5.6 可重復的電子表格分析 155
8.5.7 藥物危害 155
8.5.8 法律談判 156
8.6 算法偏差 157
8.7 數據與洩露 157
8.7.1 重新識別和洩露避免 157
8.7.2 安全的數據存儲 158
8.7.3 數據爬取和使用條款 158
8.8 再現性 159
8.9 集體的道德準則 160
8.10 職業道德行為準則 161
8.11 擴展資源 161
8.12 練習題 162
8.13 附加練習 163
第Ⅱ部分統計與建模
第9章統計基礎 166
9.1 樣本和總體 166
9.2 樣本統計 169
9.3 自舉 173
9.4 異常值 176
9.5 統計模型：方差解釋 178
9.6 混淆和解釋其他因素 181
9.7 p值的風險 184
9.8 擴展資源 186
9.9 練習題 187
9.10 附加練習 187
第10章預測建模 188
10.1 預測建模 189
10.2 簡單的分類模型 190
10.3 評價方法 197
10.3.1 權衡偏差與方差 197
10.3.2 交叉驗證 197
10.3.3 混淆矩陣和ROC曲線 198
10.3.4 定量響應的預測誤差測量 200
10.3.5 示例：收益模型評估 201
10.4 擴展示例：誰患有糖尿病？ 204
10.5 擴展資源 207
10.6 練習題 207
10.7 附加練習 208
第11章監督學習 209
11.1 非回歸分類器 209
11.1.1 決策樹 210
11.1.2 隨機森林 217
11.1.3 最近鄰 218
11.1.4 樸素貝葉斯 221
11.1.5 人工神經網絡 222
11.1.6 集成方法 224
11.2 參數調整 224
11.3 示例：收入模型redux的評價 226
11.4 擴展示例：這次誰得了糖尿病？ 230
11.5 正則化 235
11.6 擴展資源 237
11.7 練習題 238
11.8 附加練習 239
第12章無監督學習 240
12.1 聚類 240
12.1.1 層次聚類 241
12.1.2 k-means 245
12.2 降維 246
12.2.1 直覺法 248
12.2.2 奇異值分解 249
12.3 擴展資源 254
12.4 練習題 254
12.5 附加練習 255
第13章仿真 256
13.1 逆向推理 256
13.2 擴展示例：癌癥分組 257
13.3 隨機化函數 259
13.4 仿真可變性 261
13.4.1 部分計劃的會合 261
13.4.2 工作報告 262
13.4.3 餐廳健康衛生等級 264
13.5 隨機網絡 267
13.6 仿真關鍵原則 267
13.6.1 設計 267
13.6.2 模塊化 267
13.6.3 再現性和隨機數種子 267
13.7 擴展資源 270
13.8 練習題 270
13.9 附加練習 271
第Ⅲ部分數據科學專題
第14章動態定制數據圖形 274
14.1 使用D3.js和htmlwidgets豐富Web內容 274
14.1.1 Leaflet 275
14.1.2 Plot.ly 275
14.1.3 DataTables 276
14.1.4 dygraphs 277
14.1.5 streamgraphs 277
14.2 動畫 278
14.3 flexdashboard 279
14.4 基於Shiny的交互式Web 應用程序 281
14.4.1 示例：披頭士名字的交互展示 281
14.4.2 反應式編程的更多知識 282
14.5 ggplot2圖形的定制 285
14.6 擴展示例：喫熱狗 289
14.7 擴展資源 294
14.8 練習題 294
14.9 附加練習 295
第15章使用SQL查詢數據庫 296
15.1 從dplyr 到SQL 296
15.2 平面文件數據庫 300
15.3 SQL 302
15.4 SQL數據操作語言 303
15.4.1 SELECT...FROM 305
15.4.2 WHERE 307
15.4.3 GROUP BY 310
15.4.4 ORDER BY 312
15.4.5 HAVING 313
15.4.6 LIMIT 315
15.4.7 JOIN 316
15.4.8 UNION 321
15.4.9 子查詢 321
15.5 擴展示例：FiveThirtyEight航班 323
15.6 SQL與R 331
15.7 擴展資源 331
15.8 練習題 331
15.9 附加練習 333
第16章數據庫管理 334
16.1 構建高效的SQL數據庫 334
16.1.1 創建新的數據庫 334
16.1.2 創建表 335
16.1.3 鍵 336
16.1.4 索引 337
16.1.5 查詢計劃 338
16.1.6 分區 340
16.2 更改SQL數據 340
16.2.1 更改數據 341
16.2.2 增加數據 341
16.2.3 從文件導入數據 342
16.3 擴展示例：創建數據庫 342
16.3.1 抽取 342
16.3.2 轉換 342
16.3.3 載入MySQL數據庫 343
16.4 可擴展性 346
16.5 擴展資源 346
16.6 練習題 346
16.7 附加練習 347
第17章使用地理空間數據 348
17.1 動機：地理空間數據有什麼了不起的？ 348
17.2 空間數據結構 351
17.3 制作地圖 353
17.3.1 靜態地圖 353
17.3.2 投影 354
17.3.3 基於leaflet的動態地圖 360
17.4 擴展示例：國會選區 362
17.4.1 選舉結果 362
17.4.2 國會選區 365
17.4.3 整合所有數據 367
17.4.4 使用ggplot2 368
17.4.5 使用leaflet 369
17.5 有效的地圖：如何避免撒謊 370
17.6 投影多邊形 371
17.7 有效利用其他技術 373
17.8 擴展資源 374
17.9 練習題 374
17.10 附加練習 374
第18章地理空間計算 375
18.1 地理空間操作 375
18.1.1 地理編碼、路線和距離 375
18.1.2 幾何運算 378
18.2 地理空間聚合 384
18.3 地理空間聯接 386
18.4 拓展示例：MacLeish中的路徑海撥 387
18.5 擴展資源 391
18.6 練習題 391
18.7 附加練習 392
第19章文本數據 393
19.1 使用Macbeth的正則表達式 393
19.1.1 解析蘇格蘭戲劇文本 393
19.1.2 Macbeth中的生與死 397
19.2 擴展示例：分析ar v.org的文本數據 399
19.2.1 語料庫 402
19.2.2 詞雲 404
19.2.3 情感分析 405
19.2.4 bigrams和N-grams 407
19.2.5 文檔詞項矩陣 408
19.3 獲取文本 412
19.4 擴展資源 415
19.5 練習題 416
19.6 附加練習 418
第20章網絡科學 419
20.1 網絡科學引言 419
20.1.1 定義 419
20.1.2 網絡科學簡史 420
20.2 擴展示例：Kristen Stewart的六度空間理論 424
20.2.1 收集好萊塢數據 424
20.2.2 構建好萊塢網絡 427
20.2.3 建立Kristen Stewart預言 430
20.3 PageRank 433
20.4 擴展示例：1996年男子大學籃球賽 435
20.5 擴展資源 442
20.6 練習題 442
20.7 附加練習 443
第21章結束語：走向“大數據” 444
21.1 大數據的一些概念 444
21.2 更大數據的工具 446
21.2.1 大數據的數據和內存結構 446
21.2.2 編譯 447
21.2.3 並行和分布式計算 447
21.2.4 SQL的替代方案 454
21.3 R的替代方案 455
21.4 結束語 456
21.5 擴展資源 456
第Ⅳ部分附錄
附錄A 本書使用的包 458
附錄B R和RStudio簡介 465
附錄C 算法思維 483
附錄D 可再現性分析和工作流程 495
附錄E 回歸建模 504
附錄F 安裝數據庫服務器 524

《現代數據科學（R語言·第2版）》是面向本科生的綜合性數據科學教材，通過結合使用統計和計算方式來解決現實中的數據問題。本書不僅專注於案例或編程語法，還講述如何利用近期新R/RStudio計算環境中的統計編程，從各種數據中提取有意義的信息，進而解決重大問題。本書對上一版做了全面更新，與日益強大的tidyverse套包保持同步，納入sf、purrr、tidymodels和tidytext等包中的新功能。代碼的內容和格式都經過修改，以方便閱讀和理解。部分章節被拆分、重新組織和重新構思，以適應不斷變化的實踐環境。

(美)本傑明·S.鮑默,(美)丹尼爾·T.卡普蘭,(美)尼古拉斯·J.霍頓著張小明,郭華,張騫允譯

"Benjamin S. Baumer是美國史密斯學院統計與數據科學專業的副教授。Benjamin 於2004年成為紐約大都會隊第一位全職統計分析師，此後一直擔任應用數據科學家。Benjamin曾榮獲美國棒球研究學會頒發的2019年Waller教育獎和2016年突出貢獻者獎，參與撰寫了TheSabermetric Revolution-書。Daniel T. Kaplan是美國瑪卡萊斯特學院數學和計算機科學繫的名譽教授，是多本統計建模和統計計算教科書的作者。Daniel獲得2006年瑪卡萊斯特學院很好教學獎和2017年終身成就獎。Nicho等

商品搜索

商品分类

【醫學】

【各大出版社】