![](/c49/99/10042581278476.jpg)
店鋪:機械工業出版社官方旗艦店 出版社:機械工業出版社 ISBN:9787111695844 商品編碼:10042581278476 品牌:機械工業出版社(CMP) 頁數:384 字數:400000 審圖號:9787111695844 作者:福賽斯,張文博
"![baecf198635367d9.jpg](https://img10.360buyimg.com/cms/jfs/t1/180445/28/6295/377762/60b0bd82E6c4ef32e/baecf198635367d9.jpg) 內容簡介 本書針對計算機科學專業的本科生,旨在揭示概率和統計的思想。全書共分為五部分,第I部分數據集的描述,涵蓋各種描述性統計量(均值、標準差、方差)、一維數據集的可視化方法,以及散點圖、相關性和二維數據集的描述;第II部分概率,內容涵蓋離散型概率、條件概率、連續型概率、Markov不等式、Chebyshev不等式及弱大數定律等;第III部分推斷,涵蓋樣本、總體、置信區間、統計顯著性、試驗設計、方差分析和簡單貝葉斯推斷等;第IV部分工具,涵蓋主成分分析、zui近鄰分類、樸素貝葉斯分類、K均值聚類、線性回歸、隱Markov模型等;第V部分零散的數學知識,彙總了一些有用的數學事實。 目錄 前言 致謝 作者簡介 符號和約定 *一部分 數據集的描述 *1章 查看數據的*一個工具 2 1.1 數據集 2 1.2 正在發生什麼?繪制數據的圖形 3 1.2.1 條形圖 5 1.2.2 直方圖 5 1.2.3 如何制作直方圖 6 1.2.4 條件直方圖 7 1.3 彙總一維數據 8 1.3.1 均值 8 1.3.2 標準差 9 1.3.3 在線計算均值和標準差 12 1.3.4 方差 13 1.3.5 中位數 13 1.3.6 四分位距 15 1.3.7 合理使用彙總數據 16 1.4 圖形和總結 16 1.4.1 直方圖的一些性質 17 1.4.2 標準坐標和正態數據 19 1.4.3 箱形圖 21 1.5 誰的更大?澳大利亞比薩調查 22 問題 26 編程練習 26 *2章 關注關繫 28 2.1 二維數據繪圖 28 2.1.1 分類數據、計數和圖表 28 2.1.2 序列 32 2.1.3 空間數據散點圖 33 2.1.4 用散點圖揭示關繫 33 2.2 相關 37 2.2.1 相關繫數 40 2.2.2 用相關性預測 43 2.2.3 相關性帶來的困惑 46 2.3 野生馬群中的不育公馬 47 問題 49 編程練習 51 *二部分 概率 第3章 概率論基礎 56 3.1 實驗、結果和概率 56 3.2 事件 57 3.2.1 通過計數結果來計算事件概率 58 3.2.2 事件概率 60 3.2.3 通過對集合的推理來計算概率 62 3.3 獨立性 64 3.4 條件概率 68 3.4.1 計算條件概率 69 3.4.2 檢測罕見事件是困難的 71 3.4.3 條件概率和各種獨立形式 73 3.4.4 警示例子:檢察官的謬論 74 3.4.5 警示例子:Monty Hall 問題 75 3.5 更多實例 77 3.5.1 結果和概率 77 3.5.2 事件 78 3.5.3 獨立性 78 3.5.4 條件概率 79 問題 81 第4章 隨機變量與期望 86 4.1 隨機變量 86 4.1.1 隨機變量的聯合概率與條件概率87 4.1.2 隻是一個小的連續概率 90 4.2 期望和期望值 92 4.2.1 期望值 92 4.2.2 均值、方差和協方差 94 4.2.3 期望和統計 96 4.3 弱大數定律 97 4.3.1 獨立同分布樣本 97 4.3.2 兩個不等式 98 4.3.3 不等式的證明 98 4.3.4 弱大數定律的定義 100 4.4 弱大數定律應用 101 4.4.1 你應該接受下注嗎 101 4.4.2 賠率、期望與博彩:文化轉向 102 4.4.3 提前結束比賽 103 4.4.4 用決策樹和期望做決策 104 4.4.5 效用 105 問題 107 編程練習 110 第5章 有用的概率分布 112 5.1 離散分布 112 5.1.1 均勻分布 112 5.1.2 伯努利隨機變量 112 5.1.3 幾何分布 113 5.1.4 二項分布 113 5.1.5 多項分布 115 5.1.6 泊松分布 115 5.2 連續分布 117 5.2.1 均勻分布 117 5.2.2 貝塔分布 117 5.2.3 伽馬分布 118 5.2.4 指數分布 119 5.3 正態分布 119 5.3.1 標準正態分布 120 5.3.2 正態分布 120 5.3.3 正態分布的特征 121 5.4 逼近參數為$N$的二項式 122 5.4.1 當$N$取值很大時 124 5.4.2 正態化 125 5.4.3 二項分布的正態逼近 127 問題 127 編程練習 132 第三部分 推斷 第6章 樣本和總體 136 6.1 樣本均值 136 6.1.1 樣本均值是對總體均值的估計 136 6.1.2 樣本均值的方差 137 6.1.3 罐子模型的應用 140 6.1.4 分布就像總體 140 6.2 置信區間 141 6.2.1 構造置信區間 141 6.2.2 估計樣本均值的方差 142 6.2.3 樣本均值的概率分布 144 6.2.4 總體均值的置信區間 145 6.2.5 模擬的標準誤差估計 147 問題 149 編程練習 151 第7章 顯著性檢驗 153 7.1 顯著性 154 7.1.1 評估顯著性 154 7.1.2 p值 156 7.2 比較兩個總體的均值 159 7.2.1 假定總體的標準差已知 159 7.2.2 假定總體有相同但未知的標準差 161 7.2.3 假定總體的標準差未知且不同 161 7.3 其他有用的顯著性檢驗 163 7.3.1 F檢驗和標準差 163 7.3.2 模型擬合的x2檢驗 164 7.4 p 值操控和其他危險行為 168 問題 169 第8章 實驗 172 8.1 簡單實驗:一種處理方法的影響 172 8.1.1 隨機平衡實驗 173 8.1.2 分解預測中的誤差 174 8.1.3 估計噪聲的方差 174 8.1.4 方差分析表 176 8.1.5 非平衡實驗 177 8.1.6 顯著性差異 178 8.2 雙因素實驗 180 8.2.1 誤差分解 182 8.2.2 交互效應 184 8.2.3 單個因素的影響 184 8.2.4 建立方差分析表 185 問題 188 第9章 基於數據推斷概率模型 191 9.1 用極大似然估計模型參數 192 9.1.1 極大似然原理 192 9.1.2 二項分布、幾何分布和多項分布 193 9.1.3 泊松分布和正態分布 195 9.1.4 模型參數的置信區間 198 9.1.5 關於極大似然的注意事項 200 9.2 結合貝葉斯推斷的先驗概率 200 9.2.1 共軛 202 9.2.2 MAP推斷 204 9.2.3 貝葉斯推斷的注意事項 205 9.3 正態分布的貝葉斯推斷 205 9.3.1 示例:測量鑽孔深度 205 9.3.2 通過正態先驗分布和正態似然函數得出正態後驗分布206 9.3.3 過濾 208 問題 210 編程練習 213 第四部分 工具 *10章 高維狀態下的相關性分析 218 10.1 數據彙總與簡單的統計圖 218 10.1.1 均值 219 10.1.2 莖葉圖和散點圖矩陣 219 10.1.3 協方差 222 10.1.4 協方差矩陣 223 10.2 通過均值和協方差來理解高維數據 224 10.2.1 仿射變換下的均值和協方差 225 10.2.2 特征向量與對角化 226 10.2.3 旋轉團來對角化協方差 227 10.2.4 近似團 228 10.2.5 示例:身高--體重數據團轉換 229 10.3 主成分分析 231 10.3.1 低維度的表示方法 232 10.3.2 降維引起的誤差 233 10.3.3 示例:用主成分表示顏色 234 10.3.4 示例:用主成分表示面孔 236 10.4 多維放縮 236 10.4.1 使用高維距離選擇低維點 237 10.4.2 分解點積矩陣 239 10.4.3 示例:使用多維放縮的地圖 240 10.5 示例:了解身高與體重 241 問題 245 編程練習 245 *11章 分類學習 248 11.1 分類 248 11.1.1 錯誤率和其他性能總結 249 11.1.2 更詳細的評估 249 11.1.3 過度擬合和交叉驗證 250 11.2 用*近鄰分類 251 11.3 用樸素貝葉斯分類 253 11.4 支持向量機 256 11.4.1 鉸鏈損失 257 11.4.2 正則化 258 11.4.3 用隨機梯度下降法查找分類器 259 11.4.4 搜索λ 261 11.4.5 示例:用隨機梯度下降法訓練支持向量機 262 11.4.6 支持向量機的多類分類 265 11.5 用隨機森林分類 265 11.5.1 構建決策樹:通用算法 267 11.5.2 構建決策樹:選擇拆分 267 11.5.3 森林 269 編程練習 271 MNIST練習 274 *12章 聚類:高維數據模型 277 12.1 維度災難 277 12.1.1 冪次維數 277 12.1.2 災難:數據未在預想範圍出現 278 12.2 聚類數據 279 12.2.1 聚合聚類與分裂聚類 279 12.2.2 聚類與距離 282 12.3 k均值算法及其變體 282 12.3.1 確定k值 285 12.3.2 軟分配 285 12.3.3 高效聚類和分層k均值 287 12.3.4 k中心點算法 288 12.3.5 示例:葡萄牙雜貨鋪 288 12.3.6 關於k均值的評價 291 12.4 用向量量化描述重復 291 12.4.1 向量量化 292 12.4.2 示例:基於加速計數據的行為 294 12.5 正態分布 297 12.5.1 仿射變換和高斯分布 298 12.5.2 繪制二維高斯分布:協方差橢圓 298 編程練習 299 CIFAR-10和向量量化練習 300 *13章 回歸 301 13.1 回歸預測 301 13.2 回歸趨勢 303 13.3 線性回歸與*小二乘 304 13.3.1 線性回歸 304 13.3.2 β的選擇 305 13.3.3 *小二乘問題求解 305 13.3.4 殘差 306 13.3.5 R2 306 13.4 優化線性回歸模型 308 13.4.1 變量轉換 309 13.4.2 問題數據點有顯著影響 311 13.4.3 單解釋變量函數 313 13.4.4 線性回歸的正則化 314 13.5 利用近鄰進行回歸分析 317 附錄:數據 319 問題 319 編程練習 324 *14章 馬爾可夫鏈與隱馬爾可夫鏈 326 14.1 馬爾可夫鏈 326 14.1.1 轉移概率矩陣 328 14.1.2 平穩分布 330 14.1.3 示例:馬爾可夫鏈文本模型 331 14.2 馬爾可夫鏈的性質估計 334 14.2.1 模擬 334 14.2.2 模擬結果為隨機變量 335 14.2.3 模擬馬爾可夫鏈 337 14.3 示例:通過模擬馬爾可夫鏈對Web進行排名 338 14.4 隱馬爾可夫模型與動態規劃 340 14.4.1 隱馬爾可夫模型 340 14.4.2 用網格進行圖形推理 341 14.4.3 HMM的動態規劃 344 14.4.4 示例:簡單通信報錯 344 問題 347 編程練習 347 第五部分 其他數學知識 *15章 資源和附加資料 350 15.1 有關矩陣的內容 350 15.1.1 奇異值分解 351 15.1.2 逼近一個對稱矩陣 351 15.2 特殊函數 353 15.3 在決策樹中拆分節點 354 15.3.1 用熵計算信息 355 15.3.2 利用信息增益來選擇拆分 356 索引 358
" |