機器學習實踐:數據科學應用與工作流的開發及優化
作 者: [美]安德魯·凱萊赫(Andre 著 陳子墨 劉瀚文 譯 譯
定 價: 99
出?版?社: 機械工業出版社
出版日期: 2020年04月01日
頁 數: 244
裝 幀: 平裝
ISBN: 9787111651369
●譯者序序前言作者簡介部分 框架原則章 數據科學家的定位 21.1 引言 21.2 數據科學家扮演的角色 21.2.1 公司規模 31.2.2 團隊背景 31.2.3 職業晉升和發展 41.2.4 重要性 51.2.5 工作細分 51.3 結論 5第2章 項目流程 72.1 引言 72.2 數據團隊背景 72.2.1 專門崗位與資源池 82.2.2 研究分析 82.2.3 原型設計 92.2.4 集成的工作流 102.3 敏捷開發與產品定位 102.4 結論 15第3章 量化誤差 163.1 引言 163.2 量化測量值的誤差 163.3 抽樣誤差 183.4 誤差傳遞 203.5 結論 22第4章 數據編碼與預處理 234.1 引言 234.2 簡單文本預處理 244.2.1 分詞 244.2.2 &nbs模型 264.2.3 稀疏 264.2.4 特征選擇 274.2.5 表示學習 294.3 信息量損失 314.4 結論 33第5章 假設檢驗 345.1 引言 345.2 什麼是假設 345.3 假設檢驗的錯誤類型 365.4 p值和置信區間 375.5 多重測試和p值操控 385.6 實例 395.7 假設檢驗的設計 405.8 結論 41第6章 數據可視化 436.1 引言 436.2 數據分布和彙總統計 436.2.1 數據分布和直方圖 446.2.2 散點圖和熱力圖 486.2.3 箱線圖和誤差條 526.3 時間序列圖 546.3.1 移動統計 546.3.2 自相關 566.4 圖可視化 576.4.1 布局算法 576.4.2 時間復雜度 596.5 結論 60第二部分 算法與架構第7章 算法和架構簡介 627.1 引言 627.2 架構 647.2.1 服務 647.2.2 數據源 657.2.3 分批及在線計算 667.2.4 規模擴展 667.3 模型 677.3.1 訓練 687.3.2 預測 687.3.3 驗證 697.4 結論 70第8章 距離度量 718.1 引言 718.2 Jaccard距離 718.2.1 算法 728.2.2 時間復雜度 738.2.3 內存注意事項 738.2.4 分布式方法 738.3 MinHash 748.3.1 假設 758.3.2 時空復雜度 758.3.3 工具 758.3.4 分布式方法 758.4 餘弦相似度 768.4.1 復雜度 788.4.2 內存注意事項 788.4.3 分布式方法 788.5 馬氏距離 788.5.1 復雜度 798.5.2 內存注意事項 798.5.3 分布式方法 798.6 結論 80第9章 回歸 819.1 引言 819.1.1 選擇模型 829.1.2 選擇目標函數 829.1.3 模型擬合 839.1.4 模型驗證 849.2 線性最小二乘 879.2.1 假設 889.2.2 復雜度 899.2.3 內存注意事項 899.2.4 工具 899.2.5 分布式方法 899.2.6 實例 909.3 線性回歸中的非線性回歸 979.4 隨機森林 1009.4.1 決策樹 1009.4.2 隨機森林 1039.5 結論 1060章 分類和聚類 10710.1 引言 10710.2 邏輯回歸 10810.2.1 假設 11110.2.2 時間復雜度 11110.2.3 內存注意事項 11210.2.4 工具 11210.3 貝葉斯推斷與樸素貝葉斯 11210.3.1 假設 11410.3.2 復雜度 11410.3.3 內存注意事項 11410.3.4 工具 11410.4 K-Means 11510.4.1 假設 11810.4.2 復雜度 11810.4.3 內存注意事項 11810.4.4 工具 11810.5 優選特征值 11810.5.1 復雜度 12010.5.2 內存注意事項 12010.5.3 工具 12010.6 Louvain貪心算法 12010.6.1 假設 12110.6.2 復雜度 12110.6.3 內存注意事項 12110.6.4 工具 12110.7 最近鄰算法 12110.7.1 假設 12310.7.2 復雜度 12310.7.3 內存注意事項 12310.7.4 工具 12310.8 結論 1231章 貝葉斯網絡 12511.1 引言 12511.2 因果圖、條件獨立和馬爾 可夫 12611.2.1 因果圖和條件獨立 12611.2.2 穩定性和依賴性 12711.3 d分離和馬爾可夫性質 12811.3.1 馬爾可夫和因式 分解 12811.3.2 d分離 12911.4 貝葉斯網絡的因果圖 13211.5 模型擬合 13311.6 結論 1362章 降維與隱變量模型 13712.1 引言 13712.2 先驗 13712.3 因子分析 13912.4 主成分分析 14012.4.1 復雜度 14212.4.2 內存注意事項 14212.4.3 工具 14212.5 獨立成分分析 14212.5.1 假設 14512.5.2 復雜度 14512.5.3 內存注意事項 14612.5.4 工具 14612.6 LDA主題模型 14612.7 結論 1523章 因果推斷 15313.1 引言 15313.2 實驗 15413.3 觀測值:一個實例 15713.4 非因果阻斷控制法 16313.5 機器學習估計量 16713.5.1 重新審視G公式 16713.5.2 實例 16813.6 結論 1724章 不錯機器學習 17314.1 引言 17314.2 優化 17314.3 神經網絡 17514.3.1 神經網絡層 17614.3.2 神經網絡容量 17714.3.3 過擬合 17914.3.4 批擬合 18314.3.5 損失函數 18314.4 結論 185第三部分 瓶頸和優化5章 硬件基礎 18815.1 引
內容簡介
本書以作者在BuzzFeed的工作經驗為基礎,將機器學習和計算機工程巧妙地結合在一起。第壹部分的基本原則是數據科學世界堅實的基礎;第二部分介紹現實問題中的常用算法,幫助讀者迅速解決實際問題,避免被數據誤導、產生結論錯誤;第三部分則著眼於工程實踐,基於工程角度突破瓶頸,讓算法能夠在現實條件中得以實現。