出版社:機械工業出版社 ISBN:9787111651369 商品編碼:68604170928 品牌:文軒 出版時間:2020-04-01 代碼:99 作者:安德魯·凱萊赫(AndrewKelleher
"
作 者:(美)安德魯·凱萊赫(Andrew Kelleher),(美)亞當·凱萊赫(Adam Kelleher) 著 陳子墨,劉瀚文 譯 定 價:99 出 版 社:機械工業出版社 出版日期:2020年04月01日 頁 數:226 裝 幀:平裝 ISBN:9787111651369 ●譯者序 序 前言 作者簡介 第一部分框架原則 第1章數據科學家的定位2 1.1引言2 1.2數據科學家扮演的角色2 1.2.1公司規模3 1.2.2團隊背景3 1.2.3職業晉升和發展4 1.2.4重要性5 1.2.5工作細分5 1.3結論5 第2章項目流程7 2.1引言7 2.2數據團隊背景7 2.2.1專門崗位與資源池8 2.2.2研究分析8 2.2.3原型設計9 2.2.4集成的工作流10 2.3敏捷開發與產品定位10 2.4結論15 第3章量化誤差16 3.1引言16 3.2量化測量值的誤差16 3.3抽樣誤差18 3.4誤差傳遞20 3.5結論22 第4章數據編碼與預處理23 4.1引言23 4.2簡單文本預處理24 4.2.1分詞24 4.2模型26 4.2.3稀疏26 4.2.4特征選擇27 4.2.5表示學習29 4.3信息量損失31 4.4結論33 第5章假設檢驗34 5.1引言34 5.2什麼是假設34 5.3假設檢驗的錯誤類型36 5.4p值和置信區間37 5.5多重測試和p值操控38 5.6實例39 5.7假設檢驗的設計40 5.8結論41 第6章數據可視化43 6.1引言43 6.2數據分布和彙總統計43 6.2.1數據分布和直方圖44 6.2.2散點圖和熱力圖48 6.2.3箱線圖和誤差條52 6.3時間序列圖54 6.3.1移動統計54 6.3.2自相關56 6.4圖可視化57 6.4.1布局算法57 6.4.2時間復雜度59 6.5結論60 第二部分算法與架構 第7章算法和架構簡介62 7.1引言62 7.2架構64 7.2.1服務64 7.2.2數據源65 7.2.3分批及在線計算66 7.2.4規模擴展66 7.3模型67 7.3.1訓練68 7.3.2預測68 7.3.3驗證69 7.4結論70 第8章距離度量71 8.1引言71 8.2Jaccard距離71 8.2.1算法72 8.2.2時間復雜度73 8.2.3內存注意事項73 8.2.4分布式方法73 8.3MinHash74 8.3.1假設75 8.3.2時空復雜度75 8.3.3工具75 8.3.4分布式方法75 8.4餘弦相似度76 8.4.1復雜度78 8.4.2內存注意事項78 8.4.3分布式方法78 8.5馬氏距離78 8.5.1復雜度79 8.5.2內存注意事項79 8.5.3分布式方法79 8.6結論80 第9章回歸81 9.1引言81 9.1.1選擇模型82 9.1.2選擇目標函數82 9.1.3模型擬合83 9.1.4模型驗證84 9.2線性最小二乘87 9.2.1假設88 9.2.2復雜度89 9.2.3內存注意事項89 9.2.4工具89 9.2.5分布式方法89 9.2.6實例90 9.3線性回歸中的非線性回歸97 9.4隨機森林100 9.4.1決策樹100 9.4.2隨機森林103 9.5結論106 第10章分類和聚類107 10.1引言107 10.2邏輯回歸108 10.2.1假設111 10.2.2時間復雜度111 10.2.3內存注意事項112 10.2.4工具112 10.3貝葉斯推斷與樸素貝葉斯112 10.3.1假設114 10.3.2復雜度114 10.3.3內存注意事項114 10.3.4工具114 10.4K-Means115 10.4.1假設118 10.4.2復雜度118 10.4.3內存注意事項118 10.4.4工具118 10.5優選特征值118 10.5.1復雜度120 10.5.2內存注意事項120 10.5.3工具120 10.6Louvain貪心算法120 10.6.1假設121 10.6.2復雜度121 10.6.3內存注意事項121 10.6.4工具121 10.7最近鄰算法121 10.7.1假設123 10.7.2復雜度123 10.7.3內存注意事項123 10.7.4工具123 10.8結論123 第11章貝葉斯網絡125 11.1引言125 11.2因果圖、條件獨立和馬爾 可夫126 11.2.1因果圖和條件獨立126 11.2.2穩定性和依賴性127 11.3d分離和馬爾可夫性質128 11.3.1馬爾可夫和因式 分解128 11.3.2d分離129 11.4貝葉斯網絡的因果圖132 11.5模型擬合133 11.6結論136 第12章降維與隱變量模型137 12.1引言137 12.2先驗137 12.3因子分析139 12.4主成分分析140 12.4.1復雜度142 12.4.2內存注意事項142 12.4.3工具142 12.5獨立成分分析142 12.5.1假設145 12.5.2復雜度145 12.5.3內存注意事項146 12.5.4工具146 12.6LDA主題模型146 12.7結論152 第13章因果推斷153 13.1引言153 13.2實驗154 13.3觀測值:一個實例157 13.4非因果阻斷控制法163 13.5機器學習估計量167 13.5.1重新審視G公式167 13.5.2實例168 13.6結論172 第14章高級機器學習173 14.1引言173 14.2優化173 14.3神經網絡175 14.3.1神經網絡層176 14.3.2神經網絡容量177 14.3.3過擬合179 14.3.4批擬合183 14.3.5損失函數183 14.4結論185 第三部分瓶頸和優化 第15章硬件基礎188 15.1引言188 15.2隨機存取存儲器188 15.2.1訪問188 15.2.2易失性189 15.3非易失性/持久化存儲189 15.3.1機械硬盤或“旋轉磁盤”189 15.3.2固態硬盤190 15.3.3延遲190 15.3.4分頁190 15.3.5顛簸191 15.4吞吐量191 15.4.1局部性191 15.4.2執行層局部性191 15.4.3網絡局部性192 15.5處理器192 15.5.1時鐘頻率192 15.5.2核心192 15.5.3線程193 15.5.4分支預測193 15.6結論194 第16章軟件基礎196 16.1引言196 16.2分頁196 16.3索引197 16.4粒度197 16.5魯棒性198 16.6提取、傳輸/轉換、加載199 16.7結論199 第17章軟件架構200 17.1引言200 17.2客戶端-服務器架構200 17.3n層架構/面向服務的架構201 17.4微服務架構202 17.5整體架構203 17.6實際案例(混合架構)203 17.7結論204 第18章CAP定理205 18.1引言205 18.2一致性/並發205 18.3可用性207 18.3.1冗餘207 18.3.2前端和負載均衡器207 18.3.3客戶端的負載均衡209 18.3.4數據層209 18.3.5任務和Taskworker211 18.3.6故障轉移211 18.4分區容錯性211 18.5結論213 第19章邏輯網絡拓撲節點214 19.1引言214 19.2網絡圖214 19.3負載均衡215 19.4緩存216 19.4.1應用程序級緩存216 19.4.2緩存服務217 19.4.3直寫緩存218 19.5數據庫219 19.5.1主副本數據庫219 19.5.2多主結構220 19.5.3A/B副本220 19.6隊列221 19.6.1任務調度和並行任務222 19.6.2異步執行223 19.6.3API緩衝223 19.7結論224 參考文獻225 本書以作者在BuzzFeed的工作經驗為基礎,將機器學習和計算機工程巧妙地結合在一起。第壹部分的基本原則是數據科學世界堅實的基礎;第二部分介紹現實問題中的常用算法,幫助讀者迅速解決實際問題,避免被數據誤導、產生結論錯誤;第三部分則著眼於工程實踐,基於工程角度突破瓶頸,讓算法能夠在現實條件中得以實現。
" |