機器學習的應用是高度自度化且自動修正的。學習到的數據越多,機器學習應用需要的人工干預越少。為了解決現實世界中復雜的數據問題,科學家們開發出專門的機器學習算法來解決這些問題。數據科學正是通過算法和統計分析來幫助讀者從現有數據中獲取新知識的。
本書將解決如何高效地進行數據分類及預測的問題。本書主要講解7種數據科學算法,有k最近鄰算法、樸素貝葉斯算法、決策樹、隨機森林,k-means聚類、回歸分析和時間序列分析。 此外,你還會掌握如何對數據進行預聚類,以便針對大型數據集進行優化和分類。最後,你將了解如何根據數據集中的現有趨勢來預測數據。本書的各章還有配套的練習題,以幫助你夯實內容,擴展相關知識。
讀完本書後,你將了解如何選擇機器學習算法進行聚類、分類或回歸,並知道選擇哪種算法來解決實際問題。
本書主要包括以下內容:
如何使用樸素貝葉斯、決策樹和隨機森林進行分類並準確地解決復雜問題;
正確識別數據科學問題並使用回歸分析和時間序列分析設計合適的預測解決方案;
如何使用 k-means算法對數據進行聚類;
如何使用Python和R語言有效地實現算法。