本書按照網絡數據爬取、數據清洗與處理、數據存儲、數據分析的邏輯脈絡,介紹了數據科學的相關知識。
全書主要內容涉及理論、實戰、工具三個層面。其中,理論層面主要介紹了網絡爬蟲,數據處理與存儲,機器學習的相關概念、原理與算法;實戰層面主要通過影評、二手房、招聘網站等實戰項目,闡述了數據爬取、處理與存儲的代碼實現,並通過相關數據集的實例,介紹了機器學習算法的實現與效果評估;工具層面主要講解了如何通過Python的Urllib、Request、BeautifulSoup、Pandas、Scikit-learn等第三方工具包實現數據的爬取、處理與分析,以及通過SQLite這一輕量級數據庫工具實現數據的存儲。