●前言
第1章 大數據處理預備知識
1.1 人類的驕傲
1.2 大數據思維
1.3 大數據的關鍵技術
1.4 機器學習
1.5 訓練集與測試集
1.6 特征表示
1.7 文檔的相似度計算
1.8 貝葉斯定理
1.9 信息熵
1.10 正確率、準確率與召回率
1.11 ROC曲線
1.12 大數據隱私與安全
1.13 練習
第2章 Python技術基礎
2.1 Python開發環境的搭建
2.2 常用操作符
2.3 語句規範
2.4 變量與數據
2.5 控制語句
2.6 數據結構
2.7 函數
2.8 可變對像與不可變對像
2.9 面向對像程序設計
2.10 練習
第3章 大數據處理常用模塊
3.1 NumPy
3.2 Pandas
3.3 Matplotlib
3.4 練習
第4章 大數據采集技術
4.1 網絡爬蟲概述
4.2 Requests基礎
4.3 XPath與Lxml
4.4 網頁采集
4.5 分頁采集
4.6 練習
第5章 大數據處理算法及應用
5.1 回歸
5.2 決策樹
5.3 K近鄰
5.4 支持向量機
5.5 神經網絡
5.6 樸素貝葉斯
5.7 聚類
5.8 關聯規則
5.9 PCA降維
5.10 機器學習流程
5.11 練習
第6章 文本挖掘與應用
6.1 文本挖掘流程
6.2 NLTK
6.3 TextBlob
6.4 Jieba
6.5 SnowNLP
6.6 正則表達式
6.7 詞雲
6.8 LDA主題模型
6.9 練習
第7章 大數據應用案例
7.1 泰坦尼克生存預測
7.2 基於用戶評論的智能音箱市場分析
7.3 有事找政府12345
7.4 基於網貸評論的用戶輿情挖掘
參考文獻
隨著雲計算、大數據、物聯網、人工智能和區塊鏈等IT技術的發展與應用,信息技術不斷驅動社會生產方式的變革,人類進入機器智能時代。近年來,大數據處理技術已經廣泛地滲透到各行各業,大數據分析與應用的教學工作也逐漸成為高校中的重中之重,這是大數據時代下的必然趨勢。
本書從實際應用出發,結合具體案例及應用場景,深入淺出地介紹大數據處理預備知識、Python技術基礎、大數據處理常用模塊、大數據采集技術、大數據處理算法以及文本挖掘與應用等。從環境搭建到數據采集可視化,從數據預處理到特征選擇與模型訓練,再從模型調優到測試評估。通過本書,讀者可掌握大數據處理中推薦的知識體繫和技能,在各領域開展大數據處理與研究工作。本書實例短小精練,便於學習,讀者能夠在短時間內掌握相關知識點及其應用。
本書主要面向高等學校從事大數據處理和分析的本科生和研究生,亦可作為高等學校大數據處理相關課程的教材。等