作 者:陸紅 著 著
定 價:48
出 版 社:中國物資出版社
出版日期:2017年06月01日
頁 數:151
裝 幀:平裝
ISBN:9787504764164
●1 大數據采集處理方法
1.1 爬蟲程序設計方案
1.2 爬蟲程序實現方法
1.3 數據清洗
2 大數據存儲方法
2.1 分布式文件繫統存儲大數據
2.1.1 HDFS體繫結構
2.1.2 HDFS數據存儲方式
2.1.3 HDFS讀寫方式
2.2 分布式數據庫存儲大數據
2.2.1 Hbase體繫結構
2.2.2 配置Hbase
2.2.3 Hbase表操作
2.2.4 訪問Hbase數據資源
3 大數據計算方法
3.1 分布式計算平臺構建方法
3.2 分布式計算框架構建方法
3.3 分布式計算程序設計方法
4 大數據分析模型構建方法
4.1 準備訓練數據
4.2 機器學習路徑和算法設計方法
4.3 數據可視化輔助建模方法
4.4 構建大數據分析模型
5 大數據分析模型檢驗方法
5.1 回歸診斷
5.2 交叉驗證
6 大數據分析模型優化方法
6.1 Feature Scaling優化法
6.2 逐步回歸優化法
6.3 PCA主成分分析優化方法
6.4 神經網絡優化大數據分析模型
參考文獻
本書圍繞大數據分析方法,闡述了大數據采集方法,大數據清洗方法,詳細介紹了大數據存儲方法,大數據分布式計算方法,大數據分析模型構建方法,大數據分析模型檢驗方法,大數據分析模型優化方法。全書提供了大量的案例,對程序進行了詳細的分析和解讀。本書的實用價值較高,對從事大數據分析的科研人員、研發人員具有一定的借鋻參考作用。
陸紅 著 著
陸紅,副教授,北京信息職業技術學院技術應用研究所所長,多年從事計算機領域研究,主要研究方向:大數據、人工智能、軟件技術。主持多項省部級課題,其中一項獲教育部科技成果獎。編寫多部著作,發表多篇相關領域的學術論文。作為多個部委專家,主持完成多個部委信息化建設標準制定工作。主持完成多個部委信息化建設項目。
"為什麼要寫本書大數據時代,人們面對大數據,首先想到的是如何分析大數據,目前介紹大數據分析方法的書籍卻不是很多。作者從事大數據分析研究工作多年,很想將做過的大數據研究課題積累的一些分析方法分享給各位讀者。本書組織結構本書的結構依據大數據的處理構建的,包括:組織,依次為大數據采集處理方法、大數據存儲方法、大數據分布式計算方法、大數據分析模型構建方法、大數據分析模型檢驗方法、大數據分析模型優化方法。本書的主要內容第1章介紹了大數據采集處理方法,重點介紹了如何從互聯網上采集數據,介紹了“網絡爬蟲程序”的設計和編寫方法以及數據清洗方法,著重介紹如何清洗機器學習訓練數據。第2章介紹了大數據存儲方法,重點介紹了分布式文件存儲繫統的原理、配置方法與使用方法。重點介紹了分布式數據庫Hbase原理、配置方法與使用方法。第3章介紹了大數據分布式計算的實現方法,詳細介紹了如何搭建H等