開本:16開 紙張:膠版紙 包裝:平裝-膠訂 是否套裝:否 國際標準書號ISBN:9787302592563 叢書名:大數據技術與應用叢書 作者:高騰剛、程星晶、霍雨佳、王新穎、王佳堯、王芮、王堅、楊雲江 出版社:清華大學出版社 出版時間:2022年01月 
"編輯推薦 本書兼顧本科、高職高專院校的培養計劃,學生的需求及課程特點來編寫,按照新課改思想進行構思,基礎原理由淺入深,有助於學生理解晦澀的理論。以實際應用為目標,將抽像的理論知識融入實例操作中,讓學生通過對實例的操作實踐,掌握相應的知識點,總結出解決問題的好方法。為了適應不同層次學生的水平能力和特點,本書內容強調實用性和可操作性,以實例來激發學生的學習興趣,並注重培養學生多種解決問題的能力和實際動手操作能力。 內容簡介 本書理論聯繫實際,配以大量實例,繫統地介紹了大數據有關的基礎知識。全書共分10章,內容包括大數據概述,大數據、雲計算與物聯網,大數據架構與Hadoop,數據采集與預處理,大數據分析與大數據挖掘,數據存儲與HDFS,MapReduce,數據可視化,大數據安全,大數據應用案例。 本書主要作為本科和高職高專相關專業的教材,也可作為相關行業從業人員的讀物,還可以作為培訓教材。 作者簡介 高騰剛,副教授,武漢大學碩士,計算機技術專業畢業,主持參與項目7項,其中1項,省級2項,校級4項,發表論文10餘篇,參編教材2部。 程星晶,副教授,貴州大學碩士,計算機應用技術專業畢業,主持參與項目4項,其中省級3項,校級1項,發表論文8餘篇,編寫教材3部,具有豐富的教材編寫經驗。 目錄 第1章大數據概述1 1.1大數據定義和特征1 1.1.1大數據定義1 1.1.2大數據的特征1 1.1.3大數據發展歷程2 1.2大數據的影響4 1.3大數據發展趨勢4 1.4大數據的關鍵技術8 1.5大數據的計算模式10 1.6大數據的應用領域11 1.7數據資源化和交易13 1.7.1數據資源化13 1.7.2大數據交易14 1.8大數據安全與隱私15第1章大數據概述1 1.1大數據定義和特征1 1.1.1大數據定義1 1.1.2大數據的特征1 1.1.3大數據發展歷程2 1.2大數據的影響4 1.3大數據發展趨勢4 1.4大數據的關鍵技術8 1.5大數據的計算模式10 1.6大數據的應用領域11 1.7數據資源化和交易13 1.7.1數據資源化13 1.7.2大數據交易14 1.8大數據安全與隱私15 1.9本章小結16 習題17 第2章大數據、雲計算與物聯網18 2.1雲計算18 2.1.1雲計算概述18 2.1.2雲計算的分類19 2.1.3雲計算的基本特點20 2.1.4雲計算的關鍵技術21 2.1.5雲計算的應用24 2.2物聯網26 2.2.1物聯網概述27 2.2.2物聯網的發展過程27 2.2.3物聯網的特征28 2.2.4物聯網的關鍵技術30 2.2.5物聯網繫統結構31 2.2.6物聯網的應用33 2.3大數據、雲計算與物聯網三者之間的關繫36 2.4本章小結39 目錄大數據概論習題39 第3章大數據架構與Hadoop40 3.1大數據架構40 3.1.1大數據架構概述40 3.1.2數據類型41 3.1.3大數據架構及數據解決方案42 3.2Hadoop概述46 3.2.1Hadoop簡介46 3.2.2Hadoop的發展歷程46 3.2.3Hadoop的特點47 3.2.4Hadoop應用現狀47 3.2.5Hadoop的版本49 3.3Hadoop的生態繫統概述50 3.3.1Hadoop的生態繫統50 3.3.2Hadoop的組成介紹51 3.4Hadoop的安裝55 3.4.1安裝前的準備55 3.4.2安裝VirtualBox56 3.4.3安裝Linux發行版Ubuntu57 3.4.4創建Hadoop用戶61 3.4.5設置SSH無密碼登錄61 3.4.6安裝Java環境62 3.4.7安裝單機Hadoop62 3.4.8安裝偽分布式Hadoop63 3.5本章小結66 習題66 第4章數據采集與預處理67 4.1大數據采集67 4.1.1大數據采集概述67 4.1.2大數據采集方法70 4.2大數據采集工具72 4.2.1Flume73 4.2.2Kafka75 4.2.3Sqoop77 4.2.4Scribe80 4.3大數據預處理技術81 4.3.1預處理意義81 4.3.2預處理方法82 4.4本章小結91 習題92 第5章大數據分析與大數據挖掘93 5.1大數據分析的基本概念93 5.1.1數據分析概論93 5.1.2數據分析的類型94 5.2大數據分析方法95 5.2.1數據分析方法概述95 5.2.2數據分析過程97 5.2.3數據處理結果分析98 5.3數據挖掘概述105 5.3.1數據和知識105 5.3.2數據挖掘的概念106 5.3.3數據挖掘過程106 5.3.4數據挖掘技術107 5.4分類算法108 5.4.1樸素貝葉斯分類109 5.4.2SVM算法114 5.5聚類算法117 5.5.1kmeans算法118 5.5.2DBSCAN算法121 5.6Apriori頻繁項集挖掘算法125 5.6.1Apriori算法原理126 5.6.2Apriori算法的基本思想127 5.6.3Apriori算法流程128 5.6.4Apriori算法的優缺點128 5.6.5Apriori算法實例129 5.7常用挖掘工具130 5.7.1Mahout130 5.7.2Spark MLlib132 5.8本章小結135 習題135 第6章數據存儲與HDFS136 6.1大數據存儲136 6.1.1大數據存儲概述136 6.1.2分布式存儲繫統137 6.1.3雲存儲140 6.2數據倉庫141 6.2.1數據倉庫概述141 6.2.2數據倉庫架構及構建143 6.2.3數據集市147 6.3HDFS簡介148 6.3.1HDFS概述148 6.3.2HDFS的優點和缺點149 6.4HDFS基本技術150 6.4.1數據塊150 6.4.2名稱節點、數據節點和第二名稱節點151 6.5HDFS體繫結構154 6.5.1HDFS體繫結構概述154 6.5.2HDFS命名空間155 6.5.3通信協議和客戶端155 6.5.4HDFS 1.0體繫結構的局限性155 6.5.5HDFS 2.0設計156 6.6HDFS存儲原理156 6.6.1數據的冗餘存儲156 6.6.2如何存取數據157 6.6.3如何恢復數據158 6.7HDFS的文件讀寫操作過程159 6.7.1HDFS讀取數據的過程159 6.7.2HDFS寫入數據的過程161 6.8HDFS編程實例163 6.8.1使用Shell命令與HDFS進行交互163 6.8.2在Web上顯示HDFS165 6.8.3使用Java API與HDFS進行交互166 6.9本章小結170 習題170 第7章MapReduce171 7.1MapReduce概述171 7.1.1MapReduce的基本概念171 7.1.2MapReduce的思想172 7.1.3MapReduce的抽像方法173 7.2Map和Reduce任務173 7.2.1函數式編程173 7.2.2mapper和reducer174 7.3MapReduce執行框架和工作流程176 7.3.1執行框架176 7.3.2MapReduce工作流程概述178 7.3.3Shuffle執行過程179 7.3.4分割器和組合器182 7.4MapReduce算法及應用183 7.4.1概述183 7.4.2本地聚合183 7.4.3對和條紋188 7.4.4相對頻率191 7.5MapReduce編程實例193 7.6本章小結197 習題197 第8章數據可視化199 8.1大數據可視化概述199 8.1.1何為數據可視化199 8.1.2大數據可視化方法203 8.2大數據可視化軟件工具213 8.2.1Excel213 8.2.2Tableau214 8.2.3魔鏡214 8.2.4ECharts215 8.2.5D3215 8.3數據可視化實例216 8.3.1用Tableau制作一個圖表實例216 8.3.2用魔鏡制作一個圖表實例222 8.3.3用ECharts制作一個圖表實例225 8.4本章小結226 習題227 第9章大數據安全228 9.1大數據安全概述228 9.1.1大數據安全的基本概念228 9.1.2雲安全與大數據安全231 9.1.3大數據安全技術分類231 9.1.4大數據安全管理體繫架構232 9.2大數據隱私保護233 9.2.1大數據隱私保護的意義和重要作用233 9.2.2大數據隱私保護面臨的問題與挑戰234 9.2.3大數據隱私保護技術236 9.3大數據在安全管理中的應用239 9.3.1大數據在公共安全管理中的應用239 9.3.2大數據在煤礦安全管理中的應用241 9.3.3大數據在安全管理應急方面的應用242 9.4數據脫敏技術247 9.4.1數據交互安全與脫敏技術247 9.4.2靜態數據脫敏技術247 9.4.3動態數據脫敏技術248 9.4.4數據脫敏實例248 9.5本章小結249 習題249 第10章大數據應用案例250 10.1大數據在智慧醫療中的應用250 10.1.1大數據在醫療信息化行業的應用250 10.1.2大數據在臨床決策支持繫統的功能應用252 10.1.3大數據在遠程醫療方面的應用253 10.2大數據在金融行業中的應用256 10.2.1民生銀行在大數據上的應用256 10.2.2大數據在阿裡巴巴上的應用258 10.2.3大數據時代信用卡的使用259 10.2.4Kabbage 用大數據開闢新路徑260 10.3大數據在智慧校園中的應用261 10.3.1大數據在微課方面的應用261 10.3.2大數據在慕課方面的應用262 10.3.3大數據在智慧教育雲下的應用264 10.3.4大數據在學習分析及干預中的應用266 10.4大數據在智慧城市中的應用267 10.4.1大數據在智慧城市中應用與管理方面的應用267 10.4.2大數據在智慧城市中環境方面的應用268 10.4.3大數據挖掘技術在智能交通中的應用269 10.5本章小結271 習題272 參考文獻273 前言 近年來大數據越來越火爆,非常多的人轉行做大數據或學習大數據。大數據已經被納入國家戰略,從國家層面到地方政府,出臺了一繫列促進大數據發展的綱要政策,大數據發展前景毋庸置疑。大數據已經被廣泛應用到醫療、金融、交通、教育、娛樂等領域,然而,這些領域十分緊缺具有大數據背景的綜合型人纔。因此,當前很多高校都在大力培養大數據方面的多學科交叉融合的本科和碩士生。目前,適合不同專業的大數據教材相對較少。本書以大數據基礎和應用為主導,並配以相關實例,可作為不同專業學生的基礎性教材。 本書立足於不同專業背景的讀者零基礎學習大數據,實例為主導,理論聯繫實際,循序漸進地介紹了大數據的相關基礎知識。 本書共10章,內容包括: 第1章大數據概述,第2章大數據、雲計算與物聯網,第3章大數據架構與Hadoop,第4章數據采集與預處理,第5章大數據分析與大數據挖掘,第6章數據存儲與HDFS,第7章MapReduce,第8章數據可視化,第9章大數據安全,第10章大數據應用案例。其中,第3~8章提供了大量的實例,並給出了詳細設計步驟、代碼詳解及程序運行結果。本書既可作為普通高等學校的大數據基礎教材,也可以作為大數據培訓等相關人員的參考書。 本書主要特色如下。 特色之一: 本書根據大學本科的培養計劃,學生的需求及課程的特點來編寫,按照新課改思想進行構思,基礎原理由淺入深,有助於學生理解晦澀的理論。近年來大數據越來越火爆,非常多的人轉行做大數據或學習大數據。大數據已經被納入國家戰略,從國家層面到地方政府,出臺了一繫列促進大數據發展的綱要政策,大數據發展前景毋庸置疑。大數據已經被廣泛應用到醫療、金融、交通、教育、娛樂等領域,然而,這些領域十分緊缺具有大數據背景的綜合型人纔。因此,當前很多高校都在大力培養大數據方面的多學科交叉融合的本科和碩士生。目前,適合不同專業的大數據教材相對較少。本書以大數據基礎和應用為主導,並配以相關實例,可作為不同專業學生的基礎性教材。 本書立足於不同專業背景的讀者零基礎學習大數據,實例為主導,理論聯繫實際,循序漸進地介紹了大數據的相關基礎知識。 本書共10章,內容包括: 第1章大數據概述,第2章大數據、雲計算與物聯網,第3章大數據架構與Hadoop,第4章數據采集與預處理,第5章大數據分析與大數據挖掘,第6章數據存儲與HDFS,第7章MapReduce,第8章數據可視化,第9章大數據安全,第10章大數據應用案例。其中,第3~8章提供了大量的實例,並給出了詳細設計步驟、代碼詳解及程序運行結果。本書既可作為普通高等學校的大數據基礎教材,也可以作為大數據培訓等相關人員的參考書。 本書主要特色如下。 特色之一: 本書根據大學本科的培養計劃,學生的需求及課程的特點來編寫,按照新課改思想進行構思,基礎原理由淺入深,有助於學生理解晦澀的理論。 特色之二: 本書以實際應用為目標,將抽像的理論知識融入實例操作中,讓學生通過對實例的操作實踐,掌握相應的知識點,總結出解決問題的好方法。 特色之三: 為了適應不同層次學生的水平能力和特點,本書內容強調實用性和可操作性,以實例來激發學生的學習興趣,並注重培養學生多種解決問題的能力和實際動手操作能力。 特色之四: 本書作者都是長期從事本科教育的專職教師,從事雲計算與大數據專業課教學多年,具有豐富的教學經驗和實踐經驗,本書就是教師們教學經驗和實踐經驗的結晶。 本書由高騰剛、程星晶擔任主編,霍雨佳、王新穎和王佳堯擔任副主編,參編老師有王芮、王堅,貴州理工學院信息網絡中心副主任楊雲江教授擔任主審,負責目錄架構設計和內容架構設計,並負責書稿內容的初審工作。由於時間倉促,加上作者水平有限,書中難免存在疏漏和錯誤,懇請廣大讀者批評指正。
編者2021年10月
|