作 者:彭進香,張莉 著
定 價:49
出 版 社:清華大學出版社
出版日期:2020年08月01日
頁 數:248
裝 幀:平裝
ISBN:9787302553731
"結構清晰、內容新穎。內容以大數據理論基礎、大數據處理的實踐技術方法和大數據技術的具體應用為主線,吸納互聯網大數據處理技術相關較新研究成果。理論與實踐結合。書中對大數據的概念、挖掘應用進行了繫統的介紹,並且配備了相關的案例以及實際操作過程。案例時效性強。《大數據處理技術與應用》致力於通過理論及案例講解幫助讀者理順大數據處理及應用等方面的實戰方法,以達到“真正掌握互聯網大數據處理及應用實戰方法”的效果。"
●第1章互聯網大數據概述1
1.1認識大數據1
1.1.1大數據的定義1
1.1.2大數據的特征2
1.1.3未來十年大數據分析的發展趨勢3
1.2常用大數據處理、分析工具介紹4
1.2.1大數據的存儲工具4
1.2.2大數據的軟件開發工具6
1.2.3大數據的挖掘工具7
1.2.4大數據的可視化工具9
小結11
第2章互聯網大數據采集與獲取實戰要領12
2.1互聯網大數據采集與處理技術概述12
2.1.1數據采集的基本流程與關鍵技術12
2.1.2數據處理的基本流程與關鍵技術14
2.2Web頁面數據獲取實戰方法15
2.2.1Jsoup技術與頁面數據獲取15
2.2.2應對特定領域的DeepWeb數據獲取技術20
2.3利用爬蟲抓取互聯網大數據實戰技巧22
2.3.1Python爬蟲工作原理22
2.3.2利用HtmlParser實現網頁鏈接的提取實戰25
小結31
第3章做好數據預處理的實戰方法33
3.1數據預處理概述33
3.1.1數據預處理的目的33
3.1.2數據預處理的方法33
3.2從問題分析到數據清洗實戰策略35
3.2.1數據清洗的步驟36
3.2.2缺失值的識別與處理技巧38
3.2.3異常值的判斷、檢驗與處理40
3.3數據集成與數據轉換實戰方法44
3.3.1數據集成常見方法44
3.3.2數據轉換過程中的離散化47
3.4數據的特征選擇49
3.4.1常用數據特征選擇方法49
3.4.2Relief算法與費希爾判別法的應用57
3.5數據預處理實戰案例分析60
小結69
第4章數據相關性分析與回歸分析的黃金法則70
4.1什麼是數據集70
4.1.1數據集的概念與常見類型70
4.1.2高效進行數據度量的實戰技巧72
4.2做好數據相關性分析75
4.2.1進行數據相關性分析的作用75
4.2.2常用的數據相關分析方法75
4.3做好數據回歸分析實戰要領82
4.3.1數據回歸分析方法概述83
4.3.2數據回歸分析所能解決的實際問題85
小結90
第5章如何利用關聯規則進行大數據挖掘91
5.1關聯規則91
5.1.1什麼是關聯規則91
5.1.2關聯規則挖掘的應用場景91
5.2關聯規則挖掘實戰流程分析94
5.2.1關聯規則常見分類與四個基本屬性94
5.2.2快速找出優選高頻項目組的實戰技巧95
5.3關聯規則發掘中重要的Apriori算法97
5.3.1Apriori算法的基本原理97
5.3.2Apriori算法運行的基本流程99
5.4針對Apriori算法缺點的其他關聯規則挖掘算法101
5.4.1Apriori算法的兩大缺點101
5.4.2基於劃分規則的算法101
5.4.3FP-Growth算法102
小結118
第6章大數據分析中的四種常見分類算法119
6.1分類算法概述119
6.1.1有關分類算法的基本概念119
6.1.2分類算法的常見應用場景120
6.2KNN算法124
6.2.1KNN算法的工作原理與特點124
6.2.2快速找到很優k值的實用策略125
6.3決策樹與隨機森林算法127
6.3.1決策樹算法127
6.3.2Bagging與Boosting的區別134
6.3.3隨機森林分類算法的優勢與應用場景135
6.4樸素貝葉斯分類算法141
6.4.1樸素貝葉斯分類算法運行原理分析141
6.4.2貝葉斯網絡144
6.4.3貝葉斯決策理論148
6.5支持向量機153
6.5.1支持向量機的基本思想與特點153
6.5.2很優分類面和廣義很優分類面154
6.5.3非線性支持向量機與核函數157
小結159
第7章大數據分析中的四種常見聚類算法160
7.1大數據分析聚類算法概述160
7.1.1聚類分析的相關概念及應用場景160
7.1.2聚類算法運行基礎:簇與距離度量162
7.2K均值聚類算法167
7.2.1基於劃分的K均值聚類算法167
7.2.2二分K均值聚類算法運行原理168
7.3基於密度的DBSCAN聚類方法170
7.3.1DBSCAN算法原理解析170
7.3.2DBSCAN算法的基本運行流程171
7.4高斯混合模型聚類算法173
7.4.1GMM算法原理分析174
7.4.2GMM的優選期望算法176
7.5層次聚類算法179
7.5.1層次聚類算法的算法思想179
7.5.2層次聚類算法的運行原理179
小結182
第8章自組織神經網絡算法與人工神經網絡算法183
8.1自組織神經網絡算法183
8.1.1什麼是自組織神經網絡183
8.1.2自組織映射算法運行原理183
8.1.3進行SOM網絡拓撲的實戰方法184
8.2人工神經網絡算法187
8.2.與人工神經網絡187
8.2.2BP算法的網絡結構與反向傳播189
小結192
第9章互聯網大數據分析應用——產品個性化推薦繫統193
9.1推薦算法基本邏輯與常用推薦算法類型193
9.1.1推薦算法的基本運行邏輯193
9.1.2五種常用的推薦算法196
9.2打造互聯網產品個性化推薦引擎實戰攻略198
9.2.1基於內容關聯的個性化推薦繫統打造方法198
9.2.2基於用戶行為的協同過濾算法實戰流程200
9.2.3協同過濾推薦算法在電商個性化推薦繫統中的應用法則205
9.3經典互聯網產品個性化推薦繫統案例分析208
9.3.1網易雲音樂推薦算法機制分析208
9.3.2今日頭條推薦算法原理深度解析212
小結218
第10章大數據分析在具體行業中的應用219
10.1大數據分析在商業銀行領域的應用219
10.1.1利用大數據分析顯著提升銀行精準營銷效率實戰方法219
10.1.2如何利用大數據分析提升金融風控安全性222
10.1.3利用大數據分析降低信用卡套現概率實戰技巧225
10.2大數據分析在交通領域的應用230
10.2.1公共交通利用出行數據分析合理分配運力實戰策略230
10.2.2大數據分析實現城市的智能交通233
10.3大數據分析在安防領域的應用234
10.3.1大數據分析對實現快速安檢過閘的提升作用234
10.3.2家庭安防繫統中的大數據挖掘應用235
小結236
參考文獻237
《大數據處理技術與應用》對大數據的概念、挖掘、應用進行了繫統的介紹,並且配備了相關的案例以及實際操作過程。這種理論與實踐相結合的方式能夠極大地幫助讀者掌握大數據領域的相關理論知識。《大數據處理技術與應用》共分為10章,主要內容包含互聯網大數據概述、互聯網大數據采集與獲取實戰要領、做好數據預處理的實戰方法、數據相關性分析與回歸分析的黃金法則、如何利用關聯規則進行大數據挖掘、大數據分析中的四種常見分類算法、大數據分析中的四種常見聚類算法,以及自組織神經網絡算法與人工神經網絡算法、互聯網大數據分析應用——產品個性化推薦繫統、大數據分析在具體行業中的應用等。《大數據處理技術與應用》知識體繫完善且適用,可作為高等院校大數據、人工智能等相關專業課程的教材,也可作為從事數據挖掘、機器學習工作以及其他相關工程技術工作人員的參考書。
彭進香,張莉 著
彭進香,湖南應用技術學院信息工程學院院長,副教授,市級優秀教師,“十三五”校級首批重點建設學科——計算機應用技術學科建設負責人。近年來主持和參與省、市級教研、科研項目20多項,指導省大學生研究性學習和創新性實驗計劃項目2項,發表研究論文20多篇,主編和參編教材6部,專利1項,軟件著作權2項。對互聯網企業從事數據挖掘有較深的研究,在大數據挖掘、分析及實戰場景應用方面具有深厚經驗。