作 者:鄧立國著 著
定 價:79
出 版 社:清華大學出版社
出版日期:2021年05月01日
頁 數:0
裝 幀:平裝
ISBN:9787302577874
本書以數據分析與挖掘五大環節(數據采集、數據預處理、探索分析、挖掘建模、模型評估)為軸線,配以分析用的數據與源代碼,繫統地介紹數據分析與挖掘建模領域的科學思維、推薦知識、專業工具、完整流程以及編程技巧,讓你能夠快速勝任數據分析師崗位。
●第1章 大數據采集11.1 大數據分類11.2 大數據采集方法21.3 Python爬蟲31.3.1 素41.3.2 認識網頁結構51.3.3 認識robots.txt的文檔61.3.4 爬蟲的基本原理111.3.5 Python爬蟲架構111.3.6 用GET方式抓取數據121.3.7 用 T方式抓取數據151.3.8 用Beautiful Soup解析網頁171.3.9 Python爬蟲案例191.4 本章小結25第2章 數據預處理262.1 數據清洗262.1.1 缺失值處理272.1.2 異常值處理282.2 數據集成302.3 數據轉換322.4 數據規約342.5 Python主要數據預處理函數352.6 本章小結37第3章 探索性數據分析383.1 異常值分析383.2 缺失值分析413.3 分布分析433.4 相關性分析463.5 對比分析483.6 統計量分析483.7 周期性分析513.8 貢獻度分析513.9 Python主要數據探索函數523.10 本章小結53第4章 Sklearn估計器544.1 Sklearn概述544.2 使用Sklearn估計器分類584.2.1 k近鄰算法594.2.2 管道機制634.2.3 Sklearn比較分類器654.3 本章小結69第5章 主流數據分析庫705.1 NumPy705.2 Pandas755.2.1 Pandas繫列765.2.2 Pandas數據幀785.2.3 Pandas面板845.3 SciPy865.4 Matplotlib905.5 本章小結93第6章 大數據:數據庫類型946.1 關繫型數據庫946.2 關繫型數據庫與非關繫型數據庫的關繫956.3 SQLite966.3.1 SQLite安裝與配置966.3.2 SQLite命令976.3.3 SQLite語法996.3.4 SQLite - Python1046.4 MySQL1116.4.1 MySQL安裝1116.4.2 MySQL管理1146.4.3 MySQL PHP語法1166.4.4 PHP腳本連接MySQL1166.4.5 Python操作MySQL數據庫1176.5 NoSQL數據庫1236.5.1 NoSQL概述1236.5.2 列存儲數據庫1256.5.3 文檔存儲數據庫1346.5.4 鍵值存儲數據庫1436.5.5 圖存儲數據庫1536.5.6 對像存儲數據庫1556.5.7 XML數據庫1556.6 本章小結157第7章 數據倉庫/商業智能1587.1 數據倉庫和商業智能簡介1587.2 數據倉庫架構1597.3 OLAP1607.4 數據集市1617.5 商業智能1627.6 本章小結163第8章 數據聚合與分組運算1648.1 GroupBy技術1648.1.1 通過函數進行分組1658.1.2 對分組進行迭代1678.1.3 選取一個或一組列1708.1.4 通過字典或Series進行分組1718.1.5 通過函數進行分組1728.1.6 根據索引級別分組1738.2 數據聚合1748.2.1 面向列的多函數應用1748.2.2 以無索引的方式返回聚合數據1778.2.3 分組級運算和轉換1788.3 透視表和交叉表1818.4 本章小結183第9章 數據挖掘工具1849.1 數據挖掘工具分類1849.2 數據挖掘經典算法1859.3 免費數據挖掘工具1869.4 Git和GitHub項目數據挖掘工具1889.5 Python數據挖掘工具1909.5.1 Gensim1909.5.2 TensorFlow1949.5.3 Keras1979.6 本章小結197第10章 挖掘建模19810.1 數據挖掘建模的一般過程19810.2 分類與預測19910.3 聚類分析20010.4 關聯分析20110.5 時序模式20210.6 離群點檢測20310.7 本章小結204第11章 模型評估20511.1 驗證20511.2 交叉驗證20611.3 自助法20611.4 回歸評估指標20711.5 分類評估指標20711.6 ROC曲線20811.7 本章小結210第12章 社會媒體挖掘21112.1 社會媒體與社會媒體數據21112.2 中國社會媒體核心用戶數據分析21212.3 社會媒體挖掘技術與研究熱點21312.4 社會媒體挖掘流程21412.5 Twitter情感分析21612.6 本章小結221第13章 圖挖掘分類22213.1 圖挖掘概述22213.2 圖挖掘技術基礎22413.3 網絡度量22613.4 網絡模型22913.5 圖挖掘與知識推理23013.6 圖挖掘算法簡介23113.7 社區檢測23213.7.1 模塊度23313.7.2 社區發現算法23413.8 頻繁子圖挖掘算法gSpan的實現23713.9 基於network行社交網絡分析23913.10 本章小結245第14章 基於深度學習的驗證碼識別24614.1 獲取圖片驗證碼24614.2 驗證碼圖片預處理24814.3 依賴TensorFlow的深度學習驗證碼識別25514.4 本章小結259第15章 基於深度學習的文本分類挖掘實現26015.1 文本分類概念26015.2 文本分類挖掘算法概述26115.3 基於傳統機器學習的文本分類26215.4 基於深度學習的文本分類26315.4.1 FastText文本分類模型算法實現26415.4.2 TextCNN文本分類模型算法實現26815.4.3 Bert深度雙向Transformer構建語言理解預訓練模型27115.4.4 TextRNN文本分類27315.4.5 RCNN文本分類27515.4.6 Hierarchical Attention Network文本分類27815.4.7 seq2seq with attention文本分類28115.4.8 Transformer文本分類28315.4.9 Dynamic Memory Network文本分類28915.4.10 Recurrent Entity Network文本分類29215.4.11 Boosting文本分類29415.4.12 BiLstmTextRelation文本分析29415.4.13 twoCNNTextRelation文本分類29715.5 本章小結297參考文獻298
本書涵蓋數據分析與數據挖掘的基礎知識、推薦工具和有效實踐方法,能讓讀者充分掌握數據分析與數據挖掘的基本技能。本書共分為15章,主要內容包括大數據獲取、數據預處理、探索性數據分析、用Sklearn估計器分類、主流數據分析庫、大數據的數據庫類型、數據倉庫/商業智能、數據聚合與分組運算、數據挖掘工具、挖掘建模、模型評估、社會媒體挖掘、圖挖掘分類、基於深度學習的驗證碼識別、基於深度學習的文本分類挖掘實現。本書采用理論與實踐相結合的方式,利用Python語言的強大功能,以最小的編程代價進行數據的提取、處理、分析和挖掘,既適合Python數據分析與數據挖掘初學者、大數據從業人員閱讀,也適合高等院校和培訓機構大數據與人工智能相關專業的師生教學參考。
鄧立國著 著
鄧立國,東北大學計算機應用博士畢業。2005年開始在瀋陽師範大學軟件學院、教育技術學院任教,主要研究方向:數據挖掘、知識工程、大數據處理、雲計算、分布式計算等。以第一作者發表學術論文30多篇(26篇EI),主編教材 1 部,主持科研課題6項,經費1,多次獲得校級科研優秀獎,作為九三社員提出的智慧城市提案被市政府采納,研究成果被教育廳等單位采用。