了得網圖書_數據采集與預處理圖書

作者:林子雨著

定價:59.8

出版社:人民郵電出版社

出版日期:2022年01月01日

頁數:0

裝幀:平裝

ISBN:9787115580634

1.本書作者為大數據領域的知名作者——廈門大學林子雨，作者長期從事大數據教學，在大數據教育領域有較高的知名度和較大的影響力，其編著的《大數據技術原理與應用 ——概念、存儲、處理、分析與應用（第3版）》一書今年銷售預計超過5萬冊；2.本書內容全面，配套資源豐富：PPT、教學大綱、授課視頻、實驗指南、課後習題答案等；3.有服務平臺：作者教學團隊打造了在線的“高校大數據課程公共服務平臺”，為全國高校師生提供相關教學服務並經常更新。目前該平臺已經成為國內高校大數據教學品牌，平臺累計訪問量超過130等

●第 1 章概述.1.1 數據1.1.1 數據的概念.1.1.2 數據類型1.1.3 數據的組織形式.1.1.4 數據的價值1.1.5 數據爆炸.1.2 數據分析過程.1.3 數據采集與預處理的任務1.4 數據采集1.4.1 數據采集的概念1.4.2 數據采集的三大要點1.4.3 數據采集的數據源.1.4.4 數據采集方法.1.5 數據清洗1.5.1 數據清洗的應用領域1.5.2 數據清洗的實現方式.1.5.3 數據清洗的內容.1.5.4 數據清洗的注意事項1.5.5 數據清洗的基本.流.程.1.5.6 數據清洗的評價標.1.6 數據集成.1.7 數據轉換.1.7.1 數據轉換策略.1.7.2 平滑處理1.7.3 規範化處理.1.8 數據脫敏.1.8.1 數據脫敏原則.1.8.2 數據脫敏方法.1.9 本章小結.1.10 習題第 2 章大數據實驗環境搭建.2.1 Python 的安裝和使用.2.1.1 Python 簡介2.1.2 Python 的安裝2.1.3 Python 的基本使用方法2.1.4 Python 基礎語法知識2.1.5 Python 第三方模塊的安裝。2.2 JDK 的安裝.2.3 MySQL 數據庫的安裝和使用2.3.1 關繫數據庫2.3.2 關繫數據庫標準語言SQL2.3.3 安裝MySQL2.3.4 MySQL 數據庫的使用方法2.3.5 使用 Ppython操作MySQL數據庫2.4 Hadoop的安裝和使用2.4.1 Hadoop簡介2.4.2分布式繫統HDFS2.4.3 Hadoop安裝2.4.4 Hadoop的基本使用方法第 3 章網絡數據采集.3.1 網絡爬蟲概述.3.1.1 什麼是網絡爬蟲3.1.2網絡爬蟲的類型3.1.3反爬機制3.2 網頁基礎知識3.2.1超文本和HTML3.2.2 HTTP.3.3 用 Python 實現HTTP請求3.3.1 urllib模塊3.3.2 urllib3 模塊.3.3.3 requests 模塊.3.4 定制 request.s. 3.4.1 傳遞 URL參數，3.4.2 定制請求頭,3.4.3 網絡超時3.5 解析網頁3.5.1 BeautifulSoup 簡介.3.5.2 BeautifulSoup 四大對像3.5.3 遍歷文件樹3.5.4 搜索文檔樹3.5.5 CSS選擇器3.6 綜合實例實例1:采集網頁數據保存到文本實例2:采集網頁數據保存到MYSQL數據庫3.7 Scrapy 框架3.7.1 Scrapy 框架概述3.7.2 XPath 語言3.7.3 Scrapy 框架應用實例,3.8 本章小結3.9 習題.實驗 2 網絡爬蟲初級實踐第 4 章分布式消息繫統 afu.a .4.1 Kafka 簡介4.1.1 Kafk的特性4.1.2 Kafka 的應用場景.4.1.3 Kafka 的消息傳遞模式….4.2 Kafka 在大數據生態繫統中的作-用4.3 Kafka 與 Flume 的區別與聯4.4 Kafka 相關概念4.5 Kafka 的安裝和使用4.5.1 安裝Kafk4.5.2 使用 Kafka 4.6 使用 Python 操作 Kafka4.7 Kafka 與 MysQL 的組合使用，4.8 本章小結4.9 習題實驗 3 熟悉 Kafka 的基本使用方法第 5 章日志采集統Flume5.1 Flume 簡介.5.2 Flume 的安裝和使用5.2.1 Flume 的安裝.5.2.2 Flume 的使用.5.3 Flume 和 Kafka 的組合使用.5.4 采集日志文件到 HDFS.5.4.1 采集目錄到 HDFS5.4.2 采集文件到 HDFS.5.5 采集 MySQL 數據到 HDFS5.5.1 準備工作5.5.2 創建 MysQL 數據庫.5.6 本章小結.5.7 習題實驗 4熟悉 Flume 的基本使用方法第 6 章數據倉庫中的數據集成6.1數據倉庫的概念6.1.1傳統的數據倉庫6.1.2 實時主動數據倉庫6.2 數據集成6.2.1 數據集成方式6.2.2 數據分發方式6.2.3 數據集成技術6.3 ETL.6.3.1 ETL 簡介.6.3.2 ETL基本模塊6.3.3 ETL工具6.4 CDC .6.4.1 CDC 的特性6.4.2 CDC 的組成6.4.3 CDC 的應用場景6.4.4 CDC 需要考慮的問題6.5 本章小結6.6 習題第7章 ETL工具的Kettle 7.1 Kettle 的基本概念！7.2 Kettle 的基本功能7.3 安裝 Kettle. .7.4 數據抽取7.4.1 把文本文件導入Excel 文件7.4.2 把文本文件導入 MySQL 數據庫7.4.3 把 Excel 文件導入MySQL數據庫7.5 數據清洗與轉換7.5.1 使用 Kettle 實現數據排序7.5.2 在 Kettle 中用正則表達式清洗數據7.5.3 使用 Kettle 去除缺失值7.5.4 使用 Kettle 轉化 MySQL 數據庫中的數據7.6 數據加載7.6.1 把本地文件加載到 HDFS 中7.6.2 把 HDFS 文件加載到 MySQL 數庫7.7 本章.小結.7.8 習題實驗 5 熟悉 Kettle 的基本使用方法第 8 章使用 pandas 進行數據清洗8.1 NumPy 的基本使用方法8.1.1 數組創建8.1.2數組索引和切片8.1.3 數組運算8.2 pandas的數據結構8.2.2 Series8.2.2 DataFrame8.2.3索引對像8.3 pandas的基本功能8.3.1 重新索引.8.3.2 丟棄指定軸上的項8.3.3 索引、選取和濾.8.3.4 算術運算.8.3.5 DataFrame 和 Series 之間的運算.8.3.6 函數應用和映射8.3.7 排序和排名8.3.8 分組8.3.9 shape函數8.3.10 info()函數8.3.11 cut()函數8.4 彙總和描述統計8.4.1 與描述統計相關的函數8.4.2 唯一值、值計數以及成員資格,8.5 處理缺失數據8.5.1 檢查缺失值8.5.2 清理/填充缺失值.8.5.3 排除缺少的值8.6 綜合實例8.6.1 Matplotlib 的使用方法8.6.2 實例 1：對一個數據集進行基本操作8.6.3 實例 2:百度搜索指數分析8.6.4 實例 3:電影評分數據分析8.6.5 實例 4:App行為數據預處理8.7 本章小結8.8 習題實驗6 pandas數據清洗初級實踐參考文獻

本書詳細闡述了大數據領域數據采集與預處理的相關理論和技術。全書共8章，內容包括概述、大數據實驗環境搭建、網絡數據采集、分布式消息繫統Kafka、日志采集繫統Flume、數據倉庫中的數據集成、ETL工具Kettle、使用pandas進行數據清洗。本書在第3章至第8章中安排了豐富的實踐操作，以便讀者更好地學習和掌握數據采集與預處理的關鍵技術。本書可以作為高等院校大數據專業的大數據課程教材，也可供相關技術人員參考。

林子雨著

林子雨博士，國內高校知名大數據教師，廈門大學計算機科學繫副教授，廈門大學信息學院實驗教學中心主任，廈門大學數據庫實驗室負責人，中國高校少有“數字教師”提出者和建設者。2013年開始在廈門大學開設大數據課程，建設了國內高校少有大數據課程公共服務平臺，平臺累計網絡訪問量超過1000萬次，成為全國高校大數據教學，並榮獲“2018年福建省教學成果二等獎”和“2018年廈門大學教學成果特等獎”，主持的課程“大數據技術原理與應用”獲評“2018年國家精品在線開放課程”和“2020年重量線上一流本科課程”。

商品搜索

商品分类

【醫學】

【各大出版社】