[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  • 新类目

     管理
     投资理财
     经济
     社会科学
  • PYTHON數據預處理技術與實踐 白寧超,唐聃,文俊 著 程序設計(新
    該商品所屬分類:計算機/網絡 -> 計算機/網絡
    【市場價】
    529-768
    【優惠價】
    331-480
    【作者】 白寧超 
    【出版社】清華大學出版社 
    【ISBN】9787302539711
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    品牌:清華大學出版社
    ISBN編號:9787302539711
    書名:Python數據預處理技術與實踐 Python數據預處理技術與實踐

    作者:白寧超
    代碼:69
    開本:16開

    是否是套裝:否
    出版社名稱:清華大學出版社

        
        
    "

    PYTHON數據預處理技術與實踐

    作  者: 白寧超,唐聃,文俊 著
    size="731x8"
    定  價: 69
    size="731x8"
    出?版?社: 清華大學出版社
    size="731x8"
    出版日期: 2019年12月01日
    size="731x8"
    頁  數: 256
    size="731x8"
    裝  幀: 平裝
    size="731x8"
    ISBN: 9787302539711
    size="731x8"
    目錄
    章 概述
    1.1 Python數據預處理
    1.1.1 什麼是數據預處理
    1.1.2 為什麼要做數據預處理
    1.1.3 數據預處理的工作流程
    1.1.4 數據預處理的應用場景
    1.2 開發工具與環境
    1.2.1 Anaconda介紹與安裝
    1.2.2 Sublime Text
    1.3 實戰案例:個中文分詞程序
    1.3.1 中文分詞
    1.3.2 實例介紹
    1.3.3 結巴實現中文分詞
    1.4 本章小結
    第2章 Python科學計算工具
    2.1 NumPy
    2.1.1 NumPy的安裝和特點
    2.1.2 NumPy數組
    2.1.3 Numpy的數學函數
    2.1.4 NumPy線性代數運算
    2.1.5 NumPy IO操作
    2.2 SciPy
    2.2.1 SciPy的安裝和特點
    2.2.2 SciPy Linalg
    2.2.3 SciPy文件操作
    2.2.4 SciPy 插值
    2.2.5 SciPy Ndimage
    2.2.6 SciPy優化算法
    2.3 Pandas
    2.3.1 Pandas的安裝和特點
    2.3.2 Pandas的數據結構
    2.3.3 Pandas的數據統計
    2.3.4 Pandas處理丟失值
    2.3.5 Pandas處理稀疏數據
    2.3.6 Pandas的文件操作
    2.3.7 Pandas 可視化
    2.4 本章小結
    第3章 數據采集與存儲
    3.1 數據與數據采集
    3.2 數據類型與采集方法
    3.2.1 結構化數據
    3.2.2 半結構化數據
    3.2.3 非結構化數據
    3.3 網絡爬蟲技術
    3.3.1 前置條件
    3.3.2 Scrapy 技術原理
    3.3.3 Scrapy新建爬蟲項目
    3.3.4 爬取網站內容
    3.4 爬取數據以JSON格式進行存儲
    3.5 爬取數據的MySQL存儲
    3.5.1 MySQL與Navicat部署
    3.5.2 MySQL存儲爬蟲數據
    3.6 網絡爬蟲技術擴展
    3.7 本章小結
    第4章 文本信息抽取
    4.1 文本抽取概述
    4.2 文本抽取問題
    4.3 Pywin32抽取文本信息
    4.3.1 Pywin32介紹
    4.3.2 抽取Word文檔文本信息
    4.3.3 抽取PDF文檔文本信息
    4.3.4 打造靈活的文本抽取工具
    4.4 文本批量編碼
    4.5 實戰案例:遍歷文件批量抽取新聞文本內容
    4.5.1 遞歸讀取文件
    4.5.2 遍歷抽取新聞文本
    4.6 本章小結
    第5章 文本數據清洗
    5.1 新聞語料的準備
    5.2 高效讀取文件
    5.2.1 遞歸遍歷讀取新聞
    5.2.2 yield生成器
    5.2.3 高效遍歷讀取新聞
    5.3 通過正則表達式來清洗文本數據
    5.3.1 正則表達式
    5.3.2 清洗文本數據
    5.4 清洗HTML網頁數據
    5.5 簡繁字體轉換
    5.6 實戰案例:批量新聞文本數據清洗
    5.6.1 高效讀取文件內容
    5.6.2 抽樣處理文件
    5.6.3 通過正則表達式批量清洗文件
    5.7 本章小結
    第6章 中文分詞技術
    6.1 中文分詞簡介
    6.1.1 中文分詞概述
    6.1.2 常見中文分詞方法
    6.2 結巴分詞精講
    6.2.1 結巴分詞的特點
    6.2.2 結巴分詞的安裝
    6.2.3 結巴分詞核心方法
    6.2.4 結巴中文分詞的基本操作
    6.2.5 自定義分詞詞典
    6.2.6 關鍵詞提取
    6.2.7 詞性標注
    6.3 HanLP分詞精講
    6.3.1 JPype1的安裝
    6.3.2 調用HanLP的Java包
    6.3.3 HanLP分詞
    6.3.4 HanLP實現自定義分詞
    6.3.5 命名實體識別與詞性標注
    6.3.6 HanLP實現關鍵詞抽取
    6.3.7 HanLP實現自動摘要
    6.4 自定義去除停用詞
    6.4.1 以正則表達式對文本信息進行清洗
    6.4.2 結巴中文分詞詞性解讀
    6.4.3 根據詞性規則構建自定義停用詞
    6.5 詞頻統計
    6.5.1 NLTK介紹與安裝
    6.5.2 統計新聞文本詞頻
    6.5.3 統計特定詞頻和次數
    6.5.4 特征詞的頻率分布表
    6.5.5 頻率分布圖與頻率累計分布圖
    6.5.6 基於Counter的詞頻統計
    6.6 自定義去高低詞頻
    6.7 自定義規則提取特征詞
    6.8 實戰案例:新聞文本分詞處理
    6.9 本章小結
    第7章 文本特征向量化
    7.1 解析數據文件
    7.2 處理缺失值
    7.2.1 什麼是數據缺失值
    7.2.2 均值法處理數據缺失值
    7.2.3 Pandas 處理缺失值
    7.3 數據的歸一化處理
    7.3.1 不均衡數據分析
    7.3.2 歸一化的原理
    7.3.3 歸一化的優點
    7.4 特征詞轉文本向量
    7.5 詞頻-逆詞頻(TF-IDF)
    7.6 詞集模型與詞袋模型
    7.7 實戰案例:新聞文本特征向量化
    7.8 本章小結
    第8章 Gensim文本向量化
    8.1 Gensim的特性和核心概念
    8.2 Gensim構建語料詞典
    8.3 Gensim統計詞頻特征
    8.4 Gensim計算TF-IDF
    8.5 Gensim實現主題模型
    8.5.1 主題模型
    8.5.2 潛在語義分析(LSA)
    8.5.3 隱含狄利克雷分布(LDA)
    8.5.4 LDA的模型實現
    8.5.5 隨機映射(RP)
    8.6 實戰案例:Gensim實現新聞文本特征向量化
    8.6.1 參數設置
    8.6.2 生成詞典模型
    8.6.3 生成TF-IDF模型
    8.7 本章小結
    第9章 PCA降維技術
    9.1 什麼是降維
    9.2 PCA概述
    9.3 PCA應用場景
    9.4 PCA的算法實現
    9.4.1 準備數據
    9.4.2 PCA數據降維
    9.4.3 高維向低維數據映射
    9.5 實戰案例:PCA技術實現新聞文本特征降維
    9.5.1 加載新聞數據
    9.5.2 前N個主成分特征
    9.5.3 PCA新聞特征降維可視化
    9.6 本章小結
    0章 數據可視化
    10.1 Matplotlib概述
    10.1.1 認識 Matplotlib
    10.1.2 Matplotlib的架構
    10.2 Matplotlib繪制折線圖
    10.2.1 折線圖的應用場景
    10.2.2 折線圖的繪制示例
    10.3 Matplotlib繪制散點圖
    10.3.1 散點圖的應用場景
    10.3.2 散點圖的繪制示例
    10.4 Matplotlib繪制直方圖
    10.4.1 直方圖的應用場景
    10.4.2 直方圖的繪制示例
    10.5 練習:Matplotlib繪制氣溫圖
    10.6 練習:Matplotlib繪制三維圖
    10.6.1 練習1:繪制三維梯度下降圖
    10.6.2 練習2:繪制三維散點圖
    10.7 本章小結
    1章 競賽神器XGBoost
    11.1 XGBoost概述
    11.1.1 認識XGBoost
    11.1.2 XGBoost的應用場景
    11.2 XGBoost的優點
    11.3 使用XGBoost預測毒蘑菇
    11.3.1 XGBoost的開發環境及安裝
    11.3.2 數據準備
    11.3.3 參數設置
    11.3.4 模型訓練
    11.3.5 可視化特征排名
    11.4 XGBoost優化調參
    11.4.1 參數解讀
    11.4.2 調參原則
    11.4.3 調參技巧
    11.5 預測糖尿病患者
    11.5.1 數據準備
    11.5.2 預測器模型構建
    11.5.3 調參提高預測器的性能
    11.6 本章小結
    2章 XGBoost實現新聞文本分類
    12.1 文本分類概述
    12.2 文本分類的原理
    12.2.1 文本分類的數學描述
    12.2.2 文本分類的形式化描述
    12.3 分類模型評估
    12.4 數據預處理
    12.4.1 通用的類庫
    12.4.2 階段1:生成詞典
    12.4.3 階段2:詞典向量化TF-IDF
    12.4.4 階段3:生成主題模型
    12.5 XGBoost分類器
    12.6 新聞文本分類應用
    12.7 本章小結
    參考文獻
    內容虛線

    內容簡介

    size="789x11"

    本書基礎理論和工程應用相結合,循序漸進地介紹了數據預處理的基本概念、基礎知識、工具應用和相關案例,包括網絡爬蟲、數據抽取、數據清洗、數據集成、數據變換、數據向量化、數據規約等知識,書中針對每個知識點,都給出了豐富的教學實例和實現代碼,很後,通過一個新聞文本分類的實際項目講解了數據預處理技術在實際中的應用。
    本書的特點是幾乎涵蓋了數據預處理的各種常用技術及主流工具應用,示例代碼很豐富,適合於大數據從業者、AI技術開發人員以及高校大數據專業的學生使用。

    作者簡介

    白寧超,唐聃,文俊 著

    size="43x26"

      

    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部