[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • Python爬蟲大數據采集與挖掘-微課視頻版(大數據與人工智能技術
    該商品所屬分類:計算機/網絡 -> 程序設計
    【市場價】
    297-430
    【優惠價】
    186-269
    【作者】 曾劍平 
    【所屬類別】 圖書  計算機/網絡  程序設計  Python 
    【出版社】清華大學出版社 
    【ISBN】9787302540540
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787302540540
    作者:曾劍平

    出版社:清華大學出版社
    出版時間:2020年06月 

        
        
    "

    產品特色

    編輯推薦

    本書圍繞大數據采集,對采集技術的相關基礎、技術原理、Python實現技術、大數據挖掘與應用方法進行了繫統介紹。書中全面完整地覆蓋了各種類型的網絡爬蟲及相關的信息處理挖掘技術,並提供了27個與爬蟲相關技術和應用相關的Python程序。本書可以作為高等院校大數據、計算機、信息以及經管、金融等人文社科相關專業研究生和高年級本科生的教材,也可以作為大數據、計算機、信息以及經管、金融等人文社科領域研究人員和專業技術人員的參考書。

     
    內容簡介

    基礎篇:HTTP協議、WEB服務器原理、網絡協議、HTML規範、編碼
    技術原理篇:普通爬蟲、主題爬蟲、微博、禮貌型爬蟲、分布式爬蟲、協議數據還原、ETL、大數據交易技術:平臺、技術支持、難點
    工具與應用篇:從零開始、開源繫統/Java、Python
    工具應用:爬蟲用於抓取論壇、用於輿情監測

    作者簡介

    復旦大學副教授,長期從事大數據教學工作

    目錄


    目錄


     


     


     



    源碼下載


     


    部分概述


    第1章大數據采集概述


    1.1互聯網大數據與采集


    1.1.1互聯網大數據來源


    1.1.2互聯網大數據的特征


    1.2Python爬蟲大數據采集技術的重要性


    1.3爬蟲技術研究及應用現狀


    1.4爬蟲技術的應用場景


    1.5爬蟲大數據采集的技術體繫


    1.5.1技術體繫構成


    1.5.2相關技術


    1.5.3技術評價方法


    1.6爬蟲大數據采集與挖掘的合規性


    1.7爬蟲大數據采集技術的展望


    思考題



    第二部分基礎篇


    第2章Web頁面及相關技術


    2.1HTML語言規範


    2.1.1HTML標簽


    2.1.2HTML整體結構


    2.1.3CSS簡述


    2.1.4常用標簽


    2.1.5HTML語言的版本進化


    2.2編碼體繫與規範


    2.2.1ASCII


    2.2.2gb2312/gbk


    2.2.3unicode


    2.2.4utf8


    2.2.5網頁中的編碼和Python處理


    2.3Python正則表達式


    思考題


     


     


    第3章Web應用架構與協議


    3.1常用的Web服務器軟件


    3.1.1流行的Web服務器軟件


    3.1.2在Python中配置Web服務器


    3.2Web服務器的應用架構


    3.2.1典型的應用架構


    3.2.2Web頁面的類型


    3.2.3頁面文件的組織方式


    3.3Robots協議


    3.3.1Robots協議的來歷


    3.3.2Robots協議的規範與實現


    3.4HTTP協議


    3.4.1HTTP版本的技術特性


    3.4.2HTTP報文


    3.4.3HTTP頭部


    3.4.4HTTP狀態碼


    3.4.5HTTPS


    3.5狀態保持技術


    3.5.1Cookie


    3.5.2Session


    思考題


    第三部分技術與實現篇


    第4章普通爬蟲頁面采集技術與Python實現


    4.1普通爬蟲的體繫架構


    4.2Web服務器連接器


    4.2.1整體處理過程


    4.2.2DNS緩存


    4.2.3requests/response的使用方法


    4.2.4錯誤和異常的處理


    4.3超鏈接及域名提取與過濾


    4.3.1超鏈接的類型


    4.3.2提取方法


    4.3.3遵守Robots協議的友好爬蟲


    4.4爬行策略與實現


    4.4.1爬行策略及設計方法


    4.4.2寬度優先和深度優先策略


    4.4.3基於PageRank的重要性排序


    4.4.4其他策略


    4.4.5爬行策略設計的綜合考慮


    思考題


    第5章動態頁面采集技術與Python實現


    5.1動態頁面內容的生成與交互


    5.1.1頁面內容的生成方式


    5.1.2動態頁面交互的實現


    5.2動態頁面采集技術


    5.3使用帶參數的URL


    5.4利用Cookie和Session


    5.5使用Ajax: 以評論型頁面為例


    5.5.1獲取URL地址


    5.5.2獲取動態請求參數


    5.6模擬瀏覽器——以自動登錄郵箱為例


    思考題


    第6章Web信息提取與Python實現


    6.1Web信息提取任務及要求


    6.2Web頁面內容提取的思路


    6.2.1DOM樹


    6.2.2提取方法


    6.3基於HTML結構的內容提取方法


    6.3.1html.parser


    6.3.2lxml


    6.3.3html5lib


    6.3.4BeautifulSoup


    6.3.5PyQuery


    6.4基於統計的Web內容抽取方法


    思考題


    第7章主題爬蟲頁面采集技術與Python實現


    7.1主題爬蟲的使用場景


    7.2主題爬蟲技術框架


    7.3主題及其表示


    7.4相關度計算


    7.4.1主題相關度的計算


    7.4.2鏈接相關度估算


    7.4.3頁面內容相關度計算


    7.5特定新聞主題采集


    思考題


    第8章Deep Web爬蟲與Python實現


    8.1相關概念


    8.2Deep Web的特征和采集要求


    8.3深度網頁內容獲取技術架構


    8.3.1領域本體知識庫


    8.3.2尋找表單


    8.3.3表單處理


    8.3.4結果處理


    8.4圖書信息采集


    思考題


    第9章微博信息采集與Python實現


    9.1微博信息采集方法概述


    9.2微博開放平臺授權與測試


    9.3在Python中調用微博API采集數據


    9.3.1流程介紹


    9.3.2微博API及使用方法


    9.3.3采集微博用戶個人信息


    9.3.4采集微博博文


    9.3.5微博API的限制


    9.4通過爬蟲采集微博信息


    思考題


    第10章反爬蟲技術與反反爬蟲技術


    10.1兩種技術的概述


    10.2反爬蟲技術


    10.2.1爬蟲檢測技術


    10.2.2爬蟲阻斷技術


    10.3反反爬蟲技術


    思考題


    第四部分大數據挖掘與應用篇


    第11章文本信息處理與挖掘技術


    11.1文本預處理


    11.1.1詞彙切分


    11.1.2停用詞過濾


    11.1.3詞形規範化


    11.1.4Python開源庫jieba的使用


    11.2文本的向量空間模型


    11.2.1特征選擇


    11.2.2模型表示


    11.2.3使用Python構建向量空間表示


    11.3文本分類及實現技術


    11.3.1分類技術概要


    11.3.2分類器技術


    11.3.3新聞分類的Python實現


    11.4主題及其實現技術


    11.4.1主題的定義


    11.4.2基於向量空間的主題構建


    11.4.3LDA主題模型


    11.4.4LDA模型的Python實現


    11.5大數據可視化技術


    11.5.1大數據可視化方法概述


    11.5.2Python開源庫的使用


    思考題


    第12章互聯網大數據獲取技術的應用


    12.1常見應用模式


    12.2新聞閱讀器采集與分析


    12.2.1目標任務


    12.2.2總體思路


    12.2.3新聞內容采集與提取


    12.2.4新聞分析


    12.3爬蟲用於Web網站SQL注入檢測


    12.3.1目標任務


    12.3.2總體思路


    12.3.3Python程序設計


    思考題


    附錄A代碼與數據


    附錄B相關包索引


    附錄C爬蟲框架


    附錄D書中視頻對應二維碼彙總表



    參考文獻

    前言
    前言
    互聯網數據具有典型的大數據特征,即數據量巨大、數據類型多樣化、數據來源豐富,並且隨著“互聯網 ”國家戰略的推進,互聯網大數據的應用價值變得多樣化。因此,互聯網大數據成為大數據技術教學和研究應用的重要數據源。
    在這種背景下,互聯網大數據采集技術成為許多人迫切需要掌握的技術,本書就是為了適應這種需求而編寫的,同時本書也是作者及其科研團隊十多年來教學和科研實踐經驗的總結。作者及其科研團隊長期從事互聯網內容分析挖掘、網絡輿情、大數據、信息內容安全技術和應用方面的科研工作,在包括國家自然科學基金項目在內的各類科研項目支持下,對互聯網信息獲取和處理方法開展了大量研究,積累了一定的經驗和成果,涵蓋論文、發明專利和軟件著作權等,作者強烈希望把科研工作中的體會和理解整理出來。
    作者從2011年開始先後為復旦大學信息安全專業的本科生、研究生開設了“信息內容安全”“大數據安全”等課程,經過多年的教學實踐,了解了學生的學習需求,積累了較為充足的關於互聯網大數據采集挖掘技術的講義和素材。作者於2017年出版了《互聯網大數據處理技術與應用》一書,兩年來經過在不同場合下與學生、讀者和同行的交流,體會到互聯網大數據采集技術在大數據研究和教學中的重要性,因此也迫切需要對大數據采集技術進行深入細化,整理相關技術原理和實現技術。

    前言
    互聯網數據具有典型的大數據特征,即數據量巨大、數據類型多樣化、數據來源豐富,並且隨著“互聯網 ”國家戰略的推進,互聯網大數據的應用價值變得多樣化。因此,互聯網大數據成為大數據技術教學和研究應用的重要數據源。
    在這種背景下,互聯網大數據采集技術成為許多人迫切需要掌握的技術,本書就是為了適應這種需求而編寫的,同時本書也是作者及其科研團隊十多年來教學和科研實踐經驗的總結。作者及其科研團隊長期從事互聯網內容分析挖掘、網絡輿情、大數據、信息內容安全技術和應用方面的科研工作,在包括國家自然科學基金項目在內的各類科研項目支持下,對互聯網信息獲取和處理方法開展了大量研究,積累了一定的經驗和成果,涵蓋論文、發明專利和軟件著作權等,作者強烈希望把科研工作中的體會和理解整理出來。
    作者從2011年開始先後為復旦大學信息安全專業的本科生、研究生開設了“信息內容安全”“大數據安全”等課程,經過多年的教學實踐,了解了學生的學習需求,積累了較為充足的關於互聯網大數據采集挖掘技術的講義和素材。作者於2017年出版了《互聯網大數據處理技術與應用》一書,兩年來經過在不同場合下與學生、讀者和同行的交流,體會到互聯網大數據采集技術在大數據研究和教學中的重要性,因此也迫切需要對大數據采集技術進行深入細化,整理相關技術原理和實現技術。


    本書以互聯網大數據采集為主題,介紹相關技術基礎、大數據采集技術、大數據挖掘及應用技術。在內容安排上,本書充分考慮了知識體繫的完整性和獨立性,涵蓋Web應用架構技術、Web頁面及相關技術、各種爬蟲采集技術、Web信息提取技術、大數據處理與挖掘以及應用方式; 在爬蟲技術上,涵蓋了各種不同類型的爬蟲,包括普通爬蟲、動態爬蟲、主題爬蟲、Deep Web爬蟲以及微博爬蟲; 在應用方面,以兩種典型的Web網站信息采集與處理為例,介紹了爬蟲技術的應用模式與Python實現方法。
    本書作為一本產學兼顧的教材,具有如下特色: 



    (1) 以互聯網大數據采集技術為中心,將Web應用技術、各種頁面采集的共性技術與特有技術、大數據處理與挖掘以及爬蟲合規性等相關技術有機地結合在一起,涉及當前互聯網Web空間的典型應用,構成完整的大數據采集技術和應用的知識體繫。


    (2) 在互聯網大數據的采集技術中,完整繫統地涵蓋了普通爬蟲、動態爬蟲、主題爬蟲、Deep Web爬蟲以及微博數據采集,既強調爬蟲抓取數據的功能,也凸顯爬蟲作為Web應用安全監測的主要技術,有利於讀者全面理解網絡爬蟲大數據技術及其應用。
    (3) 秉承“授人以魚不如授人以漁”的總體思路,本書理論與實踐相結合,書中既有相關技術原理的介紹,也包含了大量的Python實現技術、開源架構等方面的介紹,提供了27個與爬蟲技術和應用相關的Python程序,使得讀者既能理解技術問題又能動手實踐。
    本書分為四大部分,共12章,涵蓋互聯網大數據采集的基礎、技術和應用,各章的內容安排如下: 
    部分概述,包括第1章。
    第1章對大數據采集的重要性、技術體繫、應用現狀、合規性以及技術發展進行了概述。


     



    第二部分基礎篇,包括第2、3章。
    第2章介紹了Web頁面信息提取中的主要基礎技術和方法,包括HTML語言規範、頁面編碼體繫與規範,以及廣泛用於Web頁面簡單信息提取的正則表達式。
    第3章對Web應用架構技術進行了介紹,包括Web服務器應用架構、HTTP協議、狀態保持技術、Robots協議等與爬蟲密切相關的技術。
    第三部分技術與實現篇,包括第4~10章。
    第4章對普通爬蟲頁面采集技術進行了介紹,包括Web服務器連接器、爬蟲策略、超鏈接處理以及Python的實現方法等。
    第5章介紹了動態爬蟲的相關技術,包括動態頁面內容的生成與交互、動態頁面采集的若干種典型方法和Python實現技術。
    第6章介紹了從Web頁面提取信息所需要的技術,介紹了技術原理和典型的開源技術,給出了一些實例。


    第7章介紹了主題爬蟲技術及實現方法,涉及主題爬蟲的技術體繫、主題表示和建模、主題相似度計算等。
    第8章是關於Deep Web的數據采集技術及實現。
    第9章是關於微博信息的采集方法及實現,主要包括通過API獲取微博信息和通過爬蟲技術獲取微博信息兩種方法。
    第10章介紹了反爬蟲的常用技術,同時也介紹了針對這些反爬蟲技術的一些主要應對措施。
    第四部分大數據挖掘與應用篇,包括第11、12章。
    第11章介紹了大數據采集應用以及主題爬蟲中需要使用的部分技術,包括文本的預處理、文本分類、主題建模、大數據可視化技術以及一些開源工具等。
    第12章針對兩種典型的大數據采集技術應用案例進行了完整的介紹。


    這些章節的知識點之間的依賴關繫如下圖所示,其中,虛框中的第4~9章是各種典型的爬蟲采集技術,
    第1~3章是相關技術基礎。讀者可以根據自己的基礎選擇合適的學習路線。


     



    全書由曾劍平負責內容安排、統稿,由互聯網大數據處理技術和應用研究領域的一線人員參與編寫。段江嬌參與編寫了第1、4、5章,廖含月編寫了第2章的部分內編寫了本書部分例子的程序及相關文字說明,肖楊實現了SQL注入的爬蟲在線檢測,其他部分由曾劍平編寫,曾睿對全書進行了校對。清華大學出版社的編輯們為本書的出版和編輯、校對花費了很多心思; 此外,在本書的編寫過程中參考和引用了許多作者發表的各種論文、技術報告,均已在參考文獻中列出,在此一並表示衷心的感謝。需要特別提到的是,為了便於讀者理解相關技術,書中選擇若干互聯網網站頁面采集作為實例,特別向這些網站表示感謝。
    注: 本書提供300分鐘的視頻講解,掃描書中相關位置的二維碼可以在線觀看、學習; 本書還提供教學大綱、教學課件、程序源碼、教學進度表等配套資源,掃描封底的二維碼可以下載。
    互聯網大數據采集技術仍在不斷發展當中,本書在內容選擇及編寫上從深度和廣度做了精心的安排。由於時間倉促以及作者的學識水平限制,書中難免存在不足之處和疏忽,懇請讀者不吝批評指正,以利於再版修訂完善。



    作者2019年10月

















     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部