[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 實戰Python網絡爬蟲
    該商品所屬分類:計算機/網絡 -> 程序設計
    【市場價】
    489-710
    【優惠價】
    306-444
    【作者】 黃永祥 
    【所屬類別】 圖書  計算機/網絡  程序設計  Python 
    【出版社】清華大學出版社 
    【ISBN】9787302524892
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787302524892
    作者:黃永祥

    出版社:清華大學出版社
    出版時間:2019年05月 

        
        
    "

    產品特色

    width="750"

    編輯推薦

    從爬蟲軟件開發到自己動手開發爬蟲框架

    從原理到實踐,深入淺出,熱門爬蟲核心技術全掌握
    涵蓋豐富的爬蟲工具、庫、框架,十餘個實戰項目
    資深爬蟲工程師傾力奉獻,入門、進階、求職

     
    內容簡介

    本書從原理到實踐,循序漸進地講述了使用Python開發網絡爬蟲的核心技術。全書從邏輯上可分為基礎篇、實戰篇和爬蟲框架篇三部分。基礎篇主要介紹了編寫網絡爬蟲所需的基礎知識,包括網站分析、數據抓取、數據清洗和數據入庫。網站分析講述如何使用Chrome和Fiddler抓包工具對網站做全面分析;數據抓取介紹了Python爬蟲模塊Urllib和Requests的基礎知識;數據清洗主要介紹字符串操作、正則和BeautifulSoup的使用;數據入庫講述了MySQL和MongoDB的操作,通過ORM框架SQLAlchemy實現數據持久化,進行企業級開發。實戰篇深入講解了分布式爬蟲、爬蟲軟件的開發、12306搶票程序和微博爬取等。框架篇主要講述流行的爬蟲框架Scrapy,並以Scrapy與Selenium、Splash、Redis結合的項目案例,讓讀者深層次了解Scrapy的使用。此外,本書還介紹了爬蟲的上線部署、如何自己動手開發一款爬蟲框架、反爬蟲技術的解決方案等內容。 本書使用Python 3.X編寫,技術先進,項目豐富,適合欲從事爬蟲工程師和數據分析師崗位的初學者、大學生和研究生使用,也很適合有一些網絡爬蟲編寫經驗,但希望更加全面、深入理解Python爬蟲的開發人員使用。

    作者簡介

    黃永祥,CSDN博客專家和簽約講師,多年軟件研發經驗,主要從事機器人流程繫統研發、大數據繫統研發、網絡爬蟲研發以及自動化運維繫統研發。擅長使用Python編寫高質量代碼,對Python有深入研究,熱愛分享和新技術的探索。

    目錄
    目 錄
    第1章 理解網絡爬蟲 1
    1.1 爬蟲的定義 1
    1.2 爬蟲的類型 2
    1.3 爬蟲的原理 2
    1.4 爬蟲的搜索策略 4
    1.5 爬蟲的合法性與開發流程 5
    1.6 本章小結 6
    第2章 爬蟲開發基礎 7
    2.1 HTTP與HTTPS 7
    2.2 請求頭 9
    2.3 Cookies 10
    2.4 HTML 11
    2.5 JavaScript 12

    目   錄
    第1章  理解網絡爬蟲    1
    1.1  爬蟲的定義    1
    1.2  爬蟲的類型    2
    1.3  爬蟲的原理    2
    1.4  爬蟲的搜索策略    4
    1.5  爬蟲的合法性與開發流程    5
    1.6  本章小結    6
    第2章  爬蟲開發基礎    7
    2.1  HTTP與HTTPS    7
    2.2  請求頭    9
    2.3  Cookies    10
    2.4  HTML    11
    2.5  JavaScript    12
    2.6  JSON    14
    2.7  Ajax    14
    2.8  本章小結    15
    第3章  Chrome分析網站    16
    3.1  Chrome開發工具    16
    3.2  Elements標簽    17
    3.3  Network標簽    18
    3.4  分析QQ音樂    20
    3.5  本章小結    23
    第4章  Fiddler抓包    24
    4.1  Fiddler介紹    24
    4.2  Fiddler安裝配置    24
    4.3  Fiddler抓取手機應用    26
    4.4  Toolbar工具欄    29
    4.5  Web Session列表    30
    4.6  View選項視圖    32
    4.7  Quickexec命令行    33
    4.8  本章小結    34
    第5章  爬蟲庫Urllib    35
    5.1  Urllib簡介    35
    5.2  發送請求    36
    5.3  復雜的請求    37
    5.4  代理IP    38
    5.5  使用Cookies    39
    5.6  證書驗證    40
    5.7  數據處理    41
    5.8  本章小結    42
    第6章  爬蟲庫Requests    43
    6.1  Requests簡介及安裝    43
    6.2  請求方式    44
    6.3  復雜的請求方式    45
    6.4  下載與上傳    47
    6.5  本章小結    49
    第7章  Requests-Cache爬蟲緩存    50
    7.1  簡介及安裝    50
    7.2  在Requests中使用緩存    50
    7.3  緩存的存儲機制    53
    7.4  本章小結    54
    第8章  爬蟲庫Requests-HTML    55
    8.1  簡介及安裝    55
    8.2  請求方式    56
    8.3  數據清洗    56
    8.4  Ajax動態數據抓取    59
    8.5  本章小結    61
    第9章  網頁操控與數據爬取    62
    9.1  了解Selenium    62
    9.2  安裝Selenium    63
    9.3 素定位    66
    9.4 素操控    70
    9.5  常用功能    73
    9.6  實戰:百度自動答題    80
    9.7  本章小結    85
    第10章  手機App數據爬取    86
    10.1  Appium簡介及原理    86
    10.2  搭建開發環境    87
    10.3  連接Android繫統    92
    10.4  A素定位    97
    10.5  A素操控    99
    10.6  實戰:淘寶商品采集    102
    10.7  本章小結    107
    第11章  Splash、Mitmproxy與Aiohttp    109
    11.1  Splash動態數據抓取    109
    11.1.1  簡介及安裝    109
    11.1.2  使用Splash的API接口    112
    11.2  Mitmproxy抓包    116
    11.2.1  簡介及安裝    116
    11.2.2  用Mitmdump抓取愛奇藝視頻    116
    11.3  Aiohttp高並發抓取    119
    11.3.1  簡介及使用    119
    11.3.2  Aiohttp異步爬取小說排行榜    123
    11.4  本章小結    126
    第12章  驗證碼識別    128
    12.1  驗證碼的類型    128
    12.2  OCR技術    129
    12.3  第三方平臺    131
    12.4  本章小結    134
    第13章  數據清洗    136
    13.1  字符串操作    136
    13.1.1  截取    136
    13.1.2  替換    137
    13.1.3  查找    137
    13.1.4  分割    138
    13.2  正則表達式    139
    13.2.1  正則語法    140
    13.2.2  正則處理函數    141
    13.3  BeautifulSoup數據清洗    144
    13.3.1  BeautifulSoup介紹與安裝    144
    13.3.2  BeautifulSoup的使用示例    146
    13.4  本章小結    149
    第14章  文檔數據存儲    150
    14.1  CSV數據的寫入和讀取    150
    14.2  Excel數據的寫入和讀取    151
    14.3  Word數據的寫入和讀取    154
    14.4  本章小結    156
    第15章  ORM框架    158
    15.1  SQLAlchemy介紹與安裝    158
    15.1.1  操作數據庫的方法    158
    15.1.2  SQLAlchemy框架介紹    158
    15.1.3  SQLAlchemy的安裝    159
    15.2  連接數據庫    160
    15.3  創建數據表    162
    15.4  添加數據    164
    15.5  更新數據    165
    15.6  查詢數據    166
    15.7  本章小結    168
    第16章  MongoDB數據庫操作    169
    16.1  MongoDB介紹    169
    16.2  MogoDB的安裝及使用    170
    16.2.1  MongoDB的安裝與配置    170
    16.2.2  MongoDB可視化工具    172
    16.2.3  PyMongo的安裝    173
    16.3  連接MongoDB數據庫    173
    16.4  添加文檔    174
    16.5  更新文檔    175
    16.6  查詢文檔    176
    16.7  本章小結    178
    第17章  實戰:爬取51Job招聘信息    180
    17.1  項目分析    180
    17.2  獲取城市編號    180
    17.3  獲取招聘職位總頁數    182
    17.4  爬取每個職位信息    184
    17.5  數據存儲    188
    17.6  爬蟲配置文件    190
    17.7  本章小結    191
    第18章  實戰:分布式爬蟲——QQ音樂    193
    18.1  項目分析    193
    18.2  歌曲下載    194
    18.3  歌手的歌曲信息    198
    18.4  分類歌手列表    201
    18.5  全站歌手列表    203
    18.6  數據存儲    204
    18.7  分布式爬蟲    205
    18.7.1  分布式概念    205
    18.7.2  並發庫concurrent.futures    206
    18.7.3  分布式策略    207
    18.8  本章小結    209
    第19章  實戰:12306搶票爬蟲    211
    19.1  項目分析    211
    19.2  驗證碼驗證    211
    19.3  用戶登錄與驗證    214
    19.4  查詢車次    219
    19.5  預訂車票    225
    19.6  提交訂單    227
    19.7  生成訂單    233
    19.8  本章小結    236
    第20章  實戰:玩轉微博    244
    20.1  項目分析    244
    20.2  用戶登錄    244
    20.3  用戶登錄(帶驗證碼)    253
    20.4  關鍵詞搜索熱門微博    259
    20.5  發布微博    264
    20.6  關注用戶    268
    20.7  點贊和轉發評論    271
    20.8  本章小結    277
    第21章  實戰:微博爬蟲軟件開發    278
    21.1  GUI庫及PyQt5的安裝與配置    278
    21.1.1  GUI庫    278
    21.1.2  PyQt5安裝及環境搭建    279
    21.2  項目分析    281
    21.3  軟件主界面    284
    21.4  相關服務界面    288
    21.5  微博采集界面    292
    21.6  微博發布界面    297
    21.7  微博爬蟲功能    308
    21.8  本章小結    315
    第22章  Scrapy爬蟲開發    317
    22.1  認識與安裝Scrapy    317
    22.1.1  常見爬蟲框架介紹    317
    22.1.2  Scrapy的運行機制    318
    22.1.3  安裝Scrapy    319
    22.2  Scrapy爬蟲開發示例    320
    22.3  Spider的編寫    326
    22.4  Items的編寫    329
    22.5  Item Pipeline的編寫    330
    22.5.1  用MongoDB實現數據入庫    330
    22.5.2  用SQLAlchemy實現數據入庫    332
    22.6  Selectors的編寫    333
    22.7  文件下載    336
    22.8  本章小結    339
    第23章  Scrapy擴展開發    341
    23.1  剖析Scrapy中間件    341
    23.1.1  SpiderMiddleware中間件    342
    23.1.2  DownloaderMiddleware中間件    344
    23.2  自定義中間件    347
    23.2.1  設置代理IP服務    347
    23.2.2  動態設置請求頭    350
    23.2.3  設置隨機Cookies    353
    23.3  實戰:Scrapy Selenium爬取豆瓣電影評論    355
    23.3.1  網站分析    355
    23.3.2  項目設計與實現    357
    23.3.3  定義Selenium中間件    359
    23.3.4  開發Spider程序    360
    23.4  實戰:Scrapy Splash爬取B站動漫信息    362
    23.4.1  Scrapy_Splash實現原理    363
    23.4.2  網站分析    363
    23.4.3  項目設計與實現    365
    23.4.4  開發Spider程序    367
    23.5  實戰:Scrapy Redis分布式爬取貓眼排行榜    369
    23.5.1  Scrapy_Redis實現原理    369
    23.5.2  安裝Redis數據庫    371
    23.5.3  網站分析    372
    23.5.4  項目設計與實現    373
    23.5.5  開發Spider程序    375
    23.6  分布式爬蟲與增量式爬蟲    377
    23.6.1  基於管道實現增量式    378
    23.6.2  基於中間件實現增量式    381
    23.7  本章小結    384
    第24章  實戰:爬取鏈家樓盤信息    386
    24.1  項目分析    386
    24.2  創建項目    389
    24.3  項目配置    389
    24.4  定義存儲字段    391
    24.5  定義管道類    392
    24.6  編寫爬蟲規則    396
    24.7  本章小結    400
    第25章  實戰:QQ音樂全站爬取    402
    25.1  項目分析    402
    25.2  項目創建與配置    403
    25.2.1  項目創建    403
    25.2.2  項目配置    403
    25.3  定義存儲字段和管道類    405
    25.3.1  定義存儲字段    405
    25.3.2  定義管道類    405
    25.4  編寫爬蟲規則    408
    25.5  本章小結    413
    第26章  爬蟲的上線部署    415
    26.1  非框架式爬蟲部署    415
    26.1.1  創建可執行程序    415
    26.1.2  制定任務計劃程序    417
    26.1.3  創建服務程序    421
    26.2  框架式爬蟲部署    424
    26.2.1  Scrapyd部署爬蟲服務    424
    26.2.2  Gerapy爬蟲管理框架    429
    26.3  本章小結    434
    第27章  反爬蟲的解決方案    435
    27.1  常見的反爬蟲技術    435
    27.2  基於驗證碼的反爬蟲    436
    27.2.1  驗證碼出現的情況    437
    27.2.2  解決方案    438
    27.3  基於請求參數的反爬蟲    439
    27.3.1  請求參數的數據來源    439
    27.3.2  請求參數的查找    440
    27.4  基於請求頭的反爬蟲    441
    27.5  基於Cookies的反爬蟲    443
    27.6  本章小結    447
    第28章  自己動手開發爬蟲框架    449
    28.1  框架設計說明    449
    28.2  異步爬取方式    450
    28.3  數據清洗機制    455
    28.4  數據存儲機制    457
    28.5  實戰:用自制框架爬取豆瓣電影    463
    28.6  本章小結    468


    前言
    前 言
    隨著大數據和人工智能的普及,Python的地位也變得水漲船高,許多技術人員投身於Python開發,其中網絡爬蟲是Python為熱門的應用領域之一。在爬蟲領域,Python可以說是處於霸主地位,Python能解決爬蟲開發過程中所遇到的難題,開發速度快且支持異步編程,大大縮短了開發周期。此外,從事數據分析的工程師,為獲取數據,很多時候也會用到網絡爬蟲的相關技術,因此,Python爬蟲編程已成為爬蟲工程師和數據分析師的技能。
    本書結構
    本書共分28章,各章內容概述如下:
    第1章介紹什麼是網絡爬蟲、爬蟲的類型和原理、爬蟲搜索策略和爬蟲的合法性及開發流程。
    第2章講解爬蟲開發的基礎知識,包括HTTP協議、請求頭和Cookies的作用、HTML的布局結構、JavaScript的介紹、JSON的數據格式和Ajax的原理。
    第3章介紹使用Chrome開發工具分析爬取網站,重點介紹開發工具的Elements和Network標簽的功能和使用方式,並通過開發工具分析QQ網站。

    前    言
    隨著大數據和人工智能的普及,Python的地位也變得水漲船高,許多技術人員投身於Python開發,其中網絡爬蟲是Python為熱門的應用領域之一。在爬蟲領域,Python可以說是處於霸主地位,Python能解決爬蟲開發過程中所遇到的難題,開發速度快且支持異步編程,大大縮短了開發周期。此外,從事數據分析的工程師,為獲取數據,很多時候也會用到網絡爬蟲的相關技術,因此,Python爬蟲編程已成為爬蟲工程師和數據分析師的技能。
    本書結構
    本書共分28章,各章內容概述如下:
    第1章介紹什麼是網絡爬蟲、爬蟲的類型和原理、爬蟲搜索策略和爬蟲的合法性及開發流程。
    第2章講解爬蟲開發的基礎知識,包括HTTP協議、請求頭和Cookies的作用、HTML的布局結構、JavaScript的介紹、JSON的數據格式和Ajax的原理。
    第3章介紹使用Chrome開發工具分析爬取網站,重點介紹開發工具的Elements和Network標簽的功能和使用方式,並通過開發工具分析QQ網站。
    第4章主要介紹Fiddler抓包工具的原理和安裝配置,Fiddler用戶界面的各個功能及使用方法。
    第5章講述了Urllib在Python 2和Python 3的變化及使用,包括發送請求、使用代理IP、Cookies的讀寫、HTTP證書驗收和數據處理。
    第6章~第8章介紹Python第三方庫Requests、Requests-Cache爬蟲緩存和Requests-HTML,包括發送請求、使用代理IP、Cookies的讀寫、HTTP證書驗收和文件下載與上傳、復雜的請求方式、緩存的存儲機制、數據清洗以及Ajax動態數據爬取等內容。
    第9章介紹網頁操控和數據爬取,重點講解Selenium的安裝與使用,並通過實戰項目“百度自動答題”,講解了Selenium的使用。
    第10章介紹手機App數據爬取,包括Appium的原理與開發環境搭建、連接Android繫統,並通過實戰項目“淘寶商品采集”,介紹了App數據的爬取技巧。
    第11章介紹Splash、Mitmproxy與Aiohttp的安裝和使用,包括Splash動態數據抓取、Mitmproxy抓包和Aiohttp高並發抓取。
    第12章介紹驗證碼的種類和識別方法,包括OCR的安裝和使用、驗證碼圖片處理和使用第三方平臺識別驗證碼。
    第13章講述數據清洗的三種方法,包括字符串操作(截取、查找、分割和替換)、正則表達式的使用和第三方庫BeautifulSoup的安裝以及使用。
    第14章講述如何將數據存儲到文件,包括CSV、Excel和Word文件的讀取和寫入方法。
    第15章介紹ORM框架SQLAlchemy的安裝及使用,實現關繫型數據庫持久化存儲數據。
    第16章講述非關繫型數據庫MongoDB的操作,包括MongoDB的安裝、原理和Python實現MongoDB的讀寫。
    第17章至第21章介紹了5個實戰項目,分別是:爬取51Job招聘信息、分布式爬蟲——QQ音樂、12306搶票爬蟲、微博爬取和微博爬蟲軟件的開發。
    第22章至第25章介紹了Scrapy爬蟲框架,包括Scrapy的運行機制、項目創建、各個組件的編寫(Setting、Items、Item Pipelines和Spider)和文件下載及Scrapy中間件,並通過實戰項目“Scrapy Selenium爬取豆瓣電影評論”、“Scrapy Splash爬取B站動漫信息”和“Scrapy Redis分布式爬取貓眼排行榜”、“爬取鏈家樓盤信息”和“QQ音樂全站爬取”,深入講解了Scrapy的應用和分布式爬蟲的編寫技巧。
    第26章介紹爬蟲的上線部署,包括非框架式爬蟲和框架式爬蟲的部署技巧。
    第27章介紹常見的反爬蟲技術,並給出了可行的反爬蟲解決方案。
    第28章介紹爬蟲框架的編寫,學習如何自己動手編寫一款爬蟲框架,以滿足特定業務場景的需求。
    本書特色
    循序漸進,涉及面廣:本書站在初學者的角度,循序漸進地介紹了使用Python開發網絡爬蟲的各種知識,內容由淺入深,幾乎涵蓋了目前網絡爬蟲開發的各種熱門工具和前瞻性技術。
    實戰項目豐富,擴展性強:本書采用大量的實戰項目進行講解,力求通過實際應用使讀者更容易地掌握爬蟲開發技術,以應對業務需求。本書項目經過編者精心設計和挑選,根據實際開發經驗總結而來,涵蓋了在實際開發中所遇到的各種問題。對於精選項目,盡可能做到步驟詳盡、結構清晰、分析深入淺出,而且案例的擴展性強,讀者可根據實際需求擴展開發。
    從理論到實踐,注重培養爬蟲開發思維:在講解過程中,不僅介紹理論知識,注重培養讀者的爬蟲開發思維,而且安排了綜合應用實例或小型應用程序,使讀者能順利地將理論應用到實踐中。
    特色干貨,傾情分享:本書大部分內容都來自作者多年來的編程實踐,操作性很強。值得關注的是,本書還介紹了爬蟲軟件和爬蟲框架的開發,供學有餘力的讀者擴展知識結構,提升開發技能。
    源代碼下載
    本書所有程序代碼均在Python 3.6下調試通過,源代碼Github下載地址:
    https://github.com/xyjw/python-Reptile
    你也可以掃描下面的二維碼下載。
     
    如果你在下載過程中遇到問題,可發送郵件至554301449@qq.com獲得幫助,郵件標題為“實戰Python網絡爬蟲下載資源”。
    技術服務
    讀者在學習或者工作的過程中,如果遇到實際問題,可以加入QQ群93314951與筆者聯繫,筆者會在時間給予回復。
    讀者對像
    本書主要適合以下讀者閱讀:
    ?    Python網絡爬蟲初學者及在校學生。
    ?    Python初級爬蟲工程師。
    ?    從事數據抓取和分析的技術人員。
    ?    學習Python程序設計的開發人員。
    雖然筆者力求本書更臻完美,但由於水平所限,難免會出現錯誤,特別是實例中爬取的網站可能隨時更新,導致源碼在運行過程中出現問題,歡迎廣大讀者和高手專家給予指正,筆者將十分感謝。

    黃永祥
    2019年1月

















     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部