了得網計算機/網絡_實戰Python網絡爬蟲

產品特色

width="750"

編輯推薦

從爬蟲軟件開發到自己動手開發爬蟲框架

從原理到實踐，深入淺出，熱門爬蟲核心技術全掌握
涵蓋豐富的爬蟲工具、庫、框架，十餘個實戰項目
資深爬蟲工程師傾力奉獻，入門、進階、求職

內容簡介

本書從原理到實踐，循序漸進地講述了使用Python開發網絡爬蟲的核心技術。全書從邏輯上可分為基礎篇、實戰篇和爬蟲框架篇三部分。基礎篇主要介紹了編寫網絡爬蟲所需的基礎知識，包括網站分析、數據抓取、數據清洗和數據入庫。網站分析講述如何使用Chrome和Fiddler抓包工具對網站做全面分析；數據抓取介紹了Python爬蟲模塊Urllib和Requests的基礎知識；數據清洗主要介紹字符串操作、正則和BeautifulSoup的使用；數據入庫講述了MySQL和MongoDB的操作，通過ORM框架SQLAlchemy實現數據持久化，進行企業級開發。實戰篇深入講解了分布式爬蟲、爬蟲軟件的開發、12306搶票程序和微博爬取等。框架篇主要講述流行的爬蟲框架Scrapy，並以Scrapy與Selenium、Splash、Redis結合的項目案例，讓讀者深層次了解Scrapy的使用。此外，本書還介紹了爬蟲的上線部署、如何自己動手開發一款爬蟲框架、反爬蟲技術的解決方案等內容。本書使用Python 3.X編寫，技術先進，項目豐富，適合欲從事爬蟲工程師和數據分析師崗位的初學者、大學生和研究生使用，也很適合有一些網絡爬蟲編寫經驗，但希望更加全面、深入理解Python爬蟲的開發人員使用。

作者簡介

黃永祥,CSDN博客專家和簽約講師，多年軟件研發經驗，主要從事機器人流程繫統研發、大數據繫統研發、網絡爬蟲研發以及自動化運維繫統研發。擅長使用Python編寫高質量代碼，對Python有深入研究，熱愛分享和新技術的探索。

目錄
第1章理解網絡爬蟲 1
1.1 爬蟲的定義 1
1.2 爬蟲的類型 2
1.3 爬蟲的原理 2
1.4 爬蟲的搜索策略 4
1.5 爬蟲的合法性與開發流程 5
1.6 本章小結 6
第2章爬蟲開發基礎 7
2.1 HTTP與HTTPS 7
2.2 請求頭 9
2.3 Cookies 10
2.4 HTML 11
2.5 JavaScript 12

目   錄
第1章理解網絡爬蟲   1
1.1 爬蟲的定義   1
1.2 爬蟲的類型   2
1.3 爬蟲的原理   2
1.4 爬蟲的搜索策略   4
1.5 爬蟲的合法性與開發流程   5
1.6 本章小結   6
第2章爬蟲開發基礎   7
2.1 HTTP與HTTPS   7
2.2 請求頭   9
2.3 Cookies   10
2.4 HTML   11
2.5 JavaScript   12
2.6 JSON   14
2.7 Ajax   14
2.8 本章小結   15
第3章 Chrome分析網站   16
3.1 Chrome開發工具   16
3.2 Elements標簽   17
3.3 Network標簽   18
3.4 分析QQ音樂   20
3.5 本章小結   23
第4章 Fiddler抓包   24
4.1 Fiddler介紹   24
4.2 Fiddler安裝配置   24
4.3 Fiddler抓取手機應用   26
4.4 Toolbar工具欄   29
4.5 Web Session列表   30
4.6 View選項視圖   32
4.7 Quickexec命令行   33
4.8 本章小結   34
第5章爬蟲庫Urllib   35
5.1 Urllib簡介   35
5.2 發送請求   36
5.3 復雜的請求   37
5.4 代理IP   38
5.5 使用Cookies   39
5.6 證書驗證   40
5.7 數據處理   41
5.8 本章小結   42
第6章爬蟲庫Requests   43
6.1 Requests簡介及安裝   43
6.2 請求方式   44
6.3 復雜的請求方式   45
6.4 下載與上傳   47
6.5 本章小結   49
第7章 Requests-Cache爬蟲緩存   50
7.1 簡介及安裝   50
7.2 在Requests中使用緩存   50
7.3 緩存的存儲機制   53
7.4 本章小結   54
第8章爬蟲庫Requests-HTML   55
8.1 簡介及安裝   55
8.2 請求方式   56
8.3 數據清洗   56
8.4 Ajax動態數據抓取   59
8.5 本章小結   61
第9章網頁操控與數據爬取   62
9.1 了解Selenium   62
9.2 安裝Selenium   63
9.3 素定位   66
9.4 素操控   70
9.5 常用功能   73
9.6 實戰：百度自動答題   80
9.7 本章小結   85
第10章手機App數據爬取   86
10.1 Appium簡介及原理   86
10.2 搭建開發環境   87
10.3 連接Android繫統   92
10.4 A素定位   97
10.5 A素操控   99
10.6 實戰：淘寶商品采集   102
10.7 本章小結   107
第11章 Splash、Mitmproxy與Aiohttp   109
11.1 Splash動態數據抓取   109
11.1.1 簡介及安裝   109
11.1.2 使用Splash的API接口   112
11.2 Mitmproxy抓包   116
11.2.1 簡介及安裝   116
11.2.2 用Mitmdump抓取愛奇藝視頻   116
11.3 Aiohttp高並發抓取   119
11.3.1 簡介及使用   119
11.3.2 Aiohttp異步爬取小說排行榜   123
11.4 本章小結   126
第12章驗證碼識別   128
12.1 驗證碼的類型   128
12.2 OCR技術   129
12.3 第三方平臺   131
12.4 本章小結   134
第13章數據清洗   136
13.1 字符串操作   136
13.1.1 截取   136
13.1.2 替換   137
13.1.3 查找   137
13.1.4 分割   138
13.2 正則表達式   139
13.2.1 正則語法   140
13.2.2 正則處理函數   141
13.3 BeautifulSoup數據清洗   144
13.3.1 BeautifulSoup介紹與安裝   144
13.3.2 BeautifulSoup的使用示例   146
13.4 本章小結   149
第14章文檔數據存儲   150
14.1 CSV數據的寫入和讀取   150
14.2 Excel數據的寫入和讀取   151
14.3 Word數據的寫入和讀取   154
14.4 本章小結   156
第15章 ORM框架   158
15.1 SQLAlchemy介紹與安裝   158
15.1.1 操作數據庫的方法   158
15.1.2 SQLAlchemy框架介紹   158
15.1.3 SQLAlchemy的安裝   159
15.2 連接數據庫   160
15.3 創建數據表   162
15.4 添加數據   164
15.5 更新數據   165
15.6 查詢數據   166
15.7 本章小結   168
第16章 MongoDB數據庫操作   169
16.1 MongoDB介紹   169
16.2 MogoDB的安裝及使用   170
16.2.1 MongoDB的安裝與配置   170
16.2.2 MongoDB可視化工具   172
16.2.3 PyMongo的安裝   173
16.3 連接MongoDB數據庫   173
16.4 添加文檔   174
16.5 更新文檔   175
16.6 查詢文檔   176
16.7 本章小結   178
第17章實戰：爬取51Job招聘信息   180
17.1 項目分析   180
17.2 獲取城市編號   180
17.3 獲取招聘職位總頁數   182
17.4 爬取每個職位信息   184
17.5 數據存儲   188
17.6 爬蟲配置文件   190
17.7 本章小結   191
第18章實戰：分布式爬蟲——QQ音樂   193
18.1 項目分析   193
18.2 歌曲下載   194
18.3 歌手的歌曲信息   198
18.4 分類歌手列表   201
18.5 全站歌手列表   203
18.6 數據存儲   204
18.7 分布式爬蟲   205
18.7.1 分布式概念   205
18.7.2 並發庫concurrent.futures   206
18.7.3 分布式策略   207
18.8 本章小結   209
第19章實戰：12306搶票爬蟲   211
19.1 項目分析   211
19.2 驗證碼驗證   211
19.3 用戶登錄與驗證   214
19.4 查詢車次   219
19.5 預訂車票   225
19.6 提交訂單   227
19.7 生成訂單   233
19.8 本章小結   236
第20章實戰：玩轉微博   244
20.1 項目分析   244
20.2 用戶登錄   244
20.3 用戶登錄（帶驗證碼）   253
20.4 關鍵詞搜索熱門微博   259
20.5 發布微博   264
20.6 關注用戶   268
20.7 點贊和轉發評論   271
20.8 本章小結   277
第21章實戰：微博爬蟲軟件開發   278
21.1 GUI庫及PyQt5的安裝與配置   278
21.1.1 GUI庫   278
21.1.2 PyQt5安裝及環境搭建   279
21.2 項目分析   281
21.3 軟件主界面   284
21.4 相關服務界面   288
21.5 微博采集界面   292
21.6 微博發布界面   297
21.7 微博爬蟲功能   308
21.8 本章小結   315
第22章 Scrapy爬蟲開發   317
22.1 認識與安裝Scrapy   317
22.1.1 常見爬蟲框架介紹   317
22.1.2 Scrapy的運行機制   318
22.1.3 安裝Scrapy   319
22.2 Scrapy爬蟲開發示例   320
22.3 Spider的編寫   326
22.4 Items的編寫   329
22.5 Item Pipeline的編寫   330
22.5.1 用MongoDB實現數據入庫   330
22.5.2 用SQLAlchemy實現數據入庫   332
22.6 Selectors的編寫   333
22.7 文件下載   336
22.8 本章小結   339
第23章 Scrapy擴展開發   341
23.1 剖析Scrapy中間件   341
23.1.1 SpiderMiddleware中間件   342
23.1.2 DownloaderMiddleware中間件   344
23.2 自定義中間件   347
23.2.1 設置代理IP服務   347
23.2.2 動態設置請求頭   350
23.2.3 設置隨機Cookies   353
23.3 實戰：Scrapy Selenium爬取豆瓣電影評論   355
23.3.1 網站分析   355
23.3.2 項目設計與實現   357
23.3.3 定義Selenium中間件   359
23.3.4 開發Spider程序   360
23.4 實戰：Scrapy Splash爬取B站動漫信息   362
23.4.1 Scrapy_Splash實現原理   363
23.4.2 網站分析   363
23.4.3 項目設計與實現   365
23.4.4 開發Spider程序   367
23.5 實戰：Scrapy Redis分布式爬取貓眼排行榜   369
23.5.1 Scrapy_Redis實現原理   369
23.5.2 安裝Redis數據庫   371
23.5.3 網站分析   372
23.5.4 項目設計與實現   373
23.5.5 開發Spider程序   375
23.6 分布式爬蟲與增量式爬蟲   377
23.6.1 基於管道實現增量式   378
23.6.2 基於中間件實現增量式   381
23.7 本章小結   384
第24章實戰：爬取鏈家樓盤信息   386
24.1 項目分析   386
24.2 創建項目   389
24.3 項目配置   389
24.4 定義存儲字段   391
24.5 定義管道類   392
24.6 編寫爬蟲規則   396
24.7 本章小結   400
第25章實戰：QQ音樂全站爬取   402
25.1 項目分析   402
25.2 項目創建與配置   403
25.2.1 項目創建   403
25.2.2 項目配置   403
25.3 定義存儲字段和管道類   405
25.3.1 定義存儲字段   405
25.3.2 定義管道類   405
25.4 編寫爬蟲規則   408
25.5 本章小結   413
第26章爬蟲的上線部署   415
26.1 非框架式爬蟲部署   415
26.1.1 創建可執行程序   415
26.1.2 制定任務計劃程序   417
26.1.3 創建服務程序   421
26.2 框架式爬蟲部署   424
26.2.1 Scrapyd部署爬蟲服務   424
26.2.2 Gerapy爬蟲管理框架   429
26.3 本章小結   434
第27章反爬蟲的解決方案   435
27.1 常見的反爬蟲技術   435
27.2 基於驗證碼的反爬蟲   436
27.2.1 驗證碼出現的情況   437
27.2.2 解決方案   438
27.3 基於請求參數的反爬蟲   439
27.3.1 請求參數的數據來源   439
27.3.2 請求參數的查找   440
27.4 基於請求頭的反爬蟲   441
27.5 基於Cookies的反爬蟲   443
27.6 本章小結   447
第28章自己動手開發爬蟲框架   449
28.1 框架設計說明   449
28.2 異步爬取方式   450
28.3 數據清洗機制   455
28.4 數據存儲機制   457
28.5 實戰：用自制框架爬取豆瓣電影   463
28.6 本章小結   468

前言

前言
隨著大數據和人工智能的普及，Python的地位也變得水漲船高，許多技術人員投身於Python開發，其中網絡爬蟲是Python為熱門的應用領域之一。在爬蟲領域，Python可以說是處於霸主地位，Python能解決爬蟲開發過程中所遇到的難題，開發速度快且支持異步編程，大大縮短了開發周期。此外，從事數據分析的工程師，為獲取數據，很多時候也會用到網絡爬蟲的相關技術，因此，Python爬蟲編程已成為爬蟲工程師和數據分析師的技能。
本書結構
本書共分28章，各章內容概述如下：
第1章介紹什麼是網絡爬蟲、爬蟲的類型和原理、爬蟲搜索策略和爬蟲的合法性及開發流程。
第2章講解爬蟲開發的基礎知識，包括HTTP協議、請求頭和Cookies的作用、HTML的布局結構、JavaScript的介紹、JSON的數據格式和Ajax的原理。
第3章介紹使用Chrome開發工具分析爬取網站，重點介紹開發工具的Elements和Network標簽的功能和使用方式，並通過開發工具分析QQ網站。

前    言
隨著大數據和人工智能的普及，Python的地位也變得水漲船高，許多技術人員投身於Python開發，其中網絡爬蟲是Python為熱門的應用領域之一。在爬蟲領域，Python可以說是處於霸主地位，Python能解決爬蟲開發過程中所遇到的難題，開發速度快且支持異步編程，大大縮短了開發周期。此外，從事數據分析的工程師，為獲取數據，很多時候也會用到網絡爬蟲的相關技術，因此，Python爬蟲編程已成為爬蟲工程師和數據分析師的技能。
本書結構
本書共分28章，各章內容概述如下：
第1章介紹什麼是網絡爬蟲、爬蟲的類型和原理、爬蟲搜索策略和爬蟲的合法性及開發流程。
第2章講解爬蟲開發的基礎知識，包括HTTP協議、請求頭和Cookies的作用、HTML的布局結構、JavaScript的介紹、JSON的數據格式和Ajax的原理。
第3章介紹使用Chrome開發工具分析爬取網站，重點介紹開發工具的Elements和Network標簽的功能和使用方式，並通過開發工具分析QQ網站。
第4章主要介紹Fiddler抓包工具的原理和安裝配置，Fiddler用戶界面的各個功能及使用方法。
第5章講述了Urllib在Python 2和Python 3的變化及使用，包括發送請求、使用代理IP、Cookies的讀寫、HTTP證書驗收和數據處理。
第6章~第8章介紹Python第三方庫Requests、Requests-Cache爬蟲緩存和Requests-HTML，包括發送請求、使用代理IP、Cookies的讀寫、HTTP證書驗收和文件下載與上傳、復雜的請求方式、緩存的存儲機制、數據清洗以及Ajax動態數據爬取等內容。
第9章介紹網頁操控和數據爬取，重點講解Selenium的安裝與使用，並通過實戰項目“百度自動答題”，講解了Selenium的使用。
第10章介紹手機App數據爬取，包括Appium的原理與開發環境搭建、連接Android繫統，並通過實戰項目“淘寶商品采集”，介紹了App數據的爬取技巧。
第11章介紹Splash、Mitmproxy與Aiohttp的安裝和使用，包括Splash動態數據抓取、Mitmproxy抓包和Aiohttp高並發抓取。
第12章介紹驗證碼的種類和識別方法，包括OCR的安裝和使用、驗證碼圖片處理和使用第三方平臺識別驗證碼。
第13章講述數據清洗的三種方法，包括字符串操作（截取、查找、分割和替換）、正則表達式的使用和第三方庫BeautifulSoup的安裝以及使用。
第14章講述如何將數據存儲到文件，包括CSV、Excel和Word文件的讀取和寫入方法。
第15章介紹ORM框架SQLAlchemy的安裝及使用，實現關繫型數據庫持久化存儲數據。
第16章講述非關繫型數據庫MongoDB的操作，包括MongoDB的安裝、原理和Python實現MongoDB的讀寫。
第17章至第21章介紹了5個實戰項目，分別是：爬取51Job招聘信息、分布式爬蟲——QQ音樂、12306搶票爬蟲、微博爬取和微博爬蟲軟件的開發。
第22章至第25章介紹了Scrapy爬蟲框架，包括Scrapy的運行機制、項目創建、各個組件的編寫（Setting、Items、Item Pipelines和Spider）和文件下載及Scrapy中間件，並通過實戰項目“Scrapy Selenium爬取豆瓣電影評論”、“Scrapy Splash爬取B站動漫信息”和“Scrapy Redis分布式爬取貓眼排行榜”、“爬取鏈家樓盤信息”和“QQ音樂全站爬取”，深入講解了Scrapy的應用和分布式爬蟲的編寫技巧。
第26章介紹爬蟲的上線部署，包括非框架式爬蟲和框架式爬蟲的部署技巧。
第27章介紹常見的反爬蟲技術，並給出了可行的反爬蟲解決方案。
第28章介紹爬蟲框架的編寫，學習如何自己動手編寫一款爬蟲框架，以滿足特定業務場景的需求。
本書特色
循序漸進，涉及面廣：本書站在初學者的角度，循序漸進地介紹了使用Python開發網絡爬蟲的各種知識，內容由淺入深，幾乎涵蓋了目前網絡爬蟲開發的各種熱門工具和前瞻性技術。
實戰項目豐富，擴展性強：本書采用大量的實戰項目進行講解，力求通過實際應用使讀者更容易地掌握爬蟲開發技術，以應對業務需求。本書項目經過編者精心設計和挑選，根據實際開發經驗總結而來，涵蓋了在實際開發中所遇到的各種問題。對於精選項目，盡可能做到步驟詳盡、結構清晰、分析深入淺出，而且案例的擴展性強，讀者可根據實際需求擴展開發。
從理論到實踐，注重培養爬蟲開發思維：在講解過程中，不僅介紹理論知識，注重培養讀者的爬蟲開發思維，而且安排了綜合應用實例或小型應用程序，使讀者能順利地將理論應用到實踐中。
特色干貨，傾情分享：本書大部分內容都來自作者多年來的編程實踐，操作性很強。值得關注的是，本書還介紹了爬蟲軟件和爬蟲框架的開發，供學有餘力的讀者擴展知識結構，提升開發技能。
源代碼下載
本書所有程序代碼均在Python 3.6下調試通過，源代碼Github下載地址：
https://github.com/xyjw/python-Reptile
你也可以掃描下面的二維碼下載。

如果你在下載過程中遇到問題，可發送郵件至554301449@qq.com獲得幫助，郵件標題為“實戰Python網絡爬蟲下載資源”。
技術服務
讀者在學習或者工作的過程中，如果遇到實際問題，可以加入QQ群93314951與筆者聯繫，筆者會在時間給予回復。
讀者對像
本書主要適合以下讀者閱讀：
?   Python網絡爬蟲初學者及在校學生。
?   Python初級爬蟲工程師。
?   從事數據抓取和分析的技術人員。
?   學習Python程序設計的開發人員。
雖然筆者力求本書更臻完美，但由於水平所限，難免會出現錯誤，特別是實例中爬取的網站可能隨時更新，導致源碼在運行過程中出現問題，歡迎廣大讀者和高手專家給予指正，筆者將十分感謝。

黃永祥
2019年1月

商品搜索

商品分类

【醫學】

【各大出版社】