作 者:劉延林 著
定 價:99
出 版 社:北京大學出版社
出版日期:2021年08月01日
頁 數:384
裝 幀:平裝
ISBN:9787301322697
爬蟲工程師不容錯過的教程:以爬蟲之矛攻取反爬蟲之盾,如何在對立統一中尋求技術突破?Python爬蟲與反爬蟲,攻防兼備,見招拆招。
●第1篇 基礎篇
第1章 爬蟲與反爬蟲開發環境搭建
1.1 Python 3環境搭建
1.1.1 下載Python 3安裝包
1.1.2 安裝Python
1.1.3 pip包管理工具
1.2 PyCharm的安裝與基本使用
1.2.1 安裝PyCharm
1.2.2 創建Python項目
1.2.3 debug調試代碼
1.2.4 創建venv虛擬環境
1.3 Tesseract-OCR
1.3.1 下載
1.3.2 安裝
1.3.3 配置環境變量
1.4 mitmproxy
1.4.1 下載
1.4.2 安裝
1.4.3 安裝SSL證書
1.5.1 下載JDK
1.5.2 安裝
1.5.3 測試是否安裝成功
本章小結
第2章 爬蟲與反爬蟲通用基礎知識
2.1 網頁基礎
2.1.1 網頁的組成
2.1.2 網頁的類型
2.2 網絡傳輸協議
2.2.1 認識HTTP
2.2.2 HTTPS
2.2.3 HTTP與HTTPS請求過程示例
2.3 Session和Cookies
2.3.1 Cookie
2.3.2 Session
2.3.3 Session和Cookie的區別
2.3.4 常見誤區
2.4 Nginx服務器
2.4.1 Nginx信號
2.4.2 反向代理
2.4.3 Nginx中實現反向代理
2.5 代理IP
2.5.1 原理
2.5.2 分類
2.5.3 獲取途徑
2.6 HTTP接口概念
2.7 新手問答
本章小結
第3章 Python編程基礎
3.1 Python的基礎語法
3.1.1 第一個Python程序
3.1.2 運行程序
3.1.3 注釋
3.1.4 行與縮進
3.1.5 多行語句
3.1.6 import與from…import導入模塊
3.1.7 變量
3.2 基本數據類型
3.2.1 Number
3.2.2 String
3.2.3 List
3.2.4 Tuple
3.2.5 Dictionary
3.2.6 Set
3.2.7 布爾類型
3.3 流程控制
3.3.1 條件控制
3.3.2 循環
3.3.3 range()函數
3.3.4 break和continue語句
3.3.5 pass
3.4 函數
3.4.1 定義一個函數
3.4.2 調用函數
3.5 文件操作
3.5.1 txt文件讀寫
3.5.2 csv文件讀寫
3.6 面向對像
3.6.1 類
3.6.2 類對像
3.6.3 類方法
3.6.4 繼承
3.7 多線程
3.7.1 threading
3.7.2 多線程裝飾器封裝
3.8 新手實訓
3.9 新手問答
本章小結
第2篇 爬蟲篇
第4章 網絡爬蟲快速入門
4.1 爬蟲的基本結構及工作流程
4.2 urllib網絡請求庫
4.2.1 請求一個簡單的網頁
4.2.2 設置請求超時
4.2.3 使用data參數提交數據
4.2.4 Request
4.3 requests網絡請求庫
4.3.1 requests模塊的安裝
4.3.2 請求第一個網頁
4.3.3 get和post請求
4.3.4 參數提交
4.4 urllib3網絡請求庫
4.4.1 發起請求
4.4.2 響應內容
4.4.3 查詢參數
4.4.4 表單數據
4.4.5 提交JSON數據
4.5 tman接口測試工具
4.5.1 請求接口
4.5.2 常用功能介紹
4.6 新手實訓
4.7 新手問答
本章小結
第5章 XPath匹配網頁數據
5.1 安裝XPath
5.2 XPath的基礎語法
5.3 在Python中使用XPath匹配數據
5.3.1 根據class屬性進行匹配
5.3.2 根據id屬性進行匹配
5.3.3 根據name屬性進行匹配
5.4 XPath表達式技巧
5.5 擴展補充知識點
5.5.1 Selector
5.5.2 BeautifulSoup
5.6 新手實訓
5.7 新手問答
本章小結
第6章 re正則匹配數據
6.1 re.compile函數
6.2 re.match函數
6.3 re.search函數
6.4 re.match與re.search的區別
6.5 檢索和替換
6.6 findall函數
6.7 常見正則表達式寫法
6.8 新手實訓
6.9 新手問答
本章小結
第7章 WebSocket數據抓取
7.1 WebSocket通信原理
7.2 使用aioWebSocket獲取數據
7.2.1 安裝AioWebSocket
7.2.2 分析WebSocket請求
7.2.3 編寫代碼獲取數據
7.3 新手實訓
7.4 新手問答
本章小結
第8章 Scrapy爬蟲框架應用與開發
8.1 Scrapy框架的基本架構
8.1.1 Scrapy的基本組件
8.1.2 工作原理
8.2 安裝Scrapy
8.3 創建項目
8.4 定義Item
8.5 編寫第一個Spider
8.6 運行爬蟲
8.7 提取Item
8.8 在Shell中嘗試Selector選擇器
8.9 提取數據
8.10 使用Item
8.11 ItemPipeline
8.12 將Item寫入JSON文件
8.13 新手實訓
8.14 新手問答
本章小結
第3篇 反爬蟲篇
隨著網絡技術的迅速發展,如何有效地提取並利用信息,以及如何有效地防止信息被爬取,己成為一個巨大的挑戰。本書從零開始繫統地介紹了Python網絡爬蟲與反爬蟲的開發與實戰技能,全書共分為4篇,具體內容安排如下。 第1篇:基礎篇(第1~3章)。繫統地講解了Python爬蟲與反爬蟲開發環境的搭建、爬蟲與反爬蟲通用基礎知識、Python編程基礎。 第2篇:爬蟲篇(第4~8章)。這部分講解了網絡爬蟲的相關知識與技能,主要包括網絡爬蟲快速入門、XPath匹配網頁數據、re正則匹配數據、WebSocket數據抓取、Scrapy爬蟲框架應用與開發等。 第3篇:反爬蟲篇(第9~16章)。這部分講解了網絡反爬蟲的相關知識與技能,主要包括爬蟲與反爬蟲的區別與認識、反爬-Header信息校驗、反爬-IP、反爬-動態渲染頁面、反爬-文本混淆、反爬-特征識別、反爬-驗證碼識別、反爬-APP數據抓等
劉延林 著
劉延林,雲鏡團隊創始人,擁有多年網絡爬蟲開發經驗,著有《Python網絡爬蟲開發從入門到精通》,擅長Python網絡爬蟲、Web、數據挖掘與分析、網絡安全、產品研發等領域。