作 者:呂雲翔 張揚 著
定 價:59.8
出 版 社:人民郵電出版社
出版日期:2021年08月01日
頁 數:259
裝 幀:平裝
ISBN:9787115562081
?內容全面,結構清晰:本書詳細介紹了網絡爬蟲技術的方方面面,討論了數據抓取、數據處理和數據分析的整個流程。全書結構清晰,堅持理論知識與實踐操作結合。 1.循序漸進,生動簡潔:從最簡單的Python程序示例開始,在網絡爬蟲的核心主題之下一步步深入,兼顧內容的廣度與深度。在行文中,使用生動簡潔的闡述方式,力爭詳略得當。2.示例豐富,實戰性強:網絡爬蟲是實踐性、操作性非常強的技術,本書將提供豐富的代碼來作為讀者的參考,同時對必要的術語和代碼進行解釋。從生活實際出發,選取實用性、趣味性兼具的主題進行等
●第1章 Python與網絡爬蟲 11.1 Python簡介 11.1.1 什麼是Python 11.1.2 Python的應用現狀 21.2 Python的安裝與開發環境配置 31.2.1 在Windows操作繫統上安裝 31.2.2 在Ubuntu和macOS操作繫統上安裝 41.2.3 PyCharm的使用 51.2.4 Jupyter Notebook 91.3 Python基本語法 111.3.1 HelloWorld與數據類型 111.3.2 邏輯語句 171.3.3 Python中的函數與類 201.3.4 Python從0到1 211.4 互聯網與HTTP、HTML 221.4.1 互聯網與HTTP 221.4.2 HTML 231.5 Hello, Spider! 251.5.1 第一個爬蟲程序 251.5.2 思考我們的爬蟲 271.6 調研網站 271.6.1 網站的robots.txt與Sitemap 271.6.2 查看網站所用技術 301.6.3 查看網站所有者信息 311.6.4 使用開發者工具檢查網頁 321.7 本章小結 35第2章 數據采集 362.1 從抓取開始 362.2 正則表達式 372.2.1 初見正則表達式 372.2.2 正則表達式的簡單使用 382.3 BeautifulSoup 412.3.1 BeautifulSoup的安裝 412.3.2 BeautifulSoup的基本使用方法 432.4 XPath與lxml 462.4.1 XPath 462.4.2 lxml與XPath的使用方法 472.5 遍歷頁面 492.5.1 抓取下一個頁面 492.5.2 完成爬蟲 502.6 API 522.6.1 API簡介 522.6.2 API使用示例 542.7 本章小結 57第3章 文件與數據存儲 583.1 Python中的文件 583.1.1 基本的文件讀寫 583.1.2 序列化 603.2 字符串 613.3 Python與圖片 623.3.1 PIL與Pillow 623.3.2 OpenCV簡介 643.4 CSV文件 653.4.1 CSV簡介 653.4.2 CSV的讀寫 653.5 使用數據庫 673.5.1 使用MySQL 673.5.2 使用SQLite3 683.5.3 使用SQLAlchemy 703.5.4 使用Redis 713.6 其他類型的文檔 723.7 本章小結 77第4章 JavaScript與動態內容 784.1 JavaScript與Ajax技術 784.1.1 JavaScript簡介 784.1.2 Ajax技術 814.2 抓取Ajax數據 824.2.1 分析數據 824.2.2 提取數據 864.3 抓取動態內容 924.3.1 動態渲染頁面 924.3.2 使用Selenium 924.3.3 PyV8與Splash 984.4 本章小結 101第5章 表單與模擬登錄 1025.1 表單 1025.1.1 表單與 T 1025.1.2 T發送表單數據 1045.2 Cookie 1065.2.1 Cookie簡介 1065.2.2 在Python中使用Cookie 1085.3 模擬登錄網站 1105.3.1 分析網站 1105.3.2 通過Cookie模擬登錄 1115.4 驗證碼 1145.4.1 圖片驗證碼 1145.4.2 滑動驗證 1165.5 本章小結 120第6章 數據的進一步處理 1216.1 Python與文本分析 1216.1.1 文本分析簡介 1216.1.2 jieba與SnowNLP 1226.1.3 NLTK 1256.1.4 文本分類與聚類 1286.2 數據處理與科學計算 1306.2.1 從MATLAB到Python 1306.2.2 NumPy 1316.2.3 pandas 1356.2.4 Matplotlib 1406.2.5 SciPy與SymPy 1436.3 本章小結 144第7章 更靈活的爬蟲 1457.1 更靈活的爬蟲——以數據抓取為例 1457.1.1 用Selenium抓取Web信息 1457.1.2 基於Python的API工具 1497.2 多樣的爬蟲 1517.2.1 在BeautifulSoup和XPath之外 1517.2.2 在線爬蟲應用平臺 1547.2.3 使用urllib 1567.3 爬蟲的部署和管理 1637.3.1 配置遠程主機 1637.3.2 編寫本地爬蟲 1657.3.3 部署爬蟲 1697.3.4 查看運行結果 1707.3.5 使用爬蟲管理框架 1717.4 本章小結 174第8章 模擬瀏覽器與網站測試 1758.1 關於測試 1758.1.1 測試簡介 1758.1.2 TDD 1758.2 Pytho測試 1768.2.1 使用unittest 1768.2.2 其他方法 1788.3 使用Python爬蟲測試網站 1798.4 使用Selenium測試 1818.4.1 Selenium測試常用的網站交互 1828.4.2 結合Selenium測試 1838.5 本章小結 184第9章 更強大的爬蟲 1859.1 爬蟲框架 1859.1.1 Scrapy簡介 1859.1.2 Scrapy安裝與入門 1869.1.3 編寫Scrapy爬蟲 1899.1.4 其他爬蟲框架 1919.2 網站反爬蟲 1929.2.1 反爬蟲的策略 1929.2.2 偽裝headers 1939.2.3 使用代理IP地址 1969.2.4 修改訪問頻率 1999.3 多進程與分布式 1999.3.1 多進程編程與爬蟲抓取 1999.3.2 分布式爬蟲 2019.4 本章小結 202第10章 實戰:購物網站評論抓取 20310.1 查看網絡數據 20310.2 編寫爬蟲 20610.3 本章小結 211第11章 實戰:爬蟲數據的深入分析與數據處理 21211.1 明確目標與數據準備 21211.1.1 明確目標 21211.1.2 數據準備 21211.1.3 工具選擇 21311.2 初步分析 21411.2.1 用戶角度分析 21411.2.2 電影角度分析 21711.3 電影推薦 22011.4 本章小結 221第12章 實戰:抓取商品價格信息 22212.1 抓取商品歷史價格 22212.1.1 網頁分析 22212.1.2 編寫爬蟲 22512.1.3 運行結果 23012.2 本章小結 231第13章 實戰:模擬登錄爬蟲 23213.1 模擬登錄POJ提交代碼並抓取評測結果 23213.1.1 網頁請求分類 23213.1.2 網頁分析 23313.1.3 編寫爬蟲 23513.1.4 運行結果 23813.2 本章小結 238第14章 實戰:音樂評論內容的抓取與分析 23914.1 jieba庫 23914.2 wordcloud庫 23914.3 抓取音樂的評論內容 24014.3.1 網頁分析 24014.3.2 編寫爬蟲 24114.3.3 運行結果 24314.4 本章小結 244第15章 實戰:異步爬蟲程序實踐 24515.1 項目分析 24515.2 數據存儲 24515.3 頁面下載器 24715.3.1 網絡請求 24815.3.2 頁面解碼 24915.4 生產者—消費者模型 25015.4.1 調度器 25015.4.2 消費者 25115.4.3 生產者 25315.5 客戶端界面設計 25415.5.1 首頁 25515.5.2 搜索結果頁 25515.5.3 新聞詳情頁 25615.5.4 主窗口和運行效果 25715.6 本章小結 259
本書的主旨是介紹如何結合Python進行網絡爬蟲程序的開發,從Python語言的基本特性入手,詳細介紹了Python爬蟲開發的各個方面,涉及包括HTTP、HTML、JavaScript、正則表達式、自然語言處理、數據科學等不同領域的內容。全書共分為15章,包括了Python基礎知識、網站分析、網頁解析、Python文件讀寫、Python與數據庫、AJAX技術、模擬登錄、文本與數據分析、網站測試、Scrapy爬蟲框架、爬蟲性能等多個主題。內容覆蓋網絡抓取與爬蟲編程中的主要知識和技術,在重視理論基礎的前提下,從實用性和豐富度出發,結合實例演示了爬蟲編寫的核心流程。本書適合Python語言初學者、網絡爬蟲技術愛好者、數據分析從業人士以及高等院校計算機科學、軟件工程等相關專業的師生閱讀。
呂雲翔 張揚 著
呂雲翔,比利時布魯塞爾大學應用科學學院應用信息技術專業碩士、經濟學院工商管理專業碩士。具有多年的軟件開發、項目管理、計算機教學經驗。對IT行業具有較全面的認識。2003至今任北航軟件學院副教授。研究領域包括:軟件工程 IT項目管理。