了得網圖書_Python網絡數據爬取及分析從入門到精通(爬取篇)

作者:楊秀璋,顏娜著

定價:59.8

出版社:北京航空航天大學出版社

出版日期:2018年06月01日

頁數:288

裝幀:平裝

ISBN:9787512427129

●章網絡數據爬取概述1
1.1網絡爬蟲1
1.2相關技術3
1.2.1HTTP3
1.2.2HTML3
1.2.3Python5
1.3本章小結5
參考文獻5
第2章Python知識初學6
2.1Python簡介6
2.2基礎語法11
2.2.1縮進與注釋11
2.2.2變量與常量12
2.2.3輸入與輸出14
2.2.4賦值與表達式16
2.3數據類型16
2.3.1數字類型16
2.3.2字符串類型17
2.3.3列表類型17
2.組類型19
2.3.5字典類型19
2.4條件語句19
2.4.1單分支20
2.4.2二分支20
2.4.3多分支21
2.5循環語句22
2.5.1while循環22
2.5.2for循環24
2.5.3break和continue語句24
2.6函數25
2.6.1自定義函數26
2.6.2常見內部庫函數27
2.6.3第三方庫函數29
2.7字符串操作30
2.8文件操作32
2.8.1打開文件32
2.8.2讀/寫文件32
2.8.3關閉文件33
2.8.4循環遍歷文件34
2.9面向對像34
2.10本章小結36
參考文獻36
第3章正則表達式爬蟲之牛刀小試37
3.1正則表達式37
3.2Python網絡數據爬取的常用模塊39
3.2.1urllib模塊39
3.2.2urlparse模塊42
3.2.3requests模塊44
3.3正則表達式爬取網絡數據的常見方法45
3.3.1爬取標簽間的內容45
3.3.2爬取標簽中的參數49
3.3.3字符串處理及替換50
3.4個人博客爬取實例52
3.4.1分析過程52
3.4.2代碼實現57
3.5本章小結59
參考文獻59
第4章BeautifulSoup技術60
4.1安裝BeautifulSoup60
4.1.1Python2.7安裝BeautifulSoup60
4.1.2pip安裝擴展庫63
4.2快速開始BeautifulSoup解析67
4.2.1BeautifulSoup解析HTML68
4.2.2簡單獲取網頁標簽信息71
4.2.3定位標簽並獲取內容72
4.3深入了解BeautifulSoup73
4.3.1BeautifulSoup對像74
4.3.2遍歷文檔樹79
4.3.3搜索文檔樹82
4.4BeautifulSoup簡單爬取個人博客網站84
4.5本章小結87
參考文獻87
第5章BeautifulSoup爬取電影信息88
5.1分析網頁DOM樹結構88
5.1.1分析網頁結構及簡單爬取88
5.1.2定位節點及網頁翻頁分析91
5.2爬取豆瓣電影信息94
5.3鏈接跳轉分析及詳情頁面爬取98
5.4本章小結104
參考文獻104
第6章Python數據庫知識105
6.1MySQL數據庫105
6.1.1MySQL的安裝與配置105
6.1.2SQL基礎語句詳解112
6.2Python操作MySQL數據庫119
6.2.1安裝MySQL擴展庫119
6.2.2程序接口DB-API121
6.2.3Python調用MySQLdb擴展庫122
6.3Python操作SQLite3數__________據庫126
6.4本章小結129
參考文獻129
第7章基於數據庫存儲的BeautifulSoup招聘爬蟲130
7.1知識圖譜和智聯招聘130
7.2BeautifulSoup爬取招聘信息132
7.2.1分析網頁超鏈接及跳轉處理132
7.2.2DOM樹節點分析及網頁爬取135
7.3NavicatforMySQL工具操作數據庫137
7.3.1連接數據庫137
7.3.2創建數據庫139
7.3.3創建表141
7.3.4數據庫增刪改查操作143
7.4MySQL數據庫存儲招聘信息146
7.4.1MySQL操作數據庫146
7.4.2代碼實現148
7.5本章小結153
參考文獻153
第8章Selenium技術154
8.1初識Selenium154
8.1.1安裝Selenium155
8.1.2安裝瀏覽器驅動156
8.1.3PhantomJS158
8.2快速開始Selenium解析159
8.素162
8.3.1通過id屬素163
8.3.2通過name屬素165
8.3.3通過XPath路素166
8.3.4通過起鏈接文素168
8.3.5通過標簽素169
8.3.6通過類屬性素170
8.3.7通過CSS選擇素170
8.4常用方法和屬性170
8.4.素的方法170
8.4.2WebElement常用屬性174
8.5鍵盤和鼠標自動化操作175
8.5.1鍵盤操作175
8.5.2鼠標操作177
8.6導航控制178
8.6.1下拉菜單交互操作178
8.6.2Window和Frame間對話框的移動179
8.7本章小結180
參考文獻180
第9章Selenium爬取在線百科知識181
9.1三大在線百科181
9.1.1維基百科181
9.1.2百度百科183
9.1.3互動百科184
9.2Selenium爬取維基百科185
9.2.1網頁分析185
9.2.2代碼實現190
9.3Selenium爬取百度百科190
9.3.1網頁分析190
9.3.2代碼實現195
9.4Selenium爬取互動百科198
9.4.1網頁分析198
9.4.2代碼實現200
9.5本章小結202
參考文獻203
0章基於數據庫存儲的Selenium博客爬蟲204
10.1博客網站204
10.2Selenium爬取博客信息206
10.2.1Forbidden錯誤206
10.2.2分析博客網站翻頁方法208
10.2.3DOM樹節點分析及網頁爬取210
10.3MySQL數據庫存儲博客信息212
10.3.1NavicatforMySQL創建表213
10.3.2Python操作MySQL數據庫214
10.3.3代碼實現216
10.4本章小結222
1章基於登錄分析的Selenium微博爬蟲223
11.1登錄驗證223
11.2初識微博爬蟲226
11.2.1微博226
11.2.2登錄入口227
11.2.3微博自動登錄229
11.3爬取微博熱門信息232
11.3.1搜索所需的微博主題232
11.3.2爬取微博內容235
11.4本章小結242
參考文獻242
2章基於圖片抓取的Selenium爬蟲243
12.1圖片爬蟲框架243
12.2圖片網站分析245
12.2.1圖片爬取方法245
12.2.2全景網爬取分析246
12.3代碼實現250
12.4本章小結254
3章Scrapy技術爬取網絡數據255
13.1安裝Scrapy255
13.2快速了解Scrapy256
13.2.1Scrapy基礎知識257
13.2.2Scrapy組成詳解及簡單示例259
13.3Scrapy爬取貴州農產品數據集270
13.4本章小結285
參考文獻285
套書後記286
致謝288

本書采用通俗易懂的語言、豐富多彩的實例，詳細介紹了使用Python語言進行網絡數據爬取的知識，主要內容包括Python語法、正則表達式、BeautifulSoup技術、Selenium技術、Scrapy框架、數據庫存儲等，同時詳細介紹了爬取網站和博客內容、電影數據信息、招聘信息、在線百科知識、微博內容、農產品信息等實例。書中所有知識點都結合經典實例進行介紹，涉及的實例都給出了詳細的分析流程，程序代碼都給出了具體的注釋，同時采用圖文結合的形式講解，讓讀者能更加輕松地領會Python網絡數據爬蟲的精髓，並快速提高自己的開發能力。本書即可作為Python開發入門者的自學用書，也可作為高等院校數據爬取、數據分析、數據挖掘、大數據等相關專業的教學參考書或實驗指導書，還可供Python開發人員查閱、參考。

楊秀璋,顏娜著

楊秀璋，畢業於北京理工大學軟件學院，長期從事Web數據挖掘、Python數據分析、網絡數據爬取工作及研究。他現任教於貴州財經大學信息學院，主講“數據挖掘與分析”“大數據技術及應用”課程，並從事大數據分析、數據挖掘、知識圖譜等領域的項目研究與開發；有多年的Python編程、數據分析及知識圖譜研究經驗，實戰經驗較為豐富。此外，他還積極分享編程知識和開源代碼編寫經驗，先後在CSDN、博客園、阿裡雲棲社區撰寫博客，僅在CSDN就分享了300多篇原創文章，開設了11個專欄，累計閱讀量超過250萬人次。

商品搜索

商品分类

【醫學】

【各大出版社】