出版社:人民郵電出版社 ISBN:9787115479679 商品編碼:31508986704 品牌:文軒 出版時間:2018-08-01 代碼:49 作者:凱瑟琳·雅姆爾(KatharineJarmu
" 作 者:(德)凱瑟琳·雅姆爾(Katharine Jarmul),(澳)理查德·勞森(Richard Lawson) 著;李斌 譯 定 價:49 出 版 社:人民郵電出版社 出版日期:2018年08月01日 頁 數:196 裝 幀:平裝 ISBN:9787115479679 ●第1章網絡爬蟲簡介1 ●1.1網絡爬蟲何時有用1 ●1.2網絡爬蟲是否合法2 ●1.3Python33 ●1.4背景調研4 ●1.4.1檢查robots.txt4 ●1.4.2檢查網站地圖5 ●1.4.3估算網站大小6 ●1.4.4識別網站所用技術7 ●1.4.5尋找網站所有者9 ●1.5編寫第一個網絡爬蟲11 ●1.5.1抓取與爬取的對比11 ●1.5.2下載網頁12 ●1.5.3網站地圖爬蟲15 ●1.5.4ID遍歷爬蟲17 ●1.5.5鏈接爬蟲19 ●1.5.6使用requests庫28 ●1.6本章小結30 ●第2章數據抓取31 ●2.1分析網頁32 ●部分目錄 《用Python寫網絡爬蟲(第 2版》講解了如何使用Python來編寫網絡爬蟲程序,內容包括網絡爬蟲簡介,從頁面中抓取數據的3種方法,提取緩存中的數據,使用多個線程和進程進行並發抓取,抓取動態頁面中的內容,與表單進行交互,處理頁面中的驗證碼問題,以及使用Scarpy和Portia進行數據抓取,並在很後介紹了使用本書講解的數據抓取技術對幾個真實的網站進行抓取的實例,旨在幫助讀者活學活用書中介紹的技術。《用Python寫網絡爬蟲(第 2版》適合有一定Python編程經驗而且對爬蟲技術感興趣的讀者閱讀。 (德)凱瑟琳·雅姆爾(Katharine Jarmul),(澳)理查德·勞森(Richard Lawson) 著;李斌 譯 凱瑟琳·雅姆爾,是德國柏林的一位數據科學家和Python支持者。她經營了一家數據科學咨詢公司——Kjamistan,為不同規模的企業提供諸如數據抽取、采集以及建模的服務。她從2008年開始使用Python進行編程,從2010年開始使用Python抓取網站,並且在使用網絡爬蟲進行數據分析和機器學習的不同規模的初創企業中工作過。讀者可以通過Twitter關注她的想法以及動態。 理查德·勞森,來自澳大利亞,畢業於墨爾本大學計算機科學專業。畢業後,他創辦了一家專注於網絡爬蟲的公司,為超過50個國家的業務提供遠程工作。他精通世界語,可以使用漢語和韓語對話,並且積極投身於開源軟件事業。他目前正在牛等
" |