python-網(wǎng)絡(luò)爬蟲

上傳人：可*** IP屬地：江西上傳時間：2022-07-19 格式：DOC 頁數(shù)：65 大?。?01.54KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩60頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 HYPERLINK ”http：/wxg694175346/article/details/8922826 抓取網(wǎng)頁的含義和URL基本構(gòu)成1、網(wǎng)絡(luò)爬蟲的定義網(wǎng)絡(luò)爬蟲，即Web Spider，是一個很形象的名字。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng)，那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁的。從網(wǎng)站某一個頁面（通常是首頁）開始，讀取網(wǎng)頁的內(nèi)容，找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁，這樣一直循環(huán)下去，直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止.如果把整個互聯(lián)網(wǎng)當(dāng)成一個網(wǎng)站，那么網(wǎng)絡(luò)蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。這樣看來，網(wǎng)絡(luò)爬

2、蟲就是一個爬行程序，一個抓取網(wǎng)頁的程序。網(wǎng)絡(luò)爬蟲的基本操作是抓取網(wǎng)頁。那么如何才能隨心所欲地獲得自己想要的頁面？我們先從URL開始。2、瀏覽網(wǎng)頁的過程抓取網(wǎng)頁的過程其實(shí)和讀者平時使用IE瀏覽器瀏覽網(wǎng)頁的道理是一樣的.比如說你在瀏覽器的地址欄中輸入這個地址.打開網(wǎng)頁的過程其實(shí)就是瀏覽器作為一個瀏覽的“客戶端”，向服務(wù)器端發(fā)送了一次請求,把服務(wù)器端的文件“抓”到本地,再進(jìn)行解釋、展現(xiàn)。HTML是一種標(biāo)記語言，用標(biāo)簽標(biāo)記內(nèi)容并加以解析和區(qū)分。瀏覽器的功能是將獲取到的HTML代碼進(jìn)行解析，然后將原始的代碼轉(zhuǎn)變成我們直接看到的網(wǎng)站頁面。3、URI的概念和舉例簡單的來講，URL就是在瀏覽器端輸入的這

3、個字符串。在理解URL之前，首先要理解URI的概念。什么是URI？Web上每種可用的資源,如 HTML文檔、圖像、視頻片段、程序等都由一個通用資源標(biāo)志符(Universal Resource Identifier， URI）進(jìn)行定位.URI通常由三部分組成：訪問資源的命名機(jī)制；存放資源的主機(jī)名；資源自身的名稱，由路徑表示。如下面的URI：http：/myhtml/html1223/我們可以這樣解釋它：這是一個可以通過HTTP協(xié)議訪問的資源,位于主機(jī) 上，通過路徑“/html/html40”訪問。4、URL的理解和舉例URL是URI的一個子集。它是Uniform Resource Locato

4、r的縮寫，譯為“統(tǒng)一資源定位符”.通俗地說，URL是Internet上描述信息資源的字符串，主要用在各種WWW客戶程序和服務(wù)器程序上。采用URL可以用一種統(tǒng)一的格式來描述各種信息資源，包括文件、服務(wù)器的地址和目錄等。URL的格式由三部分組成：第一部分是協(xié)議（或稱為服務(wù)方式）。第二部分是存有該資源的主機(jī)IP地址（有時也包括端口號)。第三部分是主機(jī)資源的具體地址,如目錄和文件名等。第一部分和第二部分用“:/”符號隔開，第二部分和第三部分用“/”符號隔開。第一部分和第二部分是不可缺少的,第三部分有時可以省略。下面來看看兩個URL的小例子。1。HTTP協(xié)議的URL示例：使用超級文本傳輸協(xié)議HTTP，

5、提供超級文本信息服務(wù)的資源。例：http：/channel/welcome。htm其計算機(jī)域名為。超級文本文件(文件類型為.html)是在目錄 /channel下的welcome.htm。這是中國人民日報的一臺計算機(jī)。例：/talk/talk1。htm其計算機(jī)域名為。超級文本文件(文件類型為.html)是在目錄/talk下的talk1.htm.這是瑞得聊天室的地址,可由此進(jìn)入瑞得聊天室的第1室。2文件的URL用URL表示文件時，服務(wù)器方式用file表示，后面要有主機(jī)IP地址、文件的存取路徑(即目錄）和文件名等信息。有時可以省略目錄和文件名，但“/”符號不能省略。例：file:/pub/fil

6、es/foobar.txt上面這個URL代表存放在主機(jī)上的pub/files/目錄下的一個文件，文件名是foobar.txt。例：file:/pub代表主機(jī)上的目錄/pub.例：file:/代表主機(jī)的根目錄.爬蟲最主要的處理對象就是URL，它根據(jù)URL地址取得所需要的文件內(nèi)容，然后對它進(jìn)行進(jìn)一步的處理。因此，準(zhǔn)確地理解URL對理解網(wǎng)絡(luò)爬蟲至關(guān)重要。 HYPERLINK http：/wxg694175346/article/details/8923067 利用urllib2通過指定的URL抓取網(wǎng)頁內(nèi)容所謂網(wǎng)頁抓取，就是把URL地址中指定的網(wǎng)絡(luò)資源從網(wǎng)絡(luò)流中讀取出來,保存到本地。類似于使用程序模

7、擬IE瀏覽器的功能,把URL作為HTTP請求的內(nèi)容發(fā)送到服務(wù)器端，然后讀取服務(wù)器端的響應(yīng)資源。在Python中,我們使用urllib2這個組件來抓取網(wǎng)頁。urllib2是Python的一個獲取URLs(Uniform Resource Locators)的組件。它以urlopen函數(shù)的形式提供了一個非常簡單的接口。最簡單的urllib2的應(yīng)用代碼只需要四行。我們新建一個文件urllib2_test01.py來感受一下urllib2的作用：python HYPERLINK ”/wxg694175346/article/details/8923067 o ”view plain view pla

8、in HYPERLINK http：/wxg694175346/article/details/8923067 o copy” copyimporturllib2response=urllib2.urlopen（/)html=response.read()printhtml按下F5可以看到運(yùn)行的結(jié)果：我們可以打開百度主頁，右擊，選擇查看源代碼（火狐OR谷歌瀏覽器均可），會發(fā)現(xiàn)也是完全一樣的內(nèi)容.也就是說，上面這四行代碼將我們訪問百度時瀏覽器收到的代碼們?nèi)看蛴×顺鰜?這就是一個最簡單的urllib2的例子。除了http:”，URL同樣可以使用”ftp:”，”file:”等等來替代.HTTP是基

9、于請求和應(yīng)答機(jī)制的：客戶端提出請求，服務(wù)端提供應(yīng)答。urllib2用一個Request對象來映射你提出的HTTP請求.在它最簡單的使用形式中你將用你要請求的地址創(chuàng)建一個Request對象，通過調(diào)用urlopen并傳入Request對象,將返回一個相關(guān)請求response對象，這個應(yīng)答對象如同一個文件對象,所以你可以在Response中調(diào)用。read（）。我們新建一個文件urllib2_test02.py來感受一下：python HYPERLINK /wxg694175346/article/details/8923067 o view plain” view plain HYPERLINK ”

10、/wxg694175346/article/details/8923067” o copy copyimporturllib2req=urllib2。Request(http：/）response=urllib2。urlopen(req）the_page=response.read（)printthe_page可以看到輸出的內(nèi)容和test01是一樣的.urllib2使用相同的接口處理所有的URL頭。例如你可以像下面那樣創(chuàng)建一個ftp請求。python HYPERLINK ”http：/wxg694175346/article/details/8923067” o ”view plain” vi

11、ew plain HYPERLINK ”http：/wxg694175346/article/details/8923067 o ”copy copyreq=urllib2。Request（ftp：/)在HTTP請求時,允許你做額外的兩件事。1.發(fā)送data表單數(shù)據(jù)這個內(nèi)容相信做過Web端的都不會陌生，有時候你希望發(fā)送一些數(shù)據(jù)到URL(通常URL與CGI通用網(wǎng)關(guān)接口腳本,或其他WEB應(yīng)用程序掛接)。在HTTP中，這個經(jīng)常使用熟知的POST請求發(fā)送。這個通常在你提交一個HTML表單時由你的瀏覽器來做。并不是所有的POSTs都來源于表單，你能夠使用POST提交任意的數(shù)據(jù)到你自己的程序.一般的HTM

12、L表單，data需要編碼成標(biāo)準(zhǔn)形式.然后做為data參數(shù)傳到Request對象.編碼工作使用urllib的函數(shù)而非urllib2。我們新建一個文件urllib2_test03。py來感受一下：python HYPERLINK /wxg694175346/article/details/8923067 o view plain view plain HYPERLINK ”http：/wxg694175346/article/details/8923067 o copy copyimporturllibimporturllib2url=http：/register。cgivalues=name：W

13、HY，location:SDU,language：Pythondata=urllib.urlencode（values)編碼工作req=urllib2.Request(url，data）#發(fā)送請求同時傳data表單response=urllib2.urlopen（req）接受反饋的信息the_page=response.read(）#讀取反饋的內(nèi)容如果沒有傳送data參數(shù),urllib2使用GET方式的請求。GET和POST請求的不同之處是POST請求通常有”副作用,它們會由于某種途徑改變系統(tǒng)狀態(tài)(例如提交成堆垃圾到你的門口)。Data同樣可以通過在Get請求的URL本身上面編碼來傳送。pyt

14、hon HYPERLINK http：/wxg694175346/article/details/8923067 o view plain” view plain HYPERLINK ”http：/wxg694175346/article/details/8923067 o copy copyimporturllib2importurllibdata=dataname=WHYdatalocation=SDUdatalanguage=Pythonurl_values=urllib.urlencode(data)printurl_valuesname=Somebody+Herelanguage=P

15、ythonlocation=Northamptonurl=http：/example.cgifull_url=url+?+url_valuesdata=urllib2.open(full_url)這樣就實(shí)現(xiàn)了Data數(shù)據(jù)的Get傳送。2。設(shè)置Headers到http請求有一些站點(diǎn)不喜歡被程序（非人為訪問）訪問,或者發(fā)送不同版本的內(nèi)容到不同的瀏覽器。默認(rèn)的urllib2把自己作為“Pythonurllib/x.y(x和y是Python主版本和次版本號，例如Pythonurllib/2。7)，這個身份可能會讓站點(diǎn)迷惑，或者干脆不工作。瀏覽器確認(rèn)自己身份是通過UserAgent頭,當(dāng)你創(chuàng)建了一個請求

16、對象，你可以給他一個包含頭數(shù)據(jù)的字典。下面的例子發(fā)送跟上面一樣的內(nèi)容，但把自身模擬成Internet Explorer。python HYPERLINK /wxg694175346/article/details/8923067 o view plain view plain HYPERLINK http：/wxg694175346/article/details/8923067” o ”copy copyimporturllibimporturllib2url=http：/cgi-bin/register.cgiuser_agent=Mozilla/4.0(compatible；MSIE5。

17、5；WindowsNT)values=name:WHY，location：SDU,language：Pythonheaders=User-Agent：user_agentdata=urllib。urlencode(values）req=urllib2.Request（url,data，headers)response=urllib2.urlopen(req)the_page=response.read（) HYPERLINK ”http：/wxg694175346/article/details/8923725” 異常的處理和HTTP狀態(tài)碼的分類先來說一說HTTP的異常處理問題.當(dāng)urlope

18、n不能夠處理一個response時，產(chǎn)生urlError。不過通常的Python APIs異常如ValueError，TypeError等也會同時產(chǎn)生。HTTPError是urlError的子類,通常在特定HTTP URLs中產(chǎn)生。1.URLError通常,URLError在沒有網(wǎng)絡(luò)連接（沒有路由到特定服務(wù)器)，或者服務(wù)器不存在的情況下產(chǎn)生。這種情況下，異常同樣會帶有”reason”屬性，它是一個tuple（可以理解為不可變的數(shù)組），包含了一個錯誤號和一個錯誤信息。我們建一個urllib2_test06.py來感受一下異常的處理：python HYPERLINK /wxg694175346/a

19、rticle/details/8923725” o view plain” view plain HYPERLINK /wxg694175346/article/details/8923725” o ”copy copyimporturllib2req=urllib2。Request（http：/）try:urllib2。urlopen（req）excepturllib2。URLError，e:printe.reason按下F5，可以看到打印出來的內(nèi)容是：Errno 11001 getaddrinfo failed也就是說，錯誤號是11001,內(nèi)容是getaddrinfo failed2.HT

20、TPError服務(wù)器上每一個HTTP 應(yīng)答對象response包含一個數(shù)字”狀態(tài)碼”。有時狀態(tài)碼指出服務(wù)器無法完成請求。默認(rèn)的處理器會為你處理一部分這種應(yīng)答.例如:假如response是一個”重定向”，需要客戶端從別的地址獲取文檔,urllib2將為你處理.其他不能處理的，urlopen會產(chǎn)生一個HTTPError。典型的錯誤包含404（頁面無法找到），403（請求禁止）,和401”(帶驗證請求）。HTTP狀態(tài)碼表示HTTP協(xié)議所返回的響應(yīng)的狀態(tài)。比如客戶端向服務(wù)器發(fā)送請求，如果成功地獲得請求的資源，則返回的狀態(tài)碼為200，表示響應(yīng)成功。如果請求的資源不存在，則通常返回404錯誤.HTTP狀

21、態(tài)碼通常分為5種類型,分別以15五個數(shù)字開頭，由3位整數(shù)組成：-200：請求成功處理方式：獲得響應(yīng)的內(nèi)容，進(jìn)行處理201：請求完成，結(jié)果是創(chuàng)建了新資源。新創(chuàng)建資源的URI可在響應(yīng)的實(shí)體中得到處理方式：爬蟲中不會遇到202：請求被接受，但處理尚未完成處理方式：阻塞等待204：服務(wù)器端已經(jīng)實(shí)現(xiàn)了請求,但是沒有返回新的信息。如果客戶是用戶代理，則無須為此更新自身的文檔視圖. 處理方式：丟棄300:該狀態(tài)碼不被HTTP/1。0的應(yīng)用程序直接使用，只是作為3XX類型回應(yīng)的默認(rèn)解釋。存在多個可用的被請求資源。處理方式：若程序中能夠處理,則進(jìn)行進(jìn)一步處理,如果程序中不能處理，則丟棄301：請求到

22、的資源都會分配一個永久的URL，這樣就可以在將來通過該URL來訪問此資源處理方式：重定向到分配的URL302:請求到的資源在一個不同的URL處臨時保存處理方式：重定向到臨時的URL304 請求的資源未更新處理方式：丟棄400 非法請求處理方式：丟棄401 未授權(quán) 處理方式：丟棄403 禁止處理方式:丟棄404 沒有找到處理方式：丟棄5XX 回應(yīng)代碼以“5開頭的狀態(tài)碼表示服務(wù)器端發(fā)現(xiàn)自己出現(xiàn)錯誤，不能繼續(xù)執(zhí)行請求處理方式：丟棄-HTTPError實(shí)例產(chǎn)生后會有一個整型code屬性，是服務(wù)器發(fā)送的相關(guān)錯誤號。Error Codes錯誤碼因為默認(rèn)的處理器處理了重定向(300以外號碼)，

23、并且100-299范圍的號碼指示成功，所以你只能看到400599的錯誤號碼.BaseHTTPServer。BaseHTTPRequestHandler。response是一個很有用的應(yīng)答號碼字典，顯示了HTTP協(xié)議使用的所有的應(yīng)答號。當(dāng)一個錯誤號產(chǎn)生后,服務(wù)器返回一個HTTP錯誤號,和一個錯誤頁面。你可以使用HTTPError實(shí)例作為頁面返回的應(yīng)答對象response。這表示和錯誤屬性一樣，它同樣包含了read,geturl,和info方法。我們建一個urllib2_test07。py來感受一下:python HYPERLINK ”http：/wxg694175346/article/deta

24、ils/8923725 o view plain view plain HYPERLINK ”http：/wxg694175346/article/details/8923725” o ”copy” copyimporturllib2req=urllib2。Request(/callmewhy)try：urllib2.urlopen（req）excepturllib2.URLError，e:printe.code#printe。read()按下F5可以看見輸出了404的錯誤碼，也就說沒有找到這個頁面。3.Wrapping所以如果你想為HTTPError或URLError做準(zhǔn)備,將有兩個基本的辦

25、法.推薦使用第二種.我們建一個urllib2_test08.py來示范一下第一種異常處理的方案：python HYPERLINK ”/wxg694175346/article/details/8923725” o view plain” view plain HYPERLINK http：/wxg694175346/article/details/8923725 o copy” copyfromurllib2importRequest,urlopen,URLError，HTTPErrorreq=Request（http：/callmewhy）try:response=urlopen(req)e

26、xceptHTTPError,e:printTheservercouldntfulfilltherequest.printErrorcode:，e。codeexceptURLError,e:printWefailedtoreachaserver.printReason：，e。reasonelse：printNoexceptionwasraised。everythingisfine和其他語言相似,try之后捕獲異常并且將其內(nèi)容打印出來。這里要注意的一點(diǎn)，except HTTPError 必須在第一個，否則except URLError將同樣接受到HTTPError。因為HTTPError是URL

27、Error的子類，如果URLError在前面它會捕捉到所有的URLError（包括HTTPError）。我們建一個urllib2_test09。py來示范一下第二種異常處理的方案：python HYPERLINK ”http：/wxg694175346/article/details/8923725 o view plain” view plain HYPERLINK http：/wxg694175346/article/details/8923725 o copy copyfromurllib2importRequest，urlopen，URLError，HTTPErrorreq=Reque

28、st（http：/callmewhy)try：response=urlopen(req）exceptURLError,e:ifhasattr（e,reason):printWefailedtoreachaserver。printReason：，e。reasonelifhasattr(e，code）：printTheservercouldntfulfilltherequest。printErrorcode：,e.codeelse：printNoexceptionwasraised.#everythingisfine HYPERLINK ”http：/wxg694175346/article/de

29、tails/8924889” Opener與Handler的介紹和實(shí)例應(yīng)用在開始后面的內(nèi)容之前，先來解釋一下urllib2中的兩個個方法：info and geturlurlopen返回的應(yīng)答對象response(或者HTTPError實(shí)例）有兩個很有用的方法info(）和geturl（）1。geturl(）：這個返回獲取的真實(shí)的URL，這個很有用，因為urlopen（或者opener對象使用的）或許會有重定向。獲取的URL或許跟請求URL不同。以人人中的一個超級鏈接為例，我們建一個urllib2_test10.py來比較一下原始URL和重定向的鏈接:python HYPERLINK /wxg

30、694175346/article/details/8924889” o ”view plain view plain HYPERLINK ”http：/wxg694175346/article/details/8924889” o ”copy copyfromurllib2importRequest，urlopen，URLError，HTTPErrorold_url=/b1UZuPreq=Request(old_url)response=urlopen(req)printOldurl:+old_urlprintRealurl：+response.geturl（）運(yùn)行之后可以看到真正的鏈接指向

31、的網(wǎng)址：2。info()：這個返回對象的字典對象，該字典描述了獲取的頁面情況。通常是服務(wù)器發(fā)送的特定頭headers.目前是httplib。HTTPMessage 實(shí)例。經(jīng)典的headers包含”Content-length”，Contenttype，和其他內(nèi)容。我們建一個urllib2_test11.py來測試一下info的應(yīng)用：python HYPERLINK /wxg694175346/article/details/8924889 o ”view plain view plain HYPERLINK ”/wxg694175346/article/details/8924889 o ”c

32、opy copyfromurllib2importRequest，urlopen，URLError，HTTPErrorold_url=http：/req=Request（old_url）response=urlopen(req）printInfo（):print（）運(yùn)行的結(jié)果如下,可以看到頁面的相關(guān)信息:下面來說一說urllib2中的兩個重要概念:Openers和Handlers。1.Openers：當(dāng)你獲取一個URL你使用一個opener（一個urllib2.OpenerDirector的實(shí)例)。正常情況下,我們使用默認(rèn)opener：通過urlopen.但你能夠創(chuàng)建個性的openers。2.

33、Handles：Openers使用處理器handlers,所有的“繁重”工作由handlers處理。每個handlers知道如何通過特定協(xié)議打開URLs,或者如何處理URL打開時的各個方面。例如HTTP重定向或者HTTP cookies。如果你希望用特定處理器獲取URLs你會想創(chuàng)建一個openers，例如獲取一個能處理cookie的opener，或者獲取一個不重定向的opener.要創(chuàng)建一個 opener,可以實(shí)例化一個OpenerDirector,然后調(diào)用.add_handler(some_handler_instance）。同樣,可以使用build_opener，這是一個更加方便的函數(shù)，用

34、來創(chuàng)建opener對象,他只需要一次函數(shù)調(diào)用。build_opener默認(rèn)添加幾個處理器，但提供快捷的方法來添加或更新默認(rèn)處理器。其他的處理器handlers你或許會希望處理代理，驗證，和其他常用但有點(diǎn)特殊的情況。install_opener 用來創(chuàng)建(全局）默認(rèn)opener。這個表示調(diào)用urlopen將使用你安裝的opener。Opener對象有一個open方法。該方法可以像urlopen函數(shù)那樣直接用來獲取urls：通常不必調(diào)用install_opener，除了為了方便。說完了上面兩個內(nèi)容，下面我們來看一下基本認(rèn)證的內(nèi)容,這里會用到上面提及的Opener和Handler。Basic Aut

35、hentication 基本驗證為了展示創(chuàng)建和安裝一個handler，我們將使用HTTPBasicAuthHandler。當(dāng)需要基礎(chǔ)驗證時,服務(wù)器發(fā)送一個header（401錯誤碼）請求驗證.這個指定了scheme 和一個realm，看起來像這樣：Wwwauthenticate： SCHEME realm=REALM.例如Wwwauthenticate： Basic realm=cPanel Users客戶端必須使用新的請求，并在請求頭里包含正確的姓名和密碼。這是“基礎(chǔ)驗證”，為了簡化這個過程，我們可以創(chuàng)建一個HTTPBasicAuthHandler的實(shí)例,并讓opener使用這個handl

36、er就可以啦.HTTPBasicAuthHandler使用一個密碼管理的對象來處理URLs和realms來映射用戶名和密碼。如果你知道realm（從服務(wù)器發(fā)送來的頭里)是什么，你就能使用HTTPPasswordMgr.通常人們不關(guān)心realm是什么。那樣的話，就能用方便的HTTPPasswordMgrWithDefaultRealm。這個將在你為URL指定一個默認(rèn)的用戶名和密碼。這將在你為特定realm提供一個其他組合時得到提供。我們通過給realm參數(shù)指定None提供給add_password來指示這種情況.最高層次的URL是第一個要求驗證的URL。你傳給.add_password（)更深層

37、次的URLs將同樣合適.說了這么多廢話,下面來用一個例子演示一下上面說到的內(nèi)容。我們建一個urllib2_test12。py來測試一下info的應(yīng)用：python HYPERLINK http：/wxg694175346/article/details/8924889” o ”view plain” view plain HYPERLINK /wxg694175346/article/details/8924889 o ”copy copy#*-coding：utf8*-importurllib2創(chuàng)建一個密碼管理者password_mgr=urllib2.HTTPPasswordMgrWith

38、DefaultRealm（）#添加用戶名和密碼top_level_url=/foo/”#如果知道realm，我們可以使用他代替None.#password_mgr。add_password(None,top_level_url，username，password)password_mgr.add_password（None，top_level_url，why，1223)#創(chuàng)建了一個新的handlerhandler=urllib2.HTTPBasicAuthHandler(password_mgr）創(chuàng)建”opener(OpenerDirector實(shí)例)opener=urllib2。build_o

39、pener（handler）a_url=/#使用opener獲取一個URLopener.open（a_url)#安裝opener。#現(xiàn)在所有調(diào)用urllib2.urlopen將用我們的opener.urllib2.install_opener(opener)注意：以上的例子我們僅僅提供我們的HHTPBasicAuthHandler給build_opener。默認(rèn)的openers有正常狀況的handlers：ProxyHandler，UnknownHandler，HTTPHandler，HTTPDefaultErrorHandler， HTTPRedirectHandler，F(xiàn)TPHandler

40、， FileHandler， HTTPErrorProcessor。代碼中的top_level_url 實(shí)際上可以是完整URL（包含http：，以及主機(jī)名及可選的端口號)。例如：http：/。也可以是一個“authority”(即主機(jī)名和可選的包含端口號）.例如:“” or “：8080。后者包含了端口號。 HYPERLINK /wxg694175346/article/details/8925978” urllib2的使用細(xì)節(jié)與抓站技巧前面說到了urllib2的簡單入門，下面整理了一部分urllib2的使用細(xì)節(jié)。1。Proxy 的設(shè)置urllib2 默認(rèn)會使用環(huán)境變量 http_proxy

41、來設(shè)置 HTTP Proxy。如果想在程序中明確控制 Proxy 而不受環(huán)境變量的影響，可以使用代理.新建test14來實(shí)現(xiàn)一個簡單的代理Demo：python HYPERLINK /wxg694175346/article/details/8925978 o ”view plain” view plain HYPERLINK /wxg694175346/article/details/8925978 o ”copy copyimporturllib2enable_proxy=Trueproxy_handler=urllib2。ProxyHandler(http”:http：/some：808

42、0)null_proxy_handler=urllib2.ProxyHandler（）ifenable_proxy：opener=urllib2.build_opener(proxy_handler）else：opener=urllib2。build_opener（null_proxy_handler)urllib2。install_opener(opener）這里要注意的一個細(xì)節(jié),使用 urllib2.install_opener（) 會設(shè)置 urllib2 的全局 opener 。這樣后面的使用會很方便,但不能做更細(xì)致的控制,比如想在程序中使用兩個不同的 Proxy 設(shè)置等。比較好的做法是

43、不使用 install_opener 去更改全局的設(shè)置，而只是直接調(diào)用 opener 的 open 方法代替全局的 urlopen 方法。2.Timeout 設(shè)置在老版 Python 中（Python2。6前）,urllib2 的 API 并沒有暴露 Timeout 的設(shè)置，要設(shè)置 Timeout 值,只能更改 Socket 的全局 Timeout 值.python HYPERLINK ”/wxg694175346/article/details/8925978” o view plain view plain HYPERLINK http：/wxg694175346/article/deta

44、ils/8925978 o copy” copyimporturllib2importsocketsocket.setdefaulttimeout(10)10秒鐘后超時urllib2.socket。setdefaulttimeout(10）#另一種方式在 Python 2.6 以后，超時可以通過 urllib2。urlopen() 的 timeout 參數(shù)直接設(shè)置。python HYPERLINK /wxg694175346/article/details/8925978” o view plain view plain HYPERLINK /wxg694175346/article/deta

45、ils/8925978” o copy” copyimporturllib2response=urllib2.urlopen(http：/，timeout=10)3。在 HTTP Request 中加入特定的 Header要加入 header，需要使用 Request 對象：python HYPERLINK http：/wxg694175346/article/details/8925978” o ”view plain view plain HYPERLINK http：/wxg694175346/article/details/8925978” o copy” copyimporturll

46、ib2request=urllib2.Request(http：/）request。add_header(UserAgent，fake-client)response=urllib2.urlopen(request）printresponse。read(）對有些 header 要特別留意，服務(wù)器會針對這些 header 做檢查User-Agent : 有些服務(wù)器或 Proxy 會通過該值來判斷是否是瀏覽器發(fā)出的請求ContentType : 在使用 REST 接口時，服務(wù)器會檢查該值，用來確定 HTTP Body 中的內(nèi)容該怎樣解析。常見的取值有:application/xml ：在 XML

47、 RPC,如 RESTful/SOAP 調(diào)用時使用application/json ：在 JSON RPC 調(diào)用時使用application/x-wwwformurlencoded ：瀏覽器提交 Web 表單時使用在使用服務(wù)器提供的 RESTful 或 SOAP 服務(wù)時， Content-Type 設(shè)置錯誤會導(dǎo)致服務(wù)器拒絕服務(wù)4.Redirecturllib2 默認(rèn)情況下會針對 HTTP 3XX 返回碼自動進(jìn)行 redirect 動作，無需人工配置。要檢測是否發(fā)生了 redirect 動作,只要檢查一下 Response 的 URL 和 Request 的 URL 是否一致就可以了.pyt

48、hon HYPERLINK ”http：/wxg694175346/article/details/8925978” o ”view plain” view plain HYPERLINK ”http：/wxg694175346/article/details/8925978” o ”copy copyimporturllib2my_url=http：/response=urllib2.urlopen(my_url)redirected=response。geturl(）=my_urlprintredirectedmy_url=/b1UZuPresponse=urllib2。urlopen(m

49、y_url)redirected=response.geturl（）=my_urlprintredirected如果不想自動 redirect，除了使用更低層次的 httplib 庫之外,還可以自定義HTTPRedirectHandler 類.python HYPERLINK ”http：/wxg694175346/article/details/8925978” o view plain view plain HYPERLINK ”/wxg694175346/article/details/8925978” o ”copy” copyimporturllib2classRedirectHan

50、dler(urllib2。HTTPRedirectHandler）：defhttp_error_301(self，req，fp，code，msg，headers)：print301passdefhttp_error_302(self,req，fp，code,msg，headers）：print303”passopener=urllib2.build_opener(RedirectHandler)opener。open(/b1UZuP）5。Cookieurllib2 對 Cookie 的處理也是自動的。如果需要得到某個 Cookie 項的值，可以這么做：python HYPERLINK http

51、：/wxg694175346/article/details/8925978” o view plain” view plain HYPERLINK http：/wxg694175346/article/details/8925978 o copy” copyimporturllib2importcookielibcookie=cookielib.CookieJar(）opener=urllib2。build_opener(urllib2.HTTPCookieProcessor(cookie）)response=opener。open(http：/)foritemincookie：printN

52、ame=+printValue=+item。value運(yùn)行之后就會輸出訪問百度的Cookie值：6.使用 HTTP 的 PUT 和 DELETE 方法urllib2 只支持 HTTP 的 GET 和 POST 方法，如果要使用 HTTP PUT 和 DELETE ,只能使用比較低層的 httplib 庫.雖然如此，我們還是能通過下面的方式，使 urllib2 能夠發(fā)出 PUT 或DELETE 的請求:python HYPERLINK http：/wxg694175346/article/details/8925978” o ”view plain view plain HYPERLINK ”/

53、wxg694175346/article/details/8925978 o copy” copyimporturllib2request=urllib2.Request（uri，data=data）request。get_method=lambda：PUT#orDELETEresponse=urllib2.urlopen（request)7.得到 HTTP 的返回碼對于 200 OK 來說，只要使用 urlopen 返回的 response 對象的 getcode(）方法就可以得到 HTTP 的返回碼。但對其它返回碼來說，urlopen 會拋出異常.這時候,就要檢查異常對象的 code 屬

54、性了：python HYPERLINK /wxg694175346/article/details/8925978” o ”view plain view plain HYPERLINK http：/wxg694175346/article/details/8925978” o copy copyimporturllib2try：response=urllib2.urlopen（http：/why）excepturllib2.HTTPError，e：printe。code8。Debug Log使用 urllib2 時，可以通過下面的方法把 debug Log 打開，這樣收發(fā)包的內(nèi)容就會在屏幕上

55、打印出來,方便調(diào)試，有時可以省去抓包的工作python HYPERLINK ”/wxg694175346/article/details/8925978” o view plain view plain HYPERLINK /wxg694175346/article/details/8925978” o ”copy copyimporturllib2httpHandler=urllib2。HTTPHandler（debuglevel=1）httpsHandler=urllib2.HTTPSHandler(debuglevel=1）opener=urllib2。build_opener(http

56、Handler，httpsHandler)urllib2.install_opener(opener)response=urllib2.urlopen（）這樣就可以看到傳輸?shù)臄?shù)據(jù)包內(nèi)容了：9.表單的處理登錄必要填表，表單怎么填？首先利用工具截取所要填表的內(nèi)容。比如我一般用firefox+httpfox插件來看看自己到底發(fā)送了些什么包。以verycd為例，先找到自己發(fā)的POST請求,以及POST表單項?？梢钥吹絭erycd的話需要填username，password,continueURI,fk，login_submit這幾項，其中fk是隨機(jī)生成的（其實(shí)不太隨機(jī)，看上去像是把epoch時間經(jīng)過簡

57、單的編碼生成的），需要從網(wǎng)頁獲取，也就是說得先訪問一次網(wǎng)頁，用正則表達(dá)式等工具截取返回數(shù)據(jù)中的fk項.continueURI顧名思義可以隨便寫,login_submit是固定的，這從源碼可以看出。還有username,password那就很顯然了：python HYPERLINK ”http：/wxg694175346/article/details/8925978” o view plain view plain HYPERLINK http：/wxg694175346/article/details/8925978” o ”copy copy-*coding：utf-8-importurl

58、libimporturllib2postdata=urllib.urlencode（username:汪小光,password:why888,continueURI:http：/，fk：,login_submit:登錄)req=urllib2。Request(url=http：/signin，data=postdata）result=urllib2.urlopen（req)printresult.read(）10。偽裝成瀏覽器訪問某些網(wǎng)站反感爬蟲的到訪，于是對爬蟲一律拒絕請求這時候我們需要偽裝成瀏覽器，這可以通過修改http包中的header來實(shí)現(xiàn)python HYPERLINK /wxg69

59、4175346/article/details/8925978” o view plain” view plain HYPERLINK http：/wxg694175346/article/details/8925978 o copy” copyheaders=User-Agent：Mozilla/5.0（Windows；U；WindowsNT6。1；enUS；rv：1.9。1。6）Gecko/20091201Firefox/3.5.6req=urllib2。Request（url=http：/signin/*/，data=postdata,headers=headers）。.11。對付反盜鏈

60、某些站點(diǎn)有所謂的反盜鏈設(shè)置,其實(shí)說穿了很簡單，就是檢查你發(fā)送請求的header里面，referer站點(diǎn)是不是他自己,所以我們只需要像把headers的referer改成該網(wǎng)站即可，以cnbeta為例：.。headers = Referer：http：/articles.headers是一個dict數(shù)據(jù)結(jié)構(gòu)，你可以放入任何想要的header，來做一些偽裝。例如，有些網(wǎng)站喜歡讀取header中的X-ForwardedFor來看看人家的真實(shí)IP,可以直接把XForwardeFor改了。 HYPERLINK ”http：/wxg694175346/article/details/8927832” 一個

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

python-網(wǎng)絡(luò)爬蟲

文檔簡介

溫馨提示

最新文檔

評論

python-網(wǎng)絡(luò)爬蟲

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔