項目1 了解爬蟲與Python爬蟲環(huán)境_第1頁
項目1 了解爬蟲與Python爬蟲環(huán)境_第2頁
項目1 了解爬蟲與Python爬蟲環(huán)境_第3頁
項目1 了解爬蟲與Python爬蟲環(huán)境_第4頁
項目1 了解爬蟲與Python爬蟲環(huán)境_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

了解爬蟲與Python

爬蟲環(huán)境1認(rèn)識反爬蟲目錄認(rèn)識爬蟲2配置Python爬蟲環(huán)境3網(wǎng)絡(luò)爬蟲(WebSpider,簡稱爬蟲)也被稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機器人,是可以自動下載網(wǎng)頁的計算機程序或自動化腳本。網(wǎng)絡(luò)爬蟲就像一只蜘蛛一樣在互聯(lián)網(wǎng)上爬行,它以一個被稱為種子集的統(tǒng)一資源定位符(UniformResourceLocator,URL)集合為起點。沿著URL的“絲線”爬行,下載每一個URL所指向的網(wǎng)頁,分析頁面內(nèi)容。再提取新的URL并記錄下每個已爬行過的URL。如此往復(fù),直到URL隊列為空或滿足設(shè)定的終止條件為止,最終爬取所要的信息。認(rèn)識爬蟲1.爬蟲的概念網(wǎng)絡(luò)爬蟲按照其系統(tǒng)結(jié)構(gòu)和運作原理,大致可以分為4種:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲。通用網(wǎng)絡(luò)爬蟲:適合為搜索引擎搜索廣泛的主題。聚焦網(wǎng)絡(luò)爬蟲:節(jié)省硬件資源和網(wǎng)絡(luò)資源,能更快地更新保存的頁面。增量式網(wǎng)絡(luò)爬蟲:減少數(shù)據(jù)下載量,并及時更新已爬取過的網(wǎng)頁,減少時間和存儲空間上的浪費。深層網(wǎng)絡(luò)爬蟲:深層頁面是目前互聯(lián)網(wǎng)上發(fā)展最快、最大的新型信息資源。認(rèn)識爬蟲2.爬蟲的分類通用網(wǎng)絡(luò)爬蟲常用的爬取策略可分為以下兩種。深度優(yōu)先策略:該策略的基本方法是按照深度由低到高的順序,依次訪問網(wǎng)頁鏈接,直到無法再深入為止。在完成一個爬取分支后,返回上一節(jié)點搜索其他鏈接進行訪問,當(dāng)遍歷完全部鏈接后,爬取過程結(jié)束。深度優(yōu)先策略比較適合垂直搜索或站內(nèi)搜索,其缺點是當(dāng)爬取層次較深的站點時會造成巨大的資源浪費。廣度優(yōu)先策略:該策略按照網(wǎng)頁內(nèi)容目錄層次的深淺進行爬取,優(yōu)先爬取較淺層次的頁面。當(dāng)同一層中的頁面全部爬取完畢后,再深入下一層。相較于深度優(yōu)先策略,廣度優(yōu)先策略能更有效地控制頁面爬取的深度,避免當(dāng)遇到一個無窮深層次的分支時無法結(jié)束爬取的問題。廣度優(yōu)先策略不需要存儲大量的中間節(jié)點,但其缺點是需要較長時間才能爬取到目錄層次較深的頁面。認(rèn)識爬蟲通用網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲的爬取策略可分為以下4種?;趦?nèi)容評價的爬取策略:該策略將用戶輸入的查詢詞作為主題,包含查詢詞的頁面被視為與主題相關(guān)的頁面。基于鏈接結(jié)構(gòu)評價的爬取策略:該策略將包含很多結(jié)構(gòu)信息的半結(jié)構(gòu)化文檔(如Web頁面)用于評價鏈接的重要性?;谠鰪妼W(xué)習(xí)的爬取策略:該策略將增強學(xué)習(xí)引入聚焦網(wǎng)絡(luò)爬蟲,利用貝葉斯分類器基于整個網(wǎng)頁文本和鏈接文本來對超鏈接進行分類,計算每個鏈接的重要性,按照重要性決定鏈接的訪問順序?;谡Z境圖的爬取策略:該策略通過建立語境圖來學(xué)習(xí)網(wǎng)頁之間的相關(guān)度,具體方法為:計算當(dāng)前頁面到相關(guān)頁面的距離,距離越近的頁面中的鏈接越被優(yōu)先訪問。認(rèn)識爬蟲聚焦類爬蟲增量式網(wǎng)絡(luò)爬蟲的爬取策略常用的方法有以下3種。統(tǒng)一更新法:爬蟲以相同的頻率訪問所有網(wǎng)頁,不受網(wǎng)頁本身的改變頻率的影響。個體更新法:爬蟲根據(jù)單個網(wǎng)頁的改變頻率來決定重新訪問各頁面的頻率?;诜诸惖母路ǎ号老x按照網(wǎng)頁變化頻率將網(wǎng)頁分為更新較快的網(wǎng)頁和更新較慢的網(wǎng)頁,并分別設(shè)定不同的頻率來訪問這兩類網(wǎng)頁。認(rèn)識爬蟲增量式網(wǎng)絡(luò)爬蟲在深層網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)的過程中,最重要的部分就是表單填寫。表單填寫主要包含以下兩種方法?;陬I(lǐng)域知識的表單填寫:該方法一般會維持一個本體庫,并通過語義分析來選取合適的關(guān)鍵詞填寫表單。通過將表單按語義分配至各組中,從多方面對每組進行注解,并結(jié)合各組注解結(jié)果預(yù)測最終的注解標(biāo)簽。基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫:該方法一般無領(lǐng)域知識或僅有有限的領(lǐng)域知識,其將超文本標(biāo)記語言(HypertextMarkupLanguage,HTML)網(wǎng)頁表示為文檔對象模型(DocumentObjectModel,DOM)樹形式,將表單區(qū)分為單屬性表單和多屬性表單,并分別進行處理,從DOM樹中提取表單各字段值。認(rèn)識爬蟲深層網(wǎng)絡(luò)爬蟲爬蟲的合法性多數(shù)網(wǎng)站允許將爬蟲爬取的數(shù)據(jù)用于個人使用或科學(xué)研究。但如果將爬取的數(shù)據(jù)用于其他用途,尤其是轉(zhuǎn)載或商業(yè)用途,則依據(jù)各網(wǎng)站的具體情況可能會產(chǎn)生不同的后果,嚴(yán)重的可能會觸犯法律或引起民事糾紛。個人隱私數(shù)據(jù)、明確禁止他人訪問的數(shù)據(jù)是不能爬蟲,更不能用于商業(yè)用途。robots協(xié)議當(dāng)使用爬蟲爬取網(wǎng)站的數(shù)據(jù)時,需要遵守網(wǎng)站所有者針對所有爬蟲所制定的協(xié)議——robots協(xié)議。該協(xié)議通常存放在網(wǎng)站根目錄下,里面規(guī)定了此網(wǎng)站中哪些內(nèi)容可以被爬蟲獲取、哪些內(nèi)容是不允許爬蟲獲取的。認(rèn)識爬蟲3.爬蟲運作時應(yīng)遵守的規(guī)則相關(guān)法律法規(guī)不正當(dāng)競爭行為。非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪、非法侵入計算機信息系統(tǒng)罪、破壞計算機信息系統(tǒng)罪等刑事犯罪。侵犯公民個人信息罪、侵犯著作權(quán)罪、侵犯商業(yè)秘密罪。認(rèn)識爬蟲3.爬蟲運作時應(yīng)遵守的規(guī)則1認(rèn)識反爬蟲目錄認(rèn)識爬蟲2配置Python爬蟲環(huán)境31.網(wǎng)站反爬蟲概念網(wǎng)站所有者從所有網(wǎng)站來訪者中識別出爬蟲并對其做出相應(yīng)處理(通常為封禁IP地址)的過程,被稱為反爬蟲。對于網(wǎng)站所有者而言,爬蟲并不是一個受歡迎的“客人”。爬蟲會消耗大量的服務(wù)器資源,影響服務(wù)器的穩(wěn)定性,增加運營的網(wǎng)絡(luò)成本。可供免費查詢的資源也有極大可能被競爭對手使用爬蟲爬走,造成自身競爭力下降。以上種種因素會讓網(wǎng)站所有者想方設(shè)法阻止爬蟲爬取自家網(wǎng)站的數(shù)據(jù)。爬蟲行為與普通用戶訪問網(wǎng)站行為極為類似,網(wǎng)站所有者在進行反爬蟲時會盡可能地減少對普通用戶的干擾。網(wǎng)站常用反爬蟲手段通常分為以下幾種。認(rèn)識反爬蟲2.反爬蟲手段:通過User-Agent校驗反爬蟲:User-Agent標(biāo)示一個瀏覽器的型號,服務(wù)器會通過User-Agent的值來區(qū)分不同的瀏覽器。通過訪問頻度反爬蟲:由于普通用戶通過瀏覽器訪問網(wǎng)站的速度相對爬蟲而言要慢得多,所以不少網(wǎng)站會利用這一特點對訪問頻度設(shè)定一個閾值。通過驗證碼校驗反爬蟲:與通過訪問頻度反爬蟲不同,部分網(wǎng)站不論訪問頻度如何,一定要來訪者輸入驗證碼才能繼續(xù)操作。通過變換網(wǎng)頁結(jié)構(gòu)反爬蟲:一些社交網(wǎng)站常常會更換網(wǎng)頁結(jié)構(gòu),而爬蟲在大部分情況下,需要通過網(wǎng)頁結(jié)構(gòu)來解析需要的數(shù)據(jù),變換網(wǎng)頁結(jié)構(gòu)的做法能起到反爬蟲的作用。通過賬號權(quán)限反爬蟲:部分網(wǎng)站需要登錄才能繼續(xù)操作。認(rèn)識反爬蟲針對介紹的常用反爬蟲手段,可以制定以下相對應(yīng)的爬取策略發(fā)送模擬User-Agent:爬蟲可通過發(fā)送模擬User-Agent來進行服務(wù)器的User-Agent檢驗。模擬User-Agent是將要發(fā)送至網(wǎng)站服務(wù)器的請求的User-Agent值偽裝成一般用戶登錄網(wǎng)站時使用的User-Agent值,通過這種方法能很好地規(guī)避服務(wù)器檢驗。調(diào)整訪問頻度:通過備用IP地址測試網(wǎng)站的訪問頻度閾值,然后設(shè)置比閾值略低的訪問頻度通過驗證碼校驗:通過算法識別驗證碼或使用Cookie繞過驗證碼才能進行后續(xù)操作。認(rèn)識反爬蟲3.爬取策略制定針對介紹的常用反爬蟲手段,可以制定以下相對應(yīng)的爬取策略應(yīng)對網(wǎng)站結(jié)構(gòu)變化第一種方法:如果網(wǎng)站只爬取一次,那么要盡量趕在其網(wǎng)站結(jié)構(gòu)調(diào)整之前,將需要的數(shù)據(jù)全部爬取下來。第二種方法:如果網(wǎng)站需要持續(xù)性爬取,那么可以使用腳本對網(wǎng)站結(jié)構(gòu)進行監(jiān)測,若結(jié)構(gòu)發(fā)生變化,則發(fā)出告警并及時停止爬蟲,避免爬取過多無效數(shù)據(jù)。通過賬號權(quán)限限制:對于需要登錄的網(wǎng)站,可通過模擬登錄的方法進行規(guī)避。當(dāng)模擬登錄時,除了需要提交賬號和密碼之外,往往也需要通過驗證碼校驗。認(rèn)識反爬蟲3.爬取策略制定1認(rèn)識反爬蟲目錄認(rèn)識爬蟲2配置Python爬蟲環(huán)境3了解常用的PythonIDEIDE是一種輔助程序開發(fā)人員進行開發(fā)工作的應(yīng)用軟件,在開發(fā)工具內(nèi)部即可輔助編寫代碼,并編譯打包,使其成為可用的程序,有些IDE甚至可以用于設(shè)計圖形接口。IDE是集成了代碼編寫功能、分析功能、編譯功能、調(diào)試功能等于一體的開發(fā)軟件服務(wù)套(組),通常包括編程語言編輯器、自動構(gòu)建工具和調(diào)試器。在Python的應(yīng)用過程中少不了IDE工具,這些工具可以幫助開發(fā)者加快開發(fā)速度,提高效率。在Python中,常見的IDE有IDLE、PyCharm、JupyterNotebook、VSCode等,基本介紹如下。IDLE:

IDLE完全由Python編寫,并使用TkinterUI工具集。盡管IDLE不適用于大型項目開發(fā),但它對小型的Python代碼和Python不同特性的實驗非常有幫助。配置Python爬蟲環(huán)境

1.配置PyCharmPyCharm:

PyCharm由JetBrains公司開發(fā),帶有一整套可以幫助用戶在使用Python語言開發(fā)時提高其效率的工具,如調(diào)試、語法高亮、單元測試、版本控制等。此外,PyCharm提供了一些高級功能,以用于支持Django框架下的專業(yè)Web開發(fā)。PyCharm中的大多數(shù)特性都能通過免費的Python插件帶入IntelliJ中。JupyterNotebook:JupyterNotebook采用網(wǎng)頁版的Python編寫交互模式,其使用過程類似于使用紙和筆,可輕松擦除先前編寫的代碼,并且可以將編寫的代碼進行保存記錄,可用于做筆記以及編寫簡單代碼,相當(dāng)方便。VSCode:VSCode(VisualStudioCode)是Microsoft(微軟)在2015年4月30日正式發(fā)布的針對編寫現(xiàn)代Web應(yīng)用和云應(yīng)用的跨平臺源代碼編輯器,可在多種平臺運行,它內(nèi)置對JavaScript、TypeScript和Node.js支持的功能,并支持豐富的語言(如C++、C#、Java、Python、PHP、Go等)和運行時擴展的生態(tài)系統(tǒng)。配置Python爬蟲環(huán)境PyCharm可以跨平臺使用,分為社區(qū)版和專業(yè)版。其中,社區(qū)版是免費的,專業(yè)版是付費的。在使用PyCharm之前,需安裝該應(yīng)用軟件。在64位的Windows操作系統(tǒng)上,安裝該版本PyCharm的具體安裝步驟如下。打開PyCharm官網(wǎng),如下圖所示,單擊“DOWNLOAD”下載按鈕。配置Python爬蟲環(huán)境安裝PyCharm選擇Windows系統(tǒng)的“Community”(社區(qū)版),單擊“Download”按鈕即可下載安裝包,如下圖所示。配置Python爬蟲環(huán)境配置Python爬蟲環(huán)境下載完成后,雙擊安裝包,打開安裝向?qū)?,如下圖所示,單擊“Next”按鈕進行下一步操作。配置Python爬蟲環(huán)境在進入的界面中自定義軟件安裝路徑,建議安裝路徑不包含中文字符,如下圖所示,單擊“Next”按鈕。配置Python爬蟲環(huán)境設(shè)置完成軟件安裝路徑后,在進入的界面中勾選全部的安裝選項,如下圖所示,單擊“Next”按鈕進行下一步操作。配置Python爬蟲環(huán)境在進入的界面中單擊“Install”按鈕,默認(rèn)安裝PyCharm。等待安裝完成后單擊“Finish”按鈕完成安裝,如下圖所示。配置Python爬蟲環(huán)境雙擊桌面上生成的快捷方式圖標(biāo),在彈出的“ImportPyCharmSettings”對話框中選擇“Donotimportsettings”選項,如下圖所示,然后單擊“OK”按鈕。配置Python爬蟲環(huán)境在彈出的“DataSharing”對話框中單擊“Don’tSend”按鈕,如下圖所示。配置Python爬蟲環(huán)境重啟PyCharm后,將會彈出下圖所示的窗口,選擇“NewProject”選項創(chuàng)建新項目。配置Python爬蟲環(huán)境打開“NewProject”窗口,自定義項目存儲路徑,IDE默認(rèn)關(guān)聯(lián)Python解釋器,單擊“Create”按鈕,如右圖所示。配置Python爬蟲環(huán)境在彈出的提示框中單擊“Close”按鈕,設(shè)置在啟動時不顯示提示,如下左圖所示。這樣就進入了PyCharm界面,如下右圖所示,單擊左下角的圖標(biāo)可顯示或隱藏功能側(cè)邊欄。配置Python爬蟲環(huán)境更換PyCharm的主題。單擊“File”,選擇“Settings”命令,如圖113所示。進入“Settings”界面后,依次選擇“Appearance&Behavior”→“Appearance”命令,在“Theme”中選擇自己喜歡的主題,這里選“Windows10Light”,如下圖所示。在安裝完P(guān)yCharm后,可通過創(chuàng)建一個.py文件,進行代碼的測試,基本步驟如下。新建好項目(此處項目名為python)后,還要新建一個.py文件。右擊項目名“python”,選“New”→“PythonFile”命令,如下圖所示。配置Python爬蟲環(huán)境使用PyCharm配置Python爬蟲環(huán)境在彈出的對話框中輸入文件名“study”即可新建study.py文件,如下圖所示。按“Enter”鍵即可打開此腳本文件。配置Python爬蟲環(huán)境PyCharm是可用于編寫代碼的IDE工具。為了方便讀者編寫或修改代碼,本書的代碼均使用PyCharm進行編寫和測試。PyCharm的界面如圖117所示。配置Python爬蟲環(huán)境由下圖所示的標(biāo)注可知,PyCharm界面可分為菜單欄、項目結(jié)構(gòu)區(qū)、代碼區(qū)、信息顯示區(qū)和工具欄。各個區(qū)域的功能介紹如下。(1)菜單欄:包含影響整個項目或部分項目的命令,如打開項目、創(chuàng)建項目、重構(gòu)代碼、運行和調(diào)試應(yīng)用程序、保存文件等。(2)項目結(jié)構(gòu)區(qū):已經(jīng)創(chuàng)建完成的項目或文件展示區(qū)域。(3)代碼區(qū):編寫代碼的區(qū)域。(4)信息顯示區(qū):查看程序輸出信息的區(qū)域。(5)工具欄:包含快捷菜單,涉及終端、Python交互式模式等。配置Python爬蟲環(huán)境除了可以在PyCharm中的代碼區(qū)編輯代碼之外,還可以通過工具欄中的PythonConsole(即Python交互式模式)直接輸入代碼,然后執(zhí)行,并且立刻得到結(jié)果。交互式模式主要有兩種形式,一種是通過In輸入,Out輸出;另一種是通過“>>>”的形式輸入,直接顯示輸出結(jié)果。交互式模式默認(rèn)為In、Out的形式,本書主要以“>>>”形式編寫代碼,如上頁圖所示。讀者可以通過單擊“File”→“Settings”→“Build,Execution,Deployment”→“Console”,在“GeneralSettings”復(fù)選框中取消勾選“UseIPythonifavailable”,將默認(rèn)形式修改為“>>>”形式。類型庫名簡介通用urlliburllib是Python內(nèi)置的HTTP請求庫,提供一系列用于操作URL的功能Requests基于urllib,采用Apache2Licensed開源協(xié)議的HTTP庫urllib3urllib3提供很多Python標(biāo)準(zhǔn)庫里所沒有的重要特性:線程安全,管理連接池,客戶端SSL/TLS(SecureSocketLayer/TransportLayerSecurity,安全套接字層/傳輸層安全協(xié)議)驗證,文件分部編碼上傳,協(xié)助處理重復(fù)請求和HTTP重定位,支持壓縮編碼,支持HTTP和SOCKS代理,100%測試覆蓋率框架ScrapyScrapy是一個為爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)化數(shù)據(jù)而編寫的應(yīng)用框架??蓱?yīng)用在包括數(shù)據(jù)挖掘、信息處理或歷史數(shù)據(jù)存儲等一系列功能的程序中HTML/XML解析器lxmlC語言編寫的高效HTML/XML處理庫,支持XPathBeautifulSoup4純Python實現(xiàn)的HTML/XML處理庫,效率相對較低配置Python爬蟲環(huán)境2.常用的Python爬蟲相關(guān)庫配置Python爬蟲環(huán)境除Python自帶的urllib庫外,Requests、urllib3、Scrapy、lxml和BeautifulSoup4等庫都可以通過pip工具進行安裝。pip工具可直接在命令提示符窗口中運行,但需將Python安裝路徑下的scripts目錄加入環(huán)境變量Path中。另外,pip工具支持指定版本庫的安裝,通過使用==、>=、<=、>、<符號來指定版本號。同時,如果有requirements.txt文件,也可使用pip工具來調(diào)用。使用pip工具安裝Requests庫的程序如代碼所示。MySQL是目前廣泛應(yīng)用的關(guān)系數(shù)據(jù)庫管理系統(tǒng)之一,由瑞典的MySQLAB公司開發(fā),現(xiàn)屬于Oracle公司。關(guān)系數(shù)據(jù)庫將數(shù)據(jù)保存在不同的表中,使得數(shù)據(jù)的存儲、查詢和管理更加靈活和高效。由于MySQL數(shù)據(jù)庫具備體積小、速度快、成本低、開放源代碼等特點,所以多數(shù)中小型網(wǎng)站都選MySQL數(shù)據(jù)庫用于網(wǎng)站數(shù)據(jù)支持。爬蟲爬取的網(wǎng)頁信息(如URL、文字信息等)經(jīng)過整理后存儲在數(shù)據(jù)庫中,格式化后存儲在關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)可供后續(xù)解析程序或者其他程序復(fù)用。在Windows操作系統(tǒng)上配置MySQL本小節(jié)使用的MySQL為社區(qū)版,安裝包為mysql-installer-community-8.0.13.msi,是一個免費版本,讀者可依據(jù)需求選擇其他的版本。在64位的Windows操作系統(tǒng)上,安裝該版本MySQL的具體步驟如下。配置Python爬蟲環(huán)境

3.配置MySQL雙擊打開msi安裝包,打開接受許可條款界面,如下圖所示,勾選“Iacceptthelicenseterms”選項后單擊“Next”按鈕后進入選擇安裝類型(ChoosingaSetupType)界面。配置Python爬蟲環(huán)境選擇“Custom”選項,單擊“Next”按鈕,如下圖所示。配置Python爬蟲環(huán)境在選擇產(chǎn)品和功能界面中單擊“Edit”按鈕,在彈出框中選擇“64-bit”選項,之后單擊“Filter”按鈕,如下圖所示。配置Python爬蟲環(huán)境在下圖所示的左側(cè)欄內(nèi)選擇需要安裝的程序,單擊中間的向右箭頭將程序移至安裝欄內(nèi)。配置Python爬蟲環(huán)境單擊下圖所示的“Next”按鈕,檢測系統(tǒng)上是否安裝有相關(guān)依賴的軟件,若沒有安裝,則會出現(xiàn)類似下圖所示的界面。配置Python爬蟲環(huán)境單擊下圖所示的“Next”按鈕后,進入安裝確認(rèn)步驟,被安裝的程序會顯示在框內(nèi),單擊“Execute”按鈕開始安裝,如下圖所示。配置Python爬蟲環(huán)境安裝完成后,還需配置服務(wù)。進入組復(fù)制(GroupReplication)界面,選擇“StandaloneMySQLServer/ClassicMySQLReplication”選項,如下圖所示,之后單擊“Next”按鈕。配置Python爬蟲環(huán)境對于一般用戶來說,在類型與網(wǎng)絡(luò)(TypeandNetworking)界面的“ConfigType”中選擇“DevelopmentComputer”即可,MySQL的默認(rèn)端口為3306,如下圖所示,之后單擊“Next”按鈕。配置Python爬蟲環(huán)境在驗證方法(AuthenticationMethod)界面選擇“UseStrongPasswordEncryptionforAuthentication(RECOMMENDED)”選項,如下圖所示,之后單擊“Next”按鈕。配置Python爬蟲環(huán)境單擊“AddUser”按鈕可添加一個具有普通用戶權(quán)限的MySQL用戶賬戶,也可不添加,如下圖所示,之后單擊“Next”按鈕。配置Python爬蟲環(huán)境在Windows服務(wù)界面中勾選“ConfigureMySQLServerasaWindowsService”選項后,將以系統(tǒng)用戶的身份運行Windows服務(wù)。在Windows下,MySQL的默認(rèn)服務(wù)名為MySQL80,如下圖所示。配置Python爬蟲環(huán)境進入應(yīng)用服務(wù)配置界面,單擊“Execute”按鈕開始執(zhí)行,如下圖所示。配置Python爬蟲環(huán)境執(zhí)行成功的應(yīng)用服務(wù)配置將變?yōu)榫G色的勾選狀態(tài),單擊下左所示的“Finish”按鈕完成配置過程,則會彈出下右所示的界面,之后單擊“Next”按鈕。配置Python爬蟲環(huán)境進入安裝完成(InstallationComplete)界面,取消勾選“StartMySQLWorkbenchafterSetup”和“StartMySQLShellafterSetup”,單擊“Finish”按鈕完成安裝,如下圖所示。配置Python爬蟲環(huán)境執(zhí)行成功的應(yīng)用服務(wù)配置將變?yōu)榫G色的勾選狀態(tài),單擊下左所示的“Finish”按鈕完成配置過程,則會彈出下右所示的界面,之后單擊“Next”按鈕。配置Python爬蟲環(huán)境MySQL安裝完成后還需要配置MySQL的環(huán)境變量,步驟如下。打開“環(huán)境變量”對話框。右擊“此電腦”圖標(biāo),單擊彈出的菜單中的“屬性”選項,之后在彈出的“設(shè)置”對話框中,單擊下左所示的“高級系統(tǒng)設(shè)置”選項。在彈出的下中所示的“系統(tǒng)屬性”對話框中,單擊“環(huán)境變量”按鈕,即可彈出“環(huán)境變量”對話框,如下右所示。配置Python爬蟲環(huán)境設(shè)置MySQL的環(huán)境變量。設(shè)置環(huán)境變量有以下兩種方法

方法一:單擊“環(huán)境變量”對話框中“系統(tǒng)變量”的“新建”按鈕,彈出“新建系統(tǒng)變量”對話框中,在“變量名”后填寫“MYSQL_HOME”,在“變量值”后填寫“C:\ProgramFiles\MySQL\MySQLServer8.0”,MySQL默認(rèn)安裝在C:\ProgramFiles路徑下,如下左圖所示。

在“環(huán)境變量”對話框中的用戶變量列表中選擇“Path”變量,單擊“編輯”按鈕,在彈出的“編輯環(huán)境變量”對話框中,單擊“新建”按鈕添加“%MYSQL_HOME%\bin”即可,如下右所示。配置Python爬蟲環(huán)境方法二:在“環(huán)境變量”對話框中單擊“新建”按鈕添加“C:\ProgramFiles\MySQL\MySQLServer8.0\bin”,即直接添加MySQL安裝目錄下的bin配置到Path變量下,如下圖所示。配置Python爬蟲環(huán)境配置環(huán)境變量后,可使用管理員權(quán)限運行命令提示符窗口,使用“netstartmysql80”命令啟動MySQL服務(wù)。其中,“mysql80”需要與安裝的MySQL版本一致。使用“netstopmysql80”命令可關(guān)閉MySQL服務(wù),如下圖所示。配置Python爬蟲環(huán)境在L

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論