項目1 了解爬蟲與Python爬蟲環(huán)境

上傳人：y*** IP屬地：山東上傳時間：2023-10-17 格式：PPTX 頁數(shù)：66 大?。?.93MB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩61頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

了解爬蟲與Python

爬蟲環(huán)境1認(rèn)識反爬蟲目錄認(rèn)識爬蟲2配置Python爬蟲環(huán)境3網(wǎng)絡(luò)爬蟲（WebSpider，簡稱爬蟲）也被稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機器人，是可以自動下載網(wǎng)頁的計算機程序或自動化腳本。網(wǎng)絡(luò)爬蟲就像一只蜘蛛一樣在互聯(lián)網(wǎng)上爬行，它以一個被稱為種子集的統(tǒng)一資源定位符（UniformResourceLocator，URL）集合為起點。沿著URL的“絲線”爬行，下載每一個URL所指向的網(wǎng)頁，分析頁面內(nèi)容。再提取新的URL并記錄下每個已爬行過的URL。如此往復(fù)，直到URL隊列為空或滿足設(shè)定的終止條件為止，最終爬取所要的信息。認(rèn)識爬蟲1.爬蟲的概念網(wǎng)絡(luò)爬蟲按照其系統(tǒng)結(jié)構(gòu)和運作原理，大致可以分為4種：通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲。通用網(wǎng)絡(luò)爬蟲：適合為搜索引擎搜索廣泛的主題。聚焦網(wǎng)絡(luò)爬蟲：節(jié)省硬件資源和網(wǎng)絡(luò)資源，能更快地更新保存的頁面。增量式網(wǎng)絡(luò)爬蟲：減少數(shù)據(jù)下載量，并及時更新已爬取過的網(wǎng)頁，減少時間和存儲空間上的浪費。深層網(wǎng)絡(luò)爬蟲：深層頁面是目前互聯(lián)網(wǎng)上發(fā)展最快、最大的新型信息資源。認(rèn)識爬蟲2.爬蟲的分類通用網(wǎng)絡(luò)爬蟲常用的爬取策略可分為以下兩種。深度優(yōu)先策略：該策略的基本方法是按照深度由低到高的順序，依次訪問網(wǎng)頁鏈接，直到無法再深入為止。在完成一個爬取分支后，返回上一節(jié)點搜索其他鏈接進行訪問，當(dāng)遍歷完全部鏈接后，爬取過程結(jié)束。深度優(yōu)先策略比較適合垂直搜索或站內(nèi)搜索，其缺點是當(dāng)爬取層次較深的站點時會造成巨大的資源浪費。廣度優(yōu)先策略：該策略按照網(wǎng)頁內(nèi)容目錄層次的深淺進行爬取，優(yōu)先爬取較淺層次的頁面。當(dāng)同一層中的頁面全部爬取完畢后，再深入下一層。相較于深度優(yōu)先策略，廣度優(yōu)先策略能更有效地控制頁面爬取的深度，避免當(dāng)遇到一個無窮深層次的分支時無法結(jié)束爬取的問題。廣度優(yōu)先策略不需要存儲大量的中間節(jié)點，但其缺點是需要較長時間才能爬取到目錄層次較深的頁面。認(rèn)識爬蟲通用網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲的爬取策略可分為以下4種?；趦?nèi)容評價的爬取策略：該策略將用戶輸入的查詢詞作為主題，包含查詢詞的頁面被視為與主題相關(guān)的頁面。基于鏈接結(jié)構(gòu)評價的爬取策略：該策略將包含很多結(jié)構(gòu)信息的半結(jié)構(gòu)化文檔（如Web頁面）用于評價鏈接的重要性?；谠鰪妼W(xué)習(xí)的爬取策略：該策略將增強學(xué)習(xí)引入聚焦網(wǎng)絡(luò)爬蟲，利用貝葉斯分類器基于整個網(wǎng)頁文本和鏈接文本來對超鏈接進行分類，計算每個鏈接的重要性，按照重要性決定鏈接的訪問順序?；谡Z境圖的爬取策略：該策略通過建立語境圖來學(xué)習(xí)網(wǎng)頁之間的相關(guān)度，具體方法為：計算當(dāng)前頁面到相關(guān)頁面的距離，距離越近的頁面中的鏈接越被優(yōu)先訪問。認(rèn)識爬蟲聚焦類爬蟲增量式網(wǎng)絡(luò)爬蟲的爬取策略常用的方法有以下3種。統(tǒng)一更新法：爬蟲以相同的頻率訪問所有網(wǎng)頁，不受網(wǎng)頁本身的改變頻率的影響。個體更新法：爬蟲根據(jù)單個網(wǎng)頁的改變頻率來決定重新訪問各頁面的頻率?；诜诸惖母路ǎ号老x按照網(wǎng)頁變化頻率將網(wǎng)頁分為更新較快的網(wǎng)頁和更新較慢的網(wǎng)頁，并分別設(shè)定不同的頻率來訪問這兩類網(wǎng)頁。認(rèn)識爬蟲增量式網(wǎng)絡(luò)爬蟲在深層網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)的過程中，最重要的部分就是表單填寫。表單填寫主要包含以下兩種方法?；陬I(lǐng)域知識的表單填寫：該方法一般會維持一個本體庫，并通過語義分析來選取合適的關(guān)鍵詞填寫表單。通過將表單按語義分配至各組中，從多方面對每組進行注解，并結(jié)合各組注解結(jié)果預(yù)測最終的注解標(biāo)簽。基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫：該方法一般無領(lǐng)域知識或僅有有限的領(lǐng)域知識，其將超文本標(biāo)記語言（HypertextMarkupLanguage，HTML）網(wǎng)頁表示為文檔對象模型（DocumentObjectModel，DOM）樹形式，將表單區(qū)分為單屬性表單和多屬性表單，并分別進行處理，從DOM樹中提取表單各字段值。認(rèn)識爬蟲深層網(wǎng)絡(luò)爬蟲爬蟲的合法性多數(shù)網(wǎng)站允許將爬蟲爬取的數(shù)據(jù)用于個人使用或科學(xué)研究。但如果將爬取的數(shù)據(jù)用于其他用途，尤其是轉(zhuǎn)載或商業(yè)用途，則依據(jù)各網(wǎng)站的具體情況可能會產(chǎn)生不同的后果，嚴(yán)重的可能會觸犯法律或引起民事糾紛。個人隱私數(shù)據(jù)、明確禁止他人訪問的數(shù)據(jù)是不能爬蟲，更不能用于商業(yè)用途。robots協(xié)議當(dāng)使用爬蟲爬取網(wǎng)站的數(shù)據(jù)時，需要遵守網(wǎng)站所有者針對所有爬蟲所制定的協(xié)議——robots協(xié)議。該協(xié)議通常存放在網(wǎng)站根目錄下，里面規(guī)定了此網(wǎng)站中哪些內(nèi)容可以被爬蟲獲取、哪些內(nèi)容是不允許爬蟲獲取的。認(rèn)識爬蟲3.爬蟲運作時應(yīng)遵守的規(guī)則相關(guān)法律法規(guī)不正當(dāng)競爭行為。非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪、非法侵入計算機信息系統(tǒng)罪、破壞計算機信息系統(tǒng)罪等刑事犯罪。侵犯公民個人信息罪、侵犯著作權(quán)罪、侵犯商業(yè)秘密罪。認(rèn)識爬蟲3.爬蟲運作時應(yīng)遵守的規(guī)則1認(rèn)識反爬蟲目錄認(rèn)識爬蟲2配置Python爬蟲環(huán)境31.網(wǎng)站反爬蟲概念網(wǎng)站所有者從所有網(wǎng)站來訪者中識別出爬蟲并對其做出相應(yīng)處理（通常為封禁IP地址）的過程，被稱為反爬蟲。對于網(wǎng)站所有者而言，爬蟲并不是一個受歡迎的“客人”。爬蟲會消耗大量的服務(wù)器資源，影響服務(wù)器的穩(wěn)定性，增加運營的網(wǎng)絡(luò)成本。可供免費查詢的資源也有極大可能被競爭對手使用爬蟲爬走，造成自身競爭力下降。以上種種因素會讓網(wǎng)站所有者想方設(shè)法阻止爬蟲爬取自家網(wǎng)站的數(shù)據(jù)。爬蟲行為與普通用戶訪問網(wǎng)站行為極為類似，網(wǎng)站所有者在進行反爬蟲時會盡可能地減少對普通用戶的干擾。網(wǎng)站常用反爬蟲手段通常分為以下幾種。認(rèn)識反爬蟲2.反爬蟲手段：通過User-Agent校驗反爬蟲：User-Agent標(biāo)示一個瀏覽器的型號，服務(wù)器會通過User-Agent的值來區(qū)分不同的瀏覽器。通過訪問頻度反爬蟲：由于普通用戶通過瀏覽器訪問網(wǎng)站的速度相對爬蟲而言要慢得多，所以不少網(wǎng)站會利用這一特點對訪問頻度設(shè)定一個閾值。通過驗證碼校驗反爬蟲：與通過訪問頻度反爬蟲不同，部分網(wǎng)站不論訪問頻度如何，一定要來訪者輸入驗證碼才能繼續(xù)操作。通過變換網(wǎng)頁結(jié)構(gòu)反爬蟲：一些社交網(wǎng)站常常會更換網(wǎng)頁結(jié)構(gòu)，而爬蟲在大部分情況下，需要通過網(wǎng)頁結(jié)構(gòu)來解析需要的數(shù)據(jù)，變換網(wǎng)頁結(jié)構(gòu)的做法能起到反爬蟲的作用。通過賬號權(quán)限反爬蟲：部分網(wǎng)站需要登錄才能繼續(xù)操作。認(rèn)識反爬蟲針對介紹的常用反爬蟲手段，可以制定以下相對應(yīng)的爬取策略發(fā)送模擬User-Agent：爬蟲可通過發(fā)送模擬User-Agent來進行服務(wù)器的User-Agent檢驗。模擬User-Agent是將要發(fā)送至網(wǎng)站服務(wù)器的請求的User-Agent值偽裝成一般用戶登錄網(wǎng)站時使用的User-Agent值，通過這種方法能很好地規(guī)避服務(wù)器檢驗。調(diào)整訪問頻度：通過備用IP地址測試網(wǎng)站的訪問頻度閾值，然后設(shè)置比閾值略低的訪問頻度通過驗證碼校驗：通過算法識別驗證碼或使用Cookie繞過驗證碼才能進行后續(xù)操作。認(rèn)識反爬蟲3.爬取策略制定針對介紹的常用反爬蟲手段，可以制定以下相對應(yīng)的爬取策略應(yīng)對網(wǎng)站結(jié)構(gòu)變化第一種方法：如果網(wǎng)站只爬取一次，那么要盡量趕在其網(wǎng)站結(jié)構(gòu)調(diào)整之前，將需要的數(shù)據(jù)全部爬取下來。第二種方法：如果網(wǎng)站需要持續(xù)性爬取，那么可以使用腳本對網(wǎng)站結(jié)構(gòu)進行監(jiān)測，若結(jié)構(gòu)發(fā)生變化，則發(fā)出告警并及時停止爬蟲，避免爬取過多無效數(shù)據(jù)。通過賬號權(quán)限限制:對于需要登錄的網(wǎng)站，可通過模擬登錄的方法進行規(guī)避。當(dāng)模擬登錄時，除了需要提交賬號和密碼之外，往往也需要通過驗證碼校驗。認(rèn)識反爬蟲3.爬取策略制定1認(rèn)識反爬蟲目錄認(rèn)識爬蟲2配置Python爬蟲環(huán)境3了解常用的PythonIDEIDE是一種輔助程序開發(fā)人員進行開發(fā)工作的應(yīng)用軟件，在開發(fā)工具內(nèi)部即可輔助編寫代碼，并編譯打包，使其成為可用的程序，有些IDE甚至可以用于設(shè)計圖形接口。IDE是集成了代碼編寫功能、分析功能、編譯功能、調(diào)試功能等于一體的開發(fā)軟件服務(wù)套（組），通常包括編程語言編輯器、自動構(gòu)建工具和調(diào)試器。在Python的應(yīng)用過程中少不了IDE工具，這些工具可以幫助開發(fā)者加快開發(fā)速度，提高效率。在Python中，常見的IDE有IDLE、PyCharm、JupyterNotebook、VSCode等，基本介紹如下。IDLE:

IDLE完全由Python編寫，并使用TkinterUI工具集。盡管IDLE不適用于大型項目開發(fā)，但它對小型的Python代碼和Python不同特性的實驗非常有幫助。配置Python爬蟲環(huán)境

1.配置PyCharmPyCharm:

PyCharm由JetBrains公司開發(fā)，帶有一整套可以幫助用戶在使用Python語言開發(fā)時提高其效率的工具，如調(diào)試、語法高亮、單元測試、版本控制等。此外，PyCharm提供了一些高級功能，以用于支持Django框架下的專業(yè)Web開發(fā)。PyCharm中的大多數(shù)特性都能通過免費的Python插件帶入IntelliJ中。JupyterNotebook:JupyterNotebook采用網(wǎng)頁版的Python編寫交互模式，其使用過程類似于使用紙和筆，可輕松擦除先前編寫的代碼，并且可以將編寫的代碼進行保存記錄，可用于做筆記以及編寫簡單代碼，相當(dāng)方便。VSCode:VSCode（VisualStudioCode）是Microsoft（微軟）在2015年4月30日正式發(fā)布的針對編寫現(xiàn)代Web應(yīng)用和云應(yīng)用的跨平臺源代碼編輯器，可在多種平臺運行，它內(nèi)置對JavaScript、TypeScript和Node.js支持的功能，并支持豐富的語言（如C++、C＃、Java、Python、PHP、Go等）和運行時擴展的生態(tài)系統(tǒng)。配置Python爬蟲環(huán)境PyCharm可以跨平臺使用，分為社區(qū)版和專業(yè)版。其中，社區(qū)版是免費的，專業(yè)版是付費的。在使用PyCharm之前，需安裝該應(yīng)用軟件。在64位的Windows操作系統(tǒng)上，安裝該版本PyCharm的具體安裝步驟如下。打開PyCharm官網(wǎng)，如下圖所示，單擊“DOWNLOAD”下載按鈕。配置Python爬蟲環(huán)境安裝PyCharm選擇Windows系統(tǒng)的“Community”（社區(qū)版），單擊“Download”按鈕即可下載安裝包，如下圖所示。配置Python爬蟲環(huán)境配置Python爬蟲環(huán)境下載完成后，雙擊安裝包，打開安裝向?qū)?，如下圖所示，單擊“Next”按鈕進行下一步操作。配置Python爬蟲環(huán)境在進入的界面中自定義軟件安裝路徑，建議安裝路徑不包含中文字符，如下圖所示，單擊“Next”按鈕。配置Python爬蟲環(huán)境設(shè)置完成軟件安裝路徑后，在進入的界面中勾選全部的安裝選項，如下圖所示，單擊“Next”按鈕進行下一步操作。配置Python爬蟲環(huán)境在進入的界面中單擊“Install”按鈕，默認(rèn)安裝PyCharm。等待安裝完成后單擊“Finish”按鈕完成安裝，如下圖所示。配置Python爬蟲環(huán)境雙擊桌面上生成的快捷方式圖標(biāo)，在彈出的“ImportPyCharmSettings”對話框中選擇“Donotimportsettings”選項，如下圖所示，然后單擊“OK”按鈕。配置Python爬蟲環(huán)境在彈出的“DataSharing”對話框中單擊“Don’tSend”按鈕，如下圖所示。配置Python爬蟲環(huán)境重啟PyCharm后，將會彈出下圖所示的窗口，選擇“NewProject”選項創(chuàng)建新項目。配置Python爬蟲環(huán)境打開“NewProject”窗口，自定義項目存儲路徑，IDE默認(rèn)關(guān)聯(lián)Python解釋器，單擊“Create”按鈕，如右圖所示。配置Python爬蟲環(huán)境在彈出的提示框中單擊“Close”按鈕，設(shè)置在啟動時不顯示提示，如下左圖所示。這樣就進入了PyCharm界面，如下右圖所示，單擊左下角的圖標(biāo)可顯示或隱藏功能側(cè)邊欄。配置Python爬蟲環(huán)境更換PyCharm的主題。單擊“File”，選擇“Settings”命令，如圖113所示。進入“Settings”界面后，依次選擇“Appearance&Behavior”→“Appearance”命令，在“Theme”中選擇自己喜歡的主題，這里選“Windows10Light”，如下圖所示。在安裝完P(guān)yCharm后，可通過創(chuàng)建一個.py文件，進行代碼的測試，基本步驟如下。新建好項目（此處項目名為python）后，還要新建一個.py文件。右擊項目名“python”，選“New”→“PythonFile”命令，如下圖所示。配置Python爬蟲環(huán)境使用PyCharm配置Python爬蟲環(huán)境在彈出的對話框中輸入文件名“study”即可新建study.py文件，如下圖所示。按“Enter”鍵即可打開此腳本文件。配置Python爬蟲環(huán)境PyCharm是可用于編寫代碼的IDE工具。為了方便讀者編寫或修改代碼，本書的代碼均使用PyCharm進行編寫和測試。PyCharm的界面如圖117所示。配置Python爬蟲環(huán)境由下圖所示的標(biāo)注可知，PyCharm界面可分為菜單欄、項目結(jié)構(gòu)區(qū)、代碼區(qū)、信息顯示區(qū)和工具欄。各個區(qū)域的功能介紹如下。（1）菜單欄：包含影響整個項目或部分項目的命令，如打開項目、創(chuàng)建項目、重構(gòu)代碼、運行和調(diào)試應(yīng)用程序、保存文件等。（2）項目結(jié)構(gòu)區(qū)：已經(jīng)創(chuàng)建完成的項目或文件展示區(qū)域。（3）代碼區(qū)：編寫代碼的區(qū)域。（4）信息顯示區(qū)：查看程序輸出信息的區(qū)域。（5）工具欄：包含快捷菜單，涉及終端、Python交互式模式等。配置Python爬蟲環(huán)境除了可以在PyCharm中的代碼區(qū)編輯代碼之外，還可以通過工具欄中的PythonConsole（即Python交互式模式）直接輸入代碼，然后執(zhí)行，并且立刻得到結(jié)果。交互式模式主要有兩種形式，一種是通過In輸入，Out輸出；另一種是通過“>>>”的形式輸入，直接顯示輸出結(jié)果。交互式模式默認(rèn)為In、Out的形式，本書主要以“>>>”形式編寫代碼，如上頁圖所示。讀者可以通過單擊“File”→“Settings”→“Build,Execution,Deployment”→“Console”，在“GeneralSettings”復(fù)選框中取消勾選“UseIPythonifavailable”，將默認(rèn)形式修改為“>>>”形式。類型庫名簡介通用urlliburllib是Python內(nèi)置的HTTP請求庫，提供一系列用于操作URL的功能Requests基于urllib，采用Apache2Licensed開源協(xié)議的HTTP庫urllib3urllib3提供很多Python標(biāo)準(zhǔn)庫里所沒有的重要特性：線程安全，管理連接池，客戶端SSL/TLS（SecureSocketLayer/TransportLayerSecurity，安全套接字層/傳輸層安全協(xié)議）驗證，文件分部編碼上傳，協(xié)助處理重復(fù)請求和HTTP重定位，支持壓縮編碼，支持HTTP和SOCKS代理，100%測試覆蓋率框架ScrapyScrapy是一個為爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)化數(shù)據(jù)而編寫的應(yīng)用框架?？蓱?yīng)用在包括數(shù)據(jù)挖掘、信息處理或歷史數(shù)據(jù)存儲等一系列功能的程序中HTML/XML解析器lxmlC語言編寫的高效HTML/XML處理庫，支持XPathBeautifulSoup4純Python實現(xiàn)的HTML/XML處理庫，效率相對較低配置Python爬蟲環(huán)境2.常用的Python爬蟲相關(guān)庫配置Python爬蟲環(huán)境除Python自帶的urllib庫外，Requests、urllib3、Scrapy、lxml和BeautifulSoup4等庫都可以通過pip工具進行安裝。pip工具可直接在命令提示符窗口中運行，但需將Python安裝路徑下的scripts目錄加入環(huán)境變量Path中。另外，pip工具支持指定版本庫的安裝，通過使用==、>=、<=、>、<符號來指定版本號。同時，如果有requirements.txt文件，也可使用pip工具來調(diào)用。使用pip工具安裝Requests庫的程序如代碼所示。MySQL是目前廣泛應(yīng)用的關(guān)系數(shù)據(jù)庫管理系統(tǒng)之一，由瑞典的MySQLAB公司開發(fā)，現(xiàn)屬于Oracle公司。關(guān)系數(shù)據(jù)庫將數(shù)據(jù)保存在不同的表中，使得數(shù)據(jù)的存儲、查詢和管理更加靈活和高效。由于MySQL數(shù)據(jù)庫具備體積小、速度快、成本低、開放源代碼等特點，所以多數(shù)中小型網(wǎng)站都選MySQL數(shù)據(jù)庫用于網(wǎng)站數(shù)據(jù)支持。爬蟲爬取的網(wǎng)頁信息（如URL、文字信息等）經(jīng)過整理后存儲在數(shù)據(jù)庫中，格式化后存儲在關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)可供后續(xù)解析程序或者其他程序復(fù)用。在Windows操作系統(tǒng)上配置MySQL本小節(jié)使用的MySQL為社區(qū)版，安裝包為mysql-installer-community-8.0.13.msi，是一個免費版本，讀者可依據(jù)需求選擇其他的版本。在64位的Windows操作系統(tǒng)上，安裝該版本MySQL的具體步驟如下。配置Python爬蟲環(huán)境

3.配置MySQL雙擊打開msi安裝包，打開接受許可條款界面，如下圖所示，勾選“Iacceptthelicenseterms”選項后單擊“Next”按鈕后進入選擇安裝類型（ChoosingaSetupType）界面。配置Python爬蟲環(huán)境選擇“Custom”選項，單擊“Next”按鈕，如下圖所示。配置Python爬蟲環(huán)境在選擇產(chǎn)品和功能界面中單擊“Edit”按鈕，在彈出框中選擇“64-bit”選項，之后單擊“Filter”按鈕，如下圖所示。配置Python爬蟲環(huán)境在下圖所示的左側(cè)欄內(nèi)選擇需要安裝的程序，單擊中間的向右箭頭將程序移至安裝欄內(nèi)。配置Python爬蟲環(huán)境單擊下圖所示的“Next”按鈕，檢測系統(tǒng)上是否安裝有相關(guān)依賴的軟件，若沒有安裝，則會出現(xiàn)類似下圖所示的界面。配置Python爬蟲環(huán)境單擊下圖所示的“Next”按鈕后，進入安裝確認(rèn)步驟，被安裝的程序會顯示在框內(nèi)，單擊“Execute”按鈕開始安裝，如下圖所示。配置Python爬蟲環(huán)境安裝完成后，還需配置服務(wù)。進入組復(fù)制（GroupReplication）界面，選擇“StandaloneMySQLServer/ClassicMySQLReplication”選項，如下圖所示，之后單擊“Next”按鈕。配置Python爬蟲環(huán)境對于一般用戶來說，在類型與網(wǎng)絡(luò)（TypeandNetworking）界面的“ConfigType”中選擇“DevelopmentComputer”即可，MySQL的默認(rèn)端口為3306，如下圖所示，之后單擊“Next”按鈕。配置Python爬蟲環(huán)境在驗證方法（AuthenticationMethod）界面選擇“UseStrongPasswordEncryptionforAuthentication(RECOMMENDED)”選項，如下圖所示，之后單擊“Next”按鈕。配置Python爬蟲環(huán)境單擊“AddUser”按鈕可添加一個具有普通用戶權(quán)限的MySQL用戶賬戶，也可不添加，如下圖所示，之后單擊“Next”按鈕。配置Python爬蟲環(huán)境在Windows服務(wù)界面中勾選“ConfigureMySQLServerasaWindowsService”選項后，將以系統(tǒng)用戶的身份運行Windows服務(wù)。在Windows下，MySQL的默認(rèn)服務(wù)名為MySQL80，如下圖所示。配置Python爬蟲環(huán)境進入應(yīng)用服務(wù)配置界面，單擊“Execute”按鈕開始執(zhí)行，如下圖所示。配置Python爬蟲環(huán)境執(zhí)行成功的應(yīng)用服務(wù)配置將變?yōu)榫G色的勾選狀態(tài)，單擊下左所示的“Finish”按鈕完成配置過程，則會彈出下右所示的界面，之后單擊“Next”按鈕。配置Python爬蟲環(huán)境進入安裝完成（InstallationComplete）界面，取消勾選“StartMySQLWorkbenchafterSetup”和“StartMySQLShellafterSetup”，單擊“Finish”按鈕完成安裝，如下圖所示。配置Python爬蟲環(huán)境執(zhí)行成功的應(yīng)用服務(wù)配置將變?yōu)榫G色的勾選狀態(tài)，單擊下左所示的“Finish”按鈕完成配置過程，則會彈出下右所示的界面，之后單擊“Next”按鈕。配置Python爬蟲環(huán)境MySQL安裝完成后還需要配置MySQL的環(huán)境變量，步驟如下。打開“環(huán)境變量”對話框。右擊“此電腦”圖標(biāo)，單擊彈出的菜單中的“屬性”選項，之后在彈出的“設(shè)置”對話框中，單擊下左所示的“高級系統(tǒng)設(shè)置”選項。在彈出的下中所示的“系統(tǒng)屬性”對話框中，單擊“環(huán)境變量”按鈕，即可彈出“環(huán)境變量”對話框，如下右所示。配置Python爬蟲環(huán)境設(shè)置MySQL的環(huán)境變量。設(shè)置環(huán)境變量有以下兩種方法

方法一：單擊“環(huán)境變量”對話框中“系統(tǒng)變量”的“新建”按鈕，彈出“新建系統(tǒng)變量”對話框中，在“變量名”后填寫“MYSQL_HOME”，在“變量值”后填寫“C:\ProgramFiles\MySQL\MySQLServer8.0”，MySQL默認(rèn)安裝在C:\ProgramFiles路徑下，如下左圖所示。

在“環(huán)境變量”對話框中的用戶變量列表中選擇“Path”變量，單擊“編輯”按鈕，在彈出的“編輯環(huán)境變量”對話框中，單擊“新建”按鈕添加“%MYSQL_HOME%\bin”即可，如下右所示。配置Python爬蟲環(huán)境方法二：在“環(huán)境變量”對話框中單擊“新建”按鈕添加“C:\ProgramFiles\MySQL\MySQLServer8.0\bin”，即直接添加MySQL安裝目錄下的bin配置到Path變量下，如下圖所示。配置Python爬蟲環(huán)境配置環(huán)境變量后，可使用管理員權(quán)限運行命令提示符窗口，使用“netstartmysql80”命令啟動MySQL服務(wù)。其中，“mysql80”需要與安裝的MySQL版本一致。使用“netstopmysql80”命令可關(guān)閉MySQL服務(wù)，如下圖所示。配置Python爬蟲環(huán)境在L

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

項目1 了解爬蟲與Python爬蟲環(huán)境

文檔簡介

溫馨提示

最新文檔

評論

項目1 了解爬蟲與Python爬蟲環(huán)境

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔