網(wǎng)絡(luò)爬蟲系統(tǒng)項目建設(shè)方案_第1頁
網(wǎng)絡(luò)爬蟲系統(tǒng)項目建設(shè)方案_第2頁
網(wǎng)絡(luò)爬蟲系統(tǒng)項目建設(shè)方案_第3頁
網(wǎng)絡(luò)爬蟲系統(tǒng)項目建設(shè)方案_第4頁
網(wǎng)絡(luò)爬蟲系統(tǒng)項目建設(shè)方案_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、精選文檔目錄1 .對項目的理解 -6-1.1 背景 -6-1.2 業(yè)務(wù)目標.錯誤!不決義書簽。1.3 應(yīng)用感知目標 -6-2 .系統(tǒng)整體架構(gòu) -7-2.1 技術(shù)框架 -7-2.2 數(shù)據(jù)架構(gòu) -7-2.4 功能模塊 -9-2.5 應(yīng)用部署架構(gòu) -10-3 .詳盡建設(shè)方案 -113.1 一站式大數(shù)據(jù)采集、儲存、沖洗、訓(xùn)練、導(dǎo)生-11-3.2 多租戶管理 -11-功能說明 -11-平臺截圖-11-3.10資源估量 -14-53.3 豐富的數(shù)據(jù)接口 -11-3.4 平臺高可用性 -11-3.5 抓取高效性 -12-3.6 高可擴展性 -12-3.7 可視化爬蟲界面 -12-3.8 抓取過程 -12-3

2、.9 硬件配置方案 -13-主機、儲存資源 -13-軟件資源 -14-儲存-14-CPU 內(nèi)存-15-錯誤!不4 .系統(tǒng)安全與系統(tǒng)測試 決義書簽。4.1 系統(tǒng)管理以及系統(tǒng)安全舉措錯誤!不決義書簽4.2系統(tǒng)測試的方法和環(huán)境錯誤!不決義書簽精選文檔錯誤!不決義書簽5 .工程進度安排及項目實行人員資質(zhì)5.1 工程進度安排 錯誤!不決義書簽5.2 項目支撐人員構(gòu)成表 錯誤!不決義書簽5.3 支撐人員有關(guān)證明資料 錯誤!不決義書簽錯誤!楊繼營(項目負責人) 不決義書簽。李筠 錯誤!不決義書簽鄒娟 錯誤!不決義書簽邱文川 錯誤!不決義書簽唐亮 錯誤!不決義書簽 不決義書趙柏杰 錯誤簽。27劉子悅曹平陳漢雄

3、 錯誤!不決義書簽。錯誤!不決義書簽。付敏健.錯誤!不決義書簽。錯誤!不決義書簽。錯誤!不決義書簽。不決義書 簽。張福元.錯誤何州鵬 錯誤!不決義書簽黃華金 錯誤!不決義書簽黃習文 錯誤!不決義書簽。 不決義書李佳 錯誤簽。李威虎 錯誤!不決義書簽劉起云 錯誤!不決義書簽冼錫勇 錯誤!不決義書簽楊鋒 錯誤!不決義書簽。 不決義書鄒興 錯誤簽。6.售后服務(wù)及質(zhì)量保證舉措、技術(shù)支持和保修等錯誤!不決義書簽1.1 培訓(xùn) 錯誤!不決義書簽1.2 保護與升級 錯誤!不決義書簽1.3 質(zhì)量保證期內(nèi)的服務(wù) 錯誤!不決義書簽1.4 壽命期內(nèi)維修服務(wù)錯誤!不決義書簽7 .人員培訓(xùn)計劃、安排 錯誤!不決義書簽8

4、.分工界面及工作內(nèi)容 錯誤!不決義書簽8.1 技術(shù)支持 錯誤!不決義書簽8.2 培訓(xùn)推行 錯誤!不決義書簽8.3 售前階段的配合服務(wù) 錯誤!不決義書簽8.4 售中階段的配合服務(wù) 錯誤!不決義書簽8.5 售后階段的配合服務(wù) 錯誤!不決義書簽9 .技術(shù)承諾 錯誤!不決義書簽。9.1 知識產(chǎn)權(quán).錯誤!不決義書簽。9.2 安全方案 錯誤!不決義書簽9.3 電話技術(shù)支持服務(wù) 錯誤!不決義書簽9.4 版本管理和軟件補丁服務(wù) 錯誤!不決義書簽9.5 技術(shù)資料服務(wù) 錯誤!不決義書簽9.6 重要通信保障服務(wù) 錯誤!不決義書簽9.7 應(yīng)急方案設(shè)計與預(yù)演服務(wù) 錯誤!不決義書簽9.8 協(xié)助故障定位服務(wù)錯誤!不決義書簽

5、10 .有關(guān)事例 錯誤!不決義書簽。對項目的理解1.1背景連續(xù)推動公司信息化的全面深入改革,深入公司管理層、分公司及一線采集問題和需求,環(huán)繞“快、準、簡、穩(wěn)、智”五個標準,貫徹“零不爽”IT營運服務(wù)理念,提生了大數(shù)據(jù)應(yīng)用建設(shè)內(nèi)容,承接公司全網(wǎng)集約營銷活動,提高當?shù)鼐_營銷服務(wù),展開大數(shù)據(jù)合作營運剖析,提高財務(wù)、業(yè)務(wù)價值、人力和光網(wǎng)的精確管理能力,優(yōu)化領(lǐng)導(dǎo)視窗,成立網(wǎng)運綜合議論系統(tǒng),建設(shè)爬蟲能力,實現(xiàn)智慧化營運應(yīng)用感知目標爬蟲頁面響應(yīng)及內(nèi)容加載在5秒內(nèi),內(nèi)容展現(xiàn)響應(yīng)速度時間小于5秒。爬蟲配置,系統(tǒng)保護功能簡單易用,80%ffi戶能夠在經(jīng)過簡單培訓(xùn)后聯(lián)合使用手冊,完成爬蟲的開發(fā)和平臺的保護。爬蟲均

6、勻宕機運轉(zhuǎn)時間W 10小時/月。均勻故障恢復(fù)時間W180分鐘/次。爬蟲能夠自動依據(jù)爬蟲節(jié)點的負載進行負載平衡辦理,同時當爬蟲由現(xiàn)不行恢復(fù)的錯誤時,能夠智能的選擇其余節(jié)點進行從頭運轉(zhuǎn),保證爬蟲任務(wù)能夠正確達成系統(tǒng)整體架構(gòu)2.1 技術(shù)框架散布式爬蟲框架采納 Nutch。Nutch是一個開源Java實現(xiàn)的搜尋引擎,它供應(yīng)了我們運轉(zhuǎn)自己的搜尋引擎所需的所有工具,包含全文搜尋和 Web爬蟲。Nutch鑒于Lucene,近似Google的完好網(wǎng)絡(luò)搜尋引擎解決方案,鑒于 Hadoop的散布式處理模型保證了系統(tǒng)的性能,插件體制保證了系統(tǒng)的可客戶化,并且很簡單集成到自己的應(yīng)用之中。整體上Nutch能夠分為兩部分

7、:抓取部分和搜尋部分。抓取程序抓取頁面并把抓取回來的數(shù)據(jù)做成反向索引,搜尋程序則對反向索引搜尋回答用戶的懇求。抓取程序和搜尋程序的接口是索引,二者都使用索引中的字段。抓取程序和搜尋程序能夠分別位于不一樣的機器上。2.2 數(shù)據(jù)架構(gòu)抓取程序是被Nutch的抓取工具驅(qū)動的。這是一組工具,用來成立和保護幾個不一樣的數(shù)據(jù)構(gòu)造: webdatabase、 segments、 theindex 三種不樣的數(shù)據(jù)構(gòu)造:Thewebdatabase (簡稱 WebDB :這是一個特別儲存數(shù)據(jù)構(gòu)造,用來映像被抓取網(wǎng)站數(shù)據(jù)的構(gòu)造和屬性的會合。WebD的來儲存從抓取開始(包含從頭抓?。┑乃芯W(wǎng)站構(gòu)造數(shù)據(jù)和屬性。WebD

8、BT過被抓取程序使用,搜尋程序其實不使用它。WebDBf存兩種實體:頁面和鏈接。頁面表示網(wǎng)絡(luò)上的一個網(wǎng)頁,這個網(wǎng)頁的URL作為標示被索引,同時成立一個對網(wǎng)頁內(nèi)容的MD5合希著名。跟網(wǎng)頁有關(guān)的其余內(nèi)容也被儲存,包含:頁面中的鏈接數(shù)目(外鏈接),頁面抓守信息(在頁面被重復(fù)抓取的狀況下),還有表示頁面級其余分數(shù)。鏈接表示從一個網(wǎng)頁的鏈接到其余 網(wǎng)頁的鏈接。所以 WebDB夠說是一個網(wǎng)絡(luò)圖,節(jié)點是頁面,鏈接是邊;Segment:這是網(wǎng)頁的會合,并且它被索引。Segment的Fetchlist是抓取程序使用的URL列表,它是從 WebD的生成的。Fetcher的輸由數(shù)據(jù)是從Fetchlist 中抓取的網(wǎng)

9、頁。Fetcher的輸由數(shù)據(jù)先被反向索引,而后索引后的結(jié)果被儲存在segment中。Segment的生命周期是有限制的,當下一輪抓取開始后它就沒實用了。所以刪 除超由指準時間限期的 segment是能夠的。并且也能夠節(jié)儉許多磁盤空間。Segment的命名是日期加時間,反響由相應(yīng)的存活周期;Theindex :索引庫是反向索引所有系統(tǒng)中被抓取的頁面,它其實不直接從頁面反向索引產(chǎn)生,而是歸并好多小的 segment的索引產(chǎn)生的。Nutch使用Lucene來成立索引,所以所有Lucene有關(guān)的工具 API都用來成立索引庫。需要說明的是 Lucene的segment的觀點和Nutch的 segment

10、觀點是完好不一樣的。 Lucene的segment是Lucene索引庫的一部分,而 Nutch的Segment 是WebD井被抓取和索引的一部分。2.3 功能模塊爬蟲平臺分精爬與通爬兩大功能模塊,以知足不一樣租戶的數(shù)據(jù)采集需求,多租戶的系 統(tǒng)功能邏輯以下:1、精爬租戶登岸云爬蟲管理平臺,在線編寫爬蟲腳本,云爬蟲系統(tǒng)按計劃編寫的腳本規(guī)則爬取相應(yīng)頁面的指定部分(比方詳細議論列表),并存入大數(shù)據(jù)平臺、成立全文索引。2、通爬調(diào)用方調(diào)用由云爬蟲系統(tǒng)供應(yīng)的通爬接口,云爬蟲系統(tǒng)及時依據(jù)策略(代理IP等)爬取結(jié)果返回調(diào)用方,并存入Hadoop平臺、成立全文索引。2.4 功能模塊爬蟲平臺的物理架構(gòu)以下,按層次區(qū)

11、分,主要分為接入層、采集層和長久層,以下列圖所示:1、接入層接入層包含 We四接口。Web主機負責負載平衡分派任務(wù),以及展現(xiàn)任務(wù)列表。在 Web頁面上,租戶能夠依據(jù)需要創(chuàng)立新的爬取任務(wù)。關(guān)于創(chuàng)立成功的爬取任務(wù),能夠經(jīng)過Web頁面查察其基本信息。RESTAPI則負責對外供應(yīng)爬蟲能力接口。2、采集層采集層包含爬蟲主機與信息行列主機。爬蟲主機負責接收Web主機分派的任務(wù),包含抓取網(wǎng)頁并返回內(nèi)容、對抓取的內(nèi)容進行分析和構(gòu)造化,以及將構(gòu)造化的結(jié)果進行長久化oRedis作為信息行列,負責進行任務(wù)的散發(fā)3、長久層往常網(wǎng)絡(luò)爬蟲抓取的數(shù)據(jù)量特別大,而儲存大批的數(shù)據(jù)需要較大的儲存空間,所以持久層采納了中國挪動蘇州

12、研發(fā)中心自研的Hadoop平臺產(chǎn)品。2.5應(yīng)用部署架構(gòu)爬蟲平臺的應(yīng)用部署架構(gòu)以下,主要分為Web服務(wù)域和采集服務(wù)域o1、Web服務(wù)域供應(yīng)給租戶用來編寫調(diào)試爬蟲腳本,安裝了WebUL Scheduler 等組件。2、采集服務(wù)域用來進行數(shù)據(jù)采集和結(jié)果返回,各Spider節(jié)點安裝了 Fetcher、Processor、ResultWorker 、RestAPI、Selenium、PhantomJS 等組件。詳盡建設(shè)方案3.1 一站式大數(shù)據(jù)采集、儲存、沖洗、訓(xùn)練、導(dǎo)由從數(shù)據(jù)獲得到辦理、輸由全站打通的,以一鍵自動公布到數(shù)據(jù)庫郵箱等 得數(shù)據(jù)。/網(wǎng)站/微信民眾號、導(dǎo)由到當?shù)匚募?、或?jīng)過 Webhook/Gr

13、aphQL獲3.2 多租戶管理功能說明云爬蟲和互聯(lián)網(wǎng)數(shù)據(jù)儲存剖析平臺PaaS化,實現(xiàn)了多租戶和租戶間的資源隔絕能力。平臺截圖3.3豐富的數(shù)據(jù)接口擴展了多種數(shù)據(jù)接口的讀寫能力,如關(guān)系型數(shù)據(jù)庫Oracle、非關(guān)系型HBasa HDF成件、ES以及流式信息接口 Kafka,以此來支持如精爬、通爬等不一樣的業(yè)務(wù)需求。3.4平臺高可用性云爬蟲平臺的所有爬取節(jié)點和數(shù)據(jù)儲存剖析節(jié)點均勻的散布在多臺物理節(jié)點上,單臺 機器的宕機不會惹起整個爬取進度的中止,這類散布式架構(gòu)提高了系統(tǒng)整體的強健性。3.5 抓取高效性單機模式下的網(wǎng)絡(luò)爬蟲效率不高,不可以知足大規(guī)模的抓取任務(wù)需求,云爬蟲平臺為爬蟲租戶分派多個爬取節(jié)點,經(jīng)

14、過讀取共享任務(wù)池來共同履行抓取任務(wù),每個爬取節(jié)點都能夠看成是一個單機的網(wǎng)絡(luò)爬蟲,能大幅度的提高頁面的抓取效率。3.6 高可擴展性支持靜態(tài)爬取和動向襯著的主流網(wǎng)站數(shù)據(jù)爬取,如天貓、京東、大眾議論、豆瓣等,能夠依據(jù)目前爬蟲任務(wù)量動向地調(diào)理爬蟲節(jié)點數(shù)目,比起傳統(tǒng)爬蟲方式靈巧性更強。同時,租戶在編寫腳本時自定義程度高,同意租戶依據(jù)不一樣的爬取需求自定義爬取范圍。3.7 可視化爬蟲界面云爬蟲平臺為爬蟲租戶供應(yīng)了一個可視化頁面來編寫調(diào)試爬蟲腳本,平臺支持靜態(tài)和動向襯著的主流網(wǎng)站爬取,同時能依據(jù)業(yè)務(wù)緊迫程度動向調(diào)整各爬蟲任務(wù)的優(yōu)先級,并提供了一個爬取數(shù)據(jù)結(jié)果的頁面導(dǎo)由功能,方便樣例數(shù)據(jù)查察,系統(tǒng)頁面以下列圖

15、所示:3.8 抓取過程抓取是一個循環(huán)的過程,抓取工具從WebDB生成了一個Fetchlist 會合;抽取工具根據(jù)Fetchlist從網(wǎng)絡(luò)上下載網(wǎng)頁內(nèi)容;工具程序依據(jù)抽取工具發(fā)現(xiàn)的新鏈接更新WebDB而后重生成新的Fetchlist ,循環(huán)往復(fù)。這個抓取循環(huán)在Nutch中常常指:generate/fetch/update精選文檔#循環(huán)精選文檔一般來說同一域名下的URL鏈接會被合成到同一個Fetchlist 。這樣做的考慮是:當同時使用多個工具抓取的時候,不會產(chǎn)生重復(fù)抓取的現(xiàn)象。Nutch按照RobotsExclusionProtocol,能夠用robots.txt定義保護私有網(wǎng)頁數(shù)據(jù)不被抓去。上

16、邊這個抓取工具的組合是Nutch的最外層的,也能夠直接使用更基層的工具,自己組合這些基層工具的履行次序達到相同的結(jié)果。這是Nutch的優(yōu)勢。詳細工作過程以下:創(chuàng)立一個新的WebDB(admindb-create);把開始抓取的跟URL放入WebDb(inject);從 WebD由勺新 segment 中生成 Fetchlist(generate) ;依據(jù)Fetchlist列表抓取網(wǎng)頁的內(nèi)容(fetch);依據(jù)抓取回來的網(wǎng)頁鏈接URL更新 WebDB(updatedb);重復(fù)上邊c-e步驟直到抵達指定的抓取層數(shù);主機、儲存資源本項目硬件配置包含數(shù)據(jù)庫服務(wù)器2臺、應(yīng)用服務(wù)器2臺,詳細配置以下;主機名稱CPU(個內(nèi)存(G) 儲存(G) 操作系 描繪)統(tǒng)35HR-APP-A4850RedHat6.5應(yīng)用主機,需要安裝和 JDK1.7HR-APP-B4850RedHat6.5應(yīng)用主機,需要安裝和 JDK1.7HR-DB-A16323515oracle數(shù)據(jù)庫主機,利舊HR-DB-B1632oracle數(shù)據(jù)庫主機,利舊軟件資源1)數(shù)據(jù)庫:Oraclellg2)操作系統(tǒng):RedHat6.53)應(yīng)用服務(wù)器:、JDK1.74) WEEB務(wù)器:Nginx (公用)3.10資源估量儲存主機儲存(G)估量依照HR-APP-A32門戶與應(yīng)用腳本1G系統(tǒng)緩存:2GTomcat 日記:4G暫時數(shù)據(jù)接口儲存

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論