侵略者_網(wǎng)頁數(shù)據(jù)采集系統(tǒng)_技術白皮書_第1頁
侵略者_網(wǎng)頁數(shù)據(jù)采集系統(tǒng)_技術白皮書_第2頁
侵略者_網(wǎng)頁數(shù)據(jù)采集系統(tǒng)_技術白皮書_第3頁
侵略者_網(wǎng)頁數(shù)據(jù)采集系統(tǒng)_技術白皮書_第4頁
侵略者_網(wǎng)頁數(shù)據(jù)采集系統(tǒng)_技術白皮書_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、侵略者侵略者 WEBWEB 數(shù)據(jù)采集系統(tǒng)數(shù)據(jù)采集系統(tǒng) V V技技 術術 白白 皮皮 書書Copyright 2005-2010 All Rights Reserved 侵略者軟件目目 錄錄 目目 錄錄.2一一.概述概述.3二二.典型應用典型應用.31.政府機關.32.企業(yè).43.新聞媒體.44.應用系統(tǒng).5三三. .系統(tǒng)構架系統(tǒng)構架.51.工作過程描述.52.采集管理服務器.53.采集服務器群組.6四四.系統(tǒng)功能系統(tǒng)功能.9五五.技術特點技術特點.10六六.系統(tǒng)優(yōu)勢系統(tǒng)優(yōu)勢.111.精確度高.112.易用性好.123.靈活性強.124.實施部署容易.125.采集內(nèi)容全面.126.抓取速度快.1

2、27.性能指標.13七七.維護管理監(jiān)控維護管理監(jiān)控.13八八.名詞解釋名詞解釋.14九九.系統(tǒng)環(huán)境系統(tǒng)環(huán)境要求要求.15一一. 概述概述面對互聯(lián)網(wǎng)海量的信息,政府機關、企事業(yè)單位和研究機構都迫切希望獲取 與自身工作相關的有價值信息,如何方便快捷地獲取這些信息就變得至關重要 了。如果采用原始的手工收集方式,費時費力且毫無效率,面對越來越多的信息 資源,勞動強度和難度可想而知。因此,現(xiàn)代的政府和企業(yè)都迫切需要一種能夠 提供高質(zhì)量和高效運作的信息采集解決方案。本系統(tǒng)針對不同行業(yè)用戶的應用需求,以抓取互聯(lián)網(wǎng)或者內(nèi)部網(wǎng)信息為目的,實現(xiàn)在用戶自定義規(guī)則下,自動從互聯(lián)網(wǎng)中抓取指定信息。抓取的信息可存入獨立數(shù)

3、據(jù)庫或通過接口發(fā)送至其他系統(tǒng),用于內(nèi)部使用或外網(wǎng)發(fā)布,實現(xiàn)信息及時全面的共享。隨著用戶對信息獲取速度的要求,很多網(wǎng)站開始做面向各行各業(yè)的垂直搜索引擎,垂直搜索引擎最核心的就是準確及時的獲取數(shù)據(jù)源。本系統(tǒng)的設計目標就是為了滿足這個需求。給垂直搜索引擎提供準確及時是數(shù)據(jù)采集服務。本系統(tǒng)同樣能夠給信息類網(wǎng)站提供內(nèi)容采集服務,以快速提高網(wǎng)站的信息量。二二. 典型應用典型應用1.政府機關政府機關實時跟蹤、采集與業(yè)務工作相關的信息來源。全面滿足內(nèi)部工作人員對互聯(lián)網(wǎng)信息的全局觀測需求。及時解決政務外網(wǎng)、政務內(nèi)網(wǎng)的信息源問題,實現(xiàn)動態(tài)發(fā)布。快速解決政府主網(wǎng)站對各地級子網(wǎng)站的信息獲取需求。全面整合信息,實現(xiàn)政府

4、內(nèi)部跨地區(qū)、跨部門的信息資源共享與有效溝通。節(jié)約信息采集的人力、物力、時間,提高辦公效率。2.企業(yè)企業(yè)實時準確地監(jiān)控、追蹤競爭對手動態(tài),是企業(yè)獲取競爭情報的利器。及時獲取競爭對手的公開信息以便研究同行業(yè)的發(fā)展與市場需求。為企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。大幅度地提高企業(yè)獲取、利用情報的效率,節(jié)省情報信息收集、存儲、挖掘的相關費用,是提高企業(yè)核心競爭力的關鍵。提高企業(yè)整體分析研究能力、市場快速反應能力,建立起以知識管理為核心的“競爭情報數(shù)據(jù)倉庫” ,是提高企業(yè)核心競爭力的神經(jīng)中樞。3.新聞媒體新聞媒體快速準確地自動跟蹤、采集數(shù)千家網(wǎng)絡媒體信息,擴大新聞線索,提高采集速度。

5、支持每天對數(shù)萬條新聞進行有效抓取。監(jiān)控范圍的深度、廣度可以自行設定。支持對所需內(nèi)容的智能提取、審核。實現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。4.應用系統(tǒng)應用系統(tǒng)垂直搜索應用網(wǎng)絡輿情監(jiān)控競爭情報系統(tǒng)行業(yè)知識庫其它需要互聯(lián)網(wǎng)海量信息作為數(shù)據(jù)源的應用系統(tǒng)三三. .系統(tǒng)構架系統(tǒng)構架1.工作過程描述工作過程描述采集的目的就是把對方網(wǎng)站上網(wǎng)頁中的某塊文字或者圖片等資源下載到自己的數(shù)據(jù)庫或其他的存儲形式,這個過程需要做如下配置工作:下載網(wǎng)頁配置,解析網(wǎng)頁配置,修正結果配置,數(shù)據(jù)輸出配置。如果數(shù)據(jù)符合自己要求,修正結果這步可省略。配置完畢后,把配置形成任務(任務以XML格式描述),發(fā)布到采集服

6、務器群組,采集爬蟲按照任務的描述開始工作,最終把采集到的結果存儲到結果存儲服務器。然后用戶自己的信息處理系統(tǒng)就可以到結果存儲服務器上取到數(shù)據(jù),作為自己的數(shù)據(jù)源。2.采集管理服務器采集管理服務器運行采集管理平臺,負責其他所有采集服務器的管理,監(jiān)控,統(tǒng)計,分析和任務分配。 與其他采集服務器采用HTTP協(xié)議發(fā)送查詢命令,然后返回要查詢的相關信息。 3.采集服務器群組采集服務器群組運行采集爬蟲,每臺服務器運行10個采集爬蟲。每個爬蟲負責多個采集任務,任務越多,數(shù)據(jù)更新的頻率就越低。 所以服務器越多,分配給每個進程的任務就越少,數(shù)據(jù)更新的頻率就越高。數(shù)據(jù)采集的效率就越高。系統(tǒng)部署圖如下:工作流程圖如下:

7、數(shù)據(jù)處理邏輯圖: 四四. 系統(tǒng)功能系統(tǒng)功能 本系統(tǒng)提供對互聯(lián)網(wǎng)數(shù)據(jù)進行采集的服務。根據(jù)用戶事先配置好的規(guī)則(網(wǎng)頁下載規(guī)則,網(wǎng)頁解析規(guī)則等),進行數(shù)據(jù)采集。當對方網(wǎng)站數(shù)據(jù)進行了更新,或者添加新數(shù)據(jù)時,系統(tǒng)自動會進行檢測,并進行采集,然后更新到自己的數(shù)據(jù)庫(或者別的存儲方式),這個過程不再需要人工干涉。 對需要登錄的網(wǎng)站可以根據(jù)設定好的帳號密碼進行自動登錄,以便采集登錄后才能獲取的數(shù)據(jù) 本系統(tǒng)采用分布式處理,可以通過采集管理平臺把采集任務發(fā)布到不同的服務器,能夠進行對大量數(shù)據(jù)源網(wǎng)站進行高頻率的并行監(jiān)控采集。對服務器群管理方便快捷,通過采集管理平臺進行統(tǒng)一管理,監(jiān)控,統(tǒng)計,分析。本系統(tǒng)主要適合于對數(shù)

8、據(jù)量要求大的行業(yè)垂直搜索引擎和情報分析系統(tǒng)的數(shù)據(jù)采集,也適合于一些對數(shù)據(jù)量要求不高的信息發(fā)布網(wǎng)站。 本系統(tǒng)采用插件方式,對采集來的數(shù)據(jù)可以進行修正。對輸出方式可以通過插件自由定制??蓴U展性高。五五. 技術特點技術特點 1. 跨平臺,支持當前多數(shù)操作系統(tǒng),Windows / Unix / Linux。2. 自動識別網(wǎng)頁的編碼格式,也可以人工設置編碼格式。支持各國語言的網(wǎng)站。3. 支持圖片,軟件,音樂,視頻,flash等多種格式資源的下載。4. 支持用戶名與密碼自動登錄。5. 支持采集結果輸出的多樣性,可以使用不同輸出插件進行輸出,也可以自己開發(fā)輸出插件。6. 采集配置分為三個部分:網(wǎng)頁爬蟲配置,

9、網(wǎng)頁解析配置,采集任務配置。以上三者可以自由搭配,便于重復利用已設置完畢的配置。7. 可定制的數(shù)據(jù)解析和抽取。可以自由配置要采集的網(wǎng)絡元數(shù)據(jù),并可以對每個網(wǎng)絡元數(shù)據(jù)自定義字段名。便于后續(xù)信息處理。8. 海量信息采集和存儲支持,分布式管理,多服務器集群和協(xié)作。9. 采集爬蟲采用多任務、多數(shù)據(jù)源管理,同一個采集服務器下可以進行多個采集任務的運行。10. 每個任務下可以指定多個采集入口網(wǎng)站。11. 采集條件設置,可以針對不同任務下的入口網(wǎng)站設置采集路徑、重點頁面、采集網(wǎng)址過濾等控制條件??刂茥l件采用正則表達式。12. 運行配置,采集運行過程中使用的爬蟲名稱、個數(shù)、數(shù)據(jù)更新頻度等均可以由用戶進行配置。

10、13. 信息自動維護,被抓取網(wǎng)址數(shù)據(jù)發(fā)生變化時,系統(tǒng)會自動發(fā)現(xiàn)并更新已抓取的信息。14. 多用戶,分權限進行管理。采集服務器跟管理控制臺之間采用嚴格的權限管理,保證采集服務器的安全。15. 自動識別文本中的圖片信息,并且自動下載到本地,并替換文本中的圖片URL為本地URL。16. 管理控制臺可以監(jiān)控每臺采集服務器詳細的系統(tǒng)資源使用情況,并總結出運行是否正常的運行報告。六六. 系統(tǒng)優(yōu)勢系統(tǒng)優(yōu)勢1.精確度高精確度高用戶可以按照自身需要自行選擇、設定監(jiān)測的目標網(wǎng)站和特定信息源,實施24 小時不間斷監(jiān)測和采集,信息動態(tài)始終處于掌握之中。系統(tǒng)支持將網(wǎng)頁中的 信息內(nèi)容按日期、標題、作者、欄目進行提取,過濾

11、網(wǎng)頁中的無用信息。擴展抓 取采集范圍可以精確到特定網(wǎng)站、特定欄目、特定頁面、特定區(qū)域。2.易用性好易用性好系統(tǒng)參數(shù)設置簡單,一次設置多次使用。采用精確抓取時針對不同用戶應用 要求,可設定“所見即所得”的拖拽選取信息內(nèi)容方式。設置過程直觀、便捷。系統(tǒng)插件豐富,可以對信息進行不同的修正,輸出到不同數(shù)據(jù)格式,多種數(shù)據(jù)庫。3.靈活性強靈活性強系統(tǒng)具有很強的靈活性,可按需選擇目標站點,并根據(jù)形勢的變化,隨時更 換目標站點。用戶可直接到某一網(wǎng)站抓取用戶想要的特定欄目下的信息,它僅僅 要求用戶設定特定的抓取條件,用戶需要的內(nèi)容就會自動被抓取和保存下來,從 而實現(xiàn)由用戶上網(wǎng)找信息轉變?yōu)樾畔⒆詣恿飨蛴脩舻姆绞健?/p>

12、4.實施部署容易實施部署容易系統(tǒng)用戶界面友好, 抓取服務器在任意平臺下運行, 實施部署過程簡單, 即裝即用。 系統(tǒng)穩(wěn)定性很高, 可以在 “7 天24 小時” 運行模式下長時間地運行。5.采集內(nèi)容全面采集內(nèi)容全面適應網(wǎng)站內(nèi)容格式的多變性,能完整地獲取需要采集的頁面,遺漏少,網(wǎng)頁 采集內(nèi)容的完整性在 99% 以上。6.抓取速度快抓取速度快系統(tǒng)支持多線程處理技術,支持運行多條線程的同時抓取??煽焖俑咝У貙?目標站點或欄目進行信息采集,大大加快了信息的抓取速度,保證在同等單位時間內(nèi)信息的抓取量成倍數(shù)增長。7.性能指標性能指標如果以每臺服務器運行10個采集進程,帶寬在1M為準。在數(shù)據(jù)源網(wǎng)站不存在帶寬瓶頸

13、的情況下,每小時采集大概7萬個網(wǎng)頁。對于大量的數(shù)據(jù),建議采用分布式的服務器群進行采集。七七. 維護管理監(jiān)控維護管理監(jiān)控系統(tǒng)安裝完畢后,維護主要通過基于 WEB 的采集管理平臺??梢酝ㄟ^管理平臺創(chuàng)建分配采集任務,監(jiān)控每臺服務器的運行狀態(tài),采集數(shù)據(jù)的統(tǒng)計,以及性能分析。根據(jù)分析結果可以調(diào)整服務器的運行配置,以便于更充分的利用硬件資源。 數(shù)據(jù)源網(wǎng)站的采集配置采用分用戶的管理方式,用戶分三種角色: 采集配置角色,任務分配角色,系統(tǒng)管理角色。 采集配置角色采集配置角色 用戶可以配置管理自己的采集工程,配置完成的工程才可以提交給任務分配角色。 任務分配角色任務分配角色 對采集配置角色提交上來的工程進行測試

14、,測試成功后分配給采集服務器處理,否則駁回,另外具有服務器運行狀態(tài), 數(shù)據(jù)統(tǒng)計,性能分析等權限,可以根據(jù)分析結果進行采集任務分配。 系統(tǒng)管理角色系統(tǒng)管理角色 具有以上兩者所有權限,并具有用戶帳號管理,系統(tǒng)參數(shù)數(shù)據(jù)管理等所有權限。 另外對系統(tǒng)的穩(wěn)定性和準確性采取如下措施: 進程監(jiān)控:進程監(jiān)控: 對采集進程和管理進程的監(jiān)控,采取在管理服務器定期對每個服務器進行檢查的方式, 發(fā)送一個檢查指令,判斷某臺采集服務器上這兩個進程的運行狀態(tài),出現(xiàn)異常則報警。 采集監(jiān)控:采集監(jiān)控: 為了防止目標網(wǎng)站的網(wǎng)頁模板變化,采取對采集結果進行監(jiān)控的方式,如果長時間沒有數(shù)據(jù)采集成功,則進行報警。 也可以通過命令服務進程檢

15、查每個采集任務的狀態(tài)。八八. 名詞解釋名詞解釋爬蟲配置爬蟲配置 - 爬蟲使用的規(guī)則配置。解析配置解析配置 - 解析使用的規(guī)則配置。網(wǎng)頁爬蟲網(wǎng)頁爬蟲 - 把指定網(wǎng)站的網(wǎng)頁按爬蟲配置下載到本地的程序。網(wǎng)頁解析網(wǎng)頁解析 - 對下載到本地的網(wǎng)頁按解析配置進行解析的程序。采集任務采集任務 - 由爬蟲配置和解析配置組合成的采集規(guī)則。管理進程管理進程 - 運行在各個采集服務器,接收采集管理平臺命令,進行采集任務的管理和狀態(tài)反饋。采集進程采集進程 - 運行在各個采集服務器提供的采集服務的進程,通過管理進程與管理平臺進行交互。采集管理平臺采集管理平臺 - 負責其他所有采集進程的管理和任務分配,采集任務的創(chuàng)建管理。與其他采集進程通過管理進程進行通訊。采集服務器采集服務器 - 運行采集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論