




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、本文檔所有包括文字敘述、插圖、文檔格式等內(nèi)容,其屬技術(shù)有限。技術(shù),您不得以任何目的和方式發(fā)布本文檔(文檔中部分或全部),不得轉(zhuǎn)印、影印或復印。否則您將受到嚴厲的民事和刑事,并在法律允許的范圍內(nèi)受到最大可能的民事。免責條款1、本文檔是技術(shù)相關(guān)依據(jù)現(xiàn)有信息制作,在編寫該文檔時候已盡最大努力保證其內(nèi)容準確可用技術(shù)及其員工將不對本文檔中任何內(nèi)容直接或間接導致第的損失和損害承擔任何責任。2、本文檔中提到的產(chǎn)品功能或性能可能因產(chǎn)品具體型號、配備環(huán)境、配置方法不同而有所差異, 此可能產(chǎn)生的差異為正?,F(xiàn)象, 相關(guān)問題請。服務(wù)信息反饋服務(wù):;公司:http;總公司:510665;總公司地址:廣州市天河區(qū)科韻路
2、16 號廣州信息港 A 棟 20-21 樓。D技術(shù)密級:公開資料第 2 頁/共 17 頁目錄第 1 章 綜述4前言4產(chǎn)品綜述4主要功能41.3 體系架構(gòu)51.3.1網(wǎng)絡(luò)結(jié)構(gòu)51.3.2搜索引擎服務(wù)器工作方式61.3.3應(yīng)用場合7第 2 章功能描述8管理終端8搜索引擎112.2.1 搜索引擎服務(wù)112.2.2 搜索引擎工作進程122.3 二次搜索.142.4 組織管理142.4.1搜索任務(wù)下發(fā)和搜索結(jié)果上報14第 3 章技術(shù)特點.16第 4 章服務(wù)支持.17D技術(shù)密級:公開資料第 3 頁/共 17 頁第1章 綜述1.1 前言隨著上網(wǎng)和企業(yè)上網(wǎng)工程的全面展開,各級部門和企事業(yè)都陸續(xù)建立與互聯(lián)網(wǎng)絡(luò)相
3、連的ranet(網(wǎng))系統(tǒng),使用戶可以通過網(wǎng)絡(luò)查詢和共享信息。但在這種情況下也出現(xiàn)了一個弊端,一些分子利用發(fā)達的網(wǎng)絡(luò)來泄漏國家或企業(yè)的信息??梢暂p松地將計算機中的數(shù)據(jù)通過網(wǎng)絡(luò)泄漏出去,而不會留下痕跡。因此失泄密事件頻頻發(fā)生。、重要數(shù)據(jù)、設(shè)計圖紙、配方、源代碼等敏感信息通過不同的方法和被上傳到網(wǎng)絡(luò)中,從而被、競爭對手獲得,給國家、企業(yè)造成了損失。目前國內(nèi)還沒有一個有效的辦法來實時和這種行為的發(fā)生,只能通過人為的搜索來及時發(fā)現(xiàn)泄密的信息并對泄密的網(wǎng)絡(luò)站點或?,F(xiàn)在網(wǎng)絡(luò)的可謂是海量信息時代,如何從這海量信息中及時迅速的查找到所要核實的泄漏資料或信息,有如大海撈針一般,令人檢查感到一片茫然而不知所措。這就
4、要求要有一套查找速度不但要快而且還要準確無遺漏的網(wǎng)絡(luò)檢查系統(tǒng)的誕生。全網(wǎng)搜索系統(tǒng)就是在這種情況下應(yīng)運而生的一套迅速而準確地網(wǎng)絡(luò)泄密信息檢查系統(tǒng)。1.2 產(chǎn)品綜述1.2.1 主要功能本系統(tǒng)的主要功能是對利用普查或精確檢索技術(shù),檢索網(wǎng)絡(luò)信息,發(fā)現(xiàn)和定位一些發(fā)布有不良信息或有泄密嫌疑的網(wǎng)絡(luò)站點。系統(tǒng)還包括管理、設(shè)置及報表等功能,以保證系統(tǒng)能有效和高效運行。D技術(shù)密級:公開資料第 4 頁/共 17 頁1.3體系架構(gòu)1.3.1網(wǎng)絡(luò)結(jié)構(gòu)用戶數(shù)據(jù)庫服務(wù)器客戶端搜索引擎服務(wù)器系統(tǒng)由多個管理終端和搜索服務(wù)器組成,但只有一個數(shù)據(jù)庫服務(wù)器。每個管理終端可以連接多個搜索服務(wù)器。每個服務(wù)器可以接受多個管理終端的連接。所
5、有的程序都使用一個數(shù)據(jù)庫服務(wù)器上的數(shù)據(jù)。D技術(shù)密級:公開資料第 5 頁/共 17 頁局域網(wǎng)結(jié)構(gòu)局域網(wǎng)內(nèi)的網(wǎng)絡(luò) 結(jié)構(gòu)1.3.2搜索引擎服務(wù)器工作方式搜索引擎服務(wù)互聯(lián)網(wǎng)搜索引擎服務(wù)器設(shè)計為二個模塊,一個服務(wù)程序和多個搜索引擎工作進程。服務(wù)程序做為 NT 服務(wù)運行,并打開一個 TCP端口。通過這個端口和管理終端通信。當管理終端發(fā)出一個啟動搜索任務(wù)令時,服務(wù)啟動一個搜索引擎工作進程執(zhí)行這個搜索任務(wù)。每個工作進程只處理一個搜索任務(wù),當搜索任務(wù)完成或被用戶停止,工作進程自然結(jié)束。因為搜索任務(wù)是非常消耗計算機和網(wǎng)絡(luò)資源的工作,每個服務(wù)器可以運行的搜索任務(wù)是有限的,由服務(wù)控制。當然,可以通過服務(wù)的控制面板修改
6、這個參數(shù)。當搜索任務(wù)達到最大限制時,服務(wù)管理終端發(fā)出的啟動任務(wù)命令。這時管理終端只能選擇另外的服務(wù)器來運行搜索任務(wù)。工作進程會定時向服務(wù)進程工作情況,服務(wù)進程再向管理終端發(fā)送相關(guān)搜索任務(wù)執(zhí)行情況。這樣的模塊劃分方式,一方面提高系統(tǒng)穩(wěn)定性,另一方面因為用戶界面少,也比較容易把搜索引擎服務(wù)器遷移到其他操作系統(tǒng)之下。D技術(shù)密級:公開資料第 6 頁/共 17 頁搜索引擎搜索引擎搜索引擎客戶端1.3.3 應(yīng)用場合系統(tǒng)運行需要一個能持續(xù)互聯(lián)網(wǎng)(ernet)的網(wǎng)絡(luò)連接,需要的網(wǎng)絡(luò)帶寬與檢查的規(guī)模相關(guān),通常。普通的 ADSL 寬帶接入的連接方式只能滿足小規(guī)模檢查的要求。本系統(tǒng)適合于各級部門和企事業(yè)使用。D技術(shù)
7、密級:公開資料第 7 頁/共 17 頁第2章 功能描述2.1 管理終端管理終端提供以下功能:1. 自動探測搜索服務(wù)器管理終端啟動后自動搜索同一個網(wǎng)絡(luò)內(nèi)的服務(wù)器,用戶可以看到這些服務(wù)器和它們的狀態(tài)。只有當管理終端和服務(wù)器都使用同一數(shù)據(jù)庫時,該服務(wù)器才能被用戶調(diào)用。2. 任務(wù)管理功能。在管理終端上,用戶可以建立新任務(wù)、修改任務(wù)和刪除搜索任務(wù)。搜索任務(wù)有以下幾種類型:1.精確搜索2.網(wǎng)絡(luò)普查3.搜索4.特定信息5.發(fā)現(xiàn)可疑目標搜索任務(wù)由搜索資源和搜索規(guī)則:1. 搜索資源:搜索資源可以是一個或多個 HTTP 協(xié)議的 URL。系統(tǒng)提供主機探測功能,可以事先探測一段 IP 范圍內(nèi)存在的 HTTP 主機。建
8、立搜索任務(wù)時,可以從這些主機中選取做為搜索資源。2. 搜索規(guī)則:搜索規(guī)則是由一個或多個搜索關(guān)鍵字按一定的搜索邏輯組成的表達式。用戶只能管理自己建立的任務(wù),不能操作別人建立的任務(wù)。但可以看到別人建立的任務(wù),以防多人建立同樣的任務(wù)。3. 啟動和停止搜索任務(wù)用戶通過管理終端啟動任務(wù)、停止任務(wù)。啟動任務(wù)時,可以選擇啟動方式:重新運行、繼續(xù)運行和增量更新。在管理終端上,用戶可以看到數(shù)據(jù)庫中所有的任務(wù),當啟動任務(wù)時,用戶需要指定在哪個服務(wù)器上運行。如果搜索任務(wù)有多個搜索資源,程序會自動分解搜索任務(wù),當然用戶也可以手工分解搜索任務(wù)。每個搜索子任務(wù)只包含一個搜索資源,可以在一個服務(wù)器上運行。D技術(shù)密級:公開資
9、料第 8 頁/共 17 頁按劃分的搜索資源按劃分的搜索資源搜索任務(wù)按劃分的搜索資源搜索引擎服務(wù)器搜索任務(wù)搜索資源當用戶啟動任務(wù)后,如果退出管理終端程序。任務(wù)不會停止,而是繼續(xù)運行。4. 主機探測如果用戶只知道 IP 范圍,無法一一列舉具體的資源 URL??梢允褂弥鳈C探測功能,把這個 IP 范圍內(nèi)的搜索出來,加入主機列表,做為搜索資源。主機探測的結(jié)果會入庫,不必要每次搜索前都做主機探測。主機探測需要的是一個主機列表,它的格式如下:ip-ip:port,port;ip-ip 是主機 ip 范圍,可以是單個 ip,也可以是多個 ipport 是該組 ip 的 HTTP 端口。以下格式都是允許的主機列
10、表:a)單個 ip::80b)多個 ip,多個端口:,0:80,8080c)ip 范圍,端口范圍:-55:80-88d)多組主機::80;0:80805. 搜索結(jié)果管理用戶可以隨時看到搜索任務(wù)的執(zhí)行結(jié)果。對于過期的搜索結(jié)果,用戶可以清除搜索結(jié)果或備份搜索結(jié)果。D技術(shù)密級:公開資料第 9 頁/共 17 頁搜索任務(wù)分解一個搜索任務(wù)可以包含多個網(wǎng)絡(luò)資源,通常一個被看做一個網(wǎng)絡(luò)資源。客戶端在啟動任務(wù)前可以自動或手動把任務(wù)按搜索資源分解后,交給多個服務(wù)器運行。用戶可以在任務(wù)的搜索結(jié)果上進行二次搜索。用戶可以標記搜索結(jié)果,以便在今后快速查閱。6. 日程管理用戶可以在某個服務(wù)器上建立日程。在日程的執(zhí)行時間內(nèi)
11、,如果服務(wù)器正在運行,就會自動啟動日程中的任務(wù)。當然如果服務(wù)器已經(jīng)到達最大運行任務(wù)限制,不會執(zhí)行日程中的任務(wù)。下面是管理終端的模塊列表:搜索規(guī)則系統(tǒng)設(shè)置增加、刪除和修改任務(wù)搜索資源任務(wù)管理分解任務(wù)子任務(wù)主機搜索啟動、停止子任務(wù)用戶登錄報表設(shè)置報表報表打印歷史搜索結(jié)果客戶端搜索結(jié)果管理查看搜索結(jié)果通過任務(wù)建立模板二次搜索模板管理模板導入和導出添加、修改、刪除日程日程管理管理用戶用戶管理管理用戶組權(quán)限設(shè)置操作日志D技術(shù)密級:公開資料第 10 頁/共 17 頁2.2 搜索引擎2.2.1 搜索引擎服務(wù)搜索引擎服務(wù)提供以下功能:1.自動運行服務(wù)進程做為 NT 服務(wù)運行,系統(tǒng)啟動后自動運行。服務(wù)進程打開一
12、個 TCP 端口供管理終端連接,打開一個 TCP 端口供工作進程連接。2.接受管理終端發(fā)送的控制命令,執(zhí)行響應(yīng)操作服務(wù)進程接受管理終端發(fā)出的下列指令:1)啟動搜索子任務(wù):啟動搜索工作進程,開始搜索。2)停止搜索子任務(wù):如果子任務(wù)在執(zhí)行中,停止搜索工作進程。如果任務(wù)還在等待隊列中,就從等待隊列中刪除子任務(wù)。3)更新日程列表:如果用戶修改了服務(wù)器上的日程,該服務(wù)器就需要刷新自己的日程列表。3.啟動任務(wù)當用戶要求啟動搜索任務(wù)時,搜索任務(wù)在管理終端被分解為多個子任務(wù),并加入到服務(wù)器上的任務(wù)等待隊列。當正在運行的子任務(wù)在服務(wù)器的任務(wù)限制之下時,服務(wù)器從任務(wù)等待隊列中按照 FIFO的順序提取子任務(wù)執(zhí)行。如
13、果服務(wù)器上有多個搜索子任務(wù)在排隊中,用戶可以手工調(diào)整隊列中的任務(wù)執(zhí)行順序。4.定時向管理終端任務(wù)執(zhí)行情況服務(wù)定時向管理終端提供在該服務(wù)器上運行的任務(wù)信息。任務(wù)信息包括:已經(jīng)分析的頁面數(shù),已經(jīng)的數(shù)據(jù)量、搜索結(jié)果數(shù)。5.執(zhí)行日程服務(wù)進程執(zhí)行用戶建立的日程。如果是啟動日程中的子任務(wù),該子任務(wù)會入到任務(wù)等待隊列的最前面等待。如果是停止日程中的子任務(wù),按照管理終端發(fā)送停止子任務(wù)的指令方式處理。服務(wù)進程提供一個用戶界面顯示任務(wù)執(zhí)行情況和設(shè)置服務(wù)器參數(shù)。6.主機探測D技術(shù)密級:公開資料第 11 頁/共 17 頁主機探測也是在服務(wù)器上運行。服務(wù)程序收到管理終端的主機探測請求后,會創(chuàng)建主機探測進程來完成這個任務(wù)
14、。NT服務(wù)框架客戶端登錄TCP線程客戶端通信線程任務(wù)等待隊列服務(wù)器服務(wù)服務(wù)器設(shè)置創(chuàng)建工作進程內(nèi)存文件創(chuàng)建主機探測進程主機探測2.2.2 搜索引擎工作進程搜索引擎工作進程設(shè)計為一個控制臺程序。工作進程由進程啟動。需要啟動的子任務(wù) ID,搜索引擎服務(wù)通過命令參數(shù)傳遞給搜索引擎工作進程。在Windows 上,搜索引擎工作進程和搜索引擎服務(wù)之間通過內(nèi)存文件通信。在 Linux上,搜索引擎工作進程和搜索引擎服務(wù)之間通過共享內(nèi)存通信。工作進程從服務(wù)進程獲取需要執(zhí)行的子任務(wù)信息。工作進程首先搜索任務(wù)數(shù)據(jù),如果任務(wù)已經(jīng)被其他進程啟動,將立即退出。工作進程先在數(shù)據(jù)庫中標記該搜索任務(wù)已經(jīng)被啟動,然后啟動搜索任務(wù)。
15、工作進程接受服務(wù)進程發(fā)出的指令。每隔一段時間,工作進程向進程工作情況。當任務(wù)被中止時,工作進程先停止搜索任務(wù),然后在數(shù)據(jù)庫中標記搜索任務(wù)已經(jīng)停止,隨后退出。當任務(wù)完成時,工作進程先在數(shù)據(jù)庫標記搜索任務(wù)已經(jīng)完成,隨后退出。D技術(shù)密級:公開資料第 12 頁/共 17 頁線程池線程與服務(wù)共享數(shù)據(jù)精確搜索網(wǎng)絡(luò)普查搜索子任務(wù)搜索特定信息HTML分析可疑對象發(fā)現(xiàn)分析線程池分析線程的Url隊列搜索任務(wù)執(zhí)行詳解精確搜索任務(wù)由內(nèi)容規(guī)則、搜索資源和 url規(guī)則組成。內(nèi)容規(guī)則就是一組關(guān)鍵字。搜索資源就是一個要搜索的起始 url,搜索就從這個起始 url 開始。url 規(guī)則用來判斷一個發(fā)現(xiàn)的 url 是否在搜索范圍內(nèi)
16、。搜索任務(wù)以搜索資源為分解成搜索子任務(wù),搜索子任務(wù)能分配到一個搜索引擎工作進程執(zhí)行。一個搜索任務(wù)中的各個子任務(wù)共用相同餓內(nèi)容規(guī)則和url 規(guī)則。對于每一個到的頁面,搜索引擎工作進程首先分析 HTML 代碼,提取和文本內(nèi)容。搜索引擎在文本中搜索關(guān)鍵字。發(fā)現(xiàn)有匹配的關(guān)鍵字時,搜索引擎認為這是一個目標頁面,把它添加到搜索結(jié)果中。如果該頁面還沒達到 url 規(guī)則中定義的最大搜索深度,搜索引擎繼續(xù)搜索頁面中發(fā)現(xiàn)的新。對每一個新,搜索引擎用 url 規(guī)則判斷是否在搜索范圍內(nèi)。這個如果是的話,就加入到搜索隊列中。如果該在搜索范圍內(nèi),但不是工作進程自己執(zhí)行的資源,該被保存到數(shù)據(jù)庫中由其他工作進程執(zhí)行。D技術(shù)密
17、級:公開資料第 13 頁/共 17 頁搜索工作進程2.3 二次搜索搜索引擎工作進程的搜索結(jié)果,通常都是海量,人無法一一瀏覽。系統(tǒng)提供一個搜索供用戶搜索查詢相關(guān)信息,這個搜索的使用方式非常類似于谷歌、之類的搜索引擎。用戶可以直接通過瀏覽器二次搜索,也可以通過管理終端打開瀏覽器來二次搜索。如果直接通過瀏覽器二次搜索,用戶需要登錄后才能進入搜索查詢界面。在搜索查詢界面,用戶可以提供搜索規(guī)則(搜索關(guān)鍵字,搜索關(guān)鍵字可以從系統(tǒng)的關(guān)鍵字數(shù)據(jù)庫中選?。⑺阉鞣秶↖P 范圍或地域范圍)等 搜索條件,搜索引擎根據(jù)搜索結(jié)果的重要性和時間順序列出搜索結(jié)果。把二次搜索從管理終端中分離出來,有以下考慮:a)網(wǎng)絡(luò)版的搜
18、索數(shù)據(jù)庫會比單機版大很多,在服務(wù)器上執(zhí)行搜索,速度要更快些,也更容易對搜索做一些優(yōu)化。b)使用同一個服務(wù)器為所有人提供基于瀏覽器的搜索服務(wù),是目前普遍采用的方式。c)當用戶群體擴大時,更容易和升級。2.4 組織管理2.4.1 搜索任務(wù)下發(fā)和搜索結(jié)果上報如果機構(gòu)需要把搜索子任務(wù)下發(fā)給下級機構(gòu)執(zhí)行,系統(tǒng)提供組織管理服務(wù),運行在網(wǎng)絡(luò),用于上下級之間的。在下級網(wǎng)絡(luò)運行的管理終端能連接到網(wǎng)絡(luò)的組織管理服務(wù)。機構(gòu)通過組織管理服務(wù)能看到下級機構(gòu)接受的搜索任務(wù),并把搜索任務(wù)下發(fā)給下級機構(gòu)。D技術(shù)密級:公開資料第 14 頁/共 17 頁管理員互聯(lián)網(wǎng)分局管理員分局管理員分局管理員任務(wù)下發(fā)程序把下發(fā)的任務(wù)和相關(guān)子任
19、務(wù)發(fā)送給任務(wù)接受程序。任務(wù)接受程序在本地數(shù)據(jù)庫中建立相應(yīng)搜索任務(wù),這樣下級機構(gòu)就能通過管理終端看到這些搜索任務(wù)。但下級結(jié)構(gòu)無權(quán)修改和刪除這些任務(wù),并且只有下級機構(gòu)的管理員才能執(zhí)行這些任務(wù)。任務(wù)執(zhí)行結(jié)束后,下級機構(gòu)可以把全部搜索結(jié)果或部分搜索結(jié)果(通過二次搜索得到)打包上傳給結(jié)構(gòu)。搜索結(jié)果上報也是通過任務(wù)下發(fā)程序和任務(wù)接受程序來完成。任務(wù)結(jié)果上報后,機構(gòu)才能看到任務(wù)執(zhí)行的結(jié)果。D技術(shù)密級:公開資料第 15 頁/共 17 頁搜索任務(wù)下發(fā)管理員可以把搜索任務(wù)按管轄區(qū)域下發(fā)給各個分局執(zhí)行??梢噪S時獲取分局的搜索結(jié)果。搜索任務(wù)下發(fā)和搜索結(jié)果有專門的程序完成。任務(wù)下發(fā)是系統(tǒng)中的獨立模塊,但可以從客戶端程序中調(diào)用第3章 技術(shù)特點支持多種搜索方式:如精確搜索和網(wǎng)絡(luò)普查。快速和實時,系統(tǒng)高效地從
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 主播兼職勞動合同范本
- 農(nóng)莊分包經(jīng)營合同范本
- 單位配送食材合同范本
- 勘察鉆機租賃合同范例
- 網(wǎng)頁設(shè)計復習題及答案
- 高壓電工(運行)模擬題含答案
- 一年級的數(shù)學上冊的期末試卷
- led鋼結(jié)構(gòu)合同范本
- 《音樂巨人貝多芬》的教學反思
- 《迷彩服》的教案
- 某工程通風空調(diào)工程施工方案
- 遼寧省五校聯(lián)考2024-2025學年高二上學期期末英語試卷(解析版)
- 2025年湖南食品藥品職業(yè)學院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 2025年泰山職業(yè)技術(shù)學院高職單招數(shù)學歷年(2016-2024)頻考點試題含答案解析
- 近岸海上柔性光伏支架結(jié)構(gòu)研究
- 2025年廣西投資集團有限公司招聘筆試參考題庫含答案解析
- 2024年華北電力大學輔導員及其他崗位招聘考試真題
- 2024年湖北省煙草專賣局(公司)招聘考試真題
- 青島版科學四年級下冊《認識太陽》課件
- 校園法制安全教育第一課
- 李白《關(guān)山月》古詩詞課件
評論
0/150
提交評論