網(wǎng)絡(luò)爬蟲需求分析_第1頁
網(wǎng)絡(luò)爬蟲需求分析_第2頁
網(wǎng)絡(luò)爬蟲需求分析_第3頁
網(wǎng)絡(luò)爬蟲需求分析_第4頁
網(wǎng)絡(luò)爬蟲需求分析_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余7頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)絡(luò)爬蟲需求分析目錄1 .引言21.1 編寫目的21.2 背景21.3 定義31.4 參考資料32 .任務(wù)概述32.1 目標(biāo)32.2 用戶的特點(diǎn)42.3 假定和約束42.4 假設(shè)與依據(jù)43 .需求規(guī)定43.1 對(duì)功能的規(guī)定43.1.1 使用庫(kù)43.2 對(duì)性能的規(guī)定53.2.1 精度53.2.2 時(shí)間特性要求53.2.3 靈活性53.2.4 安全性63.2.5 可維護(hù)性63.3 輸入輸出要求63.4 數(shù)據(jù)管理能力要求63.5 故障處理要求64 .運(yùn)行環(huán)境規(guī)定64.1 設(shè)備64.2 支持軟件64.3 接口64.4 控制75 .數(shù)據(jù)流圖76.IPO圖81.1 .數(shù)據(jù)字典9(1)數(shù)據(jù)流詞條的描述錯(cuò)誤!

2、未定義書簽。(2)數(shù)據(jù)元素詞條的描述錯(cuò)誤!未定義書簽。(3)數(shù)據(jù)文件詞條的描述錯(cuò)誤!未定義書簽。2.2 .小說明9.引言編寫目的為開發(fā)人員、維護(hù)人員、客戶之間提供共同的協(xié)議而創(chuàng)立基礎(chǔ),對(duì)該軟件功能的實(shí)現(xiàn)作使命描述。本說明書的預(yù)期讀者為客戶、業(yè)務(wù)或需求分析人員、測(cè)試人員、用戶文檔編寫者、項(xiàng)目管理人員。背景軟件系統(tǒng)的名稱:網(wǎng)絡(luò)爬蟲1.3定義廣度柳素?網(wǎng)絡(luò)爬蟲搜索引擎WebURL信息互聯(lián)網(wǎng)1.4參考資料網(wǎng)絡(luò)爬蟲軟件的研究與開發(fā)中圖分類號(hào):TP319軟件導(dǎo)刊2011年5月第10卷第5期2.任務(wù)概述2.1目標(biāo)利用正則袤達(dá)式瓜配網(wǎng)頁上用戶所需的字苻率系統(tǒng)流程圖1.客戶端向服務(wù)器發(fā)送自己設(shè)定好的請(qǐng)求。軟件需

3、求(美)KarlE.Wiegers著陸麗娜士忠民土志敏等譯鰭束用戶選擇訪問網(wǎng)頁的餐型(r度搜索或保度搜索)利用廣疼拽素算去.持將相應(yīng)的URL保存利用;8度攫系竦;去二井丹相友的UPL顯示利用htt口協(xié)議發(fā)送響應(yīng)箱電L_使用socket建立套接字開始.通過http將Web服務(wù)器上協(xié)議站點(diǎn)的網(wǎng)頁代碼提取出來。.根據(jù)一定的正則表達(dá)式提取出客戶端所需要的信息。.采用深度優(yōu)先搜索從網(wǎng)頁中某個(gè)鏈接出發(fā),訪問該鏈接的網(wǎng)頁,并通過遞歸算法實(shí)現(xiàn)依次向下訪問。.采用廣度優(yōu)先搜索從網(wǎng)頁中某個(gè)鏈接出發(fā),訪問該鏈接網(wǎng)頁上的所有鏈接,訪問完成后,再通過遞歸算法實(shí)現(xiàn)下一層的訪問。用戶的特點(diǎn)使用本軟件面向不同領(lǐng)域、不同背景的

4、廣大群眾,可以根據(jù)自己制定的搜索主題來使用本軟件。假定和約束.有CPU13316兆內(nèi)存配置的計(jì)算機(jī)就可運(yùn)行本系統(tǒng)。.在管理方針、并行操作、安全與保密方面無約束。2.4假設(shè)與依據(jù)本軟件在開發(fā)的過程中,分為技術(shù)實(shí)現(xiàn)與軟件工程兩大部分,兩部分都有側(cè)重點(diǎn),若技術(shù)支持出現(xiàn)故障或疑難問題無法解決、程序開發(fā)出現(xiàn)偏差,會(huì)延誤工程進(jìn)度,影響工程的按期完工。若軟件工程陳述出現(xiàn)問題,部分描述含混不清,則會(huì)影響系統(tǒng)的完整性與可繼承性。在管理方面,如管理者沒有預(yù)見性,對(duì)出向的問題無法采用可行的解決手段,都會(huì)影響開發(fā)模塊之間的互動(dòng),從而影響工程的順利開展,導(dǎo)致工程無法按期完工。.需求規(guī)定對(duì)功能的規(guī)定使用庫(kù)規(guī)格說明L庫(kù)文件

5、名R調(diào)用指定庫(kù)|5顯示所調(diào)用的數(shù)據(jù)庫(kù)的庫(kù)結(jié)構(gòu)引言顯示所調(diào)用的數(shù)據(jù)庫(kù)。輸入指定的庫(kù)文件名。力口工調(diào)用指定的數(shù)據(jù)庫(kù)。輸出顯示所指定的數(shù)據(jù)庫(kù)的庫(kù)結(jié)構(gòu)。對(duì)性能的規(guī)定精度.用戶在設(shè)置愛好時(shí)進(jìn)行精度提示,提交給服務(wù)器后進(jìn)行精短校驗(yàn)。.在進(jìn)行向數(shù)據(jù)庫(kù)文件提取數(shù)據(jù)時(shí),要求數(shù)據(jù)記錄定位準(zhǔn)確,在往數(shù)據(jù)庫(kù)文件數(shù)組中添加數(shù)時(shí),要求輸入數(shù)準(zhǔn)確。時(shí)間特性要求a.響應(yīng)時(shí)間應(yīng)在人的感覺和視覺事件范圍內(nèi)b.更新處理時(shí)間:隨著本系統(tǒng)的版本升級(jí),系統(tǒng)將相應(yīng)的進(jìn)行更新c.數(shù)據(jù)的轉(zhuǎn)換和彳送時(shí)間:12秒靈活性當(dāng)需求發(fā)生某些變化時(shí),本系統(tǒng)操作方式、數(shù)據(jù)結(jié)構(gòu)、運(yùn)行環(huán)境基本不會(huì)發(fā)生變化,變化只是將對(duì)應(yīng)的數(shù)據(jù)庫(kù)文件內(nèi)的記錄改變,或?qū)⑦^濾條件改變

6、即可安全性本軟件大量的參數(shù)及文本內(nèi)容全部放于漢語編程數(shù)據(jù)庫(kù)中,所以參數(shù)不容易被錯(cuò)改、破壞,萬一參數(shù)受到破壞也不會(huì)影響源程序??删S護(hù)性本軟件利用數(shù)據(jù)庫(kù)進(jìn)行編程,系統(tǒng)結(jié)構(gòu)由程序基本確定,大量的參數(shù)及文本內(nèi)容全部放于漢語編程中。修改、更新數(shù)據(jù)只要在數(shù)據(jù)庫(kù)進(jìn)行修改添加,而不需要對(duì)系統(tǒng)結(jié)構(gòu)進(jìn)行修改,這樣系統(tǒng)維護(hù)性、升級(jí)都十分方便。輸入輸由要求用戶應(yīng)該輸入一個(gè)合法的初始URL作為初始入口。數(shù)據(jù)管理能力要求本系統(tǒng)采用sqlserver數(shù)據(jù)庫(kù)對(duì)資源進(jìn)行存儲(chǔ),其自帶的空間自增長(zhǎng)有效的解決了數(shù)據(jù)管理的問題。故障處理要求當(dāng)客戶端多數(shù)用戶同時(shí)使用,可能造成服務(wù)器負(fù)載過重,于是啟用了多線程方法,同時(shí)限定最大線程數(shù),防止

7、服務(wù)器崩潰。.運(yùn)行環(huán)境規(guī)定設(shè)備本軟件不需要特定的硬件或硬件接口進(jìn)行支撐。486以上具備有java的運(yùn)行環(huán)境jdk的PC機(jī)均可運(yùn)行此軟件。運(yùn)行時(shí)需要聯(lián)機(jī)。支持軟件本系統(tǒng)采用java語言制作,支持win7/XP/Linux等操作系統(tǒng),由java虛擬機(jī)編譯,測(cè)試軟件為MyEclipse;接口客戶端瀏覽器是搜索引擎和用戶之間的接口。其首先獲取用戶搜索條件并加以分析,然后訪問索引數(shù)據(jù)庫(kù)進(jìn)行匹配后獲得檢索結(jié)果,然后根據(jù)設(shè)定的相關(guān)度進(jìn)行降哥排序處理后返回給用戶。輸出、輸入的相對(duì)時(shí)間將由pc機(jī)本身處理速度來決定。對(duì)程序的維護(hù),需進(jìn)行必要的備份。http傳給服務(wù)器,服務(wù)器接受信號(hào)執(zhí)行控制本軟件通過客戶端瀏覽器,

8、用戶設(shè)置自己的愛好,并通過響應(yīng)操作。網(wǎng)頁第一層網(wǎng)頁第二層1.11.2學(xué)生搜索方法M驗(yàn)證搜索方'驗(yàn)證ur匿J4法有效性,正確搜索方法效性搜索配置網(wǎng)頁2.1下載網(wǎng)頁:1/網(wǎng)頁2.2第三層6.IPO圖7.數(shù)據(jù)字典.搜索方法=搜索策略+抓取類型。搜索策略="廣度優(yōu)先”|“深度優(yōu)先”|“最好優(yōu)先”抓取類型=音頻|視頻|圖片.網(wǎng)頁信息=主題+內(nèi)容+鏈接地址.搜索配置=搜索方法+URL.下載網(wǎng)頁=站內(nèi)爬取+外鏈爬取.驗(yàn)證URL有效性=存在性+價(jià)值性加工編號(hào):i.i加工名:設(shè)置搜索方法輸入流:自定義搜索方法表輸出流:完整的搜索方法表加工邏輯:將自定義搜索方法表及系統(tǒng)默認(rèn)選項(xiàng)參數(shù)加工成完整的搜索方法表有關(guān)信息:當(dāng)有選擇輸入時(shí)執(zhí)行此加工,否則按默認(rèn)執(zhí)行加工編號(hào):1.2加工名:對(duì)URL檢查輸入流:搜索方法中的初始URL輸出流:正確的搜索配置加工邏輯:通過檢查URL的存在性和價(jià)值性來判斷該URL是否可行加工編號(hào):2.1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論