網(wǎng)絡(luò)爬蟲(chóng)需求分析_第1頁(yè)
網(wǎng)絡(luò)爬蟲(chóng)需求分析_第2頁(yè)
網(wǎng)絡(luò)爬蟲(chóng)需求分析_第3頁(yè)
網(wǎng)絡(luò)爬蟲(chóng)需求分析_第4頁(yè)
網(wǎng)絡(luò)爬蟲(chóng)需求分析_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余7頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)絡(luò)爬蟲(chóng)需求分析目錄1. 引言 21.1 編寫(xiě)目的 21.2 背景 21.3 定義 31.4 參考資料 32. 任務(wù)概述 32.1 目標(biāo) 32.2 用戶(hù)的特點(diǎn) 42.3 假定和約束 42.4 假設(shè)與依據(jù) 43. 需求規(guī)定 43.1 對(duì)功能的規(guī)定 43.1.1 使用庫(kù) 43.2 對(duì)性能的規(guī)定 53.2.1 精度 53.2.2 時(shí)間特性要求 53.2.3 靈活性 63.2.4 安全性 63.2.5 可維護(hù)性 63.3 輸入輸出要求 63.4 數(shù)據(jù)管理能力要求 63.5 故障處理要求 64. 運(yùn)行環(huán)境規(guī)定 64.1 設(shè)備 64.2 支持軟件 74.3 接口 74.4 控制 75. 數(shù)據(jù)流圖 76.

2、IPO 圖 97 .數(shù)據(jù)字典 9(1) 數(shù)據(jù)流詞條的描述 錯(cuò)誤!未定義書(shū)簽。(2) 數(shù)據(jù)元素詞條的描述 錯(cuò)誤!未定義書(shū)簽。(3) 數(shù)據(jù)文件詞條的描述 錯(cuò)誤!未定義書(shū)簽。8 .小說(shuō)明 101 .引言1.1 編寫(xiě)目的為開(kāi)發(fā)人員、維護(hù)人員、客戶(hù)之間提供共同的協(xié)議而創(chuàng)立基礎(chǔ),對(duì)該軟件功能的實(shí)現(xiàn)作使命描述。本說(shuō)明書(shū)的預(yù)期讀者為客戶(hù)、業(yè)務(wù)或需求分析人員、測(cè)試人員、用戶(hù)文檔編寫(xiě)者、項(xiàng)目管理人員。1.2 背景軟件系統(tǒng)的名稱(chēng):網(wǎng)絡(luò)爬蟲(chóng)1.3 定義網(wǎng)絡(luò)爬蟲(chóng)搜索引擎Web URL信息互聯(lián)網(wǎng)1.4 參考資料網(wǎng)絡(luò)爬蟲(chóng)軟件的研究與開(kāi)發(fā)中圖分類(lèi)號(hào):TP319軟件導(dǎo)刊2011年5月 第10卷軟件需求(美)Karl E.Wie

3、gers 著陸麗娜王忠民王志敏等譯2 .任務(wù)概述2.1 目標(biāo)系統(tǒng)流程圖1. 客戶(hù)端向服務(wù)器發(fā)送自己設(shè)定好的請(qǐng)求。2. 通過(guò) http 將 Web 服務(wù)器上協(xié)議站點(diǎn)的網(wǎng)頁(yè)代碼提取出來(lái)。3. 根據(jù)一定的正則表達(dá)式提取出客戶(hù)端所需要的信息。4. 采用深度優(yōu)先搜索從網(wǎng)頁(yè)中某個(gè)鏈接出發(fā) ,訪問(wèn)該鏈接的網(wǎng)頁(yè),并通過(guò)遞歸算法實(shí)現(xiàn)依次向下訪問(wèn)。5. 采用廣度優(yōu)先搜索從網(wǎng)頁(yè)中某個(gè)鏈接出發(fā),訪問(wèn)該鏈接網(wǎng)頁(yè)上的所有鏈接,訪問(wèn)完成后,再通過(guò)遞歸算法實(shí)現(xiàn)下一層的訪問(wèn)。2.2 用戶(hù)的特點(diǎn)使用本軟件面向不同領(lǐng)域、不同背景的廣大群眾,可以根據(jù)自己制定的搜索主題來(lái)使用本軟件。2.3 假定和約束1. 有 CPU133 、 16

4、兆內(nèi)存配置的計(jì)算機(jī)就可運(yùn)行本系統(tǒng)。2. 在管理方針、并行操作、安全與保密方面無(wú)約束。2.4 假設(shè)與依據(jù)本軟件在開(kāi)發(fā)的過(guò)程中,分為技術(shù)實(shí)現(xiàn)與軟件工程兩大部分,兩部分都有側(cè)重點(diǎn),若技術(shù)支持出現(xiàn)故障或疑難問(wèn)題無(wú)法解決、程序開(kāi)發(fā)出現(xiàn)偏差,會(huì)延誤工程進(jìn)度,影響工程的按期完工。若軟件工程陳述出現(xiàn)問(wèn)題,部分描述含混不清,則會(huì)影響系統(tǒng)的完整性與可繼承性。在管理方面,如管理者沒(méi)有預(yù)見(jiàn)性,對(duì)出向的問(wèn)題無(wú)法采用可行的解決手段,都會(huì)影響開(kāi)發(fā)模塊之間的互動(dòng),從而影響工程的順利開(kāi)展,導(dǎo)致工程無(wú)法按期完工。3. 需求規(guī)定3.1 對(duì)功能的規(guī)定3.1.1 使用庫(kù) 規(guī)格說(shuō)明1:庫(kù)文件名|P:調(diào)用指定庫(kù)|0:顯示所調(diào)

5、用的散據(jù)庫(kù)的庫(kù)結(jié)構(gòu) 引言顯示所調(diào)用的數(shù)據(jù)庫(kù)。 輸入指定的庫(kù)文件名。 力口工調(diào)用指定的數(shù)據(jù)庫(kù)。 輸出顯示所指定的數(shù)據(jù)庫(kù)的庫(kù)結(jié)構(gòu)。3.2 對(duì)性能的規(guī)定3.2.1 精度1 .用戶(hù)在設(shè)置愛(ài)好時(shí)進(jìn)行精度提示,提交給服務(wù)器后進(jìn)行精短校驗(yàn)。2 .在進(jìn)行向數(shù)據(jù)庫(kù)文件提取數(shù)據(jù)時(shí),要求數(shù)據(jù)記錄定位準(zhǔn)確,在往數(shù)據(jù)庫(kù)文件數(shù)組中添加數(shù)時(shí),要 求輸入數(shù)準(zhǔn)確。3.2.2 時(shí)間特性要求a.響應(yīng)時(shí)間應(yīng)在人的感覺(jué)和視覺(jué)事件范圍內(nèi)b.更新處理時(shí)間:隨著本系統(tǒng)的版本升級(jí),系統(tǒng)將相應(yīng)的進(jìn)行更新c.數(shù)據(jù)的轉(zhuǎn)換和彳送時(shí)間:12秒3.2.3 靈活性當(dāng)需求發(fā)生某些變化時(shí),本系統(tǒng)操作方式、

6、數(shù)據(jù)結(jié)構(gòu)、運(yùn)行環(huán)境基本不會(huì)發(fā)生變化,變化只是將對(duì)應(yīng)的數(shù)據(jù)庫(kù)文件內(nèi)的記錄改變,或?qū)⑦^(guò)濾條件改變即可。3.2.4 安全性本軟件大量的參數(shù)及文本內(nèi)容全部放于漢語(yǔ)編程數(shù)據(jù)庫(kù)中,所以參數(shù)不容易被錯(cuò)改、破壞,萬(wàn)一參數(shù)受到破壞也不會(huì)影響源程序。3.2.5 可維護(hù)性本軟件利用數(shù)據(jù)庫(kù)進(jìn)行編程, 系統(tǒng)結(jié)構(gòu)由程序基本確定, 大量的參數(shù)及文本內(nèi)容全部放于漢語(yǔ)編程中。修改、更新數(shù)據(jù)只要在數(shù)據(jù)庫(kù)進(jìn)行修改添加,而不需要對(duì)系統(tǒng)結(jié)構(gòu)進(jìn)行修改,這樣系統(tǒng)維護(hù)性、升級(jí)都十分方便。3.3 輸入輸出要求用戶(hù)應(yīng)該輸入一個(gè)合法的初始URL 作為初始入口。3.4 數(shù)據(jù)管理能力要求本系統(tǒng)采用 sql server 數(shù)據(jù)庫(kù)對(duì)資源進(jìn)行存儲(chǔ), 其自帶

7、的空間自增長(zhǎng)有效的解決了數(shù)據(jù)管理的問(wèn)題。3.5 故障處理要求當(dāng)客戶(hù)端多數(shù)用戶(hù)同時(shí)使用,可能造成服務(wù)器負(fù)載過(guò)重,于是啟用了多線程方法,同時(shí)限定最大線程數(shù),防止服務(wù)器崩潰。4. 運(yùn)行環(huán)境規(guī)定4.1 設(shè)備本軟件不需要特定的硬件或硬件接口進(jìn)行支撐。 486 以上具備有java 的運(yùn)行環(huán)境jdk 的 PC 機(jī)均可運(yùn)行此軟件。運(yùn)行時(shí)需要聯(lián)機(jī)。4.2 支持軟件本系統(tǒng)采用java語(yǔ)言制作,支持 win7/XP/Linux等操作系統(tǒng),由java虛擬機(jī)編譯,測(cè)試軟件為My Eclipse;4.3 接口客戶(hù)端瀏覽器是搜索引擎和用戶(hù)之間的接口。其首先獲取用戶(hù)搜索條件并加以分析,然后訪問(wèn)索引數(shù)據(jù)庫(kù)進(jìn)行匹配后獲得檢索結(jié)果

8、,然后根據(jù)設(shè)定的相關(guān)度進(jìn)行降哥排序處理后返回給用戶(hù)。輸出、輸入的相對(duì)時(shí)間將由pc機(jī)本身處理速度來(lái)決定。對(duì)程序的維護(hù),需進(jìn)行必要的備份。4.4 控制本軟件通過(guò)客戶(hù)端瀏覽器,用戶(hù)設(shè)置自己的愛(ài)好,并通過(guò) http傳給服務(wù)器,服務(wù)器接受信號(hào)執(zhí)行響應(yīng)操作。5. 數(shù)據(jù)流圖網(wǎng)頁(yè)第一層可編輯 Z 1、學(xué)生 驗(yàn)證后效 搜索方法沖 性廠一、二 1.11 1.2學(xué)生 :驗(yàn)證搜索方 k驗(yàn)證URL搜索方法正確搜索方法i-u.上(、!Ie-Lh > 學(xué)生搜索配置 爬取網(wǎng)頁(yè),聽(tīng)信息伊VVI f網(wǎng)頁(yè)第二層/ 21 八22-有»下百一*檢查網(wǎng)頁(yè)重>學(xué)生,搜索配常、:載門(mén)工/網(wǎng)頁(yè)復(fù)性 網(wǎng)頁(yè)信息網(wǎng)頁(yè)第三層6.

9、IPO 圖7.數(shù)據(jù)字典1 .搜索方法=搜索策略+抓取類(lèi)型。搜索策略="廣度優(yōu)先” | “深度優(yōu)先” | “最好優(yōu)先”抓取類(lèi)型=音頻|視頻|圖片2 .網(wǎng)頁(yè)信息=主題+內(nèi)容+鏈接地址3 .搜索配置=搜索方法+ URL4 .下載網(wǎng)頁(yè)=站內(nèi)爬取+外鏈爬取5 .驗(yàn)證URL有效性=存在性+價(jià)值性8 .小說(shuō)明加工編號(hào):i.i加工名:設(shè)置搜索方法輸入流:自定義搜索方法表輸出流:完整的搜索方法表加工邏輯:將自定義搜索方法表及系統(tǒng)默認(rèn)選項(xiàng)參數(shù)加工成完整的搜索方法表有關(guān)信息:當(dāng)有選擇輸入時(shí)執(zhí)行此加工,否則按默認(rèn)執(zhí)行加工編號(hào):1.2加工名:對(duì)URL檢查輸入流:搜索方法中的初始URL輸出流:正確的搜索配置加工邏輯:通過(guò)檢查 URL的存在性和價(jià)值性來(lái)判斷該URL是否可

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論