




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、摘要搜索引擎(Search Engine是一個(gè)對(duì)互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理的應(yīng)用軟件系統(tǒng)。 它主要包括信息搜集、 索引建立和信息檢索三個(gè)部分。 搜索引擎有很多類型,常見(jiàn)的有FTP搜索引擎和WEB搜索引擎。一般 WEB搜索引擎較少處 理FTP服務(wù)器上的數(shù)據(jù)。就信息規(guī)模而言,F(xiàn)TP服務(wù)器的信息量比 WEB服務(wù)器小 很多。因此FTP搜索引擎硬件投入和維護(hù)的費(fèi)用也遠(yuǎn)遠(yuǎn)低于大型通用搜索引擎。本文針對(duì)在FTP服務(wù)器的搜索速度和效率問(wèn)題,對(duì)現(xiàn)有FTP搜索引擎技術(shù)進(jìn) 行了分析和研究,重點(diǎn)詳細(xì)介紹了爬蟲(chóng)模塊和索引模塊的設(shè)計(jì)與實(shí)現(xiàn)。文章首先分析了 FTP搜索引擎研究的背景和意義。然后在第3章節(jié)和第4章節(jié)中詳細(xì)
2、描述了關(guān)鍵的爬蟲(chóng)技術(shù)和索引技術(shù), 包括: 如何進(jìn)行網(wǎng)段掃描, 獲取數(shù)據(jù)以及建立索引數(shù)據(jù)庫(kù)等。 最后本文還分析了在爬蟲(chóng)和索引實(shí)現(xiàn)時(shí)遇到的困難并提出了相應(yīng)的解決方案?!娟P(guān)鍵詞】FTP搜索引擎網(wǎng)絡(luò)爬蟲(chóng)索引AbstractSearch Engine (SE) is an application system for information collecting andclassifyingon the Internet. SEconsistsof 3modules: information collecting, index building and information retrieving mo
3、dule. There are several kinds of SE, the WEB SE and are favorite tools among them for end users. Usually,most WEB SEsdo not work well on far as the informationscale on servers, the small than the web servers. Thus the cost of investment and maintenance on hardware is far less than the WEBsearch engi
4、nes.Aiming at the issues on searching efficiency and searching rate of engines, the thesis analyzes the existing technologies, and thendescribes the implementationof spider module and index modulein detail.The thesis analyzes the background and significance of engines atfirst.Then, the key technique
5、s on spider and index are detailed discussedin the 3rd and 4th chapter. It includes how to scan the appointed network-zone, how to extract the from the binary data-stream, as well as how to build the index database. Besidesanalyzes the difficulties while scanningand index-building, the thesis presen
6、ts some feasible solutions at last.【 Key Words】 EngineWeb SpiderIndex目錄摘要 IAbstractI前言 1 TOC o 1-5 h z HYPERLINK l bookmark6 o Current Document 系統(tǒng)技術(shù)及運(yùn)行環(huán)境2 HYPERLINK l bookmark8 o Current Document 硬件環(huán)境2 HYPERLINK l bookmark10 o Current Document 軟件環(huán)境2 HYPERLINK l bookmark16 o Current Document 運(yùn)行環(huán)境2 HY
7、PERLINK l bookmark22 o Current Document 三味書(shū)屋圖書(shū)庫(kù)存管理系統(tǒng)系統(tǒng)分析3需求分析3識(shí)別實(shí)體5 HYPERLINK l bookmark27 o Current Document 三味書(shū)屋圖書(shū)庫(kù)存管理系統(tǒng)總體設(shè)計(jì)5系統(tǒng)架構(gòu)層次的劃分5工作流程圖 5 HYPERLINK l bookmark29 o Current Document 各構(gòu)件及各層次實(shí)現(xiàn)5設(shè)計(jì)和開(kāi)發(fā)流程5數(shù)據(jù)庫(kù)設(shè)計(jì)5數(shù)據(jù)庫(kù)表設(shè)計(jì)5數(shù)據(jù)庫(kù)功能模塊5 HYPERLINK l bookmark31 o Current Document 三味書(shū)屋圖書(shū)庫(kù)存管理系統(tǒng)詳細(xì)設(shè)計(jì)5系統(tǒng)主界面5登錄模塊 5用戶
8、模塊 5查詢訂單 5下單 5 TOC o 1-5 h z 管理員模塊6管理員系統(tǒng)主界面6書(shū)籍管理模塊6庫(kù)存管理模塊6訂單處理6入庫(kù)管理62 開(kāi)發(fā)環(huán)境和結(jié)論錯(cuò)誤 ! 未定義書(shū)簽。硬件環(huán)境錯(cuò)誤!未定義書(shū)簽。軟件環(huán)境錯(cuò)誤!未定義書(shū)簽。運(yùn)行環(huán)境錯(cuò)誤!未定義書(shū)簽。總結(jié) 6致謝 7參考文獻(xiàn) 8刖百21 世紀(jì)是個(gè)信息化的時(shí)代,現(xiàn)代計(jì)算機(jī)技術(shù)的突飛猛進(jìn),為各行各業(yè)的發(fā)展創(chuàng)造了一個(gè)全新的時(shí)代背景。 人們的生活、 工作等已經(jīng)越來(lái)越離不開(kāi)計(jì)算機(jī)科學(xué)的運(yùn)用, 而 Internet 的應(yīng)用加速了這種趨勢(shì)。 隨著全球經(jīng)濟(jì)一體化步伐的加快,在信息時(shí)代的今天, 各企業(yè)商家所關(guān)心的不再局限于自身的產(chǎn)品質(zhì)量、 生產(chǎn)設(shè)備、員工的素
9、質(zhì),更多的是關(guān)心自己的銷售群體(客戶群) ,關(guān)心他們的想法、需求、購(gòu)買目的。 基于網(wǎng)絡(luò)的圖書(shū)系統(tǒng)的存在給予廣大用戶能不出門也能買到書(shū), 搜索到自己想要的書(shū)籍, 方便了管理員的管理和客戶的信息及時(shí)反饋。 隨著網(wǎng)站的大規(guī)?;?,它的存在就成為互聯(lián)網(wǎng)生活中不可缺少的一部分。本系統(tǒng)主要采用ASPNET,開(kāi)發(fā)語(yǔ)言為C#,主要實(shí)現(xiàn)的是訂單查詢,模擬購(gòu)物下單,書(shū)籍管理等功能,由于水平有限,很多地方做的還不是很好,有待以后加以改進(jìn)加強(qiáng)。在下面的各章節(jié)中,我將詳細(xì)的介紹三味書(shū)屋圖書(shū)管理系統(tǒng)BookShopSystemlS勺開(kāi)發(fā)過(guò)程和所涉及的問(wèn)題以及解決方法。系統(tǒng)技術(shù)及運(yùn)行環(huán)境硬件環(huán)境處理器: Intel(R) C
10、ore(TM) i5 CPU M480內(nèi)存(RAM) : 2GB軟件環(huán)境操作系統(tǒng):Windows XP sp3系統(tǒng)類型:32 位操作系統(tǒng)編程語(yǔ)言:C#開(kāi)發(fā)工具:VisualStudio 2008 專業(yè)版ASPNET 簡(jiǎn)介1.2.2Visual Studio 2008 簡(jiǎn)介運(yùn)行環(huán)境軟件要求: Windows XP (須安裝 Microsoft .NET Framework SDK, Windows 7( Microsoft .NET Framework SD)K,硬件要求:CPU : Intel Pentium IV (或更高) 內(nèi)存:512MB (或更高運(yùn)行結(jié)果經(jīng)過(guò)多次的測(cè)試, 該程序能夠?qū)崿F(xiàn)
11、任務(wù)書(shū)要求的功能, 基本滿足三味書(shū)屋圖 書(shū)庫(kù)存管理整體要求。存在的問(wèn)題和不足由于在設(shè)計(jì)之初考慮不足,前期編寫(xiě)的大量核心代碼書(shū)寫(xiě)格式不規(guī)范, 優(yōu)化 不好。造成在后期修改時(shí)需要改動(dòng)大量的核心代碼, 編碼和調(diào)試的時(shí)間均不充足。 造成程序運(yùn)行的效率不高。在以后的設(shè)計(jì)中對(duì)這類問(wèn)題應(yīng)該盡可能的避免。2三味書(shū)屋圖書(shū)庫(kù)存管理系統(tǒng)系統(tǒng)分析需求分析網(wǎng)上書(shū)店系統(tǒng)為用戶提供一系列網(wǎng)上購(gòu)書(shū)服務(wù)。系統(tǒng)包含兩類用戶,即管理員和普通用戶。針對(duì)這兩類用戶,系統(tǒng)根據(jù)登錄 時(shí)的角色判斷,跳轉(zhuǎn)到相應(yīng)的頁(yè)面為其提供操作。三味書(shū)屋圖書(shū)管理系統(tǒng)主要針 對(duì)的是后臺(tái)圖書(shū)的管理,普通用戶模塊只實(shí)現(xiàn)了模擬購(gòu)物車的功能, 包括對(duì)訂單 的查詢和下訂單
12、。管理員模塊負(fù)責(zé)整個(gè)系統(tǒng)的運(yùn)行與維護(hù),針對(duì)圖書(shū)執(zhí)行查詢、添加、刪除、 修改操作,針對(duì)庫(kù)存管理,有各種明細(xì)查詢和統(tǒng)計(jì)查詢,對(duì)出庫(kù)訂單的處理,入 庫(kù)的處理。管理員和普通用戶的功能模塊圖如下:三味書(shū)屋圖書(shū)管理系統(tǒng)管理員識(shí)別實(shí)體三味書(shū)屋圖書(shū)庫(kù)存管理系統(tǒng)總體設(shè)計(jì)系統(tǒng) 架構(gòu)層次的劃分工作流程圖各構(gòu)件及各層次實(shí)現(xiàn)設(shè)計(jì)和開(kāi)發(fā)流程數(shù)據(jù)庫(kù)設(shè)計(jì)數(shù)據(jù)庫(kù)表設(shè)計(jì)數(shù)據(jù)庫(kù)功能模塊三味書(shū)屋圖書(shū)庫(kù)存管理系統(tǒng)詳細(xì)設(shè)計(jì)系統(tǒng)主界面登錄模塊用戶模塊查詢訂單下單管理員模塊管理員系統(tǒng)主界面書(shū)籍管理模塊庫(kù)存管理模塊訂單處理入庫(kù)管理總結(jié)此次畢業(yè)設(shè)計(jì)的題目在此之前雖然有所了解, 但是我卻從來(lái)也沒(méi)有深入的學(xué)習(xí)思考搜索引擎爬蟲(chóng)模塊的實(shí)現(xiàn)方式,如何從浩
13、如煙海的站點(diǎn)中找到提供FTP服務(wù)的站點(diǎn),F(xiàn)TP站點(diǎn)如何匿名登錄等等一系列的問(wèn)題在此之前,都沒(méi)有進(jìn)行系統(tǒng)的了解。 因此, 在本次畢業(yè)設(shè)計(jì)開(kāi)始時(shí), 我也曾懷疑自己能否順利的完成此次畢業(yè)設(shè)計(jì)。 畢竟平時(shí)一直認(rèn)為網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)都是一些高手才能實(shí)現(xiàn)的, 而我自己 僅僅是一個(gè)在校的大學(xué)生。然而通過(guò)網(wǎng)上查閱資料和查看劉老師提供的資料, 漸漸發(fā)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)其實(shí)并沒(méi)有自己想象中那么神秘,經(jīng)過(guò)自己的不斷學(xué)習(xí)和摸索以及劉老師耐性的指導(dǎo),F(xiàn)TP搜索引擎爬蟲(chóng)模塊的框架漸漸在我的腦海中清晰起來(lái),如何獲取FTP站點(diǎn)地址,如何從FTP站點(diǎn)獲取文件,如何實(shí)現(xiàn)Linux和Windows下FTP站點(diǎn)的兼容, 甚至如何利用IIS和Se
14、rv-U配置一個(gè)自己的FTP站點(diǎn),這些問(wèn)題一個(gè)一個(gè)被解決。 從最初的實(shí)現(xiàn)功能到后來(lái)的完善功能, 在這個(gè)過(guò)程中自己不斷的學(xué)習(xí)和成長(zhǎng), 直 到后來(lái), 發(fā)現(xiàn)一個(gè)基本的網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)其實(shí)并不困難, 難的是如何讓這個(gè)網(wǎng)絡(luò)爬蟲(chóng)能夠高效率并且穩(wěn)定的工作。對(duì)于各個(gè)FTP服務(wù)器的兼容也是一個(gè)巨大的困 難,這些在設(shè)計(jì)之初,都是被我忽略的細(xì)節(jié)。總的來(lái)說(shuō), 這次畢業(yè)設(shè)計(jì)完成之后, 不但學(xué)到了書(shū)本以外的知識(shí), 而且還增長(zhǎng)了自己發(fā)現(xiàn)問(wèn)題解決問(wèn)題的能力, 同時(shí)也提高了團(tuán)隊(duì)合作的意識(shí), 對(duì)以后的工作和生活將起來(lái)很大的作用,對(duì)于所做任務(wù)網(wǎng)絡(luò)爬蟲(chóng)的認(rèn)識(shí)也有了很大的提高,已經(jīng)做到了不再糾結(jié)于如何去實(shí)現(xiàn)它, 而是在思考如何能夠?qū)ζ湓?/p>
15、有基本功能的 基礎(chǔ)上進(jìn)行改進(jìn)。致謝在劉老師的耐心指導(dǎo)下, 經(jīng)過(guò)長(zhǎng)三個(gè)月的漫長(zhǎng)實(shí)踐, 我順利的完成了這次畢業(yè)設(shè)計(jì)任務(wù)。 劉老師倡導(dǎo)我們的獨(dú)立思考, 不懂的問(wèn)題自己親自動(dòng)手查資料, 實(shí)在是解決不了的問(wèn)他會(huì)細(xì)心耐心的給我們講解。 劉老師在這段時(shí)間給予了我很大的幫助, 使我得到很大的提高, 這些對(duì)于我以后的工作和學(xué)習(xí)都是一種巨大的幫助, 感謝他耐心的輔導(dǎo)。 在本次畢業(yè)設(shè)計(jì)中, 我從對(duì)任務(wù)書(shū)上的要求完全陌生到最后能夠的完成本次畢業(yè)設(shè)計(jì),讓我體會(huì)到不懂不會(huì)并不可怕,通過(guò)自我學(xué)習(xí),我們已經(jīng)能夠解決一些我們現(xiàn)在不會(huì)的問(wèn)題。 這次畢業(yè)設(shè)計(jì)對(duì)我的自學(xué)能力也是一個(gè)驗(yàn)證, 大學(xué)四年, 最大的收獲就是老師培養(yǎng)了我們自我
16、的學(xué)習(xí)的能力, 在此 對(duì)老師們表示感謝。同樣,F(xiàn)TP搜索引擎由多個(gè)同學(xué)協(xié)同完成,沒(méi)有這個(gè)團(tuán)隊(duì)的協(xié)作,最終也不 能完成本次設(shè)計(jì),在這里也對(duì)在本次設(shè)計(jì)中給與我?guī)椭凸膭?lì)的同學(xué)表示感謝。參考文獻(xiàn)1馬瑞新編著 .NET2.0實(shí)訓(xùn)教程大連理工大學(xué)出版社2006年12月第一版2吳晨、王春霞編著ASP.NET 2.0數(shù)據(jù)庫(kù)項(xiàng)目案例導(dǎo)航清華大學(xué)出版社2007 年 10 月第一版3李玉林、王巖編著ASP.NET 2.0 網(wǎng)絡(luò)編程從入門到精通清華大學(xué)出版社2006 年 9 月第一版4李嚴(yán),于亞芳,王國(guó)輝等.AS啜據(jù)庫(kù)開(kāi)發(fā)實(shí)例解析.北京:機(jī)械工業(yè)出版社, 20045李俊民,高春燕等.Access數(shù)據(jù)庫(kù)開(kāi)發(fā)實(shí)例解析.北京:機(jī)械工業(yè)出版社,20066陳冠軍 .精通 ASP.NET 2.0典型模塊設(shè)計(jì)與實(shí)現(xiàn). 北京:人民郵電出版社, 20067頊宇峰,馬軍.ASP網(wǎng)絡(luò)編程從入門到精通.北京:清華大學(xué)出版社,20068孟憲會(huì),張慧妍.ASENET2.0應(yīng)用開(kāi)發(fā)技術(shù).北京:人民郵電出版社,20069梁建全,宋修舵,孫強(qiáng) 等.專家門診一ASPNET開(kāi)發(fā)答疑200問(wèn).北京:人民郵電出版社, 200410王國(guó)輝,牛強(qiáng),李南南等.ASP工程應(yīng)用與項(xiàng)目實(shí)踐.北京:機(jī)械工業(yè)出版社,200511郝剛主
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 守時(shí)保證書(shū)我的責(zé)任承諾3篇
- 家庭責(zé)任關(guān)愛(ài)長(zhǎng)輩2篇
- 公司營(yíng)業(yè)執(zhí)照轉(zhuǎn)讓協(xié)議書(shū)范本3篇
- 工程量增加補(bǔ)充合同協(xié)議范本3篇
- 保證書(shū)法律效力解讀3篇
- 代辦委托書(shū)格式說(shuō)明3篇
- 化學(xué)分析項(xiàng)目研究框架3篇
- 粘土磚瓦生產(chǎn)環(huán)境治理考核試卷
- 塑膠跑道對(duì)運(yùn)動(dòng)舒適性的影響評(píng)估考核試卷
- 珠寶首飾行業(yè)供應(yīng)鏈金融知識(shí)考核試卷
- MOOC 國(guó)情分析與商業(yè)設(shè)計(jì)-暨南大學(xué) 中國(guó)大學(xué)慕課答案
- MOOC 大學(xué)體育-華中科技大學(xué) 中國(guó)大學(xué)慕課答案
- 《光伏發(fā)電工程工程量清單計(jì)價(jià)規(guī)范》
- 國(guó)家衛(wèi)生部《綜合醫(yī)院分級(jí)管理標(biāo)準(zhǔn)》
- DB64++1996-2024+燃煤電廠大氣污染物排放標(biāo)準(zhǔn)
- 初中八年級(jí)數(shù)學(xué)課件-最短路徑-將軍飲馬問(wèn)題
- 信息論與編碼期末考試題(全套)
- 醫(yī)院醫(yī)學(xué)倫理審查委員會(huì)章程
- 房地產(chǎn)銷售價(jià)格優(yōu)惠申請(qǐng)表-
- 綠化自動(dòng)滴灌系統(tǒng)施工方案
- 處理突發(fā)事件流程圖
評(píng)論
0/150
提交評(píng)論