




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、題 目: SVN 文件搜索引擎系統(tǒng)的設(shè)計與實現(xiàn)學(xué)院:學(xué)院專業(yè):工程學(xué)生:學(xué)號: *項目概述:SVN 是一款得到廣泛應(yīng)用的優(yōu)秀的開源版本控制系統(tǒng),能夠極大的方便公司對源代碼的管控,但當(dāng) SVN 上的源代碼文件/文檔數(shù)量很多時,查找特定的文檔將變得非常 ,SVN 本身自帶的搜索功能很難滿足用戶快速、精確的搜索需求。項目 于想在 SVN 上進(jìn)行資源共享 的實現(xiàn),還有公司 SVN 上面文檔代碼文件很多,目前公司需要做一個 SVN 文件搜索引擎系統(tǒng)來方便大家在上面搜索需要的內(nèi)容。本 要求學(xué)生完成對各大開源搜索框架的預(yù)研分析,完成基于合適的框架的 SVN 文件搜索引擎系統(tǒng)的需求分析、系統(tǒng)設(shè)計等,重點研究垂
2、直搜索在該系統(tǒng)的設(shè)計與應(yīng)用;研究中文分詞,歧義識別;研究權(quán)重排序優(yōu)化等重點問題,并提出解決思路,方案。設(shè)計方案:本 SVN 文件搜索引擎系統(tǒng),主要解決用戶搜索 SVN 的內(nèi)容的需求,場景有以下幾個:1.用戶想搜索之前上傳的某個文檔,文檔的名稱大概記得,如:系統(tǒng)需求分析文檔,2.用戶想搜索之前上傳的某個項目相關(guān)的所有文檔,3.用戶想搜索某些內(nèi)容,如用戶想搜索之前寫過的某個函數(shù)等等。由于目前大體需求明確,但是具體的需求沒有明確,所以,該系統(tǒng)考慮采用快速原型的過程模型??焖僭湍P陀址Q原型模型,它是增量模型的另一種形式;它是在開發(fā)真實系統(tǒng)之前,構(gòu)造一個原型,在該原型的基礎(chǔ)上,逐漸完成整個系統(tǒng)的開發(fā)工
3、作。本 SVN 文件搜索引擎系統(tǒng)采用快速原型模型的開發(fā)步驟有如下五個步驟:1. 快速分析階段:與公司分析和用戶配合,迅速確定 SVN 文件搜索引擎系統(tǒng)的基本需求,根據(jù)基本需求描述出系統(tǒng)所要體現(xiàn)的原型特征。2. 構(gòu)建原型階段:在快速分析的基礎(chǔ)上,根據(jù)基本需求(搜索 SVN 的內(nèi)容)說明盡快實現(xiàn)一個可行的系統(tǒng)(搭建好開發(fā)環(huán)境,構(gòu)建整個系統(tǒng)的大體框架,有基本搜索功能)。這里主要考慮原型系統(tǒng)能夠充分反映所要評價的特性,而暫時刪除一切次要內(nèi)容,忽略最終系統(tǒng)在某些細(xì)節(jié)上的要求,如安全性、堅固性、例外處理等等。3. 運(yùn)行原型階段:運(yùn)行原型,發(fā)現(xiàn)問題,消除誤解,和用戶充分協(xié)調(diào)。4. 評價原型階段:在運(yùn)行的基礎(chǔ)
4、上,考核評價原型的特性,分析運(yùn)行效果是否滿足用戶的愿望,糾正過去交互中的誤解與分析中的錯誤,增添新的要求(新的 SVN 文件搜索需求,新的系統(tǒng)需求,如權(quán)限的管理),并滿足因環(huán)境變化或用戶的新想法引起的系統(tǒng)要求變動,提出全面的修改意見。5. 修改階段:根據(jù)評價原型的活動結(jié)果進(jìn)行修改。若原型未滿足需求說明的要求,說明對需求說明存在不一致的理解或?qū)崿F(xiàn)方案不夠合理,則根據(jù)明確的要求迅速修改原型。采用追加策略,先構(gòu)造功能簡單而且質(zhì)量要求不高的模型系統(tǒng),作為最終的,然后通過不斷地擴(kuò)充修改,逐步追加新的要求,最后發(fā)展成為最終系統(tǒng)。本系統(tǒng)主要包含以下幾個模塊:登錄,搜索,數(shù)據(jù)處理,以及管理模塊。搜索模塊包含垂
5、直搜索,熱門搜索,分庫搜索和結(jié)果顯示;垂直搜索分詞按文件類型和按文檔屬性(如需求分析文檔,詳細(xì)設(shè)計文檔等),結(jié)果顯示有分頁,排序,排序則包含權(quán)重設(shè)置;數(shù)據(jù)處理模塊有索引和中文分詞,索引有創(chuàng)建索引和優(yōu)化索引,中文分詞模塊有歧義識別;管理模塊有用戶管理和權(quán)限管理和日志管理。本 SVN 文件搜索引擎系統(tǒng)主要功能結(jié)構(gòu)如下圖:本系統(tǒng)基于 Tomcat + Solr 框架實現(xiàn),結(jié)構(gòu)如下圖:Solr 是一個基于 Lucene 的 Java 搜索引擎服務(wù)器。Solr提供了層面搜索、命中醒目顯示并且支持多種輸出格式(包括 XML/XSLT 和 JSON 格式)。它易于安裝和配置,而且附帶了一個基于 HTTP 的
6、管理界面。Solr 已經(jīng)在眾多大型的中使用,較為成熟和穩(wěn)定。先安裝 tomcat,再在 tomcat 上安裝配置 solr,服務(wù)器搭建完畢,前臺使用 JSP,solr 位于 tomcat 一層,與前臺 JSP(或者使用其他技術(shù)也行)進(jìn)行交互,與數(shù)據(jù)庫進(jìn)行交互。本系統(tǒng)重點研究有如下三點:1.垂直搜索在 SVN 文件搜索引擎的應(yīng)用顯然,如果只是給用戶做通用搜索,那用戶找到自己想要的內(nèi)容還是很費(fèi)勁。垂直搜索特點是細(xì)分,精確,如何做到細(xì)分,精確,即范圍縮小,如何范圍縮小,進(jìn)行分類。垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小。然后將這些數(shù)據(jù)到數(shù)據(jù)庫,進(jìn)行進(jìn)一步的加工處理,把 SVN 的文件按照文檔類型(PDF,exc
7、el,word,psd 等),和文檔屬性(需求分析文檔,詳細(xì)設(shè)計文檔,UI 效果圖等)進(jìn)行分類,去重,最后分詞、索引再以搜索的方式滿足用戶的需求。整個過程中,數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶。讓用戶能夠方便快速地找到自己需要精確信息。2. 中文分詞,歧義識別中文分詞的解決方案采用相對成開源中文分詞框架(直接安裝配置就可以使用)再建立一個概率模型進(jìn)行消歧,分詞所依賴的詞庫也是影響分詞準(zhǔn)確性的一個重要的詞庫也是優(yōu)化方案。,因此尋找或者建立一個好使用開源中文分詞框架 IKyzer, IKyzer 是一個開源的,基于 java 語言開發(fā)的輕量級
8、的中文分詞工具包。消歧的方式有:1)比較有效文本長度 2)比較詞元個數(shù),越少越好 3)路徑跨度越大越好4)根據(jù)統(tǒng)計學(xué)結(jié)論,逆向切分概率高于正向切分,因此位置越靠后的優(yōu)先5)詞長越平均越好。 這些都是人為定的規(guī)則,按照統(tǒng)計方式進(jìn)行消歧。還需要建立一個概率模型,基于此概率統(tǒng)計模型,進(jìn)行消歧,此概率模型來源于SVN 上文檔內(nèi)容的特殊性( 都是些項目相關(guān)的)。例如:大學(xué)生前來報到;有可能分成:大學(xué),生前,來,報到;顯然這里的“生前”是不合適的,那么就要基于概率,把生前踢出去,分成:大學(xué)生,前來,報到。3. 排序優(yōu)化搜索后得到的結(jié)果需要進(jìn)行排序,這樣才能呈現(xiàn)給用戶想要的東西。在 solr 下自定義排序規(guī)
9、則,設(shè)置權(quán)重參照如下規(guī)則:設(shè)置權(quán)重來對排序進(jìn)行優(yōu)化,1)點擊率越高權(quán)重越高文本中出現(xiàn)次數(shù)越高權(quán)重越高密度(Keyword Density)越高權(quán)重越高 4) 出現(xiàn)在文本名權(quán)重高于出現(xiàn)在文本內(nèi)容權(quán)重5) 出現(xiàn)在標(biāo)題的權(quán)于出現(xiàn)在正文的權(quán)限要求學(xué)生完成對 SVN 文件搜索引擎的研究,設(shè)計與實現(xiàn),系統(tǒng)功能完善,滿足用戶需求,解決重點研究問題,系統(tǒng)可拓展。主要參考文獻(xiàn):,基于Nh 和 Solr 的基礎(chǔ)教育垂直搜索引擎的實現(xiàn)J電腦知識與技術(shù) -2012 年 4 期華,基于改進(jìn)最大匹配算法的中文分詞粗分方法J計算機(jī)工程與應(yīng)用 ISTIC PKU -2014 年 2 期,這就是搜索引擎:技術(shù)詳解M 電子工業(yè)2
10、012 年 1 月 1日,搜索引擎M 科學(xué)部年: 2005-4作者: ian H. Witten / Alistair Mot / Timothy C. Bell,深入搜索引擎M 電子工業(yè)年: 2009,Lucene+nh 搜索引擎開發(fā)M 人民郵電年: 2008-8中文分詞中的歧義識別處理策略J微計算機(jī)信息年:-2010 年 30 期中面向信息檢索的自適應(yīng)中文分詞系統(tǒng)J 學(xué)報 ISTIC EI PKU -2006 年 3 期一種基于和分眾分類的信息檢索優(yōu)化方法J理論與實踐PKU CSSCI -2009 年 10 期畢業(yè)設(shè)計()進(jìn)度安排:序號畢業(yè)設(shè)計()各階段內(nèi)容時間安排備注1研究搜索引擎相關(guān)框架,學(xué)習(xí)資料,整理資料2 月 24 日3 月 9日2畢業(yè)設(shè)計任務(wù)書和畢業(yè)設(shè)計開題3 月 9 日3 月 16日3項目代碼的具體編寫與優(yōu)化3 月15 日5 月16日4初稿5 月
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024江蘇皋開投資發(fā)展集團(tuán)有限公司招聘擬錄用人員筆試參考題庫附帶答案詳解
- 線粒體移植延緩衰老的表觀遺傳證據(jù)論文
- 2025年調(diào)酒師職業(yè)資格考試模擬題庫全攻略解析與實戰(zhàn)技巧
- 2025年護(hù)士執(zhí)業(yè)資格考試題庫(外科護(hù)理學(xué)專項)護(hù)理倫理案例分析
- 2025年鄉(xiāng)村醫(yī)生考試題庫:農(nóng)村傳染病防治健康教育策略試題
- 2025年征信考試題庫(個人征信基礎(chǔ))權(quán)威解讀與試題匯編
- 2025年中學(xué)教師資格《綜合素質(zhì)》易錯易混題型練習(xí)試卷
- 2025年注冊會計師考試《會計》特殊業(yè)務(wù)會計處理經(jīng)典題型實戰(zhàn)案例解析模擬試題
- 2025化工原料省間調(diào)撥合同
- 湖南師范大學(xué)樹達(dá)學(xué)院《Python數(shù)據(jù)分析與應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- (一診)2025年蘭州市高三診斷考試生物試卷(含官方答案)
- 2025年吉林司法警官職業(yè)學(xué)院單招職業(yè)傾向性考試題庫必考題
- 光伏發(fā)電項目施工的應(yīng)急預(yù)案與措施
- 畢業(yè)設(shè)計(論文)-護(hù)欄清洗機(jī)設(shè)計
- 2025-2030年中國光學(xué)加工機(jī)械市場運(yùn)行態(tài)勢及發(fā)展趨勢分析報告
- 2025年4月日歷表(含農(nóng)歷-周數(shù)-方便記事備忘)
- 2024年高三班主任畢業(yè)評語15篇
- 2025年中國稀土集團(tuán)招聘筆試參考題庫含答案解析
- photoshop圖形圖像處理-中國院子知到智慧樹章節(jié)測試課后答案2024年秋青島西海岸新區(qū)職業(yè)中等專業(yè)學(xué)校
- 道路勘測設(shè)計-平縱線形組合設(shè)83課件講解
- 中國建筑校招二輪測試題庫
評論
0/150
提交評論