




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《絡(luò)息索搜引系開》試考料搜索引擎從互聯(lián)網(wǎng)等信息源中以一定的策略采集所需信息,經(jīng)加工處(如對(duì)網(wǎng)頁進(jìn)行去重處理、抽取信息、索引、生成主題詞標(biāo)引、生成自動(dòng)文摘、信息分類、對(duì)相似網(wǎng)頁進(jìn)行聚類等,將用戶感興趣的內(nèi)容按照一定的規(guī)則排序后,以超鏈等形式提供給用戶的系統(tǒng)。搜索引擎主要包括信息采集、信息加工、信息檢索與檢索結(jié)果提供這幾個(gè)部分搜索引擎類:目索引式搜索引擎、自動(dòng)式搜索引擎、元搜索引擎、分布式搜索引擎useonlyinstudyandresearch;notcommercialuse自動(dòng)搜索擎:利用Robot采集相關(guān)網(wǎng)頁。在進(jìn)信息加工后如:分析頁面內(nèi)容;生成索引
摘要;分類),根據(jù)用戶給出的查詢項(xiàng)進(jìn)行檢索,并將檢索結(jié)果按相關(guān)性排
序(可根據(jù)匹配程度、查詢項(xiàng)出現(xiàn)的位置頻次、網(wǎng)頁鏈接質(zhì)量等)后返回
給用戶。?優(yōu)點(diǎn):自動(dòng)采集,信息量大,更新較及時(shí)。?缺點(diǎn):檢索時(shí)缺乏在語義層次上的深層分析。?準(zhǔn)率查準(zhǔn)率(用來評(píng)價(jià)檢索結(jié)果中有多少文檔是和用戶需求相關(guān)的。查準(zhǔn)率=檢索結(jié)果中和查詢相關(guān)的文檔數(shù)÷檢索結(jié)果中的文檔總數(shù)×?查全率全率:文檔庫中所有相關(guān)文檔中到底有多少被系統(tǒng)檢索出來查全率=檢索結(jié)果中和查詢相關(guān)的文檔數(shù)÷文檔庫中所有和查詢相關(guān)的文檔數(shù)×網(wǎng)絡(luò)信息索的未來:以智能化為核心的智能檢索多媒體信息檢索跨語言檢索個(gè)性化檢索案例檢索
輸入待解決問題的要求、初始條件及其他相關(guān)信息根據(jù)問題要求及初始條件,從案例庫中提取一組與當(dāng)前問題相似的案例從相似的案例中找出最接近當(dāng)前問題的案例,通過對(duì)目標(biāo)方案的修改來解決當(dāng)前問題。問題解決后,當(dāng)前的解即可新的案例存入案例庫中,以備后用頁面遍歷法廣度優(yōu)先:先采集完同一層的網(wǎng)頁,在采集下一層的網(wǎng)頁。深度優(yōu)先:先沿一條路徑采到葉節(jié)點(diǎn),再從同層其他路徑進(jìn)行采集網(wǎng)頁信息取的大致流程1、通過網(wǎng)絡(luò)蜘蛛爬頁面,預(yù)處理后得到純文本頁面信息;2、對(duì)頁面進(jìn)行預(yù)處,去掉、圖片、Flash無關(guān)內(nèi)容;3、找到對(duì)應(yīng)的頭部尾部標(biāo)志,并在其中抽取相應(yīng)的內(nèi)容;4、將抽取到的屬性息存入數(shù)據(jù)表。對(duì)Demo的測(cè)試1、控制臺(tái)方式(1)建立索引。在制臺(tái)cmd方式下輸入,則對(duì)目標(biāo)文件夾(即d:\workshop\docs)下有文件建立索引,同時(shí)在當(dāng)前命令行所在位置將生成文夾。
(2當(dāng)前路徑下找index件夾并進(jìn)行檢索要在存放索引文件的父目錄中執(zhí)行上述語句這時(shí)將會(huì)出“提示符,在其后輸入關(guān)鍵字后回車,即可得到查詢結(jié)果,不支持中文檢索。2、Web方式cmd模下利用帶的Demo指定位置的html文件建立索引并存放在指定的位置。(1)將D:\lucene-,輸入,會(huì)打開自帶的程序。(2)在新建的這個(gè)文件夾下建一件夾,將一些txt、html等型的文件復(fù)制到這個(gè)中。(3)對(duì)指定路徑下文件建立索引。cmd下輸:java
–“D:\eclipse\java\Tomcat5.5\webapps\luceneweb\index”“D:\eclipse\java\Tomcat5.5\webapps\luceneweb\docs”–第一個(gè)參數(shù)是存放索引的目的地,第二個(gè)參數(shù)是存放待索引的文件的源位置(4)為使demo能找到索引文件,需修改Tomcat安裝路徑下的,使之能指向正確的索引位置。修改“”使之指向正確的Index文夾,indexLocation=“..\\webapps\\luceneweb\\index”(5)在運(yùn)行狀態(tài)下,在瀏覽器中輸入,如“++照指定的與關(guān)系來進(jìn)行檢索。Lucene索引和檢索的主要流程步驟1構(gòu)建索引,實(shí)例化IndexWriter在的構(gòu)造函數(shù)中,第一個(gè)參數(shù)是有關(guān)索引位置的,如果采方式,要指定存放索引的位置;第二個(gè)參數(shù)是綁定分析器;第三個(gè)參數(shù)為設(shè)定是否用增量索引為除原目錄中所有內(nèi)容新建索引;false為在原索引上追加索引即增量索引步驟2構(gòu)建Document并創(chuàng)建Field。步驟3調(diào)用IndexWriter實(shí)例的addDocument()方將添加到索引。步驟4實(shí)例化IndexSearcher,構(gòu)建檢索字后可將其交由析處理。具體地,索引和檢索過程中可能涉及的主要代碼如下。(1)構(gòu)建索引:按照某種方式(如FSDirectory方式)指定存放索引位置及使用的分詞分析器后構(gòu)建索引:IndexWriterwriter=newTHnew,true);(2)將指定的Field入索引中:用IndexWriter的addDocument方實(shí)現(xiàn):write.addDocument(bookname);(3)關(guān)閉索引:write.close();(4)構(gòu)建檢索對(duì)象示例代碼:newTH);(5)給出查詢字串示例代碼:String6)指,這要使:QueryParserparser=new(7)指定可能的邏運(yùn)算,如假定采用邏輯“與例代碼:AND_OPERATOR);(8)生成對(duì)象,示例代碼:Queryquery=parse(querystr);(9)得到檢索集,例代碼:Hits(10)顯示檢索結(jié),示例代碼:i<hits.length();{;}網(wǎng)絡(luò)蜘蛛結(jié)構(gòu)和工作流程?結(jié)構(gòu):有下載模塊、鏈接分析模塊和下載控制模塊。?流程:讀取URL口地址表,生成內(nèi)存訪問隊(duì)列。
尋找空閑的HTTP下載模塊,配URL啟動(dòng)下載任務(wù)。下載模塊訪問互聯(lián)網(wǎng),得到網(wǎng)頁內(nèi)容放入結(jié)果隊(duì)列。定期保存到網(wǎng)頁數(shù)據(jù)庫,為后續(xù)索引做好準(zhǔn)備涉及到的要智能化技術(shù)信息采集中的網(wǎng)頁去重研究背景:中的重復(fù)信息高達(dá)30%~45%通過對(duì)網(wǎng)頁進(jìn)行哈希散列實(shí)現(xiàn)對(duì)同源網(wǎng)頁的去重。用主題概念自動(dòng)抽取和計(jì)算網(wǎng)頁間主題概念重合度的方法,實(shí)現(xiàn)對(duì)內(nèi)容相似網(wǎng)頁的聚類。信息的動(dòng)態(tài)采集與更新研究背景:搜索引擎應(yīng)根據(jù)網(wǎng)站內(nèi)容及其更新速度的不同,動(dòng)態(tài)調(diào)整其采集信息頻度。分析了如何有效完成對(duì)網(wǎng)頁的動(dòng)態(tài)采集與更新,并根據(jù)網(wǎng)站的相關(guān)性調(diào)節(jié)信息采集過程。能提高信息采集時(shí)效性,并能較為合理地使用資源。面向自然語言提問的理解與處理研究背景:目前多數(shù)搜索引擎對(duì)用戶提交的常見自然語言提問不能很好理解,一般來說也未能實(shí)現(xiàn)概念檢索。通過定義句模、產(chǎn)生式規(guī)則、使用規(guī)約算法,識(shí)別自然語言提問中的核心檢索項(xiàng),對(duì)提問中包含的概念間的邏輯關(guān)系進(jìn)行初步識(shí)別及有效處理,對(duì)概念間的邏輯優(yōu)先級(jí)進(jìn)行處理。相關(guān)概念反饋及檢索結(jié)果排序研究背景:相關(guān)概念反饋通常能有效擴(kuò)大相關(guān)信息覆蓋面;檢索結(jié)果排序有待改進(jìn)。參照多數(shù)用戶在檢索類似問題時(shí)的經(jīng)驗(yàn),提出一種相關(guān)概念反饋方法;將檢索結(jié)果按其和用戶提問的相關(guān)性排序輸出基于用戶瀏覽歷史的網(wǎng)頁預(yù)取算法研究背景:有效的網(wǎng)頁預(yù)取通??商岣咚阉饕娴奶幚硇屎蛯?shí)現(xiàn)個(gè)性化服務(wù)。算法充分考慮到用戶在特定事件下的歷史瀏覽行為,并通過使用獎(jiǎng)勵(lì)因子和排序方法,使得無須遍歷整個(gè)樹結(jié)構(gòu)就可找到相關(guān)內(nèi)容對(duì)內(nèi)容雷網(wǎng)頁聚類的基本思路按權(quán)值大小從網(wǎng)頁Ui中出權(quán)值最高的前個(gè)主題概念標(biāo)引項(xiàng)集合Ti={ti1,ti2,…,tim}來近似表該網(wǎng)頁的主要內(nèi)容若有網(wǎng)頁UiUj的主題概念標(biāo)引項(xiàng)集合是一樣的,就認(rèn)為它們是內(nèi)容雷同的對(duì)內(nèi)容雷同的網(wǎng)頁進(jìn)行聚類處理在直接檢索結(jié)果頁面中,只顯示時(shí)效性等較高的網(wǎng)頁,而其他聚類結(jié)果則會(huì)在點(diǎn)擊“相關(guān)新聞”后顯示出來。這樣既對(duì)相似網(wǎng)頁進(jìn)行了去重,也可保證相關(guān)信息的查全率,同時(shí)可根據(jù)個(gè)人需要選擇是否顯示出這些相關(guān)聚類結(jié)果基于句模理解與分析1模以能反映檢索句特征的“特征項(xiàng)”為框架、以核心檢索需求為變項(xiàng)的一個(gè)形式化的表述模式。采用句模解析能有效抽取出常見提問句中的核心檢索項(xiàng)。2心檢索項(xiàng)的抽取過程對(duì)號(hào)入座:通過一組數(shù)字序列來標(biāo)識(shí)檢索句對(duì)應(yīng)的句模類型。去偽存真:從句模庫中匹配相應(yīng)的句模,并按照對(duì)應(yīng)的抽取模式抽取核心檢索項(xiàng)。3念處理借助知識(shí)庫進(jìn)行相關(guān)概念的擴(kuò)展與排除。代碼1.
packagetestlucene;;;
;;;;;;;;publicclass{publicstaticvoidmain(String[]args)throwsException{BufferedReaderinputstring=BufferedReader(newInputStreamReader(System.in));(true){LuceneSearchtestnewLuceneSearch();Hits=null;"輸入待檢索的英文單詞,目前尚不支持中文字符的輸入:");line=等待用戶輸入//InputStreamReaderstring=InputStreamReader(System.in,"utf8");//采用指定的編碼集讀入戶輸入的內(nèi)容//BufferedReader=BufferedReader(string);//行為單位讀取內(nèi)容//Stringoutputstring=br.readLine();if(line.length()>0){h=test.search(line);test.printResult(h);}elsebreak;}}public{try{=newIndexSearcher(IndexReader.open(Constants.INDEX_STORE_PATH));}catche){}}//聲明一個(gè)IndexSearcher對(duì)象=null;//聲明一個(gè)Query對(duì)象Query=null;publicfinalsearch(String{"在檢索關(guān)鍵字:"+try{//將關(guān)鍵字包裝成Query對(duì)象="contents",Datestart=newHitshitsDateend=newDate();
newStandardAnalyzer());
2.
"檢索完成,用時(shí)"+(end.getTime()-+毫秒"}catche){null;}}publicvoidh){if(h.length()==0){"對(duì)不起,沒有找到您要結(jié)果。");}else{for(inti=i<h.length();{try{="是第"i+"檢索到的結(jié)果,文件名為:""它的分值是:"+h.score(i)+"\n");}catche){}}}"--------------------------");}packagetestlucene;;;;;;;;;;;;publicclassLuceneIndex{publicstaticvoidmain(String[]args)throwsException{//聲明一個(gè)對(duì)象=newLuceneIndex();//函數(shù)實(shí)現(xiàn)參加下方//建立索引Datestart=new函數(shù)實(shí)現(xiàn)參下方Dateend=newDate();
"立索引用時(shí)"+(end.getTime()-+"毫秒"}public{try{writer=newTH,true);}catche){}}//索引器IndexWriterwriter=null;//將要建立索引的文件構(gòu)造成一個(gè)對(duì)象,并添加一個(gè)域"f)throws{=Document();FileInputStreamnewReaderreader=BufferedReader(newreader));doc.add(Field.Keyword("path",f.getAbsolutePath()));}publicvoidwriteToIndex()Exception{Filefolder=File(Constants.INDEX_FILE_PAif(folder.isDirectory()){files=folder.list();for(inti=i<files.length;i++){File=File(folder,files[i]);=getDocument(file);"在建立索引:"+"");}}}publicvoidException{writer.close();}}1.1搜引擎主要包括與1.2網(wǎng)信息檢索技術(shù)的未來能2.1網(wǎng)信息采集的網(wǎng)頁遍歷算法廣與站采集,全局URL采集)2.2網(wǎng)信息抽取大致有兩種:基于知識(shí)工程的方法和基于機(jī)器學(xué)習(xí)的方法。3.1搜引擎一般是指從因特網(wǎng)等信息源中以一定的策略采集所需信息加處理戶感興趣的內(nèi)容按照一定的規(guī)則排序后,以超鏈接等形式提供給用戶的系統(tǒng)。3.2搜引擎的分類:目錄索引式搜索引擎,自動(dòng)式搜索引擎,元搜索引擎,分布式搜索引擎度,谷歌是自動(dòng)(分布)式
4.1Lucene的測(cè)試環(huán)節(jié)⑴控制臺(tái)方式﹤步驟:立索引。步驟2:在cmd控制臺(tái)上執(zhí)行查詢命令。﹥⑵web方式﹤步驟1:D:\lucene-,新建的luceneweb文件夾下新建一個(gè)件夾,將一些txthtml類型文件復(fù)制到這個(gè)文件夾中。步驟3:對(duì)指定路徑下的文件建立索引。﹥4.2lucene的索引和檢索主要流程:⑴構(gòu)建索引,實(shí)例化IndexWriter。⑵構(gòu)建并創(chuàng)建Field⑶調(diào)用實(shí)例的addDocument()方將加到索引。⑷實(shí)例化IndexSearcher,構(gòu)建檢索字后可將其交由分處理。7.1網(wǎng)蜘蛛段能夠從某些頁面開始用HTTP絡(luò)協(xié)議訪問網(wǎng)頁到網(wǎng)頁中的鏈接地址并通過鏈接地址尋找網(wǎng)頁的程序。7.2網(wǎng)蜘蛛通常被設(shè)計(jì)成隊(duì)列緩沖、多線程并行結(jié)構(gòu)。網(wǎng)絡(luò)蜘蛛具有HTTP下載模塊、鏈接分析模塊和下載控制模塊。7.3網(wǎng)絡(luò)蜘蛛的工作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖南省常德市澧縣2024-2025學(xué)年七年級(jí)上學(xué)期期末生物學(xué)試題(含答案)
- 新時(shí)代農(nóng)業(yè)現(xiàn)代化智能種植技術(shù)的創(chuàng)新與發(fā)展戰(zhàn)略
- 新材料研發(fā)及產(chǎn)業(yè)化應(yīng)用合作協(xié)議
- 云計(jì)算服務(wù)與安全策略解析
- 《先秦諸子哲學(xué)思想比較:大三哲學(xué)文化課教案》
- 養(yǎng)殖業(yè)合作飼養(yǎng)及利潤分配協(xié)議
- 電力工程設(shè)計(jì)與安裝施工合同
- 智能基金投資管理及銷售協(xié)議
- 烏江自刎的英雄故事征文
- 中小學(xué)生科普讀物讀后感
- 2025 春夏·淘寶天貓運(yùn)動(dòng)戶外行業(yè)趨勢(shì)白皮書
- 西門子S7-1200 PLC應(yīng)用技術(shù)項(xiàng)目教程(第3版) 課件 1.認(rèn)識(shí)S7-1200PLC寬屏-(LAD+SCL)
- 《稅法》(第六版)全書教案電子講義
- 翻斗車司機(jī)安全培訓(xùn)
- 計(jì)算機(jī)軟件配置管理計(jì)劃規(guī)范
- 《勞動(dòng)保障監(jiān)察條例》課件
- 中華人民共和國學(xué)前教育法
- 辯論英文課件教學(xué)課件
- 2021年廣東省公務(wù)員錄用考試《行測(cè)》題(鄉(xiāng)鎮(zhèn)卷)【原卷版】
- 2020年全國中學(xué)生生物學(xué)競(jìng)賽聯(lián)賽試題真題(含答案解析)
- 足浴技師與店內(nèi)禁止黃賭毒協(xié)議書范文
評(píng)論
0/150
提交評(píng)論