安徽大學(xué)人工智能期末論文_第1頁
安徽大學(xué)人工智能期末論文_第2頁
安徽大學(xué)人工智能期末論文_第3頁
安徽大學(xué)人工智能期末論文_第4頁
安徽大學(xué)人工智能期末論文_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

題目:網(wǎng)絡(luò)信息的智能化檢索姓名:XXX學(xué)號:XXXXXXXX日期:2013/12/19網(wǎng)絡(luò)信息的智能化檢索【摘要】計算機(jī)網(wǎng)絡(luò)特別是Internet的一個重要作用就是信息資源的共享和交流,所以,網(wǎng)上信息發(fā)布和信息檢索就是網(wǎng)絡(luò)應(yīng)用的主要內(nèi)容。隨著Internet的飛速發(fā)展,網(wǎng)上的站點越來越多,信息量也越來越大,如何使需求者從浩如煙海的網(wǎng)上信息中快速、準(zhǔn)確地找到自己所需的信息,已成為網(wǎng)絡(luò)信息檢索技術(shù)的重要課題。[1]【關(guān)鍵詞】網(wǎng)絡(luò)信息檢索,智能搜索引擎,智能信息檢索【引言】網(wǎng)絡(luò)信息資源急劇增長,信息的組織形式也多種多樣,呈現(xiàn)出非規(guī)范、開放、無序、分散等特點,網(wǎng)絡(luò)信息資源又具有高度的動態(tài)性,信息的發(fā)布有很大的隨意性,故死連接或不可得到的網(wǎng)頁連接經(jīng)常出現(xiàn)在檢索列表中。如何合理有效地對各類海量數(shù)字信息進(jìn)行組織、檢索、訪問和利用,如何有效利用互聯(lián)網(wǎng)的優(yōu)勢向用戶提供高質(zhì)量的數(shù)字信息服務(wù),已成為亟待解決的問題。[2]1、智能搜索引擎對于一個搜索引擎來說,信息查全率和查準(zhǔn)率的意義是不言而喻的。那么,怎樣提高搜索引擎的信息查全率和查準(zhǔn)率呢?唯一的選擇就是引入智能技術(shù),即變?nèi)斯に阉饕鏋橹悄芩阉饕?。一方面,為搜索引擎配置信息搜索程序,讓其自動尋找、發(fā)現(xiàn)網(wǎng)絡(luò)上新出現(xiàn)的信息(網(wǎng)站、網(wǎng)頁和新聞組等),并對其進(jìn)行自動分類、自動索引和自動摘要,并將分類或索引結(jié)果加入到搜索引擎(數(shù)據(jù)庫)之中。這樣,將有效提高搜索引擎的信息查全率。另一方面,為搜索引擎設(shè)計更強(qiáng)的信息檢索功能,如模糊檢索、概念檢索等。這類檢索技術(shù)能夠?qū)τ脩籼峁┑年P(guān)鍵詞進(jìn)行分析和理解,實現(xiàn)語義級而不僅僅是語法級的檢索,從而提高查準(zhǔn)率。當(dāng)然,最好的查詢方式莫過于自然語言查詢。所以,自然語言查詢接口將是提高搜索引擎查詢效果和效率的最佳技術(shù)??梢钥闯?,智能搜索引擎的關(guān)鍵技術(shù)是自然語言處理和理解,包括自動分詞、自動句法分析、自動關(guān)鍵詞提取、自動文摘、自動分類、自動索引和模糊檢索、概念檢索等。[3]2、基于Agent的網(wǎng)上信息查詢Agent不僅在網(wǎng)絡(luò)管理和控制方面發(fā)揮作用,也可以在網(wǎng)上信息查詢方面大顯身手。網(wǎng)上信息查詢Agent可以根據(jù)檢索者事先定義的信息檢索要求,在網(wǎng)上實時監(jiān)視信息源的動態(tài),及時獲取所需信息,并將其提供給檢索者。另外,還可以建立基于Agent的搜索引擎,從而進(jìn)一步提高智能搜索引擎的智能水平。[3]3、智能信息檢索系統(tǒng)3.1基于本體的智能信息檢索系統(tǒng)的構(gòu)建要實現(xiàn)基于本體的智能信息檢索,首先必須借助OWL、DAML+OIL等本體描述語言對應(yīng)用領(lǐng)域進(jìn)行形式化的、明確的描述,對應(yīng)用領(lǐng)域資源信息的屬性和聯(lián)系進(jìn)行定義,建立起該領(lǐng)域的本體模型,建立領(lǐng)域本體。3.1.1本體的概念及其構(gòu)造方法本體是概念化的明確解釋或表示[4],這是目前比較認(rèn)同的本體定義。本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞匯(術(shù)語)或詞匯之間相互關(guān)系的明確定義。一般而言,一個本體由以下幾個方面構(gòu)成:該領(lǐng)域?qū)ο箢惖膶哟误w系、對象類的屬性及屬性的取值范圍、對象之間除層次關(guān)系之外其它的語義關(guān)系、一定的推理規(guī)則即公理。本體有5個建?;侯悺㈥P(guān)系、函數(shù)、公理和實例,以此來嚴(yán)格且準(zhǔn)確地刻畫所描述的對象。建立本體時必須有領(lǐng)域?qū)<液椭R工程師的參與,并且它是一個漫長的且枯燥乏味的手工過程。Ontology可以用表示概念的節(jié)點組成的有向圖表示,將概念分成3個方面:對象、事件、屬性,節(jié)點間的連線表示概念間的關(guān)聯(lián)。建立本體時需要確定本體所覆蓋的范圍,考慮重用現(xiàn)有的本體;列舉重要術(shù)語(概念),給出明確定義,明確概念和概念之間的關(guān)系(如基本關(guān)系is-a,part-of等),定義重要術(shù)語的屬性和性質(zhì)。本體的構(gòu)造方法可分為以下5個步驟[5]:確定本體論應(yīng)用的目的和范圍:這是建立本體的第一步,也就是所研究的領(lǐng)域或任務(wù),建立相應(yīng)的領(lǐng)域本體論或過程本體,領(lǐng)域越大,所建本體就越大,因此需限制研究的范圍。本體分析:定義本體所有術(shù)語的意義及其之間的關(guān)系,該步驟需要領(lǐng)域?qū)<业膮⑴c,專家對該領(lǐng)域了解越深入,所建本體就越完善。本體表示:一般用語義模型表示本體。本體檢驗:建立本體的基本標(biāo)準(zhǔn)是清晰性、一致性、完整性、可擴(kuò)展性。清晰性是本體中的術(shù)語無歧義地定義;一致性是術(shù)語之間關(guān)系邏輯上應(yīng)一致;完整性是指本體中的概念及其關(guān)系應(yīng)是完整的,應(yīng)包含該領(lǐng)域內(nèi)所有概念,但往往很難達(dá)到,需不斷完善;而可擴(kuò)展性,即本體應(yīng)該能夠擴(kuò)展,在該領(lǐng)域不斷發(fā)展時能加入新的概念。本體的建立:對所建立本體應(yīng)按以上標(biāo)準(zhǔn)進(jìn)行檢驗,符合要求的可以文件形式存放,否則轉(zhuǎn)⑵。3.1.2基于TSC方法和推理機(jī)的領(lǐng)域本體學(xué)習(xí)和一致性檢測兩階聚類(TSC)方法[6],用于從中文文檔集中半自動化的建立本體并自動檢測本體的一致性。該方法是基于S0M[7]神經(jīng)網(wǎng)絡(luò)和分層聚類。在從Web文檔獲取資源的過程中用到了中文詞匯分析、XML路徑語言。建立兩階聚類方法的整體框架如圖2所示。首先,獲取我們想要得到本體的某個領(lǐng)域的Web文檔。其次,將這些文檔發(fā)送給SOM神經(jīng)網(wǎng)絡(luò)并分類。然后,對于得到的每一種文檔,通過詞匯分析識別出每篇文章中的對象和屬性,通過使用可擴(kuò)展標(biāo)記語言變換[8]提取結(jié)構(gòu)化的內(nèi)容。根據(jù)個體間的相關(guān)性建立數(shù)據(jù)矩陣,并計算每兩個個體間的歐幾里得距離。通過使用上面的兩階聚類,本體被描述成樹形,樹形能反映出父類和子類間的關(guān)系。子類可以表示比父類更具體的概念。最后,通過一個推理機(jī)來檢測本體,如果所建立的本體中有一些不一致的話,手工修改。3.1.3XML信息表示技術(shù)及通用的元數(shù)據(jù)描述工具RDF(S)可擴(kuò)展標(biāo)記語言(XML)是一種元標(biāo)記語言,是Internet環(huán)境中跨平臺的、依賴于內(nèi)容的技術(shù),是處理分布式結(jié)構(gòu)信息的可選工具。該語言允許開發(fā)者隨意定義特殊領(lǐng)域和工作的擴(kuò)展,它基本上用已定義的方式來為樹結(jié)構(gòu)提供序列化語法,最終的目標(biāo)是應(yīng)用程序可以直接訪問語義網(wǎng)中的數(shù)據(jù)定義[9]。資源描述架構(gòu)(RDF)通過定義語法協(xié)定和簡單數(shù)據(jù)模型來表示機(jī)器可處理的數(shù)據(jù)語義。它是W3C組織開發(fā)的Web元數(shù)據(jù)的標(biāo)準(zhǔn),并且它是基于對象、屬性和數(shù)值定義的數(shù)據(jù)模型。而RDFS則在豐富的表示形式上更深入了一步,并且把基本的原始建模引入到Web中。在基于Web的條件下,使用RDFS能夠討論類或子類、屬性或子屬性的領(lǐng)域和范圍約束等資源[9]。采用XML信息表示技術(shù)及通用的元數(shù)據(jù)描述工具RDF(S),對網(wǎng)上信息建立規(guī)范化表述,把本體語言定義為RDFS的擴(kuò)展,使得每個RDFS本體在新語言中都是一個正確的本體。定義本體語言的擴(kuò)展盡可能的接近RDFS,以便最大程度上復(fù)用現(xiàn)有的基于RDFS的應(yīng)用和工具。通過使用已經(jīng)建立的領(lǐng)域本體以及采用元數(shù)據(jù)描述工具對網(wǎng)站信息描述后,使得網(wǎng)站上標(biāo)注的或者未標(biāo)注的信息具有語義和聯(lián)系。如網(wǎng)站按照已經(jīng)定義的本體對網(wǎng)站上的一篇文獻(xiàn)進(jìn)行規(guī)范化的描述,可對文獻(xiàn)的外在特征如題目、作者、作者工作單位、專利和科技報告還有專利號或報告號等進(jìn)行信息抽取,根據(jù)文獻(xiàn)的內(nèi)容特征對文獻(xiàn)進(jìn)行歸類,如按照本體的類的層次對該文獻(xiàn)所屬領(lǐng)域進(jìn)行歸類等。通過利用元數(shù)據(jù)信息和分類信息將大大提高信息資源查找效率。3.1.4信息檢索實現(xiàn)通過Web服務(wù)器端軟件,為用戶提供樹型分類目錄以及信息查詢的界面。采用語義分析相匹配的方法實現(xiàn)概念檢索,當(dāng)輸入自然語言進(jìn)行檢索時,分詞處理是關(guān)鍵,主要是獲取分詞結(jié)果中的對象的語義,在查詢請求和該對象在語義內(nèi)容上的匹配和比較的過程中進(jìn)行判斷,檢索過程將對待檢索的對象進(jìn)行語義分析,并與該對象所屬分類的屬性進(jìn)行比較,得出該對象的判斷結(jié)果并返回給用戶?;贠ntology可以將同義詞擴(kuò)展檢索、語義蘊(yùn)涵、外延擴(kuò)展檢索、語義相關(guān)擴(kuò)展檢索等技術(shù)與信息檢索結(jié)合起來,提供交互式的智能化信息檢索服務(wù),而信息檢索的結(jié)果(如網(wǎng)頁)可以作為知識檢索的背景內(nèi)容。基于Ontology的語義檢索的基本思想,可概述如下:在領(lǐng)域?qū)<业膸椭拢⑾嚓P(guān)的領(lǐng)域本體;收集信息源中的數(shù)據(jù),并參照已建立的本體把收集來的數(shù)據(jù)按規(guī)定格式存儲在元數(shù)據(jù)庫(RIB,KDB等)中;對用戶檢索界面獲取的查詢請求,查詢轉(zhuǎn)換器按照Ontology把查詢請求轉(zhuǎn)換成規(guī)定的格式,在Ontology的幫助下從元數(shù)據(jù)庫中匹配出襯合條件的數(shù)據(jù)集合;檢索的結(jié)果經(jīng)過定制處理返回給用戶。4、總結(jié)信息檢索的分布化和網(wǎng)絡(luò)化、開放性和集成性要求越來越高,使得要采用相應(yīng)的信息組織方式和信息檢索技術(shù)來檢索和整合不同來源和結(jié)構(gòu)的信息。信息檢索在互聯(lián)網(wǎng)信息日益增長的情況下起著非常重要的作用。本體論在信息檢索中的應(yīng)用正受到越來越多的關(guān)注。其中,基于Ontology信息檢索系統(tǒng)模型能夠通過與本體論的交互,將用戶提出的檢索要求進(jìn)行語義上的擴(kuò)充,有效地防止了有用信息的丟失,同時將檢索得來的原文檔通過文檔分析器進(jìn)行過濾,篩選出能更好匹配檢索要求的文檔,增加了檢索結(jié)果的準(zhǔn)確度,使用戶避免了大量無用信息的人工篩選。此外,智能搜索引擎和Agent的使用,也大大減少了用戶對搜索信息結(jié)果的甄別時間。這樣,就使德檢索結(jié)果在較大程度上符合用戶的真正需求。參考文獻(xiàn):廉師友?人工智能技術(shù)導(dǎo)論(第三版)?西安電子科技大學(xué)出版社,2007.高琳,夏清國,王黎明?基于本體的智能信息檢索系統(tǒng)的構(gòu)建方法[J].計算機(jī)工程與設(shè)計.2008.12.第29卷24期.廉師友?人工智能技術(shù)導(dǎo)論(第三版)?西安電子科技大學(xué)出版社,2007.GruberTR.Towardprinciplesforthedesignofontologiesusedforknowledgesharing[J].IntJournalofHumanandComputerStudies,1995,43:907-928.⑸董慧.基于本體論和數(shù)字圖書館的信息檢索[J].情報學(xué)報,2003,22(6):1-2.BaiXi,SunJigui,LiZehai,etal.DomainontologylearningandconsistencycheckingbasedonTSCapproachandracer[C].Springer-VerlagBerlinHeidelberg,2007:148-162.ZhiqingM,HongcanZ,YihuaZ,etal.Aclusteringalgorithmfor

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論