安徽大學(xué)人工智能期末論文_第1頁(yè)
安徽大學(xué)人工智能期末論文_第2頁(yè)
安徽大學(xué)人工智能期末論文_第3頁(yè)
安徽大學(xué)人工智能期末論文_第4頁(yè)
安徽大學(xué)人工智能期末論文_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

題目:網(wǎng)絡(luò)信息的智能化檢索姓名:XXX學(xué)號(hào):XXXXXXXX日期:2013/12/19網(wǎng)絡(luò)信息的智能化檢索【摘要】計(jì)算機(jī)網(wǎng)絡(luò)特別是Internet的一個(gè)重要作用就是信息資源的共享和交流,所以,網(wǎng)上信息發(fā)布和信息檢索就是網(wǎng)絡(luò)應(yīng)用的主要內(nèi)容。隨著Internet的飛速發(fā)展,網(wǎng)上的站點(diǎn)越來(lái)越多,信息量也越來(lái)越大,如何使需求者從浩如煙海的網(wǎng)上信息中快速、準(zhǔn)確地找到自己所需的信息,已成為網(wǎng)絡(luò)信息檢索技術(shù)的重要課題。[1]【關(guān)鍵詞】網(wǎng)絡(luò)信息檢索,智能搜索引擎,智能信息檢索【引言】網(wǎng)絡(luò)信息資源急劇增長(zhǎng),信息的組織形式也多種多樣,呈現(xiàn)出非規(guī)范、開(kāi)放、無(wú)序、分散等特點(diǎn),網(wǎng)絡(luò)信息資源又具有高度的動(dòng)態(tài)性,信息的發(fā)布有很大的隨意性,故死連接或不可得到的網(wǎng)頁(yè)連接經(jīng)常出現(xiàn)在檢索列表中。如何合理有效地對(duì)各類(lèi)海量數(shù)字信息進(jìn)行組織、檢索、訪問(wèn)和利用,如何有效利用互聯(lián)網(wǎng)的優(yōu)勢(shì)向用戶(hù)提供高質(zhì)量的數(shù)字信息服務(wù),已成為亟待解決的問(wèn)題。[2]1、智能搜索引擎對(duì)于一個(gè)搜索引擎來(lái)說(shuō),信息查全率和查準(zhǔn)率的意義是不言而喻的。那么,怎樣提高搜索引擎的信息查全率和查準(zhǔn)率呢?唯一的選擇就是引入智能技術(shù),即變?nèi)斯に阉饕鏋橹悄芩阉饕?。一方面,為搜索引擎配置信息搜索程序,讓其自?dòng)尋找、發(fā)現(xiàn)網(wǎng)絡(luò)上新出現(xiàn)的信息(網(wǎng)站、網(wǎng)頁(yè)和新聞組等),并對(duì)其進(jìn)行自動(dòng)分類(lèi)、自動(dòng)索引和自動(dòng)摘要,并將分類(lèi)或索引結(jié)果加入到搜索引擎(數(shù)據(jù)庫(kù))之中。這樣,將有效提高搜索引擎的信息查全率。另一方面,為搜索引擎設(shè)計(jì)更強(qiáng)的信息檢索功能,如模糊檢索、概念檢索等。這類(lèi)檢索技術(shù)能夠?qū)τ脩?hù)提供的關(guān)鍵詞進(jìn)行分析和理解,實(shí)現(xiàn)語(yǔ)義級(jí)而不僅僅是語(yǔ)法級(jí)的檢索,從而提高查準(zhǔn)率。當(dāng)然,最好的查詢(xún)方式莫過(guò)于自然語(yǔ)言查詢(xún)。所以,自然語(yǔ)言查詢(xún)接口將是提高搜索引擎查詢(xún)效果和效率的最佳技術(shù)??梢钥闯?,智能搜索引擎的關(guān)鍵技術(shù)是自然語(yǔ)言處理和理解,包括自動(dòng)分詞、自動(dòng)句法分析、自動(dòng)關(guān)鍵詞提取、自動(dòng)文摘、自動(dòng)分類(lèi)、自動(dòng)索引和模糊檢索、概念檢索等。[3]2、基于Agent的網(wǎng)上信息查詢(xún)Agent不僅在網(wǎng)絡(luò)管理和控制方面發(fā)揮作用,也可以在網(wǎng)上信息查詢(xún)方面大顯身手。網(wǎng)上信息查詢(xún)Agent可以根據(jù)檢索者事先定義的信息檢索要求,在網(wǎng)上實(shí)時(shí)監(jiān)視信息源的動(dòng)態(tài),及時(shí)獲取所需信息,并將其提供給檢索者。另外,還可以建立基于Agent的搜索引擎,從而進(jìn)一步提高智能搜索引擎的智能水平。[3]3、智能信息檢索系統(tǒng)3.1基于本體的智能信息檢索系統(tǒng)的構(gòu)建要實(shí)現(xiàn)基于本體的智能信息檢索,首先必須借助OWL、DAML+OIL等本體描述語(yǔ)言對(duì)應(yīng)用領(lǐng)域進(jìn)行形式化的、明確的描述,對(duì)應(yīng)用領(lǐng)域資源信息的屬性和聯(lián)系進(jìn)行定義,建立起該領(lǐng)域的本體模型,建立領(lǐng)域本體。3.1.1本體的概念及其構(gòu)造方法本體是概念化的明確解釋或表示[4],這是目前比較認(rèn)同的本體定義。本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞匯(術(shù)語(yǔ))或詞匯之間相互關(guān)系的明確定義。一般而言,一個(gè)本體由以下幾個(gè)方面構(gòu)成:該領(lǐng)域?qū)ο箢?lèi)的層次體系、對(duì)象類(lèi)的屬性及屬性的取值范圍、對(duì)象之間除層次關(guān)系之外其它的語(yǔ)義關(guān)系、一定的推理規(guī)則即公理。本體有5個(gè)建模基元:類(lèi)、關(guān)系、函數(shù)、公理和實(shí)例,以此來(lái)嚴(yán)格且準(zhǔn)確地刻畫(huà)所描述的對(duì)象。建立本體時(shí)必須有領(lǐng)域?qū)<液椭R(shí)工程師的參與,并且它是一個(gè)漫長(zhǎng)的且枯燥乏味的手工過(guò)程。Ontology可以用表示概念的節(jié)點(diǎn)組成的有向圖表示,將概念分成3個(gè)方面:對(duì)象、事件、屬性,節(jié)點(diǎn)間的連線表示概念間的關(guān)聯(lián)。建立本體時(shí)需要確定本體所覆蓋的范圍,考慮重用現(xiàn)有的本體;列舉重要術(shù)語(yǔ)(概念),給出明確定義,明確概念和概念之間的關(guān)系(如基本關(guān)系is-a,part-of等),定義重要術(shù)語(yǔ)的屬性和性質(zhì)。本體的構(gòu)造方法可分為以下5個(gè)步驟[5]:確定本體論應(yīng)用的目的和范圍:這是建立本體的第一步,也就是所研究的領(lǐng)域或任務(wù),建立相應(yīng)的領(lǐng)域本體論或過(guò)程本體,領(lǐng)域越大,所建本體就越大,因此需限制研究的范圍。本體分析:定義本體所有術(shù)語(yǔ)的意義及其之間的關(guān)系,該步驟需要領(lǐng)域?qū)<业膮⑴c,專(zhuān)家對(duì)該領(lǐng)域了解越深入,所建本體就越完善。本體表示:一般用語(yǔ)義模型表示本體。本體檢驗(yàn):建立本體的基本標(biāo)準(zhǔn)是清晰性、一致性、完整性、可擴(kuò)展性。清晰性是本體中的術(shù)語(yǔ)無(wú)歧義地定義;一致性是術(shù)語(yǔ)之間關(guān)系邏輯上應(yīng)一致;完整性是指本體中的概念及其關(guān)系應(yīng)是完整的,應(yīng)包含該領(lǐng)域內(nèi)所有概念,但往往很難達(dá)到,需不斷完善;而可擴(kuò)展性,即本體應(yīng)該能夠擴(kuò)展,在該領(lǐng)域不斷發(fā)展時(shí)能加入新的概念。本體的建立:對(duì)所建立本體應(yīng)按以上標(biāo)準(zhǔn)進(jìn)行檢驗(yàn),符合要求的可以文件形式存放,否則轉(zhuǎn)⑵。3.1.2基于TSC方法和推理機(jī)的領(lǐng)域本體學(xué)習(xí)和一致性檢測(cè)兩階聚類(lèi)(TSC)方法[6],用于從中文文檔集中半自動(dòng)化的建立本體并自動(dòng)檢測(cè)本體的一致性。該方法是基于S0M[7]神經(jīng)網(wǎng)絡(luò)和分層聚類(lèi)。在從Web文檔獲取資源的過(guò)程中用到了中文詞匯分析、XML路徑語(yǔ)言。建立兩階聚類(lèi)方法的整體框架如圖2所示。首先,獲取我們想要得到本體的某個(gè)領(lǐng)域的Web文檔。其次,將這些文檔發(fā)送給SOM神經(jīng)網(wǎng)絡(luò)并分類(lèi)。然后,對(duì)于得到的每一種文檔,通過(guò)詞匯分析識(shí)別出每篇文章中的對(duì)象和屬性,通過(guò)使用可擴(kuò)展標(biāo)記語(yǔ)言變換[8]提取結(jié)構(gòu)化的內(nèi)容。根據(jù)個(gè)體間的相關(guān)性建立數(shù)據(jù)矩陣,并計(jì)算每?jī)蓚€(gè)個(gè)體間的歐幾里得距離。通過(guò)使用上面的兩階聚類(lèi),本體被描述成樹(shù)形,樹(shù)形能反映出父類(lèi)和子類(lèi)間的關(guān)系。子類(lèi)可以表示比父類(lèi)更具體的概念。最后,通過(guò)一個(gè)推理機(jī)來(lái)檢測(cè)本體,如果所建立的本體中有一些不一致的話(huà),手工修改。3.1.3XML信息表示技術(shù)及通用的元數(shù)據(jù)描述工具RDF(S)可擴(kuò)展標(biāo)記語(yǔ)言(XML)是一種元標(biāo)記語(yǔ)言,是Internet環(huán)境中跨平臺(tái)的、依賴(lài)于內(nèi)容的技術(shù),是處理分布式結(jié)構(gòu)信息的可選工具。該語(yǔ)言允許開(kāi)發(fā)者隨意定義特殊領(lǐng)域和工作的擴(kuò)展,它基本上用已定義的方式來(lái)為樹(shù)結(jié)構(gòu)提供序列化語(yǔ)法,最終的目標(biāo)是應(yīng)用程序可以直接訪問(wèn)語(yǔ)義網(wǎng)中的數(shù)據(jù)定義[9]。資源描述架構(gòu)(RDF)通過(guò)定義語(yǔ)法協(xié)定和簡(jiǎn)單數(shù)據(jù)模型來(lái)表示機(jī)器可處理的數(shù)據(jù)語(yǔ)義。它是W3C組織開(kāi)發(fā)的Web元數(shù)據(jù)的標(biāo)準(zhǔn),并且它是基于對(duì)象、屬性和數(shù)值定義的數(shù)據(jù)模型。而RDFS則在豐富的表示形式上更深入了一步,并且把基本的原始建模引入到Web中。在基于Web的條件下,使用RDFS能夠討論類(lèi)或子類(lèi)、屬性或子屬性的領(lǐng)域和范圍約束等資源[9]。采用XML信息表示技術(shù)及通用的元數(shù)據(jù)描述工具RDF(S),對(duì)網(wǎng)上信息建立規(guī)范化表述,把本體語(yǔ)言定義為RDFS的擴(kuò)展,使得每個(gè)RDFS本體在新語(yǔ)言中都是一個(gè)正確的本體。定義本體語(yǔ)言的擴(kuò)展盡可能的接近RDFS,以便最大程度上復(fù)用現(xiàn)有的基于RDFS的應(yīng)用和工具。通過(guò)使用已經(jīng)建立的領(lǐng)域本體以及采用元數(shù)據(jù)描述工具對(duì)網(wǎng)站信息描述后,使得網(wǎng)站上標(biāo)注的或者未標(biāo)注的信息具有語(yǔ)義和聯(lián)系。如網(wǎng)站按照已經(jīng)定義的本體對(duì)網(wǎng)站上的一篇文獻(xiàn)進(jìn)行規(guī)范化的描述,可對(duì)文獻(xiàn)的外在特征如題目、作者、作者工作單位、專(zhuān)利和科技報(bào)告還有專(zhuān)利號(hào)或報(bào)告號(hào)等進(jìn)行信息抽取,根據(jù)文獻(xiàn)的內(nèi)容特征對(duì)文獻(xiàn)進(jìn)行歸類(lèi),如按照本體的類(lèi)的層次對(duì)該文獻(xiàn)所屬領(lǐng)域進(jìn)行歸類(lèi)等。通過(guò)利用元數(shù)據(jù)信息和分類(lèi)信息將大大提高信息資源查找效率。3.1.4信息檢索實(shí)現(xiàn)通過(guò)Web服務(wù)器端軟件,為用戶(hù)提供樹(shù)型分類(lèi)目錄以及信息查詢(xún)的界面。采用語(yǔ)義分析相匹配的方法實(shí)現(xiàn)概念檢索,當(dāng)輸入自然語(yǔ)言進(jìn)行檢索時(shí),分詞處理是關(guān)鍵,主要是獲取分詞結(jié)果中的對(duì)象的語(yǔ)義,在查詢(xún)請(qǐng)求和該對(duì)象在語(yǔ)義內(nèi)容上的匹配和比較的過(guò)程中進(jìn)行判斷,檢索過(guò)程將對(duì)待檢索的對(duì)象進(jìn)行語(yǔ)義分析,并與該對(duì)象所屬分類(lèi)的屬性進(jìn)行比較,得出該對(duì)象的判斷結(jié)果并返回給用戶(hù)?;贠ntology可以將同義詞擴(kuò)展檢索、語(yǔ)義蘊(yùn)涵、外延擴(kuò)展檢索、語(yǔ)義相關(guān)擴(kuò)展檢索等技術(shù)與信息檢索結(jié)合起來(lái),提供交互式的智能化信息檢索服務(wù),而信息檢索的結(jié)果(如網(wǎng)頁(yè))可以作為知識(shí)檢索的背景內(nèi)容?;贠ntology的語(yǔ)義檢索的基本思想,可概述如下:在領(lǐng)域?qū)<业膸椭?,建立相關(guān)的領(lǐng)域本體;收集信息源中的數(shù)據(jù),并參照已建立的本體把收集來(lái)的數(shù)據(jù)按規(guī)定格式存儲(chǔ)在元數(shù)據(jù)庫(kù)(RIB,KDB等)中;對(duì)用戶(hù)檢索界面獲取的查詢(xún)請(qǐng)求,查詢(xún)轉(zhuǎn)換器按照Ontology把查詢(xún)請(qǐng)求轉(zhuǎn)換成規(guī)定的格式,在Ontology的幫助下從元數(shù)據(jù)庫(kù)中匹配出襯合條件的數(shù)據(jù)集合;檢索的結(jié)果經(jīng)過(guò)定制處理返回給用戶(hù)。4、總結(jié)信息檢索的分布化和網(wǎng)絡(luò)化、開(kāi)放性和集成性要求越來(lái)越高,使得要采用相應(yīng)的信息組織方式和信息檢索技術(shù)來(lái)檢索和整合不同來(lái)源和結(jié)構(gòu)的信息。信息檢索在互聯(lián)網(wǎng)信息日益增長(zhǎng)的情況下起著非常重要的作用。本體論在信息檢索中的應(yīng)用正受到越來(lái)越多的關(guān)注。其中,基于Ontology信息檢索系統(tǒng)模型能夠通過(guò)與本體論的交互,將用戶(hù)提出的檢索要求進(jìn)行語(yǔ)義上的擴(kuò)充,有效地防止了有用信息的丟失,同時(shí)將檢索得來(lái)的原文檔通過(guò)文檔分析器進(jìn)行過(guò)濾,篩選出能更好匹配檢索要求的文檔,增加了檢索結(jié)果的準(zhǔn)確度,使用戶(hù)避免了大量無(wú)用信息的人工篩選。此外,智能搜索引擎和Agent的使用,也大大減少了用戶(hù)對(duì)搜索信息結(jié)果的甄別時(shí)間。這樣,就使德檢索結(jié)果在較大程度上符合用戶(hù)的真正需求。參考文獻(xiàn):廉師友?人工智能技術(shù)導(dǎo)論(第三版)?西安電子科技大學(xué)出版社,2007.高琳,夏清國(guó),王黎明?基于本體的智能信息檢索系統(tǒng)的構(gòu)建方法[J].計(jì)算機(jī)工程與設(shè)計(jì).2008.12.第29卷24期.廉師友?人工智能技術(shù)導(dǎo)論(第三版)?西安電子科技大學(xué)出版社,2007.GruberTR.Towardprinciplesforthedesignofontologiesusedforknowledgesharing[J].IntJournalofHumanandComputerStudies,1995,43:907-928.⑸董慧.基于本體論和數(shù)字圖書(shū)館的信息檢索[J].情報(bào)學(xué)報(bào),2003,22(6):1-2.BaiXi,SunJigui,LiZehai,etal.DomainontologylearningandconsistencycheckingbasedonTSCapproachandracer[C].Springer-VerlagBerlinHeidelberg,2007:148-162.ZhiqingM,HongcanZ,YihuaZ,etal.Aclusteringalgorithmfor

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論