安徽大學(xué)人工智能期末論文

上傳人：5*** IP屬地：天津上傳時(shí)間：2023-09-10 格式：DOCX 頁(yè)數(shù)：5 大?。?3.93KB 積分：12 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

題目：網(wǎng)絡(luò)信息的智能化檢索姓名：XXX學(xué)號(hào)：XXXXXXXX日期：2013/12/19網(wǎng)絡(luò)信息的智能化檢索【摘要】計(jì)算機(jī)網(wǎng)絡(luò)特別是Internet的一個(gè)重要作用就是信息資源的共享和交流，所以，網(wǎng)上信息發(fā)布和信息檢索就是網(wǎng)絡(luò)應(yīng)用的主要內(nèi)容。隨著Internet的飛速發(fā)展，網(wǎng)上的站點(diǎn)越來(lái)越多，信息量也越來(lái)越大，如何使需求者從浩如煙海的網(wǎng)上信息中快速、準(zhǔn)確地找到自己所需的信息，已成為網(wǎng)絡(luò)信息檢索技術(shù)的重要課題。［1］【關(guān)鍵詞】網(wǎng)絡(luò)信息檢索，智能搜索引擎，智能信息檢索【引言】網(wǎng)絡(luò)信息資源急劇增長(zhǎng)，信息的組織形式也多種多樣，呈現(xiàn)出非規(guī)范、開(kāi)放、無(wú)序、分散等特點(diǎn)，網(wǎng)絡(luò)信息資源又具有高度的動(dòng)態(tài)性，信息的發(fā)布有很大的隨意性，故死連接或不可得到的網(wǎng)頁(yè)連接經(jīng)常出現(xiàn)在檢索列表中。如何合理有效地對(duì)各類(lèi)海量數(shù)字信息進(jìn)行組織、檢索、訪問(wèn)和利用，如何有效利用互聯(lián)網(wǎng)的優(yōu)勢(shì)向用戶(hù)提供高質(zhì)量的數(shù)字信息服務(wù)，已成為亟待解決的問(wèn)題。［2］1、智能搜索引擎對(duì)于一個(gè)搜索引擎來(lái)說(shuō)，信息查全率和查準(zhǔn)率的意義是不言而喻的。那么，怎樣提高搜索引擎的信息查全率和查準(zhǔn)率呢？唯一的選擇就是引入智能技術(shù)，即變?nèi)斯に阉饕鏋橹悄芩阉饕?。一方面，為搜索引擎配置信息搜索程序，讓其自?dòng)尋找、發(fā)現(xiàn)網(wǎng)絡(luò)上新出現(xiàn)的信息（網(wǎng)站、網(wǎng)頁(yè)和新聞組等），并對(duì)其進(jìn)行自動(dòng)分類(lèi)、自動(dòng)索引和自動(dòng)摘要，并將分類(lèi)或索引結(jié)果加入到搜索引擎（數(shù)據(jù)庫(kù)）之中。這樣，將有效提高搜索引擎的信息查全率。另一方面，為搜索引擎設(shè)計(jì)更強(qiáng)的信息檢索功能，如模糊檢索、概念檢索等。這類(lèi)檢索技術(shù)能夠?qū)τ脩?hù)提供的關(guān)鍵詞進(jìn)行分析和理解，實(shí)現(xiàn)語(yǔ)義級(jí)而不僅僅是語(yǔ)法級(jí)的檢索，從而提高查準(zhǔn)率。當(dāng)然，最好的查詢(xún)方式莫過(guò)于自然語(yǔ)言查詢(xún)。所以，自然語(yǔ)言查詢(xún)接口將是提高搜索引擎查詢(xún)效果和效率的最佳技術(shù)?？梢钥闯?，智能搜索引擎的關(guān)鍵技術(shù)是自然語(yǔ)言處理和理解，包括自動(dòng)分詞、自動(dòng)句法分析、自動(dòng)關(guān)鍵詞提取、自動(dòng)文摘、自動(dòng)分類(lèi)、自動(dòng)索引和模糊檢索、概念檢索等。［3］2、基于Agent的網(wǎng)上信息查詢(xún)Agent不僅在網(wǎng)絡(luò)管理和控制方面發(fā)揮作用，也可以在網(wǎng)上信息查詢(xún)方面大顯身手。網(wǎng)上信息查詢(xún)Agent可以根據(jù)檢索者事先定義的信息檢索要求，在網(wǎng)上實(shí)時(shí)監(jiān)視信息源的動(dòng)態(tài)，及時(shí)獲取所需信息，并將其提供給檢索者。另外，還可以建立基于Agent的搜索引擎，從而進(jìn)一步提高智能搜索引擎的智能水平。［3］3、智能信息檢索系統(tǒng)3.1基于本體的智能信息檢索系統(tǒng)的構(gòu)建要實(shí)現(xiàn)基于本體的智能信息檢索，首先必須借助OWL、DAML+OIL等本體描述語(yǔ)言對(duì)應(yīng)用領(lǐng)域進(jìn)行形式化的、明確的描述，對(duì)應(yīng)用領(lǐng)域資源信息的屬性和聯(lián)系進(jìn)行定義，建立起該領(lǐng)域的本體模型，建立領(lǐng)域本體。3.1.1本體的概念及其構(gòu)造方法本體是概念化的明確解釋或表示［4］，這是目前比較認(rèn)同的本體定義。本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí)，提供對(duì)該領(lǐng)域知識(shí)的共同理解，確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯，并從不同層次的形式化模式上給出這些詞匯（術(shù)語(yǔ)）或詞匯之間相互關(guān)系的明確定義。一般而言，一個(gè)本體由以下幾個(gè)方面構(gòu)成：該領(lǐng)域?qū)ο箢?lèi)的層次體系、對(duì)象類(lèi)的屬性及屬性的取值范圍、對(duì)象之間除層次關(guān)系之外其它的語(yǔ)義關(guān)系、一定的推理規(guī)則即公理。本體有5個(gè)建模基元：類(lèi)、關(guān)系、函數(shù)、公理和實(shí)例，以此來(lái)嚴(yán)格且準(zhǔn)確地刻畫(huà)所描述的對(duì)象。建立本體時(shí)必須有領(lǐng)域?qū)＜液椭R(shí)工程師的參與，并且它是一個(gè)漫長(zhǎng)的且枯燥乏味的手工過(guò)程。Ontology可以用表示概念的節(jié)點(diǎn)組成的有向圖表示，將概念分成3個(gè)方面：對(duì)象、事件、屬性，節(jié)點(diǎn)間的連線表示概念間的關(guān)聯(lián)。建立本體時(shí)需要確定本體所覆蓋的范圍，考慮重用現(xiàn)有的本體；列舉重要術(shù)語(yǔ)(概念)，給出明確定義，明確概念和概念之間的關(guān)系(如基本關(guān)系is-a,part-of等)，定義重要術(shù)語(yǔ)的屬性和性質(zhì)。本體的構(gòu)造方法可分為以下5個(gè)步驟［5］：確定本體論應(yīng)用的目的和范圍：這是建立本體的第一步，也就是所研究的領(lǐng)域或任務(wù)，建立相應(yīng)的領(lǐng)域本體論或過(guò)程本體，領(lǐng)域越大，所建本體就越大，因此需限制研究的范圍。本體分析：定義本體所有術(shù)語(yǔ)的意義及其之間的關(guān)系，該步驟需要領(lǐng)域?qū)＜业膮⑴c，專(zhuān)家對(duì)該領(lǐng)域了解越深入，所建本體就越完善。本體表示：一般用語(yǔ)義模型表示本體。本體檢驗(yàn)：建立本體的基本標(biāo)準(zhǔn)是清晰性、一致性、完整性、可擴(kuò)展性。清晰性是本體中的術(shù)語(yǔ)無(wú)歧義地定義；一致性是術(shù)語(yǔ)之間關(guān)系邏輯上應(yīng)一致；完整性是指本體中的概念及其關(guān)系應(yīng)是完整的，應(yīng)包含該領(lǐng)域內(nèi)所有概念，但往往很難達(dá)到，需不斷完善；而可擴(kuò)展性，即本體應(yīng)該能夠擴(kuò)展，在該領(lǐng)域不斷發(fā)展時(shí)能加入新的概念。本體的建立：對(duì)所建立本體應(yīng)按以上標(biāo)準(zhǔn)進(jìn)行檢驗(yàn)，符合要求的可以文件形式存放，否則轉(zhuǎn)⑵。3.1.2基于TSC方法和推理機(jī)的領(lǐng)域本體學(xué)習(xí)和一致性檢測(cè)兩階聚類(lèi)(TSC)方法［6］,用于從中文文檔集中半自動(dòng)化的建立本體并自動(dòng)檢測(cè)本體的一致性。該方法是基于S0M［7］神經(jīng)網(wǎng)絡(luò)和分層聚類(lèi)。在從Web文檔獲取資源的過(guò)程中用到了中文詞匯分析、XML路徑語(yǔ)言。建立兩階聚類(lèi)方法的整體框架如圖2所示。首先，獲取我們想要得到本體的某個(gè)領(lǐng)域的Web文檔。其次，將這些文檔發(fā)送給SOM神經(jīng)網(wǎng)絡(luò)并分類(lèi)。然后，對(duì)于得到的每一種文檔，通過(guò)詞匯分析識(shí)別出每篇文章中的對(duì)象和屬性，通過(guò)使用可擴(kuò)展標(biāo)記語(yǔ)言變換［8］提取結(jié)構(gòu)化的內(nèi)容。根據(jù)個(gè)體間的相關(guān)性建立數(shù)據(jù)矩陣，并計(jì)算每?jī)蓚€(gè)個(gè)體間的歐幾里得距離。通過(guò)使用上面的兩階聚類(lèi)，本體被描述成樹(shù)形，樹(shù)形能反映出父類(lèi)和子類(lèi)間的關(guān)系。子類(lèi)可以表示比父類(lèi)更具體的概念。最后，通過(guò)一個(gè)推理機(jī)來(lái)檢測(cè)本體，如果所建立的本體中有一些不一致的話(huà)，手工修改。3.1.3XML信息表示技術(shù)及通用的元數(shù)據(jù)描述工具RDF(S)可擴(kuò)展標(biāo)記語(yǔ)言(XML)是一種元標(biāo)記語(yǔ)言，是Internet環(huán)境中跨平臺(tái)的、依賴(lài)于內(nèi)容的技術(shù)，是處理分布式結(jié)構(gòu)信息的可選工具。該語(yǔ)言允許開(kāi)發(fā)者隨意定義特殊領(lǐng)域和工作的擴(kuò)展，它基本上用已定義的方式來(lái)為樹(shù)結(jié)構(gòu)提供序列化語(yǔ)法，最終的目標(biāo)是應(yīng)用程序可以直接訪問(wèn)語(yǔ)義網(wǎng)中的數(shù)據(jù)定義［9］。資源描述架構(gòu)(RDF)通過(guò)定義語(yǔ)法協(xié)定和簡(jiǎn)單數(shù)據(jù)模型來(lái)表示機(jī)器可處理的數(shù)據(jù)語(yǔ)義。它是W3C組織開(kāi)發(fā)的Web元數(shù)據(jù)的標(biāo)準(zhǔn)，并且它是基于對(duì)象、屬性和數(shù)值定義的數(shù)據(jù)模型。而RDFS則在豐富的表示形式上更深入了一步，并且把基本的原始建模引入到Web中。在基于Web的條件下，使用RDFS能夠討論類(lèi)或子類(lèi)、屬性或子屬性的領(lǐng)域和范圍約束等資源［9］。采用XML信息表示技術(shù)及通用的元數(shù)據(jù)描述工具RDF(S)，對(duì)網(wǎng)上信息建立規(guī)范化表述，把本體語(yǔ)言定義為RDFS的擴(kuò)展，使得每個(gè)RDFS本體在新語(yǔ)言中都是一個(gè)正確的本體。定義本體語(yǔ)言的擴(kuò)展盡可能的接近RDFS，以便最大程度上復(fù)用現(xiàn)有的基于RDFS的應(yīng)用和工具。通過(guò)使用已經(jīng)建立的領(lǐng)域本體以及采用元數(shù)據(jù)描述工具對(duì)網(wǎng)站信息描述后，使得網(wǎng)站上標(biāo)注的或者未標(biāo)注的信息具有語(yǔ)義和聯(lián)系。如網(wǎng)站按照已經(jīng)定義的本體對(duì)網(wǎng)站上的一篇文獻(xiàn)進(jìn)行規(guī)范化的描述，可對(duì)文獻(xiàn)的外在特征如題目、作者、作者工作單位、專(zhuān)利和科技報(bào)告還有專(zhuān)利號(hào)或報(bào)告號(hào)等進(jìn)行信息抽取，根據(jù)文獻(xiàn)的內(nèi)容特征對(duì)文獻(xiàn)進(jìn)行歸類(lèi)，如按照本體的類(lèi)的層次對(duì)該文獻(xiàn)所屬領(lǐng)域進(jìn)行歸類(lèi)等。通過(guò)利用元數(shù)據(jù)信息和分類(lèi)信息將大大提高信息資源查找效率。3.1.4信息檢索實(shí)現(xiàn)通過(guò)Web服務(wù)器端軟件，為用戶(hù)提供樹(shù)型分類(lèi)目錄以及信息查詢(xún)的界面。采用語(yǔ)義分析相匹配的方法實(shí)現(xiàn)概念檢索，當(dāng)輸入自然語(yǔ)言進(jìn)行檢索時(shí)，分詞處理是關(guān)鍵，主要是獲取分詞結(jié)果中的對(duì)象的語(yǔ)義，在查詢(xún)請(qǐng)求和該對(duì)象在語(yǔ)義內(nèi)容上的匹配和比較的過(guò)程中進(jìn)行判斷，檢索過(guò)程將對(duì)待檢索的對(duì)象進(jìn)行語(yǔ)義分析，并與該對(duì)象所屬分類(lèi)的屬性進(jìn)行比較，得出該對(duì)象的判斷結(jié)果并返回給用戶(hù)?；贠ntology可以將同義詞擴(kuò)展檢索、語(yǔ)義蘊(yùn)涵、外延擴(kuò)展檢索、語(yǔ)義相關(guān)擴(kuò)展檢索等技術(shù)與信息檢索結(jié)合起來(lái)，提供交互式的智能化信息檢索服務(wù)，而信息檢索的結(jié)果(如網(wǎng)頁(yè))可以作為知識(shí)檢索的背景內(nèi)容?；贠ntology的語(yǔ)義檢索的基本思想，可概述如下：在領(lǐng)域?qū)＜业膸椭?，建立相關(guān)的領(lǐng)域本體；收集信息源中的數(shù)據(jù)，并參照已建立的本體把收集來(lái)的數(shù)據(jù)按規(guī)定格式存儲(chǔ)在元數(shù)據(jù)庫(kù)(RIB，KDB等)中；對(duì)用戶(hù)檢索界面獲取的查詢(xún)請(qǐng)求，查詢(xún)轉(zhuǎn)換器按照Ontology把查詢(xún)請(qǐng)求轉(zhuǎn)換成規(guī)定的格式，在Ontology的幫助下從元數(shù)據(jù)庫(kù)中匹配出襯合條件的數(shù)據(jù)集合；檢索的結(jié)果經(jīng)過(guò)定制處理返回給用戶(hù)。4、總結(jié)信息檢索的分布化和網(wǎng)絡(luò)化、開(kāi)放性和集成性要求越來(lái)越高，使得要采用相應(yīng)的信息組織方式和信息檢索技術(shù)來(lái)檢索和整合不同來(lái)源和結(jié)構(gòu)的信息。信息檢索在互聯(lián)網(wǎng)信息日益增長(zhǎng)的情況下起著非常重要的作用。本體論在信息檢索中的應(yīng)用正受到越來(lái)越多的關(guān)注。其中，基于Ontology信息檢索系統(tǒng)模型能夠通過(guò)與本體論的交互，將用戶(hù)提出的檢索要求進(jìn)行語(yǔ)義上的擴(kuò)充，有效地防止了有用信息的丟失，同時(shí)將檢索得來(lái)的原文檔通過(guò)文檔分析器進(jìn)行過(guò)濾，篩選出能更好匹配檢索要求的文檔，增加了檢索結(jié)果的準(zhǔn)確度，使用戶(hù)避免了大量無(wú)用信息的人工篩選。此外，智能搜索引擎和Agent的使用，也大大減少了用戶(hù)對(duì)搜索信息結(jié)果的甄別時(shí)間。這樣，就使德檢索結(jié)果在較大程度上符合用戶(hù)的真正需求。參考文獻(xiàn)：廉師友?人工智能技術(shù)導(dǎo)論(第三版)?西安電子科技大學(xué)出版社,2007.高琳，夏清國(guó),王黎明?基于本體的智能信息檢索系統(tǒng)的構(gòu)建方法[J].計(jì)算機(jī)工程與設(shè)計(jì).2008.12.第29卷24期.廉師友?人工智能技術(shù)導(dǎo)論(第三版)?西安電子科技大學(xué)出版社,2007.GruberTR.Towardprinciplesforthedesignofontologiesusedforknowledgesharing[J].IntJournalofHumanandComputerStudies,1995,43:907-928.⑸董慧.基于本體論和數(shù)字圖書(shū)館的信息檢索[J].情報(bào)學(xué)報(bào),2003,22(6):1-2.BaiXi,SunJigui,LiZehai,etal.DomainontologylearningandconsistencycheckingbasedonTSCapproachandracer[C].Springer-VerlagBerlinHeidelberg,2007:148-162.ZhiqingM,HongcanZ,YihuaZ,etal.Aclusteringalgorithmfor

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

安徽大學(xué)人工智能期末論文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

安徽大學(xué)人工智能期末論文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔