信息檢索研究現(xiàn)狀

上傳人：d*** IP屬地：天津上傳時間：2022-03-09 格式：DOCX 頁數(shù)：8 大小：152KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、引言信息檢索的目標(biāo)是“所得即所需"WhatyouGetIsWhatYouWant.一個具體的表達(dá)就是：不同的用戶在使用同樣查詢的時候可能獲得不同的結(jié)果；更進(jìn)一步,同一個用戶在不同時間或者不同地點(diǎn)發(fā)出同樣的查詢可能獲得不同的結(jié)果.例如,同一個用戶對“java信息的需求：在工作時間希望得到有關(guān)編程語言java的相關(guān)文檔,在休息時間希望得到有關(guān)java島的旅游信息.為了到達(dá)這樣的目的,檢索系統(tǒng)需要充分地理解并掌握檢索活動的主體用戶和客體資源.面對這樣的挑戰(zhàn),人們一方面在信息資源端做工作,提出了語義網(wǎng)SemanticWeb,也稱為語義Web的概念,使得檢索系統(tǒng)能夠更好地理解內(nèi)容,從而使檢索結(jié)

2、果更符合檢索的條件；另一方面是在用戶端做工作,通過各種手段獲得用戶的特征信息并進(jìn)行用戶建模,使用用戶個性化信息來修正查詢條件,從而改善檢索結(jié)果.這兩個方面的研究對到達(dá)“所得即所需的目標(biāo)起到了很大的推動作用.盡管語義網(wǎng)和用戶建模技術(shù)極大地提升了檢索系統(tǒng)的智能化、個性化水平,但是,人們也已經(jīng)意識到,將資源和用戶分開來考慮,難以到達(dá)“所得即所需的目標(biāo).必須用系統(tǒng)的觀點(diǎn)來看待信息檢索活動,也就是說,用戶檢索的結(jié)果應(yīng)該是特定“環(huán)境下的結(jié)果,這個環(huán)境就是檢索過程的上下文context.考慮了上下文的檢索稱為上下文信息檢ContextualInformationRetrieval,CIR.1上下文信息檢索的

3、概念WordNet是Princeton大學(xué)的心理學(xué)家、語言學(xué)家和計算機(jī)工程師聯(lián)合設(shè)計的一種基于認(rèn)知語言學(xué)的英語詞典.在WordNet2.1中,上下文context被定義如下：1語言學(xué)上下文,即在一個語言單位附近的片斷,用以幫助解釋該語言單位.2環(huán)境,即一種情形或事件發(fā)生于其中的環(huán)境和背景.信息檢索領(lǐng)域中,上下文最初是指“自然語言處理中的文檔片段,專門用于自然語言學(xué)中指代短語或句子在實際應(yīng)用中的語言環(huán)境.它在自然語言處理中的價值表達(dá)在兩個方面：一方面,在自然語言知識獲取的過程中,上下文是知識獲取的來源,在相應(yīng)推理機(jī)制下,上下文本身就是知識；另一方面,在自然語言處理的應(yīng)用問題解決過程中,上下文扮演

4、著解決問題所需信息和資源提供者的重要角色.從20世紀(jì)中期開始開展的信息檢索系統(tǒng),根本上是千人一面onesizefitsall,不同用戶提出同一查詢,得到的答案完全相同.這種模式帶來的最大問題就是不夠人性化,難以準(zhǔn)確地滿足不同用戶的個性化需求.所以,人們最先關(guān)注的是和用戶有關(guān)的上下文,即把用戶有關(guān)的信息引入檢索系統(tǒng)以滿足用戶的“所得即所需.文獻(xiàn)6于2000年總結(jié)的Web搜索中的上下文信息主要包括和用戶查詢意圖以及用戶查詢表達(dá)相關(guān)的信息.文獻(xiàn)7也指出上下文和個性化檢索緊密相關(guān),用來幫助提升用戶檢索體驗,需要理解每一個用戶查找信息的模式習(xí)慣、用戶目標(biāo),以及信息本身.然而,對信息檢索系統(tǒng)而言,可利用的

5、上下文并不僅限于此.2002年9月在MassachusettsAmherst大學(xué)智能信息檢索中央theCenterforIntelligentInformationRetrieval召開的關(guān)于智能信息檢索未來研究方向和開展的研討會上,許多信息檢索領(lǐng)域頂級研究者經(jīng)過討論給出了上下文信息檢索定義8,即：定義1上下文信息檢索,ContextualInformationRetrieval,CIR就是把有關(guān)用戶、查詢的上下文知識和信息檢索技術(shù)融合在一起,統(tǒng)一組織在一個整體框架內(nèi),以向用戶提供最適合用戶需求的檢索信息.隨著人們對CIR的關(guān)注,2003年第12屆TRECTextRetrievalConfer

6、ence國際會議第一次增加了HARD評測HighAccuracyRetrievalfromDocumentsTrack.HARD評測的目的是考察用戶及其相關(guān)信息對檢索過程和檢索結(jié)果評估的影響,即考察信息檢索過程中上下文如用戶地域特點(diǎn)、文檔風(fēng)格等上下文信息對信息檢索性能的影響.2004年第1屆IRiXInformationRetrievalinContext研討會在第27屆SIGIR上舉行,并一舉成為SIGIR2004上參會人數(shù)最多、最受人關(guān)注的研討會.該研討會的總目標(biāo)是如何在信息檢索過程中考慮上下文因素以提升用戶信息需求滿意度.在該研討會上,信息檢索領(lǐng)域中的上下文定義如下.定義2(上下文,Co

7、ntext)信息檢索中的上下文包括一切與檢索查詢相關(guān)的任務(wù)信息、交互歷史信息、用戶信息等明確給出或隱含在檢索交互環(huán)境中的相關(guān)信息.從定義2中可以看出,只要和用戶檢索過程相關(guān)的一切隱含或明確的信息都將是智能個性化信息檢索的上下文,都可能用于優(yōu)化檢索系統(tǒng),提升檢索性能.因此,智能信息檢索的上下文實際上是無所不在,無處不在.事實上,從20世紀(jì)90年代后期以來,圍繞信息檢索、信息推薦等信息效勞系統(tǒng)的上下文的研究就層出不窮,有許多研究成果已經(jīng)成功運(yùn)用在實際系統(tǒng)中來幫助提升效率和性能,如針對用戶興趣的相關(guān)反應(yīng)技術(shù)、針對Web文檔鏈接內(nèi)容的PageRan啦術(shù)、針對用戶訪問歷史記錄的Web日志分析技術(shù)等,并取

8、得了一系列重要成果.這為人們進(jìn)一步挖掘可用上下文以幫助提升檢索效果樹立了信心,指明了方向.在2007年歐洲信息檢索大會上(EuropeanConferenceOnInformationRetrieval,ECIR),Yahoo公司新興搜索技術(shù)(EmergingSearchTechnology)部門的AndreiBroder指出上下文信息不僅在當(dāng)前第三代搜索引擎實現(xiàn)滿足“查詢背后的需求“(theneedbehindthequery)目標(biāo)中起著關(guān)鍵作用,更在未來第四代搜索引擎實現(xiàn)“上下文驅(qū)動的信息推送"(contextdriveninformationsupply)目標(biāo)中占據(jù)主導(dǎo)地位.2

9、CIR中的上下文因素及其分類2.1學(xué)術(shù)界的觀點(diǎn)Pete門ngwersen等人把信息檢索系統(tǒng)中涉及的上下文因素抽象概括為六大因素,表示為一個上下文分層嵌套模型(NestedModelofcontextstratificationforIR),如圖1所示.該模型作者認(rèn)為,傳統(tǒng)信息檢索技術(shù)更多的是關(guān)注檢索對象本身以及檢索對象之間的特征,如詞語、段落以及文檔內(nèi)容的超級鏈接等；如今,信息檢索系統(tǒng)的上下文技術(shù)開始轉(zhuǎn)向用戶檢索對話過程中(session-time)可獲取的上下文信息,如鼠標(biāo)移動、打印保存等操作,即轉(zhuǎn)向從交互式過程中獲取用戶的上下文信息.contextscomcxtsConcfeEmoli&#

10、39;Iah5ytcmjc；1Work(3)Interact(session)context-/二ComponentofcognitiveIS&Rframeworkw(6)yiKtnrydcriiLcxL(5)Exjonurniclectxrto-phys-icalEtndis4glkilinira-stnjeEurs)圖1Pete門ngwersen等人提出的分層嵌套的上下文模型2005年IRiX(InformationRetrievalinContext)研討會上研究者那么把信息檢索中的上下文看作是包含了信息檢索過程中涉及的各種因素的超類,把各種因素不同取值之間的組合看作情景(Sit

11、uation),把每種因素的取值可能性看作是任務(wù)(Task).上下文中包含的因素主要是3個方面的,分別是系統(tǒng)、用戶和環(huán)境.其中每一方面的因素又包含多種因素,如用戶方面包括動機(jī)(Motivation)、知識(Knowledge)歷史(History)和個體差異(Individualdifferences)等,系統(tǒng)方面包括資源(Resource)、檢索模型(RetrievalModel)、設(shè)備(Device)、接口(Interface)等方面.2.2產(chǎn)業(yè)界的觀點(diǎn)AndreiBroder在2007年歐洲I信息檢索大會上強(qiáng)調(diào)了當(dāng)前和未來上下文信息在信息檢索過程中的重要性,指出當(dāng)前第三代檢索技術(shù)是依賴上

12、下文信息滿足查詢背后的需求(theneedbehindthequery),并提出未來第四代檢索技術(shù)需要實現(xiàn)“上下文驅(qū)動的信息推送(contextdriveninformationsupply).同時,他指出第三代搜索引擎中上下文中的決定因素(ContextDetermination)包括空間信息(如userlocal/targetlocation)、查詢信息(如previousqueries)、個人信息(如userprofile)、明確信息(如userchoiceofaverticalsearch)以及潛在信息(如useGooglefromChina,usegoogle)等5種.除了上面學(xué)術(shù)界

13、給出的闡述外,產(chǎn)業(yè)界給出了更為實用的基于上下文的信息檢索的說明.他們把基于上下文的信息檢索看作是由信息檢索領(lǐng)域3種技術(shù)構(gòu)成的三維空間上的一個平面.這3種技術(shù)保證了對上下文信息的獲取和挖掘,如圖2所示.這3種技術(shù)分別是：1)智能的文本挖掘和數(shù)據(jù)挖掘,通過自動文本概念標(biāo)注、模式發(fā)現(xiàn)和實體知識識別等技術(shù)發(fā)現(xiàn)各種可用的信息；2)靈活的內(nèi)容構(gòu)建技術(shù),能從結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)源中發(fā)現(xiàn)獨(dú)立的XML模式和相關(guān)關(guān)聯(lián)；3)高性能的檢索技術(shù),面對超大規(guī)模的數(shù)據(jù)能進(jìn)行迅速和可擴(kuò)展的內(nèi)容處理和檢索.2.3本文的分類觀點(diǎn)縱觀上面的討論,Pete門ngwersen等人的看法層次清楚,抽象意義明顯；2005年IRiX研討會

14、上給出的結(jié)論比擬系統(tǒng)、清楚自然,更便于在實現(xiàn)過程中區(qū)分和理解；AndreiBroder給出的上下文更符合Internet±搜索引擎環(huán)境下的應(yīng)用；而產(chǎn)業(yè)界那么在技術(shù)層面上給出了挖掘應(yīng)用上下文因素的相關(guān)分析.結(jié)合以上討論和上下文信息在信息檢索領(lǐng)域已有的研究成果,本文把人們當(dāng)前比擬關(guān)注的上下文因素根據(jù)信息檢索的邏輯流程分為3個類別,如圖3所示,分別是用戶上下文、文檔上下文和系統(tǒng)上下文.圖3本文對檢索系統(tǒng)中上下文因素的分類1)用戶上下文：檢索系統(tǒng)中圍繞用戶的上下文信息,如用戶的興趣、愛好等,以及用戶的查詢?nèi)罩?、檢索反應(yīng)行為等.用戶上下文提供了理解用戶需求的信息,是現(xiàn)在實現(xiàn)個性化檢索及未來實現(xiàn)

15、上下文驅(qū)動的信息推送效勞的必要條件之一.為了便于詳細(xì)解析和用戶有關(guān)的上下文信息,本文把用戶上下文分為用戶靜態(tài)上下文和檢索任務(wù)上下文兩個類別.用戶靜態(tài)上下文和用戶的專業(yè)背景、工作內(nèi)容、愛好、經(jīng)驗、生活習(xí)慣、理解水平等因素密切相關(guān)；檢索任務(wù)上下文包括檢索任務(wù)的內(nèi)容、特點(diǎn)、發(fā)生時間、作用范圍、發(fā)生背景等方面,一方面反映用戶本次信息需求的內(nèi)容,另一方面反映用戶檢索需求的變化和遷移.用戶靜態(tài)上下文描述了用戶檢索需求的一種長期特點(diǎn),是用戶長期檢索興趣的反映；檢索任務(wù)上下文描述了用戶檢索需求的一種短期特點(diǎn),是用戶短期檢索需求的反映.2)文檔上下文：文檔是指信息檢索的目標(biāo)對象.文檔的內(nèi)容特征、使用范圍、產(chǎn)生的

16、時間和地點(diǎn)以及其它元數(shù)據(jù)(metadata)信息等都屬于文檔上下文.文檔內(nèi)容特征包括文檔的書寫語言、術(shù)語化程度(專業(yè)性程度)、布局特點(diǎn)等因素.除了文檔內(nèi)容外,對Web網(wǎng)頁而言,超鏈分析(linkanalysis)布局分析(blockanalysis)可以較準(zhǔn)確地挖掘出其特征；對Pdf、Word等文檔而言,元數(shù)據(jù)分析、布局分析能更有效地發(fā)現(xiàn)其特點(diǎn).另外,整個文檔集的組織結(jié)構(gòu)、文檔之間的關(guān)系等獨(dú)立于單個文檔之外的信息也屬于文檔上下文的范疇.3)系統(tǒng)上下文：反映了信息檢索系統(tǒng)實現(xiàn)過程中的相關(guān)特征,如采用的索引機(jī)制、檢索模型、檢索界面等.3CIR研究現(xiàn)狀3.1 用戶上下文3.1.1 用戶靜態(tài)上下文用戶

17、靜態(tài)上下文包括用戶的專業(yè)背景、工作內(nèi)容、愛好、經(jīng)驗、生活習(xí)慣、理解水平等各種和用戶個體相關(guān)的許多因素,用戶建模(usermodeling)就是對用戶上下文中的因素進(jìn)行模型表示.當(dāng)前,研究者比擬關(guān)注對用戶上下文中用戶認(rèn)知特點(diǎn)(cognitivecharacteristics)的建模,如興趣、技能、偏好等.隨著近年來語義Web(SemanticWeb)和本體(Ontology)技術(shù)的開展,許多研究紛紛以本體為工具來分析和描述用戶上下文.文獻(xiàn)25在具有層次關(guān)系白輕量級本體ODP(OpenDirectoryProject)上對用戶查詢興趣進(jìn)行擴(kuò)展：把用戶興趣歸納到ODPt的不同類別上,把用戶對某個類別

18、下的實例興趣度的50劾口到其父類別上,到達(dá)由下層到上層對用戶興趣進(jìn)行擴(kuò)展的目的.文獻(xiàn)6提出基于Lycos的目錄層次結(jié)構(gòu)構(gòu)建一個表示用戶興趣的個性化層次樹,以幫助實現(xiàn)Web的個性化瀏覽.文獻(xiàn)把用27戶的研究興趣建立在ODP之上,并通過計算搜索結(jié)果網(wǎng)頁所屬類別和用戶興趣所屬類別之間的語義距離來實現(xiàn)個性化的檢索.這些研究使用的本體大都集中在一些大型的通用本體,所利用的語義關(guān)系大都是父子關(guān)系,還缺乏對本體信息更充分的利用和進(jìn)一步挖掘,如本體上概念之間的關(guān)聯(lián)關(guān)系、建立在更細(xì)粒度上(如領(lǐng)域本體)的分析等.信息檢索系統(tǒng)中常通過用戶描述文件(userprofile)為每個用戶刻畫其用戶特征.用戶描述文件可以表

19、示成加權(quán)向量模型、層次結(jié)構(gòu)模型、加權(quán)語義網(wǎng)模型、書簽和目錄結(jié)構(gòu)等,存儲時可以采用純文本文件、XML文件、關(guān)系數(shù)據(jù)庫、XML數(shù)據(jù)庫等各種形式.獲取用戶上下文最為直接簡單的方法就是由用戶自我提供確認(rèn).系統(tǒng)可以在用戶注冊該系統(tǒng)時獲取相關(guān)的用戶上下文信息,如年齡、專業(yè)、興趣等.NEC研究所(NECResearchInstitute)著名的Inquirus2工程6就是通過用戶手工選擇查詢類別來獲取相應(yīng)的用戶上下文信息；GooglePersonal也是由用戶選擇興趣所屬類別來創(chuàng)立用戶描述文件的.然而,通過許多研究調(diào)查說明人工方式獲得的用戶上下文并不很準(zhǔn)確,原因在于大局部用戶不愿意花費(fèi)精力認(rèn)真準(zhǔn)確地填寫自己

20、的相關(guān)信息.針對許多系統(tǒng)并不能獲得用戶準(zhǔn)確上下文信息的問題,人們提出許多自動獲取方法來獲得用戶靜態(tài)上下文,如相關(guān)反應(yīng)(RelevantFeedback,RF,RF)、機(jī)器學(xué)習(xí)(Machinelearning,ML)、數(shù)據(jù)挖掘(DataMining,DM)等.這些方法通過對用戶操作歷史、用戶訪問過的資源特征、用戶訪問日志等信息的統(tǒng)計分析來獲取某方面的用戶上下文,幫助創(chuàng)立用戶描述文件.例如,文獻(xiàn)12介紹了使用關(guān)聯(lián)規(guī)那么挖掘用戶的Web日志以構(gòu)建用戶的個性化描述文件；WY.Men等人提出根據(jù)用戶的點(diǎn)擊歷史自動把用戶興趣定位到Y(jié)ahoo的某個類別層次上,從而確定用戶的個性化信息；文獻(xiàn)2通過增量式文本挖

21、掘方式(incrementaltextmining)發(fā)現(xiàn)用戶興趣.為了獲取更準(zhǔn)確的用戶上下文信息,這些自動方法或者需要長期用戶的檢索任務(wù)上下文信息,或者需要與用戶上下文人工猶取方式結(jié)合起來.3.1.2 檢索任務(wù)上下文檢索任務(wù)上下文提供圍繞用戶檢索目的的上下文信息,包括檢索任務(wù)的內(nèi)容特點(diǎn)、發(fā)生時間、發(fā)生地點(diǎn)(IP地址)、作用范圍、發(fā)生背景(客戶端背景)、用戶的反應(yīng)信息、響應(yīng)操作等許多因素.根據(jù)這些因素的變化性和復(fù)雜性,我們把檢索任務(wù)上下文分為簡單因素和復(fù)雜因素兩類,兩類因素比擬如表1所列.簡單因素包括用戶提交檢索時可以獲得的一次性數(shù)據(jù),這類數(shù)據(jù)在用戶的一次查詢過程中根本沒有變化,如檢索內(nèi)容、發(fā)生

22、時間、發(fā)生地點(diǎn)、發(fā)生背景等因素.根據(jù)這些簡單因素,結(jié)合文檔集的特點(diǎn),檢索系統(tǒng)可以在第一次返回檢索結(jié)果時向用戶提供更適合其需求的文檔.例如：根據(jù)發(fā)出查詢用戶的IP地址,搜索引擎可以判斷用戶的使用語言偏好以向用戶提供適合用戶語言閱讀的檢索結(jié)果；根據(jù)用戶發(fā)出查詢的時間,例如是在普通工作時間內(nèi)還是在休假時間內(nèi),搜索引擎可以把用戶更滿意的結(jié)果排在前面.Yahoo公司的基于上下文的信息檢索工具Y!Q1首先做到的就是從用戶在Web頁面上選取的上下文中識別出用戶需求并把相關(guān)頁面返回給用戶.復(fù)雜因素是指和用戶進(jìn)行該檢索時對檢索過程和檢索結(jié)果的響應(yīng)相關(guān)的因素,和簡單因素相比,這類數(shù)據(jù)動態(tài)不定,如用戶的反應(yīng)信息、響

23、應(yīng)操作、查詢持續(xù)時間等.根據(jù)復(fù)雜因素,系統(tǒng)可以將反應(yīng)結(jié)果應(yīng)用在用戶查看下一頁的結(jié)果排列上.SteveFox把復(fù)雜因素又劃分為結(jié)果級別(Result-Level)和會話級別(Session-Level),并詳細(xì)列出了每一級別上更為細(xì)致的因素.表1檢索任務(wù)上下文中的簡單因素和復(fù)雜因素的比擬都是圍繞用戶檢索任務(wù)的上卜文信息區(qū)別在用戶的一次查詢過程中基和用戶在檢索過程中的響應(yīng)本沒后義化行為后關(guān),動態(tài)小定具體因檢索內(nèi)容、發(fā)生時間、發(fā)生地用戶的反應(yīng)信息、響應(yīng)操作、素包括查詢持續(xù)時間等復(fù)雜因素與用戶在檢索過程中的響應(yīng)行為有關(guān),而相關(guān)反應(yīng)技術(shù)是獲得這些因素最為重要的方法之一.相關(guān)反應(yīng)技術(shù)不僅在創(chuàng)立用戶描述文件

24、時可用于獲取用戶的興趣和偏好,對即時提升檢索性能、滿足用戶短期查詢也有很好的效果.相關(guān)反應(yīng)分為明確反應(yīng)(explicitfeedback)>偽反應(yīng)(pseudofeedback)>潛在反應(yīng)(implicitfeedback)3種形式.明確反應(yīng)是指由用戶明確給出是否滿意檢索結(jié)果的評價.由于大局部用戶在檢索過程中不愿主動參與,因此在Web檢索系統(tǒng)中單獨(dú)應(yīng)用較少；即使有用戶主動參與了明確反應(yīng),效果也不是很好.偽反應(yīng)是一種沒有用戶參與的方法,它假設(shè)第一次檢索結(jié)果中Top-N篇文檔正是用戶所需,并把這種假設(shè)的反應(yīng)信息通過查詢擴(kuò)展(queryexpansion)技術(shù)調(diào)整新查詢的結(jié)果排序.偽反饋

25、中可提取出許多信息,如段落和概念等,用于優(yōu)化檢索性能,提取出真正有助于增強(qiáng)了解用戶個性化的上下文信息將更具有意義.偽反應(yīng)是應(yīng)用較多的一種方法,但它基于的前提假設(shè)“Top-N篇文檔與用戶所需相關(guān)值得進(jìn)一步關(guān)注.文獻(xiàn)7曾通過實驗發(fā)現(xiàn)偽反應(yīng)的效果受N值的影響較大,因此提出了兩階段混合模型的解決方法.潛在反應(yīng)是指在用戶檢索和瀏覽檢索結(jié)果的過程中由檢索系統(tǒng)自動收集有關(guān)用戶響應(yīng)行為的反應(yīng)信息,并把反應(yīng)信息及時應(yīng)用到當(dāng)次檢索結(jié)果的優(yōu)化調(diào)整上.潛在反應(yīng)由于具有不需用戶主動配合、能即時修正檢索結(jié)果的優(yōu)點(diǎn),因此成為當(dāng)前研究領(lǐng)域獲取檢索任務(wù)上下文最主要的方法.也有人對潛在反應(yīng)的效果存有疑慮,但研究8說明通過潛在結(jié)構(gòu)

26、化的個性化信息進(jìn)行的個性化Web檢索性能要比明確反應(yīng)信息的效果好,文獻(xiàn)9也得出了類似的結(jié)論,并且通過進(jìn)一步研究說明在越復(fù)雜的檢索任務(wù)中,潛在反應(yīng)的效果越明顯.隨著人們對檢索任務(wù)上下文內(nèi)容更細(xì)致的挖掘應(yīng)用,針對檢索任務(wù)上下文的潛在反應(yīng)模型也成為最近研究的重點(diǎn),如文獻(xiàn)9針對用戶的點(diǎn)擊流(clickthrough)信息提出一種基于決策理論的潛在反應(yīng)模型；文獻(xiàn)4針對用戶與Top-N文檔交互的上下文信息提出一種基于啟發(fā)式的二元投票模型(BinaryVotingModel).3.2 資源上下文超鏈分析技術(shù)主要針對Web文檔超鏈分析技術(shù)主要針對Web文檔中的超級鏈接(hypertext)信息,早期曾在Law

27、rencePage和SergeyBrin等提出的PageRank算法中實現(xiàn)1.考慮到重要的文檔會有更多的鏈接指向它,PageRank算法從文檔頁面上的進(jìn)鏈(backwardlink)和出鏈(forwardlink)數(shù)量出發(fā)計算每個頁面的權(quán)重.近年來,人們又提出了面向主題(topic-sensitive)的PageRank算法和基于PPVPersonalizedPageRankVector)的個性化PageRank算法,這些算法都是在原有PageRank的根底上增加了主題特征、用戶偏好等其它上下文因素來計算頁面的權(quán)重.除了PageRank算法,Kleinberg提出的HITS(Hypertext

28、InducedTopicSearch)算法也是超鏈分析技術(shù)中的一個重要算法,與PageRank的全局平均思'想不同,HITS算法針對一個查詢請求分析權(quán)威頁面(Authority)和樞軸(Hub)頁面來計算頁面的重要程度.然而HITS算法還是單純從文檔中的超級鏈接出發(fā),忽略了文檔中的其它因素.有許多算法研究文檔如何分塊,這些文獻(xiàn)大都從視覺位置、內(nèi)容模式方面著手；也有一些研究專門從文檔分塊角度研究特征,如分塊的重要性、分塊的吸引性、分塊的語義性、分塊的指向性等；這些研究在分析分塊特征時常常依據(jù)的是塊中詞語的嫡信息,或者根據(jù)鏈接的統(tǒng)計信息,或者根據(jù)分塊中的語義信息.布局分析的一個重要意義在于

29、充分挖掘文檔特征,以用于提升信息檢索性能.3.3 系統(tǒng)上下文信息檢索系統(tǒng)所采用的檢索模型是系統(tǒng)上下文中關(guān)鍵的一種.信息檢索領(lǐng)域中經(jīng)典的3種檢索模型分別是布爾模型、向量模型和概率模型,它們分別基于集合論、代數(shù)論和Bayesian概率論.布爾模型基于簡單的關(guān)鍵詞匹配但檢索效果很差；向量模型雖然提供了更好的改良但缺乏一個標(biāo)準(zhǔn)的框架；Bayesian概率論最大的優(yōu)勢在于提供了一個完整的框架以便人們把檢索中的各種因素組合在一起考慮.各種模型及其相應(yīng)的模型擴(kuò)展在文獻(xiàn)2中介紹得比擬詳細(xì),本文不再一一列舉.檢索系統(tǒng)中檢索界面決定了人機(jī)交互(human-compute門nteraction)的內(nèi)容,和檢索系統(tǒng)中

30、的其它上下文信息配合使用,對實現(xiàn)智能個性化檢索非常關(guān)鍵.檢索界面主要包括接受用戶的查詢輸入和顯示結(jié)果兩個局部.對查詢輸入界面,一方面可以在布局設(shè)計上考慮滿足不同用戶的使用偏好和習(xí)慣,另一方面可以在功能上考慮向用戶及時推送其感興趣的檢索信息.如當(dāng)前的Google,一方面針對不同地區(qū)用戶自動推出不同的語言版本以適應(yīng)用戶的語言習(xí)慣,另一方面結(jié)合世界新聞事件不斷更換其標(biāo)志圖案(logo)以向用戶推送最新消息.根據(jù)我們使用Web搜索引擎的經(jīng)驗,結(jié)果顯示界面往往根據(jù)我們使用Web搜索引擎的經(jīng)驗,結(jié)果顯示界面往往是把從海量信息中篩選出的大量信息顯示給用戶,因此除了檢索性能,結(jié)果顯示界面的設(shè)計常常影響用戶對該

31、檢索系統(tǒng)是否偏好.好的結(jié)果顯示界面一方面在布局上要簡潔清楚、便于瀏覽查看,另一方面在功能上還能幫助用戶理解個性化的檢索結(jié)果、提升用戶的檢索效率.例如,在檢索結(jié)果列表中參加準(zhǔn)確的文檔摘要信息,高亮度顯示影響文檔排序的關(guān)鍵詞,按類別顯示文檔列表等都是比擬有效的方法.除了接受查詢局部和顯示結(jié)果局部,JaimeTeevan認(rèn)為增加個性化參數(shù)限制(controloverkeypersonalizedparameters邢分也非常重要.雖然這局部功能用戶可能較少使用,但提供應(yīng)用戶簡易快捷的調(diào)整功能還是可以幫助用戶獲得更加滿意的檢索效果的.另外,我們把獨(dú)立于檢索系統(tǒng)之外的社會環(huán)境也看作系統(tǒng)上下文的一局部.這

32、些上下文是指隱藏在社會生活、國際背景和文化趨勢中的一些外界常規(guī)或突發(fā)信息.擁有及時社會環(huán)境的信息檢索系統(tǒng)可以向用戶提供更準(zhǔn)確更及時的信息.這類上下文有兩種方式可以獲得,一種是人工收集,另一種是系統(tǒng)自動收集.人工收集是由工作人員根據(jù)現(xiàn)實生活,人工收集這類上下文；系統(tǒng)自動收集是指對所有用戶檢索日志進(jìn)行統(tǒng)計分析及比照比擬,發(fā)現(xiàn)這類上下文.兩種方法相比而言,人工收集方式具有響應(yīng)速度快、準(zhǔn)確率高等特點(diǎn),而系統(tǒng)自動收集往往能發(fā)現(xiàn)潛在的社會環(huán)境信息,從而更易于滿足大局部人群潛在的檢索需求.如谷歌搜索引擎2能自動向用戶提供和用戶輸入字面最接近的、最常出現(xiàn)的前10個查詢,而網(wǎng)易3總是把系統(tǒng)統(tǒng)計得出的熱門搜索顯示

33、在其主頁面上,以向用戶傳遞人們當(dāng)前最為關(guān)心的信息.4CIR研究面臨的挑戰(zhàn)盡管自從上個世紀(jì)五六十年代開始的信息檢索技術(shù)研究歷史已達(dá)半個多世紀(jì),并且已經(jīng)開展到當(dāng)前依賴上下文信息滿足“查詢背后的需求的第三代檢索技術(shù)；盡管各地研究者在理解用戶個性化興趣、解析文檔特征、開展不斷具有適應(yīng)性的檢索模型等方面進(jìn)行了多角度研究,并不斷從機(jī)器學(xué)習(xí)、人工智能、自然語言處理、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)挖掘等領(lǐng)域借鑒方法和思路；但是面對不斷出現(xiàn)的超大規(guī)模在線數(shù)據(jù),面對快速開展的語義網(wǎng)資源,面對用戶對檢索效果越來越高的檢索要求,基于上下文的信息檢索技術(shù)還面臨著多重挑戰(zhàn).1深入理解用戶需求并建模無論是當(dāng)前第三代依賴上下文信息滿足“查

34、詢背后的需求的檢索技術(shù),還是未來第四代實現(xiàn)“上下文驅(qū)動的信息推送"contextdriveninformationsupply技術(shù),只有深入理解用戶個性化的需求才能到達(dá)真正使用戶滿意.雖然有許多研究在用戶靜態(tài)上下文和檢索任務(wù)上下文領(lǐng)域進(jìn)行了有效的嘗試,但如何深入理解用戶需求有待進(jìn)一步研究,尤其在用戶需求背景比擬復(fù)雜、需求周期變換不定、需求形式多樣化的情況下.文獻(xiàn)5曾把用戶上網(wǎng)搜索的需求形式分成3類：對信息的需求例如：找新聞、找評論、找帖子等、對導(dǎo)航的需求找某個特定網(wǎng)站和對交易的需求例如：下載軟件、在線購物、訂機(jī)票等.然而,面對不斷增長的海量數(shù)據(jù),我們還需要在理解用戶的個體需求背景下加

35、深用戶需求動機(jī)的分析,例如了解用戶已有的和查詢相關(guān)的知識背景等.當(dāng)然,在深入理解用戶需求的同時也可能會帶來暴露隱私的危險性,這也是個性化信息檢索中一直期待研究的重要問題.2增強(qiáng)語義理解語義網(wǎng)描述了信息資源的語義數(shù)據(jù)模型,提供了計算機(jī)理解內(nèi)容的根底.隨著語義Web和本體技術(shù)的開展,大家普遍認(rèn)為根據(jù)本體標(biāo)注和組織資源可以方便計算機(jī)之間基于語義的交換和處理.當(dāng)前的檢索系統(tǒng)雖然大量利用了文檔上下文信息,特別是文檔內(nèi)容中的信息如超鏈接、標(biāo)簽、文檔視覺形式以及其它各種形式的元數(shù)據(jù)類別等信息.但是,本質(zhì)上這些方法仍然還是靠句法結(jié)構(gòu),根本上是用單詞來匹配文本,缺乏對文檔含義的真正理解.如何適應(yīng)語義網(wǎng)上的處理方

36、式以實現(xiàn)和語義網(wǎng)資源和效勞的無縫連接以及如何深入理解文檔含義和用戶需求的含義都需要深入的語義分析.已有的研究在利用大規(guī)模通用本體如WordNet、OPT等上面取得了提升,但面向領(lǐng)域、粒度細(xì)致的語義分析和改良仍需深入研究.3提供融合上下文的檢索模型檢索模型是檢索系統(tǒng)的核心算法,信息檢索領(lǐng)域中已經(jīng)成功開展了向量空間模型、概率模型和統(tǒng)計語言模型等3種經(jīng)典模型,并且還出現(xiàn)了新型的檢索模型如基于引力的檢索模型Gravitation-basedmodel等.對經(jīng)典的向量空間模型而言,雖然已經(jīng)有潛在語義分析LatentSementicAnalysis、向量空間基vectorspacebases等方法把文檔的

37、上下文融入到向量空間模型中,但如何把各種上下文信息合理地融入到檢索模型中的研究還不多見.近十年來統(tǒng)計語言模型是被強(qiáng)烈看好的一種支持融入上下文信息的檢索模型.對統(tǒng)計語言模型而言,線性插值法是研究過程中常用的方法之一.然而線性插值項的系數(shù)并不是一件容易確定的事情,特別是在涉及到多種不同類型的上下文信息時.因此,對如何把各類不同上下文信息合理地融入到檢索模型而言,還有許多值得研究的問題.4)CIR標(biāo)準(zhǔn)測試數(shù)據(jù)集和基準(zhǔn)測試查詢眾所周知,TREC會議上的測試數(shù)據(jù)集已成為信息檢索領(lǐng)域公認(rèn)的標(biāo)準(zhǔn)數(shù)據(jù)集.其中的HARD評測上也專門提供了考察像用戶位置、文檔風(fēng)格、文檔語言等上下文信息的標(biāo)準(zhǔn)評測數(shù)據(jù).但信息檢索過程中包含用戶、文檔、系統(tǒng)等不同種類的上下文,在TREC標(biāo)準(zhǔn)數(shù)據(jù)集中參加更多標(biāo)準(zhǔn)化的不同類型的上下文信息,特別是便于語義理解的上下文信息如提供標(biāo)準(zhǔn)的領(lǐng)域本體,對考察CIR查詢效果的影響具有重要意義.5)由被動要求轉(zhuǎn)為主動推送事實上,"ContextualInformationRetrieval具有一語雙關(guān)的含義,可以具有兩種解釋形式,分別是基于上下文的信息檢索(retrievaldeterminedbycontext)和上下文中的信息檢索(retrieva

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

信息檢索研究現(xiàn)狀

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔