




已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
對電子環(huán)境下主題控制系統(tǒng)檢索應(yīng)用的思考,北京大學(xué)信息管理系馬張華,討論內(nèi)容,在文本檢索、關(guān)鍵詞檢索系統(tǒng)迅速發(fā)展的情況下,基于主題控制詞表的檢索系統(tǒng)還有沒有價值?目前的主題標(biāo)引規(guī)則、方法應(yīng)如何發(fā)展,以及研究動向等。,主題控制系統(tǒng)檢索應(yīng)用的思考,一、對詞匯控制系統(tǒng)的重新審視二、控制系統(tǒng)與文本系統(tǒng)性能比較三、文本檢索系統(tǒng)電子環(huán)境下的應(yīng)用以及詞匯控制系統(tǒng)差距四、關(guān)于主題控制系統(tǒng)標(biāo)引實踐和規(guī)則改進(jìn)的思考,一、對詞匯控制系統(tǒng)的重新審視,1.1自然語言特點及其控制的必要性;1.2主題分析基礎(chǔ)上的標(biāo)引。,1.1自然語言特點及其控制的必要性-簡要的標(biāo)引語言類型區(qū)分,1.1自然語言特點及其控制的必要性,詞匯控制指根據(jù)標(biāo)引和檢索的需要,對自然語言的詞匯進(jìn)行選擇、規(guī)范并揭示其相關(guān)性。原因:詞匯量過大一些詞無標(biāo)引價值。(控制方式:選詞)詞匯與概念不一一對應(yīng):(控制方式:參照、限定、加注一義多詞:計算機、電子計算機、電腦一詞多義:病毒醫(yī)學(xué)、計算機詞義含糊:計算機分析分析計算機、用計算機分析?缺乏明確的結(jié)構(gòu)自然語言詞匯之間關(guān)系的多元性和不確定性,不符合檢索系統(tǒng)的使用特點。(控制方式:建立參照、多種索引系統(tǒng)),1.2主題分析基礎(chǔ)上的標(biāo)引,通過主題分析弄清文獻(xiàn)有標(biāo)引價值的主題,有效揭示文獻(xiàn)主題內(nèi)容;結(jié)合主題分析的結(jié)果按照檢索語言及其標(biāo)引規(guī)范,加以標(biāo)識,有助于提供適用的標(biāo)識。,對詞匯控制系統(tǒng)的重新重新審視,對詞匯控制系統(tǒng)的重新審視:1.1自然語言特點及其控制的必要性;1.2主題分析基礎(chǔ)上的標(biāo)引。常識判斷:詞匯控制和標(biāo)引有助于有效揭示和檢索文獻(xiàn)主題。,二、控制系統(tǒng)與文本系統(tǒng)性能比較,控制語言有沒有價值,或詞匯控制是不是必要:兩者的功能討論。檢全率、檢準(zhǔn)率,處理速度、易用性、成本效益。各自的問題。兩者對于文獻(xiàn)的適用性討論。網(wǎng)絡(luò)資源,論文資源,圖書。使用現(xiàn)狀。,兩者的功能討論。各自的問題。,檢全率檢準(zhǔn)率處理速度易用性成本效益在一些方面中是相對與互補的關(guān)系:如檢全率,控制系統(tǒng)可以進(jìn)行概念檢索、相關(guān)詞擴展,文本系統(tǒng)的標(biāo)識量大,均是檢全因素。應(yīng)結(jié)合具體應(yīng)用討論。,兩者功能的比較與思考:功能的相對性與互補性,控制系統(tǒng)與文本系統(tǒng)比較功能的相對性與互補性,兩者對文獻(xiàn)適用性的討論,不同領(lǐng)域應(yīng)用的情況:圖書。控制系統(tǒng)與相關(guān)字段文本檢索結(jié)合;論文資源。文本檢索是主流,結(jié)合部分控制系統(tǒng);網(wǎng)絡(luò)資源。文本檢索是主流。影響控制使用的因素主要包括:資源數(shù)量與處理能力,成本效益的結(jié)合考慮等。,概要結(jié)論,控制有益于檢全、檢準(zhǔn)、易用性。不利于,處理速度、輸入成本。影響控制使用的因素主要包括:資源數(shù)量與處理能力;成本效益的結(jié)合考慮等。文本系統(tǒng)應(yīng)引入控制;控制系統(tǒng)則應(yīng)加強處理能力,降低成本,應(yīng)用好控制系統(tǒng)的功能。,三、文本檢索系統(tǒng)電子環(huán)境下的應(yīng)用以及詞匯控制系統(tǒng)差距,文本檢索系統(tǒng)的改進(jìn)努力詞匯控制系統(tǒng)的努力與差距,文本系統(tǒng)的改進(jìn)努力:控制的納入,檢索方式:提供簡單檢索、高級檢索、專業(yè)檢索等檢索界面。上述方面文本系統(tǒng)略優(yōu);努力提供自然語言檢索能力。(引入句法控制、詞匯控制)檢索排序:多因素結(jié)合提供;多種排序方式的采用;兩者差距不大。(引入多因素控制)檢索優(yōu)化:相關(guān)檢索幫助,百度,Ask;二次檢索;Vivisimo(引入詞匯控制),檢索入口的改進(jìn),以搜索引擎為例:自然語言檢索,還不是智能檢索,檢索排序顯示的發(fā)展與改進(jìn),以網(wǎng)絡(luò)為例,排序顯示的意義:是提高檢準(zhǔn)率的重要手段。采用檢索匹配加權(quán)的形式進(jìn)行排序顯示,可以在保障檢全率的同時,將符合檢索要求的對象排列在檢索結(jié)果的前列,提高檢準(zhǔn)率。,網(wǎng)絡(luò)系統(tǒng)中檢索排序因素的拓展,目前采用作為排序依據(jù)的加權(quán)方案涉及的因素包括:網(wǎng)頁中查詢詞匹配數(shù)量網(wǎng)頁中多個查詢詞匹配的完備程度匹配單元和分解問題匹配詞的接近程度網(wǎng)頁中術(shù)語的位置e.g.,linktext,bodytext本頁詞頻和總詞頻之比指向本頁的鎖定文本指向本頁的鏈接分析有時,點擊分析對于新網(wǎng)頁,結(jié)合考慮新鮮度問題關(guān)于商業(yè)因素。例如:某些系統(tǒng)如發(fā)現(xiàn)檢索對象與人為增加檢索要素的商業(yè)公司網(wǎng)站有聯(lián)系,則不予排列等。,鏈接控制作為重要性測量(略),例:每一網(wǎng)頁從100分開始。按入鏈分?jǐn)?shù)重新計算。延續(xù)計算直到分?jǐn)?shù)不再變化。,網(wǎng)絡(luò)社區(qū)的識別與應(yīng)用,網(wǎng)絡(luò)關(guān)鍵詞檢索技術(shù)的特點與傳統(tǒng)文本檢索的不同,主要表現(xiàn)在:1.重視查準(zhǔn)因素,忽略檢全因素。2.結(jié)合網(wǎng)絡(luò)文獻(xiàn)的特點,擴大了檢索算法的應(yīng)用,提高結(jié)合多種因素的應(yīng)用能力。3.更加重視易用性。,檢索優(yōu)化的發(fā)展,檢索優(yōu)化的含義與必要性檢索優(yōu)化的常見形式,檢索優(yōu)化的含義和必要性,檢索優(yōu)化指通過對用戶檢索提問提出供選擇的方案,以交互的方式,優(yōu)化檢索查詢,以改進(jìn)檢索結(jié)果。優(yōu)化的原因:找不到準(zhǔn)確表達(dá)檢索內(nèi)容的詞匯;關(guān)鍵詞于進(jìn)行檢索的內(nèi)容之間可能存在著差距,需要在檢索過程中進(jìn)行調(diào)整;表達(dá)不夠?qū)V福瑳]有確切表達(dá)出用戶潛在的檢索需求。用戶不了解邏輯表達(dá)式的書寫方法,從而影響檢索表達(dá),檢索深化的問題。檢索調(diào)查表明,多數(shù)檢索只用一個詞進(jìn)行。檢索調(diào)整。需要根據(jù)改變檢索方向,進(jìn)行相關(guān)查找的問題。多種要素檢索。用戶很難同時照顧到。,搜索引擎常用檢索優(yōu)化的形式,利用用戶檢索查詢,提供檢索查詢的優(yōu)化。檢索糾錯功能。將聚類算法的結(jié)果作為二次檢索的依據(jù)。Similarto。,百度的檢索優(yōu)化功能,自動聚類基礎(chǔ)上的檢索幫助,自動聚類基礎(chǔ)上的二次檢索幫助,萬方檢索優(yōu)化實例,同方的檢索優(yōu)化實例,同方檢索優(yōu)化實例,文本系統(tǒng)的改進(jìn)努力:控制的納入,檢索方式:提供簡單檢索、高級檢索、專業(yè)檢索等檢索界面。上述方面文本系統(tǒng)略優(yōu);努力提供自然語言檢索能力。(引入句法控制、詞匯控制)檢索排序:多因素結(jié)合提供;多種排序方式的采用;兩者差距不大。(引入多因素控制)檢索優(yōu)化:相關(guān)檢索幫助,百度,Ask;二次檢索;Vivisimo(引入詞匯控制)。,文本檢索系統(tǒng)的改進(jìn)努力,文本控制的特點:采用后控的方式;多方面,多角度,詞法、句法;多因素;文本控制的不足:詞匯控制不嚴(yán)格;一些控制的方式仍有待優(yōu)化、改進(jìn),如自動聚類,檢索語句切分等,仍然在發(fā)展探索中總體評價:作了大量努力,有明顯效果。,控制系統(tǒng)的努力與差距,控制系統(tǒng)加強處理能力,降低成本的努力:聯(lián)合編目;自動標(biāo)引試驗??刂葡到y(tǒng)的不足:檢索語言能力的應(yīng)用與開發(fā)不足,優(yōu)勢未得到發(fā)揮。,檢索語言能力的應(yīng)用與開發(fā)的差距,可在詞表和標(biāo)引數(shù)據(jù)基礎(chǔ)上提供,而未提供的功能包括:檢索入口方面:入口詞檢索;以瀏覽形式提供詞表詞的問題;相關(guān)詞的提供問題。檢索優(yōu)化方面:主題檢索幫助方面可以提供的,如結(jié)合結(jié)合分類等提供;相關(guān)主題詞提供;分類的二次檢索,結(jié)合主題標(biāo)題形式的二次檢索幫助等。,詞匯控制系統(tǒng)的差距何在,A,主要是檢索端或檢索應(yīng)用方面的差距。B,檢索端的重要性:功能是通過檢索界面實現(xiàn)的,未實現(xiàn)的功能只是潛在能力;且無法在應(yīng)用基礎(chǔ)上進(jìn)一步改進(jìn)。C,兩者性能各有優(yōu)缺點。但自然語言系統(tǒng)努力改進(jìn),控制系統(tǒng)改進(jìn)不力,檢索端成為短板。,控制系統(tǒng)檢索端差距的原因,對檢索語言應(yīng)用端的重視不夠,停留在檢索語言編制和標(biāo)引階段;缺乏電子環(huán)境下應(yīng)用的研究;與計算機軟件編制人員溝通不夠;應(yīng)用基礎(chǔ)上的改進(jìn)不夠-持續(xù)發(fā)展意識不夠等。應(yīng)汲取網(wǎng)絡(luò)、文本數(shù)據(jù)庫等的發(fā)展,結(jié)合主題語言的特點改進(jìn)。,維基百科的分類界面-檢索界面的多樣性,比較基礎(chǔ)上的思考,詞匯控制是有價值的,文本檢索系統(tǒng)改進(jìn)的手段之一是引入詞匯控制;基于詞匯控制的檢索系統(tǒng)的不足不是詞匯控制造成的,而是檢索應(yīng)用的開發(fā)不充分的緣故,目前控制系統(tǒng)的檢索界面應(yīng)向文本系統(tǒng)學(xué)習(xí),結(jié)合控制語言的特點加以開發(fā)。,四關(guān)于主題控制系統(tǒng)標(biāo)引實踐和規(guī)則改進(jìn)的思考,基本看法:標(biāo)引方法和規(guī)則是根據(jù)應(yīng)用需要確定的,應(yīng)結(jié)合電子環(huán)境下的實踐發(fā)展、改進(jìn)和調(diào)整。在電子環(huán)境下檢索系統(tǒng)的探索中,圖書館書目檢索系統(tǒng)、文獻(xiàn)數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡(luò)檢索系統(tǒng)正經(jīng)歷一個后者向前者學(xué)習(xí),超過前者,前者反過來學(xué)習(xí)后者的過程。不僅要向國外的同行學(xué)習(xí),而且要善于向網(wǎng)絡(luò)、文獻(xiàn)數(shù)據(jù)庫的檢索發(fā)展學(xué)習(xí);但向網(wǎng)絡(luò)學(xué)習(xí)并非全盤否定自己。,理論、方法、規(guī)則的改進(jìn)問題,想到的一些問題:檢索應(yīng)用方式的優(yōu)化改進(jìn)問題;使用方式以及相應(yīng)規(guī)則的調(diào)整問題,比如說:是不是建立標(biāo)題;輪排還要不要?與標(biāo)引規(guī)則。還要不要控制,自由詞的應(yīng)用問題,入口詞的問題;特定主題類型標(biāo)引規(guī)則的調(diào)整問題;詞表的應(yīng)用問題,如作為切分工具;詞表系統(tǒng)的構(gòu)建層次問題,如:wordnet關(guān)鍵詞敘詞一檢索系統(tǒng)中不同特點檢索系統(tǒng)之間的結(jié)合和分工問題。不同系統(tǒng)之間兼容與互操作問題。其他問題,如主題標(biāo)引中中文分面公式問題。MARC格式的適用性和改造問題,靈活性問題,如輪排的處理;XML語言應(yīng)用問題。,控制系統(tǒng)的檢索應(yīng)用的改進(jìn)問題,想到的幾個基本功能,如:檢索入口界面詞表瀏覽功能的提供;入口詞檢索功能的采用,自然語言檢索方式的加強;檢索優(yōu)化功能的開發(fā),如結(jié)合控制語言的二次檢索功能,包括標(biāo)題詞瀏覽等,相關(guān)詞的提供等;一檢索系統(tǒng)中不同特點檢索方法之間的結(jié)合和分工問題。不同系統(tǒng)之間兼容與互操作問題。其他方法的引入等。如用戶因素等。,結(jié)合使用方式的相應(yīng)標(biāo)引處理規(guī)則的思考或調(diào)整,如:,是不是建立標(biāo)題;還要不要輪排?(文本系統(tǒng)緩存中的先組標(biāo)題保留)自由詞的應(yīng)用與控制問題,結(jié)合檢索詞的入口詞拓展問題;特定主題類型標(biāo)引規(guī)則的調(diào)整問題;如地區(qū),文學(xué)、藝術(shù),特殊文獻(xiàn)類型等;主題標(biāo)引中中文分面公式問題;MARC格式的適用性和改造問題,靈活性問題,如輪排的處理;,是否建立標(biāo)題、輪排,關(guān)于輪排模式。國內(nèi)采用輪替法輪排:ABCDBACDCABDDABC例:電子計算機硬磁盤生產(chǎn)工藝硬磁盤電子計算機生產(chǎn)工藝使用“:”、“,”連接的主題詞,輪排中隨原連接的詞移動。例:小說語言學(xué):美學(xué)語言學(xué):美學(xué)小說美學(xué):語言學(xué)小說聯(lián)結(jié)主題的輪排,必要時對連接詞應(yīng)作適當(dāng)調(diào)整。輪排模式在檢索優(yōu)化中有使用價值。,特定主題類型標(biāo)引規(guī)則的調(diào)整問題;如地區(qū),等,地區(qū)應(yīng)該標(biāo)引中直接標(biāo)引和間接標(biāo)引的應(yīng)用效果以及規(guī)則的設(shè)置。(類似的如時代標(biāo)引以及應(yīng)用等)城市地理廣州地方志浙江桐鄉(xiāng)雕塑羅馬旅游指南德國科隆,主題標(biāo)引中中文分面公式問題;,國內(nèi)主題分面公式歸納為:主體因素(研究對象等中心主題概念)、方面因素或限定因素(成分、材料、方法、過程、條件、狀態(tài)、尺度、性質(zhì)等對主體因素研究方面(角度)的說明或限定因素)、空間因素、時間因素、文獻(xiàn)類型等。與阮岡納贊,P;M:ES.T;輪(round),層(level),相(phase)等概念構(gòu)成的比較完善的主題分析系統(tǒng)之間的差異。,通用引用次序,阮岡納贊的五個基本范疇本體(personality)-物質(zhì)(material)-動力(energy)-空間(space)-時間(time)輪(round)、層(level)、相(phase):同一范疇中,如主題特征不止一個,則可分析出二層本體、三層本體,二層物質(zhì)、三層物質(zhì),用、,、表示。如動力后再出現(xiàn)本體、物質(zhì),則稱為第二輪本體、第二輪物質(zhì),用、表示。如,“合金對直升飛機起落架的加工”可標(biāo)引為:直升飛機起落架加工車刀合金鋼,其他一些與檢索語言應(yīng)用相關(guān)的問題,一檢索系統(tǒng)中不同特點檢索系統(tǒng)之間的結(jié)合和分工問題。不同系統(tǒng)之間兼容與互操作問題。詞表的應(yīng)用問題,如切分工具、用以自然語言檢索等;詞表的層次問題,如:wordnet關(guān)鍵詞敘詞;標(biāo)識語言如XML語言應(yīng)用問題,XML語言可以了解一些。關(guān)于ontology。,PekingUniversityLibraryP.R.China-Beijing1902-PekingUniversityLibrarytext/htmlPekingUniversityLibrary1996-10-25,XML記錄北大圖書館網(wǎng)站示例,Libraryhomepage,briefintroduction,electronicresources,OPAC,UserGuide,News,digitallibrary,Inter-libraryLoan,FAQ,Navigations,Focus,Usertrainingprogram,CALIS,CAIchi,TitlePekingUniversityLibraryIdentifier.URIType.OCLCgTextdataTypetext/html;charset=gb2312Coverage.spatialP.R.China-BeijingCoverage.temporal1902-CPersonalPekingUniversityLibraryDate.created1996-10-25DescriptionLibraryhomepage,briefintroduction,electronicresources,OPAC,UserGuide,News,digitallibrary,Inter-libraryLoan,FAQ,Navigations,Focus,Usertrainingprogram,CALIS,CAIFormattext/htmlLanguage.ISO639-2chiPublisherPekingUniversityLibraryRelation.hasVersion,知識組織系統(tǒng)(KO
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 輕松應(yīng)對2024年酒店經(jīng)營管理師考試試題及答案
- 乾縣勞動合同范例
- 精通2024年質(zhì)量工程師資格證書考試的理論與試題分析試題及答案
- 2025關(guān)于汽車交易定金合同
- 與老人合同范例
- 住房代銷代理合同范例
- 產(chǎn)品加工買賣合同范例
- 2025年度度假村物業(yè)租賃權(quán)益轉(zhuǎn)讓合同樣本
- 互幫互學(xué)合同范例
- 公司分成合同范例
- 國開(天津)基層安全與教育策劃與實施形考1-2試題及答案
- 2024年下半年教師資格考試初中思想品德面試試題及解答
- 【《長虹美菱基于EVA的業(yè)績評價的案例分析》9800字】
- 2024年03月安徽合肥市第二人民醫(yī)院招考聘用工作人員79人筆試近年2018-2023典型考題及考點剖析附答案帶詳解
- 【N600MW發(fā)電機組改供熱探析17000字(論文)】
- 【應(yīng)收賬款管理問題及完善策略:以S建工集團(tuán)公司為例9800字(論文)】
- 2024綠色工業(yè)園區(qū)評價通則
- DL-T5372-2017水電水利工程金屬結(jié)構(gòu)與機電設(shè)備安裝安全技術(shù)規(guī)程
- 人教版數(shù)學(xué)《認(rèn)識鐘表》公開課課件1
- Pep 新版小學(xué)英語六年級下冊一般過去時復(fù)習(xí)課教案
- 產(chǎn)科10個臨床路徑
評論
0/150
提交評論