下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第四節(jié) 其它檢索語(yǔ)言 一、自然語(yǔ)言 信息檢索語(yǔ)言是溝通標(biāo)引和檢索的依據(jù),自然語(yǔ)言的詞語(yǔ)由于存在大量的同義、多義等現(xiàn)象,通常要經(jīng)過(guò)一定程度的規(guī)范化處理,才能作為檢索語(yǔ)言使用。但是,規(guī)范化處理,帶來(lái)了標(biāo)引的成本、標(biāo)引與檢索的一致性、一般用戶難以直接操作檢索等新問(wèn)題。在計(jì)算機(jī)信息技術(shù)迅速發(fā)展的背景下,自然語(yǔ)言重又受到越來(lái)越多的關(guān)注和重視,并在信息檢索領(lǐng)域內(nèi)取得了令人矚目的地位和成就。 自然語(yǔ)言在信息檢索中的發(fā)展,大致經(jīng)歷了關(guān)鍵詞、自由文本、全文本、超文本檢索的階段,并正向自然語(yǔ)言的理解發(fā)展。 1. 關(guān)鍵詞語(yǔ)言 關(guān)鍵詞語(yǔ)言是50年代發(fā)展起來(lái)的非受控語(yǔ)言,是自然語(yǔ)言應(yīng)用于信息檢索最早的形式,至今仍是一種
2、廣泛使用的主題語(yǔ)言之一。 關(guān)鍵詞是從文獻(xiàn)的題名(有時(shí)也包括摘要和正文)中直接抽取出來(lái)的,能夠表達(dá)文獻(xiàn)主題的有實(shí)質(zhì)性意義的單詞。以這種自然語(yǔ)言的詞匯作為主題標(biāo)識(shí)的語(yǔ)言,就是關(guān)鍵詞語(yǔ)言。關(guān)鍵詞語(yǔ)言雖然也屬主題語(yǔ)言的范疇,但與標(biāo)題語(yǔ)言、元詞語(yǔ)言、敘詞語(yǔ)言有一個(gè)顯著不同,關(guān)鍵詞語(yǔ)言是沒(méi)有經(jīng)過(guò)規(guī)范化處理的自然語(yǔ)言,屬非受控語(yǔ)言(Uncontrolled Language),而標(biāo)題、元詞、敘詞語(yǔ)言是經(jīng)過(guò)規(guī)范化處理的自然語(yǔ)言,屬受控語(yǔ)言(Controlled Language)。 關(guān)鍵詞語(yǔ)言的基本原理,是直接以自然語(yǔ)言的單詞,作為表達(dá)文獻(xiàn)和提問(wèn)的標(biāo)識(shí)。因而,關(guān)鍵詞語(yǔ)言不必編制專門的詞表,不進(jìn)行詞匯控制,也不
3、顯示詞間關(guān)系,可利用計(jì)算機(jī)進(jìn)行自動(dòng)抽詞標(biāo)引,極大地提高標(biāo)引的速度,縮短檢索系統(tǒng)的報(bào)道時(shí)滯,符合在文獻(xiàn)數(shù)量激增的背景下快速檢索文獻(xiàn)的需要。 目前,關(guān)鍵詞語(yǔ)言已成為手工檢索和計(jì)算機(jī)檢索廣泛采用的信息檢索語(yǔ)言。在關(guān)鍵詞語(yǔ)言發(fā)展的進(jìn)程中,其形式主要有以下幾種: · 單純(普通)關(guān)鍵詞索引(Pure Keyword Index); · 題內(nèi)關(guān)鍵詞索引(Keyword In Context,簡(jiǎn)稱為KWIC); · 題外關(guān)鍵詞索引(Keyword Out Context,簡(jiǎn)稱為KWOC); · 雙重關(guān)鍵詞索引(Double KWIC); · 詞對(duì)式關(guān)鍵詞索引
4、(Paired Keyword Index)。 各種關(guān)鍵詞索引,雖然形式有所差異,但關(guān)鍵詞語(yǔ)言的基本特性是共同的: · 直接從文獻(xiàn)的題名(有時(shí)以摘要、征文來(lái)補(bǔ)充)中抽取關(guān)鍵詞; · 沒(méi)有詞匯控制,任何有實(shí)質(zhì)性意義的單詞,都可作為標(biāo)引和檢索的標(biāo)識(shí); · 按字順排檢關(guān)鍵詞,并進(jìn)行多種形式的輪排,以增加檢索入口; · 主要采用計(jì)算機(jī)自動(dòng)抽詞標(biāo)引,編制速度快; · 提供快捷而方便的檢索,容易掌握,但檢索的全面性稍有欠缺; · 關(guān)鍵詞常常帶有上下文,有助于消除自然語(yǔ)言的多義現(xiàn)象對(duì)檢索的影響,提高檢索的專指度。 2. 自然語(yǔ)言檢索 自然語(yǔ)言檢索是
5、與計(jì)算機(jī)檢索的出現(xiàn)和發(fā)展密不可分的。換言之,正是計(jì)算機(jī)技術(shù)的發(fā)展及其在檢索領(lǐng)域的應(yīng)用,才促成了自然語(yǔ)言直接作為檢索語(yǔ)言的必然趨勢(shì)。 在60年代興起的計(jì)算機(jī)檢索,尤其是70年代以后聯(lián)機(jī)檢索的國(guó)際化發(fā)展,促使自然語(yǔ)言檢索技術(shù),即自由文本檢索、全文本檢索得以產(chǎn)生和普及。80年代中期出現(xiàn)的光盤檢索,尤其是90年代國(guó)際互聯(lián)網(wǎng)絡(luò)(Internet)的在全球的迅速增長(zhǎng),又促使自然語(yǔ)言檢索向多媒體檢索、網(wǎng)絡(luò)檢索和超文本檢索發(fā)展。 自由文本檢索(Free-text Searching),作為聯(lián)機(jī)檢索系統(tǒng)的主體檢索技術(shù),已發(fā)展得十分成熟。聯(lián)機(jī)檢索系統(tǒng)擁有多達(dá)數(shù)百的數(shù)據(jù)庫(kù),每個(gè)數(shù)據(jù)庫(kù)都是由數(shù)量龐大的文獻(xiàn)記錄所組成的
6、,每條記錄包含文獻(xiàn)的題名、著者、文摘、標(biāo)引的主題標(biāo)識(shí)(敘詞)等多項(xiàng)內(nèi)容。在聯(lián)機(jī)檢索時(shí),文獻(xiàn)記錄中的所有這些項(xiàng)目,特別是文摘的內(nèi)容,其中的每一個(gè)詞都是可以自由檢索的,即文獻(xiàn)記錄的所有文本都可自由檢索,因此被稱為自由文本檢索。目前,自由文本檢索技術(shù),包括單詞檢索、詞組檢索、布爾檢索、詞間位置檢索、截詞檢索及加權(quán)檢索等。 全文本檢索(Full-text Searching),是在自由文本檢索的基礎(chǔ)上發(fā)展起來(lái)的。如今,在聯(lián)機(jī)檢索系統(tǒng)中,提供全文本檢索的數(shù)據(jù)庫(kù)已越來(lái)越多,呈加速發(fā)展的趨勢(shì)。全文本檢索與自由文本檢索的差異,主要在于文本內(nèi)容和檢索技術(shù)的不同。全文本檢索,檢索的對(duì)象是計(jì)算機(jī)可讀形式的文獻(xiàn)全文文
7、本。全文本檢索的技術(shù)方案一般有兩種,第一種是分步完成,先進(jìn)行自由文本的直接檢索,后進(jìn)行全文本的字符串掃描檢索(如ORBIT系統(tǒng)直接的布爾檢索,以及在此基礎(chǔ)上的字符串、句子查找等。);第二種是一步完成,即把自由文本檢索的范圍擴(kuò)大到全文本,布爾檢索與全文檢索同時(shí)進(jìn)行。 國(guó)際互聯(lián)網(wǎng)絡(luò)上的超文本檢索(Hyper-text Searching),突破了文本以文獻(xiàn)為單位、檢索以文獻(xiàn)單位為對(duì)象的限制,超越了文獻(xiàn)單位,深入到文獻(xiàn)內(nèi)部的信息單元,以有關(guān)的信息單元為檢索操作的對(duì)象。 在超文本中,通過(guò)預(yù)先對(duì)文本中的有關(guān)詞匯進(jìn)行索引鏈接(超鏈),使這些帶鏈接指針的詞匯或短語(yǔ),指向文本中的其它有關(guān)段落、注解和內(nèi)容。這些
8、經(jīng)過(guò)鏈接的詞語(yǔ),采用了特殊的顯示技術(shù),如加下劃線、高亮、粗體或顏色不同等。用戶只要用光標(biāo)點(diǎn)擊這些詞語(yǔ),超級(jí)文本立刻就能顯示該詞語(yǔ)鏈接的內(nèi)容。在新顯示的文本中,用戶又可發(fā)現(xiàn)經(jīng)過(guò)鏈接的詞語(yǔ),便可沿著超文本中的索引鏈接,不斷查找更感興趣的內(nèi)容。 近年來(lái),在超文本的基礎(chǔ)上,又出現(xiàn)了多媒體檢索。多媒體(Multi-media),也稱為超媒體(Hyper-media),它將多媒體技術(shù)結(jié)合到超文本中,強(qiáng)化了超文本的功能。它允許文本之外的圖片、聲音、動(dòng)畫、影視等信息單元,也可以與文本一樣,作為指向其它文本或多媒體信息的鏈接指針。換言之,在超媒體文本中,不但有文字、圖片,還有聲音、動(dòng)畫、影視等形式的信息內(nèi)容,都
9、可利用鏈接來(lái)進(jìn)行查找和閱讀。超媒體文本在只讀式光盤CD-ROM和Internet網(wǎng)絡(luò)上得到了充分的展現(xiàn)。 自然語(yǔ)言本身的表現(xiàn)力十分強(qiáng)大和多樣,是人類交流和溝通的主要工具。盡管近年來(lái)自然語(yǔ)言在信息檢索領(lǐng)域發(fā)展很快,但遠(yuǎn)不及其作為自然語(yǔ)言的地位,這就涉及到作為檢索語(yǔ)言的自然語(yǔ)言的特性: · 自然語(yǔ)言是用戶最為熟悉的語(yǔ)言系統(tǒng),在檢索時(shí)使用起來(lái)很習(xí)慣,容易使用,也容易達(dá)到一致; · 自然語(yǔ)言存在著大量的同義、多義、同形異義等現(xiàn)象,會(huì)對(duì)檢索的效率產(chǎn)生負(fù)面的影響; · 自然語(yǔ)言檢索系統(tǒng),可利用計(jì)算機(jī)自動(dòng)進(jìn)行文獻(xiàn)處理,其操作成本很低,而且速度極快,在文獻(xiàn)數(shù)量激增的社會(huì)背景下,尤
10、其具有優(yōu)勢(shì); · 無(wú)需編制詞表,但受自然語(yǔ)言語(yǔ)種的限制。 概言之,在信息技術(shù),尤其是計(jì)算機(jī)技術(shù)迅速發(fā)展的情況下,自然語(yǔ)言作為檢索語(yǔ)言是一種必然的趨勢(shì)。但純粹的自然語(yǔ)言系統(tǒng)在檢索性能水平上是較低的,因此,在系統(tǒng)建立時(shí)需要有相應(yīng)的改進(jìn)措施,如關(guān)鍵詞語(yǔ)言中的上下文、采用后控詞表等,在信息檢索時(shí)需要有針對(duì)檢索課題的策略,以保障檢索的效率。 二、引文語(yǔ)言 文獻(xiàn),尤其是科學(xué)文獻(xiàn),在結(jié)尾處都附有參考文獻(xiàn)或引用文獻(xiàn),這也是文獻(xiàn)的外表特征之一。利用文獻(xiàn)之間引用與被引用的關(guān)系,作為文獻(xiàn)內(nèi)容主題標(biāo)識(shí),并以此標(biāo)引和檢索文獻(xiàn)的語(yǔ)言就是引文語(yǔ)言。 引文語(yǔ)言是60年代發(fā)展起來(lái)的一種檢索語(yǔ)言,創(chuàng)刊于1961年的科學(xué)
11、引文索引(Science Citation Index),可看成是引文語(yǔ)言成形的標(biāo)志。引文語(yǔ)言從文獻(xiàn)的引用關(guān)系角度,提供了一種全新的檢索途徑。引文語(yǔ)言的基本原理是: · 以文獻(xiàn)之間的引用關(guān)系, 作為文獻(xiàn)主題內(nèi)容之間的聯(lián)系,換言之,若兩篇文獻(xiàn)發(fā)生引用關(guān)系,那么它們?cè)谥黝}上就是相關(guān)的; · 以引用文獻(xiàn)或被引用文獻(xiàn),通常按著者姓名的字順排檢,作為標(biāo)引和檢索文獻(xiàn)的標(biāo)識(shí)。 引用關(guān)系作為檢索語(yǔ)言,有其形式上的特殊性,其檢索特性為: · 以引用文獻(xiàn)或被引用文獻(xiàn)進(jìn)行標(biāo)引和檢索,擺脫了人工符號(hào)標(biāo)識(shí)或詞語(yǔ)標(biāo)識(shí)的限制,使用容易掌握,一致性好; · 以引用關(guān)系形成的“文獻(xiàn)網(wǎng)”作
12、為“主題網(wǎng)”,檢索明確而有效,且能夠查找到較為重要的文獻(xiàn),因?yàn)橹匾奈墨I(xiàn)其被引用次數(shù)通常也較多,這是其它的檢索語(yǔ)言所無(wú)法做到的; · 引文語(yǔ)言系統(tǒng)的標(biāo)引深度很深,一般的手工標(biāo)引深度為平均每篇文獻(xiàn)35個(gè)詞,而一篇文獻(xiàn)的引文數(shù)量常常達(dá)到十幾篇,即可提供十幾個(gè)檢索點(diǎn); · 引用關(guān)系本身非常穩(wěn)定,但作為主題關(guān)系的可靠性不夠穩(wěn)定,引用有多種起因和緣由,但不一定完全反映出主題關(guān)系; · 引用關(guān)系要受到文獻(xiàn)可得性的影響; · 引文的著錄有時(shí)不夠統(tǒng)一規(guī)范; · 引文語(yǔ)言無(wú)需編制詞表,可利用計(jì)算機(jī)自動(dòng)進(jìn)行文獻(xiàn)標(biāo)引和處理,檢索系統(tǒng)的成本低、速度快,提供的信息回溯性
13、和及時(shí)性都可令人滿意。 三、分類主題一體化語(yǔ)言 在檢索語(yǔ)言的發(fā)展趨勢(shì)中,分類主題一體化語(yǔ)言近年來(lái)頗受關(guān)注。 分類主題一體化語(yǔ)言,是指在一個(gè)檢索語(yǔ)言系統(tǒng)中,對(duì)它的分類表部分和敘詞表部分,就術(shù)語(yǔ)、參照、標(biāo)識(shí)、索引等實(shí)行統(tǒng)一的控制,即一個(gè)分類系統(tǒng)與一個(gè)主題系統(tǒng)互相兼容,既能充分發(fā)揮各自獨(dú)特的功能,滿足分類或主題標(biāo)引和檢索的需要,又能融為一體,發(fā)揮最佳的整體效應(yīng)。簡(jiǎn)言之,分類主題一體化語(yǔ)言,就是分類語(yǔ)言與主題語(yǔ)言的有機(jī)結(jié)合。 分類主題一體化語(yǔ)言的原理在于,不同的檢索語(yǔ)言雖然符號(hào)形式、結(jié)構(gòu)體系各不相同,但它們的語(yǔ)言基礎(chǔ)卻是共同的。各種檢索語(yǔ)言都以自然語(yǔ)言的語(yǔ)義系統(tǒng)為基礎(chǔ),并在這個(gè)基礎(chǔ)上建立起各自的符號(hào)、詞匯和語(yǔ)法(句法)系統(tǒng)。由于擁有共同的基礎(chǔ),使得統(tǒng)一的詞匯控制成為可能和現(xiàn)實(shí)。 分類主題一體化語(yǔ)言的模式主要有:為敘詞語(yǔ)言
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版國(guó)有土地臨時(shí)用地合同3篇
- 二零二五版高級(jí)別別墅居住權(quán)購(gòu)置與買賣合同3篇
- 醫(yī)院2025年度物流配送服務(wù)合同2篇
- 二零二五年度交通樞紐“四害”滅治與旅客健康服務(wù)合同3篇
- 二零二五版數(shù)字藝術(shù)版權(quán)保護(hù)與侵權(quán)處理合同范本3篇
- 二零二五版宅基地使用權(quán)轉(zhuǎn)讓及農(nóng)村土地流轉(zhuǎn)收益分配合同2篇
- 二零二五年戶外廣告牌場(chǎng)地租賃及新媒體營(yíng)銷合同3篇
- 二零二五年投影機(jī)采購(gòu)與燈光音響租賃服務(wù)合同3篇
- 二零二五版建筑工程項(xiàng)目招投標(biāo)代理中介費(fèi)合同3篇
- 二零二五版汽車零部件鈑金加工及機(jī)加服務(wù)采購(gòu)合同模板3篇
- 退學(xué)費(fèi)和解協(xié)議書模板
- 2024至2030年中國(guó)對(duì)氯甲苯行業(yè)市場(chǎng)全景調(diào)研及發(fā)展趨勢(shì)分析報(bào)告
- 智能教育輔助系統(tǒng)運(yùn)營(yíng)服務(wù)合同
- 心功能分級(jí)及護(hù)理
- DLT 572-2021 電力變壓器運(yùn)行規(guī)程
- 重慶育才中學(xué)2025屆化學(xué)九上期末教學(xué)質(zhì)量檢測(cè)試題含解析
- 成都市2022級(jí)(2025屆)高中畢業(yè)班摸底測(cè)試(零診)數(shù)學(xué)試卷(含答案)
- 【云南省中藥材出口現(xiàn)狀、問(wèn)題及對(duì)策11000字(論文)】
- 服裝板房管理制度
- 河北省興隆縣盛嘉恒信礦業(yè)有限公司李杖子硅石礦礦山地質(zhì)環(huán)境保護(hù)與治理恢復(fù)方案
- 第七章力與運(yùn)動(dòng)第八章壓強(qiáng)第九章浮力綜合檢測(cè)題(一)-2023-2024學(xué)年滬科版物理八年級(jí)下學(xué)期
評(píng)論
0/150
提交評(píng)論