


全文預(yù)覽已結(jié)束
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
用于中文信息自動分類的知識庫的構(gòu)建 1、前言 隨著計算機、網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,為了實現(xiàn)網(wǎng)絡(luò)信息處理的智能化、自動化和精細化,以詞表、分類表、語言形式出現(xiàn)的各種情報檢索語言加快了與標(biāo)記語言、超文本技術(shù)和其他軟件技術(shù)的融合,出現(xiàn)了新一代的情報檢索語言與自然語言的結(jié)合體知識組織系統(tǒng)。 知識組織系統(tǒng)是指各種對人類知識結(jié)構(gòu)進行表達和有組織闡述的語義工具,主要包括分類法、主題詞表、語義網(wǎng)絡(luò)、主題圖、知識本體等。分類法和主題詞表在信息資源的加工組織中發(fā)揮著重要的作用,而語義網(wǎng)絡(luò)、主題圖、知識本體則是針對第二代語義Web提出的知識組織系統(tǒng)。 本文所討論的中國圖書館分類法(以下簡稱中圖法)知識庫也是一種知識組織系統(tǒng),或稱為用于自動標(biāo)引和分類的專家系統(tǒng),它建立在中圖法的基礎(chǔ)上,通過機器統(tǒng)計歸納出眾多人工標(biāo)引記錄中所凝結(jié)的標(biāo)引經(jīng)驗,建立分類號、主題詞、關(guān)鍵詞之間的概念對應(yīng)關(guān)系,從而實現(xiàn)對文獻的自動標(biāo)引和自動分類,進而實現(xiàn)概念檢索。 2、中圖法知識庫構(gòu)建的原理 分類檢索語言、主題檢索語言和自然語言是3種不同的情報語言系統(tǒng),標(biāo)識和組織方式各不相同,但在本質(zhì)上是一樣的,都是一種主題概念標(biāo)識系統(tǒng),分類號、主題詞、關(guān)鍵詞都可用來表示某一文獻信息的主題概念。因此,這三者之間存在著隱含的概念對應(yīng)關(guān)系,即兼容關(guān)系。 國內(nèi)大多數(shù)圖書館、情報機構(gòu)和信息中心所擁有的文獻數(shù)據(jù)庫中存在著大量的人工標(biāo)引記錄,這些記錄中包含分類標(biāo)引和主題標(biāo)引(主題詞串或關(guān)鍵詞串)雙重數(shù)據(jù)。我們可以通過對這些標(biāo)引數(shù)據(jù)的計算機處理,挖掘出分類號主題詞串關(guān)鍵詞串之間的概念對應(yīng)關(guān)系,實現(xiàn)三者之間的兼容互換。在此基礎(chǔ)上,構(gòu)建一個自動標(biāo)引和自動分類用知識庫,實現(xiàn)中文文獻的自然語言標(biāo)引、主題規(guī)范、自動分類及概念檢索。 不管是分類檢索語言還是主題檢索語言,乃至任何知識組織系統(tǒng),都使用了分類方法。而中圖法是一個建立在知識分類基礎(chǔ)上、可用于信息組織的概念語義網(wǎng)絡(luò),因此,我們選擇中圖法作為本知識庫的主干體系。 (1)中圖法是我國自編的一部大型綜合性圖書分類法,可用于圖書資料、音像資料和其他類型信息的分類標(biāo)引和檢索。它在國內(nèi)有著最廣泛的影響和最眾多的用戶,是早已被大家公認(rèn)的“不是標(biāo)準(zhǔn)”的標(biāo)準(zhǔn)。 (2)中圖法自首次出版以來,在30多年里經(jīng)過圖書情報領(lǐng)域和其他各專業(yè)領(lǐng)域?qū)<叶啻涡抻喐陌?,具有廣泛的學(xué)科覆蓋面、完善的知識組織結(jié)構(gòu),在等級體系的基礎(chǔ)上加入了分面組配的功能,能夠適應(yīng)現(xiàn)代文獻信息分類自動化的需求。中圖法已建成了用最詳細的元數(shù)據(jù)格式MARC描述的中圖法數(shù)據(jù)庫,2000年出版了電子版,而且正在向網(wǎng)絡(luò)版發(fā)展。 (3)目前國內(nèi)幾大文獻數(shù)據(jù)庫的分類標(biāo)引均以中圖法為分類依據(jù),選擇中圖法作為知識庫的組織框架,可以直接利用這些現(xiàn)已達到數(shù)百萬、上千萬條的標(biāo)引記錄,從而免去類號轉(zhuǎn)換的麻煩。 (4)中圖法從90年代起,已經(jīng)實現(xiàn)了與國內(nèi)規(guī)模最大、用戶最多的敘詞表漢語主題詞表(以下簡稱漢表)的兼容互換,研制并出版了國內(nèi)最大的分類主題一體化詞表中國分類主題詞表(簡稱中分表)。近幾年還完成了中分表電子版的開發(fā),并在新版中大幅度地增加了入口詞,加快了檢索語言的自然語言化。這一切為分類檢索語言、主題檢索語言、自然語言三者在標(biāo)引、檢索中的互操作奠定了基礎(chǔ)。 (5)中圖法的網(wǎng)絡(luò)信息分類組織的可行性得到了大多數(shù)專家的認(rèn)同,它也正在采取分面化、增加自然語言接口、增加超文本鏈接等多種措施,以適應(yīng)網(wǎng)絡(luò)信息組織的發(fā)展需求。 總之,在構(gòu)建中文文獻自動標(biāo)引和自動分類系統(tǒng)用知識庫時,選擇中圖法作為知識庫的主干,具有明顯的優(yōu)勢。 3、中圖法知識庫與中圖法體系的結(jié)構(gòu)比較 中圖法與其他的傳統(tǒng)分類法一樣,包括分類表(含附表)和類目索引兩大部分。隨著情報檢索語言向分類主題一體化方向發(fā)展,中圖法與漢表融為一體。1993年,中圖法編委會在中圖法與漢表對應(yīng)的基礎(chǔ)上編制出版了分類主題一體化詞表中分表,從而使中圖法的體系日臻完善。中圖法體系如圖1所示。 中圖法的結(jié)構(gòu) 中圖法體系在文獻手工標(biāo)引時代做出了卓著的貢獻,但在應(yīng)用于網(wǎng)絡(luò)信息和自動化時卻暴露出如下弊端: (1)無論是分類表還是對應(yīng)的主題詞表或分類主題一體化的中分表都屬于受控語言,自然語言人口少,用戶使用不便。 (2)中圖法及其系統(tǒng)產(chǎn)品的著眼點是便于圖書情報人員的標(biāo)引和檢索,而不是著眼于網(wǎng)絡(luò)時代的普通用戶的直接使用,因而過于強調(diào)詞匯控制,忽略了檢索語言與自然語言的結(jié)合。 (3)人工編制,定期修訂,更新慢,大量新詞、新主題、新類不能及時收錄。 (4)受印刷版的限制,分類表、詞表的規(guī)模偏小,類目和詞匯數(shù)量少, 難以滿足計算機自動處理的需要。 由于現(xiàn)有中圖法體系存在著上述弊端,所以有必要引進新的計算機和網(wǎng)絡(luò)技術(shù)對中圖法進行技術(shù)改造,包括采用計算語言學(xué)的方法和計算機編表技術(shù),揭示分類檢索語言、主題檢索語言、自然語言之間的兼容互換關(guān)系,增加自然語言接口,擴充詞表規(guī)模和加快增補更新,從而適應(yīng)網(wǎng)絡(luò)時代信息組織的發(fā)展。 我們開發(fā)的知識庫以中圖法為主干體系,包含若干個詞表和詞典,其中分類號關(guān)鍵詞串對應(yīng)表為主分類知識庫,即知識庫的主體;抽詞詞典、停用詞表、同義詞表、義類詞典是主題標(biāo)引知識庫;地名表、時代表、文獻類型表等為輔助分類知識庫;另外還有采用中圖法知識庫標(biāo)引和檢索的文獻數(shù)據(jù)庫。圖2顯示了本知識庫的結(jié)構(gòu)。 中圖法知識庫的結(jié)構(gòu) 雖然都以中圖法分類體系為主干,揭示主題詞串與類號的對應(yīng)關(guān)系,均可實現(xiàn)文獻信息分類主題一體化標(biāo)引。但兩者相比,中圖法知識庫無論在內(nèi)容、數(shù)量還是結(jié)構(gòu)、功能上都優(yōu)于中圖法體系,更適合于文獻信息標(biāo)引的自動化和信息檢索的智能化。 (1)中圖法體系只揭示了分類號與主題詞串的對應(yīng)關(guān)系, 而知識庫則揭示了分類號與主題詞串、分類號與關(guān)鍵詞串、主題詞與關(guān)鍵詞之間的對應(yīng)關(guān)系;后者詞匯直接來源于文獻,更新比前者快,便于用戶檢索。 (2)中圖法體系只揭示了分類表中羅列出的類目和主題詞串的對應(yīng)關(guān)系;而知識庫源于標(biāo)引記錄,包含了大量組合類目(仿分、復(fù)分時組配而成的類目),類目數(shù)明顯多于中圖法體系。 (3)在中圖法體系中一個類號最多對應(yīng)20個主題詞(串), 而中圖法知識庫中類目最多能對應(yīng)幾百個詞串,平均一個類目對應(yīng)1014個詞串,比中分表體系更能揭示類目的隱含概念;同時,詞串?dāng)?shù)量大,便于自動分類中的相符性比較。 (4)中圖法體系主要應(yīng)用在手工標(biāo)引和分類上;而知識庫的規(guī)模大、容量大、更新快、可擴充性好,因而可以成功地應(yīng)用于自動標(biāo)引和自動分類。它不僅能保證較高的標(biāo)引質(zhì)量和分類正確性,而且在主題標(biāo)引時不僅給出主題詞還給出關(guān)鍵詞,另外,它的同義詞表、它的地名、時代、文獻類型等的多重標(biāo)引
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 預(yù)應(yīng)力混凝土工程教學(xué)課件
- 汽車配套產(chǎn)業(yè)基地項目數(shù)字化方案(參考模板)
- 2025年年健康服務(wù)項目建議書
- 2025年低功率氣動閥島用控制閥項目合作計劃書
- 2025年達美航空合作協(xié)議書
- 現(xiàn)代能源行業(yè)發(fā)展條件分析
- 2025年轉(zhuǎn)基因耐貯藏番茄項目發(fā)展計劃
- 西師大版三年級數(shù)學(xué)上冊全冊單元知識點
- 2025年氟炭漆項目合作計劃書
- 2025年智能分揀系統(tǒng)項目合作計劃書
- 地鐵安檢培訓(xùn)課件
- 摸魚活動策劃方案
- 化療所致血小板減少癥CIT
- 2025年北京市中考物理試卷真題(含答案)
- 2025年定向士官心理測試題及答案
- 2025年安徽高考地理試卷真題(含答案)
- 建設(shè)工程糾紛律師課件
- 全國衛(wèi)生健康系統(tǒng)職業(yè)技能競賽(傳染病防治監(jiān)督)參考試題庫(含答案)
- 樓梯 欄桿 欄板(一)22J403-1
- 《特殊患者護理規(guī)范》
- 汽車維修安全生產(chǎn)管理制度大全
評論
0/150
提交評論