


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、自然語(yǔ)言檢索中的概念控制 自然語(yǔ)言檢索是信息檢索中的一個(gè)類型。隨著互聯(lián)網(wǎng)的普及和發(fā)展,信息檢索的最終用戶日趨擴(kuò)大,自然語(yǔ)言檢索成為重要的發(fā)展趨勢(shì)。 目前,自然語(yǔ)言檢索系統(tǒng)采用的是模式匹配技術(shù)。所謂模式指的是關(guān)鍵詞或索引詞匯。模式匹配技術(shù)處理速度快,簡(jiǎn)單易行,但也有缺點(diǎn)。自然語(yǔ)言檢索系統(tǒng)對(duì)同義詞、近義詞、多義詞和其他一些與其相關(guān)的詞語(yǔ)沒(méi)有進(jìn)行規(guī)范和統(tǒng)一,詞間缺乏有機(jī)的聯(lián)系。當(dāng)用戶提問(wèn)的檢索概念具有多種表達(dá)形式時(shí),采用單一的關(guān)鍵詞或自然語(yǔ)言索引詞匹配方式勢(shì)必會(huì)影響檢全率。自然語(yǔ)言
2、檢索系統(tǒng)的選詞沒(méi)有嚴(yán)格限制,詞量過(guò)多過(guò)雜,這樣會(huì)影響檢準(zhǔn)率,并且會(huì)過(guò)多地占用磁盤的存儲(chǔ)空間,影響查詢匹配的速度。要想解決這些問(wèn)題,必須對(duì)自然語(yǔ)言查詢做進(jìn)一步的處理,也就是進(jìn)行概念控制。 1概念控制及其實(shí)現(xiàn)基礎(chǔ) 1.1概念控制的目的 概念并不是孤立存在的,一個(gè)概念總是與其他概念之間存在著各種各樣的關(guān)系,如上下位關(guān)系、同義關(guān)系、反義關(guān)系等。關(guān)鍵詞也會(huì)出現(xiàn)一詞多義、一義多詞以及同一事物多種表述的情形。根據(jù)概念之間的相互聯(lián)系,在詞的概念含義層次上建立聯(lián)系,為檢索用戶提供相關(guān)的結(jié)果分析是概念控制的
3、一個(gè)應(yīng)用前景。例如,“體育”這一概念根據(jù)上下立類的關(guān)系可以細(xì)分為足球、排球、奧運(yùn)會(huì)、亞運(yùn)會(huì)等,單純的字面匹配會(huì)漏檢甚至誤檢很多與之相關(guān)的信息。通過(guò)概念控制就可以將一個(gè)上位類的概念擴(kuò)展為多個(gè)子概念。體育新聞的檢索就可以擴(kuò)展為:體育新聞、球類(足球、籃球、排球)、田徑運(yùn)動(dòng)、體育賽事(奧運(yùn)會(huì)、亞運(yùn)會(huì)、世界杯)等概念,同時(shí)對(duì)那些具有下位概念的詞匯可以再次擴(kuò)展,這樣就大大地提高了檢索效果?!坝?jì)算機(jī)”和“電腦”是同一事物的不同表述,機(jī)械匹配的話就只能檢索到有關(guān)“計(jì)算機(jī)”或“電腦”的信息,采用概念控制的相關(guān)方法可以將這些相同概念的詞匯統(tǒng)一到檢索匹配中,這樣就擴(kuò)大了檢索面,提高了檢全率。在自然語(yǔ)言檢索系統(tǒng)中進(jìn)
4、行慨念控制,就是把信息檢索從目前的基于關(guān)鍵詞層面提高到基于知識(shí)(概念)層面,能夠從概念意義層次上來(lái)認(rèn)識(shí)和處理檢索用戶的請(qǐng)求,從而提高檢全率和檢準(zhǔn)率。 1.2概念控制的主要方法 目前雖然沒(méi)有一個(gè)檢索系統(tǒng)可以完全實(shí)現(xiàn)理想狀態(tài)下的高層次的語(yǔ)義檢索,但有些自然語(yǔ)言檢索系統(tǒng)已經(jīng)采用概念控制查詢。主要的方法是利用知識(shí)體系建立概念間的關(guān)系進(jìn)行查詢擴(kuò)展,深度匹配,優(yōu)化檢索效果。 概念控制的內(nèi)容包括:提問(wèn)句概念語(yǔ)義塊的抽取,從提問(wèn)句中切分出概念詞或詞組等語(yǔ)義單位;基于知識(shí)體系對(duì)抽取出的語(yǔ)義單元進(jìn)行概念擴(kuò)展
5、;概念的組配,將選擇出的各檢索單位基于知識(shí)體系的組織信息轉(zhuǎn)換成體現(xiàn)概念關(guān)系的邏輯表達(dá)式。 概念抽取不等同于分詞處理,其中包括普通概念的識(shí)別和人名、地名、事件名等專有名詞的識(shí)別,并進(jìn)行概念提取。對(duì)于普通的概念字串采用逆向最長(zhǎng)匹配算法(或正向最長(zhǎng)匹配算法),并綜合切割標(biāo)記等分詞手段切分就可以進(jìn)行概念抽取。對(duì)于詞典中未收錄的概念詞,可以采取基于句模、句子結(jié)構(gòu)分析、詞和詞組構(gòu)成規(guī)則、句內(nèi)結(jié)構(gòu)性標(biāo)志字、標(biāo)點(diǎn)符號(hào)等來(lái)進(jìn)行切分。除切割標(biāo)志外,已知的詞也可作切割標(biāo)記使用。 自然語(yǔ)言
6、; 檢索系統(tǒng)的本質(zhì)是查詢滿足特定主題概念的文本,因此被檢索的內(nèi)容不是和提問(wèn)句的字面匹配。對(duì)提問(wèn)進(jìn)行分析后抽取出的主要是概念或概念的組合,需要進(jìn)行概念匹配,這就需要對(duì)檢索句中的詞進(jìn)行概念擴(kuò)展,即考慮提問(wèn)句中詞的同近義詞、上下位詞和關(guān)聯(lián)詞??梢酝ㄟ^(guò)知識(shí)體系保存同近義關(guān)系、上下位關(guān)系和其他關(guān)聯(lián)關(guān)系,當(dāng)處理用戶檢索需求時(shí),通過(guò)查詢知識(shí)體系可對(duì)提問(wèn)句中的詞按概念進(jìn)行擴(kuò)展。如“我國(guó)今天的體育新聞”,可以通過(guò)知識(shí)體系對(duì)“體育”進(jìn)行擴(kuò)展,查詢包括“籃球”、“賽車”、“奧運(yùn)會(huì)”、“世界杯”等方面的內(nèi)容,“今天”一詞指檢索者進(jìn)行檢索時(shí)的日期,因此需通過(guò)規(guī)則將“今天”映射為檢索時(shí)的
7、時(shí)間,將“我國(guó)”擴(kuò)展為“我國(guó)”V“中國(guó)”V“中華人民共和國(guó)”(知識(shí)體系中可能只存在“中國(guó)”和“中華人民共和國(guó)”之間的同義關(guān)系,沒(méi)有“我國(guó)”這一詞條)。 概念組配,按其內(nèi)在邏輯關(guān)系,可分為限定組配和相交組配。限定組配將一個(gè)概念的內(nèi)涵增加到另一個(gè)概念的內(nèi)涵中,從而加深概念的內(nèi)涵,縮小或限定了概念的外延。相交組配將具有共同的屬概念、概念之間具有相交關(guān)系、外延部分重合的概念組合成一個(gè)新概念。在構(gòu)成查詢表達(dá)式時(shí),基于知識(shí)體系的擴(kuò)展詞和原詞間為“邏輯加”的關(guān)系。如“美麗”擴(kuò)展為“美麗”V“漂亮”VV“標(biāo)志”。提問(wèn)句中語(yǔ)義塊間的關(guān)系通常為邏輯乘的關(guān)系。語(yǔ)義塊間的概念組配通
8、常存在如下邏輯關(guān)系:(1)主謂結(jié)構(gòu),描述的是一種陳述與被陳述的關(guān)系。(2)偏正結(jié)構(gòu),描述的是一種修飾與被修飾的關(guān)系。(3)動(dòng)賓結(jié)構(gòu),描述的是一種作用和被作用的關(guān)系。(4)并列結(jié)構(gòu),描述的是一種成分間的并列關(guān)系1。主謂結(jié)構(gòu)、偏正結(jié)構(gòu)和動(dòng)賓結(jié)構(gòu)間為“邏輯乘”關(guān)系,并列結(jié)構(gòu)為“邏輯加”關(guān)系。但通過(guò)對(duì)檢索提問(wèn)句進(jìn)行分析后發(fā)現(xiàn),部分并列結(jié)構(gòu)在用戶的檢索概念中為“邏輯乘”關(guān)系,于是采用通過(guò)句模分析和指示標(biāo)志來(lái)確定語(yǔ)義塊間的“邏輯乘”或“邏輯加”關(guān)系。提問(wèn)句語(yǔ)義塊之間的“邏輯加”關(guān)系通常存在顯式指示標(biāo)志,如“或”等。分析傳統(tǒng)的主、謂、賓、定、狀、補(bǔ)六大成分與句型的關(guān)系,可以輔助獲取語(yǔ)義塊的邏輯關(guān)系。檢索提問(wèn)
9、句的語(yǔ)義概念和提問(wèn)句的結(jié)構(gòu)緊密相關(guān)。需要分析謂語(yǔ)的性質(zhì)、句子的結(jié)構(gòu),如“把”字、“被”字句等。 概念控制的3項(xiàng)關(guān)鍵技術(shù)中,概念擴(kuò)展和概念組配都離不開(kāi)知識(shí)體系的支持,知識(shí)體系的好壞直接關(guān)系到檢索效果的優(yōu)劣。 1.3概念控制系統(tǒng) 國(guó)內(nèi)外已有一些檢索系統(tǒng)在不同程度上實(shí)現(xiàn)了概念控制,代表系統(tǒng)有首信搜索引擎、孫悟空、UMLS等。下面以UMLS為例進(jìn)行介紹。 UMLS(
10、Unified Medical Language System,美國(guó)統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)),是美國(guó)國(guó)立醫(yī)學(xué)圖書館(NLM)于1986年開(kāi)始研制的一項(xiàng)長(zhǎng)期開(kāi)發(fā)研究計(jì)劃,旨在克服計(jì)算機(jī)生物醫(yī)學(xué)信息檢索中的兩個(gè)顯著障礙(相同的概念具有不同的表達(dá)方式;有用的信息分散在不同的數(shù)據(jù)庫(kù)系統(tǒng)中),使用戶很容易地跨越了在病案系統(tǒng)、文獻(xiàn)摘要數(shù)據(jù)庫(kù)、全文數(shù)據(jù)庫(kù)以及專家系統(tǒng)之間的屏障。UMILS包括4個(gè)部分:專家詞典、超級(jí)敘詞表、語(yǔ)義網(wǎng)絡(luò)、情報(bào)源圖譜。專家詞典是一個(gè)包含眾多生物醫(yī)學(xué)詞匯的英語(yǔ)詞典,可以確定英語(yǔ)詞匯的范圍以及識(shí)別生物醫(yī)學(xué)術(shù)語(yǔ)和文本詞的詞形變異,也為超級(jí)敘詞表提供了確定范圍的醫(yī)學(xué)術(shù)語(yǔ)和詞匯。超級(jí)敘詞表是生物醫(yī)學(xué)概念、術(shù)語(yǔ)、詞匯及其涵義等級(jí)范疇的廣泛集成。語(yǔ)義網(wǎng)絡(luò)是為建立概念、術(shù)語(yǔ)間錯(cuò)綜復(fù)雜的關(guān)系而沒(méi)計(jì)的,它為超級(jí)敘詞表中所有慨念提供了語(yǔ)義類型、語(yǔ)義關(guān)系和語(yǔ)義結(jié)構(gòu)。情報(bào)源圖譜是一個(gè)關(guān)于生物醫(yī)學(xué)機(jī)讀情報(bào)資源的數(shù)據(jù)庫(kù),其目的是利用超級(jí)敘詞表和語(yǔ)義網(wǎng)絡(luò)實(shí)現(xiàn)以下功能:確定情報(bào)源與特定提問(wèn)的相關(guān)性,以便選取最合適的情報(bào)源;為用戶提供特定情報(bào)源的范圍、功能和檢索條件等人工可讀的信息;自動(dòng)鏈接相關(guān)情報(bào)源;在一個(gè)或多個(gè)情報(bào)源中自動(dòng)檢索并自動(dòng)組織檢索的結(jié)果。 圖1矩形框中所示的部分即為概念控制部分。 &
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 遺產(chǎn)分房協(xié)議書范本
- 個(gè)人房屋抵押合同
- 配電箱組裝培訓(xùn)
- 《啟迪-課件素材》課件
- 車輛開(kāi)運(yùn)輸發(fā)票合同協(xié)議
- 遠(yuǎn)程醫(yī)療服務(wù)合同協(xié)議
- 河道入股協(xié)議書
- 郵送廣告制作合同協(xié)議
- 跪求個(gè)人協(xié)議合同協(xié)議
- 送菜合同協(xié)議書模板
- 2024山東鐵投集團(tuán)招聘筆試沖刺題(帶答案解析)
- 環(huán)境與資源保護(hù)法學(xué)智慧樹(shù)知到期末考試答案章節(jié)答案2024年湖南師范大學(xué)
- 國(guó)家級(jí)自然災(zāi)害工程應(yīng)急救援隊(duì)伍建設(shè)規(guī)范
- 水利水電工程建設(shè)用地設(shè)計(jì)標(biāo)準(zhǔn)(征求意見(jiàn)稿)
- MOOC 美術(shù)鑒賞-河南理工大學(xué) 中國(guó)大學(xué)慕課答案
- 【上海市機(jī)電產(chǎn)品出口現(xiàn)狀及優(yōu)化建議探析8600字(論文)】
- 2024近期名校模擬題詩(shī)歌鑒賞(銜接教材)匯編
- 醫(yī)療器械掛靠合作協(xié)議
- 2020年資產(chǎn)評(píng)估報(bào)告說(shuō)明模板(完整版)
- 從院感控制看抗生素的合理應(yīng)用
- 工貿(mào)行業(yè)高風(fēng)險(xiǎn)領(lǐng)域安全生產(chǎn)專項(xiàng)工貿(mào)行業(yè)高風(fēng)險(xiǎn)領(lǐng)域安全生產(chǎn)專項(xiàng)整治清單培訓(xùn)
評(píng)論
0/150
提交評(píng)論