版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章
自然語(yǔ)言在情報(bào)檢索中的應(yīng)用按構(gòu)成原理分:體系分類法分類檢索語(yǔ)言
組配分類法檢索語(yǔ)言
體系-組配分類法標(biāo)題法主題檢索語(yǔ)言單元詞法敘詞法關(guān)鍵詞法
自然語(yǔ)言-自動(dòng)標(biāo)引自然語(yǔ)言:優(yōu)點(diǎn);發(fā)展趨勢(shì)關(guān)鍵詞法:基本原理;性能自動(dòng)標(biāo)引:定義;意義;基本原理;基本流程自然語(yǔ)言張琪玉教授指出:情報(bào)檢索語(yǔ)言是根據(jù)情報(bào)檢索的需要而創(chuàng)制的人工語(yǔ)言自然語(yǔ)言是反映文獻(xiàn)題名、文摘和全文內(nèi)容的原詞,檢索方法是對(duì)文獻(xiàn)本身的用詞直接進(jìn)行處理。自然語(yǔ)言20世紀(jì)90年代,美國(guó)把自然語(yǔ)言處理技術(shù)應(yīng)用到情報(bào)檢索領(lǐng)域中,真正實(shí)現(xiàn)了非布爾邏輯中的自然語(yǔ)言檢索系統(tǒng)。NLM的自動(dòng)標(biāo)引項(xiàng)目——標(biāo)引創(chuàng)始項(xiàng)目(IndexingInitiative,II)自然語(yǔ)言對(duì)數(shù)量巨大而復(fù)雜的網(wǎng)上動(dòng)態(tài)信息,用人工檢索語(yǔ)言進(jìn)行信息處理顯然是困難的,只能依賴于自然語(yǔ)言并借助計(jì)算機(jī)進(jìn)行文獻(xiàn)信息處理。自然語(yǔ)言的優(yōu)點(diǎn)符合客觀需要,新詞、學(xué)科發(fā)展、加速機(jī)檢數(shù)據(jù)庫(kù)的建設(shè)相對(duì)于受控制語(yǔ)言,有易用性標(biāo)引簡(jiǎn)便,易于自動(dòng)化專指,較好的檢準(zhǔn)率一致性好自然語(yǔ)言發(fā)展趨勢(shì)美國(guó)俄亥俄州大學(xué)圖書(shū)館館長(zhǎng),美籍華人李華偉博士曾預(yù)言:“未來(lái)的情報(bào)檢索語(yǔ)言是以自然語(yǔ)言為主的發(fā)展方向?!标P(guān)鍵詞法自然語(yǔ)言形式的情報(bào)檢索語(yǔ)言
隨計(jì)算機(jī)出現(xiàn),為適應(yīng)索引編制自動(dòng)化的需要產(chǎn)生關(guān)鍵詞:出現(xiàn)在文獻(xiàn)的標(biāo)題(篇名、章節(jié)名)以至摘要、正文中,對(duì)表征文獻(xiàn)主題內(nèi)容具有實(shí)質(zhì)意義的語(yǔ)詞。關(guān)鍵詞的詞匯控制一般來(lái)說(shuō),關(guān)鍵詞不予規(guī)范。事實(shí)上,也須作某種程度(極少量)的規(guī)范化,才能適應(yīng)計(jì)算機(jī)處理的要求和消除那些顯然的、比較容易消除的缺點(diǎn)。(一)詞和符號(hào)的改寫(β改寫成beta)。如果計(jì)算機(jī)符比較完備,可以不作。(二)詞的縮寫。在關(guān)鍵詞系統(tǒng)中都盡量利用縮寫詞(三)詞的分拆和組合。需要提供更多的檢索入口時(shí),就將其從拆成兩個(gè)關(guān)鍵詞(四)不同拼寫形式的詞和同義詞的統(tǒng)一。個(gè)別關(guān)鍵詞系統(tǒng)關(guān)鍵詞法的優(yōu)點(diǎn)直接源于自然詞匯,專指性優(yōu)于其它主題語(yǔ)言標(biāo)引無(wú)需查表,簡(jiǎn)便易行,節(jié)省人力及時(shí)更新詞匯,報(bào)道信息快一致性高可實(shí)現(xiàn)自動(dòng)標(biāo)引關(guān)鍵詞法缺點(diǎn)對(duì)自然語(yǔ)言的等同關(guān)系不規(guī)范統(tǒng)一,不能顯示等同關(guān)系,漏檢可能性大不顯示詞間等級(jí)關(guān)系和相關(guān)關(guān)系,增加檢全文獻(xiàn)的難度機(jī)械抽詞和輪排,有些關(guān)鍵詞款目徒增篇幅關(guān)鍵詞法查全率較低,但查準(zhǔn)率較高關(guān)鍵詞法關(guān)鍵詞法用于計(jì)算機(jī)檢索系統(tǒng)時(shí),可用后控制詞表提高查全率后控制詞表:只供檢索的詞表,是一種同義詞、近義詞和相關(guān)詞的詞匯表。作用:使檢索者可從任何一個(gè)詞出發(fā),在詞表中查到它的一批同義詞、近義詞和相關(guān)詞。由計(jì)算機(jī)自動(dòng)積累而成BiologicalAbstracts美國(guó)《生物學(xué)文摘》(BiologicalAbstracts,簡(jiǎn)稱BA)創(chuàng)刊于1926年,是世界上生命科學(xué)方面最大的檢索工具。由美國(guó)生物科學(xué)情報(bào)服務(wù)社(BioScienceInformationService,簡(jiǎn)稱BIOSIS)編輯出版。BA收錄了世界110多個(gè)國(guó)家和地區(qū)出版的9000多種期刊和連續(xù)出版物,以及約一萬(wàn)多種圖書(shū)和其他類型文獻(xiàn)。BA的數(shù)據(jù)庫(kù)為BIOSISPREVIEW主題索引(SubjectIndex)注釋:①上文;②關(guān)鍵詞;③下文;④文摘號(hào)SubjectContext
Keyword
Ref.No.Pylorihumangastrin①gastric②acidpathogenesis/amecha③3011④Gastricbodymucosacidsecretionelectronmi3084Ousmetastasesfromadenocarcinomacasestud8667………………
美國(guó)《化學(xué)文摘》1907年創(chuàng)刊,由美國(guó)化學(xué)會(huì)所屬化學(xué)文摘服務(wù)社(CAS)編輯出版,現(xiàn)為世界上收錄化學(xué)化工及其相關(guān)學(xué)科文獻(xiàn)最全面,應(yīng)用最廣泛的一種文獻(xiàn)檢索工具。美國(guó)《化學(xué)文摘》
(ChemicalAbstracts,CA)關(guān)鍵詞索引
(KeywordIndex,KI)
該索引由專家從文獻(xiàn)的篇名、原文或文摘中選取能反映文獻(xiàn)主要內(nèi)容而未經(jīng)規(guī)范化處理的3~5個(gè)詞或詞組,按關(guān)鍵詞的字順進(jìn)行輪排而成。其著錄格式如下:Adenocarcinoma①atitumortamoxifenetretinateascorbicancid②690z③
assocdantigencloninggene7791sAntigen
adenocarcinomaassocdcloninggene7791smonoclonalantibodyglycosylation7929sCloningbaculovirusnitricoxidesynthasespodoptera2432r
geneadenocarcinomaassocdantitgen
7791s注釋:①標(biāo)目關(guān)鍵詞;②說(shuō)明語(yǔ);③文摘號(hào)自動(dòng)標(biāo)引的定義自動(dòng)標(biāo)引(AutomaticIndexing);計(jì)算機(jī)輔助標(biāo)引(ComputerAidedIndexing):根據(jù)文獻(xiàn)內(nèi)容,依靠計(jì)算機(jī)系統(tǒng)全部或部分地自動(dòng)給出標(biāo)引符號(hào)的過(guò)程。自動(dòng)標(biāo)引的定義自動(dòng)標(biāo)引自動(dòng)主題標(biāo)引
自動(dòng)分類標(biāo)引自動(dòng)主題標(biāo)引關(guān)鍵在于:詞語(yǔ)抽取對(duì)所識(shí)別出的主題詞進(jìn)行優(yōu)選當(dāng)前,各標(biāo)引系統(tǒng)都在不同程度地使用計(jì)算機(jī)系統(tǒng)進(jìn)行輔助標(biāo)引。自動(dòng)標(biāo)引的意義1.適應(yīng)信息資源快速增長(zhǎng)的需要
加利福尼亞大學(xué)伯克利分校研究人員發(fā)現(xiàn),僅1999-2002年的三年中,全球新生產(chǎn)出的信息量就翻了一番。新產(chǎn)生的信息中92%記錄在硬盤等磁存儲(chǔ)介質(zhì)上。
信息資源的快速增長(zhǎng),造成信息相對(duì)過(guò)剩。只有提高信息組織的效率,才能擺脫信息相對(duì)過(guò)剩帶來(lái)的困惑,因此信息標(biāo)引顯得非常重要。自動(dòng)標(biāo)引適應(yīng)了這一需要。自動(dòng)標(biāo)引的意義2.相對(duì)手工標(biāo)引存在很大優(yōu)勢(shì),克服了手工標(biāo)引難以克服的缺點(diǎn)。與熟練標(biāo)引人員相比,自動(dòng)標(biāo)引的準(zhǔn)確性不如手工標(biāo)引,但在其他指標(biāo)方面自動(dòng)標(biāo)引有無(wú)可比擬的優(yōu)勢(shì):處理能力強(qiáng)處理速度快成本低一致性好,穩(wěn)定性好自動(dòng)標(biāo)引的意義美國(guó)的Cleverton的試驗(yàn)結(jié)果:兩組人員為同一主題編出的敘詞表中詞的同一率僅60%;兩位有經(jīng)驗(yàn)的標(biāo)引員用同一敘詞表對(duì)同一篇文獻(xiàn)進(jìn)行標(biāo)引,其標(biāo)引詞的同一率僅有30%左右;兩個(gè)在同一數(shù)據(jù)庫(kù)中用同一檢索系統(tǒng)檢索同一問(wèn)題的用戶,檢索出的結(jié)果同一率僅40%;兩位科研人員根據(jù)同一提問(wèn)判斷一組指定文獻(xiàn)的相關(guān)性,其同一率不會(huì)超過(guò)60%。采用計(jì)算機(jī)自動(dòng)標(biāo)引,無(wú)論何時(shí)對(duì)同一篇文獻(xiàn)總能標(biāo)引出相同的主題詞。自動(dòng)標(biāo)引的意義美國(guó)學(xué)者Salton對(duì)受控人工標(biāo)引系統(tǒng)MEDLARS和自動(dòng)標(biāo)引系統(tǒng)SMART做了一些比較,結(jié)論是:相對(duì)簡(jiǎn)單的自動(dòng)文本分析系統(tǒng)在文獻(xiàn)檢索環(huán)境中產(chǎn)生的檢索結(jié)果,其質(zhì)量不亞于受控標(biāo)引通常所能達(dá)到的水平。自動(dòng)標(biāo)引的基本原理較典型的漢語(yǔ)自動(dòng)標(biāo)引方法:詞典標(biāo)引法切分標(biāo)引法語(yǔ)法分析標(biāo)引法漢語(yǔ)自動(dòng)標(biāo)引專家系統(tǒng)單漢字標(biāo)引法自動(dòng)標(biāo)引的基本原理根據(jù)自動(dòng)標(biāo)引采用的理論劃分,自動(dòng)標(biāo)引的方法主要有3種:統(tǒng)計(jì)法語(yǔ)言法人工智能法自動(dòng)標(biāo)引的基本原理統(tǒng)計(jì)法(StatisticalApproach):自動(dòng)標(biāo)引各方法中歷史最長(zhǎng)的一種,目前較為成熟。理論基礎(chǔ)是齊夫(Zipf)的省力法則。典型代表:詞頻加權(quán)方法,根據(jù)詞的出現(xiàn)頻率及出現(xiàn)位置等因素確定標(biāo)引詞。自動(dòng)標(biāo)引的基本原理語(yǔ)言法(LinguisticApproach):通過(guò)對(duì)構(gòu)成文獻(xiàn)的自然語(yǔ)言的分析,利用一定算法產(chǎn)生標(biāo)引詞,是從語(yǔ)言學(xué)角度對(duì)自動(dòng)標(biāo)引方法的探索。包括兩種方法:句法分析、語(yǔ)義分析
自動(dòng)標(biāo)引的基本原理人工智能法(ArtificialIntelligenceApproach,AIApproach):自動(dòng)標(biāo)引領(lǐng)域的熱點(diǎn)問(wèn)題,人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等方法的發(fā)展給自動(dòng)標(biāo)引增添了不少動(dòng)力。不少學(xué)者認(rèn)為,人工智能法代表著自動(dòng)標(biāo)引研究的未來(lái)。自動(dòng)標(biāo)引的基本流程確定標(biāo)引源輸入標(biāo)引源內(nèi)容預(yù)處理詞語(yǔ)自動(dòng)切分確定關(guān)鍵詞轉(zhuǎn)換為受控詞給出主題標(biāo)識(shí)符1.確定標(biāo)引源標(biāo)引源:標(biāo)引所依據(jù)的文獻(xiàn)內(nèi)容一般的標(biāo)引源:標(biāo)題:首選標(biāo)引源文摘:一般能夠完全反應(yīng)文獻(xiàn)討論的主題,但難以確定5-6個(gè)最重要的詞。首尾章節(jié)章節(jié)的首尾段段落的首尾句2.輸入標(biāo)引源內(nèi)容必須按標(biāo)引系統(tǒng)要求的格式輸入系統(tǒng),才可能進(jìn)行自動(dòng)標(biāo)引。印刷型文獻(xiàn):手工錄入或OCR(光學(xué)字符識(shí)別)輸入電子文檔(XML、DOC、TXT等格式):直接導(dǎo)入3.文檔的預(yù)處理字符內(nèi)碼的檢測(cè)與轉(zhuǎn)換:BIG5碼與GB碼的自動(dòng)檢測(cè)與轉(zhuǎn)換。文檔格式的檢測(cè)與轉(zhuǎn)換:將不同格式文件轉(zhuǎn)換成適于自動(dòng)標(biāo)引的純文本格式。4.詞語(yǔ)自動(dòng)切分在確定關(guān)鍵詞之前,必須對(duì)文檔進(jìn)行切分,將語(yǔ)句切分成詞。西方文字有分隔符,切分容易實(shí)現(xiàn)。漢語(yǔ)詞的準(zhǔn)確切分較困難(研究相當(dāng)長(zhǎng)時(shí)間),目前自動(dòng)切分已基本能滿足實(shí)際需要。5.確定關(guān)鍵詞根據(jù)文本詞語(yǔ)切分結(jié)果,以詞語(yǔ)在文本中出現(xiàn)的頻次、位置及詞的詞性等因素為依據(jù),確定關(guān)鍵詞。確定關(guān)鍵詞主要方法:絕對(duì)詞頻統(tǒng)計(jì)法:理論基礎(chǔ)是齊夫定律。詞頻權(quán)重法:除考慮詞頻外,還考慮詞的位置、詞的詞性、詞本身的價(jià)值、詞的長(zhǎng)度等因素,對(duì)詞進(jìn)行加權(quán),然后根據(jù)權(quán)值大小確定關(guān)鍵詞。6.轉(zhuǎn)換為受控詞關(guān)鍵詞與受控詞(主題詞、副主題詞、特征詞)之間存在著一定的關(guān)系(如同義詞關(guān)系、上位關(guān)系、下位關(guān)系等)。轉(zhuǎn)換為受控詞目前有效可行的方法:使用關(guān)鍵詞-受控詞對(duì)照表:該表含有關(guān)鍵詞與規(guī)范化的主題詞、副主題詞、特征詞之間的對(duì)照關(guān)系,由此對(duì)應(yīng)轉(zhuǎn)換。利用詞匯相似度:關(guān)鍵詞與主題詞之間存在一定程度的相似性,可通過(guò)某些算法計(jì)算出來(lái),根據(jù)相似性確定相應(yīng)的主題詞。兩種算法:基于詞素的相似度算法;給予單漢字的字面相似度算法。7.給出主題標(biāo)識(shí)符根據(jù)確定的主題詞、副主題詞、特征詞,進(jìn)行組配,給出主題標(biāo)引符號(hào),完成自動(dòng)標(biāo)引。自動(dòng)分詞歧義切分:交集型
并行程序設(shè)計(jì)語(yǔ)言:并行程序設(shè)計(jì)程序設(shè)計(jì)語(yǔ)言
組合型中華人民共和國(guó)海外華人
人民法院參照民法第**條自動(dòng)分詞詞語(yǔ)自動(dòng)切分:以語(yǔ)言學(xué)知識(shí)為基礎(chǔ),通過(guò)一定算法、將組成句子的詞從句子中切分出來(lái),得到詞語(yǔ)集合的過(guò)程??蓮V泛應(yīng)用于自動(dòng)標(biāo)引、智能檢索、自動(dòng)翻譯、自動(dòng)文摘、數(shù)據(jù)挖掘、信息過(guò)濾等領(lǐng)域。詞語(yǔ)自動(dòng)切分的方法根據(jù)其使用的原理和算法,將詞語(yǔ)自動(dòng)切分的方法歸納為三類:詞典法統(tǒng)計(jì)法混合法詞典法(LexicalMethod)又稱機(jī)械分詞方法,是按照一定的策略將待分析的漢字串與切分詞典系統(tǒng)中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。詞典法(LexicalMethod)分詞詞典:停用詞表:文獻(xiàn)中詞頻很高或很低的詞或字特例詞表:如停用詞“的”、“也”可組成“
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 行業(yè)競(jìng)爭(zhēng)態(tài)勢(shì)分析-第1篇-洞察分析
- 施工單位項(xiàng)目職業(yè)健康與安全管理計(jì)劃
- 電力工程施工現(xiàn)場(chǎng)各部門及人員崗位職責(zé)
- 施工安全風(fēng)險(xiǎn)識(shí)別及預(yù)防措施
- 高原冬季施工保證措施
- 空調(diào)線路安裝施工方案與技術(shù)措施
- 一個(gè)與硫酸廠硫酸渣供銷合同
- 銀行內(nèi)部原始股權(quán)轉(zhuǎn)讓協(xié)議
- 2025年學(xué)校防汛工作總結(jié)樣本(2篇)
- 2025年商品流通處工作計(jì)劃樣本(3篇)
- 高職建筑設(shè)計(jì)專業(yè)《建筑構(gòu)造與識(shí)圖》說(shuō)課課件
- 《國(guó)珍產(chǎn)品介紹》
- 醫(yī)院軟式內(nèi)鏡清洗消毒技術(shù)規(guī)范
- 《高速鐵路客運(yùn)乘務(wù)實(shí)務(wù)(活頁(yè)式)》全套教學(xué)課件
- 2024(部編版)道德與法治九年級(jí)上冊(cè) 第二單元 民主與法治 單元測(cè)試(學(xué)生版+解析版)
- 醫(yī)療護(hù)理員基礎(chǔ)理論知識(shí)考試試題題庫(kù)及答案
- 2024年高考英語(yǔ)詞匯表-帶音標(biāo)
- 墊底辣妹教育學(xué)思考(3篇模板)
- 框架結(jié)構(gòu)設(shè)計(jì)國(guó)內(nèi)外研究現(xiàn)狀
- 創(chuàng)新人才認(rèn)證(解決方案)考試題庫(kù)(附答案)
- 新質(zhì)生產(chǎn)力-講解課件
評(píng)論
0/150
提交評(píng)論