Oracle全文檢索主要技術(shù)初探_第1頁
Oracle全文檢索主要技術(shù)初探_第2頁
Oracle全文檢索主要技術(shù)初探_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、全文檢索主要技術(shù)初探 一、弁言跟著信息技能的飛速生長,各行各業(yè)越來越靠信息體系,面臨越來越多的數(shù)據(jù),怎樣對信息舉行有用構(gòu)造和檢索越來越受到人們的看重?,F(xiàn)在各大數(shù)據(jù)庫廠商的數(shù)據(jù)庫版本中都帶有全文檢索功效,如SQL Server自7.0今后供給了全文檢索的功效;Oracle自7.3開端供給文本查詢功效。在Oracle8i中,文本檢索和媒體治理連系在interMedia中,而且其須要零丁安裝;從Oracle9i開端,文本檢索從interMedia中分別出來,定名為Oracle Text,在尺度和企業(yè)級數(shù)據(jù)庫版本中為默認(rèn)組件不再須要零丁的允許。本文重要對Oracle9i的Oracle Text中所涉及

2、的重要技能舉行商量。二、全文檢索技能1.觀點(diǎn)全文檢索便是指盤算機(jī)索引法式經(jīng)由過程掃描文章中的每一個(gè)詞,工業(yè)自動化論文對每一個(gè)詞創(chuàng)建索引,當(dāng)用戶查詢時(shí),檢索法式就憑據(jù)事先創(chuàng)建好的索引舉行查找,并將查找的效果反饋給用戶的檢索方法。2.全文檢索體系布局圖(如圖1)3.重要技能全文檢索重要由兩方面的焦點(diǎn)技能連系而實(shí)現(xiàn):一是創(chuàng)建和保護(hù)索引庫,二是供給快速有用的檢索機(jī)制。(1) 文天職析作為全文檢索技能的主要構(gòu)成部門,中文分詞技能和種種常見格局文檔的處置懲罰方法是研討和運(yùn)用一定涉及的兩個(gè)方面?,F(xiàn)在利用最為普遍的中文分詞要領(lǐng)是詞表切分法,這種要領(lǐng)的焦點(diǎn)是詞表的匹配要領(lǐng)?,F(xiàn)在,針對種種格局文檔的處置懲罰,其重

3、要實(shí)現(xiàn)方法是將種種格局文檔先轉(zhuǎn)換為某種中心格局,然后對中心格局舉行索引和查詢。(2)索引在中文體系中,根基元素可所以單個(gè)漢字字符,也可所以詞。是以存在兩種根基的索引庫布局,即基于字表的索引庫和基于詞表的索引庫。字表法和詞表法各有優(yōu)缺陷。前者適用性很強(qiáng),構(gòu)建直不雅便利。檢索方面,比力適用的是“首字直接匹配法”。詞表法多會合在中文主動分詞研討,天然說話統(tǒng)計(jì)闡發(fā)等方面。全文檢索中索引的構(gòu)造要領(lǐng)有兩種,即正排表和倒排表?,F(xiàn)在每每都接納倒排表舉行構(gòu)造。索引建立歷程不須要排序,分為如下兩步。第一步闡發(fā)源文檔,孕育發(fā)生暫時(shí)的中心文件,我們稱為闡發(fā)歷程。第二步處置懲罰暫時(shí)文件,依次從暫時(shí)文件中讀取每個(gè)字符涌現(xiàn)

4、在每一篇文章中的數(shù)據(jù)信息,天生終極的倒排文件,在這里稱為建立歷程。天生的終極倒排文件中包羅每個(gè)字符涌現(xiàn)在全部文檔中的信息。(3)檢索國家法憲法論文從文檔的內(nèi)容上,信息檢索有四種傳統(tǒng)模子:布爾模子(Boolean Model)、向量空間模子(Vector Space Model,VSM)、概率模子(Probabilistic Model)和邏輯模子(Logic Model)。在四種傳統(tǒng)模子的根本上,又演化出了種種其他模子。三、Oracle Text 全文檢索技能及實(shí)現(xiàn)要利用Oracle Text,必需具有CTXAPP腳色大概是CTXSYS用戶。Oracle Text為體系治理員供給CTXSYS用

5、戶,為運(yùn)用法式開辟職員供給CTXAPP腳色。CTXSYS用戶可實(shí)行以下使命:啟動Oracle Text辦事器,實(shí)行CTXAPP腳色的全部使命。具有CTXAPP腳色的用戶可實(shí)行以下使命: 建立索引,治理 Oracle Text 數(shù)據(jù)字典,包羅建立和刪除首選項(xiàng),舉行Oracle Text 查詢,利用 Oracle Text PL/SQL法式包。以下經(jīng)由過程簡樸的實(shí)例從文本裝載建筑電氣論文成本管理論文可以利用逗號作為定界符.Load1.ctl:Load dataINFILE loader2.data解釋:要導(dǎo)入的文件INTO TABLE articles_formatted 解釋:指定裝入的表APP

6、END解釋: 本來的表稀有據(jù) 就加在背面FIELDS TERMINATED BY ,解釋:以逗號作為定界符(如要裝載的數(shù)據(jù)是”abc,d,e”,在表中效果是”abcde”)(article_id SEQUENCE (MAX,1),解釋:以下是表的字段,FILLER 要害字 此列的數(shù)值不會被裝載 author CHAR(30), ext_fname FILLER CHAR(80), text LOBFILE(ext_fname) TERMINATED BY EOF)load2.data:1,JohnHancock,e:1LoadingMethods.txt,2,張三,e:1oracle全文檢索技

7、能.doc,3,牧醫(yī)論文曉月,e:1全文檢索道理及實(shí)現(xiàn).pdf,然后就可以實(shí)行以下下令sqlldr userid=ctxsys/ctxsys control=load.ctl data=load.data log=load.log(2)利用DBMS_L OB裝載文檔SQL*Loader固然可以用于批量的裝載文檔,然則不克不及將文檔文件載入已存在的行內(nèi)。此時(shí)就可以利用DBMS_L0B。這起首須要在數(shù)據(jù)庫中建立一個(gè)目次(這請求用戶有CREATE ANY DIRECTORY的權(quán)限),創(chuàng)建一個(gè)你要加載的文件地點(diǎn)目次的別號。然后挪用DBMS.FRROMFILE()函數(shù)。須要留意的是在舉行中文檢索時(shí),加載文件之后,還須要將所加載的文件的信息,如:格局、字符集、說話等信息添加到響應(yīng)的列中。(3)利用ctxload裝載文檔語法格局: text.col_name:列名doc_data: 存儲在列中的布局化數(shù)據(jù)text:被裝載的文檔內(nèi)容或文檔名稱(4) SQL INSERT 語句2.索引Oracle Text的索引在布局上和Oracle中的其他索引完整差別。繪畫藝術(shù)論文在建立索引歷程中,可以對數(shù)據(jù)存儲,分段器,詞法闡發(fā)器,過濾器,相干詞表,停詞表或存儲首選項(xiàng)等參數(shù)舉行配置。對付英文的檢索,不須要配置首選項(xiàng),完整利用默認(rèn)值就可以了。然則對付其他語種文檔

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論