全文檢索系統(tǒng)整體方案設(shè)計(jì)方案_第1頁
全文檢索系統(tǒng)整體方案設(shè)計(jì)方案_第2頁
全文檢索系統(tǒng)整體方案設(shè)計(jì)方案_第3頁
全文檢索系統(tǒng)整體方案設(shè)計(jì)方案_第4頁
全文檢索系統(tǒng)整體方案設(shè)計(jì)方案_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

全文檢索系統(tǒng)整體方案設(shè)計(jì)方案全文檢索系統(tǒng)整體方案設(shè)計(jì)方案33優(yōu)選文檔全文檢索系統(tǒng)方案全文檢索需求索、跨庫檢索等多種檢索路子;支持字索引和詞索引;檢索條件擁有完滿的要點(diǎn)詞布爾規(guī)律運(yùn)算AND、OR、NOT力氣,支持復(fù)點(diǎn)詞盤問優(yōu)先級(jí)的設(shè)置;結(jié)果集;/繁體、英文、日語、韓語內(nèi)容實(shí)現(xiàn)要點(diǎn)字檢索;口以支持特別文檔格式的全文檢索;最,即支持增量索引體系;用戶可自行設(shè)準(zhǔn)時(shí)間,讓系統(tǒng)自動(dòng)準(zhǔn)時(shí)進(jìn)展更索引;10供給跨數(shù)據(jù)源、數(shù)據(jù)格式的找尋;同過相關(guān)性找尋,能夠把和找尋條件相關(guān)系的信息找尋出來;不僅能夠?qū)D片的描述信息進(jìn)展找尋,還能夠?qū)D片內(nèi)容的檢索;供給COM與SOAP的找尋接口(Interface)可讓其他應(yīng)用程序或盤問網(wǎng)合要點(diǎn)詞消滅的內(nèi)容片斷;地址;件進(jìn)展排序;時(shí),不在標(biāo)記過的文件中進(jìn)展盤問;全文檢索系統(tǒng)整體方案系統(tǒng)將承受以下全文檢索流程。FuzzySearchSynonymPhraseWild-CardMulti-fieldFilter

IRMS

TermExtractTermIndex

Folder/ShareFolderwithDocumentsIRMS.SearchEngine IRMS.Indexer AdapterComposerFileExtractorpplitin((rIIttrf))

WebSiteRobot/SpiderByURLEntryRDBMS(ODBC/OLEDB/JDBC)FileNET

LotusDominoR5,R6(NSF)針對(duì)企業(yè)內(nèi)部的信息,包括文件效勞器上的文件、網(wǎng)站網(wǎng)頁、ERP相對(duì)構(gòu)造化的數(shù)據(jù)虛假層;本系統(tǒng)的索引引擎〔Indexer〕對(duì)構(gòu)造化的數(shù)據(jù)虛假會(huì)在索引庫中進(jìn)展找尋,并將吻合找尋條件的找尋結(jié)果返回給使用者;使用者〔user〕可于盤問結(jié)果頁面,進(jìn)一步鏈接到信息原文查察具體內(nèi)容。環(huán)境及設(shè)置文件;并經(jīng)過索引引擎〔Indexer.exe〕實(shí)時(shí)或準(zhǔn)時(shí)創(chuàng)辦索引,更索引數(shù)據(jù)庫的內(nèi)容,使檢索信息保持在最狀態(tài)。全文檢索系統(tǒng)帶來的效益高效率的整合找尋,大幅削減組織成員在獵取信息時(shí)開銷的時(shí)間!實(shí)時(shí)地把握企業(yè)內(nèi)外全部信息,不用再消耗大量時(shí)間的找尋信息!信息過分不會(huì)造成企業(yè)成員的信息憂愁!/找尋力氣,大量的信息也可在剎時(shí)過濾出吻合使用者條件的信息,不用擔(dān)憂迷失在漫漫的信息大水之中!非構(gòu)造/非組織的信息,不再是學(xué)問治理的盲點(diǎn)!文件/檔案以及非經(jīng)過分類治理的信息,由于附加信息罕見,常常成為學(xué)問類信息同樣可讓使用者以檢索方式,快速優(yōu)選利用!整合簡潔,使用簡潔,導(dǎo)入快速,易于承受!本錢為企業(yè)創(chuàng)辦信息流通、充分共享的學(xué)問環(huán)境。全文檢索系統(tǒng)平臺(tái)架構(gòu)本系統(tǒng)基于組件化和松弛耦合架構(gòu)和設(shè)計(jì),系統(tǒng)平臺(tái)架構(gòu)表示圖以下:整個(gè)系統(tǒng)主要分為信息整合、信息萃取和效勞、應(yīng)用整合三個(gè)局部。信息整合一個(gè)相對(duì)構(gòu)造化的數(shù)據(jù)虛假層,以備后期信息萃取和效勞。信息萃取和效勞信息。應(yīng)用整合SDK口,便利應(yīng)用整合和應(yīng)用擴(kuò)展。信息整合此局部主要供給對(duì)企業(yè)內(nèi)外面非構(gòu)造性數(shù)據(jù)信息源建立自動(dòng)化數(shù)PDF、MHT、AutoCAD〔如電影的文件名或大綱、圖片的文件名或大綱、及文字〕同時(shí)用戶能夠選擇導(dǎo)入數(shù)據(jù)庫數(shù)據(jù)如、MS 等。其他和Notes系統(tǒng)也已經(jīng)有了無縫整合,可掛載NotesComposer對(duì)nsf庫〔如遞歸、巢狀等〕的多功能設(shè)計(jì),以便利信息檢索與治理。以e-mail含附件為例,e-mailAdaptere-mail內(nèi)文,而中選購officeAdaptere-mailAdapteroffice相關(guān)的附件文配使用。搭配使用本系統(tǒng)的TXT、MicrosoftOffice、RTF、PDF、HTML、E-mailFileMetaMicrosoft、文件名或大綱、及文字等格式,包括繁體中文、簡體中文、英文Unicode使用數(shù)據(jù)庫數(shù)據(jù)適配器,將可支持?jǐn)?shù)據(jù)庫數(shù)據(jù)匯入辦理如Oracle、Informix、Sybase、MSSQL信息萃取和效勞此局部須供給對(duì)數(shù)據(jù)提取的內(nèi)容所包括的信息,進(jìn)展數(shù)據(jù)辦理解析,包括:分類模式建立自動(dòng)分類功能。庫。自動(dòng)分類體系與專業(yè)詞庫須具備自動(dòng)學(xué)習(xí)與修正之功能以提升數(shù)據(jù)辦理正確度。不同樣樣級(jí)供給不同樣權(quán)限的盤問功能接口。應(yīng)用本系全都系列內(nèi)容解析與索引核心組件群,將匯整的內(nèi)容進(jìn)展斷詞、索者需求。全文檢索系統(tǒng)整體方案設(shè)計(jì)方案正確、完滿、實(shí)時(shí)、有效地找尋到吻合自己找尋條件的信息。應(yīng)用整合及權(quán)限的導(dǎo)入與檢查工作。全文檢索系統(tǒng)功能特點(diǎn)根本檢索功能支持FileServer在一次找尋條件下,整合找尋出來。能夠?qū)€數(shù)據(jù)、在線數(shù)據(jù)和離線數(shù)據(jù)進(jìn)展找尋;優(yōu)選文檔 6全文檢索系統(tǒng)整體方案設(shè)計(jì)方案支持「萬用字符〔*、?〕*(代表多到【ChinaChineChinese】等等。輸入要點(diǎn)詞【Chin到【China找尋條件擁有完滿的布爾規(guī)律運(yùn)算AND、OR、NOT力氣,支持復(fù)合式布問優(yōu)先級(jí)的設(shè)定,便利盤問者輸入布爾組合之盤問條件;內(nèi)建「智能型快速響應(yīng)模式」(Smartcache)體系,能夠供給同一種盤問條件之重復(fù)使用率,提升系統(tǒng)資源的效益。Cache可重復(fù)使用第一次盤問結(jié)果;支持/多字段/AND/AND/OR/NOT優(yōu)選文檔 7全文檢索系統(tǒng)整體方案設(shè)計(jì)方案全文檢索系統(tǒng)整體方案設(shè)計(jì)方案99優(yōu)選文檔詞索引與盤問功能功能以下:中詞句子將透過智能型自動(dòng)斷詞技術(shù)以到達(dá)詞索引的收效,自動(dòng)解析與斷詞,并建立詞索引;詞索引功能經(jīng)過開關(guān)靈敏設(shè)置;檢索字串第一經(jīng)過自動(dòng)斷詞,將其斷詞結(jié)果進(jìn)展組合檢索;文切分詞更吻合使用者的行業(yè)特點(diǎn),提升盤問的速度和正確度。該功能優(yōu)勢以下:Memory檢干脆能更高:協(xié)作高效算法,詞索引的找尋性能相對(duì)字索引平均高出3多國語系數(shù)據(jù)索引與盤問系統(tǒng)基于Unicode設(shè)計(jì)。Unicode〕混雜的文件的建置與盤問。Big5、GB2312、Unicode、UTF-8、Unicode尋。KoreanKoreanJapaneseSimplifiedChineseTraditionalChinese同個(gè)數(shù)據(jù)表或一條數(shù)據(jù)庫記錄中能夠支持多國語言混排內(nèi)容;一個(gè)索引數(shù)據(jù)庫能夠存在多國語言的不同樣數(shù)據(jù);能夠輸入多國語言的檢索條件,并使用AND、OR、NOT規(guī)律關(guān)系;檢索結(jié)果中能夠同時(shí)顯示多國語言記錄;果;中英文模糊找尋盤問功能內(nèi)建「中英文容錯(cuò)〔Fuzzy」盤問功能?;谖淖痔攸c(diǎn),很多專知名詞及詞匯依模糊不明確的意象,使用者期望只要要輸入一個(gè)要點(diǎn)詞,就能一并盤問性質(zhì)近似或相關(guān)之信息。比方:輸入「MobileNetwork」可查到「MobileApplianceNetwork」等特定距離的詞句、輸入「產(chǎn)業(yè)爭論」近似看法詞庫關(guān)心盤問功能$Computer$算機(jī)」為同義詞,則使用者可找尋“電腦”時(shí),可同時(shí)查到含有“Computer”或“計(jì)算機(jī)”的信息。全文檢索系統(tǒng)整體方案設(shè)計(jì)方案并可提口供庫治理工具,使用戶可自行改正詞庫內(nèi)容。其他檢索功能找尋出以“網(wǎng)絡(luò)”為要點(diǎn)字的記錄;英文字根(Stemming)computing以“computer”為要點(diǎn)字的記錄;英文錯(cuò)誤字提示功能;點(diǎn)字的記錄;優(yōu)選文檔 10全文檢索系統(tǒng)整體方案設(shè)計(jì)方案找尋結(jié)果顯示頁閱讀。支持二次找尋功能。讓找尋結(jié)果按找尋者的妄圖顯示。下一層名目,以減小盤問范圍。字型….等屬性。優(yōu)選文檔 11全文檢索系統(tǒng)整體方案設(shè)計(jì)方案以加快使用者的盤問速度。SDK自己開發(fā)特定形式和顯示風(fēng)格的找尋結(jié)果頁面。自然語言應(yīng)用組件關(guān)內(nèi)容一次性的找尋出來。相關(guān)文件盤問文章自動(dòng)大綱優(yōu)選文檔 12全文檢索系統(tǒng)整體方案設(shè)計(jì)方案自動(dòng)分類應(yīng)用組件尋組件進(jìn)展整合,即可逐一依種類篩檢過濾資料,并顯示種類內(nèi)吻合資料。導(dǎo)覽式分類自動(dòng)分類優(yōu)選文檔 13全文檢索系統(tǒng)整體方案設(shè)計(jì)方案高效數(shù)據(jù)同步功能〔增量索引〕實(shí)時(shí)的更。高可用性本全文檢索效勞能夠經(jīng)過負(fù)載均衡,提升效勞效能。假設(shè)某臺(tái)主機(jī)因不明緣由無法對(duì)外服務(wù),則可實(shí)時(shí)以另一臺(tái)主機(jī)對(duì)外進(jìn)展正常效勞。索引庫可存放于網(wǎng)絡(luò)貯存設(shè)使全文檢索效勞能夠正常運(yùn)行。

全文檢索效勞器

…網(wǎng)絡(luò)存儲(chǔ)設(shè)備優(yōu)選文檔 14全文檢索系統(tǒng)整體方案設(shè)計(jì)方案可擴(kuò)大性:本系統(tǒng)可依不同樣需求擴(kuò)大,分類,自然語言,數(shù)據(jù)適配器等組件,更可置SDK,可取代原來之分類應(yīng)用組件,且不會(huì)影響原來效勞體系。大數(shù)據(jù)量全文檢索解決方案當(dāng)需要建立索引的數(shù)據(jù)量到達(dá)上千萬條時(shí)〔G,單個(gè)效勞器檢多臺(tái)檢索效勞器機(jī)群來推行分布式檢索成為當(dāng)務(wù)之急!大數(shù)據(jù)量全文檢索構(gòu)架圖SOAP尋央求的效勞器會(huì)去到索引庫中把找尋者所需資料查找出來并且把全部盤問結(jié)優(yōu)選文檔 15全文檢索系統(tǒng)整體方案設(shè)計(jì)方案全文檢索系統(tǒng)整體方案設(shè)計(jì)方案1919優(yōu)選文檔給閑適的效勞器,充分利用整個(gè)系統(tǒng)的每一分資源。分布式技術(shù)優(yōu)勢數(shù)據(jù)源進(jìn)展任何改動(dòng);支持T級(jí)總量數(shù)據(jù),每天G級(jí)的增量數(shù)據(jù)實(shí)現(xiàn)秒級(jí)數(shù)據(jù)檢索,并且索引T整個(gè)系統(tǒng)擁有靈敏的擴(kuò)展性,在系統(tǒng)應(yīng)用過程中,隨著用戶需檢索數(shù)據(jù)級(jí),已經(jīng)索引過的數(shù)據(jù)和原有系統(tǒng)的結(jié)實(shí)性不受影響;高并發(fā)用戶接見量支持;找尋的權(quán)限把握IRMS錄是不會(huì)被找尋出來的。IRMS保證存守信息的安全性有該文件讀取權(quán)的人或群組,才有可能盤問到此一文件無該文件讀取權(quán)的人或群組,不會(huì)知道有哪些無權(quán)讀取的文件存在假設(shè)是每個(gè)人或群組文件的讀取權(quán)不同樣,盤問結(jié)果集就會(huì)不同樣找尋系統(tǒng)和應(yīng)用系統(tǒng)權(quán)限整合方法IRMS和應(yīng)用系統(tǒng)的權(quán)限整合。主要方法包括:用的用戶組創(chuàng)辦不同樣的索引庫,分別放置于Group_for_企業(yè)領(lǐng)導(dǎo)、一般員工。找尋時(shí),第一推斷用戶所索。過濾最終的找尋結(jié)果。3并將吻合該用戶權(quán)限范圍內(nèi)的信息顯示給找尋者。權(quán)限過濾后再反響給找尋者。戶將應(yīng)用系統(tǒng)的權(quán)限規(guī)章標(biāo)準(zhǔn)化后,經(jīng)過找尋系統(tǒng)的API導(dǎo)入到找尋系法

適用環(huán)境

優(yōu)點(diǎn)部署簡潔

缺點(diǎn)適用范圍小統(tǒng)中。用戶提交找尋央求,找尋系統(tǒng)經(jīng)過權(quán)限過濾后再反響給找尋者。各種方法的比較:過濾法過濾法

推斷用戶權(quán)限的狀況少

部署簡潔 適用范圍小部署簡潔 應(yīng)用系統(tǒng)權(quán)限規(guī)章簡潔時(shí)找尋結(jié)果權(quán)很花時(shí)間,致使找尋結(jié)果顯示速度慢規(guī)章法規(guī)章法

大多數(shù)應(yīng)用系統(tǒng)權(quán)限系統(tǒng)內(nèi)嵌在找度和顯示速度快大多數(shù)應(yīng)用系統(tǒng)權(quán)限系統(tǒng)內(nèi)嵌在找

治理員需要為找尋系統(tǒng)索引庫中的每作簡潔需要將應(yīng)用系統(tǒng)權(quán)限規(guī)章導(dǎo)出為特定支持批量導(dǎo)入體系式,則可重復(fù)使用權(quán)限整合方法。IRMS任何改動(dòng);XMLExportImport口;支持權(quán)限信息導(dǎo)出為XML文件后,再批量XML文件導(dǎo)入的功能;SDK,可單獨(dú)操作權(quán)限組件進(jìn)展不同樣的權(quán)限系統(tǒng)整合;利用XML進(jìn)展權(quán)限整合描述,和其他系統(tǒng)的權(quán)限架構(gòu)做整合。整合后,不同樣的權(quán)限使用者使用找尋引擎、自然語言等應(yīng)用組件時(shí),將獵取吻合各自權(quán)限的數(shù)據(jù);權(quán)限規(guī)章與IRMS能夠完總分值別,增加可重用性。IRMSDominoDomino索引,實(shí)現(xiàn)全文檢索。NSFViewDomino創(chuàng)辦索引。IRMSPlatform…..Notes…..

LotusNotes(Client)LotusNotesComponentInterfacesInthesamephysicalmachineSearch Indexer LAN…..IndexDB

Disk/Storage

(DataSource)DominoNSFForm/View

…..DominoDominoIRMSSDKXMLDomino是不會(huì)被找尋出來的。NotesNotesNames.NSFMasterIndex(DataSource)DominoNSFACLIndexSetOption(nOpt,vCmd)Search( )+7,”LambertLin”8,”MKT_Dep”TheresultsetalreadymaskoutrecordsbyACLindex.SearchFormXML

(UserUserIDmodeorGroupNamemode)<?xmlversion=“1.0“encoding=“UTF-16“?><Authority><Item><DocumentNo>1</DocumentNo><DocumentKey>4570</DocumentKey><ValidationList><AllowPerson>CN=Peter/O=tornado</AllowPerson><AllowPerson>CN=Boirs/O=tornado</AllowPerson><AllowGroup>CN=jessie/O=tornado</AllowGroup><DenyPerson>CN=hello/O=tornado</DenyPerson><DenyGroup>CN=badboy/O=tornado</DenyGroup></ValidationList></Item><Item><DocumentNo>2</DocumentNo><DocumentKey>6174</DocumentKey><ValidationList><AllowPerson>-Default-</AllowPerson><AllowPerson>CN=Boirs/O=tornado</AllowPerson></ValidationList></Item></Authority>IRMSAPIIRMSAllowPerson

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論