全文檢索系統(tǒng)整體方案設(shè)計_第1頁
全文檢索系統(tǒng)整體方案設(shè)計_第2頁
全文檢索系統(tǒng)整體方案設(shè)計_第3頁
全文檢索系統(tǒng)整體方案設(shè)計_第4頁
全文檢索系統(tǒng)整體方案設(shè)計_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

WORD格式WORD格式實用標準文案ZZ專業(yè)資料整理WORD格式WORD格式實用標準文案精彩文檔Z精彩文檔Z專業(yè)資料整理1全文檢索系統(tǒng)方案1.1全文檢索需求系統(tǒng)提供模糊檢索、分類搜索、高級復(fù)合搜索、全文檢索、圖片內(nèi)容檢索、跨庫檢索等多種檢索途徑;支持字索引和詞索引;檢索條件具有完整的關(guān)鍵詞布爾邏輯運算 AND、OR、NOT能力,支持復(fù)合式布爾邏輯運算查詢,并且可以配合多組左括號"("與右括號")"作關(guān)鍵詞查詢優(yōu)先級的設(shè)置;提供用戶多次遞進查詢的功能,用戶可根據(jù)上一次查詢關(guān)鍵詞得到的檢索結(jié)果集,增加查詢關(guān)鍵詞與縮小搜索日期范圍,而得到更準確的查詢結(jié)果集;能夠支持對以上文件中的中文(簡體/繁體)、英文、日語、韓語內(nèi)容實現(xiàn)關(guān)鍵字檢索;支持對Word、TXT、PDF等多種主流文檔格式全文檢索,并提供開發(fā)接口以支持特殊文檔格式的全文檢索;在數(shù)據(jù)源數(shù)據(jù)發(fā)生更新時,能在索引庫中反映出來,保證搜索的信息為最新,即支持增量索引機制;用戶可自行設(shè)定時間,讓系統(tǒng)自動定時進行更新索引;對于百萬級記錄數(shù)的搜索以及結(jié)合模糊搜索等查詢方式,搜索時間不得超過10秒;提供跨數(shù)據(jù)源、數(shù)據(jù)格式的搜索;同過相關(guān)性搜索,能夠把和搜索條件相關(guān)聯(lián)的信息搜索出來;不但能夠?qū)D片的描述信息進行搜索,還能對圖片內(nèi)容的檢索;提供COM與SOAP的搜索接口(Interface)可讓其它應(yīng)用程序或查詢網(wǎng)頁能夠提供用戶查詢?nèi)肟诤筒樵兘Y(jié)果的呈現(xiàn),用戶可通過應(yīng)用程序或瀏覽器訪問全文檢索服務(wù)器,提交查詢條件,可在瀏覽器中查看檢索結(jié)果;查詢結(jié)果集中應(yīng)包含結(jié)果集總數(shù)、命中的結(jié)果文件的完整路徑,以及符合關(guān)鍵詞出現(xiàn)的內(nèi)容片斷;在搜索結(jié)果集中,關(guān)鍵詞應(yīng)被標識出來,用特殊的字體及顏色和其他文字進行區(qū)別,查詢者可在查詢結(jié)果片斷中一目了然的看到關(guān)鍵詞出現(xiàn)的位置;查詢結(jié)果可按照關(guān)鍵詞命中次數(shù),命中結(jié)果文件的修改時間,大小等條件進行排序;可提供用戶對檢索命中結(jié)果文件在索引庫中進行標記,從而再次檢索時,不在標記過的文件中進行查詢;1.2全文檢索系統(tǒng)總體方案系統(tǒng)將采用以下全文檢索流程。精彩文檔

FuzzySearchSynonymPhraseWild-CardMulti-fieldFilterIRMSTermExtractTermIndexFolder/ShareFoldewithDocumentsWebSiteRderByURLEntryIRMS.SearchEngineIRMS.Indexer)encofatiraeicntprIFuzzySearchSynonymPhraseWild-CardMulti-fieldFilterIRMSTermExtractTermIndexFolder/ShareFoldewithDocumentsWebSiteRderByURLEntryIRMS.SearchEngineIRMS.Indexer)encofatiraeicntprIpeAUsAdapterDataSourceComposerFileExtractorLotusDominoR5,R6(NSF)FileNET內(nèi)容管理RDBMS

(ODBC/OLEDB/JDBC)針對企業(yè)內(nèi)部的信息,包括文件服務(wù)器上的文件、網(wǎng)站網(wǎng)頁、 ERP等系統(tǒng)存放信息的數(shù)據(jù)庫信息、辦公應(yīng)用中的公文檔案文檔已經(jīng)內(nèi)容管理系統(tǒng)中流轉(zhuǎn)的內(nèi)容,本系統(tǒng)提供了兩種數(shù)據(jù)適配器來提取其中的正文內(nèi)容和屬性內(nèi)容,形成一個相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層;本系統(tǒng)的索引引擎(Indexer)對結(jié)構(gòu)化的數(shù)據(jù)虛擬層進行中文切分詞、文件特征分析和逐步索引,以及其它索引算法,生成索引數(shù)據(jù)庫;使用者(user)在搜索頁面中輸入查詢字串等搜索條件并提交給本系統(tǒng)后,本系統(tǒng)的全文檢索查詢引擎(Searcher)會在索引庫中進行搜索,并將符合搜索條件的搜索結(jié)果返回給使用者;使用者(user)可于查詢結(jié)果頁面,進一步鏈接到信息原文查看詳細內(nèi)容。對于系統(tǒng)管理,管理員可通過相應(yīng)web方式的管理程序來管理整個系統(tǒng)運行環(huán)境及設(shè)置文件;并通過索引引擎(Indexer.exe)實時或定時創(chuàng)建索引,更新索引數(shù)據(jù)庫的內(nèi)容,使檢索信息維持在最新狀態(tài)。1.3全文檢索系統(tǒng)帶來的效益高效率的整合搜索,大幅減少組織成員在取得信息時花費的時間!本系統(tǒng)和其它搜索系統(tǒng)只針對特定信息源搜索不同,它能對企業(yè)內(nèi)部絕大多數(shù)的信息創(chuàng)建索引和搜索,具備強大的信息整合及快速回應(yīng)能力,讓企業(yè)成員以單一搜索頁面、簡易的操作方式,即可在最短時間內(nèi),完整、準確、及時地掌握企業(yè)內(nèi)外所有信息,不必再耗費大量時間的找尋信息!信息過量不會造成企業(yè)成員的信息焦慮!通過本系統(tǒng)強大的索引/搜索能力,大量的信息也可在瞬間過濾出符合使用者條件的信息,不必擔(dān)心迷失在漫漫的信息洪流之中!非結(jié)構(gòu)/非組織的信息,不再是知識管理的盲點!文件/檔案以及非經(jīng)過分類管理的信息,因為附加信息稀少,往往成為知識利用上難以判斷、分析的信息。本系統(tǒng)直接針對內(nèi)容全文分析、關(guān)聯(lián),使這類信息同樣可讓使用者以檢索方式,快速篩選利用!整合容易,使用簡易,導(dǎo)入迅速,易于接受!套裝化、模塊化的設(shè)計及靈活的整合能力,能在企業(yè)內(nèi)迅速的安裝設(shè)置;操作方式簡單,企業(yè)成員易于接受,導(dǎo)入方便。以最經(jīng)濟的時間、人力及費用成本為企業(yè)創(chuàng)建信息流通、充分分享的知識環(huán)境。1.4全文檢索系統(tǒng)平臺架構(gòu)本系統(tǒng)基于組件化和松散耦合架構(gòu)和設(shè)計,系統(tǒng)平臺架構(gòu)示意圖如下:精彩文檔WORD格式WORD格式實用標準文案ZZ專業(yè)資料整理WORD格式WORD格式實用標準文案ZZ專業(yè)資料整理整個系統(tǒng)主要分為信息整合、信息萃取和服務(wù)、應(yīng)用整合三個部分。信息整合此部分主要作用是將企業(yè)內(nèi)部存儲于不同應(yīng)用系統(tǒng)中的結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息、非結(jié)構(gòu)化信息通過本系統(tǒng)提供的兩種數(shù)據(jù)適配器進行信息提取,形成一個相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層,以備后期信息萃取和服務(wù)。信息萃取和服務(wù)在信息整合層形成的相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層基礎(chǔ)上,本系統(tǒng)將對其中的每筆記錄進行中文切分詞、索引、文件特征分析、自動分類等各種演算算法處理,形成可以提供搜索服務(wù)的索引庫。用戶利用本系統(tǒng)的搜索引擎處理提供的強大的搜索功能,如中文同音搜索、簡繁體對譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等,快速、準確、完整、及時、有效地搜索到符合自己搜索條件的信息。應(yīng)用整合本系統(tǒng)還提供了完整的外部程序整合機制。所有組件均提供 SDK完整開發(fā)接口,方便應(yīng)用整合和應(yīng)用擴展。1.5信息整合此部分主要提供對企業(yè)內(nèi)外部非結(jié)構(gòu)性數(shù)據(jù)信息源建立自動化數(shù)據(jù)匯入功能。根據(jù)用戶實際需求,用戶可以選擇導(dǎo)入包含Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、圖片的文件名或摘要、及文字)自動化建立索引數(shù)據(jù),建立索引數(shù)據(jù)所處理之文字包括繁體中文、簡體中文等;同時用戶可以選擇導(dǎo)入數(shù)據(jù)庫數(shù)據(jù),如 Oracle、Informix、Sybase、MSSQL等。此外和Notes系統(tǒng)也已經(jīng)有了無縫整合,可掛載NotesComposer對nsf庫精彩文檔中正文及附件信息索引,在做索引的過程中自動把每筆記錄的權(quán)限鍵入索引庫。本系統(tǒng)提供可掛載的數(shù)據(jù)適配器(DataAdapter),將異質(zhì)的數(shù)據(jù)來源與數(shù)據(jù)結(jié)構(gòu)進行匯整與粹取,亦扮演將非結(jié)構(gòu)的信息結(jié)構(gòu)化,可以很容易地分析特殊檔案格式和管理復(fù)雜的數(shù)據(jù)源結(jié)構(gòu)(如遞歸、巢狀等)的多功能設(shè)計,以方便信息檢索與管理。以e-mail含附件為例,e-mailAdapter可解析e-mail內(nèi)文,而當(dāng)選購officeAdapter后,原來的e-mailAdapter即可解析office相關(guān)的附件文件,可視需求額外購買PDF、ZIP、RAR、OCR等不同數(shù)據(jù)適配器,即可交互搭配使用。搭配使用本系統(tǒng)的TXT、MicrosoftOffice、RTF、PDF、HTML、E-mail及FileMeta資料提取器,將可解析Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT及E-mail(含附件文件)及文件影音附檔(如影片的文件名或摘要、圖片的文件名或摘要、及文字)等格式,包括繁體中文、簡體中文、英文、Unicode等;使用數(shù)據(jù)庫數(shù)據(jù)適配器,將可支持數(shù)據(jù)庫數(shù)據(jù)匯入處理如Oracle、Informix、Sybase、MSSQL等。1.6信息萃取和服務(wù)此部分須提供對數(shù)據(jù)提取的內(nèi)容所包含的信息,進行數(shù)據(jù)處理分析,包含:分類模式建立自動分類功能。針對非結(jié)構(gòu)性數(shù)據(jù)建立詞庫,詞庫須包含同音詞庫、同義詞庫、專業(yè)詞庫。自動分類機制與專業(yè)詞庫須具備自動學(xué)習(xí)與修正之功能以提升數(shù)據(jù)處理準確度??舍槍Σ煌褂脤蛹墶㈨椖窟M行非結(jié)構(gòu)性數(shù)據(jù)權(quán)限控管。依照使用者不同等級提供不同權(quán)限的查詢功能接口。應(yīng)用本系統(tǒng)一系列內(nèi)容分析與索引核心組件群,將匯整的內(nèi)容進行斷詞、索引、分類、文件特征等運算與處理,以便滿足信息檢索與信息管理的應(yīng)用,提供多功能全面性的數(shù)據(jù)分析能力,可針對不同情境應(yīng)用加以整合,快速達到使用者需求。同時,用戶利用本系統(tǒng)的搜索引擎處理提供的強大的搜索功能,如中文同音精彩文檔搜索、簡繁體對譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等,快速、準確、完整、及時、有效地搜索到符合自己搜索條件的信息。1.7應(yīng)用整合完整外部程序整合機制—所有組件均提供SDK完整開發(fā)接口,方便外部整合。另外大量提供XML的方法來進行信息源更新時的同步以及權(quán)限的導(dǎo)入與檢查工作。1.5全文檢索系統(tǒng)功能特點1.5.1基本檢索功能支持支持跨數(shù)據(jù)源索引與整合搜索。將分散在FileServer上的文件、遠程網(wǎng)站中的網(wǎng)頁、群組軟件中的資料,以及數(shù)據(jù)庫中的文字與非文字紀錄,在一次搜尋條件下,整合搜尋出來??梢詫€數(shù)據(jù)、在線數(shù)據(jù)和離線數(shù)據(jù)分別建立索引庫,到時可以通過索引庫的選擇來控制對哪些性質(zhì)的數(shù)據(jù)進行搜索;精彩文檔

支持「萬用字符(*、?)查詢」。使用者可查詢部分關(guān)鍵字及*(代表多于一個字)或?(代表一個字)的組合。例如:輸入關(guān)鍵詞【Chin*】,會找到【China】、【Chine】、【Chinese】等等。輸入關(guān)鍵詞【Chin?】,會找到【China】;搜尋條件具有完整的布爾邏輯運算 AND、OR、NOT能力,支持復(fù)合式布爾邏輯運算查詢,并且可以配合多組左括號"("與右括號")"作關(guān)鍵詞查詢優(yōu)先級的設(shè)定,方便查詢者輸入布爾組合之查詢條件;內(nèi)建「智能型快速響應(yīng)模式」(Smartcache)機制,可以提供同一種查詢條件之重復(fù)使用率,提高系統(tǒng)資源的效益。 Cache儲存目錄記錄了Cache檔案所要放置的地址,經(jīng)查詢過的資料或畫面,第二次再進入時,可重復(fù)使用第一次查詢結(jié)果;支持/多字段/多條件檢索,提高搜索精確度;單一字段內(nèi),支持 AND/OR/NOT邏輯條件,且支持括號方式來提供條件優(yōu)先權(quán)。多字段條件間,支持AND/OR/NOT邏輯條件;精彩文檔1.8詞索引與查詢功能系統(tǒng)中提供了傳統(tǒng)的字索引,但是為提高查詢檢索的準確度,系統(tǒng)采用自然語言斷詞機制和靈活的詞索引開關(guān),用戶可根據(jù)需要選擇詞索引或字索引。具體功能如下:中文句子將透過智能型自動斷詞技術(shù)以達到詞索引的效果,自動分析與斷詞,并建立詞索引;詞索引功能通過開關(guān)靈活設(shè)置;檢索字串首先通過自動斷詞,將其斷詞結(jié)果進行組合檢索;提供「詞庫」編輯器,針對斷詞用的「詞庫」進行維護和調(diào)整;使中文切分詞更符合使用者的行業(yè)特點,提高查詢的速度和準確度。該功能優(yōu)勢如下:提高精確度:輸入「民法」不會找到「人民法院」;更小的索引空間:–通過詞索引的方式,索引數(shù)據(jù)庫相對字索引需要更少的磁盤空間;同樣數(shù)據(jù)量下,檢索時需要的 Memory更少;檢索性能更高:配合高效算法,詞索引的搜索性能相對字索引平均高出3倍以上;1.9多國語系數(shù)據(jù)索引與查詢系統(tǒng)基于Unicode設(shè)計??芍С侄鄧Z系(英文、繁簡體中文、日文、韓文、Unicode等)混合的文件的建置與查詢。可支持多種編碼格式的索引,包含Big5、GB2312、Unicode、UTF-8、EUC-JP、Shift-JIS,并支持以Unicode同時輸入多國語系條件進行搜尋。精彩文檔KoreanKoreanJapaneseSimplifiedChineseTraditionalChinese同個數(shù)據(jù)表或一條數(shù)據(jù)庫記錄中可以支持多國語言混排內(nèi)容;一個索引數(shù)據(jù)庫可以存在多國語言的不同數(shù)據(jù);可以輸入多國語言的檢索條件,并使用 AND、OR、NOT邏輯關(guān)系;檢索結(jié)果中可以同時顯示多國語言記錄;搭配多國語言同義詞庫,可以通過單一語言條件,得到多國語言檢索結(jié)果;1.10中英文模糊搜索查詢功能內(nèi)建「中英文容錯(Fuzzy)」查詢功能。中英文容錯功能FuzzySearch,基于文字特性,很多專有名詞及詞匯依情況不同,也許衍生出通用的簡稱,或是文字次序?qū)φ{(diào)。也有可能因為模糊不明確的意象,使用者希望只需要輸入一個關(guān)鍵詞,就能一并查詢性質(zhì)類似或相關(guān)之信息。比如:輸入「MobileNetwork」可查到「MobileApplianceNetwork」等特定距離的詞句、輸入「產(chǎn)業(yè)研究」可查到「產(chǎn)業(yè)結(jié)構(gòu)研究」、「產(chǎn)業(yè)?.研究」等,擴展搜尋的完整性。1.11近似概念詞庫輔助查詢功能可針對不同的索引庫設(shè)定同義詞組。如設(shè)定「電腦 $Computer$計算機」為同義詞,則使用者可搜索“電腦”時,可同時查到含有“Computer或“計算機”的信息。WORD格式WORD格式ZZ專業(yè)資料整理WORD格式WORD格式ZZ專業(yè)資料整理精彩文檔WORD格式WORD格式實用標準文案精彩文檔Z精彩文檔Z專業(yè)資料整理WORD格式WORD格式實用標準文案精彩文檔Z精彩文檔Z專業(yè)資料整理內(nèi)建18萬多組中英文同義詞組,具有中英文近似概念與同義詞檢索,并可提供詞庫管理工具,使用戶可自行修改詞庫內(nèi)容1.12其他檢索功能中文同音輔助查詢功能,如輸入“網(wǎng)駱”,啟動中文同音功能后,可以搜索出以“網(wǎng)絡(luò)”為關(guān)鍵字的記錄;英文字根(Stemming)輔助查詢功能,輸入“computing”,可以搜索出以“computer”為關(guān)鍵字的記錄;英文錯誤字提示功能;簡繁對譯組件功能,輸入“中國”,可以搜索出以繁體字“中國”為關(guān)鍵字的記錄;

1.13搜索結(jié)果顯示以Web網(wǎng)頁形式呈現(xiàn)查詢結(jié)果,使用者可指定所欲察看的特定筆數(shù)或分頁瀏覽。支持二次搜索功。能提供「屬性字段權(quán)重排序機制」,管理者可自訂查詢結(jié)果的排序規(guī),則讓搜尋結(jié)果按搜索者的意圖顯示。提供「樹形分類目錄」,提供查詢結(jié)果分類,可以讓使用者進一步選取下一層目錄,以縮小查詢范。圍具有標示原文關(guān)鍵詞功,能可以直接將原文中有關(guān)使用者輸入得關(guān)鍵詞全數(shù)標示出來,同時系統(tǒng)管理者可以自行設(shè)定關(guān)鍵詞標示的顏大、色小、字型?.等屬性。

查詢結(jié)果可同時顯示文件抬頭及重要摘要段落或者僅僅顯示文件抬頭以加快使用者的查詢速度。開發(fā)搜索接口,用戶可根據(jù)開發(fā)的SDK自己開發(fā)特定形式和顯示風(fēng)格的搜索結(jié)果頁面。1.14自然語言應(yīng)用組件利用自然語言的形似相關(guān)詞功能,可對數(shù)據(jù)擷取內(nèi)容進行新詞學(xué)習(xí),語意分析等,可自動建立新詞,提升數(shù)據(jù)處理準確度?;谧匀徽Z言應(yīng)用組件,可實現(xiàn)相關(guān)文章查詢功能、重復(fù)文章查詢功能、自動摘要功能、語意查詢功能、形似相關(guān)詞建議功能等。從而能夠通過關(guān)聯(lián)組織的方式,把不同檔案庫中的相似、相關(guān)內(nèi)容一次性的搜索出來。相關(guān)文件查詢文章自動摘要

1.15自動分類應(yīng)用組件搭配自動分類組件,可對擷取數(shù)據(jù)進行分類,并可輔以導(dǎo)覽式分類組件與搜尋組件進行整合,即可逐一依類別篩檢過濾資料,并顯示類別內(nèi)符合資料。導(dǎo)覽式分類自動分類1.16高效數(shù)據(jù)同步功能(增量索引)以前的全文搜索引擎在面對大資料量建立索引時,都會限制數(shù)據(jù)量的多,少而解決這個問題通常都是將資料量分為幾個部分分開建索引。但是這種方法并無法徹底解決資料同步更新或檢索的需求。本系統(tǒng)提供漸進式索引技術(shù),也就是通過增量索引機制可以逐步地分別為數(shù)據(jù)庫建立索引,對于異動的數(shù)據(jù)或索引,進行實時的更新。1.17高可用性本全文檢索服務(wù)可以通過Layer4Switch硬件進行搜尋的負載均衡,提高服務(wù)效能。若某臺主機因不明原因無法對外服務(wù),則可實時以另一臺主機對外進行正常服務(wù)。索引庫可存放于網(wǎng)絡(luò)存儲設(shè)網(wǎng)絡(luò)存儲備設(shè)上,讓備用機共享其索引數(shù)據(jù),使全文檢索服務(wù)可以正常運行。1.18可擴充性:本系統(tǒng)可依不同需求擴張,分類,自然語言,數(shù)據(jù)適配器等組件,更可置換其關(guān)鍵性應(yīng)用組件,例如:企業(yè)已使用其它分類組件,透過本系統(tǒng)提供之 SDK,可取代原本之分類應(yīng)用組件,且不會影響原本服務(wù)機制。1.6大數(shù)據(jù)量全文檢索解決方案當(dāng)需要建立索引的數(shù)據(jù)量達到上千萬條時(大概上百個 G),單個服務(wù)器檢索系統(tǒng)在性能方面是不可能得到保證的,這時候查詢一條信息所需要的時間已經(jīng)遠遠超出了使用者的容忍范圍,所以為保證全文檢索系統(tǒng)的高性能特點,使用多臺檢索服務(wù)器機群來實施分布式檢索成為當(dāng)務(wù)之急!1.5.2大數(shù)據(jù)量全文檢索構(gòu)架圖如圖所示,應(yīng)用系統(tǒng)的所有資料分散的部署到各個索引服務(wù)器上建立索引,之后把索引好的數(shù)據(jù)存儲到索引庫中,用戶發(fā)出一個搜索請求后,龍卷風(fēng)大數(shù)據(jù)量分布式檢索系統(tǒng)通過SOAP機制把搜索請求發(fā)送給索引服務(wù)器,然后接收到搜索請求的服務(wù)器會去到索引庫中把搜索者所需資料查找出來并且把所有查詢結(jié)果合并到一起通過用戶設(shè)定的排序方式在前端搜索頁面上顯示出來。在此期間,用戶發(fā)送搜索請求后,機群索引調(diào)度服務(wù)會根據(jù)索引服務(wù)器狀態(tài)表把搜索請求發(fā)給空閑的服務(wù)器,充分利用整個系統(tǒng)的每一分資源。1.19分布式技術(shù)優(yōu)勢多種數(shù)據(jù)庫信息統(tǒng)一建立索引,支持對數(shù)據(jù)庫的文件附件索引,無需對數(shù)據(jù)源進行任何改動;支持T級總量數(shù)據(jù),每天G級的增量數(shù)據(jù)實現(xiàn)秒級數(shù)據(jù)檢索,并且索引延遲時間保證在1小時以內(nèi),即實現(xiàn)用戶對每天更新數(shù)據(jù)能夠及時查詢,還能保證T級歷史數(shù)據(jù)的快速查詢;整個系統(tǒng)具有靈活的擴展性,在系統(tǒng)應(yīng)用過程中,隨著用戶需檢索數(shù)據(jù)量的增加,可通過擴展索引服務(wù)器和查詢服務(wù)器集群高性價比平滑升級,已經(jīng)索引過的數(shù)據(jù)和原有系統(tǒng)的穩(wěn)定性不受影響;高并發(fā)用戶訪問量支持;1.7搜索的權(quán)限控制IRMS提供的信息搜索并非是指人人皆可隨意搜索到任何信息,而是依照組織中的角色,讓搜索者只能搜索自己權(quán)限范圍內(nèi)的信息,而無權(quán)限訪問的記錄是不會被搜索出來的。IRMS權(quán)限控制主要實現(xiàn):保證存取信息的安全性有該文件讀取權(quán)的人或群組,才有可能查詢到此一文件無該文件讀取權(quán)的人或群組,不會知道有哪些無權(quán)讀取的文件存在如果每個人或群組文件的讀取權(quán)不同,查詢結(jié)果集就會不同1.5.3搜索系統(tǒng)和應(yīng)用系統(tǒng)權(quán)限整合方法針對不同的應(yīng)用及特定的權(quán)限規(guī)則,有多種方式可以實現(xiàn) IRMS搜索系統(tǒng)和應(yīng)用系統(tǒng)的權(quán)限整合。主要方法包括:1、分索引庫法:此種方法適用于權(quán)限較簡單,并且權(quán)限可以歸為幾大類的應(yīng)用。如用戶組分為公司領(lǐng)導(dǎo)組、部門經(jīng)理組、普通員工組,每組用戶內(nèi)部權(quán)限相同,組之間才有權(quán)限差異。針對此種應(yīng)用,可以分別針對不用的用戶組創(chuàng)建不同的索引庫,分別放置于Group_for_公司領(lǐng)導(dǎo)、Group_for_部門經(jīng)理、Group_for_普通員工。搜索時,首先判斷用戶所在何用戶組,針對不同的用戶組再定向到不同的搜索庫中去全文檢索。2、特殊屬性過濾法:此種方法適用于信息資料源單一,并且有一特殊屬性字段可以判斷用戶權(quán)限的情況。如數(shù)據(jù)庫全文搜索時,有一字段值為授權(quán)訪問該記錄的所有用戶或組。針對此種特殊情況,可以選擇使用多字段屬性過濾的方法,在搜索頁面提交搜索請求后,使用該特殊屬性字段過濾最終的搜索結(jié)果。3、搜索結(jié)果過濾法:用戶提交搜索后,搜索引擎搜索時并不帶入權(quán)限信息,只是在搜索結(jié)果顯示時,使用應(yīng)用系統(tǒng)的權(quán)限規(guī)則來過濾搜索結(jié)果,并將符合該用戶權(quán)限范圍內(nèi)的信息顯示給搜索者。4、內(nèi)建權(quán)限規(guī)則法:搜索系統(tǒng)內(nèi)建權(quán)限規(guī)則,管理員根據(jù)搜索信息來源的權(quán)限規(guī)則定制搜索系統(tǒng)的權(quán)限規(guī)則,用戶提交的搜索請求搜索系統(tǒng)經(jīng)過權(quán)限過濾后再反饋給搜索者。5、導(dǎo)入權(quán)限規(guī)則法:搜索系統(tǒng)不內(nèi)建權(quán)限系統(tǒng),但提供權(quán)限導(dǎo)入機制。用戶將應(yīng)用系統(tǒng)的權(quán)限規(guī)則標準化后,通過搜索系統(tǒng)的API導(dǎo)入到搜索系統(tǒng)中。用戶提交搜索請求,搜索系統(tǒng)經(jīng)過權(quán)限過濾后再反饋給搜索者。適用環(huán)境優(yōu)點缺點各種方法的比較:

分索引庫權(quán)限較簡單,并且權(quán)限部署簡單適用范圍小法可以歸為幾大類的應(yīng)用特殊屬性信息資過濾法有一特殊料源單一,并且部署簡單適用范圍屬性字段可以判斷用戶權(quán)限的情況小搜索結(jié)果應(yīng)用系過濾法少復(fù)雜時統(tǒng)權(quán)限判斷用時部署簡單應(yīng)用系統(tǒng),搜索結(jié)果權(quán)權(quán)限規(guī)則限判斷將很花時間,致使搜索結(jié)果顯示速度慢內(nèi)建權(quán)限大部分規(guī)則法索系統(tǒng)中應(yīng)用系統(tǒng)權(quán)限系統(tǒng)內(nèi)嵌在搜管理員,搜索速系統(tǒng)索引庫中的每需要為搜索度和顯示速度快筆記錄分配權(quán)限,工作復(fù)雜導(dǎo)入權(quán)限大部分規(guī)則法索系統(tǒng)中應(yīng)用系統(tǒng)權(quán)限系統(tǒng)內(nèi)嵌在搜需要將,搜索速限規(guī)則導(dǎo)出為特定應(yīng)用系統(tǒng)權(quán)度和顯示速度快。格式。但一旦確定模支持批量導(dǎo)入機制式,則可重復(fù)使用按照以上搜索系統(tǒng)權(quán)限整合分析,此次應(yīng)用系統(tǒng)涉及的搜索信息來源所包括的Documentum、OA及其它應(yīng)用系統(tǒng)都有各自的權(quán)限規(guī)則,應(yīng)采用第四或第五種權(quán)限整合方法。IRMS全文檢索系統(tǒng)支持第五種權(quán)限整合方法,它的主要特點包括:支持實時權(quán)限信息導(dǎo)入和定時權(quán)限信息導(dǎo)入,用戶現(xiàn)有權(quán)限規(guī)則不用做任何改動;支持使用XMLExport與Import的機制提供信息內(nèi)容權(quán)限控管的整合接口;支持權(quán)限信息導(dǎo)出為XML文件后,再批量XML文件導(dǎo)入的功能;提供權(quán)限組件及SDK,可單獨操作權(quán)限組件進行不同的權(quán)限系統(tǒng)整合;利用XML進行權(quán)限整合描述,和其它系統(tǒng)的權(quán)限架構(gòu)做整合。整合后,WORD格式WORD格式實用標準文案ZZ專業(yè)資料整理WORD格式WORD格式實用標準文案ZZ專業(yè)資料整理WORD格式WORD格式實用標準文案精彩文檔Z精彩文檔Z專業(yè)資料整理不同的權(quán)限使用者使用搜尋引擎、自然語言等應(yīng)用組件時,將合到得符各自權(quán)限的數(shù)據(jù);權(quán)限規(guī)則I與RMS可以完全分離,增加可重用性。1.20IRMS和Domino權(quán)限整合實例龍卷風(fēng)公司已經(jīng)開發(fā)出成D的熟omino適配器,實現(xiàn)將Domino中的文檔建立索引,實現(xiàn)全文檢索。1)通過管理界面設(shè)定需要如何連D接ominoNSF數(shù)據(jù)庫,同時設(shè)定索引哪個View或表及其它信息。2)IRMSDominoComposer通過以上配置實現(xiàn)從Domino中提取文檔內(nèi)容,創(chuàng)建索引。IRMSPlatformLotusNotes(Client)?InthesamephysicalmachineSearchIndexeLAN?Disk/StorageIndexDBIndexDBLotusNotesComponentInterfacesNotesComposer(DataSource)DominoNSFForm/View對于DominoACL信息,龍卷風(fēng)公司已經(jīng)開發(fā)出一通用Domino權(quán)限導(dǎo)出工具,實現(xiàn)一般的Domino數(shù)據(jù)庫權(quán)限信息的導(dǎo)出。再結(jié)合 IRMS提供的SDK和XML導(dǎo)入工具,即可實現(xiàn)Domino數(shù)據(jù)庫權(quán)限信息整合到索引庫中,最終實現(xiàn)搜索用戶帶權(quán)限信息搜索,即搜索者只能搜索自己權(quán)限范圍內(nèi)的信息,而無權(quán)限訪是不會被搜索出來的。

(DataSource)ACLIndexSetOption(nOpt,vCmd)(DataSource)ACLIndexSearch()7,”LambertLin”8,”MKT_De”p(UserUserIDmodeorGroupNamemode)TheresultsetalreadymaskoutrecordsbyACLindex.SearchFormTheresultsetalreadymaskoutrecordsbyACLindex.(UserInterface)XML文件樣例:<?xmlversion="1.0"encoding="UTF-16"?><Authority><Item><DocumentNo>1</DocumentNo><DocumentKey>4570</DocumentKey><ValidationList><AllowPerson>CN=Peter/O=tornado</AllowPerson><AllowPerson>CN=Boirs/O=tornado</AllowPerson><AllowGroup>CN=jessie/O=tornado</AllowGroup><DenyPerson>CN=hello/O=tor

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論