TRS全文檢索參數(shù)_第1頁
TRS全文檢索參數(shù)_第2頁
TRS全文檢索參數(shù)_第3頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)項(xiàng)目量全文檢索數(shù)據(jù)1庫具體參數(shù)要求與地方志目前使用的網(wǎng)站內(nèi)容管理系統(tǒng)同品牌,或能夠進(jìn)行無縫銜接; 要求原廠服務(wù), 且必須原廠家在南寧當(dāng)?shù)赜谐qv技術(shù)人員,; 投標(biāo)時(shí)必須提供加蓋公章的原廠服務(wù)承諾書;16 個(gè)并發(fā) Licenses 版本全文檢索數(shù)據(jù)庫系統(tǒng)用以搭建站內(nèi)全文檢索應(yīng)用,及實(shí)現(xiàn)統(tǒng)一入口跨全站搜索的網(wǎng)站全文檢索應(yīng)用,具體要求如下:系統(tǒng)技術(shù)要求實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一檢索,并全部字段都能建立索引,實(shí)現(xiàn)基于元數(shù)據(jù)( meta-data )和全文( full-text )的聯(lián)合查詢。支持多種數(shù)據(jù)源數(shù)據(jù)的全文索引??勺詣?dòng)將關(guān)系型數(shù)據(jù)庫(如 Oracle 、 SQL Server 、 MySQ

2、L、 Sybase)中的數(shù)據(jù)導(dǎo)入全文數(shù)據(jù)庫,并自動(dòng)保持同步更新,使用戶在享有關(guān)系型數(shù)據(jù)庫卓越的數(shù)據(jù)處理功能的同時(shí),擁有實(shí)時(shí)全文檢索功能。支 持Text、 HTML、 XML 、 RTF 、 MS OFFICE文 檔( Word/Execl/Powerpoint )和 PDF文件自動(dòng)建立索引。支持 GB18030和 UTF8大字符集 , 便于對(duì)中文偏僻字和各國文字的支持。詞典管理:檢索時(shí)能夠讓用戶自行維護(hù)詞典,包括同義詞典、近義詞典、反義詞典、主題詞典進(jìn)行擴(kuò)展檢索。允許使用文中的任意字、詞、短語、句和片段進(jìn)行檢索漢語分詞準(zhǔn)確率及字詞混合索引機(jī)制: 切分正確率達(dá)到 99.1% 以上; 由于漢語分詞

3、不能達(dá)到 100%準(zhǔn)確,所以中文檢索系統(tǒng)需要提供一種索引方式 ( 字詞混合索引 ) ,保證一定查準(zhǔn)率的同時(shí)提供 100%查全率。支持對(duì)檢索結(jié)果的各種排序:檢索結(jié)果與檢索詞的相關(guān)度排序;基于字段的排序;后進(jìn)先出的快速排序。同時(shí)對(duì)多庫檢索結(jié)果可以進(jìn)行混排。 LIFO(后進(jìn)先出的快速排序)對(duì)實(shí)際運(yùn)行系統(tǒng)的性能提高有很大作用。 TOPn 排序可通過結(jié)果記錄數(shù)的裁減以減少檢索歷史的存儲(chǔ)來提高檢索速度。支持有多個(gè)文本字段和非文本字段參與的相關(guān)排序。自動(dòng)分庫( Partitioning ):充分利用多庫并行檢索技術(shù),進(jìn)一步提高了檢索速度;使得數(shù)據(jù)加載速度保持穩(wěn)定,進(jìn)一步提高了數(shù)據(jù)更新速度。自然語言檢索:輸入

4、一個(gè)檢索串或一句話,分詞后進(jìn)行高頻詞過濾、詞語個(gè)數(shù)限定、詞語之間的位置關(guān)系等處理,根據(jù)詞語在文章中的位置和頻度,以及詞語的倒文檔頻度,計(jì)算相關(guān)度,按相關(guān)度高低排序后輸出結(jié)果。為了專題檢索的需要 , 必須提供布爾算符、關(guān)系算符、鄰近算符、同在算符、頻率算符、截詞符 ( 通配符 ) ,以及長檢索表達(dá)式的支持 (>1MB字節(jié) ) 。 檢索結(jié)果的分類統(tǒng)計(jì)等分析功能 : 統(tǒng)計(jì)檢索結(jié)果在各庫表中的分布情況;檢索結(jié)果的分類統(tǒng)計(jì),支持用正則表達(dá)式來篩選分類統(tǒng)計(jì)的目標(biāo)字段值,并支持抽取部分子串組成新的類別。西文大小寫無關(guān)檢索、全半角無關(guān)檢索、中文簡繁體擴(kuò)展檢索。具有系統(tǒng)級(jí)、數(shù)據(jù)庫級(jí)、記錄級(jí)和字段級(jí)四級(jí)安全

5、控制機(jī)制。支持?jǐn)?shù)據(jù)的加密與壓縮傳輸。支持主流的操作系統(tǒng)平臺(tái) Windows/Linux/Solaris/AIX/HPUX; 支持主流開發(fā)平臺(tái),提供 CAPI,Java API ,.Net API 二次開發(fā)接口。支持分布式檢索和負(fù)載均衡集群功能:實(shí)現(xiàn)海量數(shù)據(jù)的無限擴(kuò)展;實(shí)現(xiàn)高并發(fā)用戶的高性能訪問。系統(tǒng)功能要求全方位檢索手段:提供多種檢索運(yùn)算符。包括外部特征與正文內(nèi)容的各種邏輯組合檢索 ( 與、或、非、異或 ) 、位置檢索 ( 同段、同句、相差幾個(gè)字以及前后次序有關(guān)等 ) 、二次檢索、 漸進(jìn)檢索、模糊檢索、歷史檢索、詞根檢索、大小寫敏感檢索、概念檢索、對(duì)檢索結(jié)果按與檢索表達(dá)式的相關(guān)性程度排序等。支

6、持?jǐn)U展檢索:包括主題詞典自動(dòng)擴(kuò)展檢索 , 同義詞 / 反義詞自動(dòng)擴(kuò)展檢索 , 全半角自動(dòng)擴(kuò)展檢索 , 簡繁體自動(dòng)擴(kuò)展檢索等。支持語義檢索:支持長句檢索,系統(tǒng)可自動(dòng)分詞,按句子語義進(jìn)行檢索。并可選擇關(guān)鍵詞再次檢索。支持檢索結(jié)果的分類統(tǒng)計(jì)與分析:統(tǒng)計(jì)檢索結(jié)果在各庫表中的分布情況 ; 檢索結(jié)果的分類統(tǒng)計(jì),支持用正則表達(dá)式來篩選分類統(tǒng)計(jì)的目標(biāo)字段值,并支持抽取部分子串組成新的類別。支持檢索結(jié)果排序:支持多字段加權(quán)的相關(guān)性排序 , 并且可以設(shè)置文檔的不同字段以不同的權(quán)重 , 提升關(guān)鍵字段的權(quán)重; Date/Number 類型字段按大小排序, Char 類型提供按內(nèi)碼、拼音、筆畫等三種排序方式。相似文檔檢

7、索: 百度新聞搜索的相同新聞 Google 的類似網(wǎng)頁 文章消重 相關(guān)文章推薦系統(tǒng)性能要求G級(jí)數(shù)據(jù)全文檢索響應(yīng)在毫秒之內(nèi)。全文檢索數(shù)據(jù)庫的“零”空間膨脹率(-10%20%)。數(shù)據(jù)索引更新時(shí)間平均小于 0.02s/ 記錄(每條記錄 4kb)。T 級(jí)文本數(shù)據(jù)庫,一個(gè)任意詞的檢索都在1 秒鐘之內(nèi)。檢索智能詞典能按需擴(kuò)展?jié)h語切分正確率達(dá)到 99.1%以上。全文數(shù)據(jù)加載和索引單機(jī)速度為10GB/小時(shí) ;元數(shù)據(jù)加載和索引單機(jī)速度為 16GB/小時(shí)。千萬記錄的全文數(shù)據(jù)單機(jī)查詢速度為0.x 秒 ;十億記錄的元數(shù)據(jù)單機(jī)查詢速度在 3 秒內(nèi)。支持主流關(guān)系數(shù)據(jù)庫:支持Oracle,DB2, SQLServer,全文

8、檢1Sybase、 MySQL和人大金倉( KingbaseES)等關(guān)系數(shù)據(jù)庫。索網(wǎng)關(guān)支持 RDBMS中格式化文檔的全文檢索: 能夠自動(dòng)對(duì)關(guān)系數(shù)據(jù)庫大對(duì)象字段中存儲(chǔ)的格式化文檔,支持主流文檔如 Word、Powerpoint 、 Excel 、 PDF、WPS等文件進(jìn)行全文檢索。全文檢索信息發(fā)布應(yīng)用服務(wù)器系統(tǒng)數(shù)據(jù)同步和一致: 可以保證索引和數(shù)據(jù)的同步, 從而保證查詢的結(jié)果是完全正確的。支持完全更新和增量更新: 完全更新是把關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)一次性全部導(dǎo)入到全文數(shù)據(jù)庫中,不重復(fù)執(zhí)行;增量更新是只對(duì)發(fā)生變化的數(shù)據(jù)進(jìn)行數(shù)據(jù)同步,并以一定的時(shí)間周期循環(huán)執(zhí)行。支持多種類型的任務(wù)配置: 支持從關(guān)系型數(shù)據(jù)庫

9、到全文數(shù)據(jù)庫的多種任務(wù)配置支持表和視圖: 關(guān)系數(shù)據(jù)庫中的表和視圖均可以作為同步操作的數(shù)據(jù)源。自動(dòng)化程度高:用戶只需要按步跟隨“任務(wù)創(chuàng)建向?qū)А钡奶崾揪涂梢詣?chuàng)建更新任務(wù)??稍O(shè)置的定時(shí)執(zhí)行任務(wù):對(duì)創(chuàng)建好的任務(wù), 用戶可以設(shè)置其自動(dòng)定時(shí)執(zhí)行。 如:用戶可以設(shè)置一個(gè)增量更新任務(wù)每隔 5 分鐘執(zhí)行一次,即每隔 5 分鐘將關(guān)系數(shù)據(jù)庫表中數(shù)據(jù)的修改向全文數(shù)據(jù)庫中進(jìn)行一次索引的更新。多語種的支持通過對(duì) UTF8編碼方式的支持,實(shí)現(xiàn)了對(duì)多語種內(nèi)容的發(fā)布及檢索。多種內(nèi)容格式的支持對(duì) TRS全文檢索數(shù)據(jù)庫、文檔文件、圖文混排內(nèi)容、流媒體文件等各種格式內(nèi)容,提供了完備的發(fā)布支持。靈活的內(nèi)容表現(xiàn)通過頻道 (Channel) 及模板 (Templet) 技術(shù),實(shí)現(xiàn)內(nèi)容與表現(xiàn)的真正分離,無論是更換內(nèi)容還是改變顯示,都將變成一件非常輕松的事情。而頻道與模板在多應(yīng)用間的高度重用,更加降低了維護(hù)的成本。強(qiáng)大的檢索功能基于 TRS在全文檢索中的領(lǐng)先技術(shù)及其對(duì)主流關(guān)系數(shù)據(jù)庫的良好支持,借助精確檢索、全文檢索、關(guān)聯(lián)檢索等技術(shù),TRSWAS提供了強(qiáng)大的內(nèi)容檢索功能,幫助客戶更快更準(zhǔn)確地找到正確的內(nèi)容。內(nèi)容維護(hù)可以通過 Web方式對(duì)數(shù)據(jù)庫中的內(nèi)容進(jìn)行增加、刪除、修改等維護(hù)操作,提供了方便的內(nèi)容維護(hù)途徑。緩存功能TRSWAS產(chǎn)品提供了內(nèi)容展現(xiàn)的緩存功能,在內(nèi)容實(shí)時(shí)發(fā)布的基礎(chǔ)上,可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論