好醫(yī)生搜索引擎_第1頁(yè)
好醫(yī)生搜索引擎_第2頁(yè)
好醫(yī)生搜索引擎_第3頁(yè)
好醫(yī)生搜索引擎_第4頁(yè)
好醫(yī)生搜索引擎_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、好醫(yī)生搜索引擎好醫(yī)生搜索引擎需求說明書需求說明書技術(shù)部版本日期提交人版本描述修改歷史1.02008-10-22葛帥初建初建目錄目錄產(chǎn)品概述核心技術(shù)功能簡(jiǎn)介環(huán)境要求及性能指標(biāo)和百度的差別和 GOOGLE 的差別硬件要求一、一、產(chǎn)品概述產(chǎn)品概述好醫(yī)生垂直搜索系統(tǒng)解決方案可用于網(wǎng)上行業(yè)信息集成。最新版本的好醫(yī)生垂直搜索技術(shù)包括幾十項(xiàng)實(shí)用改進(jìn),它綜合了多家搜索引擎技術(shù)公司的研發(fā)經(jīng)驗(yàn),以及數(shù)十名專業(yè)技術(shù)人員的研發(fā)成果。由負(fù)責(zé)網(wǎng)站抓取的服務(wù)器端程序和前臺(tái)搜索頁(yè)面構(gòu)成。其主要特點(diǎn)是:結(jié)構(gòu)清晰,安裝簡(jiǎn)單,可提供用戶頂級(jí)的搜索體驗(yàn)。產(chǎn)品基礎(chǔ)模塊如下: 1.全文檢索服務(wù)2.網(wǎng)頁(yè)索引服務(wù)3.自動(dòng)摘要4.簡(jiǎn)體中文分詞

2、5.中文同義詞庫(kù)6.網(wǎng)頁(yè)內(nèi)容提取7.醫(yī)學(xué)詞庫(kù)及癥狀至疾病邏輯關(guān)系庫(kù)8.拼音搜索9.中英文對(duì)應(yīng)詞庫(kù) 10.從正文提取癥狀 11.從癥狀自動(dòng)關(guān)聯(lián)相關(guān)疾病 12.提供各模塊及搜索結(jié)果接口注:各模塊要求可以便捷的維護(hù)更新。系統(tǒng)總體結(jié)構(gòu)如下:二、二、核心技術(shù)核心技術(shù)好醫(yī)生垂直搜索系統(tǒng)集成自然語(yǔ)言處理領(lǐng)域與醫(yī)學(xué)數(shù)據(jù)庫(kù)檢索技術(shù)完美結(jié)合。中文分詞中文分詞(CnTokenizer)可以作為獨(dú)立的一個(gè)模塊調(diào)用,作為二元分詞方法的替代。分詞準(zhǔn)確率 98%以上。同時(shí)支持分詞和詞性標(biāo)注。提供參數(shù)調(diào)節(jié)分詞準(zhǔn)確性和切分速度。100%采用 c+實(shí)現(xiàn)的分詞組件,無內(nèi)存泄漏問題??砷L(zhǎng)期不間斷運(yùn)行。采用多種分詞方法結(jié)合,包括基于概

3、率的 n 元切分方法,隱馬爾科夫模型,未登錄詞識(shí)別算法,歧義識(shí)別算法和基于規(guī)則的方法等。采用多個(gè)大規(guī)模語(yǔ)料庫(kù)訓(xùn)練概率詞庫(kù)。針對(duì)多線程使用優(yōu)化,占用內(nèi)存少。SpiderWebDatabaseIndex DBSearcher文本分類文本分類可以用中文,英文兩種語(yǔ)言來進(jìn)行文檔分類。中文文本分類內(nèi)部集成好醫(yī)生中文分詞模塊??梢圆捎?SVM 分類方法。采用概率估值算法,特征加權(quán)算法。可選擇多個(gè)特征評(píng)估函數(shù),特征選擇方式可以采用全局選取和按類別單獨(dú)選取。提供參數(shù)調(diào)節(jié)分類準(zhǔn)確性和速度。100%采用 c+實(shí)現(xiàn)的分類組件,無內(nèi)存泄漏問題??砷L(zhǎng)期不間斷運(yùn)行。提供分類結(jié)果評(píng)測(cè),讓你隨時(shí)了解分類的準(zhǔn)確性。采用手工整理

4、大規(guī)模語(yǔ)料庫(kù)訓(xùn)練分類模型。封閉測(cè)試準(zhǔn)確率在 95%以上。針對(duì)多線程使用優(yōu)化,占用內(nèi)存少。關(guān)鍵詞提取關(guān)鍵詞提取可以用中文,英文兩種語(yǔ)言提取關(guān)鍵詞??梢蕴崛∪我鈹?shù)量的關(guān)鍵詞??梢葬槍?duì)行業(yè)優(yōu)化提取關(guān)鍵詞??梢愿鶕?jù)一個(gè)給定詞提取出相關(guān)關(guān)鍵詞??梢詮恼奶崛〕?檢查,藥品,疾病,醫(yī)院,手術(shù),癥狀,醫(yī)院,專家,并設(shè)定權(quán)重值。三、功能簡(jiǎn)介三、功能簡(jiǎn)介中文分詞中文分詞中文分詞可以全面提升返回結(jié)果的準(zhǔn)確率。好醫(yī)生做為專業(yè)的醫(yī)學(xué)搜索引擎,專注基礎(chǔ)研發(fā),不斷打破查準(zhǔn)率的極限。搜索“美的”效果:提供 webservice,適應(yīng)多種平臺(tái)應(yīng)用的需要。具有智能化的學(xué)習(xí)新詞功能,可以往詞表添加新詞??梢宰詣?dòng)從大規(guī)模文檔中提取

5、出新詞。準(zhǔn)確度可達(dá) 50%以上。中英文同義詞查找中英文同義詞查找可以同時(shí)查找中文和英文的多項(xiàng)同義詞:搜索引擎會(huì)根據(jù)同義詞庫(kù)查找出更多的相關(guān)結(jié)果。按內(nèi)容格式分別進(jìn)行索引按內(nèi)容格式分別進(jìn)行索引網(wǎng)頁(yè),資訊,課件,文獻(xiàn), 問答, 論壇, 商品。關(guān)鍵字飄紅顯示及自動(dòng)摘要關(guān)鍵字飄紅顯示及自動(dòng)摘要自動(dòng)摘要邊界顯示準(zhǔn)確:網(wǎng)頁(yè)內(nèi)容提取網(wǎng)頁(yè)內(nèi)容提取用戶只需指定專題網(wǎng)頁(yè)的 URL,程序可以自動(dòng)找出網(wǎng)頁(yè)模版。提取出頁(yè)面內(nèi)的標(biāo)題或者日期,內(nèi)容等,并將提取的正文自動(dòng)分類并存入 mysql 數(shù)據(jù)庫(kù),要求提取正確率 95%以上。分類查找分類查找文檔可以自動(dòng)分類。用戶可以按類別查詢文檔。按藥品,專家,疾病,癥狀,檢查,機(jī)構(gòu),會(huì)

6、議, 營(yíng)養(yǎng),相關(guān)研究,分類統(tǒng)計(jì)分類統(tǒng)計(jì)可以按照分組統(tǒng)計(jì)統(tǒng)計(jì)返回搜索結(jié)果,并提供確切的匹配數(shù)量:二次檢索二次檢索支持在結(jié)果中再次查找,對(duì)查詢結(jié)果進(jìn)一步篩選。關(guān)鍵詞聚類關(guān)鍵詞聚類醫(yī)藥行業(yè)信息中的一些熱門關(guān)鍵詞:相關(guān)搜索相關(guān)搜索當(dāng)用戶搜索安利時(shí),會(huì)出現(xiàn)像:雅芳 直銷 這樣的非字面擴(kuò)展的相關(guān)搜索詞。當(dāng)用戶搜索 奔馳 也會(huì)出現(xiàn) 奧迪 歐寶 寶馬 這樣的同類品牌。這些相關(guān)搜索詞都是機(jī)器自動(dòng)生成而非人工干預(yù)的結(jié)果。相關(guān)文章相關(guān)文章對(duì)一篇文獻(xiàn)自動(dòng)鏈接相關(guān)文章接口并與 CMS 集成。搜索日志搜索日志可以統(tǒng)計(jì)搜索詞和查詢 IP 地址,日期 等信息的搜索日志。并且可以對(duì)搜索日志按地區(qū),行業(yè),時(shí)間等深入分析用戶行為。

7、復(fù)雜條件查找復(fù)雜條件查找可以實(shí)現(xiàn)數(shù)據(jù)庫(kù)式的多條件查找。比如按照日期、價(jià)格等??梢栽O(shè)置是否在標(biāo)題前顯示縮圖。自定義監(jiān)測(cè)網(wǎng)站自定義監(jiān)測(cè)網(wǎng)站可以指定一個(gè)或者多個(gè)網(wǎng)站作為搜索的信息來源。同時(shí)可以定義網(wǎng)站的目錄 URL 做為文檔分類的依據(jù)。可以定義遍歷網(wǎng)站的層次。監(jiān)測(cè)網(wǎng)站監(jiān)測(cè)網(wǎng)站通過服務(wù)器端程序監(jiān)測(cè)指定網(wǎng)站,自動(dòng)對(duì)網(wǎng)站生成的靜態(tài)頁(yè)面進(jìn)行 SEO 優(yōu)化。程序可以自動(dòng)監(jiān)測(cè)指定網(wǎng)站,采用每天或者每小時(shí)輪詢方式發(fā)現(xiàn)新網(wǎng)頁(yè)??梢酝ㄟ^配置文件指定掃描網(wǎng)站的方式。當(dāng)然也可以通過命令行建立文檔索引。建立索引方式可以是全量或增量。內(nèi)部采用智能適應(yīng)算法發(fā)現(xiàn)新增文檔速度快。一般的行業(yè)性網(wǎng)站每天的增量文檔處理只需要 100 多

8、秒即可完成。自定義排序方式自定義排序方式可按時(shí)間或者相關(guān)度返回搜索結(jié)果,并顯示相關(guān)度。按時(shí)間,按相關(guān)度排序高級(jí)查詢功能高級(jí)查詢功能支持包括按關(guān)鍵字查詢和詞組查詢,組合查詢,以及查詢修飾符等。舉例如下:任意字符匹配Ro?e前綴匹配rom*模糊匹配rome rome0.8把搜索范圍限定在標(biāo)題中title:木工把搜索范圍限定在內(nèi)容中body:機(jī)械邏輯查詢 電腦 & !IBM增加關(guān)鍵詞的重要度相機(jī)4 手機(jī)其配置情況可以在 TXT 文件中定義:索引庫(kù)管理和分析工具索引庫(kù)管理和分析工具擁有完整的索引庫(kù)管理工具。可以通過 web 登陸后臺(tái)刪除查詢注釋某條搜索結(jié)果不在前臺(tái)展現(xiàn)。三、三、 環(huán)境要求及性能指標(biāo)環(huán)境要求及性能指標(biāo)支持 Linux 及 Unix 操作系統(tǒng),采用 C/C+語(yǔ)言開發(fā)。各種版本可在如下環(huán)境穩(wěn)定運(yùn)行:VersionOperating SystemSDK/.NetJavaLinux Sun Java 2 SDK 1.4Sun Java 2 SDK 1.5網(wǎng)站增量數(shù)據(jù)的索引一般可以在 3 分鐘之內(nèi)執(zhí)行完畢。10G 左右的純文本信息在數(shù)小時(shí)內(nèi)即可索引完畢。四、四、 和百度的差別和百度的差別百度不支持同義詞查找,而好醫(yī)生支持。百度不支持全角字符大小寫的原樣保持,而好醫(yī)生支持。百度不支持多國(guó)語(yǔ)言精確查找。五、和五、和 Google 的差別的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論