基于Web的CML化學(xué)結(jié)構(gòu)搜索方法初探_第1頁(yè)
基于Web的CML化學(xué)結(jié)構(gòu)搜索方法初探_第2頁(yè)
基于Web的CML化學(xué)結(jié)構(gòu)搜索方法初探_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于的化教規(guī)劃搜索要收初探【摘要】化教標(biāo)識(shí)表記標(biāo)幟語(yǔ)止l已獲得廣泛利用,如今eb上存正在著年夜量的以l表示的化教規(guī)劃疑息,ggle、百度等eb搜索引擎只能真現(xiàn)對(duì)文本的檢索,沒(méi)法真現(xiàn)對(duì)化教規(guī)劃的檢索。本文正在闡收l(shuí)特征的根柢上,介紹了提與與考證eb上l表示的化教規(guī)劃疑息的要收。利用daylight公司的thr-erlin化教疑息數(shù)據(jù)庫(kù)系統(tǒng),提出一種化教規(guī)劃搜索引擎的方案方案?!娟P(guān)鍵詞】化教標(biāo)識(shí)表記標(biāo)幟語(yǔ)止化教規(guī)劃?rùn)z索化教規(guī)劃數(shù)據(jù)庫(kù)系統(tǒng)1引止化教標(biāo)識(shí)表記標(biāo)幟語(yǔ)止l(heialarkuplanguage)最后于1995年由peterurray-rust等人基于htl2.0開(kāi)拓,嘗試打面正在inter

2、net上舉止化教疑息交換的標(biāo)題問(wèn)題。1998年2月3宣布了xl:可擴(kuò)大標(biāo)識(shí)表記標(biāo)幟語(yǔ)止推薦標(biāo)準(zhǔn)1.0版。化教標(biāo)識(shí)表記標(biāo)幟語(yǔ)止l也根據(jù)xl的標(biāo)準(zhǔn)舉止了變更戰(zhàn)訂正,成為根據(jù)xl的標(biāo)準(zhǔn)從頭定義的一種標(biāo)識(shí)表記標(biāo)幟語(yǔ)止,是xl的一個(gè)利用。l如今的利用已相等廣泛,如aterialsgrid、spetra等工程皆采與了l,eb上也存正在著年夜量的以l表示的化教規(guī)劃疑息。因?yàn)榛探炭频膶I(yè)性戰(zhàn)內(nèi)容的相對(duì)自力性,如今化教疑息的檢索皆是基于特定的數(shù)據(jù)庫(kù),如sifinder、hebank、zin、pubhe、hedb、heine等化教數(shù)據(jù)庫(kù)。本文提出一種方案方案,將l轉(zhuǎn)換為siles,利用daylight公司的th

3、r-erlin系統(tǒng),創(chuàng)坐針對(duì)eb上年夜量存正在的l表示的化教規(guī)劃的eb搜索引擎。2系統(tǒng)方案框架2.1文檔的網(wǎng)羅與內(nèi)容闡收文檔網(wǎng)羅即頁(yè)里抓與工作,由raler去完成。由一組種子url開(kāi)端,從種子散url中與出一個(gè)url,肯定響應(yīng)的主機(jī)ip所在,收回抓與頁(yè)里懇供。對(duì)非反復(fù)文檔提與出包露于其中的鏈接,根據(jù)擬訂的過(guò)濾計(jì)策(相對(duì)鏈接轉(zhuǎn)為盡對(duì)鏈接,并斷定鏈接能可需要下載),把過(guò)濾后的url存進(jìn)url會(huì)散。同時(shí)對(duì)抓與的網(wǎng)頁(yè)的內(nèi)容舉止簡(jiǎn)樸的闡收,保存包露l內(nèi)容的網(wǎng)頁(yè)。最終的thr數(shù)據(jù)庫(kù)中其真沒(méi)有保存全部網(wǎng)頁(yè)的內(nèi)容,而只是保存露有l(wèi)內(nèi)容的網(wǎng)頁(yè)url。l表示的化教規(guī)劃疑息具有區(qū)分于網(wǎng)頁(yè)其中內(nèi)容的鮮明特征,它以標(biāo)識(shí)

4、表記標(biāo)幟開(kāi)端,以標(biāo)識(shí)表記標(biāo)幟去完畢。與標(biāo)識(shí)表記標(biāo)幟出有本質(zhì)的意義,只是起到容器的做用,做為l內(nèi)容的根,用去報(bào)辭其中l(wèi)處理程序正在文檔中存正在化教內(nèi)容。與之間可以是任何內(nèi)容,而且可以嵌套??墒侨缃窨吹降囊恍﹍文檔并已正在化教規(guī)劃疑息的最中層減注與標(biāo)識(shí)表記標(biāo)幟,而是間接以與表示最中層。正在對(duì)文檔內(nèi)容闡收時(shí)要考慮到那兩種情況。可以采與形式婚配去闡收抓與的網(wǎng)頁(yè)內(nèi)容。2.2文檔l內(nèi)容的抓與與有效性考證經(jīng)過(guò)raler的簡(jiǎn)樸過(guò)濾,文檔內(nèi)容存儲(chǔ)器中的文檔皆露有l(wèi)內(nèi)容。將文檔中l(wèi)內(nèi)容復(fù)造到零丁的文件中。文檔url與文檔收死的l文件具有一對(duì)n關(guān)連,n為l文件的個(gè)數(shù)。l內(nèi)容的有效性考證分三步2,3。第一步肯定l內(nèi)容

5、能可由與標(biāo)識(shí)表記標(biāo)幟或與標(biāo)識(shí)表記標(biāo)幟所包露。那正在2.1節(jié)中的文檔內(nèi)容闡收時(shí)已采與,目的是過(guò)濾失落肯定沒(méi)有露l內(nèi)容的文檔。第兩步,因?yàn)閘寬酷從命xl標(biāo)準(zhǔn),可以采與ldtd與lshea對(duì)l內(nèi)容舉止考證(l1.x采與dtd)。第三步采與基于xslt的考證要收,對(duì)l的內(nèi)容舉止闡收。比方可以經(jīng)由過(guò)程xslt去斷定l中的本子化開(kāi)價(jià)能可開(kāi)理,化開(kāi)物中兩個(gè)本子之間的間隔 是法開(kāi)理等。2.3l至siles的轉(zhuǎn)換與siles的存儲(chǔ)siles是一種線性的用asii碼去表示本子戰(zhàn)化教鍵的化教語(yǔ)止。戰(zhàn)其中化教規(guī)劃表示要收相比,siles簡(jiǎn)短易讀。統(tǒng)一種化教規(guī)劃用siles去表示要比用毗鄰表(nnetintable)撙

6、節(jié)50%至%70的存儲(chǔ)空間。標(biāo)準(zhǔn)siles可以大概保證每一個(gè)化教規(guī)劃的siles具有獨(dú)一性,果此常被做為化教數(shù)據(jù)庫(kù)中的索引關(guān)鍵字。l到siles的轉(zhuǎn)換,本方案采與開(kāi)源硬件penbabel供給的api函數(shù)。bnversin為轉(zhuǎn)換類,轉(zhuǎn)換真碼以下:bnversinnv(in,ut);if(nv.setinandutfrats(“si,“l(fā))bll;if(nv.read(l).anipulateleulenv-rite(l);thrserver是一布景程序,沒(méi)有容許用戶間接對(duì)其操做,用戶必須經(jīng)由過(guò)程thrlient對(duì)thrserver舉止操做。用戶經(jīng)由過(guò)程thrlient將l轉(zhuǎn)換后的siles及l(fā)所

7、在的文檔url、當(dāng)前訪謁工夫等存進(jìn)thr數(shù)據(jù)庫(kù),并以siles做為紀(jì)錄的次關(guān)鍵字。本系統(tǒng)根據(jù)daylight供給的thr-erlintlkit去編寫lient。lient經(jīng)由過(guò)程server去對(duì)thr數(shù)據(jù)庫(kù)舉止操做。2.4用戶界里方案初探用戶可以間接輸進(jìn)要檢索的化教規(guī)劃的siles碼,年夜要根據(jù)供給的je(je是由peterertl開(kāi)拓的javaapplet,用于正在網(wǎng)頁(yè)上間接描寫化教規(guī)劃)繪出要檢索的2d化教規(guī)劃圖,并指定規(guī)劃?rùn)z索的標(biāo)準(zhǔn),je會(huì)自動(dòng)把用戶繪出的化教規(guī)劃轉(zhuǎn)化為siles碼舉止檢索。3總結(jié)本文提出了一種化教規(guī)劃搜索引擎的方案方案,針對(duì)eb上年夜量存正在的l表示的化教規(guī)劃舉止檢索??墒且?yàn)閘呈現(xiàn)的工夫相比擬力早,eb上還有許多以其中格局存儲(chǔ)的化教規(guī)劃疑息,下一步要研討提與與考證eb上以其中格局表示的化教規(guī)劃疑息,以便對(duì)更多的化教規(guī)劃舉止檢索。參考

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論