HotData自動抽取模塊的分析與設(shè)計(初)_第1頁
HotData自動抽取模塊的分析與設(shè)計(初)_第2頁
HotData自動抽取模塊的分析與設(shè)計(初)_第3頁
HotData自動抽取模塊的分析與設(shè)計(初)_第4頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

碩士學(xué)位論文HotData自動抽取模塊的分析與設(shè)計研究生姓名:

指導(dǎo)教師姓名、職稱:

學(xué)科、專業(yè)名稱:

研究方向:年月日摘要Abstract目錄引言隨著生物醫(yī)學(xué)研究技術(shù)的進步,高通量實驗產(chǎn)生了大規(guī)模有意義的數(shù)據(jù)。在學(xué)術(shù)期刊以文獻形式公布研究成果時,需要通過不同的途徑來公布這些數(shù)據(jù),其中文獻的附加數(shù)據(jù)(SupplementaryData),也稱作補充材料(SupplementaryMaterial),是最普遍的方式。附加數(shù)據(jù)以電子格式發(fā)布在期刊網(wǎng)站的文獻歸檔中,其數(shù)據(jù)內(nèi)容和數(shù)據(jù)描述是進行統(tǒng)計分析和文本挖掘的甫要數(shù)據(jù)源。充分有效的利用這些資源,進行研究實驗以促進生物學(xué)和生物信息學(xué)的發(fā)展,顯得非常必要。然而,附加數(shù)據(jù)在國際上尚未引起關(guān)注,相關(guān)研究也處于空白階段。為了對附加數(shù)據(jù)進行系統(tǒng)研究,上海生物信息技術(shù)研究中心根據(jù)其特點,提出了HotData(熱點數(shù)據(jù))的概念,它的含義為:由生物醫(yī)學(xué)期刊以電子格式在網(wǎng)站上發(fā)布,作為科技文獻內(nèi)容的補充說明,且訪問時間具有一定限制(Hot)的附加數(shù)據(jù)(Data)。此概念著重強調(diào)了附加數(shù)據(jù)的訪問時間限制性,因此數(shù)據(jù)的收集整理成為亟待解決的問題。本文總結(jié)了HotData的發(fā)布規(guī)律及數(shù)據(jù)形式,它的分散性、多樣性以及時間限制等特點,向傳統(tǒng)的自動抽取技術(shù)提出了挑戰(zhàn)。不過,通過利用HotData的層次性、標記語言以及關(guān)鍵詞等優(yōu)勢,能夠?qū)⑵诳g的差異逐漸縮小,以ー套通用的方案解決自動抽取問題,最終采用Eclipse為開發(fā)平臺,Java技術(shù)為工具,開發(fā)出HotData自動抽取模塊,即HotDataSpider軟件。HotDataSpider是以抽取、轉(zhuǎn)換和加載HotData為H的而設(shè)計開發(fā)的軟件,它應(yīng)用數(shù)據(jù)倉庫技術(shù)中常用的ETL工具成功解決了HotData的收集整理問題,主要步驟包括:⑴數(shù)據(jù)抽?。‥xtraction):解決HotData與HotData信息的獲取問題;實現(xiàn)HotDataURL的解析、文摘信息的獲取和HotData的下載等功能。⑵數(shù)據(jù)轉(zhuǎn)換(Transformation):解決HotData與HotData信息形式混亂的問題;實現(xiàn)工程目錄結(jié)構(gòu)化管理、HotData信息標準化、URL分級管理以及用戶篩選URL列表等功能,與抽取部分結(jié)合緊密。⑶數(shù)據(jù)加載(Loading):為以后HotData導(dǎo)入主題數(shù)據(jù)庫提供橋梁;實現(xiàn)當(dāng)前エ程導(dǎo)出的功能。由于期刊網(wǎng)站具有形式多樣、改版修正和多層連接等特點,若僅依靠計算機程序的判斷,則難以保證抽取的正確性。因此,HotDataSpider實現(xiàn)了“半自動抽取”,為用戶提供交互式的操作界面,引入人工干預(yù)技術(shù)來輔助程序篩選HotDataURL列表,進行下載控制。目前,已實現(xiàn)了對15本國際知名期刊HotData的半自動抽取,通過了368個測試案例,軟件性能穩(wěn)定。HotDataSpider采用工程(Project)管理的方式將所有查詢、瀏覽、篩選、下載等操作以工程項目的形式串聯(lián)在ー起,進行規(guī)范化管理。軟件支持HotData查詢、文摘信息瀏覽、數(shù)據(jù)頁面預(yù)覽、數(shù)據(jù)URL篩選、用戶下載控制、HotData編輯以及當(dāng)前工程導(dǎo)出等功能。HotDataSpider是ETL工具在生物醫(yī)學(xué)領(lǐng)域的成功應(yīng)用。然而,僅僅實現(xiàn)15本期刊的下載是遠遠不夠的,HotDataSpider為期刊提供了通用接口,有著很強的發(fā)展?jié)摜?。首先,可以擴增期刊的數(shù)目,為HotData主題數(shù)據(jù)庫提供更多的資源:其次,數(shù)據(jù)內(nèi)容和數(shù)據(jù)描述是進行統(tǒng)計分析和文本挖掘的重要資源,若能根據(jù)這兩個方面的研究成果,擴充HotDataSpider的功能,使其成為具有自動分類和文本挖掘功能的綜合軟件,就可以為其它基因、蛋白質(zhì)數(shù)據(jù)庫內(nèi)的數(shù)據(jù)進行注稱。最后,以上述技術(shù)為背景,可逐步實現(xiàn)包含分類系統(tǒng)(類似于PubMed的MeSH分類系統(tǒng))的HotData主題數(shù)據(jù)庫。關(guān)鍵詞:HotData,ETL、生物醫(yī)藥文獻、附加數(shù)據(jù)、自動抽取正文文獻綜述

實驗研究或社會實踐闡述理論分析

結(jié)論第1章緒論研究背景隨著生物醫(yī)學(xué)研究技術(shù)的進步,高通量實驗產(chǎn)生了大規(guī)模有意義的數(shù)據(jù)。在學(xué)術(shù)期刊以文獻形式公布研究成果時,需要通過不同的途徑來公布這些數(shù)據(jù),其中文獻的附加數(shù)據(jù)(SupplementaryData),也稱作補充材料(SupplementaryMaterial),是最普遍的方式。附加數(shù)據(jù)以電子格式發(fā)布在期刊網(wǎng)站的文獻歸檔中,其數(shù)據(jù)內(nèi)容和數(shù)據(jù)描述是進行統(tǒng)計分析和文本挖掘的重要數(shù)據(jù)源。充分有效的利用這些資源,進行研究實驗以促進生物學(xué)和生物信息學(xué)的發(fā)展,顯得非常必要。然而,附加數(shù)據(jù)存在于半結(jié)構(gòu)化的網(wǎng)頁中,其分散性、多樣性以及訪問時間限制性,使系統(tǒng)研究面臨帀繭障礙。如何將附加數(shù)據(jù)與其相關(guān)信息抽取出來,轉(zhuǎn)換為統(tǒng)ー的格式,并最終加載到主題數(shù)據(jù)庫供用戶訪問,成為亟待解決的問題。研究目的擬解決的問題國內(nèi)外研究進展目前,人們對生物醫(yī)學(xué)文獻的研究,還局限在題名、摘要、關(guān)鍵詞和正文等幾個傳統(tǒng)的部分。僅有極少數(shù)生物信息學(xué)家指出,應(yīng)盡早對附加數(shù)據(jù)進行收集和整理用,但是在國際上尚未引起關(guān)注,相關(guān)研究也處于空白階段。此外,Web生物學(xué)信息的抽取?直是計算機領(lǐng)域的技術(shù)難點,除了各數(shù)據(jù)源網(wǎng)頁自治和半結(jié)構(gòu)化的原因,生物學(xué)信息的一些特點,如:多種命名實體(基因、蛋白質(zhì)、藥物、細胞、調(diào)控因子、轉(zhuǎn)錄因子和啟動子等)、某項實驗屬性缺失以及排序不固定⑵,都向傳統(tǒng)的自動識別抽取技術(shù)提出了挑戰(zhàn)。1.4本文主要研究內(nèi)容本文的研究目標是在提出HotData概念的基礎(chǔ)上,總結(jié)其發(fā)布規(guī)律,分析并設(shè)計出HotData自動抽取模塊,開發(fā)出HotDataSpider軟件,為解決數(shù)據(jù)的收集、轉(zhuǎn)換、更新和加載等問題提供支持。1.5本文組織結(jié)構(gòu)本文共分為六個章節(jié):第1章:簡要概述生物醫(yī)學(xué)文獻附加數(shù)據(jù)的概念,以及收集整理工作的現(xiàn)狀:第2章:提出HotData的概念,并對其特點、意義和存在問題進行深入分析;第3章:綜述ETL技術(shù)、抽取流程設(shè)計及主要編程環(huán)境;第4章:介紹HotDataSpider的運行環(huán)境、環(huán)境設(shè)置及主要界面:第5章:以實例的方式,詳細介紹HotDataSpider工程管理具體步驟;第6章:總結(jié)與展望。HotData概述定義HotData,即“熱點數(shù)據(jù)”,是上海生物信息技術(shù)研究中心根據(jù)附加數(shù)據(jù)的特點所提出的概念,它的含義為:由生物醫(yī)學(xué)期刊以電子格式在網(wǎng)站上發(fā)布,作為科技文獻內(nèi)容的補充說明,且訪問時間具有一定限制(Hot)的附加數(shù)據(jù)(Data)。HotData著重強調(diào)了附加數(shù)據(jù)的訪問時間限制性,因此需要盡快對其進行收集和整理。意義HotData以電子格式發(fā)布在期刊網(wǎng)站的文獻歸檔中,主要包括數(shù)據(jù)內(nèi)容和數(shù)據(jù)描述兩部分。其中,數(shù)據(jù)內(nèi)容是對文獻內(nèi)容的補充(如基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等方面的實驗圖譜及數(shù)據(jù)),可作為統(tǒng)計分析、實驗設(shè)計以及構(gòu)建生物醫(yī)學(xué)數(shù)據(jù)庫的重要數(shù)據(jù)源;數(shù)據(jù)描述則是對數(shù)據(jù)內(nèi)容的概括及解釋,具有關(guān)鍵詞且分類性強。隨著文本挖掘技術(shù)在生物信息學(xué)領(lǐng)域中的應(yīng)用越來越廣泛,研究人員利用自然語言處理技術(shù),對大量生物醫(yī)學(xué)文獻的全文和摘要進行了分析,從而挖掘出隱含的生物學(xué)知識網(wǎng)——那么,如果將HotData的描述與文獻內(nèi)容聯(lián)系起來,作為文本挖掘的研究對象,可對隱含知識的挖掘提供有力的支持。因此,收集HotData并對數(shù)據(jù)信息進行規(guī)范化的數(shù)據(jù)庫管理,是ー項很有意義的工作?,F(xiàn)狀然而,HotData目前在國際上尚未引起關(guān)注,對HotData的相關(guān)研究也處于空白階段,沒有一套成熟的發(fā)布、收集、管理和研究的標準。因此,我對17本國際知名生物醫(yī)學(xué)期刊進行調(diào)查,初步總結(jié)了HotData的發(fā)布規(guī)律,如表1.1所示:雜志標準名稱層次性標記語言附加數(shù)據(jù)Keyword注冊改版CellTHTML/XMLSupplementalDataFTNucleicAcidsResTHTMLSupplementary*FTProcNatlAcadSciUSATHTMLSupporting*FFMolCellProteomicsTHTMLSupplementalDataTTJBiolChemTHTMLSupplementalDataFFJProteomeResTHTMLSupportingInfbFFJVirolTHTMLSupplementalMaterialFFEMBOJTHTMLSupplementaryInformationFTOncogeneTHTMLSupplementaryInformationFTBioinformaticsTHTMLSupplementaryDataTFBloodTHTMLSupplemental*FFGenomeResTHTMLSupplementalReserchDataFFScienceTHTMLSupporting*/Supplement*FTPLoSBiolTHTMLFullTextFFPLoSComputBiolTHTMLFullTextFFBMCBioinformaticsFHTMLFullText--BMCGenomicsFHTMLFullText-*HotData主要有以下特點:⑴層次性:多數(shù)期刊的文獻歸檔具有層次性,依次訪問歸檔入口、年歸檔、卷期歸檔和附加數(shù)據(jù)歸檔(或全文),便可到達HotData的鏈接,少數(shù)期刊不具有層次性;⑵標記語言:期刊歸檔網(wǎng)頁的標記語言為HTML或XML;⑶關(guān)鍵詞:在卷期歸檔或全文頁面中,可以找到鏈接到附加數(shù)據(jù)歸檔的HotData關(guān)鍵詞,但每種雜志的關(guān)鍵詞不同:⑷分散性:HotData與文獻對應(yīng),由所屬期刊維護,造成網(wǎng)頁排版和數(shù)據(jù)形式多樣;⑸時間限制:HotData大多只能在一段時間內(nèi)訪問,近兒年發(fā)表的HotData需要注冊才能訪問:⑹網(wǎng)頁改版:同一期刊可能存在歸檔頁面改版現(xiàn)象。HotData的分散性、多樣性以及時間限制等特點,向傳統(tǒng)的自動抽取技術(shù)提出了挑戰(zhàn)。曾有專家指出,所有發(fā)布在期刊網(wǎng)站中的HotData應(yīng)遵循共同的標準(如Nature標準口),只有提出一套成熟的HotData發(fā)布標準,才能結(jié)束這種形式混亂的局面。不過,HotData的層次性、標記語言以及關(guān)鍵詞等優(yōu)勢,可為編程人員所利用,開發(fā)出相應(yīng)的抽取、轉(zhuǎn)換和加載軟件,最終建立公共數(shù)據(jù)庫,供研究人員訪問。模塊的分析與設(shè)計2.1需求分析由HotData的現(xiàn)狀可知,數(shù)據(jù)的收集是進行?切研究的前提。隨著越來越多的HotData出現(xiàn)在期刊網(wǎng)站中,手工下載顯然無法適應(yīng)研究的需要。只有開發(fā)出HotData自動抽取模塊,以計算機為工具將HotData從自治的數(shù)據(jù)源中抽取到本地,才能進行下一步的規(guī)范化管理。但是,半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)存在著大量錯誤和冗余,若僅依靠計算機程序的判斷,則難以保證抽取的正確性,因此需要引入人工判斷。一個成熟的HotData自動抽取模塊應(yīng)具有以下功能及特點:⑴提供交互式的操作界面,實現(xiàn)“半自動化”的抽取:(2)提供歸檔查詢的功能,根據(jù)用戶的選擇,可從期刊的文獻中解析出HotData的URL;⑶提供附加數(shù)據(jù)頁面瀏覽功能,輔助用戶篩選URL:(4)可進行下載控制,將數(shù)據(jù)存儲至本地:⑸可獲取HotData對應(yīng)的文摘信息:(6)為以后數(shù)據(jù)導(dǎo)入主題數(shù)據(jù)庫提供支持;⑺將所有查詢、瀏覽、篩選、下載等操作以工程項目的形式串聯(lián)在一起,進行規(guī)范化管理;(8)軟件需通過大量測試,運行穩(wěn)定且易維護。2.2ETL的應(yīng)用2.1定義開發(fā)HotDataSpider軟件,是本課題的最終目標,若要實現(xiàn)需求分析中所列舉的各項功能,需要引入數(shù)據(jù)倉庫技術(shù)中常用的ETL工具來攻克所有難題。ETL(Extract抽取,Transformation轉(zhuǎn)換,Loading加載)是指從數(shù)據(jù)源獲取數(shù)據(jù),并對數(shù)據(jù)進行清洗轉(zhuǎn)換,最終加載到數(shù)據(jù)倉庫的過程,是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié)⑷。ETL工具可以解決數(shù)據(jù)源分散、數(shù)據(jù)不清潔和數(shù)據(jù)倉庫構(gòu)建等問題,在通信、證券和銀行等領(lǐng)域有廣泛的應(yīng)用⑸。應(yīng)用現(xiàn)狀隨著后基因組時代的到來,ETL技術(shù)逐漸被引入生物醫(yī)學(xué)領(lǐng)域,用于集成高通量實驗產(chǎn)生的大量異構(gòu)數(shù)據(jù),為研究人員提供髙質(zhì)量的分析數(shù)據(jù)。生物醫(yī)學(xué)數(shù)據(jù)通常存在于不同的關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫和互聯(lián)網(wǎng)資源中,數(shù)據(jù)的組成表示比較復(fù)雜,包括不同格式的文本和大量的圖表,而且大部分數(shù)據(jù)具有異構(gòu)、描述性和自治的特點,存在錯誤和冗余⑹,這些都對傳統(tǒng)的ETL技術(shù)提出了挑戰(zhàn)。目前,人們利用ETL技術(shù)構(gòu)建了一些面向主題的生物醫(yī)學(xué)數(shù)據(jù)倉庫:在國外,ー些公司已經(jīng)開發(fā)出用于建立和使用數(shù)據(jù)庫的系統(tǒng),提供較成熟的ETL工具,在序列、注釋數(shù)據(jù)庫的研究中取得了一定的成果⑺。然而,國內(nèi)對ETし技術(shù)的開發(fā)甚少,因此在生物醫(yī)學(xué)領(lǐng)域中的應(yīng)用還處在起步階段。如何應(yīng)用HotData作為網(wǎng)絡(luò)資源形式的生物醫(yī)學(xué)數(shù)據(jù),具有分散、自治、半結(jié)構(gòu)化和描述性的特點。ETL工具分別從三個方面來實現(xiàn)需求分析中的功能:(1)抽取:解決HotData與HotData信息的獲取問題。實現(xiàn)HotDataURL的解析、文摘信息的獲取和HotData的下載等功能。(2)轉(zhuǎn)換:解決HotData與HotData信息形式混亂的問題。實現(xiàn)工程目錄結(jié)構(gòu)化管理、HotData信息標準化、URL分級管理以及用戶篩選URL列表等功能,與抽取部分結(jié)合緊密。⑶加載:為以后HotData導(dǎo)入主題數(shù)據(jù)庫提供橋梁。實現(xiàn)當(dāng)前工程導(dǎo)出的功能。所有功能描述將在第5章詳細介紹。2.3系統(tǒng)流程的設(shè)計系統(tǒng)流程是設(shè)計的核心,我將其劃分為URL解析、文摘信息獲取和用戶判斷三個重要部分,各部分間有著緊密的關(guān)聯(lián),如圖2.1所示。下面將對其進行詳細介紹。2.3.1URL解析在第2章曾提到,HotData的層次性、標記語言和關(guān)鍵詞等優(yōu)勢,可為編程人員所利用。根據(jù)手動下載的經(jīng)驗,可通過以下步驟到達HotData的下載頁面:(1)提供期刊Archive地址,作為程序的入口;⑵進入期刊按年份排列的歸檔頁面,解析出所有的年份:⑶進入某?年份按卷期排列的歸檔頁面,解析出所有的卷期;(4)進入某卷期的文章列表頁面,解析出所有的文章標題;若沒有HotData關(guān)鍵詞,進行第⑸步,否則跳至第⑹步;⑸查看全文;(6)尋找關(guān)鍵字;⑺進入HotData的歸檔頁面;(8)將HotData的URL列表返回給用戶。以上步驟可參考圖2.1左邊部分。需要注意的是,由于每本期刊的URL形式和HotData規(guī)律不同,需要分別編寫解析器;2.3.2文摘信息獲取除解析URL以外,獲取HotData對應(yīng)的文章信息也是不可缺少的部分,它直接影響到數(shù)據(jù)管理和工程導(dǎo)出等操作。本部分主要包括以下步驟:⑴與3.2.1節(jié)的第⑷步聯(lián)系起來,進入某卷期的文章列表頁面;⑵解析出卷號、期號及文章標題;(3)調(diào)用PubMed提供的API,下載相應(yīng)卷期的PubMedXML文件;(4)將文章標題與XML文件中的標準題H相匹配;⑸根據(jù)匹配的正確標題,返回相應(yīng)的文摘信息;(6)將文摘信息與HotData相對應(yīng)。以上步驟可參考圖2.1右邊部分。2.3.3用戶判斷這一部分是ETL技術(shù)中抽取和轉(zhuǎn)換的有機結(jié)合,這是因為歸檔網(wǎng)頁中存在著數(shù)據(jù)更新、鏈接錯誤和多重鏈接等情況,目前的編程水平還無法針對所有期刊提出統(tǒng)ー的解決方案,所以在抽取過程中引入人工判斷是十分必要的。本部分主要包括以下步驟:(1)與3.2.1節(jié)的第⑺步聯(lián)系起來,首先將HotDataURL列表返回給用戶;⑵用戶根據(jù)事先制定好的規(guī)則,瀏覽網(wǎng)頁,篩選URL列表;⑶將篩選好的URL列表添加至當(dāng)前工程項目,即添加到下載隊列;(4)下載數(shù)據(jù);下載任務(wù)在雜志內(nèi)串行,雜志間可并行;(5)將HotData存放到本地;(6)與3.2.2節(jié)的第⑸步相聯(lián)系,將HotData與文摘信息對應(yīng);⑺導(dǎo)出HotData存放目錄及數(shù)據(jù)信息表,最終導(dǎo)入數(shù)據(jù)庫。以上步驟可參考圖2.1中間部分。圖2.1HotDataSpider系統(tǒng)流程圖第3章基于本文提出理論(技術(shù))的工程設(shè)計ー、 數(shù)據(jù)收集1,手工下載前期尋找期刊附加數(shù)據(jù)規(guī)律,如數(shù)據(jù)URL,關(guān)鍵字等信息,或無法用程序?qū)崿F(xiàn) 自動下載的特殊期刊,采用手工下載方式。從各免費期刊的網(wǎng)站上直接下載文章附加數(shù)據(jù),登錄期刊網(wǎng)站,從期刊Archive按照文章發(fā)表順序下載附加數(shù)據(jù)。根據(jù)關(guān)鍵字尋找含附加數(shù)據(jù)的文章下載到本地。常見關(guān)鍵字有:Supplementaryinformation,Availability,supplementalResearchData,SupportingInformation,Availabilityandrequirements等:一篇含附加數(shù)據(jù)的文章為一條記錄,它的所有數(shù)據(jù)存放在以這篇文章的PubmedID命名的文件夾中,一本期刊所有數(shù)據(jù)存放在以期刊名命名的文件夾中。使用Endnote從Pubmed搜索得到每篇文章的文摘項目,每本期刊的所有文摘存放在ー個endnote庫文件中。附加數(shù)據(jù)常見格式有:PDF,word,txt文本,圖像,視頻,html網(wǎng)頁2.自動下載與更新2.1基本流程編寫程序?qū)崿F(xiàn)從互聯(lián)網(wǎng)自動下載數(shù)據(jù),數(shù)據(jù)ド載基本流程為2.2主要問題主要需解決的問題:I.如何找到數(shù)據(jù)ド載地址II.如何得到文章的文摘信息并把它與數(shù)據(jù)對應(yīng)起來2.3具體實現(xiàn)1)JournalList文件維護ー個JournalList文件,程序讀取此文件作為初始輸入,并且記錄當(dāng)前已ド載期刊數(shù)據(jù)的歷史信息,根據(jù)此文件判斷是否需要更新JournalList文件一行為一條記錄,一條記錄包含8個字段,字段之間以Tab隔開,如下表所示:字段名說明jouranllD4位流水號,每本期刊分配ー個不變的idArchiveURLArchiveofallOnlineIssuesCurrentIssue2000 2001 2002 20031990 1991 1992 19931980 1981 1982 1983Oct20.2006:127⑵1997 1998 19991987 1988 1989Oct6.2006:127ArchiveURLArchiveofallOnlineIssuesCurrentIssue2000 2001 2002 20031990 1991 1992 19931980 1981 1982 1983Oct20.2006:127⑵1997 1998 19991987 1988 1989Oct6.2006:127⑴Sep22.2006:126⑹joumalName期刊名稱,字符串,jouranIArchiveURL期刊文章存檔URL,如http:〃/contentyearURL期刊按年份歸檔的頁面URL,含正則表達式http:〃/content/year?year=(*\d)volumeURL期刊每卷的URL,含通配符,可以匹配期刊每卷的URL,如Cell的112卷第三冊的URL為http:〃w/content/issue?volume=112&issue=3Cel!的volumeURL為http:〃/content/issue7volume二?&issue二?dataURL附加數(shù)據(jù)的URL,含正則表達式的字符串,可以是多個,以逗號隔開,用以匹配ド載數(shù)據(jù)的URL如http:〃/cgi/content/ful1/(.\d)/(.\d)/(.\d)/DC1/(.*)keywords此期刊附加數(shù)據(jù)的關(guān)鍵字,可以是多個,并含正則表達式,以逗號隔開,如Cel!關(guān)鍵字[SupplementalData]isFullText下載此期刊數(shù)據(jù)是否需要點擊查看全文。這個字段值為ture或falsecurrentYear當(dāng)前存儲的最新數(shù)據(jù)的年份currentVblume當(dāng)前存儲的最新數(shù)據(jù)的卷號currentissue當(dāng)前存儲的最新數(shù)據(jù)的期號yearURL地址^し]http://ww.cell.con/content/year?year=2005 vQTitle/abstract*eywords AuthorBlockmiRNAmaturation—andactivitywith...MArchiveofallOnlineIssues42005吩January FebruaryJan14: 120(01-152Feb11:Jan28: 120(2):153-285Feb25:April MayApr8: 121(1):1-154M&Y6:Apr22: 121(2):155-317M@Y2Q:volumeURL地址0地址0熙片 '—ArcK.. -Arch..7TCell-T?U...]LeadingEdgeResearchArticlesLeadingEdgeInThisIssue[FullText!LeadingEdgeResearchArticlesLeadingEdgeInThisIssue[FullText![PDF]ImmunologySelectfSummqrYl[FulTextl[物AnalysisHIMRAwaitstheFinalVerdictPhyllidaBrown【SummarYl[FulText1[PDF]CommentaryNeuroscienceandArchitecture:SeekingCommonGroundEstherMSternbergandMatthewA.VMIson[Summary][FulText![PCFJArchitecturalDesignandtheCollaborativeOtoferlin,DefectiveinaHumanDeafnessForm,IsEssentialforExocytosisattheAuditoryRibbonSynapseIsabeleRoux,SaaidSafieddine,RegisNouvian,M'hamedGrati,Marie-ChristineSitnmler,AmelBahloul,IsabellePerfettini,MorganeLeGall,PhilippeRostaing,GhislaineHamatd,AntobeTrdter,PaulAvan,TobiasMoser,andChristinePetit[Summarvl[FullText![PDF1[SupplementalDgtalCRTAPIsRequiredforProlyl3-HydroxylationandMutationsCauseRecessiveOsteogenesisImperfectaRoyMorelo,TerryKBertin,YuqingChen,JohnHicks,LauraTonachini,MassimilianoMonticone,PatrizioCastagnola,FrankRauch,FrancisH.Glotieux,JaniceVranka,HansPeterBachinger,JamesMPace,UlrikeSchwarze,PeterH.Byers,MaryAnnWeis,RusselJ.Fernandes,DavidR.Eyre,ZhenqiangYao,BrendanF.Boyce,andBrendanLee[Summary][FullText][PDF][SupplementalData】InsulinDegradingEnzymeIsaCellularReceptorMediatingVaricella-ZosterVirusInfectionandCell-to-CellSpreadQingxueLi,MirAAli,andJeffreyI.Cohen[Sitfnmarvl[FullText】[PDF][SupplementalDatalI也址r]http://ww.cell.co?/cgi/content/full/127/2/329/DC1/DDIB-Protein...||http://email |ihttp://www.c..RegisterLoginPasswordRegisterLoginPasswordAuthorTitle/abstract/keywordsAuthorLookAgain.DisciDiscoverexpertanalysisandcommeiresearch,diagnosis,andtreatmentSupplementalDataSupplementalDataforShiauetal..Cell^27,pp.329-340DocumentS1.SixFiaures,OneTable,ExperimentalProcedures,andReferencesMovieS2.MovieShowinaConformationalChangesinHsp90ThemoviebeginswiththeapostateandthentransitionstotheADPextendedstate,thentotheATPstate(basedonyeastSummary〇,thisArticleFullTextofthisArticle2)程序流程圖串連接vHumeURL抓取網(wǎng)頁內(nèi)容currentVolumn=volumncurrentlssue=:issue匹配FullTcxt,抓是IttFullText網(wǎng)頁二、數(shù)據(jù)分類.分類列表根據(jù)生物學(xué)知識及數(shù)據(jù)特點做出分類系統(tǒng)每篇文章對應(yīng)數(shù)據(jù)具有一個或多個分類屬性原Hotdata分類的缺陷1. ?部分數(shù)據(jù)應(yīng)按照基因組數(shù)據(jù)ー轉(zhuǎn)錄組數(shù)據(jù)一蛋白質(zhì)組數(shù)據(jù)的順序分類,缺少了RNA數(shù)據(jù)的分類。蛋白質(zhì)功能中,有些數(shù)據(jù)在5.1的和5.2蛋白質(zhì)相互作用之間不好歸類。.亞細胞定位方面的數(shù)據(jù)難以歸類。.疾病數(shù)據(jù)分類有待擴充.分類級別不統(tǒng)ー1.2.修正后的分類表數(shù)據(jù)分類列表(Parent_)Type_idType_Name(English)Type_Name(Chinese)ー級二級三級1Genome基因組1.1NucleotideSequence核酸序列1.2Gene基因1.2.1GeneExpression基因表達1.2.2SequenceMotif序列Motif1.2.3AlternativeSplicing選擇性剪切1.2.4Others其它2Transcriptome轉(zhuǎn)錄組2.1Transcription轉(zhuǎn)錄2.2RNAStructureRNA結(jié)構(gòu)2.2.1RNASequenceRNA序列2.2.2RNA2DStructureRNA二級結(jié)構(gòu)2.2.3RNA3DStructureRNA三級結(jié)構(gòu)2.2.4Others其它2.3RNAmodification轉(zhuǎn)錄后修飾2.4RNAFunctionRNA功能2.4.1Mutation&SNP變異與單核甘酸多態(tài)性2.4.2RNAInterference(iRNA)RNA干擾2.4.3InverseTranscription逆轉(zhuǎn)錄2.4.4NucleotideEnzyme核酶2.4.5Others其它3Proteome蛋白質(zhì)組3.1ProteinStructure蛋白質(zhì)結(jié)構(gòu)3.1.1ProteinSequence蛋白質(zhì)序列3.1.2Protein2DStructure蛋白質(zhì)二級結(jié)構(gòu)3.1.3Protein3dStructure蛋白質(zhì)三級結(jié)構(gòu)3.1.4ProteinStrucureMotif蛋白質(zhì)結(jié)構(gòu)Motif3.1.5Others其它

3.2Enzyme酶3.2.1EnzymeStructure酶的結(jié)構(gòu)3.2.2Zymogen酶原3.2.3Coenzyme輔酶3.2.4ActiveCenterRegulationofEnzyme活性中心3.2.5酶的調(diào)節(jié)3.2.6KineticsofEnzyme-catalyzedReactions前促反應(yīng)動力學(xué)3.2.7Others其它3.3ProteinFunction蛋白質(zhì)功能3.3.1Protein-ProteinInteraction(PPI)蛋白質(zhì)相互作用3.3.2Pathway代謝通路3.3.3Others其它4CellBiology細胞生物學(xué)4.1Cell&SubcellStructure細胞與亞細胞結(jié)構(gòu)4.1.1ProkaryoticCell原核細胞4.1.2EukaryoticCell真核細胞4.1.3Virus病毒4.1.4SubCellLocation亞細胞定位4.1.5Others其它4.2CellCircle細胞周期4.2.1CellProliferation細胞增殖4.2.2Mitosis&Meiosis有絲與減數(shù)分裂4.2.3CellSenescence&Apoptosis細胞衰老與凋亡4.2.4Others其它4.3CellFunction細胞功能4.3.1CellMigration細胞遷移4.3.2Cel1&CellInterference細胞相互作用4.3.3SubstanceTransportation物質(zhì)運輸4.3.4CellSignaling細胞信號轉(zhuǎn)導(dǎo)4.3.5Cell&SubcellStructure細胞組織工程4.3.6Others其它5RegulatoryNetwork調(diào)控網(wǎng)絡(luò)5.1GeneRegulatoryNetwork基因調(diào)控網(wǎng)絡(luò)5.2TranscriptionalRegulatoryNetwork轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)5.3PPINetwork蛋白質(zhì)作用網(wǎng)絡(luò)5.4MetabolizationalNetwork代謝網(wǎng)絡(luò)5.5SignalTransductionalNetwork信號轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)5.6NeuralRegulatoryNetwork神經(jīng)調(diào)控網(wǎng)絡(luò)5.7Others6ピ6BiologicalTerchnologies生物技術(shù)6.1MolecularOperation分子操作6.1.1GeneOperation基因操作6.1.2MicroarrayofGene基因芯片

6.1.3MicroarrayofProtein蛋白質(zhì)芯片6.1.4PCRTechnologyPCR技術(shù)6.1.5MassSpectrum質(zhì)譜技術(shù)6.1.6Electrophoresis電泳圖譜6.2CellCulture細胞培養(yǎng)6.2.1CellFusion細胞融合6.2.2CellHybrization細胞雜交6.2.3Clone體細胞單性繁殖6.2.4StemCell干細胞技術(shù)6.2.5OrganTransplantation器官移植6.3MonoclonalAntibody單克隆抗體6.4NanoTechonology納米技術(shù)6.5Others其它7ImportantComponent重要化合物7.1SampleLigand簡單配體7.2Glycan多糖7.3Medicine藥物7.4Others其它8Disease疾病8.1GeneofDisease致病基因8.2Regulatorymechanism調(diào)控機制8.3Target靶點8.4Others其它9Literature文獻10Dictionary&Ontology字典與本體11OtherBiologicalResources其它生物資源2.自動分類方法分類算法A.建立關(guān)鍵字索引庫對文章Title.KeyWords.Abstracts,Text各部分的單詞賦予權(quán)重文章不同部分權(quán)值Title8KeyWords10Abstracts5Text1使用!ucence系統(tǒng)索引數(shù)據(jù)對應(yīng)的文章.統(tǒng)計文章內(nèi)出現(xiàn)的所有有生物學(xué)意義的單詞,計算其得分.某一單詞的得分定義為在各部分出現(xiàn)的次數(shù)X改部分的權(quán)值,即score=Z次數(shù)x權(quán)值.取每篇文章得分最高的前五個單詞,作為該篇文章的關(guān)健字,加入關(guān)鍵字索引庫。每個關(guān)鍵字具有置信度屬性,定義為該具有關(guān)鍵字文章篇數(shù)的倒數(shù)。B.對關(guān)鍵字進行分類,由專家根據(jù)分類列表賦予毎個關(guān)鍵字ー個類別C.索引?篇文章,得到它的五個關(guān)鍵字。計算每個關(guān)鍵字的分類得分,分類得分為該關(guān)鍵字scorex置信度,計算該篇文章所屬類別的總得分,每篇文章最多具有三個類別,取得分最高的前三個類別作為該篇文章對應(yīng)數(shù)據(jù)的類別。程序流程

N++由專家為該へ定分類屬提交專家判定是否具有生物學(xué)意義N++由專家為該へ定分類屬提交專家判定是否具有生物學(xué)意義三、數(shù)據(jù)加工.建立Hotdata加工數(shù)據(jù)子庫原始數(shù)據(jù)全部保留,并對用戶提供下載和查詢服務(wù)。.數(shù)據(jù)加工方法2.5第二部分網(wǎng)站功能査詢.簡單査詢查詢界面簡潔,用戶在輸入框輸入關(guān)鍵字后點擊search按鈕即返回結(jié)果。簡單查詢默認查詢字段:字段名說明DATA_DESCRIPTION數(shù)據(jù)描述DATA.KEYWORDS數(shù)據(jù)關(guān)鍵字OWNER數(shù)據(jù)提交者ARTICLE_TITLE文章標題ARTICLE_KEYWORDS文章關(guān)鍵字ARTICLE.ABSTRACT文章摘要PUBMEDJDPubmed編號ARTICLE_AUTHOR文章作者支持查詢多個關(guān)健詞的邏輯運算,默認邏輯關(guān)系為AND.復(fù)雜査詢提供更多搜索限制選項,使用戶得到更加精確的結(jié)果?限制字段エ]!" 關(guān)鍵詞如入 匹,模?:円邏輯關(guān)系TOC\o"1-5"\h\zm 3 n.m 3i ロ,PublicationdateFrom,[ toI VblumelPagel ,分類列表邏輯關(guān)系:AND,OR,NOT,默認為AND限制字段:三個默認限定字段分別為:Title,Abstract,DataDescription關(guān)鍵詞輸入:用戶可輸入多個關(guān)鍵詞匹配模式:模糊匹配,精確匹配分類列表:數(shù)據(jù)分類列表的多選框限定字段說明檢索字段說明Title文章標題Abstract文章摘要KeyWords文章關(guān)鍵字或數(shù)據(jù)關(guān)鍵字

DataDescription數(shù)據(jù)描述Journal期刊名ISSN期刊ISSN號Author作者姓名Institution作者單位PubmedIDPubmed編號.二次査詢當(dāng)用戶初次查詢返回結(jié)果后,在結(jié)果頁面顯示“在結(jié)果中查找”的按鈕,用戶輸入查詢字,在當(dāng)前結(jié)果中再次查找。查詢語句為上次査詢語句+當(dāng)前查詢語句,默認搜索字段同簡單查詢。.瀏覽用戶可以順序瀏覽Hotdata數(shù)據(jù)庫中所有數(shù)據(jù)。界面中顯示Browse標簽,卜設(shè)Journal和Topic兩個子標簽,點擊子標簽后按不同方式瀏覽。.按期刊名順序瀏覽Hotdata收錄所有期刊按期刊名首字母順序排列,用戶點擊Journal子標簽后轉(zhuǎn)到按期刊瀏覽界面,默認界面為首字母為A的期刊列表。列表上下有A,B,C……等英文字母排列,點擊每個字母后跳轉(zhuǎn)到相應(yīng)首字母的期刊列表,點擊某期刊后進入按年份排列的列表,點擊某年份后進入當(dāng)年所有數(shù)據(jù)列表。數(shù)據(jù)列表為筒要結(jié)果,點擊數(shù)據(jù)標題后進入詳細結(jié)果及數(shù)據(jù)下載頁面。.按數(shù)據(jù)類別瀏覽用戶點擊Topic子標簽后,進入按數(shù)據(jù)類別瀏覽界面。數(shù)據(jù)分類共有三層結(jié)構(gòu),默認顯示數(shù)據(jù)分類的第一層,點擊某ー層后樹形展開,直到下面再無分類,轉(zhuǎn)到該分類所有數(shù)據(jù)的簡要結(jié)果列表頁面。結(jié)果按數(shù)據(jù)入庫先后順序排列。.結(jié)果顯示.簡要結(jié)果列表簡要結(jié)果顯示字段用戶提交查詢和瀏覽請求后,首先顯示簡要結(jié)果列表。每條簡要結(jié)果顯示如下字段:期刊按首字母排列相同首字母期刊列表期刊按首字母排列相同首字母期刊列表字段說明Title文章標題JournalName期刊名Author作者PublicationDate出版日期DataDescription數(shù)據(jù)描述(200字母以內(nèi))字段說明DataFileName數(shù)據(jù)文件名HOTDATA_FILESIZE數(shù)據(jù)文件大小

DownloadCount下載次數(shù)結(jié)果排序結(jié)果排列順序可由用戶定制,默認排列順序為按相關(guān)度由大到小。相關(guān)度定義需結(jié)合lucence評分機制修改。用戶還可選擇按出版時間順序,按入庫時間順序,按下載次數(shù)排序結(jié)果數(shù)量每頁結(jié)果數(shù)量為20條記錄14結(jié)果高亮關(guān)鍵字在簡要結(jié)果顯示中ワ用戶查詢關(guān)鍵字匹配的單詞高亮顯示。.詳細記錄顯示用戶點擊簡要結(jié)果列表中的文章標題后顯示詳細結(jié)果。詳細結(jié)果包括Hotdata信息部分,數(shù)據(jù)文件部分,評論部分,下載按鈕部分Hotdata信息部分字段NameHOTDATA_IDHOTDATA編號DATA_DESCRIPTION數(shù)據(jù)描述TYPE_ID數(shù)據(jù)類別DATA_KEYWORDS數(shù)據(jù)關(guān)鍵字PUBMEDIDPUBMED的ID號AUTHOR_NAME作者ARTICLE_TITLE文章名ARTICLE_AUTHOR作者ORGANIZATION作者單位ABSTRACT_TEXT摘要PUBLICATION刊物名ISSN刊號VOLUME卷號ISSUE期號PUBLIC_DATE文獻發(fā)表時間PAGE頁碼ARTICLE_URL文獻原地址UPLOAD.DATEHOTDATA上傳時間HOTDATA_STATUSSTATUS(新增)ARTICLE_KEYWORDS文章關(guān)鍵詞數(shù)據(jù)文件部分字段名說明HOTDATA_FILENAME文件名HOTDATA_FILESIZE文件大小D0WNL0AD_C0UNT下載次數(shù)評論部分字段說明User用戶名Comment_date評論時間Comment內(nèi)容Mark打分下載按鈕.相關(guān)搜索用戶搜索返回結(jié)果后,提示歷史記錄中的相關(guān)搜索。簡要結(jié)果列表最后顯示“relatedresults”,提示與用戶搜索關(guān)鍵字相似的五個以內(nèi)搜索詞條。點擊詞條后,顯示以此詞條搜索的簡要結(jié)果列表。.結(jié)果類別列表返回簡要結(jié)果后,在結(jié)果上方提示:"Browsetheresultsbytopic”,點擊鏈接后顯示類別列表,并提示每個類別下的結(jié)果數(shù)。點擊類別鏈接后顯示該類別的所有結(jié)果,顯示形式同簡要結(jié)果。.歷史記錄.査詢關(guān)鍵字用戶輸入關(guān)鍵字查詢后,若返回結(jié)果大于1,則記錄此關(guān)鍵字.査詢次數(shù)若此關(guān)鍵字在數(shù)據(jù)庫中存在,則它的查詢次數(shù)加一,否則添加此關(guān)鍵字.下載次數(shù)記錄每個Hotdata數(shù)據(jù)文件的下載次數(shù).用戶瀏覽記錄記錄每條Hotdata被瀏覽次數(shù).用戶下載.數(shù)據(jù)顯示方式簡要結(jié)果列表的每條記錄顯示對應(yīng)的數(shù)據(jù)文件詳細結(jié)果顯示對應(yīng)的數(shù)據(jù)文件2,下載方式點擊download按鈕,查看數(shù)據(jù)庫HOTDATA-CONTENT字段是否為空,不為空,將該字段內(nèi)容下載;如果為空,直接給出URL字段的值,形式為超鏈接。(對于大數(shù)據(jù):顯示FTP的超鏈接,由用戶去FTP站點下載;對于小數(shù)據(jù):直接下載數(shù)據(jù)文件).在線提交.提交說明用戶點擊Submission菜單進入提交頁面,無需登錄只要填寫必須字段即可提交數(shù)據(jù).向?qū)教峤桓淖兡壳癏otdata標簽式填寫信息的方式,改為多級向?qū)教峤?,填寫完一個頁面信息后點擊下ー步進入下ー個提交頁面。第一步:提交者及數(shù)據(jù)基本信息?為必填項目

填寫項目說明必填Submiss提交人姓名*Email提交大Email*Tel電話Fax傳真單位國家地址郵編數(shù)據(jù)描述DATA_DESCRIPTION*數(shù)據(jù)類別TYPE_ID*數(shù)據(jù)關(guān)鍵字DATA_KEYWORDS*第二步:文章基本信息填寫項目說明必填文章名ARTICLE_TITLE*作者ARTICLE_AUTHOR*作者單位ORGANIZATION摘要ABSTRACT_TEXT*關(guān)鍵詞KEYWORDS刊物名PUBLICATION*刊號ISSN卷號VOLUME*期號ISSUE文獻發(fā)表時間PUBLIC_DATE*頁碼PAGE*第三步:數(shù)據(jù)基本信息用戶點擊Browse按鈕,跳出選擇本地文件對話框,選擇后自動填充以上各項目點擊Add按鈕,增加上傳文件。填寫項目說明必填文件名HOTDATA_FILENAME*文件大小HOTDATA_FILESIZE*.在線査詢提交用戶填寫完提交者基本信息點擊NextStep后,選擇填寫文章基本信息方式:Fillinbyyourself或者FillinbyPubmed〇若選擇手」[填寫則跳轉(zhuǎn)到文章信息填寫頁面,若選擇bypubmed則跳轉(zhuǎn)到搜索頁面,填入關(guān)鍵字后向pubmed發(fā)送搜索請求,返回結(jié)果后用戶選擇合適的一條,文章信息自動填充到各項目。.小數(shù)據(jù)提交用戶上傳文件時檢查文件大小,如果小于100M,直接在頁面提交,數(shù)據(jù)體存入數(shù)據(jù)庫。.大數(shù)據(jù)提交如果數(shù)據(jù)文件大于100M,跳出填寫上傳大文件申請表單,填寫上傳者,email,文件大小,數(shù)據(jù)簡單描述,按Send按鈕提交申請,等待管理員審核。若審核通過,數(shù)據(jù)中心在FTP上

建立相應(yīng)文件夾,EMAIL通知用戶文件夾路徑和FTP用戶名和密碼,用戶上傳文件到此文件夾,數(shù)據(jù)庫中存入此數(shù)據(jù)FTP地址。.提交審核審核流程?人用戶名和憲卻h 逢擇holdala審核通過通粗]用戶竄叩黒登陸?人用戶名和憲卻h 逢擇holdala審核通過通粗]用戶竄叩黒登陸!用一收網(wǎng)判I!斷選攆審後內(nèi)豊慶擇審線或修繕hotdata北示耒審短的hotdata在審皺狀態(tài)改あ通過審與狀苗改カ榜修??除ho[da,afl息記錄審核狀杰改變蛤抒交用戶實供EMAIL竄桂未通過,歡去改為府修改審快未通過,筋要"除沒有權(quán)限.修改流程

8.提交流程提交2.6第三部分標準制定及附加工具.文件格式標準.數(shù)據(jù)描述文件數(shù)據(jù)描述文件主要描述提交數(shù)據(jù)的內(nèi)容,數(shù)據(jù)必要說明等文字,為PDF或者word格式.圖像文件凝膠電泳,電鏡照片,熒光照片,圖譜,圖表等適合用圖像說明的數(shù)據(jù)。格式為BMP,JPQPNG,T圧E,G圧格式。.視頻文件格式為AVI,MPGMOV格式4,序列文件蛋白、多肽、核酸序列,純文本文件.實驗過程、結(jié)果說明對實驗操作,實驗條件,實驗過程,結(jié)果等的說明文字,PDF或Word格式.數(shù)據(jù)表格文件各種實驗結(jié)果得到的數(shù)據(jù),列之間用TAB鍵分隔的純文本格式或Exce!格式.程序源代碼實驗中編寫的程序源代碼,具有清晰的目錄結(jié)構(gòu),打包壓縮為.gz,.tar.gz,.zip格式.Hotdata數(shù)據(jù)記錄格式.記錄字段每條Hotdata記錄用ー個文件描述,內(nèi)容為該條記錄的所有信息,格式為常用生物數(shù)據(jù)庫采用的雙字母形式及XML格式。雙字母標識XML節(jié)點名說明IDHOTDATA-IDHOTDATA編號DDUPDATA-DATEHOTDATA上傳時間DEDESCRIPTION數(shù)據(jù)描述TYTYPE數(shù)據(jù)類別DKDATA-KEYWORDS數(shù)據(jù)關(guān)鍵字FNFILE-NAME文件名FZFILE-SIZE文件大小OLORIGINALURL數(shù)據(jù)文件原出處地址SASUBMISSION-AUTHOR作者EMEMAIL作者EMAILCTCOUNTRY國家ORORGANIZATION作者所在單位ZPZIP郵政編碼FXFAX傳真TLTELEPHONE聯(lián)系電話PMPUBMED-IDPUBMED的ID號TLTITLE文章名AAARTICLE-AUTHOR作者

2.示例1ID2AC3DT4DT5DT62.示例1ID2AC3DT4DT5DT6DE7OS8OC9OC10OX11RN12RP13RC14RXISRA16RA17RT18RT19RL20CC21CC22CC23CC24CC25CC104K_THEPASTANDARD;PRT;924AA.P15711;01-APR-1990(Rei.01-APR-1990(Rei.01-AUG-1992(Rei.14,Created)14,Lastsequenceupdate)23,Lastannotationupdate)104kDamicroneme-rhoptryantigen.Theileriaparva.Eukaryota;Alveolata;Apicomplexa;Piroplasmida;Theileriidae;Theileria.NCBITaxID-5875;[1]~SEQUENCEFROMN.A.STRAIN=Muguga;MEDLINE-90158697;PubMed-1689460;lamsK.P.,YoungJ.R.,NeneV.,DesaiJ.,UebsterP.,Ole-Moiyoi0.K.,MusokeA.J.;,rCharacterisationofthegeneencodinga104-kilodaltonmicroneme-rhoptryproteinofTheileriaparva.n;Mol.Biochem.Parasitol.39:47-60(1990).-!-SUBCELLULARLOCATION:INMICRONEME/RHOPTRYCOMPLEXES.-?-DEVELOPMENTALSTAGE:SPOROZOITEANTIGEN.ThisSWISS-PROTentryiscopyright.ItisproducedthroughacollaborationbetweentheSwissInstituteofBioinformaticsandtheEMBLoutstation-theEuropeanBioinformaticsInstitute.Therearenorestrictionsonits三.附加工具收集基于Hotdata數(shù)據(jù)開發(fā)的軟件及在線服務(wù),給出鏈接及簡介。川戶可以到原始網(wǎng)站下載并安裝這些軟件。ORORGANIZATION作者單位ABABSTRACT摘要AKARTICLE-KEYWORDS文章關(guān)鍵詞JRJOURNAL刊物名ISISSN刊號VOVOLUME卷號IUISSUE期號PDPUBLICTION-DATE文獻發(fā)表時間PGPAGE頁碼URARTICLE_URL文獻原地址

2.?第四部分數(shù)據(jù)庫Hotdata數(shù)據(jù)信息表IDNameCodeDataType1HOTDATA編號HOTDATA_IDNUMBER(20)2數(shù)據(jù)描述DATA_DESCRIPTIONVARCHAR2(4000)3數(shù)據(jù)類別TYPE_IDNUMBER(10)4數(shù)據(jù)關(guān)鍵字DATA.KEYWORDSVARCHAR2(400)3PUBMED的ID號PUBMED_IDNUMBER(10)4文章名ARTICLE_TITLEVARCHAR2(500)作者ARTICLE_AUTHORVARCHAR2(400)作者單位ORGANIZATIONVARCHAR2(400)5摘要ABSTRACT_TEXTVARCHAR2(4000)6刊物名PUBLICATIONVARCHAR2(100)7刊號ISSNVARCHAR2(200)8卷號VOLUMEVARCHAR2(10)9期號ISSUEVARCHAR2(10)10文獻發(fā)表時間PUBLIC_DATEVARCHAR2(20)11頁碼PAGEVARCHAR2(100)13文獻原地址ARTICLE_URLVARCHAR2(200)14HOTDATA上傳時間UPLOAD_DATEDATE15STATUS(新增)HOTDATA_STATUSVARCHAR2(20)16文章關(guān)鍵詞ARTICLE_KEYWORDSVARCHAR2(2000)HotData數(shù)據(jù)文件表表格TBS_HOTDATA_DATAFILE的專欄清單(TBS_HOTDATA_DATAFILE)IDNAMECODEDataType1HOTDATA數(shù)據(jù)文件編號DATAFILE_IDNUMBER(20)2HOTDATA編號HOTDATA_IDNUMBER(20)4文件名HOTDATA_FILENAMEVARCHAR2(100)5文件大小HOTDATA_FILESIZENUMBER(20)6文件內(nèi)容IIOTDATA_CONTENTBLOB8數(shù)據(jù)下載地址,大于20M的文件存儲在文件系統(tǒng)中LOCAL_DATAFILE_URLVARCHAR2(200)12數(shù)據(jù)文件原出處地址ORIGINALURLVARCHAR2(500)13下載次數(shù)(新增)DOWNLOAD_COUNTNUMBER(10)

三.數(shù)據(jù)類別表表格TB_HOTDATA_DATATYPE的專欄清單(TBHOTDATADATATYPE)IdNAMECODEDataType1類別編號TYPE_IDVARCHAR2(20)2父類別編號PARENT_TYPE_IDVARCHAR2(20)3類別名稱TYPE_NAMEVARCHAR2(100)4顯示名稱DISPLAY_NAMEVARCHAR2(100)5類別描述TYPE_DESCRIPTIONVARCHAR2(4000)四.提交作者表表格TBHOTDATAAUTHOR的專欄清單(TBHOTDATAAUTHOR)NameCodeDataType2HOTDATA編號HOTDATA_IDNUMBER(20)4作者AUTHOR_NAMEVARCHAR2(4000)3作者EMAILUSER_EMAILVARCHAR2(100)5稱呼INITIALSVARCHAR2(20)6國家COUNTRYVARCHAR2(50)7作者所在単位ORGANIZATIONVARCHAR2(500)8郵政編碼ZIPVARCHAR2(50)9傳真FAXVARCHAR2(50)0聯(lián)系電話TELEPHONEVARCHAR2(50)五.審核表表格TBREVIEWLOGGING的專欄清單(TBREVIEWLOGGING)NameCodeDataType1流水號IDNUMBER(20)2審核數(shù)據(jù)類型REVIEW_OBJECT_TYPEVARCHAR2(30)3審核對象編號OBJECT_IDVARCHAR2(20)4用戶EMAILUSER_EMAILVARCHAR2(100)5審核前的狀態(tài)FRONT_STATUSVARCHAR2(20)6審核后的狀態(tài)END_STATUSVARCHAR2(20)7審核時間REVIEW_DATEDATE表格TBREVIEWROLEMAPPING的專欄清單(TBREVIEWROLEMAPPING)NameCodeDataType1流水號IDNUMBER(20)2用戶EMAILUSER_EMAILVARCHAR2(100)3審核數(shù)據(jù)類型REVIEW_OBJECT_TYPEVARCHAR2(30)

4權(quán)限類型(取值類型為‘CHECKUP,或者'REVISE')REVIEW_TYPEVARCHAR2(20)六.用戶評論表NameCodeDataType1HOTDATA編號HOTDATA_IDNUMBER(20)2用戶名USERVARCHAR2(20)3打分MARKNUMBER(5)4評論內(nèi)容COMMENTVARCHAR2(400)七.歷史記錄表NameCodeDataType1序號NUMBERNUMBER(10)2關(guān)鍵詞KEYWORDVARCHAR2(20)3搜索次數(shù)COUNTNUMBER(10)第4章自己的研究工作HotDataSpider用戶使用說明書版本日期備注1.02007-03-26初稿TOC\o"1-5"\h\z第1章 HotDataSpider簡介 34第2章 軟件安裝 36運行環(huán)境 36.! 硬件配置 36.2 操作系統(tǒng) 36軟件安裝 36安裝JVM 36安裝HotDataSpider 37環(huán)境設(shè)置 383.1 菜單與工具欄 40Project菜單 41Help菜單 42快捷工具欄 42工程管理區(qū) 42\o"CurrentDocument"下載管理區(qū) 43控制臺 44第4章 工程管理 45工程創(chuàng)建 45\o"CurrentDocument"工程維護 47添力口HotData 47工程導(dǎo)出 53導(dǎo)出工程 53導(dǎo)入Oracle數(shù)據(jù)庫 54HotDataURL分級策略 56參數(shù)設(shè)置 574.5.3 環(huán)境參數(shù)設(shè)置 59第5章 附錄 60第一部分 偉魅3HotDataSpider簡介隨著生物醫(yī)學(xué)研究技術(shù)的進步,高通量實驗產(chǎn)生了大量有意義的數(shù)據(jù)。在學(xué)術(shù)期刊公布相關(guān)成果時,需要通過不同的途徑來公布這些數(shù)據(jù),其中文獻的補充材料是最普遍的方式。以補充材料方式發(fā)布的數(shù)據(jù)大多只能在?一定的時間內(nèi)訪問,因而有必要進行收集和整理,為深入的統(tǒng)計分析提供支持。為了解決上述問題,上海生物信息技術(shù)研究中心提出了HotData(熱點數(shù)據(jù))的概念:即國際知名生物醫(yī)學(xué)期刊隨科技文獻發(fā)表,且訪問時間具有一定限制(Hot)的“組”數(shù)據(jù)(Data)。HotData主要包括表達譜、蛋白質(zhì)組、代謝組和轉(zhuǎn)錄組等,其數(shù)據(jù)描述具有關(guān)鍵詞,分類性強。若將它們與文獻聯(lián)系起來,作為文本挖掘的研究對象,可以提取出重要的隱含知識。但是,HotData的分散性、多樣性以及訪問時間的限制性,使研究人員無法及時對其進行系統(tǒng)研究。HotDataSpider(期刊熱點數(shù)據(jù)抽取模塊)采用數(shù)據(jù)倉庫技術(shù)中常用的ETL工具解決了HotData的收集整理問題,主要步驟包括:數(shù)據(jù)抽?。‥xtract),將HotData從各期刊網(wǎng)站抽取到本地;數(shù)據(jù)轉(zhuǎn)換(Transform),將不同形式的HotData轉(zhuǎn)換為統(tǒng)?格式;數(shù)據(jù)清洗(Cleansing),確保HotData信息中的對應(yīng)字段格式一致;數(shù)據(jù)裝載(Loading),將HotData及其相關(guān)信息導(dǎo)入Oracle數(shù)據(jù)庫。HotDataSpider采用對工程(Project)進行管理的方式來實現(xiàn)交互式的自動抽取,支持HotData查詢、文摘信息瀏覽、數(shù)據(jù)頁面預(yù)覽、用戶下載控制、HotData編輯和當(dāng)前工程導(dǎo)出等功能。HotDataSpider已實現(xiàn)15本國際知名期刊的HotData抽取。這些HotData具有形式多樣、改版修正和多層鏈接等特點,若僅依靠計算機程序的判斷,則難以保證抽取的正確性。因此,HotDataSpider實現(xiàn)了“半自動抽取”,引入人工干預(yù)技術(shù)來輔助程序篩選HotData〇HotDataSpider期刊熱點數(shù)據(jù)抽取模塊,在自動抽取HotData并下載相關(guān)信息的基礎(chǔ)上,實現(xiàn)了“交互式”的操作界面,允許用戶對抽取獲得的HotData列表進行篩選和管理;此外,HotDataSpider對工程項目的結(jié)構(gòu)化管理,為及時進行自動更新和數(shù)據(jù)信息導(dǎo)入HotData主題數(shù)據(jù)庫提供了支持。下面將對軟件進行詳細介紹。第二部分軟件使用說明4 軟件安裝4.1運行環(huán)境4.1.1硬件配置DesktopCPUPentiumIII866MHzOperatingSystemWindows系歹リRAM512MBDiskSpace100MB(+spaceforuserdata)Display1280X1024,TrueColorNetworkProtocolsTCP/IPInternetAccessRequired(IntranetorInternet)表4.I硬件配置4.1.2操作系統(tǒng)目前已經(jīng)通過測試的系統(tǒng)為WindowsXP。4.2軟件安裝4.2.1安裝JVM由于HotDataSpider采用Java進行開發(fā),所以在啟動程序前必須安裝Java虛擬機

(JVM)o目前,HotDataSpider支持Java5.0以上的版本運行。用戶可以到Sun公司主頁上下載JDK5.0安裝程序,其中包括軟件運行所需的JVM?其網(wǎng)址為http:〃/iavase/downloads/indexidk5.isp〇下載完畢,雙擊運行JDK5.0安裝程序,出現(xiàn)圖4.1所示界面:圖4.1JDK5.0安裝向?qū)в脩舾鶕?jù)安裝向?qū)е械奶崾就瓿蒍VM的安裝操作。安裝完畢后,運行cmd窗口,輸入java-version命令,系統(tǒng)將輸出以下結(jié)果:javaversionM1.5.0_06nJava(TM)2RuntimeEnvironment,StandardEdition(build1.5.0_06-b05)JavaHotspot(TM)ClientVM(build1.5.0_06-b05,mixedmode,sharing)用戶可以從中獲得當(dāng)前系統(tǒng)中運行的Java版本信息。注意,不同系統(tǒng)對應(yīng)的Java安裝文件是不一樣的。4.2.2安裝HotDataSpiderHotDataSpider可在已安裝JVM的操作系統(tǒng)中直接運行。打開方式設(shè)置:鼠標右鍵點擊HotDataSpider.jar文件—【打開方式】-?【選擇程序】"-[Java(TM)2PlatformStandardEditionbinary]—設(shè)置【始終使用選擇的程序打開這種文件】—【確定】,如圖4.2所示。打開方式!選擇您想用來打開此文件的程序:文件:HotDataSpider.jar程序g由推薦的程序: 人1**1Java(TM)2PlatformStandardEditionbinary這WinRAR壓縮文件管理器國其它程序:AAdobeAcrobat7.0QAdobePhotoshopCS2」BitComet-aBitTorrentClientEJEndNoteX(Bld2114)QFlash8バ!mageReadyCS2?InternetExplorer?ヽ:yyy e, !=區(qū)]福終使用選握的程序打注這種文件⑥:瀏覽⑥…如果您想要的程序不在列表或您的計苴機上,您可以在WebI?尋找適當(dāng)?shù)亩捫?確定 取消

圖4.2HotDataSpider.jar打開方式設(shè)置2.3環(huán)境設(shè)置在安裝JVM和HotDataSpider.jar后,用戶需要手動設(shè)置JAVAJH〇ME系統(tǒng)變量,即Java虛擬機的安裝目錄;然后,在系統(tǒng)變量PATH中增加<JAVA_H〇ME>/BIN的路徑,如圖4.3所示:環(huán)境變量Ixycucu的用戶變量(Ixycucu的用戶變量(M)新建國) 編輯幽)刪除@)系統(tǒng)變量⑤)變量 值 へiJAVA,HOME D系統(tǒng)變量⑤)變量 值 へiJAVA,HOME D:/Java/jdkl.5,O_06JMFHOME D:\dev/tools/JMF-2. 1. IeNUMBER_OF_PR...1OS Windows」!Path C:\tfIND0WS\system32;C:WINDOWS;..oatuvvtrrw.vw.dat.rwn.VDC.1/DV.刪除CL)刪除CL)[確定 ]I取消圖4.3環(huán)境變量設(shè)置

5軟件界面HotDataSpider的主界面包括:菜單與工具欄、工程管理區(qū)、下載管理區(qū)和控制臺,共4個主要部分。各部分在HotDataSpider主界面中的位置如圖5.1所示:圖5.1HotDataSpidei圖5.1HotDataSpidei?主界面5.1菜單與工具欄HotDataSpider主菜單包括[Project],[Connect!和【Help]三個部分,如圖5.2所示。通過選擇菜單、使用其中定義的快捷鍵以及點擊工具欄圖標,用戶可以完成對HotDataSpider工程的創(chuàng)建、編輯和導(dǎo)出等操作。IB1HotDataSpiderIB1HotDataSpider1-project1ProjectConnectHelp:■?史ネゆス5H0圖5.2HotDataSpider菜單與工具欄1.1Project菜單ProjectNew Ctrl+NOpen Ctrl+0Close Ctrl+tfClearPropertiesExportcurrentprojectCtrl+EExit Alt+F4圖5.3Project菜單新建【New]:快捷鍵Ctrl+N,建立一個新的空工程窗口;打開【〇pen】:快捷鍵Ctrl+〇,打開已經(jīng)保存在用戶管理區(qū)中的工程;關(guān)閉【Close】:快捷鍵Ctrl+W,關(guān)閉當(dāng)前活動的工程窗口;清除【Clear】:清除工程目錄下臨時文件夾(.temp)中的文件;屬性【Properties】:打開參數(shù)設(shè)置菜單;導(dǎo)出工程【Exportcurrentproject:快捷鍵Ctrl+E,將當(dāng)前工程的數(shù)據(jù)導(dǎo)出到指定路徑;退出【Exi。:快捷鍵Alt+F4,退出HDSpider主工作界面。5.1.2Connect菜單圖5.4Connect菜單Connect菜單提供了含有HotData的生物醫(yī)藥雜志列表。5.1.3HeIp菜單HelpHelpContentsFlAboutHDSpider圖5.5Help菜單幫助內(nèi)容【HelpContents]:快捷鍵F1,軟件使用說明及常見問題解答;關(guān)于HDSpider【AboutHDSpider]:顯示HDSpider的版本信息。5.1.4快捷工具欄:■■區(qū)為+區(qū)域H0圖5.6快捷工具欄0【New】:建立一個新的空項目窗口;&【〇pen】:打開已經(jīng)保存在用戶管理區(qū)中的項目;i【Close】:關(guān)閉當(dāng)前活動的項目窗口;匚,【Clear】:清除工程目錄下臨時文件夾(.temp)中的文件;O【Properties】:打開參數(shù)設(shè)置菜單;<【Exportcurrentproject:將當(dāng)前工程的數(shù)據(jù)導(dǎo)出到指定路徑;?【Help】:軟件使用說明及常見問題解答;1:【Ab。成】:顯示HDSpider的版本信息;D【Exiり:退出HDSpider主工作界面。工程管理區(qū)HotDataSpider的工程編輯區(qū)域,如圖5.7所示。用戶打開或新建一個工程后,可在工程管理區(qū)進行編輯,瀏覽當(dāng)前工程信息、數(shù)據(jù)查詢結(jié)果、文摘信息以及HotDataURL

IncreasedethanolresistanceandconsumptioninEps8knockoutmi43Presenilin-dependentErbB4nuclearsignalingregul&testhetimir53RNAligasestructuresrevealthebasisforRNAspecificityandc63DeubiquitinatingenzymeUbp6functionsnoncatgyticallytodelay73P68RN 這里是反饋的?息 ialmesenchymaltr83Distinctbehavioralresponsestoethanolareregulatedbyalterr93Tcf3governsstemcellfeaturesandrepressescellfatedetermir103TrtnscriptionalrepressionofPGC_1alphabymutanthuntingtinle113Cargoregulatesclathrin-coatedpitdynamics123SIN1/MIP1maintainsrictor-mT0Rcomplexintegrityandregulates131RalBGTPase-mediated

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論