版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、面向vivo本體的數(shù)據(jù)攝取工具摘要介紹基于本體的科學(xué)家網(wǎng)絡(luò)vivo中的數(shù)據(jù)攝取工具,分析關(guān)系數(shù)據(jù)模型向rdf數(shù)據(jù)模型的批量數(shù)據(jù)攝取并與vivo本體匹配的原理,闡述工具應(yīng)用流程,為基于本體構(gòu)建的信息服務(wù)系統(tǒng)或語(yǔ)義網(wǎng)應(yīng)用中存在的異構(gòu)數(shù)據(jù)攝取問題提供解決方法。本文還討論了該工具的特色和存在的問題。關(guān)鍵詞 vivo 本體 數(shù)據(jù)攝取工具 sparql查詢an data ingest tool for vivo ontologyabstract to provide an effective method to import the heterogeneous data into the informat
2、ion systems based on ontologies, this paper introduces an data ingest tool developed in vivo which is a networking of scientists and is a semantic web application, including the principles and the working process in the data ingestion from relational data model to rdf data model and the data mapping
3、 with vivo ontology. the characteristics and some questions in this tool are also discussed.keyword vivo ontology data ingest tool sparql query當(dāng)前基于本體的系統(tǒng)越來(lái)越多,本體已經(jīng)按照概念和屬性的規(guī)則定義了數(shù)據(jù)、按照三元組模式存儲(chǔ)了數(shù)據(jù),但在當(dāng)前很多系統(tǒng)中,數(shù)據(jù)仍以不同的格式存在和存儲(chǔ),這就使得信息系統(tǒng)之間、數(shù)據(jù)之間的互操作、共享等成為很大的問題,目前的數(shù)據(jù)集成研究和工具應(yīng)用幾近成熟1-2,但還沒有專門針對(duì)本體的數(shù)據(jù)導(dǎo)入工具產(chǎn)品。在建設(shè)基于本體的信息系統(tǒng)
4、以后,需要把不同格式的數(shù)據(jù)導(dǎo)入到語(yǔ)義系統(tǒng)的數(shù)據(jù)庫(kù)中;如果采用界面錄入,將需要較大的人工成本,還不能完全保證數(shù)據(jù)的正確性。因此,一個(gè)強(qiáng)大的、面向本體的數(shù)據(jù)導(dǎo)入工具在當(dāng)前語(yǔ)義網(wǎng)應(yīng)用實(shí)施和維護(hù)中是很重要的。本文分析一個(gè)實(shí)用的面向本體的數(shù)據(jù)導(dǎo)入工具,這是在vivo一個(gè)面向科學(xué)和學(xué)術(shù)交流的科學(xué)家語(yǔ)義網(wǎng)絡(luò)建設(shè)中,開發(fā)和應(yīng)用的數(shù)據(jù)導(dǎo)入工具。在該項(xiàng)目中,該工具被稱為數(shù)據(jù)攝取工具(data ingest tool)。1 vivo項(xiàng)目概況vivo最初是康奈爾大學(xué)圖書館在2004年啟動(dòng),以支撐該校農(nóng)業(yè)和生命科學(xué)學(xué)院的生命科學(xué)研究而發(fā)展起來(lái)的,vivo在2007年利用rdf、owl、jena 和sparql等技術(shù)進(jìn)行
5、了改造,目前其內(nèi)容已經(jīng)覆蓋康奈爾大學(xué)所有院系的教員、科研人員和學(xué)科的信息,分為人員、機(jī)構(gòu)、學(xué)術(shù)活動(dòng)和科研()3。基于vivo在康奈爾大學(xué)的應(yīng)用以及科學(xué)研究工作發(fā)展的需求,2009年9月份美國(guó)7所大學(xué)(包括佛羅里達(dá)大學(xué)、康奈爾大學(xué)、印第安那大學(xué)等)聯(lián)合申請(qǐng),從美國(guó)國(guó)立衛(wèi)生研究院(nih)的國(guó)家研究資源中心(national center for research resources)獲得1,220萬(wàn)美元的資助,來(lái)建設(shè)一個(gè)開放的科學(xué)家網(wǎng)絡(luò)的語(yǔ)義應(yīng)用,這個(gè)應(yīng)用是為了尋求一種解決方法,來(lái)促進(jìn)科研人員的科研網(wǎng)絡(luò)化和協(xié)作4,項(xiàng)目為期2年。目前佛羅里達(dá)大學(xué)和印第安
6、那大學(xué)已搭建本地vivo系統(tǒng)。2010年9月vivo數(shù)據(jù)被放到關(guān)聯(lián)數(shù)據(jù)云中5。vivo本體是vivo建設(shè)的核心部分,本體設(shè)計(jì)策略是核心本體+具有新命名空間的當(dāng)?shù)乇倔w;不同命名空間的本體將支持對(duì)全部的或部分的本體實(shí)例的查詢。vivo開發(fā)了一個(gè)本體編輯器-vitro,用于本體創(chuàng)建和修改、類和屬性添加、實(shí)例添加等,并能直接生成owl文件?;诒倔w,vivo系統(tǒng)還提供了系統(tǒng)顯示欄目與底層本體類的靈活關(guān)聯(lián),提供了基于本體的索引和檢索功能,以及rdf數(shù)據(jù)添加/移除、rdf導(dǎo)出(包括本體、實(shí)例,支持多種文件格式,如rdfxml、n3、n-triples、turtle等)、數(shù)據(jù)攝取工具、sparql查詢。vi
7、vo建設(shè)的軟件和工具目前都是開放和開源的6,可以便于其他有類似需求的系統(tǒng)建設(shè)者能夠快速有效地建立模式系統(tǒng),實(shí)現(xiàn)vivo倡導(dǎo)的構(gòu)建國(guó)家的、國(guó)際的科學(xué)家網(wǎng)絡(luò)的目標(biāo)。2 vivo數(shù)據(jù)攝取工具原理和工作流程為了解決系統(tǒng)中的數(shù)據(jù)添加以及免除科研人員數(shù)據(jù)輸入的麻煩,面向vivo的本體結(jié)構(gòu),vivo開發(fā)了數(shù)據(jù)攝取工具。該工具目前已經(jīng)在成員單位康奈爾大學(xué)、弗羅里達(dá)大學(xué)的vivo平臺(tái)上應(yīng)用,并在不斷完善中,例如攝取數(shù)據(jù)類型的增加、實(shí)現(xiàn)源數(shù)據(jù)與系統(tǒng)數(shù)據(jù)之間的更好匹配等7。2.1 數(shù)據(jù)攝取的概念數(shù)據(jù)攝?。╠ata ingest)是指裝載已有數(shù)據(jù)到vivo中的任一過(guò)程,而不是直接地內(nèi)容編輯,包括從一個(gè)在線數(shù)據(jù)庫(kù)或一個(gè)
8、當(dāng)?shù)赜涗浵到y(tǒng)中下載或?qū)С鰯?shù)據(jù)7。這個(gè)概念與一般提到的概念“數(shù)據(jù)導(dǎo)入(data import)”類似,但過(guò)程的復(fù)雜程度超過(guò)數(shù)據(jù)導(dǎo)入,解決本體中不同類之間的對(duì)象關(guān)聯(lián)就是難點(diǎn)之一。數(shù)據(jù)攝取不是全部自動(dòng)化的,實(shí)際上,當(dāng)前的攝取工具包括從數(shù)據(jù)源文件整理到在vivo中新數(shù)據(jù)顯示的一系列工作,流程中需要操作者有一些對(duì)語(yǔ)義網(wǎng)數(shù)據(jù)模型的了解。2.2 工作原理基本工作原理是:使用攝取工具閱讀源數(shù)據(jù)文件,閱讀來(lái)的數(shù)據(jù)被存儲(chǔ)在vivo數(shù)據(jù)庫(kù)中作為一個(gè)“外部模型”,由vivo底層的jena語(yǔ)義網(wǎng)文庫(kù)進(jìn)行管理;利用jena模型存儲(chǔ)的信息,關(guān)聯(lián)導(dǎo)入的信息和vivo源數(shù)據(jù):利用在sparql查詢語(yǔ)言中的construct查詢
9、,進(jìn)行源本體和vivo本體之間的匹配并創(chuàng)建陳述7。通過(guò)分析,可見vivo數(shù)據(jù)攝取工具有三層模型基礎(chǔ)架構(gòu),如圖1所示:(1) 當(dāng)?shù)乇倔w-源數(shù)據(jù)模型目前攝取工具能支持導(dǎo)入的源數(shù)據(jù)類型包括由excel文件或者數(shù)據(jù)庫(kù)記錄產(chǎn)生的csv文件、xml文件。vivo提供工具閱讀csv文件、也可以閱讀和轉(zhuǎn)換xml到rdf。所以,首先要新建一個(gè)當(dāng)?shù)乇倔w,以它的類和屬性來(lái)存儲(chǔ)源數(shù)據(jù),以它的命名空間作為所攝取資源的命名空間。(2) 數(shù)據(jù)導(dǎo)入和構(gòu)造查詢的jena模型在攝取工作區(qū)需要新建數(shù)據(jù)導(dǎo)入模型和構(gòu)造模型。導(dǎo)入模型把從csv文件中閱讀來(lái)的數(shù)據(jù)轉(zhuǎn)變?yōu)閞df,被jena語(yǔ)義網(wǎng)文庫(kù)管理。在sparql construct檢
10、索中,利用構(gòu)造模型,對(duì)來(lái)源數(shù)據(jù)rdf與vivo中的rdf進(jìn)行匹配。(3) vivo數(shù)據(jù)模型因?yàn)関ivo通過(guò)“核心本體+當(dāng)?shù)乇倔w”的組織方式來(lái)實(shí)現(xiàn)國(guó)家網(wǎng)絡(luò)的資源共享,所以,在數(shù)據(jù)攝取后需要建立當(dāng)?shù)乇倔w與vivo本體的匹配。以人員信息的導(dǎo)入為例:從源文件閱讀來(lái)的作者名字需要關(guān)聯(lián)上vivo中的人員實(shí)例,可能的匹配結(jié)果是:或者匹配上已有人員或者創(chuàng)建一個(gè)新的人員記錄。這種匹配最好是利用標(biāo)識(shí)符例如電子郵件地址或者一個(gè)機(jī)構(gòu)或者其他標(biāo)識(shí)符。當(dāng)一個(gè)作者已經(jīng)存在了,新導(dǎo)入的作者能夠合并到vivo中已存在的人員。 如果一個(gè)作者在vivo找不到,那么一個(gè)新的人員記錄必須在vivo中產(chǎn)生,利用在rdf的sparql檢索
11、語(yǔ)言中的檢索的construct形式:導(dǎo)入作者的檢索利用導(dǎo)入的本體來(lái)表達(dá);construct聲明利用vivo本體的類和屬性名。這就完成了源本體和vivo本體的匹配。源數(shù)據(jù)也再次從在導(dǎo)入模型中的rdf翻譯為在vivo模型的rdf。圖1 vivo數(shù)據(jù)攝取工具原理圖在vivo的系統(tǒng)管理平臺(tái)上提供的攝取工具操作菜單如圖2所示,其中,主要使用的是3個(gè)功能區(qū):manage jena models(創(chuàng)建一個(gè)導(dǎo)入模型)、convert csv to rdf(轉(zhuǎn)換csv文件為rdf)或load xml and convert to rdf(轉(zhuǎn)換csvxml文件為rdf)、execute sparql const
12、ruct(執(zhí)行sparql構(gòu)造)。圖2 vivo系統(tǒng)中的數(shù)據(jù)攝取工具菜單72.3 工作流程主要介紹利用工具的流程化數(shù)據(jù)攝取過(guò)程,具體包括了6個(gè)步驟(以用戶經(jīng)常使用到的csv文件攝取為例)。不過(guò),在攝取過(guò)程開始之前,需要對(duì)源數(shù)據(jù)進(jìn)行評(píng)價(jià),這是一個(gè)比較緩慢的過(guò)程,需要決定做怎樣的數(shù)據(jù)清理,然后再進(jìn)行數(shù)據(jù)攝取的工作流程。(1)創(chuàng)建一個(gè)當(dāng)?shù)乇倔wvivo建議每個(gè)機(jī)構(gòu)自己創(chuàng)建一個(gè)當(dāng)?shù)乇倔w來(lái)容納機(jī)構(gòu)數(shù)據(jù)和數(shù)據(jù)源的獨(dú)特需要。利用vivo提供的本體建設(shè)功能(ontology list),創(chuàng)建一個(gè)新本體,并定義命名空間,添加類和屬性,如類“人員”的數(shù)值屬性personid、“機(jī)構(gòu)”的數(shù)值屬性organizatio
13、nid。(2)創(chuàng)建工作區(qū)模型來(lái)攝取和構(gòu)造數(shù)據(jù)在數(shù)據(jù)攝取工作區(qū),選擇“manage jena model”(見圖2)來(lái)創(chuàng)建兩個(gè)模型,一個(gè)為攝取模型(ingest model),一個(gè)為構(gòu)造模型(construction model)。這兩個(gè)模型還提供模型導(dǎo)出功能,文件為rdf格式。(3)把外部數(shù)據(jù)文件轉(zhuǎn)換為rdf選擇“convert csv to rdf”(見圖2)把整理好的、存放在相關(guān)位置的csv文件如people.csv轉(zhuǎn)換為某一命名空間的rdf文件。需要考慮命名空間、類名,以及選擇的攝取模型。資源的命名空間將一直跟隨著資源,所以它最好與所創(chuàng)建的當(dāng)?shù)乇倔w的命名空間一致,而類和屬性的命名空間在這
14、一步都是暫時(shí)的,因?yàn)樵谙旅娴牟襟E中它們將轉(zhuǎn)換到本體的格式。類名在這一步也是暫時(shí)的,也將變更到本體的格式。轉(zhuǎn)換是否成功,可以通過(guò)在系統(tǒng)的所有類中查找到新導(dǎo)入的類(包括實(shí)例)的方式來(lái)檢查,或者,通過(guò)輸出攝取模型來(lái)檢查。(4)匹配表格數(shù)據(jù)為本體格式收集屬性、類和其他相關(guān)的uri,來(lái)作為匹配的標(biāo)準(zhǔn)。首先是獲取被攝取數(shù)據(jù)的uri:打開“manage jena model”,在創(chuàng)建的攝取模型中,選擇“output model rdf”,生成文檔的謂詞為下一步sparql檢索所需要的特征(圖3),復(fù)制這些謂詞到一個(gè)寫字板文件中。圖3 被攝取數(shù)據(jù)的rdf格式然后,獲取vivo本體中實(shí)例的謂詞:確定被攝取數(shù)據(jù)將
15、被放入的vivo本體中的類,獲取類與屬性的uri,或者瀏覽這個(gè)類一個(gè)已有實(shí)例或者新建一個(gè)實(shí)例,進(jìn)入“raw statements with this resource as subject”,復(fù)制在sparql檢索中需要的這些uri或謂詞到一個(gè)寫字板文檔中。(5)構(gòu)造攝取的實(shí)體在數(shù)據(jù)攝取工作區(qū),選擇“execute sparql construct”(見圖2),用下面的基本框架在sparql中對(duì)被攝取數(shù)據(jù)的謂詞和vivo中實(shí)例的謂詞進(jìn)行比較,對(duì)于沒有匹配上的數(shù)據(jù)將為vivo構(gòu)造新實(shí)例(如果被導(dǎo)入的新數(shù)據(jù)已經(jīng)存在于vivo中時(shí),如果所在的命名空間不同,會(huì)出現(xiàn)兩個(gè)名稱相同的實(shí)例):construc
16、twhere對(duì)于可能出現(xiàn)的變數(shù),可以在變數(shù)名稱前用?表示。例如:construct?person . ?person ?fullname.where?person ?fullname.在工作區(qū),選擇數(shù)據(jù)導(dǎo)入模型和構(gòu)造模型。在執(zhí)行構(gòu)造的過(guò)程中,創(chuàng)建實(shí)例的陳述(statement),這些陳述將按照vivo數(shù)據(jù)模型創(chuàng)建三元組。(6)裝載數(shù)據(jù)到當(dāng)前vivo模型為了防止tomcat更新時(shí),數(shù)據(jù)模型的丟失,需要導(dǎo)出生成的最后模型,把它添加到當(dāng)前vivo模型中。在攝取工作菜單,選擇“manage jena models”,選擇構(gòu)造模型的數(shù)據(jù)導(dǎo)出(output model),保存結(jié)果文件;利用vivo系統(tǒng)管理
17、頁(yè)面的“添加/刪除 rdf”功能區(qū),選擇n3格式導(dǎo)入結(jié)果文件(n3是一種三元組的方式,通過(guò)枚舉rdf模型中的每個(gè)陳述來(lái)表述rdf模型,與圖形、xml相比,它最易于使用,簡(jiǎn)明易懂8)。這樣,攝取數(shù)據(jù)現(xiàn)在將顯示在vivo的索引和檢索結(jié)果中。3關(guān)鍵技術(shù)分析3.1數(shù)據(jù)閱讀和轉(zhuǎn)換vivo系統(tǒng)數(shù)據(jù)導(dǎo)入模塊的數(shù)據(jù)采用rdf格式,rdf是網(wǎng)絡(luò)上用來(lái)描述信息的一種矢量圖數(shù)據(jù)格式,rdf又提供了將不同的信息資源整合的方法9。vivo利用一個(gè)supplied xsl或者extensible stylesheet language來(lái)直接轉(zhuǎn)換xml為rdf,很好解決了在異構(gòu)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)導(dǎo)入導(dǎo)出中的首要解決的問題-閱
18、讀(打開)非sql server數(shù)據(jù)庫(kù)的問題。這種成功的轉(zhuǎn)換很大程度依賴xml數(shù)據(jù)的結(jié)構(gòu)和一致性上。這里就需要在數(shù)據(jù)閱讀之前,做好關(guān)系數(shù)據(jù)表的準(zhǔn)備。csv是一種純文本格式,但其可以用excel打開且能呈現(xiàn)類似于表格的形式,基于這個(gè)特點(diǎn),可將現(xiàn)有的一些關(guān)系數(shù)據(jù)庫(kù)表格存儲(chǔ)成csv格式。3.2 sparql查詢?cè)碓跀z取工具中,jena的特點(diǎn)得到了很好地運(yùn)用,存儲(chǔ)數(shù)據(jù)到硬盤上,或者是owl文件,或者是關(guān)系數(shù)據(jù)庫(kù)中。jena提供了arq查詢引擎,實(shí)現(xiàn)sparql查詢語(yǔ)言和rdql,從而支持對(duì)模型的查詢。另外,查詢引擎與關(guān)系數(shù)據(jù)庫(kù)相關(guān)聯(lián),這使得查詢存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中的本體時(shí)能夠達(dá)到更高的效率。隨著越來(lái)越
19、多的數(shù)據(jù)使用rdf格式保存,需要用一種簡(jiǎn)單方法查找特定信息。sparql這個(gè)功能強(qiáng)大的新查詢語(yǔ)言填補(bǔ)了這個(gè)空白,使用戶可以很容易地在rdf中找到所需要的數(shù)據(jù)。sparql是rdf數(shù)據(jù)查詢語(yǔ)言,它能夠查詢跨系統(tǒng)不同數(shù)據(jù)資源,不管數(shù)據(jù)本身就是rdf格式還是通過(guò)中間件可查看其rdf格式。大多數(shù)sparql查詢是一種叫做基本視圖格式的三元組格式。該三元組格式,除了主謂賓也許是變量之外,很像rdf格式。當(dāng)一個(gè)子視圖中的rdf術(shù)語(yǔ)被變量取代且檢索出的rdf視圖結(jié)果等同于該子視圖時(shí),那么說(shuō)一個(gè)基本視圖匹配了rdf文檔中的子視圖10。在vivo攝取工具中,使用到的是sparql查詢的construct語(yǔ)句,返
20、回結(jié)果集為rdf視圖。3.3 本體匹配(映射)vitro系統(tǒng)中有自身的本體表述,有人員類,對(duì)應(yīng)有若干數(shù)值屬性和對(duì)象數(shù)據(jù),但其與關(guān)系數(shù)據(jù)轉(zhuǎn)換的臨時(shí)三元組格式數(shù)據(jù)在謂詞上不一致,需要對(duì)兩種謂詞表述進(jìn)行映射。在本體匹配中,人員類的名稱詞要做映射,其次兩者對(duì)應(yīng)的數(shù)值屬性詞也要一一映射。.該映射表做好后,可以將其直接轉(zhuǎn)化成sparql的construct查詢語(yǔ)句,即將一個(gè)rdf格式文檔利用sparql construct創(chuàng)建的格式生成一個(gè)新的rdf格式文檔,之前的謂詞被construct中的謂詞所替換。如果一個(gè)先前不在vivo中的對(duì)象被發(fā)現(xiàn),一條新記錄必須利用construct查詢格式在vivo中被創(chuàng)建
21、。查詢?yōu)g覽導(dǎo)入數(shù)據(jù)列表,在沒有發(fā)現(xiàn)可匹配已有實(shí)例的任何地方,插入創(chuàng)建一個(gè)新實(shí)例的陳述。導(dǎo)入數(shù)據(jù)的查詢利用導(dǎo)入本體被表達(dá),而construct陳述使用vivo本體的類和屬性名稱。這完成了源本體和vivo本體之間的匹配。 3.4對(duì)象屬性的關(guān)聯(lián)導(dǎo)入 vivo攝取工具目前僅實(shí)現(xiàn)了關(guān)系數(shù)據(jù)庫(kù)單表的導(dǎo)入,在本體中均為對(duì)應(yīng)的數(shù)值屬性。對(duì)于多個(gè)關(guān)聯(lián)的關(guān)系數(shù)據(jù)庫(kù)表如何轉(zhuǎn)化為本體中的對(duì)象屬性還在繼續(xù)研究中。4 vivo數(shù)據(jù)攝取工具的特色和問題xml具有自描述功能、結(jié)構(gòu)性強(qiáng)、語(yǔ)義性強(qiáng)、交互性好、能描述不同復(fù)雜程度的數(shù)據(jù)、可以在各種平臺(tái)上用各種編程語(yǔ)言對(duì)xml文件進(jìn)行處理的特點(diǎn),故用xml作為數(shù)據(jù)模型描述來(lái)自不同數(shù)據(jù)
22、源的數(shù)據(jù),屏蔽數(shù)據(jù)源中應(yīng)用環(huán)境和數(shù)據(jù)結(jié)構(gòu)的異構(gòu)性。但xml只能從語(yǔ)法結(jié)構(gòu)描述數(shù)據(jù)信息,而不能表達(dá)清晰的語(yǔ)義信息。因此,語(yǔ)義異構(gòu)的問題仍存在于各種數(shù)據(jù)集成系統(tǒng)中,解決語(yǔ)義異構(gòu)也成為目前數(shù)據(jù)集成急需解決的任務(wù)。vivo攝取工具在一定程度上解決了語(yǔ)義異構(gòu)的問題。作為一個(gè)實(shí)際應(yīng)用的語(yǔ)義網(wǎng)應(yīng)用系統(tǒng)中的數(shù)據(jù)攝取工具,當(dāng)前的vivo數(shù)據(jù)攝取工具還存在著一些問題:能攝取的數(shù)據(jù)類型有限,主要是csv文件、xml,當(dāng)前vivo還是主要面向結(jié)構(gòu)化數(shù)據(jù)源,如面向的pubmed系統(tǒng)等; 如何面向非結(jié)構(gòu)化數(shù)據(jù)源如純文本,如何面向半結(jié)構(gòu)化數(shù)據(jù)源如xml/html文件、rdf等格式標(biāo)注的網(wǎng)頁(yè)、詞典等;信息存在著操作過(guò)程中需要
23、人工與自動(dòng)并存的操作方式,且步驟較多;導(dǎo)入數(shù)據(jù)成為vivo本體中的實(shí)例后,需要人工進(jìn)行對(duì)象屬性的關(guān)聯(lián),例如人員與機(jī)構(gòu)的關(guān)聯(lián)。但,作為一個(gè)語(yǔ)義網(wǎng)應(yīng)用總體系統(tǒng)中的一部分,數(shù)據(jù)攝取工具對(duì)vivo的應(yīng)用很實(shí)用。5 結(jié)語(yǔ)隨著本體在信息系統(tǒng)領(lǐng)域應(yīng)用的深入研究和應(yīng)用,基于本體的語(yǔ)義網(wǎng)應(yīng)用也越來(lái)越多。如何收集和整理大量科學(xué)數(shù)據(jù)(試驗(yàn)數(shù)據(jù)、計(jì)算數(shù)據(jù)、分析數(shù)據(jù)等)到這些語(yǔ)義網(wǎng)中已經(jīng)成為問題。對(duì)于大量非結(jié)構(gòu)化數(shù)據(jù)源和半結(jié)構(gòu)化數(shù)據(jù)源的本體學(xué)習(xí),目前研究較多11,但是仍沒有一個(gè)成熟的概念獲取方法,多元的外部數(shù)據(jù)源到本體的匹配仍是研究重點(diǎn),而在vivo中數(shù)據(jù)攝取已經(jīng)工具化并實(shí)際應(yīng)用,以幫助用戶方便快捷地導(dǎo)入自己的數(shù)據(jù),有
24、值得研究的地方。面向本體的異構(gòu)數(shù)據(jù)集成和導(dǎo)入,仍是當(dāng)前的一個(gè)研究方向。致謝感謝康奈爾大學(xué)mann圖書館和印第安納大學(xué)的vivo團(tuán)隊(duì)成員,在黃金霞參與vivo項(xiàng)目工作時(shí)給予的幫助和指導(dǎo)。參考文獻(xiàn):1 rapid semantic integration of data using the tango dataloader frameworkeb/ol. 2010-12-15./content/knowledge-center/application-briefs.2 websphere電子商務(wù)軟件eb/ol.2010-10-15./software/cn/websphere/commerce/index.html.3 vivo is a research-focused discovery
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 影樓策劃方案
- 愚人節(jié)主題方案(范文15篇)
- 青春砥礪心共筑美好夢(mèng)
- 夏季安全教育家長(zhǎng)會(huì)
- 手術(shù)室靜脈血栓的預(yù)防及護(hù)理
- 幼兒音樂活動(dòng)方案(15篇)
- 家長(zhǎng)會(huì)經(jīng)典講話稿(15篇)
- 初級(jí)會(huì)計(jì)實(shí)務(wù)-歷年初級(jí)會(huì)計(jì)職稱考試真題節(jié)選
- 智研咨詢-中國(guó)社區(qū)團(tuán)購(gòu)行業(yè)市場(chǎng)調(diào)查、產(chǎn)業(yè)鏈全景、需求規(guī)模預(yù)測(cè)報(bào)告(2024版)
- 基于改進(jìn)模型參考自適應(yīng)的直線感應(yīng)電機(jī)模型預(yù)測(cè)推力控制研究
- 山東省濰坊市2024-2025學(xué)年高三上學(xué)期1月期末 英語(yǔ)試題
- 七年級(jí)下冊(cè)英語(yǔ)單詞表(人教版)-418個(gè)
- 交警安全進(jìn)校園課件
- 潤(rùn)滑油過(guò)濾培訓(xùn)
- 浙江省紹興市2023-2024學(xué)年高一上學(xué)期期末考試物理試題(含答案)
- 《住院患者身體約束的護(hù)理》團(tuán)體標(biāo)準(zhǔn)解讀課件
- 唐山市重點(diǎn)中學(xué)2024-2025學(xué)年全國(guó)高考大聯(lián)考信息卷:數(shù)學(xué)試題試卷(3)含解析
- 未成年上班知情協(xié)議書
- 2023-2024學(xué)年高中政治統(tǒng)編版選擇性必修二7-1 立足職場(chǎng)有法寶 課件(34張)
- 恩施州巴東縣核桃樹煤礦有限公司核桃樹煤礦礦產(chǎn)資源開發(fā)利用與生態(tài)復(fù)綠方案
- 部編版語(yǔ)文一年級(jí)下冊(cè)全冊(cè)大單元整體作業(yè)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論