




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、美國開放政府數(shù)據(jù)元數(shù)據(jù)標準及啟示investigation and enlightenment of metadata standards of americanopen government data作者:司莉/趙潔作者簡介:司莉,orc1d:oooo-0003-1028-8338,武漢大學信息資源研 究中心教授,博士生導師;趙潔,通訊作者,orc1d:oooo- 0002-6578-1413,武漢大學信息管理學院博士研究生,e- ma訂:zhaojie_shuique163. com0 武漢 430072原文出處:圖書情報工作(京)2018年第20183期 第86-93頁內(nèi)容提要:目的/意
2、義以美國開放政府數(shù)據(jù)網(wǎng)站data, gov中的元數(shù) 據(jù)標準為例,分析其元數(shù)據(jù)體系及具體標準,以期為我國 開放政府數(shù)據(jù)元數(shù)據(jù)標準的構(gòu)建提供參考。方法/過程采 用實例分析的方法,歸納總結(jié)美國開放政府數(shù)據(jù)元數(shù)據(jù)標 準的體系結(jié)構(gòu)。結(jié)果/結(jié)論美國開放政府數(shù)據(jù)元數(shù)據(jù)標準 分為數(shù)據(jù)集內(nèi)容與數(shù)據(jù)集格式描述元數(shù)據(jù)標準,并針對原 始數(shù)據(jù)集與地理空間數(shù)據(jù)集采用不同標準描述;并指出我 國在構(gòu)建自身開放政府數(shù)據(jù)元數(shù)據(jù)標準時可借鑒data, gov 中的元數(shù)據(jù)標準體系。期刊名稱:圖書館學情報學復印期號:2018年06期詞:元數(shù)據(jù)/開放政府數(shù)據(jù)/元數(shù)據(jù)標準/data, gov標題注釋: 本文系國家自然科學基金項目“大數(shù)據(jù)環(huán)
3、境下科研數(shù)據(jù)機 構(gòu)庫聯(lián)盟形成機理及其服務研究:以'985'高校為實證對 象”(項目編號:71573198)的研究成果之一。分類號:g254.31開放政府數(shù)據(jù)是在數(shù)據(jù)開放運動和政府信息公開的驅(qū)動下產(chǎn)生的一類數(shù)據(jù)。政 府數(shù)據(jù)是指由政府或政府所屬機構(gòu)產(chǎn)生或委托產(chǎn)生的數(shù)據(jù)與信息,開放即可以被任 何人免費使用、重用和再傳播1。由于政府數(shù)據(jù)開放可以增加政府工作透明性、增 強數(shù)據(jù)的社會和商業(yè)價值、提高公民對政府活動的參與度1,世界各國包括英國、 美國、澳大利亞、加拿大以及中國等國家積極開展開放政府數(shù)據(jù)活動,并構(gòu)建各自 的開放政府數(shù)據(jù)平臺,以提供開放政府數(shù)據(jù)的統(tǒng)一獲取與利用。開放政府數(shù)據(jù)平臺通
4、常以數(shù)據(jù)目錄的形式集成多源數(shù)據(jù)集,元數(shù)據(jù)標準是數(shù)據(jù) 目錄管理數(shù)據(jù)集的重要方式,已被英國、中國等國家列為開放政府數(shù)據(jù)質(zhì)量的考察 指標之一23。我國國家開放政府數(shù)據(jù)平臺正處于構(gòu)建之中,現(xiàn)有的開放政府數(shù)據(jù) 平臺多為地方政府數(shù)據(jù)平臺”女q北京、上海等地方開放政府數(shù)據(jù)平臺”而各個地方 平臺元數(shù)據(jù)標準存在標準不統(tǒng)一4、元數(shù)據(jù)信息匱乏4、數(shù)據(jù)集描述不全面5、 缺乏可機讀格式5、互操作水平低6等問題。基于元數(shù)據(jù)標準對開放政府數(shù)據(jù)平臺 中數(shù)據(jù)集整合的重要性,及我國當前開放政府數(shù)據(jù)元數(shù)據(jù)標準現(xiàn)狀,亟須對開放政 府數(shù)據(jù)元數(shù)據(jù)標準的構(gòu)建展開研究。國內(nèi)學者目前已針對開放政府數(shù)據(jù)元數(shù)據(jù)標準 展開相關(guān)研究,多以國外成熟的開
5、放政府數(shù)據(jù)平臺為研究對象,如英國7、澳大利 亞8、加拿大9、新西蘭10等國家的開放政府數(shù)據(jù)元數(shù)據(jù)標準。趙蓉英、粱志森、 段培培以英國開放政府數(shù)據(jù)平臺d.uk為研究對象,對其所使用的ckan 格式記錄(包括csv和json)和gemini地理空間元數(shù)據(jù)標準,從文件結(jié)構(gòu)、元素 組成及規(guī)則等方面總結(jié)其特點。黃如花與李楠8選取澳大利亞開放政府數(shù)據(jù)平臺 d.au為研究對象,對其所使用的3種元數(shù)據(jù)標準即agls元數(shù)據(jù)標準、 anzlic地理空間元數(shù)據(jù)標準和數(shù)據(jù)目錄詞表dcat ,從各標準的元素組成、數(shù)據(jù) 格式、語法結(jié)構(gòu)等方面展開了調(diào)查與分析。王立清與唐宇萍10則選取了澳大利亞
6、agls和新西蘭nzgls元數(shù)據(jù)標準進行了研究,主要包括標準的建立基本情況、元 數(shù)據(jù)元素定義、相關(guān)限定詞等。于夢月、翟軍、林巖56對w3c的正式推薦標準 dcat和美國紐約州的元數(shù)據(jù)方案進行了介紹,并分析和總結(jié)了美國、歐盟和愛爾 蘭政府開放數(shù)據(jù)元數(shù)據(jù)建設的成果和特點。武琳與黃穎茹9則在詳細梳理美、英、 加和歐盟的相關(guān)元數(shù)據(jù)政策和標準的基礎上,對各個國家元數(shù)據(jù)標準的元數(shù)據(jù)格式、 元數(shù)據(jù)框架、元素、數(shù)據(jù)目錄詞表、受控詞表等方面進行比較分析。黃如花與林詼 11對開放政府數(shù)據(jù)水平較高的英國、美國、加拿大、新西蘭、歐盟的政府數(shù)據(jù)開 放門戶及其相關(guān)公共部門的元數(shù)據(jù)描述規(guī)范進行了調(diào)硏。而在上述綜述中,并未見
7、 到專門針對美國開放政府數(shù)據(jù)元數(shù)據(jù)標準的詳盡硏究。美國是實施開放政府數(shù)據(jù)政策較早的國家,其開放政府數(shù)據(jù)平臺d于 2009年5月構(gòu)建,截至2017年11月15日,已有198個組織的197 990個數(shù)據(jù) 集在該平臺公開發(fā)布,平臺中的數(shù)據(jù)集仍在不斷更新。d平臺以數(shù)據(jù)目錄的 形式組織并管理各個機構(gòu)擁有的數(shù)據(jù)集”即各個機構(gòu)的數(shù)據(jù)集并不直接存儲于平臺 中,而是在采用統(tǒng)一元數(shù)據(jù)標準描述后,基于元數(shù)據(jù)收割的方法,將數(shù)據(jù)集的基礎 信息提取至數(shù)據(jù)目錄中,集中呈現(xiàn)數(shù)據(jù)集的概要信息,并提供數(shù)據(jù)集的獲取鏈接和 下載鏈接。d平臺定期重新收割機構(gòu)擁有的數(shù)據(jù)集的元數(shù)據(jù)信息,以及時更
8、新數(shù)據(jù)目錄。本文選擇美國開放政府數(shù)據(jù)d作為研究對象,分析其元數(shù)據(jù) 體系和標準”旨在補充開放政府數(shù)據(jù)元數(shù)據(jù)標準方面的研究”為我國開放政府數(shù)據(jù) 元數(shù)據(jù)標準的構(gòu)建提供借鑒。1美國開放政府數(shù)據(jù)元數(shù)據(jù)標準d是以數(shù)據(jù)目錄的形式集中呈現(xiàn)數(shù)據(jù)集信息,該平臺并不直接物理存儲 數(shù)據(jù)資源,而是采用元數(shù)據(jù)收割的方式獲取數(shù)據(jù)集的目錄信息,通過目錄信息鏈接 到具體的數(shù)據(jù)集。元數(shù)據(jù)收割的實現(xiàn)基于數(shù)據(jù)集的統(tǒng)一元數(shù)據(jù)標準描述。d 按照原始數(shù)據(jù)集、地理空間數(shù)據(jù)集和數(shù)據(jù)工具3個門類組織平臺中開放的數(shù)據(jù)資源, 并分別采用不同的元數(shù)據(jù)標準對這3類具有不同特征的數(shù)據(jù)資源逬行描述。數(shù)據(jù)工 具是指基
9、于原始數(shù)據(jù)集和地理空間數(shù)據(jù)集開發(fā)的各種apio本文主要分析描述原始 數(shù)據(jù)集與地理空間數(shù)據(jù)集的元數(shù)據(jù)標準。筆者根據(jù)對數(shù)據(jù)集描述方面的不同,將涉 及的元數(shù)據(jù)標準劃分為數(shù)據(jù)集內(nèi)容描述元數(shù)據(jù)標準與數(shù)據(jù)集格式描述元數(shù)據(jù)標準兩 大類,如表1所示。1.1數(shù)據(jù)集內(nèi)容描述元數(shù)據(jù)標準該標準是指對數(shù)據(jù)集自身信息進行描述的元數(shù)據(jù)標準。不同類型的數(shù)據(jù)集具有 不同的內(nèi)容描述方面,所采用的元數(shù)據(jù)標準也不相同。根據(jù)d中的資源類 型,將數(shù)據(jù)集內(nèi)容描述元數(shù)據(jù)標準分為原始數(shù)據(jù)集內(nèi)容描述元數(shù)據(jù)標準與地理空間 數(shù)據(jù)集內(nèi)容描述元數(shù)據(jù)標準。1.1.1原始數(shù)據(jù)集內(nèi)容描述元數(shù)據(jù)標準原始數(shù)據(jù)集由聯(lián)邦政府或其所屬機構(gòu)提 供。data
10、.gov使用統(tǒng)一的開放政府數(shù)據(jù)元數(shù)據(jù)標準project open datametadata schema12(以下簡稱pod vl.l)來描述原始數(shù)據(jù)集信息。該標準是開放數(shù)據(jù)項目(project open data)提出的數(shù)據(jù)集應遵循的元數(shù)據(jù)標準,它是基于數(shù)據(jù)目 錄詞表13(data catalog vocabulary , dcat)構(gòu)建的專用于數(shù)據(jù)集描述的層級詞 表。2015年2月已更新至第2版即1.1版本。以下分別從描述內(nèi)容、字段類別、元 數(shù)據(jù)元素3個方面對其進行分析。(1) 描述內(nèi)容。描述內(nèi)容主要涉及數(shù)據(jù)集內(nèi)容與元數(shù)據(jù)標準兩個方面。內(nèi)容描述 信息主要包括內(nèi)外部內(nèi)容信息的描述:外部內(nèi)容信
11、息,即數(shù)據(jù)集從創(chuàng)建到發(fā)布整個 過程中所涉及的人、機構(gòu)、時間、空間、許可、權(quán)利等信息;內(nèi)部內(nèi)容信息,如標 題、描述、標簽等信息。元數(shù)據(jù)標準描述信息是指元數(shù)據(jù)標準版本等信息。(2) 字段類別。按照元數(shù)據(jù)字段描述對象的不同,該標準中的字段分為目錄字段(catalog fields).數(shù)據(jù)集字段(dataset fields).數(shù)據(jù)集發(fā)布字段(dataset distribution fields)三種類型。元數(shù)據(jù)字段可劃分為必要字段(required fields)與非 必要字段(non-required fields)o必要字段又分為不可變必要字段(required fields , always
12、)和可變必要字段(requiredif(conditionally required)。不可變必要字段即 每個數(shù)據(jù)集中必須含有該字段,可變必要字段即在數(shù)據(jù)集滿足某種條件的情況下必 須包含該字段,具體條件依元素不同而不同,如機構(gòu)代碼"局代碼 (bureaucode) 這一字段只有在數(shù)據(jù)集所屬機構(gòu)為美國聯(lián)邦政府時才為必要字段,發(fā)布 (distribution)字段只有當數(shù)據(jù)集有"accessurl"或"downloadurl"時才是必要字段。擴展字段(expanded fields)為非必要字段。元數(shù)據(jù)元素。podvl.l元數(shù)據(jù)標準字段劃分及相應元
13、素見表2。由該表可 知,pod vl.l元數(shù)據(jù)標準共含有45個元素,涉及數(shù)據(jù)目錄、數(shù)據(jù)集、數(shù)據(jù)集發(fā)布 3個方面的數(shù)據(jù)描述。 目錄字段:用來描述整個公共數(shù)據(jù)列表目錄文件,數(shù)據(jù)目錄是多個數(shù)據(jù)集描 述的集合。目錄字段共包含6個元素,其中2個元素屬于不可變必要字段、4個元 素屬于擴展字段。不可變必要字段描述了數(shù)據(jù)目錄包含的具體數(shù)據(jù)集對象及數(shù)據(jù)集 遵循的元數(shù)據(jù)標準版本;擴展字段則是對描述數(shù)據(jù)集的元數(shù)據(jù)標準的描述。 數(shù)據(jù)集字段:用來描述單個數(shù)據(jù)集對象的內(nèi)容特征,共有29個元素,其中不 可變必要字段、可變必要字段、擴展字段分別包含;l0個、5個、14個元素。從數(shù) 據(jù)集的具體字段進行分析,不可變必要字段主要描
14、述與數(shù)據(jù)集創(chuàng)建、主題、識別、 公開、歸屬有關(guān)的基本信息;可變必要字段則主要描述數(shù)據(jù)集的發(fā)布信息、時間空 間信息、許可權(quán)利信息等;擴展字段是對數(shù)據(jù)集元數(shù)據(jù)信息、數(shù)據(jù)質(zhì)量、數(shù)據(jù)更新 情況等進行描述。 數(shù)據(jù)集發(fā)布字段:用來描述與數(shù)據(jù)集獲取有關(guān)的信息,共有10個元素,其中, 無不可變必要字段,可變必要字段與擴展字段分別有3個、7個元素。雖無不可變 必要字段,但要求每一組數(shù)據(jù)集發(fā)布字段包含一個獲取url或下載urlo可變必要 字段主要為數(shù)據(jù)集的具體獲取地址,包括獲取地址和下載地址。擴展字段則為對數(shù) 據(jù)集的元數(shù)據(jù)信息的描述。根據(jù)上述分析可知,目錄字段、數(shù)據(jù)集字段、數(shù)據(jù)集發(fā)布字段是層層嵌套的關(guān) 系。目錄字段
15、中的數(shù)據(jù)集"(dataset)子元素可細分為數(shù)據(jù)集字段中的所有元素,數(shù)據(jù)集字段中的"發(fā)布"(distribution)?元素可細分為數(shù)據(jù)集發(fā)布字段中的所有元在設計元數(shù)據(jù)標準時,d是結(jié)合該平臺對數(shù)據(jù)集的呈現(xiàn)方式設計的,先 以目錄形式呈現(xiàn)所有數(shù)據(jù)集的摘要列表,具體包含數(shù)據(jù)集標題、所屬機構(gòu)、數(shù)據(jù)集 內(nèi)容摘要、數(shù)據(jù)集獲取格式等信息;再對單個數(shù)據(jù)集進行內(nèi)容詳細描述,并對有數(shù) 據(jù)獲取和下載方式的數(shù)據(jù)集進行數(shù)據(jù)發(fā)布信息的描述,從而幫助用戶找到所需要的 數(shù)據(jù)集。同時,目錄字段、數(shù)據(jù)集字段、數(shù)據(jù)集發(fā)布字段均以必要字段(包括不可變 與可變必要字段)和非必要字段(拓展字段
16、)為框架逬行具體屬性的設計。不可變必要 字段為各類型字段的核心部分,描述了代表該類型字段的核心屬性;可變必要字段 針對特定包含相關(guān)字段信息的數(shù)據(jù)集;擴展字段則主要是對元數(shù)據(jù)信息、所使用的 數(shù)據(jù)字典及格式、數(shù)據(jù)集的呈現(xiàn)、數(shù)據(jù)集的其他相關(guān)信息進行聲明。1.1.2地理空間數(shù)據(jù)集內(nèi)容描述元數(shù)據(jù)標準地理空間元數(shù)據(jù)用來描述地圖、地 理信息系統(tǒng)文件、圖像及其他基于位置的數(shù)據(jù)資源14,通常被包含在d的 geop子平臺中。d中的地理空間數(shù)據(jù)集為197 990個(截至 2017年11月15日的統(tǒng)計),約是非地理空間數(shù)據(jù)集的1.8倍。地理空間數(shù)據(jù)集的 描述,除需遵循
17、pod vl.l元數(shù)據(jù)標準外,還要遵循專門的地理空間元數(shù)據(jù)標準。 地理空間數(shù)據(jù)集包含的地理信息主要包括3個類型:一是記錄地理實體的空間數(shù)值 和屬性特征”如經(jīng)緯度、比例尺等元素;二是標記空間數(shù)據(jù)所依附載體的信息”如 所參考的地理信息系統(tǒng)、地圖顯示框等元素;三是針對資源對象或用戶的元素,如 證明對象來源和約束用戶使用資源的元素等。d中的地理空間數(shù)據(jù)主要遵循 兩種地理空間元數(shù)據(jù)標準,分別為iso 19115-2圖像和柵格數(shù)據(jù)元數(shù)據(jù)標準以及數(shù)字地理空間元數(shù)據(jù)標準(content standard for digital geospatial metadata ,csdgm)o(l)iso
18、 19115-2圖像和柵格數(shù)據(jù)元數(shù)據(jù)標準。iso 19115是地理信息的內(nèi)容和 描述標準,d使用該標準的第二部分:圖像和柵格數(shù)據(jù)(iso 19115-2 geographic information-metadata-part 2:extensions for imagery and gridded data ,目前版本為2009年版)進行描述,如表3所示。表3列出了該元數(shù)據(jù)標準包含的13個主要部分,并對這13個主要部分所描述 的內(nèi)容進行了說明。由表3可知,iso 19115-2元數(shù)據(jù)標準包含了與數(shù)據(jù)集有關(guān)的 初期的內(nèi)容描述、中期的質(zhì)量評估與數(shù)據(jù)發(fā)布、后期的數(shù)據(jù)使用與維護的各個方
19、面, 完整性較好。根據(jù)描述對象的不同,可以將元數(shù)據(jù)標準中的這13個方面分為對數(shù)據(jù) 集與對元數(shù)據(jù)標準的描述。其中,數(shù)據(jù)集具體地理特征主要通過空間表示信息、參 考系統(tǒng)信息中的字段來描述,如地理實體的空間幅度(spatial extent)這一地理特征, 該元數(shù)據(jù)標準通過東西南北4個邊界經(jīng)度或緯度來描述該地理實體的絕對位置。(2)數(shù)字地理空間元數(shù)據(jù)內(nèi)容標準。數(shù)字地理空間元數(shù)據(jù)內(nèi)容標準(最新版本為 1998年版)是美國聯(lián)邦地理數(shù)據(jù)委員會(federal geographic data committee , fg dc)制定的用于描述數(shù)字化的地理空間數(shù)據(jù)集的元數(shù)據(jù)標準。該標準描述了與數(shù) 字化地理空間數(shù)
20、據(jù)集定位、獲取、使用和發(fā)布有關(guān)的元數(shù)據(jù),由數(shù)據(jù)元素和復合元 素的層級結(jié)構(gòu)組織,定義了記錄數(shù)字地理空間數(shù)據(jù)集的元數(shù)據(jù)的信息內(nèi)容,同時包 含元素的定義和域值。數(shù)據(jù)元素(data element)是指數(shù)據(jù)的邏輯簡單項,復合元素(compound element)是一組數(shù)據(jù)元素或/和其他復合元素的組合15,即復合元素 有下屬子元素。該元數(shù)據(jù)標準將地理數(shù)據(jù)的信息分為11個模塊進行描述,并在每個模塊下設具 體字段以對數(shù)據(jù)或數(shù)據(jù)集進行詳細描述見表4。每個模塊以復合元素的名稱和定義 開頭,之后是生產(chǎn)規(guī)則,即定義這一復合元素的構(gòu)成。用于地理特征描述的模塊為 空間數(shù)據(jù)組織信息與空間參考信息兩個模塊。空間數(shù)據(jù)組織信
21、息設有對數(shù)字化地理 空間數(shù)據(jù)進行描述的具體字段,分為間接空間參考、直接空間參考方法、點和向量 對象信息、網(wǎng)格對象信息4個部分,通過數(shù)據(jù)集引用地理位置的方式,以及地理位 置的點、向量、網(wǎng)格等數(shù)據(jù)來對地理數(shù)據(jù)的位置、大小、距離等特征進行描述???間參考信息是指數(shù)據(jù)集參考框架、編碼方式、坐標描述,是空間數(shù)據(jù)組織中具體字 段的參照系統(tǒng)。綜上,iso 19115-2圖像和柵格數(shù)據(jù)元數(shù)據(jù)標準與csdgm元數(shù)據(jù)標準均用于 描述d中的地理空間數(shù)據(jù)集。前者為國際通用元數(shù)據(jù)標準,后者為美國制 定的元數(shù)據(jù)標準。二者在元數(shù)據(jù)框架構(gòu)建方面存在一定的相似性,在模塊設置上類 似,如均包含元數(shù)據(jù)根信息、識別信息
22、、數(shù)據(jù)質(zhì)量信息、空間表示信息、空間參考 信息、發(fā)布信息等,均對地理空間數(shù)據(jù)的地理特征及數(shù)據(jù)集內(nèi)容、質(zhì)量、創(chuàng)建、獲 取等屬性進行了有效描述。1.1.3數(shù)據(jù)集內(nèi)容描述元數(shù)據(jù)標準映射為了便于機構(gòu)各自創(chuàng)建數(shù)據(jù)集的pod vl.l元數(shù)據(jù)記錄,fgdc成員機構(gòu)構(gòu)建了 csdgm和iso 19115兩類地理空間元數(shù)據(jù)標準與pod vl.l的映射16o iso 19115與pod vl.l的共同元素要多于csdgm 與 podvl.l 的共同元素。iso 19115、csdgm 與 pod vl.l 的共同元 素主要集中在pod vl.l的數(shù)據(jù)集字段與發(fā)布字段。數(shù)據(jù)集字段中三種元數(shù)據(jù)標準 的共同元素有標題、描
23、述、關(guān)鍵詞、修訂、出版者姓名、聯(lián)系姓名、聯(lián)系郵件、標 識符、訪問級別、局代碼、項目代碼、空間、時間、主題。發(fā)布字段中三種元數(shù)據(jù) 標準的共同元素為下載url與媒體類型。對于相同元素,三種元數(shù)據(jù)標準在描述方 面大致相同,csdgm. iso 19115在字段設置方面比pod vl.l更為細致具體。 相同字段所對應的值有略微差別,如修訂這一字段,pod vl.l將其值定義為最新更新時間(last update)" ; csdgm中的對應項為"出版日期(publication datef ; iso 19115的對應項則包含資源維護頻率、數(shù)據(jù)弓i用修訂日期、數(shù)據(jù)第一 次引用日期。盡
24、管存在差異,三種元數(shù)據(jù)標準可以基本對應。1.2數(shù)據(jù)集格式描述元數(shù)據(jù)標準數(shù)據(jù)集格式描述元數(shù)據(jù)標準是指呈現(xiàn)數(shù)據(jù)集內(nèi)容時所采用的元數(shù)據(jù)標準,以保 證數(shù)據(jù)集不僅用戶可讀,而且機器可讀。d使用的數(shù)據(jù)集格式描述元數(shù)據(jù)標 準主要包含兩種,分別為json與iso 19139地理信息元數(shù)據(jù)xml標準實現(xiàn) (iso 19139 geographic informatietadataxml schema implementation , 以下簡稱iso 19139).1.2.1 json開放數(shù)據(jù)政策要求數(shù)據(jù)集的元數(shù)據(jù)必須以json格式的形式進行描 述,以便數(shù)據(jù)目錄對數(shù)據(jù)集進行統(tǒng)一的元數(shù)據(jù)收割。json
25、是一種易于閱讀、解析、 生成的輕量級文本型數(shù)據(jù)交換格式,用于優(yōu)化數(shù)據(jù)交換。該格式基于兩種結(jié)構(gòu)構(gòu)件: 一是名稱值對,通常通過對象、記錄、結(jié)構(gòu)、字典、哈希表、鍵列表或關(guān)聯(lián)數(shù)組的形式實現(xiàn);二是值的有序列表,通常通過數(shù)組、向量、列表或者序列的形式實現(xiàn)17。json結(jié)構(gòu)實例片段18如下:該片段對數(shù)據(jù)集所遵循的元數(shù)據(jù)標準、數(shù)據(jù)集的訪問級別、局代碼、聯(lián)系方式、 描述等字段進行了描述。由該片段可以清楚地看到數(shù)據(jù)集元數(shù)據(jù)的機器表示方式, 是以屬性":值"的方式進行元數(shù)據(jù)描述。1.2.2 iso 19139地理信息元數(shù)據(jù)xml標準實現(xiàn)標準iso 19139是iso 19115 地理元數(shù)據(jù)標準(
26、iso19115 geographic information-metadata)的 xml 記錄格式和檢驗規(guī)范,即iso 19115的xml編碼19,于2007年發(fā)布。 d中的原始數(shù)據(jù)在內(nèi)容上采用iso19115-2元數(shù)據(jù)標準,在格式上采用iso 19139的xml記錄格式來進行描述。某一數(shù)據(jù)集的xml結(jié)構(gòu)20如下:上述結(jié)構(gòu)展示的是數(shù)據(jù)集xml表示中的一級層級結(jié)構(gòu)jso 19139首先對描 述過程中使用到的命名空間進行聲明,而后逐一描述數(shù)據(jù)集的元數(shù)據(jù)言息,依次為 文件標識符、語言、字符集、所屬層級、聯(lián)系信息、日期、元數(shù)據(jù)標準名稱、元數(shù) 據(jù)標準版本、識別信息、內(nèi)容信息、發(fā)布信息、
27、維護信息等。每個一級元素下設有 二級、三級等描述信息。該描述層級依iso 19115-2的描述層級而定。13美國開放政府數(shù)據(jù)元數(shù)據(jù)標準特點經(jīng)上述分析,美國開放政府數(shù)據(jù)元數(shù)據(jù)標準具有如下特點:一是元數(shù)據(jù)描述詳 細且針對性強,該平臺對數(shù)據(jù)集的元數(shù)據(jù)描述包含了數(shù)據(jù)集內(nèi)容與格式兩個方面, 并根據(jù)平臺中的數(shù)據(jù)集類型即原始數(shù)據(jù)集與地理空間數(shù)據(jù)集采用了能夠凸顯各自特 征的不同元數(shù)據(jù)標準進行描述;二是在現(xiàn)有國際通用元數(shù)據(jù)標準基礎上做了本土化 調(diào)整,pod vl.l即是在dcat基礎上構(gòu)建的元數(shù)據(jù)標準,增加了如bureaucode這樣僅適用于美國聯(lián)邦政府的字段;三是元數(shù)據(jù)標準與開放政府 數(shù)據(jù)平臺具有相同的層級結(jié)
28、構(gòu),結(jié)構(gòu)清晰,均按照數(shù)據(jù)目錄數(shù)據(jù)集數(shù)據(jù)集發(fā)布這 樣的層級結(jié)構(gòu)組織并描述數(shù)據(jù)集。美國、英國、澳大利亞3個國家的元數(shù)據(jù)標準均包含數(shù)據(jù)目錄、原始數(shù)據(jù)集、 地理空間數(shù)據(jù)集3個方面,不同之處在于各個國家在對這三類資源進行描述時選用 了不同的元數(shù)據(jù)標準。對數(shù)據(jù)目錄的描述,三者均采用dcat或基于dcat構(gòu)建的 元數(shù)據(jù)標準,如美國采用pod vl.l元數(shù)據(jù)標準中的數(shù)據(jù)目錄字段,英國基于 ckan記錄格式,澳大利亞遵循dcat元數(shù)據(jù)標準;對于原始數(shù)據(jù)集的描述,美國 采用pod vll中的數(shù)據(jù)集、數(shù)據(jù)集發(fā)布字段與json分別描述其內(nèi)容與格式,英 國采用csv和json格式,澳大利亞采用agls元數(shù)據(jù)標準;對于地
29、理空間數(shù)據(jù)集, 美國采用iso 19115-2. csdgm與iso 19139描述其內(nèi)容與格式,英國采用 gemini地理空間元數(shù)據(jù)格式,澳大利亞則采用anzlic地理空間元數(shù)據(jù)標準。2對我國開放政府數(shù)據(jù)平臺元數(shù)據(jù)標準構(gòu)建的啟示我國目前正在進行開放政府數(shù)據(jù)平臺的構(gòu)建,包括國家級、地區(qū)級等不同層級 的開放政府數(shù)據(jù)平臺,并預計在2018年底前建成政府數(shù)據(jù)統(tǒng)一開放平臺,實現(xiàn)公 共數(shù)據(jù)資源合理適度地向社會開放21。而元數(shù)據(jù)標準的構(gòu)建是我國開放政府數(shù)據(jù) 平臺構(gòu)建的重要版塊之一。根據(jù)2017年我國首個中國地方政府數(shù)據(jù)開放平臺報 告可知”我國各個地方開放政府數(shù)據(jù)平臺中的元數(shù)據(jù)條目的數(shù)量及數(shù)據(jù)項并不統(tǒng) -,
30、導致各個平臺數(shù)據(jù)集的描述詳略與呈現(xiàn)方式存在差異,從而對不同數(shù)據(jù)集間的 整合帶來障礙。黃如花與王春迎22在對我國已建設的13個地方性政府數(shù)據(jù)開放平 臺進行調(diào)查與分析后發(fā)現(xiàn),除北京、上海、無錫、青島的數(shù)據(jù)開放平臺提供的元數(shù) 據(jù)較為詳細,其余均較為簡單。晴青與趙榮23在對北京市政府數(shù)據(jù)開放現(xiàn)狀的硏 究中發(fā)現(xiàn),網(wǎng)站中的數(shù)據(jù)集大部分只提供csv格式的下載,大部分數(shù)據(jù)內(nèi)容僅包含 簡單信息,缺乏詳盡內(nèi)容。陳紅玉等24指出我國現(xiàn)有地方政府開放數(shù)據(jù)門戶網(wǎng)站 普遍缺乏規(guī)范的元數(shù)據(jù)標準體系,使得數(shù)據(jù)集的各項信息,包括溯源信息,很難被 用戶了解與利用。而趙龍文與莫荔媛等25在分析政府數(shù)據(jù)開放特點下的描述要求 的基礎上
31、,引入dc、void、dcat等元數(shù)據(jù)標準對數(shù)據(jù)資源進行目錄描述、數(shù)據(jù) 集、關(guān)聯(lián)描述和訪問描述,為開放后的數(shù)據(jù)共享、查找、管理等提供有效支持。因 而,十分有必要建立統(tǒng)一的元數(shù)據(jù)標準,以對數(shù)據(jù)集進行統(tǒng)一規(guī)范的描述,并利于 采用元數(shù)據(jù)收割的方式集中并及時更新各個機構(gòu)或部門存儲的數(shù)據(jù)集。結(jié)合美國開 放政府數(shù)據(jù)元數(shù)據(jù)標準,我國在構(gòu)建自身元數(shù)據(jù)標準時需注意以下幾點:2.1元數(shù)據(jù)標準的選擇應盡量廣泛通用構(gòu)建統(tǒng)一的政府數(shù)據(jù)開放平臺需要有統(tǒng)一的元數(shù)據(jù)標準,以確保數(shù)據(jù)集在從采 集到發(fā)布的各個環(huán)節(jié)均能按照統(tǒng)一的規(guī)范逬行。統(tǒng)一元數(shù)據(jù)標準的選擇有兩種方式: 一是采用現(xiàn)有國際通用的開放政府數(shù)據(jù)元數(shù)據(jù)標準,如美國所采用的
32、pod vll、 iso 19115-2. csdgm. json等元數(shù)據(jù)標準,采用現(xiàn)有標準有助于實現(xiàn)我國數(shù)據(jù) 集與其他國家數(shù)據(jù)集間的后續(xù)兼容;二是在現(xiàn)有國際通用元數(shù)據(jù)標準基礎上,結(jié)合 我國數(shù)據(jù)集的特征,制定符合我國國情的元數(shù)據(jù)標準。后者更為有效,因美國政府 數(shù)據(jù)集與我國政府數(shù)據(jù)集在資源類型、數(shù)據(jù)提供單位等方面有差別。而且,我國各 個地市級的政府數(shù)據(jù)開放平臺均構(gòu)建了各自的數(shù)據(jù)集描述方式。統(tǒng)一元數(shù)據(jù)標準應 具有對已有地市級元數(shù)據(jù)標準的兼容性。具體構(gòu)建時,可結(jié)合現(xiàn)有國際通用元數(shù)據(jù) 標準與我國地方元數(shù)據(jù)標準,提煉出基本元數(shù)據(jù)元素與拓展元數(shù)據(jù)元素,二者分別 為數(shù)據(jù)集描述中的必要字段與非必要字段,以分別
33、應對不同詳略程度的數(shù)據(jù)集描述。2.2元數(shù)據(jù)標準應能區(qū)分數(shù)據(jù)集類型美國開放政府數(shù)據(jù)平臺將數(shù)據(jù)集分為原始數(shù)據(jù)集與地理空間數(shù)據(jù)集兩種類型, 并分別采用不同的元數(shù)據(jù)標準進行描述。尤其是對于地理空間數(shù)據(jù)集,選擇能夠表 征數(shù)據(jù)集地理特征的元數(shù)據(jù)標準進行描述。我國在構(gòu)建自身元數(shù)據(jù)標準時,也應結(jié) 合不同類型數(shù)據(jù)集特征,選擇并制定具有針對性的元數(shù)據(jù)標準,以區(qū)分數(shù)據(jù)集類型, 充分展示數(shù)據(jù)集特征,進而使數(shù)據(jù)集得到更加合理有效地使用。23元數(shù)據(jù)標準間應具有一定的互操作性元數(shù)據(jù)標準的互操作性體現(xiàn)在兩點:一是開放政府數(shù)據(jù)平臺中的各個元數(shù)據(jù)標 準間要具有互操作性,如美國開放政府數(shù)據(jù)平臺所使用的元數(shù)據(jù)標準iso19115.
34、csdgm均與pod vl.l建立了映射;二是構(gòu)建的元數(shù)據(jù)標準應與其參照標準具有 互操作性,如pod vl.l與其構(gòu)建所依據(jù)的元數(shù)據(jù)標準dcat建立了映射,同時還 與s有映射關(guān)系。因此,我國統(tǒng)一開放政府數(shù)據(jù)平臺中的統(tǒng)一元數(shù)據(jù)標 準既要與各地市級元數(shù)據(jù)標準建立互操作,也要與其所參照的元數(shù)據(jù)標準建立互操 作。2.4元數(shù)據(jù)標準應同時包含數(shù)據(jù)集內(nèi)容與格式的描述數(shù)據(jù)集不僅要在內(nèi)容描述上規(guī)范,同時也要在格式描述上規(guī)范,以同時實現(xiàn)數(shù) 據(jù)集的用戶可讀與機器可讀。數(shù)據(jù)集在內(nèi)容描述時,可結(jié)合國外數(shù)據(jù)集描述標準與 我國數(shù)據(jù)集特點構(gòu)建符合自身數(shù)據(jù)集要求的元數(shù)據(jù)標準;而在數(shù)據(jù)集格式描述時, 則可完全借
35、鑒國外的數(shù)據(jù)集格式描述標準如json等?;谏鲜鲫P(guān)鍵點,我國開放政府數(shù)據(jù)平臺元數(shù)據(jù)標準的構(gòu)建應遵循以下思路。首先,確定平臺中數(shù)據(jù)集的類型,對不同類型數(shù)據(jù)集做針對性的元數(shù)據(jù)描述,如參 照美國、英國、澳大利亞,分別針對數(shù)據(jù)目錄、原始數(shù)據(jù)集、地理空間數(shù)據(jù)集這三 類主要資源選擇或構(gòu)建不同元數(shù)據(jù)標準;其次,確定元數(shù)據(jù)描述的基本方面,如數(shù) 據(jù)內(nèi)容與數(shù)據(jù)格式,在確定數(shù)據(jù)內(nèi)容元數(shù)據(jù)標準的基礎上,選擇相應的數(shù)據(jù)格式元 數(shù)據(jù)標準;再者,確定我國數(shù)據(jù)集元素屬性及屬性粒度,依此在dcat、dc等現(xiàn)有 通用元數(shù)據(jù)標準基礎上,根據(jù)我國數(shù)據(jù)集特點,做本土化處理,并盡量細化描述粒 度,包含從數(shù)據(jù)集來源到數(shù)據(jù)集發(fā)布過程中所涉及
36、的各類人、時間、機構(gòu)及數(shù)據(jù)集 本身的內(nèi)容與格式特征,以便為用戶多樣化檢索和數(shù)據(jù)二次開發(fā)奠定基礎。3結(jié)語本文以美國開放政府數(shù)據(jù)平臺d為例,分析了該平臺中的數(shù)據(jù)集構(gòu)成 及不同類型數(shù)據(jù)集的元數(shù)據(jù)標準。d平臺將數(shù)據(jù)集分為原始數(shù)據(jù)集、地理空 間數(shù)據(jù)集、數(shù)據(jù)工具3種類型,原始數(shù)據(jù)集采用pod vl.l元數(shù)據(jù)標準進行描述, 而地理空間數(shù)據(jù)集采用iso 19115-2與csdgm這兩種地理空間元數(shù)據(jù)標準進行描 述。這3種元數(shù)據(jù)標準均是對數(shù)據(jù)集的內(nèi)容信息進行描述,3種標準具有部分共有 字段。除對數(shù)據(jù)集內(nèi)容進行描述的元數(shù)據(jù)標準之外,還有對數(shù)據(jù)集格式進行描述的 元數(shù)據(jù)標準,分別為json
37、與iso19139元數(shù)據(jù)標準?;趯γ绹_放政府數(shù)據(jù)平 臺元數(shù)據(jù)標準的分析,筆者認為我國在構(gòu)建自身元數(shù)據(jù)標準時,需選擇廣泛通用的元數(shù)據(jù)標準,并對不同類型數(shù)據(jù)集采取不同的元數(shù)據(jù)標準進行描述,各個元數(shù)據(jù)標準之間要具有互操作性,并且要同時包含數(shù)據(jù)集內(nèi)容與格式的元數(shù)據(jù)描述。原文參考文獻: lopen government dataeb/0l. 2017-03-09.https:/opcngovcrnmcntdata org/ 2鄭磊,高豐中國開放政府數(shù)據(jù)平臺研究:框架、現(xiàn)狀與建 議j 電子政務,2015(7): 8-16. 3open data institute. .0pen data certif
38、icateeb/ol. 2017-11-17.https:/certif icates. theodi. org/en. 4孫璐,李廣建.政府開放數(shù)據(jù)應用分析模型構(gòu)建研究j圖 書情報工作,2017, 61(3): 97-108. 5于夢月,翟軍,林巖我國地方政府開放數(shù)據(jù)的核心元數(shù)據(jù) 研究j情報雜志,2016, 35(12): 98-104. 6翟軍,于夢月,林巖世界主要政府開放數(shù)據(jù)元數(shù)據(jù)方案比 較與啟示j圖書與情報,2017(4): 113-121. 7趙蓉英,梁志森,段培培英國政府數(shù)據(jù)開放共享的元數(shù)據(jù)標準對data. gov. uk的調(diào)研與啟示j圖書情報工作,2016, 60(19): 31-39. 8黃如花,李楠澳大利亞開放政府數(shù)據(jù)的元數(shù)據(jù)標準一一對 data. gov. au的調(diào)研與啟示j圖書館雜志,2017(5): 87-97. 9武琳,黃穎茹開放政府數(shù)據(jù)平臺元數(shù)據(jù)標準研究進展j 圖書館學研究,2017(6): 14-21. 10王立清,唐宇萍.澳大利亞新西蘭政府網(wǎng)站建設的元數(shù)據(jù)標 準j情報資料工作,2004(1 ): 410-413. 11黃如花,林離國外開放政府數(shù)據(jù)描述規(guī)范的調(diào)查與分析 j圖書情報工作,2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 重慶能源職業(yè)學院《機電系統(tǒng)建模與仿真》2023-2024學年第二學期期末試卷
- 甘孜職業(yè)學院《大跨度空間結(jié)構(gòu)》2023-2024學年第二學期期末試卷
- 2025屆寧夏吳忠市高三上學期適應性考試(一模)歷史試卷
- 2024-2025學年浙江省六校聯(lián)盟高一上學期期中聯(lián)考歷史試卷
- 做賬實操-代理記賬行業(yè)的賬務處理分錄
- 長春大學旅游學院《幼兒舞蹈創(chuàng)編二》2023-2024學年第二學期期末試卷
- 2024-2025學年湖北省新高考聯(lián)考協(xié)作體高一上學期期中考試歷史試卷
- 濟南工程職業(yè)技術(shù)學院《信息安全基礎》2023-2024學年第二學期期末試卷
- 聊城大學東昌學院《病理學與病理生理學》2023-2024學年第二學期期末試卷
- 亳州職業(yè)技術(shù)學院《數(shù)據(jù)分析與可視化實驗》2023-2024學年第二學期期末試卷
- 2025年湖北省技能高考(建筑技術(shù)類)《建筑制圖與識圖》模擬練習試題庫(含答案)
- 集成電路研究報告-集成電路項目可行性研究報告2024年
- 2024年湖南生物機電職業(yè)技術(shù)學院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- 樁基承載力自平衡法檢測方案資料
- 2025云南昆明空港投資開發(fā)集團招聘7人高頻重點提升(共500題)附帶答案詳解
- 簡單的路線圖(說課稿)2024-2025學年三年級上冊數(shù)學西師大版
- 成都市2024-2025學年度上期期末高一期末語文試卷(含答案)
- 2025年教育局財務工作計劃
- Unit 5 Now and Then-Lesson 3 First-Time Experiences 說課稿 2024-2025學年北師大版(2024)七年級英語下冊
- 中小學智慧校園建設方案
- 中國食物成分表2020年權(quán)威完整改進版
評論
0/150
提交評論