DB4208T 59-2024《荊門城市大數(shù)據(jù)采集規(guī)范》_第1頁
DB4208T 59-2024《荊門城市大數(shù)據(jù)采集規(guī)范》_第2頁
DB4208T 59-2024《荊門城市大數(shù)據(jù)采集規(guī)范》_第3頁
DB4208T 59-2024《荊門城市大數(shù)據(jù)采集規(guī)范》_第4頁
DB4208T 59-2024《荊門城市大數(shù)據(jù)采集規(guī)范》_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

代替DB4208/T59-2017荊門城市大數(shù)據(jù)采集規(guī)范2024-02-01發(fā)布2024-03-01實(shí)施荊門市市場監(jiān)督管理局發(fā)布I前言 Ⅱ 12規(guī)范性引用文件 13術(shù)語和定義 1 54.1數(shù)據(jù)采集工作流程 54.2數(shù)據(jù)采集處理架構(gòu) 64.2.1數(shù)據(jù)采集系統(tǒng) 64.2.2消息服務(wù) 64.2.3數(shù)據(jù)交換管理中心 74.2.4任務(wù)系統(tǒng) 74.2.5運(yùn)行與監(jiān)控 74.3數(shù)據(jù)采集網(wǎng)絡(luò)架構(gòu) 74.3.1數(shù)據(jù)采集邏輯架構(gòu) 74.3.2數(shù)據(jù)采集物理部署 74.4采集過程數(shù)據(jù)分析 84.4.1數(shù)據(jù)類型 84.4.2數(shù)據(jù)質(zhì)量 84.4.3數(shù)據(jù)存儲(chǔ) 95技術(shù)規(guī)范 95.1數(shù)據(jù)采集方案選擇 95.1.1數(shù)據(jù)庫接入方式 95.1.2文件接入方式 5.1.3API接人方式 5.1.4網(wǎng)頁接入方式 5.1.5流式接入方式 5.1.6消息接入方式 5.2數(shù)據(jù)采集周期 5.3數(shù)據(jù)采集更新機(jī)制 5.3.1全量抽取 5.3.2增量抽取 5.4數(shù)據(jù)采集實(shí)施 5.4.1數(shù)據(jù)采集實(shí)施流程 5.4.2任務(wù)分解 5.4.3數(shù)據(jù)采集監(jiān)控 Ⅱ本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別這些本文件代替DB4208/T59-2017,與DB4208/T59-2017相比,除文件編號按照新本文件由荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心)提出。本文件由荊門市行政審批局歸口。本文件起草單位:荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心)。本文件實(shí)施應(yīng)用中的疑問,可咨詢荊門市行政審批局,聯(lián)系電話:(0724)2376309,郵箱:690882384@;對本標(biāo)準(zhǔn)的有關(guān)修改意見建議請反饋至荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心),聯(lián)系電話:(0724)2376119,郵箱:282685564@據(jù)交易、技術(shù)產(chǎn)品、安全保密等關(guān)鍵共性標(biāo)準(zhǔn)的制定和實(shí)施?!毕淼目傮w框架和技術(shù)規(guī)范,涉及數(shù)據(jù)處理的整個(gè)流程:首先進(jìn)行數(shù)據(jù)采集,然后通過數(shù)據(jù)整合(包括數(shù)據(jù)清洗和數(shù)據(jù)比對),將整合成功的數(shù)據(jù)裝載到公共基礎(chǔ)信息庫,根據(jù)需要提供數(shù)據(jù)共享。五個(gè)標(biāo)準(zhǔn)規(guī)范的制定是荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心)和全市信息行業(yè)人員的共同1荊門城市大數(shù)據(jù)采集規(guī)范凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T5271.17信息技術(shù)詞匯第17部分:數(shù)據(jù)庫GB/T17532術(shù)語工作計(jì)算機(jī)應(yīng)用詞匯GB/T20520信息安全技術(shù)公鑰基礎(chǔ)設(shè)施時(shí)間戳GB/T22239信息安全技術(shù)信息系統(tǒng)安全等級保護(hù)基本要求GB/T29262信息技術(shù)面向服務(wù)的體系結(jié)構(gòu)(SOA)術(shù)語關(guān)于數(shù)據(jù)和數(shù)據(jù)元素的數(shù)據(jù)(可能包括其數(shù)據(jù)描述),以及關(guān)于數(shù)據(jù)擁有權(quán)、存取路徑、訪問權(quán)和通過計(jì)算機(jī)網(wǎng)絡(luò)將物理上分散的存儲(chǔ)資源構(gòu)成一個(gè)虛擬的存儲(chǔ)設(shè)備,集中管理數(shù)據(jù)的一種存儲(chǔ)方23454總體架構(gòu)協(xié)調(diào)簽署實(shí)施方結(jié)束入庫6a)主管部門向數(shù)據(jù)提供方和中心管理方發(fā)送數(shù)據(jù)采集通知,統(tǒng)籌協(xié)調(diào)數(shù)據(jù)采集前所涉及工作安中心匯聚庫中心匯聚庫數(shù)據(jù)交換管理中心任女并省消息服務(wù)運(yùn)行與堅(jiān)控?cái)?shù)據(jù)數(shù)據(jù)采集指萊集數(shù)據(jù)采集數(shù)據(jù)提供方業(yè)務(wù)數(shù)據(jù)(數(shù)據(jù)庫、文件,接口,消息等)臺(tái)MH37前置機(jī)1前置庫前置庫前置庫8a)完整性:數(shù)據(jù)不存在缺失,并保留歷史數(shù)據(jù)等狀況;用中應(yīng)保證數(shù)據(jù)的一致性,同一指標(biāo)數(shù)據(jù)在不同維度和不同顆粒度下應(yīng)保d)及時(shí)性:數(shù)據(jù)從開始到完成采集的延遲時(shí)間短。實(shí)時(shí)數(shù)據(jù)的采集,在網(wǎng)絡(luò)狀況良好的情況下,e)保密性:對待采集的數(shù)據(jù)進(jìn)行加密,保證數(shù)據(jù)不被非法用戶訪問,只被擁有權(quán)限的用戶訪問。9換,始終保持從數(shù)據(jù)采集系統(tǒng)采集來的最新數(shù)據(jù),并采用數(shù)據(jù)片批次置換機(jī)制進(jìn)行存儲(chǔ)。同一屬性的表示方式不一致,系統(tǒng)需提供數(shù)與大數(shù)據(jù)中心進(jìn)行信息交換,數(shù)據(jù)庫接入方鏈接失敗圖5數(shù)據(jù)庫接入方式的業(yè)務(wù)流程1.1.2文件接入方式采用文件形式與數(shù)據(jù)交換平臺(tái)進(jìn)行數(shù)據(jù)交換的方式。在此方式下,數(shù)據(jù)提供方將數(shù)據(jù)保存為xml、xls或xlsx、csv等格式文件,通過FTP或HTTP方式將文件發(fā)送給數(shù)據(jù)交換管理中心。對實(shí)時(shí)性要求高、數(shù)據(jù)量大的數(shù)據(jù)文件,建議盡量選擇數(shù)據(jù)庫接入方式,文件接入方式的業(yè)務(wù)流程見圖6所示。文件接入方式適用于滿足如下條件的數(shù)據(jù)采集:a)有數(shù)據(jù)但沒有系統(tǒng)或相關(guān)數(shù)據(jù)沒有進(jìn)入數(shù)據(jù)庫或數(shù)據(jù)采集周期性較長的情況(如按月、按季、b)數(shù)據(jù)提供方按照約定方式和格式存儲(chǔ)數(shù)據(jù)。提供的數(shù)據(jù)文件是格式規(guī)范、數(shù)據(jù)項(xiàng)和數(shù)據(jù)質(zhì)量符合要求的高質(zhì)量數(shù)據(jù),并可通過FTP或HTYTP方式上傳到數(shù)據(jù)交換平臺(tái)指定位置。1)FTP方式:大數(shù)據(jù)中心提供FTP服務(wù),開放相應(yīng)端口;2)HTTP方式:大數(shù)據(jù)中心提供相應(yīng)的文件交換傳輸模塊,實(shí)現(xiàn)基于Web頁面的文件上報(bào),可以對上傳文件進(jìn)行檢查和控制。文件上傳系統(tǒng)應(yīng)提供文件上傳權(quán)限管理、數(shù)據(jù)驗(yàn)證、上傳結(jié)果查詢功能。外提供服務(wù)的對接方式,API接入方式的業(yè)務(wù)流程見圖7所示。在此接入方式下,數(shù)據(jù)提供方需要提供a)信息交換頻繁,與數(shù)據(jù)提供方業(yè)務(wù)處理緊密聯(lián)系的應(yīng)用系統(tǒng);b)需要直接在線提供數(shù)據(jù)。有封裝規(guī)范的RestfulAPI或Webservice調(diào)用接口,并提供詳細(xì)的服務(wù)圖7API接入方式的業(yè)務(wù)流程1.1.4網(wǎng)頁接入方式利用互聯(lián)網(wǎng)搜索引擎技術(shù)實(shí)現(xiàn)對相關(guān)網(wǎng)站的網(wǎng)頁進(jìn)行有針對性、行業(yè)性、精準(zhǔn)性的數(shù)據(jù)抓取,并按照一定規(guī)則和篩選標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)歸類,形成數(shù)據(jù)庫文件。網(wǎng)頁接入方式的業(yè)務(wù)流程見圖8所示。網(wǎng)頁接入方式適用于滿足如下條件的數(shù)據(jù)采集:a)信息化程度高,有專人維護(hù)的網(wǎng)站;b)需正確配置網(wǎng)頁系統(tǒng)的參數(shù)和解析方式。圖8網(wǎng)頁接入方式的業(yè)務(wù)流程c)配置連接政務(wù)外網(wǎng)的前置機(jī),在前置機(jī)上安裝交換消息處理軟件(消息中間件)。a)數(shù)據(jù)一次采集:一次性將所有待采集數(shù)據(jù)(如一個(gè)完整的數(shù)據(jù)表)全部采集到中心匯聚庫;據(jù)采集,可按每周、每月、每季、每年等時(shí)間周期進(jìn)行數(shù)據(jù)片采集。a)清空中心匯聚庫中目標(biāo)表的數(shù)據(jù);b)將確定的待采集數(shù)據(jù)的表或視圖原封不動(dòng)的從數(shù)據(jù)庫中抽取出來,并轉(zhuǎn)換成ETL工具可識(shí)別的用于抽取自上一輪次抽取后數(shù)據(jù)庫表發(fā)生變化的數(shù)據(jù)。捕獲a)在要抽取的表中建立基于插入、修改和刪除操作的觸發(fā)器;b)源表的數(shù)據(jù)發(fā)生變化,相應(yīng)的觸發(fā)器將變化的數(shù)據(jù)寫入臨時(shí)表;c)抽取線程從臨時(shí)表抽取數(shù)據(jù)。全表比對進(jìn)行增量抽取,逐條比較源表和目標(biāo)表的記錄,將新增和修改的記錄讀取出來??刹捎胊)在表中增加版本號列來存儲(chǔ)數(shù)據(jù)行變化,每次變化都將版本號列的數(shù)據(jù)增加1;d)采集完后將參考表對應(yīng)版本號更新為與源表一致的版本號。a)需要資源提供方打開被采集數(shù)a)前置庫用戶、角色權(quán)限等的分配、表空間的劃分以及數(shù)據(jù)庫類型的確認(rèn)工作;b)涉及的元數(shù)據(jù)進(jìn)行配置和管理;啟動(dòng)啟動(dòng)業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)庫采集方案采集配置采集調(diào)度數(shù)據(jù)采集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論