




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
信息技術(shù)大數(shù)據(jù)面向分析的數(shù)據(jù)存儲與檢索技術(shù)要求2022-10-12發(fā)布I 2規(guī)范性引用文件 l3術(shù)語和定義 14縮略語 5概述 26數(shù)據(jù)表結(jié)構(gòu) 26.1數(shù)據(jù)表 26.2子表 2 36.4列組 36.5數(shù)據(jù)頁 47索引技術(shù)要求 48數(shù)據(jù)存儲技術(shù)要求 48.1基本要求 48.2存儲布局實現(xiàn) 48.3數(shù)據(jù)處理 59數(shù)據(jù)檢索技術(shù)要求 6附錄A(資料性)面向分析的數(shù)據(jù)存儲與檢索應(yīng)用示例 7參考文獻 9Ⅲ本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別專利的責任。本文件由全國信息技術(shù)標準化技術(shù)委員會(SAC/TC28)提出并歸口。本文件起草單位:華為技術(shù)有限公司、北京大學、中國電子技術(shù)標準化研究院、中國人民大學、北京航天智造科技發(fā)展有限公司、中汽研汽車檢驗中心(天津)有限公司、成都中科大旗軟件股份有限公司、浪潮軟件科技有限公司、江蘇賽西科技發(fā)展有限公司、深圳賽西信息技術(shù)有限公司、浪潮電子信息產(chǎn)業(yè)股份有限公司、北京易華錄信息技術(shù)股份有限公司、杭州中奧科技有限公司、方正國際軟件(北京)有限公司、山東黃河河務(wù)局山東黃河信息中心、山東省計算中心(國家超級計算濟南中心)、四川大學華西醫(yī)學、天津大學、中冶賽迪工程技術(shù)股份有限公司、北京能科瑞元數(shù)字技術(shù)有限公司、北京啟迪數(shù)字科技集團有限公司、中國人民解放軍國防科技大學、西北工業(yè)大學、西安電子科技大學、騰訊科技(深圳)有限公司、河南云政數(shù)據(jù)管理有限公司、特斯聯(lián)科技集團有限公司、深圳龍崗智能視聽研究院、星環(huán)信息科技(上海)有限公司。楊洪山。1信息技術(shù)大數(shù)據(jù)面向分析的數(shù)據(jù)存儲與檢索技術(shù)要求1范圍本文件規(guī)定了支撐多應(yīng)用融合分析的大數(shù)據(jù)列式存儲與檢索技術(shù)要求。本文件適用于面向分析的數(shù)據(jù)存儲與檢索的系統(tǒng)或子系統(tǒng)的設(shè)計、開發(fā)和使用。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T35295—2017信息技術(shù)大數(shù)據(jù)術(shù)語3術(shù)語和定義GB/T35295—2017界定的以及下列術(shù)語和定義適用于本文件。定義和描述其他數(shù)據(jù)的數(shù)據(jù)。存儲布局storagelayout數(shù)據(jù)在存儲系統(tǒng)中的存儲規(guī)劃和安排。注:通常包括各數(shù)據(jù)單元在存儲系統(tǒng)中相對的存儲順序和存儲位置的偏移等。使用一定方法或工具,從數(shù)據(jù)集合中找出用戶所需數(shù)據(jù)或數(shù)據(jù)相關(guān)信息的過程。下列縮略語適用于本文件。CSV:逗號分隔值(CommaSeparatedValues)EB:百億億字節(jié)(ExaByte)JSON:腳本對象(JavaScriptObjectNotation)OLAP:聯(lián)機分析處理(On-lineAnalyticalProcessing)PB:千萬億字節(jié)(PetaByte)SQL:結(jié)構(gòu)化查詢語言(StructuredQueryLanguage)2WiFi:無線保真(WirelessFidelity)5概述在大數(shù)據(jù)場景中,數(shù)據(jù)分析是通往大數(shù)據(jù)應(yīng)用的首要步驟,需要簡便、快捷和準確的數(shù)據(jù)組織和管理方法,這種組織和管理主要體現(xiàn)在存儲和檢索方面。檢索活動與數(shù)據(jù)分析中的數(shù)據(jù)提取直接關(guān)聯(lián),存儲活動為數(shù)據(jù)分析提供便捷的數(shù)據(jù)組織。數(shù)據(jù)存儲表的示例見附錄A。本文件描述的數(shù)據(jù)表為大數(shù)據(jù)場景下面向分析的數(shù)據(jù)存儲和檢索提供數(shù)據(jù)組織和管理方面的6數(shù)據(jù)表結(jié)構(gòu)6.1數(shù)據(jù)表數(shù)據(jù)表是對數(shù)據(jù)進行組織和管理的一種數(shù)據(jù)分層次編排結(jié)構(gòu)和多層結(jié)構(gòu),其組成部分包括:數(shù)據(jù)子一張數(shù)據(jù)表包含1張或多張子表,主要用于對數(shù)據(jù)進行面向分析的組織和管理,數(shù)據(jù)表的元數(shù)據(jù)獨立于數(shù)據(jù)表外存儲。這些組成部分統(tǒng)稱為數(shù)據(jù)單元。數(shù)據(jù)表數(shù)據(jù)表行組列組數(shù)據(jù)頁圖1數(shù)據(jù)表結(jié)構(gòu)圖子表是組織和管理數(shù)據(jù)的最大數(shù)據(jù)單元,由子表頭部、行組、子表尾部組成,一張子表內(nèi)的數(shù)據(jù)可劃分為1~n個行組。子表的一般結(jié)構(gòu)如圖2所示。子表頭部給出子表的標識、版本信息以及子表的元數(shù)據(jù)。子表尾部給出子表的行組/列組索引,以及行組位置信息。行組索引由多個列組索引組成。子表索引由行組索引組成。首次使用時,由行組索引記錄匯聚而成,可緩存在內(nèi)存中。3GB/T41818—2022子表頭部標識版本信息子表元數(shù)據(jù)行組1行組x子表尾部行組/列組索引行組位置信息行組/列組索引圖2子表結(jié)構(gòu)圖6.3行組行組是子表橫向劃分的最小單元,一個行組包含1~L行的數(shù)據(jù)(L≥1),可劃分為1~M個列組(M≥1)。行組由行組元數(shù)據(jù)、數(shù)據(jù)頁索引和列組構(gòu)成,其中,行組元數(shù)據(jù)包含:列組元數(shù)據(jù)、列組位置和列組內(nèi)數(shù)據(jù)頁位置等信息,列組元數(shù)據(jù)包含了數(shù)據(jù)頁數(shù)據(jù)的大小、編碼方式等信息。一般行組結(jié)構(gòu)如圖3所示。索引索引(列組元數(shù)據(jù)、列組位置、列組內(nèi)數(shù)據(jù)頁位置)列組1列組M圖3行組結(jié)構(gòu)圖列組是行組內(nèi)數(shù)據(jù)縱向劃分的最小單元,一個列組包含該行組內(nèi)1~P列的數(shù)據(jù)(P≥1),列組可劃分為1~Q個數(shù)據(jù)頁(Q≥1)。列組的一般結(jié)構(gòu)如圖4所示。列紐數(shù)據(jù)頁1數(shù)據(jù)頁Q圖4列組結(jié)構(gòu)圖4數(shù)據(jù)頁是列組內(nèi)數(shù)據(jù)讀寫和數(shù)據(jù)過濾的最小單元,是一段裸數(shù)據(jù),大小和格式等信息由行組中的列組元數(shù)據(jù)信息提供。7索引技術(shù)要求本文件中的數(shù)據(jù)索引是快速定位所需數(shù)據(jù)的檢索方式,包括:子表索引、行組或列組索引、數(shù)據(jù)頁索引等。索引技術(shù)要求如下:a)應(yīng)支持行組或列組級別的索引,通過索引可獲得需要的行組,如倒排索引;b)應(yīng)支持數(shù)據(jù)頁級別的索引,通過索引可獲得需要的數(shù)據(jù)頁,如最大最小索引;c)應(yīng)支持多個列組的索引組合;d)應(yīng)支持主索引、時空索引、多值列索引等多種索引方式進行組合;e)宜支持索引構(gòu)建后數(shù)據(jù)的更新和刪除;f)宜支持子表級別的索引,通過索引獲得需要的子表,如二叉樹索引;g)宜支持異步索引構(gòu)建能力。注:異步索引構(gòu)建指的是用戶先將數(shù)據(jù)入庫,再利用業(yè)務(wù)閑時對數(shù)據(jù)構(gòu)建索引。8數(shù)據(jù)存儲技術(shù)要求8.1基本要求數(shù)據(jù)存儲的基本技術(shù)要求如下:a)應(yīng)支持數(shù)據(jù)按行組列組存儲;b)應(yīng)支持數(shù)據(jù)持久化保存;c)應(yīng)支持文件存儲、對象存儲、內(nèi)存存儲等不同數(shù)據(jù)存儲系統(tǒng);d)應(yīng)支持依據(jù)不同維度對數(shù)據(jù)進行分類存儲,如數(shù)據(jù)使用頻率等;e)宜支持總量達EB級,單表數(shù)據(jù)達萬億行級別的數(shù)據(jù)存儲和檢索;f)宜支持對單條數(shù)據(jù)記錄進行更新和刪除;g)宜基于第6章描述的數(shù)據(jù)表結(jié)構(gòu),設(shè)計和規(guī)劃用于組織和管理數(shù)據(jù)存儲的總體方案。8.2存儲布局實現(xiàn)存儲布局實現(xiàn)的技術(shù)要求如下:a)應(yīng)隨檢索需求的重大變化及時調(diào)整存儲布局;b)應(yīng)支持子表存儲結(jié)構(gòu)按行組來設(shè)定存儲順序;c)應(yīng)支持子表存儲結(jié)構(gòu)按行組來自動適應(yīng)存儲順序;d)應(yīng)支持子表存儲結(jié)構(gòu)按列組來設(shè)定存儲順序;e)應(yīng)支持子表存儲結(jié)構(gòu)按列組來自動適應(yīng)存儲順序;f)應(yīng)支持用戶自定義行組存儲布局中列組之間的存儲順序;g)應(yīng)支持用戶自定義列組存儲布局中行組之間的存儲順序;h)應(yīng)支持行組存儲布局中自適應(yīng)的列組分裂和合并;i)應(yīng)支持各數(shù)據(jù)單元大小的自適應(yīng)調(diào)整;5j)宜支持PB級數(shù)據(jù)查詢響應(yīng)為秒級,并且百列索引組合查詢下的點查詢響應(yīng)最優(yōu)為秒級;k)宜支持PB級數(shù)據(jù)導入延時(耗時)達到秒級,單機數(shù)據(jù)吞吐量大于每秒10萬行。8.3數(shù)據(jù)處理數(shù)據(jù)表管理的技術(shù)要求如下:a)應(yīng)支持創(chuàng)建表、刪除表、修改表、添加列、刪除列等數(shù)據(jù)單元操作b)應(yīng)支持創(chuàng)建索引、刪除索引、修改索引等數(shù)據(jù)索引操作能力;c)應(yīng)支持按數(shù)據(jù)表數(shù)據(jù)的更新和批量更新;d)應(yīng)支持數(shù)據(jù)表單條記錄的刪除和批量刪除;e)應(yīng)支持對雙精度浮點型、長整型等不同數(shù)據(jù)類型進行類型轉(zhuǎn)換和列式數(shù)據(jù)壓縮;f)宜支持增加或刪除數(shù)據(jù)表中的行組或列組、修改行組或列組的命名和數(shù)據(jù)類型等數(shù)據(jù)表結(jié)構(gòu)的修改能力。數(shù)據(jù)導入的技術(shù)要求如下:a)應(yīng)支持數(shù)據(jù)導入數(shù)據(jù)表時同步構(gòu)建索引;b)應(yīng)支持數(shù)據(jù)表歷史數(shù)據(jù)的批量導入;c)應(yīng)支持數(shù)據(jù)表增量數(shù)據(jù)的導入;d)應(yīng)支持多個數(shù)據(jù)表的數(shù)據(jù)同時導入;e)應(yīng)支持將文本格式的數(shù)據(jù)導入數(shù)據(jù)表;f)應(yīng)支持其他列式存儲格式的數(shù)據(jù)轉(zhuǎn)換導入數(shù)據(jù)表;g)宜支持實時流式數(shù)據(jù)導入;h)宜支持數(shù)據(jù)庫增量同步到數(shù)據(jù)表,數(shù)據(jù)立即可見。輕量級數(shù)據(jù)壓縮,即壓縮狀態(tài)下的數(shù)據(jù)可進行訪問、運算等操作,其技術(shù)要求如下:a)應(yīng)支持增量編碼、運行長度編碼、位壓縮和字典編碼等輕量級壓縮算法;b)宜支持自適應(yīng)選擇輕量級壓縮算法;c)宜支持對輕量級壓縮數(shù)據(jù)的查詢。重量級數(shù)據(jù)壓縮,即數(shù)據(jù)解壓后才能對數(shù)據(jù)進行訪問、運算等,其技術(shù)要求如下:a)應(yīng)支持用戶選擇重量級數(shù)據(jù)壓縮方式;b)應(yīng)支持對輕量級壓縮后的數(shù)據(jù)使用重量級數(shù)據(jù)壓縮方法;c)宜支持重量級壓縮算法;d)宜支持插件式添加重量級壓縮算法。應(yīng)支持將多個較小的子表合并成較大的子表,并將多個子表索引構(gòu)建成一個較大的子表索引。數(shù)據(jù)分區(qū)的技術(shù)要求如下:6a)應(yīng)支持數(shù)據(jù)表按照時間、地理位置、范圍、列表、取值等不同方式進行分區(qū);b)應(yīng)支持不同批次導入的數(shù)據(jù)劃分到不同的分區(qū);c)宜支持將經(jīng)常組合出現(xiàn)的列組排列在一起存儲。數(shù)據(jù)更新的技術(shù)要求如下:a)應(yīng)支持一個更新語句包含一條或多條數(shù)據(jù)更新記錄;b)應(yīng)支持根據(jù)查詢結(jié)果更新數(shù)據(jù)表;c)應(yīng)支持帶子查詢的更新或刪除語句;d)應(yīng)支持數(shù)據(jù)表清空;e)宜支持異步更新數(shù)據(jù)表。9數(shù)據(jù)檢索技術(shù)要求數(shù)據(jù)檢索的技術(shù)要求如下:a)應(yīng)支持基于規(guī)則、成本等優(yōu)化器對SQL進行優(yōu)化;b)應(yīng)支持分布式計算檢索,對于較大的檢索通過分布式計算提升檢索效率;c)應(yīng)支持數(shù)據(jù)的即時檢索;注1:即時檢索指的是檢索響應(yīng)達到秒級的檢索。d)應(yīng)支持交互式OLAP檢索、過濾檢索、多維分析檢索、實時檢索等多種場景的數(shù)據(jù)檢索;e)應(yīng)支持基于列組做算術(shù)運算的計算檢索;注2:算術(shù)運算指的是聚合函數(shù)與常量的運算。f)應(yīng)支持對全部或部分檢索結(jié)果按照一列或多列值的大小進行分組,值相等的為一組;g)應(yīng)支持并操作、交操作、差操作等集合檢索;h)應(yīng)支持從檢索結(jié)果中進行檢索;j)宜支持檢索的預聚合;注3:預聚合指的是常用的聚合檢索提前聚合。k)宜支持多種因素組合的過濾檢索;1)宜支持單個數(shù)據(jù)表的多個列組以及多個數(shù)據(jù)表間的關(guān)聯(lián)檢索;m)宜支持JSON等對象數(shù)據(jù)的查詢與檢索;n)宜支持跨分區(qū)并行檢索;o)宜支持基于大數(shù)據(jù)的準交互式檢索;p)宜支持子表檢索功能,對指定多個子表進行數(shù)據(jù)檢索。7(資料性)面向分析的數(shù)據(jù)存儲與檢索應(yīng)用示例A.1應(yīng)用場景根據(jù)本文件中規(guī)定的數(shù)據(jù)表、數(shù)據(jù)索引、數(shù)據(jù)存儲和數(shù)據(jù)檢索技術(shù)要求,以旅游行業(yè)大數(shù)據(jù)為例,進行相應(yīng)實踐應(yīng)用介紹。旅游數(shù)據(jù)存儲表結(jié)構(gòu)如圖A.1所示。旅游大數(shù)據(jù)是指與旅游行業(yè)的從業(yè)者及消費者有關(guān)的數(shù)據(jù),不僅涵蓋了景區(qū)、酒店、旅行社、導游、游客等旅游相關(guān)行業(yè)所產(chǎn)生的管理或業(yè)務(wù)數(shù)據(jù),還涉及互聯(lián)網(wǎng)數(shù)據(jù)、旅游氣象環(huán)保數(shù)據(jù)、交通數(shù)據(jù)、網(wǎng)絡(luò)輿情數(shù)據(jù)、運營商數(shù)據(jù)、旅游交易數(shù)據(jù)等旅游行業(yè)所產(chǎn)生的基礎(chǔ)資源信息。在對旅游大數(shù)據(jù)進行梳理、挖掘清洗、分析計算、共享交換、數(shù)據(jù)安全保護等前提下,還需要對旅游大數(shù)據(jù)進行多維融合存儲和檢等大量數(shù)據(jù)進行處理分析,輸出分析大數(shù)據(jù)報告,讓游客數(shù)據(jù)價值更直觀。A.2數(shù)據(jù)存儲旅游大數(shù)據(jù)的游客相關(guān)數(shù)據(jù)包含游客行為軌跡、駐留時長數(shù)據(jù)、運營商數(shù)據(jù)和旅游景區(qū)景點的WiFi數(shù)據(jù)。其中運營商由于其特殊的安全性要求,對外統(tǒng)一提供的是離線數(shù)據(jù)文件,數(shù)據(jù)內(nèi)容也是經(jīng)過處理后的粗粒度結(jié)果數(shù)據(jù);而WiFi數(shù)據(jù)為對接邊緣設(shè)備收集的實時細粒度明細數(shù)據(jù)。針對這兩類不同狀態(tài)和類型的數(shù)據(jù)需要做不同方式的數(shù)據(jù)存儲,具體的處理方法如下。a)數(shù)據(jù)導入與管理運營商數(shù)據(jù)包含景區(qū)客流量、景區(qū)逗留時長、景區(qū)省內(nèi)外客源、景區(qū)客流乘坐交通工具、基站客流量統(tǒng)計等多種類別的數(shù)據(jù)。由于運營商數(shù)據(jù)的提供方式為CSV文件,需要使用大數(shù)據(jù)的數(shù)據(jù)導入工具,自動根據(jù)數(shù)據(jù)結(jié)構(gòu)創(chuàng)建原始數(shù)據(jù)表,根據(jù)時間維度創(chuàng)建數(shù)據(jù)分區(qū)。WiFi數(shù)據(jù)包含移動終端信息、WiFi所處景點信息、WiFi終端廠商信息、實時信號強度、游客接入和離開時間信息。WiFi數(shù)據(jù)為實時回傳的數(shù)據(jù),具有數(shù)據(jù)量較大、數(shù)據(jù)回傳及時、數(shù)據(jù)信息內(nèi)容繁多等特點。在創(chuàng)建原始數(shù)據(jù)表時偏向使用結(jié)構(gòu)簡單的寬表,數(shù)據(jù)存儲以時間為主時序,以WiFi終端或景點作為分區(qū)維度。b)數(shù)據(jù)合并、分區(qū)與壓縮通過運營商數(shù)據(jù)中的景區(qū)逗留時長數(shù)據(jù)、景區(qū)客流量數(shù)據(jù)以及移動終端接入WiFi信號數(shù)據(jù)可以分析出游客在整個旅游過程中的行動軌跡和逗留時長,運營商數(shù)據(jù)可以描述游客的宏觀軌跡行為,WiFi數(shù)據(jù)可以描述游客的微觀軌跡行為。把宏觀與微觀的游客軌跡行為連接在一起需要對數(shù)據(jù)做融合處理,首先,根據(jù)游客游覽行為建立組織與管理數(shù)據(jù)表,并分別構(gòu)建運營商與WiFi信號的元數(shù)據(jù)信息子表。然后,根據(jù)景區(qū)景點信息建立維度區(qū)分表,形成以時間維度為連接點的WiFi信號數(shù)據(jù)與運營商數(shù)據(jù)融合的數(shù)據(jù)表,依據(jù)時間粒度的差異性,動態(tài)更新子表數(shù)據(jù)內(nèi)容。最后,在子表中構(gòu)建基于時間和景點地理信息的索引,并壓縮子表數(shù)據(jù)內(nèi)容。c)分析數(shù)據(jù)建模根據(jù)數(shù)據(jù)應(yīng)用需求建立數(shù)據(jù)業(yè)務(wù)模型。如景區(qū)景點游客駐留
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度餐飲業(yè)節(jié)能減排入股協(xié)議
- 2025年度購房定金支付及違約責任協(xié)議
- 二零二五年度商業(yè)地產(chǎn)市場調(diào)研評估委托合同
- 二零二五年度餐飲行業(yè)掛靠合作經(jīng)營合同
- 二零二五年度三年期勞動合同漲薪與績效考核體系合同
- 二零二五年度自來水供應(yīng)與用水戶信息公開合同
- 二零二五年度個人債權(quán)轉(zhuǎn)讓合同模板(智能穿戴設(shè)備債權(quán)整合)
- 二零二五年度新能源汽車企業(yè)職工招聘與產(chǎn)業(yè)鏈整合合同
- 二零二五年度手房銀行按揭購房服務(wù)合同
- 2025年吉林市貨運車從業(yè)考試題
- 約定工資結(jié)清協(xié)議書(2篇)
- 天津地區(qū)高考語文五年高考真題匯編-語言文字應(yīng)用
- 湖北省荊州市英語初一上學期期末試題與參考答案(2024年)
- 鶴壁海格龍升3萬噸溴系列新材料產(chǎn)品環(huán)評資料環(huán)境影響
- 電梯日管控、周排查、月調(diào)度內(nèi)容表格
- 道路運輸企業(yè)兩類人員安全考核試題及答案
- 衛(wèi)生技術(shù)人員準入制度
- 2024屆全國新高考英語復習-讀后續(xù)寫微寫作
- 顳下頜關(guān)節(jié)疾?。谇活M面外科學課件)
- 2025屆福建廈門雙十中學高一數(shù)學第一學期期末經(jīng)典模擬試題含解析
- 中考語文一輪專題復習:詩歌鑒賞中常見的意象(共32張課件)
評論
0/150
提交評論