工業(yè)數(shù)據(jù)流通 數(shù)據(jù)清洗規(guī)范_第1頁
工業(yè)數(shù)據(jù)流通 數(shù)據(jù)清洗規(guī)范_第2頁
工業(yè)數(shù)據(jù)流通 數(shù)據(jù)清洗規(guī)范_第3頁
工業(yè)數(shù)據(jù)流通 數(shù)據(jù)清洗規(guī)范_第4頁
工業(yè)數(shù)據(jù)流通 數(shù)據(jù)清洗規(guī)范_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS25.040.40CCSL7021遼寧省市場監(jiān)督管理局發(fā)布IDB21/T3893—2023前言 2規(guī)范性引用文件 3術語和定義 4縮略語 5清洗目的 6清洗范圍 7過程要求 7.1清洗流程 7.2數(shù)據(jù)抽取 7.3定義規(guī)則 7.4數(shù)據(jù)過濾 7.5數(shù)據(jù)校驗 7.6錯誤標識 7.7修正處理 7.8數(shù)據(jù)轉換 7.9結果檢驗 7.10數(shù)據(jù)加載 8環(huán)境要求 8.1數(shù)據(jù)脫敏 8.2數(shù)據(jù)安全 8.3人員能力 9質量要求 參考文獻 DB21/T3893—2023本文件按照GB/T1.1-2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定起請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別專利的責任。本文件由遼寧省工業(yè)和信息化廳提出并歸口。本文件起草單位:沈陽華睿博信息技術有限公司、國家計算機網(wǎng)絡應急技術處理協(xié)調中心遼寧分中心、遼寧艾特斯智能交通技術有限公司、遼寧職業(yè)學院、東北大學、上海數(shù)據(jù)交易所、遼寧省大數(shù)據(jù)管理中心、北京賽迪時代信息產(chǎn)業(yè)股份有限公司、遼寧省先進裝備制造業(yè)基地建設工程中心。本文件主要起草人:邵華、李凱、黃書鵬、王宇飛、宋憲輝、王義剛、申翔宇、譚振華、楊成實、張翔宇、魏國偉、劉洋。本文件發(fā)布實施后,任何單位和個人如有問題和意見建議,均可以通過來電和來函等方式進行反饋,我們將及時答復并認真處理,根據(jù)實際情況依法進行評估及復審。歸口管理部門通信地址:沈陽市遼寧省沈陽市皇姑區(qū)北陵大街45-2號。歸口管理部門聯(lián)系電話文件起草單位通訊地址:遼寧省沈陽市和平區(qū)青年大街386號華陽國際大廈2396。文件起草單位聯(lián)系電話1DB21/T3893—2023工業(yè)數(shù)據(jù)流通數(shù)據(jù)清洗規(guī)范本文件規(guī)定了工業(yè)數(shù)據(jù)清洗的過程要求、環(huán)境要求和質量要求。本文件適用于數(shù)據(jù)流通中的工業(yè)數(shù)據(jù)清洗。2規(guī)范性引用文件下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T22239-2019信息安全技術網(wǎng)絡安全等級保護基本要求GB/T35274-2017信息安全技術大數(shù)據(jù)服務安全能力要求GB/T35295-2017信息技術大數(shù)據(jù)術語GB/T37973-2019信息安全技術大數(shù)據(jù)安全管理指南GB/T39477-2020信息安全技術政務信息共享數(shù)據(jù)安全技術要求GB/T42128-2022智能制造工業(yè)數(shù)據(jù)分類原則DA/T82-2019基于文檔型非關系型數(shù)據(jù)庫的檔案數(shù)據(jù)存儲規(guī)范3術語和定義下列術語和定義適用于本文件。3.1數(shù)據(jù)清洗datacleaning運用一定方法識別并修正數(shù)據(jù)問題,提高數(shù)據(jù)質量的過程。3.2工業(yè)數(shù)據(jù)industrialdata在工業(yè)領域中,涉及企業(yè)的所有生產(chǎn)活動和服務所產(chǎn)生的數(shù)據(jù)。[來源:GB/T42128-2022,3.1.1]3.3結構化數(shù)據(jù)structureddata一種數(shù)據(jù)表示形式,按此種形式,由數(shù)據(jù)元素匯集而成的每個記錄的結構都是一致的并且可以使用關系模型予以有效描述。[來源:GB/T35295-2017,2.2.13]3.4非結構化數(shù)據(jù)unstructureddata不具有預定義模型或未以預定義方式組織的數(shù)據(jù)。[來源:GB/T35295-2017,2.1.25]2DB21/T3893—20233.5半結構化數(shù)據(jù)semi-structureddata具有結構性,但結構變化大,且難以用結構化數(shù)據(jù)的處理方法將其放進二維表的數(shù)據(jù)。[來源:DA/T82-2019,2.8]3.6表結構tablestructure為主體層內容提供表示語義的一種存儲范例。[來源:GB/T35295-2017,2.2.14]3.7敏感數(shù)據(jù)sensitivedata由權威機構確定的受保護的信息數(shù)據(jù)。[來源:GB/T35295-2017,2.2.14]4縮略語下列縮略語適用于本文件。ETL:數(shù)據(jù)的抽取、轉換、加載(ExtractTransformLoad)5清洗目的工業(yè)數(shù)據(jù)涉及到各種傳感器、監(jiān)測設備和生產(chǎn)設備,具有多樣性和異構性,由于傳感器和設備的不穩(wěn)定性、及環(huán)境變化等因素影響,工業(yè)數(shù)據(jù)中存在大量錯誤數(shù)據(jù)、缺失數(shù)據(jù)和異常數(shù)據(jù)。工業(yè)數(shù)據(jù)清洗目的是清除或修正錯誤數(shù)據(jù)、缺失數(shù)據(jù)、異常數(shù)據(jù)或其他有問題的數(shù)據(jù),提高工業(yè)數(shù)據(jù)在建模分析、應用開發(fā)、資源調度和監(jiān)測管理等方面的應用價值,保障流通的工業(yè)數(shù)據(jù)質量。6清洗范圍清洗范圍涵蓋工業(yè)領域產(chǎn)品和服務全生命周期產(chǎn)生和應用的數(shù)據(jù),包括但不限于工業(yè)企業(yè)在研發(fā)設計、生產(chǎn)制造、供應鏈物流、營銷、運維、管理及金融等環(huán)節(jié)中生成和使用的數(shù)據(jù),以及工業(yè)互聯(lián)網(wǎng)平臺企業(yè)在設備接入、平臺運行、工業(yè)應用程序使用等過程中生成和使用的數(shù)據(jù)。各類型數(shù)據(jù)說明如下:a)研發(fā)設計數(shù)據(jù):包括研發(fā)設計數(shù)據(jù)、開發(fā)測試數(shù)據(jù)等;b)生產(chǎn)制造數(shù)據(jù):包括控制信息、工況狀態(tài)、工藝參數(shù)、系統(tǒng)日志、生產(chǎn)質量數(shù)據(jù)、生產(chǎn)實績數(shù)據(jù)c)供應鏈物流數(shù)據(jù):包括供需計劃數(shù)據(jù)、倉儲物流數(shù)據(jù)等;d)營銷數(shù)據(jù):包括投標次數(shù)、訂單數(shù)量、交易金融、客戶異議數(shù)據(jù)等;e)運維數(shù)據(jù):包括產(chǎn)品運行狀況數(shù)據(jù)、產(chǎn)品售后服務數(shù)據(jù)等;f)管理數(shù)據(jù):包括客戶基本信息、業(yè)務合作數(shù)據(jù)、人事財務數(shù)據(jù)、系統(tǒng)設備資產(chǎn)信息、產(chǎn)品基本信息、項目進度數(shù)據(jù)、業(yè)務統(tǒng)計數(shù)據(jù)(如資源量數(shù)據(jù)、能耗監(jiān)測數(shù)據(jù)等g)金融數(shù)據(jù):包括信貸數(shù)據(jù)、融資租賃數(shù)據(jù)、征信數(shù)據(jù)等;3DB21/T3893—2023h)平臺運營數(shù)據(jù):接入的設備數(shù)據(jù)、工業(yè)模型數(shù)據(jù)、工業(yè)應用程序數(shù)據(jù)、平臺運行數(shù)據(jù)等。7過程要求7.1清洗流程工業(yè)數(shù)據(jù)清洗流程包括數(shù)據(jù)抽取、定義規(guī)則、數(shù)據(jù)過濾、數(shù)據(jù)校驗、錯誤標識、修正處理、數(shù)據(jù)轉換、結果檢驗及數(shù)據(jù)加載等環(huán)節(jié)。工業(yè)數(shù)據(jù)清洗可采取ETL流程。工業(yè)數(shù)據(jù)清洗ETL流程圖見圖1。圖1工業(yè)數(shù)據(jù)清洗ETL流程圖7.2數(shù)據(jù)抽取數(shù)據(jù)抽取應符合以下要求:a)應具備全量抽取和增量抽取兩種方式;b)數(shù)據(jù)抽取來源應能支撐抽取操作,使用生產(chǎn)庫,或通過前置庫等方式進行抽?。籧)應支持結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)等不同類型數(shù)據(jù)的抽取;d)數(shù)據(jù)抽取目的地的存儲容量應能支持數(shù)據(jù)抽取來源的數(shù)據(jù)總量,數(shù)據(jù)抽取目的地的表結構應與數(shù)據(jù)抽取來源的表結構保持一致;e)增量抽取應確定增量更新的方式,抽取的數(shù)據(jù)應有字段可區(qū)分,如更新時間等。7.3定義規(guī)則4DB21/T3893—2023應分析抽取目標數(shù)據(jù)的范圍、體量、類型、內容、關系、質量等信息,全面認識數(shù)據(jù)情況。數(shù)據(jù)清洗針對的對象主要有缺失值、異常值、重復值和無用值,針對不同對象的不同形式,結合應用需求,確定數(shù)據(jù)清洗目標和規(guī)則,從而得到期望的數(shù)據(jù)。針對不同的清洗對象,清洗規(guī)則包括:a)缺失值清洗:按照缺失比例和缺失字段重要性,制定清洗策略;b)異常值清洗:針對取值錯誤、格式錯誤和邏輯錯誤制定不同的清洗策略;c)重復值:重復數(shù)據(jù)可以去重或作出標記;d)無用值:無用數(shù)據(jù)字段可以直接進行刪除。但在進行該過程的時候,要注意備份原始數(shù)據(jù)。7.4數(shù)據(jù)過濾數(shù)據(jù)過濾應包括以下操作:a)將非結構化數(shù)據(jù)和半結構化數(shù)據(jù)轉換為結構化數(shù)據(jù);b)對噪聲數(shù)據(jù)進行刪除;c)對業(yè)務數(shù)據(jù)中不符合應用規(guī)則的數(shù)據(jù)進行刪除;d)過濾刪除掉的數(shù)據(jù)應存入問題數(shù)據(jù)庫表,便于后續(xù)查證或重新使用。7.5數(shù)據(jù)校驗7.5.1基本要求應對工業(yè)數(shù)據(jù)進行非空校驗、長度校驗、數(shù)據(jù)量校驗、數(shù)據(jù)類型和值校驗。當不滿足校驗要求時,應進行數(shù)據(jù)錯誤標識;當滿足校驗要求時,直接進行數(shù)據(jù)轉換。7.5.2非空校驗應在字段為非空的情況下,對該字段數(shù)據(jù)進行校驗,數(shù)據(jù)不能為空值。7.5.3長度校驗數(shù)據(jù)長度應滿足轉換要求的字段長度。7.5.4數(shù)據(jù)量校驗過濾后的數(shù)據(jù)總量應與原始抽取的數(shù)據(jù)總量吻合。7.5.5數(shù)據(jù)類型和值校驗數(shù)據(jù)類型和值應能支持后續(xù)數(shù)據(jù)轉換過程,如后續(xù)根據(jù)定義規(guī)則需要將時間字符串數(shù)據(jù)轉換成時間類型時,還需檢驗時間字符串類型的數(shù)據(jù)是否符合時間格式。7.6錯誤標識7.6.1錯誤類型工業(yè)數(shù)據(jù)的錯誤類型包括但不限于:a)殘缺數(shù)據(jù):缺一些記錄,或一條記錄里缺一些值(空值),或兩者都缺;b)錯誤數(shù)據(jù):數(shù)據(jù)沒有嚴格按照規(guī)范記錄,包括格式內容錯誤、邏輯錯誤、不合規(guī)等;c)重復數(shù)據(jù):相同的記錄出現(xiàn)多條或多條記錄代表同一實體。7.6.2識別方法5DB21/T3893—2023可采用統(tǒng)計學方法、數(shù)據(jù)挖掘、基于聚類的方法、基于距離的方法、基于分類的方法、基于關聯(lián)規(guī)則的方法、業(yè)務區(qū)分等方式分析數(shù)據(jù),從而識別出數(shù)據(jù)的錯誤類型。7.6.3標識步驟錯誤標識步驟如下:a)按7.6.2推薦的識別方法,分析篩選出工業(yè)數(shù)據(jù)資源中存在的數(shù)據(jù)問題;b)按7.6.1給出的錯誤類型,對數(shù)據(jù)問題進行分類,標識錯誤。7.7修正處理7.7.1殘缺數(shù)據(jù)處理7.7.1.1處理策略殘缺數(shù)據(jù)按照字段缺失率和字段重要性,分別制定處理策略。殘缺數(shù)據(jù)處理策略制定應滿足以下內容:a)重要性高、缺失率低:通過計算進行填充;通過經(jīng)驗或業(yè)務知識估計;b)重要性高、缺失率高:嘗試從其他渠道取數(shù)補全;使用其他字段通過計算獲取;去除字段并在結果中標明;c)重要性低、缺失率低:不做處理或簡單填充;d)重要性低、缺失率高:去除該字段。7.7.1.2去除字段處理數(shù)據(jù)中如有多余字段,應備份當前數(shù)據(jù),直接刪除掉不需要的字段。7.7.1.3填充缺失內容處理應采用以下方式填充缺失內容:a)同指標的計算結果填充:通過數(shù)據(jù)項與數(shù)據(jù)項之間的邏輯聯(lián)系,采取一定的列項拆分、列計算等方式得到缺失內容;b)同一指標的計算結果填充:采取均值、中位數(shù)、眾數(shù)等方式進行填充;c)重新獲?。寒斎笔矢咔曳浅V匾臄?shù)據(jù)項,應采取重新抽取不同數(shù)據(jù)源的數(shù)據(jù)進行關聯(lián)對比填7.7.1.4取數(shù)補全處理應通過線下收集、業(yè)務知識或經(jīng)驗推測補全缺失值。7.7.2錯誤數(shù)據(jù)處理7.7.2.1格式內容問題處理格式內容問題數(shù)據(jù)處理應采用以下方法:a)全、半角處理:通過正則表達式將全、半角符號按照事先定義的規(guī)則進行全、半角符號統(tǒng)一;b)有不該存在的字符:以半自動校驗結合半人工方式來找出存在的問題,自動去除不需要的字符,將數(shù)據(jù)自動化統(tǒng)一或人工修正為正確字符;c)內容與字段不匹配:詳細識別問題類型,如人工填寫錯誤、前端沒有校驗、導入數(shù)據(jù)時部分或全部存在列沒有對齊、數(shù)據(jù)源端業(yè)務系統(tǒng)缺陷等,不能直接刪除,應按照清洗規(guī)則,采取加入更多數(shù)據(jù)源進行數(shù)據(jù)關聯(lián),找到匹配的相應字段進行填補。7.7.2.2邏輯問題處理6DB21/T3893—2023邏輯問題數(shù)據(jù)處理應采用以下方法:a)了解數(shù)據(jù)潛在的邏輯規(guī)則,采取邏輯推理法,直接去掉一些使用簡單邏輯推理即可發(fā)現(xiàn)問題的數(shù)據(jù);b)對于不重要的不合理數(shù)據(jù)應過濾,形成錯誤數(shù)據(jù)集由數(shù)源部門進行確認是否可刪除;c)通過字段間相互驗證的方法修正矛盾內容,如根據(jù)字段的數(shù)據(jù)來源,判定哪個字段提供的信息更可靠,去除或重構不可靠字段;d)通過分箱、聚類、回歸等方法識別離群值(異常值),按照經(jīng)驗和業(yè)務流程判斷其合理性,若合理,則保留該數(shù)值;若不合理,對重要性較高而無法重新采集的數(shù)值,按缺失數(shù)據(jù)處理,對重要性較低的數(shù)值,可直接刪除;e)對于復雜邏輯數(shù)據(jù)問題應咨詢了解該數(shù)據(jù)的產(chǎn)生原因,按照協(xié)商的清洗加工規(guī)則進行處理。7.7.2.3不合規(guī)問題處理不合規(guī)問題數(shù)據(jù)處理應采用以下方法:a)設定判定規(guī)則:設定強制合規(guī)條件,對于不在規(guī)則范圍內的數(shù)據(jù),應強制設置最大值及最小值,或剔除、判斷為無效字段;b)設定警告規(guī)則:對于不在規(guī)則范圍內的數(shù)據(jù),應進行警告及人工處理。7.7.3重復數(shù)據(jù)處理重復數(shù)據(jù)處理步驟如下:a)通過元數(shù)據(jù)血緣關系查詢到重復數(shù)據(jù)的各個來源;b)通過數(shù)據(jù)主鍵或尋找相關信息識別重復數(shù)據(jù)的含義,不是相同含義的數(shù)據(jù)不能界定為重復數(shù)據(jù)進行去重處理,應分別保留;c)查詢到確定的重復數(shù)據(jù),根據(jù)權威性和應用場合,選擇最恰當渠道來源的數(shù)據(jù),或在不影響數(shù)據(jù)保真度和完整性的情況下進行合并處理。7.8數(shù)據(jù)轉換數(shù)據(jù)轉換應符合以下要求:a)數(shù)據(jù)轉換應在數(shù)據(jù)校驗通過后開始;b)數(shù)據(jù)轉換開始前應檢查需要轉換的數(shù)據(jù)規(guī)則和字段是否一致;c)應實現(xiàn)對數(shù)據(jù)的格式、信息代碼、值的沖突進行轉換;1)將各類日期統(tǒng)一轉換為八位的字符日期,如YYYYMMDD。2)將各類時間統(tǒng)一轉換為六位的字符時間,如HHMMSS。3)將各類時序數(shù)據(jù)的時間日期統(tǒng)一轉換為十四位的字符時間日期,如YYYYMMDDHHMMSS。1)將人員性別數(shù)據(jù)統(tǒng)一轉換為國際性別信息代碼。2)將組織地址數(shù)據(jù)統(tǒng)一轉換為行政區(qū)劃代碼。3)將組織名稱統(tǒng)一轉換為統(tǒng)一社會信用代碼。d)轉換后的數(shù)據(jù)結構應與目標數(shù)據(jù)庫的結構相兼容;e)數(shù)據(jù)向目標移動時,將其從源數(shù)據(jù)中移除,或數(shù)據(jù)復制到多個目標中;f)轉換失敗應立即停止,開始查找問題;g)長時間未轉換結束,需仔細核查數(shù)據(jù)量、規(guī)則和字段是否一致,如有問題應立即停止;h)應在解決查找到的問題后再開始數(shù)據(jù)轉換。7.9結果檢驗7DB21/T3893—20237.9.1檢驗內容檢驗內容應包括:a)主鍵重復:檢驗多個業(yè)務系統(tǒng)中同類數(shù)據(jù)經(jīng)過清洗后,在統(tǒng)一保存時,主鍵的唯一性;b)非法代碼、非法值:檢查個別字段出現(xiàn)的異常信息,包括非法代碼、代碼與數(shù)據(jù)標準不一致、取值錯誤、格式錯誤、多余字符、亂碼等;c)數(shù)據(jù)格式:檢驗表中屬性值的格式是否正確,衡量其準確性,如時間格式、幣種格式、業(yè)務部門格式、物料格式等;d)記錄數(shù):檢驗各個系統(tǒng)相關數(shù)據(jù)之間的數(shù)據(jù)總數(shù)或檢驗數(shù)據(jù)表中每日數(shù)據(jù)量的波動;e)業(yè)務約束:應從業(yè)務的角度檢驗數(shù)據(jù)的正確性、一致性、有效性等,如出(入)庫日期、客戶(供應商)基本信息、設備運行信息等;f)標準約束:對照系統(tǒng)數(shù)據(jù)應符合的標準進行校驗。7.9.2結果要求7.9.2.1規(guī)范性數(shù)據(jù)的質量及存儲標準應統(tǒng)一,源數(shù)據(jù)應在源頭或備份表中能找到,數(shù)據(jù)在字段、記錄內容或數(shù)據(jù)集內不應有重復值。7.9.2.2完整性數(shù)據(jù)集合中應包含足夠的數(shù)據(jù)來響應各種查詢和支持各種計算。數(shù)據(jù)完整性體現(xiàn)在以下方面:a)元數(shù)據(jù)的完整性,例如:唯一性約束完整性、參照完整性等;b)數(shù)據(jù)條目完整性,例如:數(shù)據(jù)記錄丟失或不可用會影響數(shù)據(jù)的完整性等;c)數(shù)據(jù)屬性完整性,例如:數(shù)據(jù)屬性空值情況等。7.9.2.3準確性數(shù)據(jù)所指內容對數(shù)據(jù)所指對象的反應、表現(xiàn)應準確,數(shù)據(jù)形式對數(shù)據(jù)內容的表述、表達應準確。7.9.2.4一致性數(shù)據(jù)一致性應符合以下要求:a)同一個數(shù)據(jù)在同一時刻在不同數(shù)據(jù)庫、應用和系統(tǒng)中應只有一個值;b)數(shù)據(jù)字段內數(shù)據(jù)應與字段描述一致;c)最終結果數(shù)據(jù)的統(tǒng)計量應與預測一致;d)數(shù)據(jù)項應在取值范圍、單位、精度等方面保持一致。7.9.2.5時效性不同類型的應用對數(shù)據(jù)的時間特性有不同的要求,數(shù)據(jù)的時間特性應滿足業(yè)務應用的要求,數(shù)據(jù)記錄應根據(jù)時間特性及時更新。7.9.2.6可訪問性數(shù)據(jù)來源穩(wěn)定,數(shù)據(jù)結果應支撐后續(xù)業(yè)務。7.9.3檢驗步驟結果檢驗應包括以下步驟:a)按7.9.1規(guī)定檢驗清洗加工后的數(shù)據(jù)資源情況;8DB21/T3893—2023b)按7.9.2要求核對數(shù)據(jù)資源達標情況;c)當數(shù)據(jù)資源未達到7.9.2要求,應返回再次進行數(shù)據(jù)轉換;d)當數(shù)據(jù)資源達到7.9.2要求,應進行數(shù)據(jù)加載或結束數(shù)據(jù)清洗。7.10數(shù)據(jù)加載數(shù)據(jù)加載應滿足以下要求:a)數(shù)據(jù)價值方式應匹配數(shù)據(jù)抽取方式,包含全量加載、增量加載,如海量數(shù)據(jù)、數(shù)據(jù)變化比較規(guī)律、變化數(shù)據(jù)相對總量較小、業(yè)務系統(tǒng)能直接提供增量數(shù)據(jù)時,宜使用增量加載;b)數(shù)據(jù)加載環(huán)境應能支撐相應數(shù)據(jù);c)數(shù)據(jù)加載工具具有高效的加載性能,應能至少滿足業(yè)務需求;d)數(shù)據(jù)加載策略應考慮數(shù)據(jù)加載周期和數(shù)據(jù)追加策略;e)數(shù)據(jù)加載應記錄日志,并按相關規(guī)定留存日志文件;f)數(shù)據(jù)加載過程可根據(jù)實際操作情況,在定義規(guī)則過程前進行。8環(huán)境要求8.1數(shù)據(jù)脫敏8.1.1脫敏流程應在保證敏感信息不被泄露的環(huán)境下進行工業(yè)數(shù)據(jù)清洗,工業(yè)數(shù)據(jù)脫敏工作流程包括發(fā)現(xiàn)敏感數(shù)據(jù)、標識敏感數(shù)據(jù)、確定脫敏方法、定義脫敏規(guī)則、執(zhí)行脫敏操作和評估脫敏效果等環(huán)節(jié)。8.1.2發(fā)現(xiàn)敏感數(shù)據(jù)基于工業(yè)數(shù)據(jù)分類分級制度,在完整的數(shù)據(jù)范圍內查找并發(fā)現(xiàn)敏感數(shù)據(jù),并明確敏感數(shù)據(jù)結構化或非結構化的數(shù)據(jù)表現(xiàn)形態(tài),如敏感數(shù)據(jù)固定的字段格式。在發(fā)現(xiàn)敏感數(shù)據(jù)過程中,應滿足以下內容:a)定義數(shù)據(jù)脫敏工作執(zhí)行的范圍,應在該范圍內執(zhí)行敏感數(shù)據(jù)的發(fā)現(xiàn)工作;b)應通過對數(shù)據(jù)表名稱、字段名稱、數(shù)據(jù)記錄內容、數(shù)據(jù)表備注、數(shù)據(jù)文件內容等直接匹配或正則表達式匹配發(fā)現(xiàn)敏感數(shù)據(jù);c)宜考慮數(shù)據(jù)引用的完整性,如保證數(shù)據(jù)庫的引用完整性約束;d)數(shù)據(jù)發(fā)現(xiàn)手段應支持主流的數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)、文件系統(tǒng),同時應支持云計算環(huán)境下的主流新型存儲系統(tǒng);e)宜利用自動識別工具執(zhí)行數(shù)據(jù)發(fā)現(xiàn)工作,并降低該過程對生產(chǎn)系統(tǒng)的影響;f)數(shù)據(jù)發(fā)現(xiàn)工具應具有擴展機制,可根據(jù)業(yè)務需要自定義敏感數(shù)據(jù)的發(fā)現(xiàn)邏輯;g)應固化常用的敏感數(shù)據(jù)發(fā)現(xiàn)規(guī)則,例如身份證號、手機號等敏感數(shù)據(jù)的發(fā)現(xiàn)規(guī)則,避免重復定義數(shù)據(jù)發(fā)現(xiàn)規(guī)則。8.1.3標識敏感數(shù)據(jù)在發(fā)現(xiàn)敏感數(shù)據(jù)后,應對敏感數(shù)據(jù)進行標識,包括標識敏感數(shù)據(jù)的位置、敏感數(shù)據(jù)的格式等信息。敏感數(shù)據(jù)的標識方法應確保敏感數(shù)據(jù)標識信息能夠隨敏感數(shù)據(jù)一起流動,并不易于刪除和篡改,從而可以對敏感數(shù)據(jù)的訪問、傳輸和處理進行跟蹤和監(jiān)督,以確保敏感數(shù)據(jù)的安全合規(guī)性。在標識敏感數(shù)據(jù)時,應滿足以下內容:a)應盡早在數(shù)據(jù)的收集階段就對敏感數(shù)據(jù)進行識別和標識,這樣便于在數(shù)據(jù)的整個生命周期階段對敏感數(shù)據(jù)進行有效管理;9DB21/T3893—2023b)敏感數(shù)據(jù)的標識方法應考慮便捷性和安全性,使得標識后的數(shù)據(jù)很容易被識別,同時,要確保敏感數(shù)據(jù)標識信息不容易被惡意攻擊者刪除和篡改;c)敏感數(shù)據(jù)的標識方法應支持靜態(tài)數(shù)據(jù)的敏感標識及動態(tài)流數(shù)據(jù)的敏感標識。8.1.4確定脫敏方法可選的數(shù)據(jù)脫敏方法包括靜態(tài)數(shù)據(jù)脫敏和動態(tài)數(shù)據(jù)脫敏。不同的數(shù)據(jù)脫敏方法對數(shù)據(jù)源的影響不同,脫敏的時效性也不一樣。脫敏方法確定后,可選擇對應的數(shù)據(jù)脫敏工具。在確定數(shù)據(jù)脫敏方案時,應滿足以下內容:a)靜態(tài)數(shù)據(jù)脫敏方法是對原始數(shù)據(jù)進行一次脫敏,脫敏后的結果數(shù)據(jù)可以多次使用,適合使用場景比較單一的場合;b)動態(tài)數(shù)據(jù)脫敏方法是在敏感數(shù)據(jù)顯示時,針對不同用戶需求,對顯示數(shù)據(jù)進行屏蔽處理的數(shù)據(jù)脫敏方式,它要求系統(tǒng)有安全措施確保用戶不能夠繞過數(shù)據(jù)脫敏層次直接接觸敏感數(shù)據(jù)。動態(tài)數(shù)據(jù)脫敏適合用戶需求不確定、使用場景復雜的情形。8.1.5定義脫敏規(guī)則在敏感數(shù)據(jù)生命周期識別的基礎上,應明確存在數(shù)據(jù)脫敏需求的業(yè)務場景,并結合行業(yè)法規(guī)的要求和業(yè)務場景的需求,制定相應業(yè)務場景下有效的數(shù)據(jù)脫敏規(guī)則。在定義脫敏規(guī)則過程中,應滿足以下內容:a)應遵循的個人隱私保護、數(shù)據(jù)安全保護等關鍵領域的國內外法規(guī)、行業(yè)監(jiān)管規(guī)范或標準,以此作為數(shù)據(jù)脫敏規(guī)則必須遵循的原則;b)對已識別出的敏感數(shù)據(jù)執(zhí)行全生命周期(產(chǎn)生、采集、使用、交換、銷毀)流程的梳理,應明確在全生命周期各階段,用戶對數(shù)據(jù)的訪問需求和當前的權限設置情況,分析整理出存在數(shù)據(jù)脫敏需求的業(yè)務場景。例如,在梳理過程中,會發(fā)現(xiàn)存在對敏感數(shù)據(jù)的訪問需求和訪問權限不匹配的情況(用戶僅需獲取敏感數(shù)據(jù)中部分內容即可,但卻擁有對敏感數(shù)據(jù)內容全部的訪權限),因此該業(yè)務場景存在敏感數(shù)據(jù)的脫敏需求;c)分析存在數(shù)據(jù)脫敏需求的業(yè)務場景,在“最小夠用”的原則下明確待脫敏的數(shù)據(jù)內容、符合業(yè)務需求的脫敏方式,以及該業(yè)務的服務水平方面的要求,以便于脫敏規(guī)則的制定;d)數(shù)據(jù)脫敏工具應提供擴展機制,從而讓用戶可根據(jù)需求自定義脫敏的方法;e)通過數(shù)據(jù)脫敏工具選擇數(shù)據(jù)脫敏方法時,脫敏工具中應對各類方法的使用進行詳細的說明,說明應包括但不限于規(guī)則的實現(xiàn)原理、數(shù)據(jù)引用完整性影響、數(shù)據(jù)語義完整性影響、數(shù)據(jù)分布頻率影響、約束和限制等,以支撐脫敏工具的使用者在選擇脫敏方式時做出正確的選擇;f)應固化常用的敏感數(shù)據(jù)脫敏規(guī)則,例如身份證號、手機號等的常用脫敏規(guī)則,避免數(shù)據(jù)脫敏項目實施過程中重復定義數(shù)據(jù)脫敏規(guī)則。8.1.6執(zhí)行脫敏操作數(shù)據(jù)脫敏操作可包括條數(shù)據(jù)脫敏和塊數(shù)據(jù)脫敏。條數(shù)據(jù)脫敏是對單條數(shù)據(jù)根據(jù)脫敏規(guī)則實施脫敏,塊數(shù)據(jù)脫敏是對聚合數(shù)據(jù)實施脫敏。在日常的脫敏工作中,監(jiān)控分析數(shù)據(jù)脫敏過程的穩(wěn)定性、以及對業(yè)務的影響性,同時對脫敏工作開展定期的安全審計,已發(fā)現(xiàn)脫敏工作中存在的安全風險。在執(zhí)行脫敏操作過程中,應滿足以下內容:a)支持從數(shù)據(jù)源克隆數(shù)據(jù)到新環(huán)境(例如從生產(chǎn)環(huán)境、備份庫克隆數(shù)據(jù)到新環(huán)境),并在新環(huán)境中進行脫敏過程的執(zhí)行,也支持在數(shù)據(jù)源端直接進行脫敏;b)對脫敏任務的管理,宜考慮采用自動化管理的方式提升任務管理效率,例如定時、條件設置的方式觸發(fā)脫敏任務的執(zhí)行;c)執(zhí)行對脫敏任務的運行監(jiān)控,宜考慮任務執(zhí)行的穩(wěn)定性以及脫敏任務對業(yè)務的影響;10DB21/T3893—2023d)設置專人定期對數(shù)據(jù)脫敏的相關日志記錄進行安全審計,發(fā)布審計報告,并跟進審計中發(fā)現(xiàn)的例外和異常,審計應重點關注高權限賬號的操作日志和脫敏工作的記錄日志。8.1.7評估脫敏效果通過收集、整理數(shù)據(jù)脫敏工作執(zhí)行的數(shù)據(jù),例如相關監(jiān)控數(shù)據(jù)、審計數(shù)據(jù),對數(shù)據(jù)脫敏的前期工作開展情況進行反饋,從而優(yōu)化相關規(guī)程,明確數(shù)據(jù)脫敏過程中應滿足的內容。在評估脫敏效果過程中,應滿足以下內容:a)利用測試工具評估脫敏后數(shù)據(jù)對應用系統(tǒng)的功能、性能影響,從而明確對整體業(yè)務服務水平的影響,測試負載宜盡量保證與生產(chǎn)環(huán)境一致,宜盡量提供從生產(chǎn)環(huán)境克隆數(shù)據(jù)訪問負載到脫敏系統(tǒng)進行回放測試的功能;b)應根據(jù)組織業(yè)務發(fā)展的情況和脫敏工作執(zhí)行的反饋,優(yōu)化數(shù)據(jù)脫敏工作開展的規(guī)程。8.2數(shù)據(jù)安全應在與互聯(lián)網(wǎng)隔絕的安全環(huán)境下清洗工業(yè)數(shù)據(jù),環(huán)境應支持數(shù)據(jù)可存儲、可轉化,工業(yè)數(shù)據(jù)清洗應符合GB/T22239-2019、GB/T35274-2017和GB/T37973-2019的相關要求,確保工業(yè)數(shù)據(jù)的保密性和完整性。8.3人員能力工業(yè)數(shù)據(jù)清洗人員應經(jīng)過相應的技術和安全培訓,具有數(shù)據(jù)清洗的能力,取得相關業(yè)務領域的數(shù)據(jù)管理認證資格,并能按照數(shù)據(jù)安全管理相關制度完成工業(yè)數(shù)據(jù)清洗工作。9質量要求清洗后的工業(yè)數(shù)據(jù)應符合數(shù)據(jù)流通的質量管理要求,工業(yè)數(shù)據(jù)質量特性包括

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論