大數據管理與應用概論 課件 第五章 大數據質量管理方法_第1頁
大數據管理與應用概論 課件 第五章 大數據質量管理方法_第2頁
大數據管理與應用概論 課件 第五章 大數據質量管理方法_第3頁
大數據管理與應用概論 課件 第五章 大數據質量管理方法_第4頁
大數據管理與應用概論 課件 第五章 大數據質量管理方法_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

5.1數據質量概述數據質量的概念對數據質量的研究始于上世紀國外,許多學者對數據質量提出了不同的定義,但至今學者在數據質量的定義上尚未達成共識。國外學者Tayi等將“數據質量”定義為“數據適于使用的程度”,并提出數據質量判斷取決于數據消費者,即數據質量是數據為滿足業(yè)務需求和數據消費者使用目的所具備的適合度或適用性。數據質量的定義數據質量的可變性數據質量與特定環(huán)境、特定目標和特定的初始條件密切相關強調數據質量與數據生命周期的階段或過程高度耦合數據質量的概念數據質量管理是對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發(fā)的各類數據質量問題,進行識別、度量、監(jiān)控、預警等一系列管理活動,并通過改善組織的管理水平以進一步提高數據質量。計劃獲取存儲共享維護應用消亡數據生命周期識別度量監(jiān)控預警···數據質量管理的必要性數據是每個組織在競爭時代賴以生存的基礎,是處理各種業(yè)務功能的應用程序和系統(tǒng)的基礎。數據質量在組織中起著至關重要的作用:高質量數據客戶服務運營效率業(yè)務規(guī)劃戰(zhàn)略決策有效管理價值回報數據質量決定數據作為一種資產所具備的價值。高質量數據通過滿足用戶需求來提升客戶的滿意度。高質量數據可以顯著提高組織收入和利潤。數據質量是組織形成戰(zhàn)略性競爭優(yōu)勢中的關鍵要素。影響數據質量的因素對數據質量進行有效管理要首先識別影響數據質量的原因。數據質量問題貫穿數據生命周期的每個階段,從最初的數據創(chuàng)建和收集開始再經數據處理、傳輸、存儲、歸檔和清除等各個步驟。數據質量在數據生命周期中的過程···處理傳輸存儲歸檔清除不準確性數據數據消息偏差消息偏差影響數據質量的因素數據質量在數據生命周期的過程過程中有以下操作可能會影響數據質量:影響數據質量的操作主要內容手動數據輸入手動數據輸入時,可能會提供錯誤的、不完整的信息,從而導致數據問題數據捕獲過程中的驗證實現(xiàn)數據捕獲的事務系統(tǒng)中,不充分不嚴謹的數據驗證過程可能無法捕獲錯誤的數據輸入數據衰減或數據老化數據隨著時間的推移而退化,從而導致數據質量下降業(yè)務流程管理與設計在業(yè)務流程管理與設計過程中缺乏統(tǒng)一的標準來解決業(yè)務需求和實現(xiàn)業(yè)務流程改進,導致數據缺失、數據重復等數據質量問題數據遷移在數據遷移或轉換過程中,一些數據可能會在新數據庫或同一數據庫的新模式下發(fā)生很大變化,從而導致數據問題影響數據質量的因素數據質量在數據生命周期的過程過程中有以下操作可能會影響數據質量:影響數據質量的操作主要內容數據集成在組合沖突數據的過程中,錯誤的數據映射規(guī)范和錯誤的解決沖突的規(guī)則可能導致數據質量問題數據清理糾正錯誤數據元素的過程中,自動數據清理算法由計算機程序實現(xiàn),但還是不可避免地會出現(xiàn)錯誤組織變更組織上的變化,如企業(yè)并購、重組等都有可能增加數據質量問題系統(tǒng)升級數據可能會被篡改成以前版本可以接受的形式,而系統(tǒng)升級會暴露這些數據不準確,從而帶來數據質量問題數據清除數據清除可能會意外地影響錯誤的數據,當清除的一些相關數據超過或少于預期時,都會導致數據質量問題影響數據質量的因素數據質量在數據生命周期的過程過程中有以下操作可能會影響數據質量:影響數據質量的操作主要內容缺乏對數據的多重使用和共享理解不同部門或小組需將數據用于不同的目的,但當數據不再滿足組織中某個部門或運營團隊的特定業(yè)務需求時,便會認為數據質量不好專業(yè)知識缺失對于以不當方式存儲和使用數據的遺留系統(tǒng),當缺少專家知識時,數據可能無法得到正確使用缺乏通用的數據標準、數據字典和元數據不同業(yè)務部門和元數據之間缺乏通用的數據標準,會導致數據質量問題業(yè)務數據所有權和治理問題沒有明確定義的所有權、管理權、透明度和問責制,職能部門和業(yè)務部門的治理有限或不一致,都會導致數據質量差黑客破壞黑客不僅可以破壞數據,還會竊取或刪除數據,極大地損害數據質量小結本節(jié)的主要內容數據質量的概念數據質量管理的必要性影響數據質量的因素5.1數據質量概述5.2數據質量管理體系數據質量評估框架數據質量評估框架是一種手段,是一個組織可以用來定義它的數據環(huán)境的模型,明確有關數據質量的屬性,在當前的環(huán)境下分析數據質量的屬性,提供保證數據質量提高的手段。不同數據質量評估框架間的差別主要體現(xiàn)在:評估對象階段步驟采用的策略和技術維度指標花費成本信息系統(tǒng)數據質量評估框架一些具有代表性的數據質量評估框架,其中部分框架將信息質量和數據質量等同??蚣苊Q(全稱)主要內容TDQM(TotalDataQualityManagement)基于過程管理,將信息看作一種產品,包括定義信息產品與質量、信息產品質量度量、分析信息產品質量、提升信息產品質量全過程。DWQ(TheDatawarehouseQualityMethodology)通過數據倉庫中語義豐富的質量管理模型來評估數據倉庫質量,從評估對象、質量目標、質量查詢、質量維度、質量評估等方面定義數據倉庫數據質量并建立模型。該模型可以直接集成到元數據庫系統(tǒng)概念庫中。TIQM(TotalInformationQualityManagement)該框架將信息質量視作一種管理工具,從固有與實用兩方面對信息質量進行定義。將產品質量原則用于信息,提出信息質量評估的方法與維度,以及信息產品改進的方法步驟。AIMQ(Amethodologyforinformationqualityassessment)從內在信息質量、上下文信息質量、代表性信息質量和可訪問性信息四個方面定義數據質量,該框架包括信息質量維度、一個信息質量模型,以及解釋信息質量的分析技術。數據質量評估框架框架名稱(全稱)主要內容CIHI(CanadianInstituteforHealthInformationmethodology)從質量評估方法、信息質量與公司數據處理、信息質量與組織幾方面建立框架。CIHI(CanadianInstituteforHealthInformationmethodology)從質量評估方法、信息質量與公司數據處理、信息質量與組織幾方面建立框架。DQA(DataQualityAssessment)該框架開發(fā)了客觀數據質量度量的三種功能形式,提出了一種結合主觀和客觀數據質量評估的方法。DQAF(DataQualityAssessmentFramework)該框架整體結構呈級聯(lián)式展開,第一階層的每個維度分別在第二階層和第三階層的評估指標中具體化。IQM(InformationQualityMeasurement)該框架分析和比較并整理了不同評測信息質量工具的功能,用于以系統(tǒng)和有計劃的方式測量特定的IQ標準,并歸納為一種系統(tǒng)的評估方法。數據質量評估框架——TDQM基于過程管理的全面數據質量管理(TotalDataQualityManagement,TDQM)方法由RichardY.Wang首先提出,通過引入工程管理中的全面質量管理方法,將信息(或數據)視為產品,將信息生產過程看作是一個信息處理系統(tǒng)對源數據加工處理后生產出信息產品的過程。TDQM的內容主要包括信息產品定義。定義信息產品特征、信息產品質量要求、信息制造系統(tǒng)。信息產品度量。關鍵信息質量指標。信息產品分析。分析信息產品和導致信息質量問題的根本原因。信息產品提升。確定需要改進的領域。數據質量評估框架——AIMQ在TDQM框架的基礎上,麻省理工學院小組提出AIMQ(amethodologyforinformationqualityassessment)框架。同時,研究小組開發(fā)并驗證了一種問卷,通過收集關于數據質量狀況的數據,可用于評估和檢測數據質量四個象限的模型。AIMQ的內容主要包括信息質量維度。四個類別:內在信息質量、上下文信息質量、代表性信息質量和可訪問性信息質量。PSP/IQ模型。將維度整合為四個象限:正確、可靠、有用和可用的信息。IQA工具的開發(fā)與管理。支持PSP/IQ模型和差距分析測量。信息質量差距分析。提供一種工具來了解與其他組織和一個組織內的不同利益相關者相比其信息質量的缺陷。數據質量評估框架——DQADQA(DataQualityAssessment)框架,于2002年由MIT的三位研究員提出。該框架側重于對數據質量的評估,提出了一種結合主觀和客觀數據質量評估的方法,并開發(fā)了客觀數據質量度量的三種功能形式。DQA框架的數據質量評估總體過程主觀和客觀數據質量評估確定差異原因確定并采取改進措施數據產品的收集者數據產品的保管者數據產品的消費者主觀數據質量評估需求經驗簡單比率最小/最大值加權平均客觀數據質量度量數據質量評估框架——DQAFDQAF融合了“聯(lián)合國官方統(tǒng)計基本準則”和“SDDS/GDDS”在內的實踐經驗以及國際公認的統(tǒng)計概念、定義。DQAF框架整體結構呈級聯(lián)式展開,在第一階層提出質量的先決條件以及衡量數據質量的五個維度,然后將第一階層的每個維度分別在第二階層的評估要素和第三階層的評估指標中具體化。DQAF框架質量的先決條件保證誠信方法健全性準確性和可靠性適用性可獲取性法律和機構環(huán)境資源相關性其他質量管理基礎專業(yè)化透明度職業(yè)道德標準范圍概念和定義分類/部門劃分記錄基礎源數據評估源數據統(tǒng)計技術評估和確認中間數據和統(tǒng)計產出修正研究頻率和及時性一致性修正政策和作法對用戶的幫助數據的可獲得性數據詮釋的可獲得性數據質量維度在針對數據質量維度領域的研究中,許多國際機構和國家政府部門提出相應的維度。國際機構或國家政府部門數據質量維度歐盟統(tǒng)計局相關性、準確性、可比性、連貫性、及時性和準時、可訪問性和清晰聯(lián)合國糧食及農業(yè)組織相關性、準確性、及時性、準時性、可訪問性和明確性、可比性、一致性和完整性、源數據的完備性美聯(lián)邦政府(公眾傳播)實用性、客觀性(準確、可靠、清晰、完整、無歧義)、安全性美國商務部可比性、準確性、適用性美國國防部準確性、完整性、一致性、適用性、唯一性及有效性加拿大統(tǒng)計局準確性、及時性、適用性、可訪問性、銜接性、可解釋性澳大利亞國際收支統(tǒng)計局準確性、及時性、適用性、可訪問性、方法科學性數據質量維度根據國際機構和國家政府部門數據質量維度表,并結合TIQM框架,將數據質量維度劃分為數據固有維度和數據使用維度。(一)數據固有維度

即與數據自身屬性相關的數據質量維度,包括完整性、唯一性、有效性、準確性、一致性、波動性和數據覆蓋范圍。完整性數據元素完整性數據記錄完整性數據集完整性唯一性數據元素唯一性數據記錄唯一性一致性數據記錄一致性跨記錄一致性數據集一致性準確性數據元素準確性數據記錄準確性有效性數據元素有效性數據覆蓋范圍數據覆蓋率波動性數據質量維度(二)數據使用維度即從用戶角度定義,與數據使用相關的數據質量維度。包括數據及時性、時效性、相關性、安全性、可追溯性、可訪問性、可靠性、易于操作性、簡潔性、可解釋性、可信度和聲譽。數據使用維度主要內容及時性衡量數據屬性值是否是最新的時效性向用戶發(fā)送數據或向用戶提供數據的速度,是對數據存在到數據交付給用戶之間的時間間隔的度量相關性數據內容和覆蓋范圍與使用目的相關的程度安全性為防止未經授權的訪問而對數據訪問進行適當限制和管理的程度可追溯性將數據追溯到其起源的能力數據質量維度(二)數據使用維度數據使用維度主要內容可訪問性確定數據或元數據存在的難易程度,以及能夠快速、方便地訪問和檢索數據的形式或媒介的適用性??煽啃灾笖祿陬A期用途下的完整性、相關性、準確性、唯一性和一致性,以及將數據追蹤到可靠來源的能力。易操作性指數據在不同任務中易于操作的程度。簡潔性指數據被緊湊表示的程度??山忉屝杂脩裟茌p松理解、正確使用和分析數據的程度??尚哦扔脩粽J為數據可信的程度、數據提供者或數據源的誠信程度。聲譽指數據在來源或內容方面受到高度重視的程度。數據質量管理標準(一)ISO8000數據質量標準ISO8000數據質量標準是針對數據質量制定的國際標準化組織標準,它由ISO工業(yè)自動化系統(tǒng)與集成技術委員會(TC184)SC4小組委員會開發(fā)。ISO8000數據質量標準由一般原則、主數據質量、交易數據質量、產品數據質量4個部分組成。每個部分獨立發(fā)布,該標準是受版權保護的,不可免費使用。ISO8000-1簡介ISO8000-2術語一般原則主數據的語法、語義編碼、符合數據規(guī)范、主數據的數據來源、準確性、完整性、質量管理框架主數據質量數據質量管理標準(一)ISO8000數據質量標準ISO8000的重要部分主要包括:1.ISO8000-110主數據的語法、語義和數據規(guī)范2.ISO8000-120主數據的語法、語義和數據規(guī)范3.ISO8000-130主數據的準確性4.ISO8000-140主數據的完整性5.ISO8000-150主數據質量管理框架數據質量管理標準(二)ISO22745:2010標準ISO22745:2010標準是一個關于開放技術字典和主數據應用的國際標準,該標準給出了表示、處理和交換主數據的描述技術,通過與ISO8000配合使用來描述數據需求。其核心內容及標識如下:1.開放的技術字典(theOpenTechnicalDictionary,OTD)。ISO22745的核心是OTD,它是一組詞條的集合,每一個詞條描述一個概念/元數據,包含概念/元數據的標識符、術語和定義文本、注釋、樣例、圖像、超鏈接到源標準。數據質量管理標準(二)ISO22745:2010標準1.開放的技術字典(theOpenTechnicalDictionary,OTD)。OTD的概念跨越整個供應鏈,從供應商->客戶->材料->存儲->服務;概念包含整個數據生命周期,從設計(CAD/CAM/CAE/PDM)->設備->制造/生產。OTD標識符類型及定義如下:類型概念與舉例類一組具有相同特性的實體的集合。OTD不包含類的層次結構,它是一個扁平的概念集。特征指物件的屬性,例如:螺紋級別、直徑、材質,強度等。測量單位包括測量單位的國際系統(tǒng)和英制系統(tǒng)。測量約束如:極小值、極大值、正常值。特征類型指物件特征的類型,可以是枚舉類型。例如一周中的日子有七天,螺紋的方向有兩種。貨幣名稱例如,美元、歐元等。語言標識符是指對不同的語言給定標識符,以便對與語言相關的術語、縮略語和定義進行語義識別。數據質量管理標準(二)ISO22745:2010標準2.主數據。任何一條主數據記錄描述的都是“物件”,它可以是各種現(xiàn)實中具體的物體也可以是同樣物體的集合。3.標識模式。標識模式如圖。4.標識指南(IdentificationGuide,IG)。IG是基于OTD中的概念、提供給買家用來描述主數據的一個母模板、一組基本規(guī)則。RAI,注冊權威標識符RegistrationAuthorityIdentifierICD,國際碼標志符InternationalCodeDesignatorOI,組織標識符OrganizationIdentifierDI,數據標識符DataIdentifierCSI,碼空間標識符CodeSpaceIdentifierCC,概念碼ConceptcodeVI,版本標識符VersionIdentifier數據質量管理標準(三)GDDS(一般數據發(fā)布標準)和SDDS(特別數據發(fā)布標準)自1995年以來,國際貨幣基金組織出臺了一套數據發(fā)布標準,并分為兩種:特別數據發(fā)布標準(SpecialDataDisseminationStandard,簡稱SDDS)和一般數據發(fā)布制度(GeneralDataDisseminationSystem,簡稱GDDS)。其共同目標是指導各國按統(tǒng)一標準,提供綜合、及時、可靠的經濟和財政金融統(tǒng)計數據。但GDDS和SDDS這兩種數據發(fā)布標準也有很大的不同,主要體現(xiàn)在:1.數據的統(tǒng)計范圍、公布頻率和公布及時性。2.公布數據的質量。3.公布數據的完整性。4.公眾獲取數據的公平性。小結本節(jié)的主要內容數據質量評估框架數據質量維度數據質量管理標準5.2數據質量管理體系5.3數據質量評估方法定性評估方法采用定性評估方法進行評價時,通常先根據評價的目的和服務對象的需求,按照一定的準則與要求,確定相關評價標準或指標體系,建立評價標準及各賦值標準,再經過評價者、專家和用戶打分或評定,最后統(tǒng)計出各數據庫的評價結果。定性評估方法的缺陷:評價指標體系本身的合理性評價的滯后性評價結果的適用性問卷調查評價結果的可信性存在問題定性評估方法(一)用戶反饋法主要是由評價用戶提供相關的評價指標體系和方法,然后根據其特定的信息需求從中選擇符合其需要的評價指標和方法來評價信息資源。用戶反饋法的主要步驟:構建相應的統(tǒng)計數據用戶反饋模型設計滿意度測評指標/項目體系獲取滿意度測評的原始數據對原始數據進行分析處理得到滿意度指數對用戶滿意度的影響因素、影響路徑進行分析,并改進統(tǒng)計數據質量。定性評估方法(二)專家評議法通常是由給定科學領域的若干專家組成的評判委員會來評價科學活動或其結果的一個過程。明確具體分析、預測的問題;由預測專家、專業(yè)領域的專家、推斷思維能力強的演繹專家等組成專家評議分析預測小組;舉行專家會議,對提出的問題進行分析、討論和預測;分析、歸納專家會議的結果。公開性公正性可靠性效用性經濟性專家評議的原則專家評議法的主要步驟:定性評估方法(三)第三方評測法第三方主要是相對于管理方、建庫單位以及信息用戶而言,建立符合特定信息需求的數據質量評價指標體系,一般采用特定評價方法??陀^性公正性合理性科學性特定評價方法評價指標體系保證確定并采集所需求的信息數據對需求數據進行分詞和標注對需求數據進行清洗和分類以形成數據池分析計算數據池之間的關系以及數據池的支撐程度根據數據模型量化計算各指標形成數據質量評價分析報告基于第三方評價數據質量的主要步驟:定量評估方法定量評估方法是指按照數量分析方法,從客觀量化角度對基礎科學數據資源進行的優(yōu)選與評價。但目前對科學數據資源進行定量評估的實例較少,一般局限于訪問次數、登陸、鏈接和被鏈接等情況的探討。定量評估方法的缺陷:量化標準過于簡單使得對信息難以進行深層次的剖析和考察;統(tǒng)計方法本身存在技術上的缺陷;對學術性的科學數據價值高的數據共享平臺不完全適用。定量評估方法(一)訪問量統(tǒng)計基于網絡用戶對數據庫的登陸、訪問情況,比如定期統(tǒng)計每個數據庫的訪問量、用戶IP地址分布及下載量等,并依據網絡流量對數據庫進行評價。訪問量統(tǒng)計主要通過以下指標來進行評估:下載量:下載數據的數量。注冊量:通過下載安裝的用戶中存在注冊行為的用戶數。啟動次數:在某一個統(tǒng)計時間段的用戶打開APP的次數訪問頁數量:在某個統(tǒng)計周期內用戶訪問產品的頁面數。定量評估方法(二)基于信息熵的評估信息熵方法從消除不確定性的角度來表達和描述信息的質量,能夠客觀地測度信息量。在其他條件相同的情況下,信息量直接決定著信息作為生產要素的投入量和所創(chuàng)造的價值量?;谛畔㈧氐脑u估主要通過以下步驟進行:假設某事件可能有n種不同狀態(tài):S1,S2,…,Sn,每種狀態(tài)出現(xiàn)的概率分別是:,則該事件的信息量即信息熵可表示為:其中,信息熵H是度量事件不確定性和無知狀態(tài)的尺度,k是一個取決于度量單位的正的常數,

,,。定量評估方法(二)基于信息熵的評估信息熵越大,事件發(fā)生的不確定性就越大;反之則越小。事件不確定性的減小與信息熵成同方向變化,而不確定性的減少和消除正是信息價值和效用的體現(xiàn),因此,信息熵的減少量可作為信息的效用和價值的評估標準。當某事件各種狀態(tài)發(fā)生的概率相同時,時,信息熵取得最大值

,那么,在其他情況下信息熵的減少量應為:即該事件所傳遞的信息效用大小的表達式。定量評估方法(三)關聯(lián)關系度量關聯(lián)數據是一類應用了某些原則來連接的大型的、獨立的Web數據集。關聯(lián)數據之間展示了信息的關聯(lián)與整舍,其遵循以下4個原則:1)使用統(tǒng)一資源標識符(URI)作為事務的名稱;2)使用HTIPURI,使人們能夠查找這些名稱;3)在有人查找一個URI時,可以使用標準(RDF*、SPARQL)來提供有用的信息;4)包含其他URI的鏈接,以便他們可以發(fā)現(xiàn)更多的信息。定量評估方法(三)關聯(lián)關系度量數據關聯(lián)關系可通過具體的數學方法進行計算,如基于PRE原理的關系度量、基于獨立校驗的關聯(lián)關系度量可由以下主要步驟進行度量:1、基于PRE原理的關系度量若將隨機向量X和Y看作兩個變量簇,可通過比較兩個點簇間協(xié)方差結構的相似性確定兩個隨機向量的關聯(lián)系數。

因此,RV系數提供了一個變量對樣本關聯(lián)系數的全局度量。定量評估方法(三)關聯(lián)關系度量1、基于PRE原理的關系度量

RV系數為:RV系數越接近1,則X、Y之間的線性相關度就越高。

設隨機向量的樣本矩陣為,當樣本為非一維數據集時,需要對樣本矩陣進行中心化處理:其中,是單位矩陣,1是取值為1的向量。定量評估方法(三)關聯(lián)關系度量2、基于獨立校驗的關聯(lián)關系度量其累積概率分配函數定義為:由于邊際概率分配函數是多對一函數,故定義一般化邊際慨率分配函數的反函數為:基于獨立校驗的關聯(lián)關系度量可通過概率分布函數計算關聯(lián)性。若有兩個隨機向量X與Y邊際概率分配函數分別為:綜合評估方法綜合評估方法主要是將定性和定量兩種方法有機地結合起來,從兩個角度對科學數據資源質量進行評價。層次分析法(AnalyticHierarchyProcess,AHP)模糊綜合評估法(FuzzyComprehensiveEvaluation,F(xiàn)CE)云模型評估法(CloudModel,CM)缺陷扣分法(DefectionSubtractionScore,DSS)模糊層次分析法(FuzzyAnalyticHierarchyProcess,F(xiàn)AHP)常用的綜合評估方法有:綜合評估方法下表從使用的難易程度、使用模型、應用場景和適用范圍這四個方面對5種綜合評估方法進行了對比。評估類型難易程度使用模型應用場景適用范圍層次分析法(AHP)較簡單層次結構模型質量指標權重確定無限制模糊綜合評估法(FCE)復雜隸屬函數模糊性的質量問題無限制云模型評估法(CM)復雜正態(tài)云模型模糊性與隨機性共存的質量問題無限制缺陷扣分法(DSS)簡單無產品質量專業(yè)領域模糊層次分析法(FAHP)復雜隸屬函數+層次結構模型影響因素較為復雜的質量問題無限制綜合評估方法(一)層次分析法層次分析法(AnalyticHierarchyProcess,AHP)是美國運籌學家T.L.Saaty在1977年提出的一種定性與定量相結合的決策分析方法。這種方法能夠將復雜的系統(tǒng)分解,把多目標、多準則而又難以量化處理的決策問題化為多層次單目標問題,適用于多層次、多目標規(guī)劃決策問題。綜合評估方法(一)層次分析法層次分析法主要步驟包括:1.建立層次結構模型。將決策目標、決策準則和決策對象,按它們之間的相互關系分為最高層、中間層和最低層,繪出層次結構圖。2.構造判斷(成對比較)矩陣。在確定各層次各因素之間的權重時,常使用一致矩陣法,即所有因素兩兩相互比較,盡可能減少性質不同的諸因素相互比較的困難,以提高準確度。設

為要素i與要素j重要性比較結果。按兩兩比較結果構成的矩陣稱作判斷矩陣。判斷矩陣具有如下性質:綜合評估方法(一)層次分析法判斷矩陣元素的標度方法如下表所示。因素i比因素j量化值因素i比因素j量化值同等重要1強烈重要7稍微重要3極端重要9較強重要5兩相鄰判斷的中間值2、4、6、8綜合評估方法(一)層次分析法3.層次單排序及其一致性檢驗。對應于判斷矩陣最大特征根的特征向量,經歸一化后記為W

。W

的元素為同一層次因素對于上一層某因素相對重要性的排序權值,該過程即為層次單排序。

定義一致性指標:

CI=0,有完全的一致性;

CI

接近于0,有滿意的一致性;

CI

越大,不一致性越嚴重。綜合評估方法(一)層次分析法

為了衡量CI的大小,引入隨機一致性指標RI,平均隨機一致性指標RI標準值如下:

定義一致性比率:,一般認為一致性比率CR<0.1時,A的不一致程度在容許范圍之內,有滿意的一致性,通過一致性檢驗??捎闷錃w一化特征向量作為權向量,否則要重新構造成對比較矩陣A,對

加以調整。4.層次總排序及其一致性檢驗。計算某一層次所有因素對于最高層(總目標)相對重要性的權值,稱為層次總排序。這一過程是從最高層次到最低層次依次進行的。矩陣階數12345678910RI000.580.901.121.241.321.411.451.49綜合評估方法(二)模糊綜合評估法模糊綜合評估法是一種基于模糊數學的評價方法,以隸屬度理論為基礎,將定性評價轉化為定量評價。本小節(jié)在構建評估指標體系的基礎上,對數據質量進行模糊綜合評估。其主要步驟包括:1.確定評價對象的因素論域。因素論域由描述被評價對象的m種因素構成,表示為:,這里指數據質量評估指標體系的質量指標,即m個評價指標。2.確定評價對象的評語等級論域。評語集是評價者對評價對象可能做出的各種總的評價結果組成的集合,表示為:

,就是對評價對象變化區(qū)間的一個劃分。其中

,代表第i個評價結果,n為總的評價結果數。具體等級可以依據評價內容用適當的語言進行描述,如評估數據質量可用好、較好、一般、較差、差這5種評語。綜合評估方法(二)模糊綜合評估法3.單因素評價。單獨從一個因素出發(fā)進行評價,以確定評價對象對評價集合V的隸屬程度。在構造等級模糊子集后,要逐個對評價對象從每個因素

進行量化,即確定從單因素來看評價對象對各等級模糊子集的隸屬度,進而得到模糊關系矩陣:

其中,表示某個評價對象從因素

來看對

等級模糊子集的隸屬度。一個評價對象在某個因素

方面的表現(xiàn)是通過模糊向量,單因素評價矩陣來刻畫的,即影響因素與評價對象之間的"合理關系"。綜合評估方法(二)模糊綜合評估法在確定隸屬度時,通常是由專家或與評價問題相關的專業(yè)人員依據評判等級對評價對象進行打分,統(tǒng)計打分結果,然后根據絕對值減數法求得,即:其中,c

可以適當選取,使得。4.確定評價因素的模糊權向量。為了反映各因素的重要程度,對各因素應分配一個相應的權數

,通常要求

,滿足;。在進行模糊綜合評估時,權重對最終的評價結果會產生很大的影響。常用的確定權重的方法有:層次分析法、Delphi法、加權平均法和專家估計法。綜合評估方法(二)模糊綜合評估法5.多因素模糊評價。利用合適的合成算子將模糊權向量A與模糊關系矩陣R合成得到各評價對象的模糊綜合評估結果向量B。

R中不同的各行反映了某個評價對象從不同的單因素對各等級模糊子集的隸屬程度。用模糊權向量A對不同的行進行綜合,可得到該評價對象從總體上對各等級模糊子集的隸屬程度,即模糊綜合評估結果向量B。模糊綜合評估的模型為:其中,是由A與R的第j列運算得到,表示被評價對象從整體上看對等級模糊子集的隸屬度。綜合評估方法(二)模糊綜合評估法常用的模糊合成算子有以下四種:6.對模糊綜合評估結果進行分析。模糊綜合評估的結果是評價對象對各等級模糊子集的隸屬度。通過將綜合評估結果B轉換為綜合分值,然后對多個評價對象進行比較,并按其大小排序,從而挑選出最優(yōu)者。綜合評估方法(三)模糊層次分析法模糊層次分析法(FuzzyAnalyticHierarchyProcess,F(xiàn)AHP)以模糊變換理論為基礎,以模糊推理為主的定性和定量相結合、精確與非精確相統(tǒng)一的分析評判方法,適用于較為復雜的評判系統(tǒng),評判級別包含2個及以上。主要從最底層(第k層)開始,向上逐層運算,直至得到最后的評語集。第k層評判結果就是第k-1層因素的隸屬度。模糊層次分析模型不僅可以反映評判因素的不同層次,而且還避免了由于因素過多而難于分配權重的問題。綜合評估方法(三)模糊層次分析法為了能更加合理與全面地評估數據質量,本小節(jié)系統(tǒng)地對單一目標、群組目標以及整體目標所產生的評判結果進行融合,建立綜合評判模型。主要步驟包括:1.由評價指標構成的集合:;2.由評價等級構成的集合:;3.選取隸屬度函數:選用模糊統(tǒng)計法確定隸屬度。

各指標取值歸一化處理,采用等間隔的方式從最小值到100%等分為5個等間隔區(qū)間,以此將評語集依次劃分為5個等級,分別對每個基礎指標按其取值進行評定,將其隸屬度歸納到“優(yōu)、良、中、一般、差”的對應等級中。綜合評估方法(三)模糊層次分析法4.由評價指標與評價等級構成的模糊評價矩陣:其中,,表示第i個因素對第j種評語的隸屬度,由隸屬度函數計算得出。5.評價指標賦權。數據集的單一目標與群組目標賦予同等權重;二級指標權重采用主觀的層次分析法得出;對于基礎指標,引入基于離差平方和的AHP與熵權法相結合的主客觀綜合賦權方法,求出基礎指標的組合賦權系數。綜合評估方法(三)模糊層次分析法AHP法的主觀權重:

;利用熵權法確定的客觀權重:

;根據線性加權法,由組合賦權系數向量計算而得的第i個決策方案的多屬性綜合評價值可表示為:

其中,為樣本值。構造如下目標函數:由模糊矩陣與權重值得到的模糊綜合評判結果即為模糊集。根據第二層評語集,并結合二級指標的權重得出一級指標的評語集、。按照最大隸屬原則,即可確定數據的最終質量等級評語集。小結本節(jié)的主要內容定性評估方法定量評估方法綜合評估方法5.3數據質量評估方法5.4數據質量提升方法數據質量提升方法數據質量提升方法從數據流過程的視角出發(fā),可作用于數據質量管理的事前、事中、事后三個階段。通過對不同時期數據的不同處理方式,實現(xiàn)事前預防、事中監(jiān)控、事后改善。數據質量管理的事前階段控制和業(yè)務含義關聯(lián)度不大的數據質量,確保數據處理過程的數據質量的合規(guī)合理數據質量管理的事中階段數據質量管理的事后階段針對業(yè)務執(zhí)行過程存在的不規(guī)范、不合理之處,給出指導業(yè)務改進的建議規(guī)范、標準的操作,以及清晰的流程系統(tǒng),是確保產生正確數據的關鍵事前數據質量提升方法(一)預防措施預防措施主要是通過防止低質量數據進入組織,把已知的錯誤防止發(fā)生從而影響數據的質量。預防措施的具體內容主要包括:(1)建立數據輸入控制。創(chuàng)建數據輸入規(guī)則來防止無效或不準確的數據進入系統(tǒng)。(2)培訓數據生產者。確保上游系統(tǒng)的員工了解數據對下游用戶的影響。(3)定義和執(zhí)行規(guī)則。創(chuàng)建一個用于應用程序中“數據防火墻”。(4)要求數據供應商提供高質量數據。檢查外部數據供應商的結構、定義、數據源等流程。(5)實施數據治理和管理制度。確保參與規(guī)則、決策權和有效管理數據和信息資產的責任。(6)制定正式的變更控制。確保在實施之前對存儲數據的所有變更進行定義和測試。事前數據質量提升方法(二)建立數據質量管理規(guī)范、制度和系統(tǒng)數據質量管理是企業(yè)數據管理的重要組成部分,根據國內外同業(yè)實踐經驗,數據質量管理框架體系需要科學的組織保障體系、清晰的管理流程、明確的管理制度和有效的技術支撐平臺。主要內容包括:(1)制定明確的質量管控規(guī)范。制定完備的統(tǒng)計數據質量考核、評價標準。(2)建立科學的統(tǒng)計制度。進一步完善并改進各項普查制度,建立健全相關法律法規(guī)。(3)應用統(tǒng)計數據質量管控系統(tǒng)。改變統(tǒng)計數據事后檢驗的方法,實行質量全過程控制。事前數據質量提升方法(三)建立數據質量閉環(huán)管理流程數據質量管理流程包含五大步驟,這五大步驟以循環(huán)的形式存在,從而持續(xù)有效地對數據質量進行有效管理。數據質量閉環(huán)管理流程設計數據質量提升方案。(1)方案制定。確定數據質量檢核范圍及檢核規(guī)則。(2)質量評估。(3)問題管理。定期發(fā)布數據質量報告。根據分析結果給出數據質量提升和整改建議。(4)提升優(yōu)化。持續(xù)跟蹤分析整改情況。(5)跟蹤控制。事前數據質量提升方法(四)成立數據治理組織健全的數據治理組織是全面開展數據治理工作的基礎,數據治理組織應包括管理人員、業(yè)務人員和技術人員,缺一不可。數據治理組織可以設置三種角色:數據治理組織角色人員組成負責任務數據治理委員會由校領導、IT部負責人和業(yè)務部門負責人組成負責制定數據治理的目標、制度、規(guī)范、流程、標準等,協(xié)調解決相關人員責、權、利問題,推行數據治理文化數據治理業(yè)務組由業(yè)務部門業(yè)務專家、系統(tǒng)管理員組成負責業(yè)務系統(tǒng)參數、基礎數據維護,以及審核、檢查、整改業(yè)務數據,在數據產生源頭提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論