




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
關于概念描述特征化與比較第1頁,課件共63頁,創(chuàng)作于2023年2月兩種不同類別的數(shù)據(jù)挖掘從數(shù)據(jù)分析的角度看,數(shù)據(jù)挖掘可以分為描述性挖掘和預測性挖掘描述性挖掘:以簡潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質。預測性數(shù)據(jù)挖掘:通過分析數(shù)據(jù)建立一個或一組模型,并試圖預測新數(shù)據(jù)集的行為。第2頁,課件共63頁,創(chuàng)作于2023年2月什么是概念描述?概念描述是一種最簡單的描述性挖掘當所描述的概念所指的是一類對象時,也稱為類描述概念指的是一類數(shù)據(jù)的集合e.g.研究生,大客戶概念描述是指為數(shù)據(jù)的特征化和比較產(chǎn)生描述特征化:提供給定數(shù)據(jù)集的簡潔匯總。區(qū)分:提供兩個或多個數(shù)據(jù)集的比較描述。第3頁,課件共63頁,創(chuàng)作于2023年2月概念描述VS.OLAP概念描述和數(shù)據(jù)倉庫的聯(lián)機分析處理(OLAP)都跟數(shù)據(jù)概化密切相關,即以簡潔的形式在更一般的抽象層描述數(shù)據(jù),允許數(shù)據(jù)在抽象層概化,便于考察數(shù)據(jù)的一般行為。兩者的主要區(qū)別:概念描述可以處理復雜數(shù)據(jù)類型的屬性及其聚集一個更加自動化的過程OLAP實際使用的OLAP系統(tǒng)中,維和度量的數(shù)據(jù)類型都非常有限(非數(shù)值型的維和數(shù)值型的數(shù)據(jù)),表現(xiàn)為一種簡單的數(shù)據(jù)分析模型一個由用戶控制的過程第4頁,課件共63頁,創(chuàng)作于2023年2月數(shù)據(jù)概化數(shù)據(jù)概化數(shù)據(jù)庫中的數(shù)據(jù)和對象通常包含原始概念層的細節(jié)信息,數(shù)據(jù)概化就是將數(shù)據(jù)庫中的跟任務相關的數(shù)據(jù)集從較低的概念層抽象到較高的概念層的過程。主要方法:數(shù)據(jù)立方體(OLAP使用的方法)面向屬性的歸納方法12345概念層第5頁,課件共63頁,創(chuàng)作于2023年2月數(shù)據(jù)概化:數(shù)據(jù)立方體方法執(zhí)行計算并將結果存儲在數(shù)據(jù)立方體中優(yōu)點:數(shù)據(jù)概化的一種有效實現(xiàn)可以計算各種不同的度量值比如:count(),sum(),average(),max()概化和特征分析通過一系列的數(shù)據(jù)立方體操作完成,比如上卷、下鉆等缺點只能處理非數(shù)值類型的維和簡單聚集數(shù)值類型的度量值(大部分現(xiàn)有商業(yè)系統(tǒng)中,只能為非數(shù)值類型的維產(chǎn)生概念分層)缺乏智能分析,不能自動確定分析中該使用哪些維,應該概化到哪個層次第6頁,課件共63頁,創(chuàng)作于2023年2月面向屬性的歸納一種面向關系數(shù)據(jù)查詢的、基于匯總的在線數(shù)據(jù)分析技術。受數(shù)據(jù)類型和度量類型的約束比較少面向屬性歸納的基本思想:使用關系數(shù)據(jù)庫查詢收集任務相關的數(shù)據(jù)通過考察任務相關數(shù)據(jù)中每個屬性的不同值的個數(shù)進行概化,方法是屬性刪除或者是屬性概化通過合并相等的,概化的廣義元組,并累計他們對應的計數(shù)值進行聚集操作通過與用戶交互,將廣義關系以圖表或規(guī)則等形式,提交給用戶第7頁,課件共63頁,創(chuàng)作于2023年2月面向屬性的歸納的基本步驟數(shù)據(jù)聚焦,獲得初始工作關系進行面向屬性的歸納基本操作是數(shù)據(jù)概化,對有大量不同值的屬性,進行進一步概化屬性刪除屬性概化屬性概化控制:控制概化過程,確定有多少不同的值才算是有大量不同值的屬性屬性概化臨界值控制概化關系臨界值控制第8頁,課件共63頁,創(chuàng)作于2023年2月數(shù)據(jù)聚焦(1)目的是獲得跟任務相關的數(shù)據(jù)集,包括屬性或維,在DMQL中他們由inrelevanceto子句表示。示例:DMQL:描述Big-University數(shù)據(jù)庫中研究生的一般特征 useBig_University_DBminecharacteristicsas“Science_Students”inrelevancetoname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin“graduate”第9頁,課件共63頁,創(chuàng)作于2023年2月數(shù)據(jù)聚焦(2)將數(shù)據(jù)挖掘查詢轉換為關系查詢Selectname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin{“Msc”,“MBA”,“PhD”}數(shù)據(jù)聚焦時的困難用戶在指定相關的數(shù)據(jù)集方面存在困難,遺漏在描述中可能起作用的屬性用戶可能引進太多的屬性第10頁,課件共63頁,創(chuàng)作于2023年2月數(shù)據(jù)概化數(shù)據(jù)概化的兩種常用方法:屬性刪除和屬性概化屬性刪除的適用規(guī)則:對初始工作關系中具有大量不同值的屬性,符合以下情況,應使用屬性刪除:在此屬性上沒有概化操作符(比如該屬性沒有定義相關的概念分層)該屬性的較高層概念用其他屬性表示屬性概化的使用規(guī)則:如果初始工作關系中的某個屬性具有大量不同值,且該屬性上存在概化操作符,則使用該概化操作符對該屬性進行數(shù)據(jù)概化操作第11頁,課件共63頁,創(chuàng)作于2023年2月11-12王燦數(shù)據(jù)挖掘sjwj@0703004第12頁,課件共63頁,創(chuàng)作于2023年2月屬性概化控制確定什么是“具有大量的不同值”,控制將屬性概化到多高的抽象層。屬性概化控制的兩種常用方法:屬性概化臨界值控制對所有屬性設置一個概化臨界值或者是對每個屬性都設置一個臨界值(一般為2到8)概化關系臨界值控制為概化關系設置一個臨界值,確定概化關系中,不同元組的個數(shù)的最大值。(通常為10到30,應該允許在實際應用中進行調整)兩種技術的順序使用:使用屬性概化臨界值控制來概化每個屬性,然后使用關系臨界值控制進一步壓縮概化的關系。相等元組的合并、累計計數(shù)和其他聚集值第13頁,課件共63頁,創(chuàng)作于2023年2月面向屬性的歸納——示例挖掘Big-University數(shù)據(jù)庫中研究生的一般特征name:刪除屬性gender:保留該屬性,不概化major:根據(jù)概念分層向上攀升{文,理,工…}birth_place:根據(jù)概念分層location向上攀升birth_date:概化為age,再概化為age_rangeresidence:根據(jù)概念分層location向上攀升phone#:刪除屬性gpa:根據(jù)GPA的分級作為概念分層第14頁,課件共63頁,創(chuàng)作于2023年2月面向屬性的歸納——示例主概化關系初始工作關系第15頁,課件共63頁,創(chuàng)作于2023年2月面向屬性的歸納算法輸入1.DB;2.數(shù)據(jù)挖掘查詢DMQuery;3.屬性列表;4.屬性的概念分層;屬性的概化臨界值;輸出主概化關系P算法描述:Wget_task_relevant_data(DMQuery,DB)prepare_for_generalization(W)掃描W,收集每個屬性a的不同值對每個屬性a,根據(jù)臨界值確定是否刪除,如果不刪除,則計算其最小期望層次L,并確定映射對(v,v`)Pgeneralization(W)通過使用v`代替W中每個v,累計計數(shù)并計算所有聚集值,導出P每個概化元組的插入或累積計數(shù)用數(shù)組表示P第16頁,課件共63頁,創(chuàng)作于2023年2月導出概化的表示(1)概化關系一部分或者所有屬性得到概化的關系,包含計數(shù)或其他度量值的聚集交叉表二維交叉表使用每行顯示一個屬性,使用每列顯示另外一個屬性將結果集映射到表中可視化技巧:條形圖、餅圖、曲線和數(shù)據(jù)立方體瀏覽工具(用單元的大小代表計數(shù),用單元亮度代表另外的度量)第17頁,課件共63頁,創(chuàng)作于2023年2月導出概化的表示(2)量化規(guī)則使用t_weight表示主概化關系中每個元組的典型性量化特征規(guī)則將概化的結果映射到相應的量化特征規(guī)則中,比如:量化特征規(guī)則中每個條件的析取成為目標類的一個必要條件;亦即,如果X在目標類中,則X滿足conditioni的概率是wi第18頁,課件共63頁,創(chuàng)作于2023年2月特征化過程中的困難特征化過程中的兩大困難復雜數(shù)據(jù)類型的處理缺乏一種自動概化的過程,用戶必須告訴系統(tǒng)哪些屬性或維應該包括在類特征化中每個維應該概化到多高的程度第19頁,課件共63頁,創(chuàng)作于2023年2月為什么進行屬性相關分析?數(shù)據(jù)倉庫和OLAP系統(tǒng)中的多維數(shù)據(jù)分析缺乏一個自動概化過程,這使得這個過程中需要有很多用戶干預用戶必須告訴系統(tǒng)哪些維或屬性應當包含在類分析中(難)屬性太少,則造成挖掘的描述結果不正確屬性太多,浪費計算、淹沒知識告訴系統(tǒng)每個維應當概化到多高的層次(易)直接通過概化的臨界值,說明給定維應當達到的概化程度對概化層次不滿意,則可以指定需要上卷或下鉆的維第20頁,課件共63頁,創(chuàng)作于2023年2月解析特征化:屬性相關分析屬性相關分析通過識別不相關或者是弱相關的屬性,將它們排除在概念描述過程之外,從而確定哪些屬性應當包含在類特征化和類比較中。解析特征化包含屬性相關分析的類特征化解析比較包含屬性相關分析的類比較第21頁,課件共63頁,創(chuàng)作于2023年2月屬性相關分析(1)通過屬性相關性分析,濾掉統(tǒng)計上不相關或弱相關的屬性,保留對手頭數(shù)據(jù)挖掘任務最相關的屬性。對于給定的屬性,一個屬性或維被認為是高度相關的,如果該屬性或維的值可能用于區(qū)分該類和其他類。比如:區(qū)分昂貴汽車和便宜汽車(可選擇的屬性:顏色,型號,品牌...)第22頁,課件共63頁,創(chuàng)作于2023年2月屬性相關分析(2)在同一個維內,對于區(qū)分一個類與其他類不同層的概念可能有很不同的能力比如:birth_date維,day,month與salary無關,而year(或將其進一步概化為birth_decade)則與salary有關類特征化中的比較類除特征化的數(shù)據(jù)集外,數(shù)據(jù)庫中可比較的數(shù)據(jù)集都作為對比類比如:研究生特征化的例子,對比類為不是研究生的學生的集合(e.g.本科生)(可選擇的屬性:性別、籍貫、專業(yè)、平均成績、年齡段)第23頁,課件共63頁,創(chuàng)作于2023年2月屬性相關分析的方法屬性相關分析的基本思想是計算某種度量,用于量化屬性與給定類或概念的相關性??刹捎玫亩攘堪ǎ盒畔⒃鲆妗ini索引、不確定性和相關系數(shù)。(涉及機器學習、統(tǒng)計、模糊和粗糙集理論等方面的相關知識)比如:信息增益通過計算一個樣本分類的期望信息和屬性的熵來獲得一個屬性的信息增益,判定該屬性與當前的特征化任務的相關性。第24頁,課件共63頁,創(chuàng)作于2023年2月信息增益(1)S是一個訓練樣本的集合,該樣本中每個集合的類編號已知。每個樣本為一個元組。有個屬性用來判定某個訓練樣本的類編號(類似于學生記錄中的status屬性)假設S中有m個類,總共s個訓練樣本,每個類ci有Si個樣本(i=1,2,3...m),那么任意一個樣本屬于類Ci的概率是si/s,那么用來分類一個給定樣本的期望信息是:第25頁,課件共63頁,創(chuàng)作于2023年2月信息增益(2)一個有v個值的屬性A{a1,a2,...,av}可以將S分成v個子集{S1,S2,...,Sv},其中Sj包含S中屬性A上的值為aj的樣本。假設Sj包含類Ci的sij個樣本。根據(jù)A的這種劃分的期望信息稱為A的熵A上該劃分的獲得的信息增益定義為:具有高信息增益的屬性,是給定集合中具有高區(qū)分度的屬性。所以可以通過計算S中樣本的每個屬性的信息增益,來得到一個屬性的相關性的排序。第26頁,課件共63頁,創(chuàng)作于2023年2月概念描述的屬性相關分析步驟(1)數(shù)據(jù)收集通過查詢處理,收集目標類和對比類數(shù)據(jù)使用保守的AOI進行預相關分析識別屬性和維的集合,它們是所選擇的相關性分析度量的應用對象因為不同的概念層對某個類描述的相關性可能很不同,因此在這個過程中同時要包含概念分層對有大量不同值的屬性進行刪除或概化在這一級進行概化時,臨界值要相應比較高,以便在后續(xù)步驟的分析中包含更多屬性(保守的)產(chǎn)生候選關系第27頁,課件共63頁,創(chuàng)作于2023年2月概念描述的屬性相關分析步驟(2)使用選定的相關分析度量刪除不相關和弱相關的屬性使用選定的相關分析度量(e.g.信息增益),評估候選關系中的每個屬性根據(jù)所計算的相關性對屬性進行排序低于臨界值的不相關和弱相關的屬性被刪除產(chǎn)生初始目標類工作關系(或初始對比類工作關系)使用AOI產(chǎn)生概念描述使用一組不太保守的屬性概化臨界值進行AOI第28頁,課件共63頁,創(chuàng)作于2023年2月解析特征化——示例(1)任務:使用解析特征化挖掘Big-University的研究生的一般特征描述給定屬性name,gender,major,birth_place,birth_date,phone#和gpaUi=屬性分析閥值Ti=屬性概化閥值R=屬性相關閥值第29頁,課件共63頁,創(chuàng)作于2023年2月解析特征化——示例(2)1.數(shù)據(jù)收集目標類:研究生對比類:本科生2.使用保守的閥值Ui和Ti進行AOI屬性刪除name和phone#屬性概化概化major,birth_place,birth_date和
gpa進行累積計數(shù)候選關系:gender,major,birth_country,age_range
和gpa第30頁,課件共63頁,創(chuàng)作于2023年2月目標類候選關系:研究生(=120)對比類候選關系:本科生(=130)(可以在類比較時使用)解析特征化——示例(3)第31頁,課件共63頁,創(chuàng)作于2023年2月3.相關性分析計算給定的樣本分類所需要的期望信息計算每個屬性的熵:e.g.majorNumberofgradstudentsin“Science”Numberofundergradstudentsin“Science”解析特征化——示例(4)第32頁,課件共63頁,創(chuàng)作于2023年2月如果樣本根據(jù)major劃分,則計算給定的樣本進行分類所需的期望信息:計算該屬性的信息增益:所有屬性的信息增益解析特征化——示例(5)第33頁,課件共63頁,創(chuàng)作于2023年2月4.導出初始工作關系R=0.1(臨界值)從候選關系中去處不相關/弱相關的屬性=>去處gender,birth_country因為類描述任務是類特征化,所以這里去處候選對比類關系5.在W0
上用進行不保守的AOI初始目標類工作關系W0:研究生解析特征化——示例(6)第34頁,課件共63頁,創(chuàng)作于2023年2月挖掘類比較:區(qū)分不同的類類比較挖掘的目標是得到將目標類與對比類相區(qū)分的描述。目標類和對比類間必須具有可比性,即兩者間要有相似的屬性或維。本科生VS.研究生;studentVS.address很多應用于概念描述的技巧可以應用于類比較,比如屬性概化。屬性概化必須在所有比較類上同步進行,將屬性概化到同一抽象層后進行比較。CityVScountry第35頁,課件共63頁,創(chuàng)作于2023年2月類比較的過程數(shù)據(jù)收集通過查詢處理收集數(shù)據(jù)庫中相關的數(shù)據(jù),并將其劃分為一個目標類和一個或多個對比類維相關分析使用屬性相關分析方法,使我們的任務中僅包含強相關的維同步概化同步的在目標類和對比類上進行概化,得到主目標類關系/方體和主對比類關系/方體導出比較的表示用可視化技術表達類比較描述,通常會包含“對比”度量,反映目標類與對比類間的比較(e.gcount%)第36頁,課件共63頁,創(chuàng)作于2023年2月類比較的有效實施目標類和對比類的同步概化,以在相同抽象級別上進行類比較使用數(shù)據(jù)立方體技術有效的實施類比較引入一個標志位(數(shù)據(jù)立方體的一個新維)來表示目標類或對比類目標類和對比類除了這個新維外,其他部分在數(shù)據(jù)立方體中的表示是相同的通過上卷和下鉆來同步概化或具體化第37頁,課件共63頁,創(chuàng)作于2023年2月類比較挖掘——示例(1)任務比較Big-University本科生和研究生的一般特征任務的DMQL描述useBig_University_DBminecomparisonas“grad_vs_undergrad_students”inrelevanceto
name,gender,major,birth_place,birth_date,residence,phone#,gpafor“graduate_students”wherestatusin“graduate”versus“undergraduate_students”wherestatusin“undergraduate”analyzecount%fromstudent第38頁,課件共63頁,創(chuàng)作于2023年2月類比較挖掘——示例(2)進行類比較挖掘的輸入:給定的屬性:name,gender,major,birth_place,birth_date,residence,phone#andgpa在屬性ai上定義的概念分層Gen(ai)在屬性ai上定義的屬性分析臨界值Ui在屬性ai上定義的屬性概化臨界值Ti屬性相關性臨界值R第39頁,課件共63頁,創(chuàng)作于2023年2月類比較挖掘——示例(3)任務的處理過程數(shù)據(jù)收集DMQL查詢轉化為關系查詢,得到初始目標類工作關系和初始對比類工作關系
可以看成使構造數(shù)據(jù)立方體的過程引入一個新維status來標志目標類和對比類(graduate,undergraduate)其他屬性形成剩余的維在兩個數(shù)據(jù)類上進行維相關分析根據(jù)Ui與R,刪除不相關或者使弱相關的維:name,gender,major,phone#第40頁,課件共63頁,創(chuàng)作于2023年2月類比較挖掘——示例(4)同步概化在目標類和對比類上同步的進行概化,將相關的維概化到由屬性概化臨界值Ti決定的同樣的層次,形成主目標類關系/方體和主對比類關系/方體導出比較的表示用表、圖或規(guī)則等形式表達類比較描述的挖掘結果用戶應該能夠在主目標類關系/方體和主對比類關系/方體進行進一步的OLAP操作第41頁,課件共63頁,創(chuàng)作于2023年2月類比較挖掘——示例(5)目標類的主概化關系:研究生對比類的主概化關系:本科生第42頁,課件共63頁,創(chuàng)作于2023年2月類比較描述的表示用可視化的方式將類比較描述呈現(xiàn)給用戶,有助于用戶對挖掘結果的理解。概化關系交叉圖柱狀圖餅圖曲線量化規(guī)則第43頁,課件共63頁,創(chuàng)作于2023年2月類比較描述的量化區(qū)分規(guī)則表示(1)類比較描述中的目標類和對比類的區(qū)分特性也可以用量化規(guī)則來表示,即量化區(qū)分規(guī)則量化區(qū)分規(guī)則使用d-weight作為興趣度度量(特征化使用什么作為興趣度度量?)qa-概化元組Cj-目標類qa的d-weight是初始目標類工作關系中被qa覆蓋的元組數(shù)與初始目標類和對比類工作關系中被qa覆蓋的總元組數(shù)的比第44頁,課件共63頁,創(chuàng)作于2023年2月類比較描述的量化區(qū)分規(guī)則表示(2)目標類中較高的d-weight表明概化元組所代表的概念主要來自于目標類較低的d-weight值則表明該概念主要來自于對比類對給定的status=“Graduate”,Birth_coutry=“Canada”,Age_range=“25-30”,Gpa=“Good”
概化元組,其d-weight=90/(90+210)=30%(什么意思?)第45頁,課件共63頁,創(chuàng)作于2023年2月類比較描述的量化區(qū)分規(guī)則表示(3)使用類比較描述的量化區(qū)分規(guī)則表示可以更好的描述上述的情況,其形式為:比如,剛才的挖掘結果可以使用量化區(qū)分規(guī)則表達如下:請注意該區(qū)分規(guī)則表達的是充分條件,即X滿足條件,則X為研究生的概率為30%(特征化量化規(guī)則表達的是什么條件?)第46頁,課件共63頁,創(chuàng)作于2023年2月類描述:特征化和比較的表示類特征化和類比較是形成類描述的兩個方面,我們可以通過綜合類特征化規(guī)則和類區(qū)分規(guī)則來形成類描述規(guī)則。量化特征化規(guī)則必要條件量化區(qū)分規(guī)則充分條件量化描述規(guī)則充要條件第47頁,課件共63頁,創(chuàng)作于2023年2月量化描述規(guī)則——示例(1)一個給定類的概化元組的t-weight表明給定類中該元組的典型性(e.g.歐洲的銷售(類)中,電視機(元組)占多少百分比?)一個元組的d-weight表明,給定類的元組和對比類的元組相比,有多大區(qū)別(e.g.歐洲(類)的電視機(元組)銷售和北美的電視機銷售比如何?)第48頁,課件共63頁,創(chuàng)作于2023年2月量化描述規(guī)則——示例(2)對于上述交叉表,可以直接用量化描述規(guī)則來表示表明對99年AllElectronics公司的TV和計算機銷售,如果一商品在歐洲售出,則其為TV的概率為25%…該公司40%的TV在歐洲售出…第49頁,課件共63頁,創(chuàng)作于2023年2月在大型數(shù)據(jù)庫中挖掘描述統(tǒng)計度量對于數(shù)據(jù)挖掘任務,用戶經(jīng)常關心的數(shù)據(jù)特征包括數(shù)據(jù)的中心趨勢和離散特征,這些度量幫我們更好的理解數(shù)據(jù)的分布中心趨勢的度量包括:mean,median,mode
和midrange數(shù)據(jù)離散度量包括:quartiles,outliers,variance
和其他度量從數(shù)據(jù)挖掘的角度看,我們關心的是在大數(shù)據(jù)量的情況下,如何有效的計算上述度量關系數(shù)據(jù)庫中,系統(tǒng)提供了以下聚集函數(shù):count(),sum(),avg(),max(),min()在大型數(shù)據(jù)庫中挖掘用戶感興趣的描述統(tǒng)計計量涉及到如何利用關系數(shù)據(jù)庫現(xiàn)有的函數(shù)來計算上述兩類用戶感興趣的度量值第50頁,課件共63頁,創(chuàng)作于2023年2月度量中心趨勢算術平均值加權算術平均中位值:使用一個近似的計算來度量如果值的個數(shù)n是奇數(shù),則中位數(shù)(median)是有序集合的中間值,否則它是中間兩個數(shù)的平均值用插值法(interpolation)來近似計算模(mode)表示數(shù)據(jù)集中出現(xiàn)頻率最高的值單模態(tài)、雙模態(tài)、三模態(tài)、多模態(tài)和沒有模的情況單模態(tài)近似值計算的經(jīng)驗公式:中列數(shù):最大值和最小值的平均第51頁,課件共63頁,創(chuàng)作于2023年2月度量數(shù)據(jù)的離散度(1)最常用度量:五數(shù)概括(基于四分位數(shù))、中間四分位數(shù)區(qū)間和標準差四分位數(shù)、孤立點和盒圖百分位數(shù)(percentile):第k個百分位數(shù)是具有如下性質的值x:數(shù)據(jù)項的k%在x上或低于x四分位數(shù):Q1(25thpercentile),Q3(75thpercentile)中間四分位數(shù)區(qū)間(IQR):IQR=Q3–
Q1
對傾斜分布的描述,除了IQR還常需兩個四分位數(shù)Q1和Q3,以及中位數(shù)M,一個識別孤立點的常用規(guī)則是:挑出落在至少高于第三個四分位數(shù)或低于第一個四分位數(shù)1.5×IQR處的值第52頁,課件共63頁,創(chuàng)作于2023年2月度量數(shù)據(jù)的離散度(2)五數(shù)概括:min,Q1,M,
Q3,max盒圖:數(shù)據(jù)分布的一種直觀表示方差和標準差方差s2:n個觀測之x1,x2...xn的方差是標準差s是方差s2的平方根s是關于平均值的離散的度量,因此僅當選平均值做中心度量時使用所有觀測值相同則s=0,否則s>0方差和標準差都是代數(shù)度量第53頁,課件共63頁,創(chuàng)作于2023年2月盒圖——示例盒圖:數(shù)據(jù)分布的一種直觀表示,在盒圖中:端點在四分位數(shù)上,使得盒圖的長度是IQR中位數(shù)M用盒內的線標記胡須延伸到最大最小觀測值該盒圖為在給定時間段在AllElectronics的4個分店銷售的商品單價的盒圖分店1中位數(shù)$80Q1:$60Q3:$100第54頁,課件共63頁,創(chuàng)作于2023年2月基本統(tǒng)計類描述的圖形顯示——直方圖常用的顯
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 社區(qū)歷史文化的個人整合與傳播計劃
- 學生意見收集與反饋實施計劃
- 《化學生物專業(yè)英語》課程教學大綱
- 主管的員工培訓計劃
- 加強跨部門溝通和協(xié)作計劃
- 企業(yè)戰(zhàn)略轉型的路徑與風險控制
- 2024秋七年級數(shù)學上冊 第二章 整式的加減2.2 整式的加減 3整式的加減教學設計(新版)新人教版
- 企業(yè)服務團隊的建設與激勵策略
- 中學綜合素質拓展實踐基地的設計
- 企業(yè)并購的財務操作與風險控制
- 農(nóng)村建房隔壁鄰居地界分界協(xié)議書(2篇)
- DB11T 1030-2021 裝配式混凝土結構工程施工與質量驗收規(guī)程
- 柴油發(fā)動機顆粒物控制
- 大象版心理健康六年級《掌握學習金鑰匙》教案
- 2024年學校信訪工作制度
- 智鼎在線測評題庫88題
- 花城版音樂八下第4單元《生命之歌》教案
- 搶救技術 氣管插管術
- 電纜敷設施工方案及安全措施
- 蘇科版九年級物理上冊同步教學課件第十三章 電路初探-單元復習(課件)
- 《聯(lián)合國教科文:學生人工智能能力框架》-中文版
評論
0/150
提交評論