探索性數(shù)據(jù)分析簡(jiǎn)介課件_第1頁(yè)
探索性數(shù)據(jù)分析簡(jiǎn)介課件_第2頁(yè)
探索性數(shù)據(jù)分析簡(jiǎn)介課件_第3頁(yè)
探索性數(shù)據(jù)分析簡(jiǎn)介課件_第4頁(yè)
探索性數(shù)據(jù)分析簡(jiǎn)介課件_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、探索性數(shù)據(jù)分析簡(jiǎn)介Exploratory Data Analysis(EDA) 探索性數(shù)據(jù)分析(EDA)是一個(gè)嶄新的統(tǒng)計(jì)研究方向。近幾十年來(lái),已有多本關(guān)于EDA方面的著作和許多學(xué)術(shù)研究論文,實(shí)際應(yīng)用也取得了明顯成效。目前,探索性數(shù)據(jù)分析已得到統(tǒng)計(jì)學(xué)界的公認(rèn),是一個(gè)極有發(fā)展前途的新領(lǐng)域。David C. Hoaglin等著,陳忠璉等譯.探索性數(shù)據(jù)分析.北京:中國(guó)統(tǒng)計(jì)出版社,20198/21/20221試驗(yàn)優(yōu)化技術(shù)一、探索性數(shù)據(jù)分析的主要特點(diǎn)研究從原始數(shù)據(jù)入手,完全以實(shí)際數(shù)據(jù)為依據(jù) 傳統(tǒng)的統(tǒng)計(jì)分析方法是先假定數(shù)據(jù)服從某種分布,如多數(shù)情況下假定數(shù)據(jù)服從正態(tài)分布,然后用適應(yīng)這種分布的模型進(jìn)行分析和預(yù)測(cè)

2、。但客觀實(shí)際的多數(shù)數(shù)據(jù)并不滿足假定的理論分布(如正態(tài)分布),這樣實(shí)際場(chǎng)合就會(huì)偏離嚴(yán)格假定所描述的理論模型,傳統(tǒng)統(tǒng)計(jì)方法就可能表現(xiàn)很差,從而使其應(yīng)用具有極大的局限性。EDA則不是從某種假定出發(fā),而是完全從客觀數(shù)據(jù)出發(fā),從實(shí)際數(shù)據(jù)中去探索其內(nèi)在的數(shù)據(jù)規(guī)律性。8/21/20222試驗(yàn)優(yōu)化技術(shù) 分析方法從實(shí)際出發(fā),不以某種理論為依據(jù) 傳統(tǒng)的統(tǒng)計(jì)分析方法是以概率論為理論基礎(chǔ),對(duì)各種參數(shù)的估計(jì)、檢驗(yàn)和預(yù)測(cè)給出具有一定精度的度量方法和度量值。EDA則以不完全正式的方法處理數(shù)據(jù)。在探索數(shù)據(jù)內(nèi)在的數(shù)量特征、數(shù)量關(guān)系和數(shù)量變化時(shí),什么方法可以達(dá)到這一目的就采用什么方法,靈活對(duì)待,靈活處理。方法的選擇完全服從于數(shù)據(jù)

3、的特點(diǎn)和研究的目的,并且更重視數(shù)據(jù)特征值的穩(wěn)健耐抗性,而相對(duì)放松對(duì)概率理論和精確度的刻意追求。8/21/20223試驗(yàn)優(yōu)化技術(shù) 分析工具簡(jiǎn)單直觀,更易于普及 傳統(tǒng)的統(tǒng)計(jì)分析方法應(yīng)用的數(shù)學(xué)工具越來(lái)越深?yuàn)W,統(tǒng)計(jì)研究也越來(lái)越理論化,這樣就使應(yīng)用的人越來(lái)越害怕統(tǒng)計(jì)。EDA提供多種多樣豐富多彩的詳細(xì)考察數(shù)據(jù)的方法。例如,它運(yùn)用簡(jiǎn)單直觀的莖葉圖、箱線圖、殘差圖、字母值、數(shù)據(jù)變換、中位數(shù)平滑等與傳統(tǒng)統(tǒng)計(jì)方法截然不同的方法,使得具有一般數(shù)學(xué)知識(shí)的人就可以進(jìn)行復(fù)雜的數(shù)據(jù)分析。這不僅極大地?cái)U(kuò)大了統(tǒng)計(jì)分析的用戶群體,而且為統(tǒng)計(jì)思想注入了新的活力。8/21/20224試驗(yàn)優(yōu)化技術(shù)1. 耐抗性(Resistance)

4、所謂耐抗性即對(duì)于數(shù)據(jù)的局部不良行為的非敏感性,它是EDA追求的主要目標(biāo)之一。對(duì)于具有耐抗性的分析結(jié)果,當(dāng)數(shù)據(jù)的一小部分被新的數(shù)據(jù)代替時(shí),即使它們與原來(lái)的數(shù)值很不一樣,分析結(jié)果也只會(huì)有輕微的改變。人們關(guān)注耐抗性,主要是因?yàn)椤昂谩钡臄?shù)據(jù)也難免有差錯(cuò)甚至是重大差錯(cuò),因此數(shù)據(jù)分析時(shí)要有防御大錯(cuò)的破壞性影響的措施。EDA是一種耐抗分析方法,其分析結(jié)果具有較強(qiáng)的耐抗性。 中位數(shù)平滑是一種耐抗技術(shù)。中位數(shù)(Median)是高耐抗統(tǒng)計(jì)量,而樣本均值不是。二、探索性數(shù)據(jù)分析的四大主題8/21/20225試驗(yàn)優(yōu)化技術(shù)2. 殘差(Residuals) 殘差是數(shù)據(jù)減去一個(gè)總括統(tǒng)計(jì)量或模型擬合值以后的殘余部分,即:殘差

5、數(shù)據(jù)擬合。 例如:用若干對(duì)(xi,yi)擬合 ,則殘差為 。 EDA認(rèn)為,分析一組數(shù)據(jù)而不仔細(xì)考察殘差是不完全的。EDA可以而且應(yīng)該利用耐抗分析把數(shù)據(jù)中的主導(dǎo)行為與反常行為清楚地分離開。當(dāng)數(shù)據(jù)的大部分遵從一致的模式,這個(gè)模式就決定一個(gè)耐抗擬合。耐抗殘差包含對(duì)于這個(gè)模式的劇烈偏離及機(jī)遇起伏。8/21/20226試驗(yàn)優(yōu)化技術(shù)3. 重新表達(dá)(Reexpression) 重新表達(dá)即找到合適的尺度或數(shù)據(jù)表達(dá)方式以更利于簡(jiǎn)化分析。EDA強(qiáng)調(diào),要盡早考慮數(shù)據(jù)的原始尺度是否合適的問(wèn)題。如果尺度不合適,重新表達(dá)成另一個(gè)尺度可能更有助于促進(jìn)對(duì)稱性、變異恒定性、關(guān)系直線性或效應(yīng)的可加性等。 重新表達(dá)亦稱變換(Tra

6、nsformation),一批數(shù)據(jù)x1,x2,xn的變換是一個(gè)函數(shù)T,它把每個(gè)xi用新值T(xi)來(lái)代替,使得變換后的數(shù)據(jù)值是 T(x1),T(x2 ) ,T(xn )。 8/21/20227試驗(yàn)優(yōu)化技術(shù)4. 啟示(Revelation) EDA強(qiáng)調(diào)啟示。所謂啟示就是通過(guò)EDA新的圖解顯示和各種分析顯示,發(fā)現(xiàn)規(guī)律,得到啟迪,滿足分析者的需要:看出數(shù)據(jù)、擬合、診斷量度以及殘差等行為,從而抓住意想不到的特點(diǎn)以及常見的一貫行為。8/21/20228試驗(yàn)優(yōu)化技術(shù)1. 批(Batch)或數(shù)據(jù)批 批即由n個(gè)觀測(cè)值x1,x2,xn組成的數(shù)據(jù)組。在傳統(tǒng)統(tǒng)計(jì)中,這個(gè)數(shù)據(jù)組常稱為樣本,但批只是原始數(shù)據(jù)組,沒有像對(duì)

7、樣本那樣的任何假設(shè),如數(shù)據(jù)間獨(dú)立、服從正態(tài)分布等。 注意:在傳統(tǒng)統(tǒng)計(jì)中,常用的樣本均值、方差等統(tǒng)計(jì)量是不耐抗的,即使只有一個(gè)異常數(shù)據(jù)也會(huì)對(duì)它們產(chǎn)生巨大的有害影響。而在EDA中,為了探索性目的,用基于排序和計(jì)數(shù)的簡(jiǎn)單的總括統(tǒng)計(jì)量,如中位數(shù),常常是耐抗的,即一批數(shù)據(jù)的一小部分不論怎樣變化也只對(duì)這個(gè)總括統(tǒng)計(jì)量有很小的影響。三、探索性數(shù)據(jù)分析的常用術(shù)語(yǔ)8/21/20229試驗(yàn)優(yōu)化技術(shù)2. 次序統(tǒng)計(jì)量(Order Statistics) 若把數(shù)據(jù)批x1,x2,xn排成從小到大的次序,即 則 叫做數(shù)據(jù)批x1,x2,xn的次序統(tǒng)計(jì)量。而x(i)是第i個(gè)次序統(tǒng)計(jì)量。 在排序的基礎(chǔ)上,從最小值到最大值各個(gè)數(shù)據(jù)值

8、的先后名次,即為觀測(cè)值的升秩(Upward rank),即x(1)的升秩為1,x(2)的升秩為2,x(i)的升秩為i; 類似地,有降秩的概念,在排序基礎(chǔ)上,從最大值到最小值的先后名次即為降秩(Downward rank), x(i)的降秩為n+1-i,同一個(gè)數(shù)據(jù)有:升秩降秩n+18/21/202210試驗(yàn)優(yōu)化技術(shù)3. 深度(Depth) 數(shù)據(jù)批中一個(gè)數(shù)據(jù)值的深度是它的升秩與降秩兩者中的最小值。在EDA中規(guī)定: 次序統(tǒng)計(jì)量中, 兩個(gè)極端值x(1)和x(n)的深度為1 兩個(gè)次極端值x(2)和x(n-1)的深度為2 第i個(gè)數(shù)據(jù)值和第n+1-i個(gè)數(shù)據(jù)值的深度皆為i在EDA中,用深度的概念可以規(guī)定怎樣從

9、數(shù)據(jù)批中提煉出各種探索性總括值。8/21/202211試驗(yàn)優(yōu)化技術(shù)4. 中位數(shù)(Median) 中位數(shù)是處于次序統(tǒng)計(jì)量中間的數(shù)據(jù),它用計(jì)數(shù)的方法給出數(shù)據(jù)批的中心,中位數(shù)將次序統(tǒng)計(jì)量分成“低值”和“高值”兩部分。中位數(shù)用字母M表示,即 中位數(shù)的深度記為d(M)8/21/202212試驗(yàn)優(yōu)化技術(shù)5. 四分?jǐn)?shù)(Fourth) EDA規(guī)定:深度為 的點(diǎn)為四分點(diǎn),相應(yīng)的數(shù)分別稱為四分?jǐn)?shù)。 四分?jǐn)?shù)有下、上兩個(gè),分別記作 ,則 表示取整運(yùn)算,當(dāng)d(F)遇有1/2時(shí),表示四分?jǐn)?shù)取深度d(F)相鄰兩數(shù)的平均。 8/21/202213試驗(yàn)優(yōu)化技術(shù) 由四分?jǐn)?shù)的定義可知,每個(gè)四分?jǐn)?shù)都在中位數(shù)和那個(gè)相應(yīng)的極端值的半中間

10、,從而兩個(gè)四分?jǐn)?shù)括住了這批數(shù)據(jù)的中間那一半,這一半通常被認(rèn)為具有典型意義。顯然,在次序統(tǒng)計(jì)量中,下四分?jǐn)?shù)以下為“低值”部分,上四分?jǐn)?shù)以上為“高值”部分。 把中位數(shù)、四分?jǐn)?shù)和極端數(shù)放在一起組成五數(shù)總括,可以給出一些又用的信息。 8/21/202214試驗(yàn)優(yōu)化技術(shù)【例1】Bendixen(1977)給出了需要24小時(shí)以上呼吸支持(一種強(qiáng)化治療)的11類病人的生存百分率。分析什么百分率是典型的。 次序統(tǒng)計(jì)量為 i: 1 2 3 4 5 6 7 8 9 10 11 x(i):36 37 45 52 56 58 66 68 75 90 100 由于n=11,中位數(shù)深度d(M)=(11+1)/2=6,中位

11、數(shù)Mx(6)58;四分?jǐn)?shù)深度d(F)=(6+1)/2=3.5,因而下四分?jǐn)?shù)Fl=(x(3)+x(4)/2=48.5,上四分?jǐn)?shù)Fu=(x(9)+x(8)/2=71.5 將中位數(shù)、極端數(shù)、四分?jǐn)?shù)放在一起的五數(shù)總括可知:這11類病人生存百分率的典型值是58%,盡管生存率可以高達(dá)100,低到36,但其中一半的生存率是48.5%71.5%8/21/202215試驗(yàn)優(yōu)化技術(shù)6. 展布(Spread) 展布是反映數(shù)據(jù)集中程度的一個(gè)指標(biāo),在EDA中,通常用兩個(gè)分位點(diǎn)的差距來(lái)定義。如一個(gè)簡(jiǎn)單的耐抗量度是四分展布dF,它定義為 dF=FuFl 它給出數(shù)據(jù)批的中間一半的寬度,簡(jiǎn)稱四分展布或F展布。 F展布強(qiáng)調(diào)數(shù)據(jù)批

12、中心部分的行為而不強(qiáng)調(diào)極端值,它是對(duì)邊遠(yuǎn)值不敏感的展布,這一點(diǎn)極差和標(biāo)準(zhǔn)差都做不到。 當(dāng)然,兩個(gè)極端值之差即極差也是展布,但是離群值對(duì)極差影響太大,一般極差沒有什么耐抗性。 8/21/202216試驗(yàn)優(yōu)化技術(shù)7. 臨界值(Critical value) 在EDA中,稱Fl1.5 Fl與Fu1.5 Fl分別為下、上內(nèi)界值,稱最接近它們的數(shù)據(jù)為臨界值,將小于下內(nèi)界值和大于上內(nèi)界值的數(shù)據(jù)稱為界外值或離群值。 進(jìn)一步,又稱Fl3 Fl與Fu3 Fl為下、上外界值,而稱這之外的數(shù)據(jù)為遠(yuǎn)外值或異常值。 EDA要求總括統(tǒng)計(jì)量要對(duì)離群值特別是異常值具有耐抗性。8/21/202217試驗(yàn)優(yōu)化技術(shù)四、耐抗線性回歸

13、 傳統(tǒng)回歸使用最廣泛的是最小二乘回歸,但最小二乘回歸不能提供耐抗性。耐抗線性回歸避免了這一困難。它把數(shù)據(jù)分成3個(gè)組,用組內(nèi)中位數(shù)達(dá)到耐抗性。基本思路是:首先把n個(gè)數(shù)據(jù)點(diǎn)(x1,y1),(xn,yn)分成3個(gè)組,每個(gè)組內(nèi)用中位數(shù)形成一個(gè)總括點(diǎn),再在這3個(gè)總括點(diǎn)的基礎(chǔ)上得到一條線,然后通過(guò)迭代調(diào)整或平滑這條直線。 這種方法稱為三組耐抗線法。8/21/202218試驗(yàn)優(yōu)化技術(shù)1. 形成3個(gè)組 首先把x的值排序,使得 ,在此基礎(chǔ)上,把n個(gè)數(shù)據(jù)點(diǎn) (xi,yi) 分成左、中、右3個(gè)組,使組的大小盡可能相等。當(dāng)xi之間沒有等值結(jié)時(shí),組內(nèi)的數(shù)據(jù)點(diǎn)數(shù)依賴于n除以3得到的余數(shù): 組 n=3k n=3k+1 n=

14、3k+2 左 k k k+1 中 k k+1 k 右 k k k+18/21/202219試驗(yàn)優(yōu)化技術(shù) 當(dāng)xi之間有等值結(jié)時(shí),各組數(shù)據(jù)點(diǎn)個(gè)數(shù)可能不能達(dá)到上述配置,因?yàn)橛型瑯觴值的點(diǎn)應(yīng)該進(jìn)入同一組。8/21/202220試驗(yàn)優(yōu)化技術(shù)2. 確定總括點(diǎn) 在所形成的3個(gè)組內(nèi),先求組內(nèi)x值的中位數(shù),然后單獨(dú)求y值的中位數(shù),得到總括點(diǎn)的x坐標(biāo)和y坐標(biāo): (xL,yL) (xM,yM) (xR,yR) 得到的這3個(gè)總括點(diǎn)可能是數(shù)據(jù)點(diǎn),也可能不是數(shù)據(jù)點(diǎn),因?yàn)閤和y的中位數(shù)是單獨(dú)確定的。 這種確定組內(nèi)總括點(diǎn)的方法給了擬合直線耐抗性。8/21/202221試驗(yàn)優(yōu)化技術(shù)3. 計(jì)算斜率和截距或中心值 若回歸直線為 ,

15、 則,初始直線的斜率 初始直線的截距 當(dāng)所有的數(shù)據(jù)點(diǎn)的x值都遠(yuǎn)離0時(shí),用斜率和截距來(lái)表示擬合直線意義不大,以斜率和中心值來(lái)表示通常更有用。 8/21/202222試驗(yàn)優(yōu)化技術(shù)以斜率和中心值來(lái)表示的初始直線是式中,斜率b0的計(jì)算和前面一樣,中心值(又稱水平)a0*用下式計(jì)算:8/21/202223試驗(yàn)優(yōu)化技術(shù)4. 殘差擬合與迭代 得到初始直線后,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的殘差 按先前的分組找出eL,eM,eR,利用三個(gè)殘差數(shù)據(jù)的總括點(diǎn)用相同的方法擬合直線,得到斜率和水平(xL,eL) (xM,eM) (xR,eR)8/21/202224試驗(yàn)優(yōu)化技術(shù) 用殘差擬合得到的斜率和水平對(duì)初始直線的斜率和水平進(jìn)行調(diào)整

16、,得到調(diào)整后的斜率和水平 然后用新的直線再計(jì)算殘差,并進(jìn)行殘差擬合,并用擬合結(jié)果對(duì)直線進(jìn)行調(diào)整,直到斜率的調(diào)整值(即殘差方程的斜率)不超過(guò)初始斜率絕對(duì)值的1或0.01%,這種迭代過(guò)程終止。8/21/202225試驗(yàn)優(yōu)化技術(shù)【例2】某學(xué)校兒童的年齡與身高的數(shù)據(jù)如下表,試用三組耐抗線法擬合兒童身高y與年齡x間的關(guān)系。編號(hào)年齡x /月身高y /cm殘差ei編號(hào)年齡x /月身高y /cm殘差ei1109137.60.7210129148.31.552113147.88.9511130147.50.263115138.8-3.0412133148.80.084116140.70.3713134133.2-16

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論