探索性數(shù)據(jù)分析簡介_第1頁
探索性數(shù)據(jù)分析簡介_第2頁
探索性數(shù)據(jù)分析簡介_第3頁
探索性數(shù)據(jù)分析簡介_第4頁
探索性數(shù)據(jù)分析簡介_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

探索性數(shù)據(jù)分析簡介ExploratoryDataAnalysis(EDA)探索性數(shù)據(jù)分析(EDA)是一個(gè)嶄新的統(tǒng)計(jì)研究方向。近幾十年來,已有多本關(guān)于EDA方面的著作和許多學(xué)術(shù)研究論文,實(shí)際應(yīng)用也取得了明顯成效。目前,探索性數(shù)據(jù)分析已得到統(tǒng)計(jì)學(xué)界的公認(rèn),是一個(gè)極有發(fā)展前途的新領(lǐng)域。DavidC.Hoaglin等著,陳忠璉等譯.探索性數(shù)據(jù)分析.北京:中國統(tǒng)計(jì)出版社,201912/2/20231試驗(yàn)優(yōu)化技術(shù)一、探索性數(shù)據(jù)分析的主要特點(diǎn)研究從原始數(shù)據(jù)入手,完全以實(shí)際數(shù)據(jù)為依據(jù)

傳統(tǒng)的統(tǒng)計(jì)分析方法是先假定數(shù)據(jù)服從某種分布,如多數(shù)情況下假定數(shù)據(jù)服從正態(tài)分布,然后用適應(yīng)這種分布的模型進(jìn)行分析和預(yù)測。但客觀實(shí)際的多數(shù)數(shù)據(jù)并不滿足假定的理論分布(如正態(tài)分布),這樣實(shí)際場合就會(huì)偏離嚴(yán)格假定所描述的理論模型,傳統(tǒng)統(tǒng)計(jì)方法就可能表現(xiàn)很差,從而使其應(yīng)用具有極大的局限性。EDA則不是從某種假定出發(fā),而是完全從客觀數(shù)據(jù)出發(fā),從實(shí)際數(shù)據(jù)中去探索其內(nèi)在的數(shù)據(jù)規(guī)律性。12/2/20232試驗(yàn)優(yōu)化技術(shù)

分析方法從實(shí)際出發(fā),不以某種理論為依據(jù)

傳統(tǒng)的統(tǒng)計(jì)分析方法是以概率論為理論基礎(chǔ),對各種參數(shù)的估計(jì)、檢驗(yàn)和預(yù)測給出具有一定精度的度量方法和度量值。EDA則以不完全正式的方法處理數(shù)據(jù)。在探索數(shù)據(jù)內(nèi)在的數(shù)量特征、數(shù)量關(guān)系和數(shù)量變化時(shí),什么方法可以達(dá)到這一目的就采用什么方法,靈活對待,靈活處理。方法的選擇完全服從于數(shù)據(jù)的特點(diǎn)和研究的目的,并且更重視數(shù)據(jù)特征值的穩(wěn)健耐抗性,而相對放松對概率理論和精確度的刻意追求。12/2/20233試驗(yàn)優(yōu)化技術(shù)

分析工具簡單直觀,更易于普及

傳統(tǒng)的統(tǒng)計(jì)分析方法應(yīng)用的數(shù)學(xué)工具越來越深?yuàn)W,統(tǒng)計(jì)研究也越來越理論化,這樣就使應(yīng)用的人越來越害怕統(tǒng)計(jì)。EDA提供多種多樣豐富多彩的詳細(xì)考察數(shù)據(jù)的方法。例如,它運(yùn)用簡單直觀的莖葉圖、箱線圖、殘差圖、字母值、數(shù)據(jù)變換、中位數(shù)平滑等與傳統(tǒng)統(tǒng)計(jì)方法截然不同的方法,使得具有一般數(shù)學(xué)知識的人就可以進(jìn)行復(fù)雜的數(shù)據(jù)分析。這不僅極大地?cái)U(kuò)大了統(tǒng)計(jì)分析的用戶群體,而且為統(tǒng)計(jì)思想注入了新的活力。12/2/20234試驗(yàn)優(yōu)化技術(shù)1.耐抗性(Resistance)所謂耐抗性即對于數(shù)據(jù)的局部不良行為的非敏感性,它是EDA追求的主要目標(biāo)之一。對于具有耐抗性的分析結(jié)果,當(dāng)數(shù)據(jù)的一小部分被新的數(shù)據(jù)代替時(shí),即使它們與原來的數(shù)值很不一樣,分析結(jié)果也只會(huì)有輕微的改變。人們關(guān)注耐抗性,主要是因?yàn)椤昂谩钡臄?shù)據(jù)也難免有差錯(cuò)甚至是重大差錯(cuò),因此數(shù)據(jù)分析時(shí)要有防御大錯(cuò)的破壞性影響的措施。EDA是一種耐抗分析方法,其分析結(jié)果具有較強(qiáng)的耐抗性。

中位數(shù)平滑是一種耐抗技術(shù)。中位數(shù)(Median)是高耐抗統(tǒng)計(jì)量,而樣本均值不是。二、探索性數(shù)據(jù)分析的四大主題12/2/20235試驗(yàn)優(yōu)化技術(shù)2.殘差(Residuals)殘差是數(shù)據(jù)減去一個(gè)總括統(tǒng)計(jì)量或模型擬合值以后的殘余部分,即:殘差=數(shù)據(jù)-擬合。例如:用若干對(xi,yi)擬合,則殘差為。EDA認(rèn)為,分析一組數(shù)據(jù)而不仔細(xì)考察殘差是不完全的。EDA可以而且應(yīng)該利用耐抗分析把數(shù)據(jù)中的主導(dǎo)行為與反常行為清楚地分離開。當(dāng)數(shù)據(jù)的大部分遵從一致的模式,這個(gè)模式就決定一個(gè)耐抗擬合。耐抗殘差包含對于這個(gè)模式的劇烈偏離及機(jī)遇起伏。12/2/20236試驗(yàn)優(yōu)化技術(shù)3.重新表達(dá)(Re-expression)重新表達(dá)即找到合適的尺度或數(shù)據(jù)表達(dá)方式以更利于簡化分析。EDA強(qiáng)調(diào),要盡早考慮數(shù)據(jù)的原始尺度是否合適的問題。如果尺度不合適,重新表達(dá)成另一個(gè)尺度可能更有助于促進(jìn)對稱性、變異恒定性、關(guān)系直線性或效應(yīng)的可加性等。重新表達(dá)亦稱變換(Transformation),一批數(shù)據(jù)x1,x2,…,xn的變換是一個(gè)函數(shù)T,它把每個(gè)xi用新值T(xi)來代替,使得變換后的數(shù)據(jù)值是

T(x1),T(x2)

,…,T(xn)。

12/2/20237試驗(yàn)優(yōu)化技術(shù)4.啟示(Revelation)EDA強(qiáng)調(diào)啟示。所謂啟示就是通過EDA新的圖解顯示和各種分析顯示,發(fā)現(xiàn)規(guī)律,得到啟迪,滿足分析者的需要:看出數(shù)據(jù)、擬合、診斷量度以及殘差等行為,從而抓住意想不到的特點(diǎn)以及常見的一貫行為。12/2/20238試驗(yàn)優(yōu)化技術(shù)1.批(Batch)或數(shù)據(jù)批批即由n個(gè)觀測值x1,x2,…,xn組成的數(shù)據(jù)組。在傳統(tǒng)統(tǒng)計(jì)中,這個(gè)數(shù)據(jù)組常稱為樣本,但批只是原始數(shù)據(jù)組,沒有像對樣本那樣的任何假設(shè),如數(shù)據(jù)間獨(dú)立、服從正態(tài)分布等。注意:在傳統(tǒng)統(tǒng)計(jì)中,常用的樣本均值、方差等統(tǒng)計(jì)量是不耐抗的,即使只有一個(gè)異常數(shù)據(jù)也會(huì)對它們產(chǎn)生巨大的有害影響。而在EDA中,為了探索性目的,用基于排序和計(jì)數(shù)的簡單的總括統(tǒng)計(jì)量,如中位數(shù),常常是耐抗的,即一批數(shù)據(jù)的一小部分不論怎樣變化也只對這個(gè)總括統(tǒng)計(jì)量有很小的影響。三、探索性數(shù)據(jù)分析的常用術(shù)語12/2/20239試驗(yàn)優(yōu)化技術(shù)2.次序統(tǒng)計(jì)量(OrderStatistics)若把數(shù)據(jù)批x1,x2,…,xn排成從小到大的次序,即

則叫做數(shù)據(jù)批x1,x2,…,xn的次序統(tǒng)計(jì)量。而x(i)是第i個(gè)次序統(tǒng)計(jì)量。在排序的基礎(chǔ)上,從最小值到最大值各個(gè)數(shù)據(jù)值的先后名次,即為觀測值的升秩(Upwardrank),即x(1)的升秩為1,x(2)的升秩為2,x(i)的升秩為i;類似地,有降秩的概念,在排序基礎(chǔ)上,從最大值到最小值的先后名次即為降秩(Downwardrank),x(i)的降秩為n+1-i,同一個(gè)數(shù)據(jù)有:升秩+降秩=n+112/2/202310試驗(yàn)優(yōu)化技術(shù)3.深度(Depth)數(shù)據(jù)批中一個(gè)數(shù)據(jù)值的深度是它的升秩與降秩兩者中的最小值。在EDA中規(guī)定:次序統(tǒng)計(jì)量中,

兩個(gè)極端值x(1)和x(n)的深度為1兩個(gè)次極端值x(2)和x(n-1)的深度為2第i個(gè)數(shù)據(jù)值和第n+1-i個(gè)數(shù)據(jù)值的深度皆為i在EDA中,用深度的概念可以規(guī)定怎樣從數(shù)據(jù)批中提煉出各種探索性總括值。12/2/202311試驗(yàn)優(yōu)化技術(shù)4.中位數(shù)(Median)中位數(shù)是處于次序統(tǒng)計(jì)量中間的數(shù)據(jù),它用計(jì)數(shù)的方法給出數(shù)據(jù)批的中心,中位數(shù)將次序統(tǒng)計(jì)量分成“低值”和“高值”兩部分。中位數(shù)用字母M表示,即

中位數(shù)的深度記為d(M)12/2/202312試驗(yàn)優(yōu)化技術(shù)5.四分?jǐn)?shù)(Fourth)EDA規(guī)定:深度為的點(diǎn)為四分點(diǎn),相應(yīng)的數(shù)分別稱為四分?jǐn)?shù)。四分?jǐn)?shù)有下、上兩個(gè),分別記作,則

[]表示取整運(yùn)算,當(dāng)d(F)遇有1/2時(shí),表示四分?jǐn)?shù)取深度d(F)相鄰兩數(shù)的平均。

12/2/202313試驗(yàn)優(yōu)化技術(shù)由四分?jǐn)?shù)的定義可知,每個(gè)四分?jǐn)?shù)都在中位數(shù)和那個(gè)相應(yīng)的極端值的半中間,從而兩個(gè)四分?jǐn)?shù)括住了這批數(shù)據(jù)的中間那一半,這一半通常被認(rèn)為具有典型意義。顯然,在次序統(tǒng)計(jì)量中,下四分?jǐn)?shù)以下為“低值”部分,上四分?jǐn)?shù)以上為“高值”部分。把中位數(shù)、四分?jǐn)?shù)和極端數(shù)放在一起組成五數(shù)總括,可以給出一些又用的信息。

12/2/202314試驗(yàn)優(yōu)化技術(shù)【例1】Bendixen(1977)給出了需要24小時(shí)以上呼吸支持(一種強(qiáng)化治療)的11類病人的生存百分率。分析什么百分率是典型的。次序統(tǒng)計(jì)量為

i:1234567891011x(i):36374552565866687590100由于n=11,中位數(shù)深度d(M)=(11+1)/2=6,中位數(shù)M=x(6)=58;四分?jǐn)?shù)深度d(F)=(6+1)/2=3.5,因而下四分?jǐn)?shù)Fl=(x(3)+x(4))/2=48.5,上四分?jǐn)?shù)Fu=(x(9)+x(8))/2=71.5將中位數(shù)、極端數(shù)、四分?jǐn)?shù)放在一起的五數(shù)總括可知:這11類病人生存百分率的典型值是58%,盡管生存率可以高達(dá)100%,低到36%,但其中一半的生存率是48.5%~71.5%12/2/202315試驗(yàn)優(yōu)化技術(shù)6.展布(Spread)展布是反映數(shù)據(jù)集中程度的一個(gè)指標(biāo),在EDA中,通常用兩個(gè)分位點(diǎn)的差距來定義。如一個(gè)簡單的耐抗量度是四分展布dF,它定義為

dF=Fu-Fl它給出數(shù)據(jù)批的中間一半的寬度,簡稱四分展布或F展布。F展布強(qiáng)調(diào)數(shù)據(jù)批中心部分的行為而不強(qiáng)調(diào)極端值,它是對邊遠(yuǎn)值不敏感的展布,這一點(diǎn)極差和標(biāo)準(zhǔn)差都做不到。當(dāng)然,兩個(gè)極端值之差即極差也是展布,但是離群值對極差影響太大,一般極差沒有什么耐抗性。12/2/202316試驗(yàn)優(yōu)化技術(shù)7.臨界值(Criticalvalue)在EDA中,稱Fl-1.5Fl與Fu+1.5Fl分別為下、上內(nèi)界值,稱最接近它們的數(shù)據(jù)為臨界值,將小于下內(nèi)界值和大于上內(nèi)界值的數(shù)據(jù)稱為界外值或離群值。進(jìn)一步,又稱Fl-3Fl與Fu+3Fl為下、上外界值,而稱這之外的數(shù)據(jù)為遠(yuǎn)外值或異常值。EDA要求總括統(tǒng)計(jì)量要對離群值特別是異常值具有耐抗性。12/2/202317試驗(yàn)優(yōu)化技術(shù)四、耐抗線性回歸傳統(tǒng)回歸使用最廣泛的是最小二乘回歸,但最小二乘回歸不能提供耐抗性。耐抗線性回歸避免了這一困難。它把數(shù)據(jù)分成3個(gè)組,用組內(nèi)中位數(shù)達(dá)到耐抗性?;舅悸肥牵菏紫劝裯個(gè)數(shù)據(jù)點(diǎn)(x1,y1),…,(xn,yn)分成3個(gè)組,每個(gè)組內(nèi)用中位數(shù)形成一個(gè)總括點(diǎn),再在這3個(gè)總括點(diǎn)的基礎(chǔ)上得到一條線,然后通過迭代調(diào)整或平滑這條直線。這種方法稱為三組耐抗線法。12/2/202318試驗(yàn)優(yōu)化技術(shù)1.形成3個(gè)組

首先把x的值排序,使得,在此基礎(chǔ)上,把n個(gè)數(shù)據(jù)點(diǎn)(xi,yi)分成左、中、右3個(gè)組,使組的大小盡可能相等。當(dāng)xi之間沒有等值結(jié)時(shí),組內(nèi)的數(shù)據(jù)點(diǎn)數(shù)依賴于n除以3得到的余數(shù):組n=3kn=3k+1n=3k+2左kkk+1中kk+1k右kkk+112/2/202319試驗(yàn)優(yōu)化技術(shù)當(dāng)xi之間有等值結(jié)時(shí),各組數(shù)據(jù)點(diǎn)個(gè)數(shù)可能不能達(dá)到上述配置,因?yàn)橛型瑯觴值的點(diǎn)應(yīng)該進(jìn)入同一組。12/2/202320試驗(yàn)優(yōu)化技術(shù)2.確定總括點(diǎn)在所形成的3個(gè)組內(nèi),先求組內(nèi)x值的中位數(shù),然后單獨(dú)求y值的中位數(shù),得到總括點(diǎn)的x坐標(biāo)和y坐標(biāo):

(xL,yL)(xM,yM)(xR,yR)

得到的這3個(gè)總括點(diǎn)可能是數(shù)據(jù)點(diǎn),也可能不是數(shù)據(jù)點(diǎn),因?yàn)閤和y的中位數(shù)是單獨(dú)確定的。

這種確定組內(nèi)總括點(diǎn)的方法給了擬合直線耐抗性。12/2/202321試驗(yàn)優(yōu)化技術(shù)3.計(jì)算斜率和截距或中心值若回歸直線為,則,初始直線的斜率初始直線的截距當(dāng)所有的數(shù)據(jù)點(diǎn)的x值都遠(yuǎn)離0時(shí),用斜率和截距來表示擬合直線意義不大,以斜率和中心值來表示通常更有用。

12/2/202322試驗(yàn)優(yōu)化技術(shù)以斜率和中心值來表示的初始直線是式中,斜率b0的計(jì)算和前面一樣,中心值(又稱水平)a0*用下式計(jì)算:12/2/202323試驗(yàn)優(yōu)化技術(shù)4.殘差擬合與迭代得到初始直線后,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的殘差

按先前的分組找出eL,eM,eR,利用三個(gè)殘差數(shù)據(jù)的總括點(diǎn)用相同的方法擬合直線,得到斜率和水平(xL,eL)(xM,eM)(xR,eR)12/2/202324試驗(yàn)優(yōu)化技術(shù)用殘差擬合得到的斜率和水平對初始直線的斜率和水平進(jìn)行調(diào)整,得到調(diào)整后的斜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論