多元統(tǒng)計考試小論文 陜西省氣候差異的聚類分析_第1頁
多元統(tǒng)計考試小論文 陜西省氣候差異的聚類分析_第2頁
多元統(tǒng)計考試小論文 陜西省氣候差異的聚類分析_第3頁
多元統(tǒng)計考試小論文 陜西省氣候差異的聚類分析_第4頁
多元統(tǒng)計考試小論文 陜西省氣候差異的聚類分析_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、陜西省氣候差異的聚類分析摘要:本文以陜西省10個地級城市為研究對象,選取2012年陜西省氣候的相關(guān)數(shù)據(jù),利用SPSS 22.0軟件,對陜西省各大城市的平均氣溫、日照時數(shù)、平均風(fēng)速、相對濕度、無霜期、氣壓、降水量,共七個指標進行系統(tǒng)聚類分析和K均值聚類分析,并比較聚類的結(jié)果,對10個地級城市的氣候進行了客觀評價。最后,提出了一些相應(yīng)的對策與建議,為有關(guān)部門政策的制定提供參考與依據(jù)。關(guān)鍵詞:陜西省,氣候,聚類分析 ,SPSS 22.0引言氣候在各個地區(qū)不盡相同,又與人們的生活息息相關(guān)。距離很近的兩個城市,氣候可能相同,也有可能不同。陜西南北狹長,地形多樣,氣候差異很大,且明顯區(qū)分為三個氣候帶,即溫

2、帶、暖溫帶和北亞熱帶。其中,陜南屬于北亞熱帶氣候,關(guān)中及陜北大部屬暖溫帶氣候,陜北北部長城沿線屬中溫帶氣候?;陉兾魇夂蚍诸惾绱酥啵识鴮﹃兾魇「鞔蟪鞘械臍夂虿町愡M行聚類分析,有一定的實際意義與研究價值。聚類分析是分析樣品(或變量)量化分類的問題。本文選用多元統(tǒng)計分析中聚類分析的系統(tǒng)聚類分析方法與K均值聚類分析方法,對陜西省各大城市的氣候指標進行聚類分析,比較各地區(qū)間的氣候差異,結(jié)合所得結(jié)果與實際情況,提出相應(yīng)建議。下面簡要介紹本文所使用的兩種聚類方法。系統(tǒng)聚類:其基本思想是為距離相近的樣品(或變量)先聚成類,距離相遠的后聚成類,過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。系統(tǒng)

3、聚類的過程是:假設(shè)總共有n個樣品(或變量),第一步將每個樣品(或變量)獨自聚成一類,共有n類;第二步根據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個樣品(或變量)聚合為一類,其他的樣品(或變量)仍各自聚為一類,共聚成n-1類;第三步將“距離”最近的兩個類進一步聚成一類,共聚成n-2類;以上步驟一直進行下去,最后將所有的樣品(或變量)聚成一類。在這個過程中,如果某些類的最近距離相等,則可以把這幾類聚成一類。為了直觀地反映以上的聚類分析過程,常選擇把整個分類系統(tǒng)地畫成一張譜系圖。K均值聚類方法:其基本思想是將每一個樣品分配給最近中心(均值)的類中,具體算法至少包括三個步驟:(1),將所有的

4、樣品分成K個初始類;(2),通過歐幾里得距離將某個樣品劃入離中心最近的類中,并對獲得樣品與失去樣品的類,重新計算中心坐標;(3)重復(fù)步驟(2),直到所有的樣品都不能再分配時為止。K均值聚類算法是一種最為廣泛使用的聚類方法,這種算法對于大型數(shù)據(jù)有著明顯的優(yōu)勢,具有可伸縮性和高效的性能,通常樣本量大于100時我們才進行考慮。本文只是展示這種聚類分析的運算過程,才選取該方法進行說明。一、指標體系的建立及數(shù)據(jù)來源地區(qū)間的氣候差異受到諸多因素影響。本文借鑒研究氣候所使用的方法和多元統(tǒng)計分析方法,結(jié)合陜西省自身的情況與特點,考慮了具有綜合性、代表性、可比性、可得性和簡潔性的一系列指標,從中選取一些公認的指

5、標,構(gòu)建陜西省各地區(qū)氣候指標體系。根據(jù)2012年陜西省統(tǒng)計年鑒的數(shù)據(jù),選擇能夠反映陜西省氣候差異的平均氣溫(X1)、日照時數(shù)(X2)、平均風(fēng)速(X3)、相對濕度(X4)、無霜期(X5)、氣壓(X6)、降水量(X7)共7項指標構(gòu)建本文研究區(qū)的氣候差異指標體系。以上7項指標基本能夠反映研究區(qū)的氣候差異情況,具體數(shù)據(jù)如表一所示。2012年陜西省各地區(qū)氣候指標 指標城市平均氣溫(攝氏度)X1日照時數(shù)(小時)X2平均風(fēng)速(米/秒)X3相對濕度(%)X4無霜期(天)X5氣 壓(百帕)X6降水量(毫米)X7西 安 市14.61544.81.262223969.4426.7銅 川 市10.32007.12.2

6、67217904.7502.8寶 雞 市13.41642.11.267224945.3715.3咸 陽 市13.02051.61.966199960.7402.5渭 南 市14.51638.71.265225974.4418.1延 安 市10.32463.01.458206907.0481.8漢 中 市15.51278.71.274238955.8869.7榆 林 市8.42992.22.654210884.7566.8安 康 市15.81523.51.473225981.3815.3商 洛 市12.81879.92.167204930.6528.1表一研究的數(shù)據(jù)主要來自2012年陜西省統(tǒng)計年

7、鑒和陜西省各個城市政府網(wǎng)站,原始數(shù)據(jù)略。二、 距離的選擇與數(shù)據(jù)預(yù)處理在進行聚類之前,首先要分析樣品間的相似性,我們用距離來測度樣品之間的相似程度。例如,如果每個樣品有p個指標(變量)從不同方面描述其性質(zhì),形成一個p維向量。如果將n個樣品看成p維空間中的n個點,則兩個樣品間相似程度就可用p維空間中的兩點距離公式來度量。兩點間的距離公式可以從不同角度進行定義,存在閔可夫斯基距離,馬氏距離與蘭氏距離等距離。一般的,同一批數(shù)據(jù)采用不同的距離公式,得到的分類結(jié)果也不大相同。產(chǎn)生不同結(jié)果的原因,主要是由于不同的距離公式的側(cè)重點和實際意義都有不同。選擇距離公式應(yīng)遵循以下原則:(1) 要考慮所選距離公式在實際

8、應(yīng)用中有明確的意義。例如歐幾里得距離就有非常明確的空間距離的概念,馬氏距離有消除量綱影響的作用。(2) 要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進行聚類分析前已經(jīng)對變量作了標準化處理,則通常就可采用歐幾里得距離。(3) 要考慮研究對象的特點和計算量的大小。依照以上原則,我們先對數(shù)據(jù)進行標準化處理,之后根據(jù)所用聚類方法選取平方歐幾里得距離作為距離。由于表一中各個變量間存在不同量綱,不同數(shù)量級的情況,為使各個變量更具可比性,使數(shù)據(jù)可以在平等的條件下進行分析,要對數(shù)據(jù)進行預(yù)處理。常用的數(shù)據(jù)標準化方法有:Min-max 標準化方法,z-score 標準化方法,Decimal sc

9、aling小數(shù)定標標準化方法等等,SPSS 22.0默認的數(shù)據(jù)標準化方法為z-score標準化方法。我們在此也不多做其它的標準化轉(zhuǎn)換,直接利用SPSS 22.0軟件默認的z-score標準化方法對原數(shù)據(jù)進行預(yù)處理。z-score是基于原始數(shù)據(jù)的均值和標準差進行數(shù)據(jù)的標準化,適用于原始數(shù)據(jù)最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況,其轉(zhuǎn)換公式為:新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標準差。根據(jù)這一數(shù)據(jù)標準化方法,對2012年陜西省各地區(qū)各項氣候指標進行轉(zhuǎn)換,得到轉(zhuǎn)換后的新數(shù)據(jù)如表二。2012年陜西省各地區(qū)氣候指標聚類分析數(shù)據(jù) 指標城市X1X2X3X4X5X6X7西 安 市.70615-.7

10、0183-.85135-.54001.48775.84360-.86446銅 川 市-1.03894.206091.08353.27819-.00827-1.10503-.41390寶 雞 市.21915-.51074-.85135.27819.57042.11776.84421咸 陽 市.05682.29349.50307.11455-1.49632.58158-1.00773渭 南 市.66557-.51742-.85135-.04909.65309.99419-.91537延 安 市-1.038941.10145-.46437-1.19457-.91763-1.03576-.53824漢

11、 中 市1.07141-1.22443-.851351.423661.72779.434001.75834榆 林 市-1.810032.140761.85748-1.84912-.58695-1.70738-.03499安 康 市1.19316-.74366-.464371.26002.653091.202011.43626商 洛 市-.02435-.04372.89004.27819-1.08297-.32497-.26411表二三、 聚類分析對表二中的7個變量進行聚類分析,在這里我們利用spss 22.0軟件進行這一過程。為確保分類結(jié)果的準確性及比較的可行性,本文將采用兩種聚類方法。1.

12、聚類方法的選擇:系統(tǒng)聚類法。在此聚類法中計算類與類之間距離的方法有多種,主要有最短距離法、最長距離法、中間距離法、重心法、類間平均法、類內(nèi)平均法和離差平方和法七種方法。各種系統(tǒng)聚類法的步驟完全一樣,只是距離的遞推公式不同。我們先采用離差平方和法來進行聚類。該方法是Ward提出來的,所以又稱Ward法。其基本思想來自于方差分析,如果分類正確,同類樣品的離差平方和應(yīng)當較小,類與類的離差平方和較大。具體做法是先將n個樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使方差增加最小的兩類合并,直到所有的樣品歸為一類為止。設(shè)將n個樣品分成k類G1,G2,Gk,用Xit表示Gt中的第i

13、個樣品,nt表示Gt中樣品的個數(shù),是Gt的重心,則Gt的樣品離差平方和為St=(-)(-)如果Gp和Gq合并為新類Gr,類內(nèi)離差平方和分別為Sp=(-)(-)Sq=(-)(-)Sr=(-)(-)它們反映了各自類內(nèi)樣品的分散程度,如果Gp和Gq這兩類相距較近,則合并后所增加的離散平方和Sr - Sp - Sq 應(yīng)較??;否則,應(yīng)較大。于是定義Gp和Gq之間的平方距離為Sr - Sp - Sq其中,Gr=GpUGq,可以證明類間距離的遞推公式為(nk+np)/(nr+nk)+ (nk+nq)/(nr+nk)-(nk)/(nr+nk)。K均值聚類分析1967 年,MacQueen 首次提出了K均值聚類

14、分析算法。迄今為止,很多聚類任務(wù)都選擇該經(jīng)典算法.該算法的核心思想是找出K 個聚類中心c1,c2,cK,使得每一個數(shù)據(jù)點xi 和與其最近的聚類中心的平方距離和被最小化。K 均值聚類算法優(yōu)點為:能對大型數(shù)據(jù)集進行高效分類,其計算復(fù)雜性為O(tKmn),其中,t 為迭代次數(shù),K 為聚類數(shù),m 為特征屬性數(shù),n 為待分類的對象數(shù),通常,K,m,t<<n.在對大型數(shù)據(jù)集聚類時,K均值分析算法比層次聚類分析算法快得多.不足之處在于該算法通常會在獲得一個局部最優(yōu)值時終止;僅適合對數(shù)值型數(shù)據(jù)聚類;只適用于聚類結(jié)果為凸形(即類簇為凸形)的數(shù)據(jù)集以及K的取值。2.聚類結(jié)果根據(jù)表二的數(shù)據(jù),首先按照離差

15、平方和法進行聚類,得到結(jié)果如下,包括表三,表四以及圖一。首先會得到一個距離矩陣,選用距離為平方歐幾里得距離,具體平方歐式距離見表三,聚類分析聚結(jié)表則參見表四。個案平方歐氏距離123456789101.00012.5294.3967.701.32912.48912.84731.8149.0788.862212.529.0009.2536.98412.3756.21421.65710.30318.4272.91534.3969.253.00010.4514.17811.9574.82328.4553.6507.46847.7016.98410.451.0007.6887.67424.94919.6

16、0015.5931.8425.32912.3754.1787.688.00013.71811.45133.3847.7669.018612.4896.21411.9577.67413.718.00031.3018.30825.7856.952712.84721.6574.82324.94911.45131.301.00050.8362.27119.506831.81410.30328.45519.60033.3848.30850.836.00044.56415.63299.07818.4273.65015.5937.76625.7852.27144.564.00013.008108.8622.

17、9157.4681.8429.0186.95219.50615.63213.008.000表三聚類分析聚結(jié)表階段組合的集群系數(shù)首次出現(xiàn)階段集群下一個階段集群 1集群 2集群 1集群 2115.16500724101.0860053792.2210044374.6670375247.66002866811.81400871320.22614982629.44356991263.000780表四以及得到譜系圖,見圖一。圖一從圖一中可以清楚的看到:西安市(1)和渭南市(5)聚為一類(這個新類為表述方便起見記為A),漢中市(7)和安康市(9)聚為一類(記為B),之后寶雞市(3)和B又聚為一類(記為C)

18、,之后A和C聚為一個大類。咸陽市和商洛市聚為一類(記為D),延安市與榆林市聚為一類(記為E),D與銅川聚為一類(記為F),之后E和F聚為一個大類。最后以上兩個大類聚為一個大類。之后我們根據(jù)離差平方和的聚類結(jié)果,得到K均值聚類中K取值為2比較合適。再利用K均值聚類分析這一方法重新進行聚類,得到的結(jié)果如下,包括表五、表六、表七、表八、表九、表十。 K均值聚類分析:1)初始聚類中心表,如表五所示,其中的原始數(shù)據(jù)已經(jīng)經(jīng)過z-score標準化:初始聚類中心聚類12Zscore(X1)1.07141-1.81003Zscore(X2)-1.224432.14076Zscore(X3)-.851351.85

19、748Zscore(X4)1.42366-1.84912Zscore(X5)1.72779-.58695Zscore(X6).43400-1.70738Zscore(X7)1.75834-.03499表五2)表六為迭代過程中類中心變化表。從表六中可以看到本次聚類過程共經(jīng)歷了2次迭代。由于我們在迭代過程中類中心的變化量的子對話框中使用系統(tǒng)默認的選項(最大迭代次數(shù)為10和收斂判據(jù)為0)。所以在第二次迭代后,類中心的變化為0,從而停止迭代。迭代歷史記錄a迭代聚類中心的更改1211.9612.7042.000.000a. 由于聚類中心無更改或只有小的更改,因此達到了匯合。 任何中心的最大絕對坐標更改為

20、 .000。 當前迭代為 2。初始中心之間的最小距離是 7.130。表六3)給出各觀測量所屬的類及與所屬類中心的距離,如表七,其中的聚類列給出了觀測量所屬的類別,距離列給出了觀測量與所屬中心的距離。聚類成員個案號聚類距離111.703221.35131.989421.940511.521621.540711.961822.704911.4571021.418表七4)給出聚類結(jié)果形成的類中心的個變量值,如表八。最終聚類中心聚類12Zscore(X1).77109-.77109Zscore(X2)-.73962.73962Zscore(X3)-.77395.77395Zscore(X4).4745

21、5-.47455Zscore(X5).81843-.81843Zscore(X6).71831-.71831Zscore(X7).45180-.45180表八5)最終聚類中心間的距離如表九。最終聚類中心之間的距離聚類1213.66423.664表九6)每個聚類中的個案數(shù)量。每個聚類中的個案數(shù)量聚類15.00025.000有效10.000缺失.000表十結(jié)合表七,表八,表十??梢钥闯鍪畟€城市分為兩類。第一類為:西安市,寶雞市,渭南市,漢中市,安康市。第二類為:銅川市,咸陽市,延安市,榆林市,商洛市。四、 分類結(jié)果分析K均值聚類分析的一個很明顯的缺點在于算法中 K 是事先給定的,本文先利用離差平方

22、和法的出分類結(jié)果,取K值為2.之后再進行了K均值聚類。這在一定程度上使得兩種聚類結(jié)果較為相近。我們利用兩種聚類方法所得到的結(jié)果基本一致。這說明了聚類結(jié)果的可靠性較強。在所得城市分類中,第一類為:西安市,寶雞市,渭南市,漢中市,安康市。第二類為:銅川市,咸陽市,延安市,榆林市,商洛市。但是明顯的,離差平方和法的層次感更強,能夠獲知哪兩個城市間相近,即聚類的全過程。但是如果要進行聚類的城市是全國的城市氣候,那么系統(tǒng)聚類的譜系圖絕對是復(fù)雜的,不如K均值的聚類結(jié)果要好。所以,方法沒有好壞,要看其適用范圍。西安市和渭南市氣候相近,漢中市和安康市氣候相近,咸陽市和商洛市氣候相近。從衛(wèi)星地圖上來看,基本上相近的城市間距離都較近,且有相似的經(jīng)緯度與地理環(huán)境。如漢中市和安康市的衛(wèi)星地圖顯示,這兩座城市周圍基本上都是山,且兩市直線距離較近;又如咸陽市與商洛市,衛(wèi)星上顯示兩者的色澤基本一致,但明顯與西安市不同,西安市與渭南市相近,這兩個城市的顏色較前兩者深。西安市之所以和咸陽距離最近,卻不歸為一類的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論