版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于SPSS的聚類分析在行業(yè)統(tǒng)計(jì)數(shù)據(jù)中的應(yīng)用摘要基于SPSS的聚類分析在行業(yè)統(tǒng)計(jì)數(shù)據(jù)中的應(yīng)用改革開(kāi)放以來(lái),隨著中國(guó)的經(jīng)濟(jì)高速發(fā)展,各行膈應(yīng)人都已經(jīng)有了飛躍進(jìn)步??萍荚诂F(xiàn)在的經(jīng)濟(jì)發(fā)展中起著越來(lái)越重要的作用。目前,人民已經(jīng)在總體上達(dá)到了小康水平,我國(guó)也已經(jīng)成為了世界上最有潛力的大國(guó)。中國(guó)的經(jīng)濟(jì)離不開(kāi)改革開(kāi)放,離不開(kāi)科技的發(fā)展,離不開(kāi)各行各業(yè)努力工作的人民的辛勤勞動(dòng)。從十九世紀(jì)五十年代以來(lái),中國(guó)已經(jīng)陸續(xù)的完成了是一個(gè)“五年計(jì)劃”,在這五十多年里,中國(guó)所取得的成就是全世界有目共睹的,中國(guó)的經(jīng)濟(jì)得到了非??斓脑鲩L(zhǎng),為國(guó)民經(jīng)濟(jì)的發(fā)展打下了非常堅(jiān)實(shí)的基礎(chǔ)。本文的研究對(duì)象是“中經(jīng)網(wǎng)數(shù)據(jù)統(tǒng)計(jì)庫(kù)”中的行業(yè)統(tǒng)計(jì)數(shù)據(jù)
2、,數(shù)據(jù)包括含有年份的和地區(qū)的統(tǒng)計(jì)數(shù)據(jù)。本文建立的主要模型是主成分-聚類模型。該模型的主要思想是將數(shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行自主分類,產(chǎn)生多個(gè)分類結(jié)果。本文的研究將采用兩種方法進(jìn)行聚類分析:一種是系統(tǒng)聚類法,另一種是K-聚類法(快速聚類法)。通過(guò)這兩個(gè)模型,對(duì)各地區(qū)的的經(jīng)濟(jì)進(jìn)行劃分,能更好的了解中國(guó)的經(jīng)濟(jì)信息。關(guān)鍵詞:聚類分析;SPSS;系統(tǒng)聚類法;K-聚類法。AbstractThe Application of Clustering Analysis Based on SPSS in Industry Statistical DataSince the
3、 reform and opening up,every industry has got a leap in progress with the rapid development of Chinas rapid economic.Technology and science play an important role in economic development.People have reached a comfortable level in general,and China has become ane of the most potential countries in th
4、e world.The economy of China is inseparable from the reform of Chinas development and technology.The economy is also inseparable from all walks of life to work hard.China has successively completed some five-years plans in these fifty years since the year of 1850.Chinas achievements are obvious to a
5、ll around the world in the fifty years,and Chinas economy has grown fast,and laid a very solid foundation for the development of the national economy.The object of this paper is CEInet Statistics Database.The data contains the years and regions statistics. The main model established in this paper is
6、 the Principal Component Analysis-Clustering model.The model idea of this model is the data according to its many characteristics and the degree of closeness,in the absence of prior knowledge classification independently,produce multiple classification results.The research will use two kinds of meth
7、od for clustering analysis,one is the system clustering method,the other is a K-clustering method.By these two models,can better understand Chinas economic information.Key words:Clustering Analysis;SPSS;System clustering;A K-clustering。3目錄第1章 緒論11.1.選題背景11.2數(shù)據(jù)來(lái)源11.3本文主要工作1第2章 SPSS軟件簡(jiǎn)介2第3章 聚類分析33.1簡(jiǎn)介
8、33.2系統(tǒng)聚類法33.3均值聚類法33.4聚類法分析的優(yōu)缺點(diǎn)3第4章聚類分析的應(yīng)用54.1數(shù)據(jù)輸入54.2統(tǒng)計(jì)數(shù)據(jù)-系統(tǒng)聚類分析54.3統(tǒng)計(jì)數(shù)據(jù)-k均值聚類分析7第5章總結(jié)9參考文獻(xiàn)10致謝11第1章 緒論1.1.選題背景目前,社會(huì)主義市場(chǎng)經(jīng)濟(jì)體制在社會(huì)中發(fā)揮著重要的作用。市場(chǎng)和宏觀調(diào)控互相協(xié)調(diào),相得益彰,各種體系發(fā)展日益完善,經(jīng)濟(jì)形勢(shì)發(fā)展越來(lái)越好,產(chǎn)生的價(jià)值越來(lái)越大。到2020年,我國(guó)會(huì)建立起比較成熟的社會(huì)主義市場(chǎng)經(jīng)濟(jì)體制。2012年一月份至九月份,中國(guó)經(jīng)濟(jì)增長(zhǎng)速度是已經(jīng)回落到7.7%。相較于中國(guó)過(guò)去30年接近10%的增長(zhǎng)速度,十一五期間更是接近11.2%的增長(zhǎng)速度。因此在10%或者8%以
9、下,顯然是經(jīng)濟(jì)增長(zhǎng)緩慢。另外,中經(jīng)數(shù)據(jù)統(tǒng)計(jì)發(fā)布的各種宏觀數(shù)據(jù)顯示,中國(guó)經(jīng)濟(jì)增長(zhǎng)速度已經(jīng)開(kāi)始緩慢。1.2數(shù)據(jù)來(lái)源中經(jīng)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)庫(kù)是由國(guó)家信息中心中經(jīng)網(wǎng)憑借與國(guó)家發(fā)改委、國(guó)家統(tǒng)計(jì)局、海關(guān)總署、各行業(yè)主管部門以及其他政府部門的良好合作關(guān)系,經(jīng)過(guò)長(zhǎng)期數(shù)據(jù)積累并依托自身技術(shù)、資源優(yōu)勢(shì),通過(guò)專業(yè)化加工處理組織而成的一個(gè)綜合、有序的龐大經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫(kù)群。本文從中經(jīng)網(wǎng)選取個(gè)地區(qū)最近三年各季度城鎮(zhèn)工資總額來(lái)進(jìn)行分析,該部分反映我國(guó)勞動(dòng)經(jīng)濟(jì)方面的基本情況,其中各地區(qū)包括31個(gè)省、自治區(qū)、直轄市。1.3本文主要工作本文的研究對(duì)象是“中經(jīng)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)庫(kù)”中個(gè)地區(qū)城鎮(zhèn)工資總額,總所周知,各地區(qū)由于地理,文化的差異,其各地
10、區(qū)的工資水平以及發(fā)展程度是不一樣的。分析各地區(qū)的工資問(wèn)題,可以為我們畢業(yè)生提供宏觀的就業(yè)位置,給出一個(gè)合理的基準(zhǔn)判斷。本文就是針對(duì)按照地區(qū)各季度城鎮(zhèn)工資總額等數(shù)據(jù),對(duì)中國(guó)各省份地區(qū)進(jìn)行聚類分析,建立聚類分析【1】模型。聚類分析是數(shù)據(jù)挖掘【2】中的一種重要的算法,他將生活中的數(shù)據(jù)對(duì)象進(jìn)行數(shù)據(jù)分析,將性質(zhì)相似或者相近的對(duì)象放在一個(gè)類中,將性質(zhì)不同的對(duì)象放在不同的類中,研究聚類分析,使得我們從復(fù)雜的現(xiàn)實(shí)生活中提取有用的信息,從而更好的分析數(shù)據(jù),反應(yīng)生活中的社會(huì)信息。本文建立的主要模型是系統(tǒng)聚類分析模型和K-均值聚類分析模型,該模型主要思想是將數(shù)據(jù)按照親疏的不同進(jìn)行聚類,一步一步聚類,最終聚類成一個(gè)大
11、類。然后對(duì)聚類過(guò)程中的步驟進(jìn)行分析,從而得到聚類結(jié)果。第2章 SPSS軟件簡(jiǎn)介SPSS【3】是現(xiàn)代統(tǒng)計(jì)軟件的典型代表,其全稱:Statistical Package for the Social Sciences,即社會(huì)科學(xué)統(tǒng)計(jì)軟件包。世界上公認(rèn)數(shù)據(jù)分析軟件有三個(gè),分別是SAS、SPSS和SYSTAT。SPSS軟件作為其中的一個(gè)統(tǒng)計(jì)學(xué)軟件,有著強(qiáng)大的功能和特點(diǎn)。SPSS統(tǒng)計(jì)學(xué)軟件有以下幾個(gè)特點(diǎn)。(1)利用SPSS軟件能夠?qū)崿F(xiàn)很多的類似于微軟的操作,列如可以將數(shù)據(jù)錄入到SPSS中,可以將資料進(jìn)行編輯,可以將數(shù)據(jù)進(jìn)行管理,可以像EXCEL一樣進(jìn)行報(bào)表制作等。(2)SPSS統(tǒng)計(jì)學(xué)軟件的統(tǒng)計(jì)功能,可以
12、實(shí)現(xiàn)“報(bào)告”“描述統(tǒng)計(jì)”“表”“比較均值”“一般線性模型”“廣義線性模型”“相關(guān)”“回歸”等功能。(3)SPSS數(shù)據(jù)輸入和輸出可以選取多種格式如:sav、xls等等。第3章 聚類分析3.1簡(jiǎn)介聚類分析【4】是數(shù)據(jù)挖掘中一種重要的算法。它主要是將具有相同或者相似性質(zhì)的對(duì)象放在同一個(gè)集合中,把具有不同性質(zhì)的對(duì)象放在不同的集合中。聚類分析在商業(yè)、生物、教育等很多行業(yè)有著重要的應(yīng)用。正是有了類似分析這樣的數(shù)據(jù)挖掘算法,我們才從龐大的社會(huì)信息中提取出對(duì)我們有用的信息,更好的反饋社會(huì)。3.2系統(tǒng)聚類法系統(tǒng)聚類法分為Q型聚類和R型聚類兩種:Q型聚類是對(duì)樣本進(jìn)行聚類,它使具有相似特征的樣本聚在一起,使差異性大
13、的樣本分離開(kāi)來(lái);R型聚類是對(duì)變量進(jìn)行聚類,它使差異性大的變量分離開(kāi)來(lái),相似的變量聚集在一起,這樣就可以在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù)、降低變量維度的目的。在本文中Q型聚類中類與類之間距離的計(jì)算方法主要有以下幾種:(1)最短距離法,是指兩類之間每個(gè)個(gè)體距離的最小值;(2)最長(zhǎng)距離法,是指兩類之間每個(gè)個(gè)體距離的最大值;(3)組間聯(lián)接法,是指兩類之間個(gè)體之間距離的平均值;(4)組內(nèi)聯(lián)接法,是指把兩類所有個(gè)體之間的距離都考慮在內(nèi);(5)重心距離法,是指兩個(gè)類中心之間的距離;(6)離差平方和法,是指同類樣品的離差平方和應(yīng)當(dāng)較小,類與類之間的離差平方和應(yīng)當(dāng)較大。3.3均
14、值聚類法k均值類法【5】的工作原理:該算法首先確定初始的聚類中心,一般是隨機(jī)的選定個(gè)對(duì)象,然后計(jì)算各個(gè)樣本到聚類中心的距離,從而把樣本或者對(duì)象歸到離它最近的聚類中心所在的類。計(jì)算完所有樣本后,重現(xiàn)計(jì)算聚類中心,重新對(duì)樣本或者對(duì)象進(jìn)行類,如果相鄰兩次的聚類中心沒(méi)有變化或者兩側(cè)的聚類中心之間的差距已經(jīng)收斂,則聚類結(jié)束。3.4聚類法分析的優(yōu)缺點(diǎn)聚類分析是數(shù)據(jù)挖掘中的經(jīng)典算法之一。聚類分析的優(yōu)點(diǎn)如下:(1)聚類分析能夠很好的反映類之間的關(guān)系,研究聚類分析能夠研究數(shù)據(jù)背后的對(duì)象的性質(zhì),能夠?qū)ξ覀兞私膺@些對(duì)象有著重要的作用。(2)聚類分析能夠使用聚類中心來(lái)很好地體現(xiàn)該類的性質(zhì)。比較不同類的聚類中心能夠發(fā)現(xiàn)
15、不同類的聚類中心所代表的意義不同。(3)聚類分析能夠幫助我們從數(shù)據(jù)中提取重要的信息,聚類分析可以反映數(shù)據(jù)信息的有效性。聚類分析的缺點(diǎn)如下:(1)以k均值聚類算法為例,初始聚類中心隨機(jī)設(shè)定,這就使研究者在設(shè)定聚類中心時(shí)產(chǎn)生隨機(jī)性。(2)聚類分析的類數(shù)k的確定。在聚類分析算法中,一般人為的設(shè)定k值。這樣,如果將一堆對(duì)象分城較少的類,則可能不能體現(xiàn)聚類中各個(gè)類的性質(zhì)。如果將對(duì)象分成較多的類,則可能造成數(shù)據(jù)的冗余。第4章聚類分析的應(yīng)用4.1數(shù)據(jù)輸入圖4.1年份各地區(qū)數(shù)據(jù)變量視圖在SPSS統(tǒng)計(jì)學(xué)軟件中,有“數(shù)據(jù)視圖”和“變量視圖”兩種。數(shù)據(jù)視圖就是將實(shí)際數(shù)據(jù)導(dǎo)入SPSS中后顯示的實(shí)際數(shù)據(jù),而變量數(shù)據(jù)是對(duì)
16、數(shù)據(jù)對(duì)象打的屬性變量的定義,包括名稱、類型、寬帶、小數(shù)、數(shù)值等相關(guān)信息。變量視圖如上圖所示。4.2統(tǒng)計(jì)數(shù)據(jù)-系統(tǒng)聚類分析在本小節(jié)中,針對(duì)統(tǒng)計(jì)數(shù)據(jù),使用SPSS統(tǒng)計(jì)學(xué)軟件進(jìn)行系統(tǒng)聚類分析。如圖4.2所示,將數(shù)據(jù)導(dǎo)入SPSS軟件,然后進(jìn)行系統(tǒng)分析。圖4.2統(tǒng)計(jì)數(shù)據(jù)-系統(tǒng)分析通過(guò)系統(tǒng)分析可以得到其各個(gè)樣本之間的相似系數(shù),數(shù)值越大表示兩樣本之間的距離越大。如下圖4.3所示。圖4.3相似矩陣表冰柱圖直觀的反應(yīng)了系統(tǒng)聚類法中分類的步驟。如圖4.4所示。圖4.4系統(tǒng)聚類分析冰柱圖利用SPSS軟件,進(jìn)行系統(tǒng)分析,可以利用軟件做出樹(shù)狀圖,利用樹(shù)狀圖我們可以看出各個(gè)樣本之間的聚類過(guò)程,可以看出分類的過(guò)程,直觀的顯
17、示結(jié)果。如圖4.5所示。圖4.5系統(tǒng)聚類分析樹(shù)狀圖通過(guò)利用SPSS統(tǒng)計(jì)軟件分析,結(jié)合樹(shù)狀圖和冰狀圖可以得出,系統(tǒng)分析將各省份分城三個(gè)大類,第一類是北京和廣州屬于城鎮(zhèn)工資總額最高的兩個(gè)城市,表明出,在北京和廣州兩地的工資較高相應(yīng)看出這兩個(gè)地方的經(jīng)濟(jì)較為發(fā)達(dá)。第二類是江蘇、浙江、山東和上海,其余的分為第三類。4.3統(tǒng)計(jì)數(shù)據(jù)-k均值聚類分析本小節(jié),針對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行k均值聚類分析。圖4.6統(tǒng)計(jì)數(shù)據(jù)-k均值聚類分析圖4.7初始聚類中心圖4.8迭代歷史記錄得到初始中心后,利用k均值聚類的計(jì)算方法,計(jì)算得到聚類中心,然后,把每個(gè)對(duì)象歸類到距離最近的聚類中心所在的類中,在這個(gè)過(guò)程中,需要經(jīng)過(guò)迭代過(guò)程,上圖4.
18、8反映的是迭代過(guò)程中的聚類中心結(jié)果。如果收斂,即停止計(jì)算聚類中心。通過(guò)k均值計(jì)算依據(jù),可以得到聚類結(jié)果。聚類成員如下圖4.9所示,最終的聚類中心如下圖4.10所示。聚類成員包含有案例號(hào)、案例所在的類數(shù)和對(duì)象距離聚類中心的距離。圖4.9k均值聚類聚類成員圖4.10k均值聚類最終聚類中心在統(tǒng)計(jì)數(shù)據(jù)經(jīng)過(guò)K均值聚類分析后,得到三個(gè)大類,圖4.11表示了聚類成員和最終聚類中心間的距離,同時(shí)也表示出每個(gè)類別的案例。圖4.11k均值聚類分析結(jié)果顯示圖通過(guò)k均值聚類分析,我們可以得到第一大類包含:北京,上海,廣州,江蘇,浙江,山東。第二類包含:湖南,福建等地。明顯可以得到在北上廣等地區(qū)屬于中國(guó)經(jīng)濟(jì)發(fā)的的地區(qū),然而中國(guó)城鎮(zhèn)工資總額不高的地區(qū)還是占多部分的省份??傮w而言,可以反映出中國(guó)的經(jīng)濟(jì)發(fā)展還不平衡,各地區(qū)經(jīng)濟(jì)水平差異較大。第5章總結(jié)在數(shù)據(jù)挖掘中,聚類算法是一類很重要的算法,并且在現(xiàn)實(shí)的社會(huì)生活中有著非常廣泛的應(yīng)用。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度員工宿舍租賃及物業(yè)服務(wù)優(yōu)化合同3篇
- 二零二五年度農(nóng)莊租賃與農(nóng)業(yè)科技示范合同3篇
- 2025年度消防系統(tǒng)電氣線路改造合同協(xié)議書(shū)2篇
- 2025年度汽車典當(dāng)交易合同范本3篇
- 2024年中國(guó)燈飾鏡市場(chǎng)調(diào)查研究報(bào)告
- 2025年度林業(yè)資源產(chǎn)權(quán)交易承包合同3篇
- 2024年中國(guó)溶劑稀釋型環(huán)氧樹(shù)脂市場(chǎng)調(diào)查研究報(bào)告
- 2024年中國(guó)混濁劑市場(chǎng)調(diào)查研究報(bào)告
- 2025年度湖南省苗木市場(chǎng)價(jià)格指數(shù)發(fā)布合同3篇
- 2024年吧臺(tái)項(xiàng)目可行性研究報(bào)告
- 2024年四川省內(nèi)江市中考英語(yǔ)試題(含答案)
- 平安產(chǎn)險(xiǎn)云南省商業(yè)性桑蠶養(yǎng)殖保險(xiǎn)條款
- 股權(quán)協(xié)議書(shū)和合伙人協(xié)議書(shū)
- 河南省駐馬店市2023-2024學(xué)年高一上學(xué)期1月期末語(yǔ)文試題(含答案解析)
- 幼兒園名師公開(kāi)課:小班安全《超市安全我知道》微課件
- MOOC 英文技術(shù)寫作-東南大學(xué) 中國(guó)大學(xué)慕課答案
- 2022年10月自考00850廣告設(shè)計(jì)基礎(chǔ)試題及答案含解析
- 工會(huì)委員會(huì)會(huì)議紀(jì)要
- 《水電工程水文設(shè)計(jì)規(guī)范》(NB-T 10233-2019)
- 2024年1月電大國(guó)家開(kāi)放大學(xué)期末考試試題及答案:法理學(xué)
- (高清版)DZT 0284-2015 地質(zhì)災(zāi)害排查規(guī)范
評(píng)論
0/150
提交評(píng)論