多元數(shù)據(jù)圖表示法_第1頁
多元數(shù)據(jù)圖表示法_第2頁
多元數(shù)據(jù)圖表示法_第3頁
多元數(shù)據(jù)圖表示法_第4頁
多元數(shù)據(jù)圖表示法_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多元數(shù)據(jù)圖表示法第1頁,共48頁,2022年,5月20日,13點35分,星期二本章學習目標領會作多元數(shù)據(jù)圖的思想。會作簡單的多元數(shù)據(jù)圖形并且會分析圖形。第2頁,共48頁,2022年,5月20日,13點35分,星期二第三章 多元數(shù)據(jù)圖表示法 圖形有助于我們對所研究數(shù)據(jù)的直觀了解,如果能把一些多元數(shù)據(jù)直接顯示在平面圖上,便可以從圖形一目了然地看出多元數(shù)據(jù)之間的關系。 當只有一、二維數(shù)據(jù)時,可以使用通常的直角坐標系在平面上點圖; 當有三維數(shù)據(jù)時,也可以使用空間直角坐標系點圖,但是已經(jīng)不方便; 當維數(shù)大于3時,用通常的方法已不能點圖。 但是在許多實際問題中,多元數(shù)據(jù)的維數(shù)都大于3。第3頁,共48頁,2

2、022年,5月20日,13點35分,星期二 例 考察北京、上海、陜西、甘肅四個省市人均生活消費支出情況,選取以下五項指標,具體數(shù)據(jù)如下表: 肉禽及制品住房醫(yī)療保健交通和通訊文娛用品及服務北京563.51227.78147.76235.99510.78上海678.92365.07112.82301.46465.88陜西237.38174.48119.78141.07245.57甘肅253.41156.13102.96108.13212.20第4頁,共48頁,2022年,5月20日,13點35分,星期二 多元數(shù)據(jù)圖表示法的分類: 一類是使高維空間的點與平面上的某種圖形應,這種圖形能反映高維數(shù)據(jù)的某

3、些特點或數(shù)據(jù)間的某些關系; 另一類是在盡可能多地保留原數(shù)據(jù)信息的原則下進行降維,若能使數(shù)據(jù)維數(shù)降至2或1維,則可在平面上點圖。 第二類分類方法可用后面介紹的主成分分析、因子分析等去解決。這一章只對第一類方法介紹四種圖表示法,更多的方法可在有關專著中找到。第5頁,共48頁,2022年,5月20日,13點35分,星期二3.1 輪廓圖 作圖步驟為: (1)作平面坐標系,橫坐標取 個點表示 個變量。 (2)對給定的一次觀測值,在 個點上的縱坐標(即高度)和它對應的變量取值成正比。 (3)連接 個高度的頂點得一折線,則一次觀測值的輪廓為一條多角折線形。 次觀測值可畫出 條折線,構成輪廓圖。第6頁,共48

4、頁,2022年,5月20日,13點35分,星期二 下圖畫出四條折線為北京 、 上海、陜西 、甘肅五項指標的數(shù)據(jù)即四個省市五項指標的輪廓。輪廓圖第7頁,共48頁,2022年,5月20日,13點35分,星期二 由輪廓圖可以看出:北京、上海的居民生活消費較高且相似;陜西、甘肅生活消費較低且相似。 如果考察的樣品較多,畫折線時圖形中可能出現(xiàn)重復點多,不便于區(qū)分哪個樣品對應哪條折線,這時最好多用幾種顏色或長短虛實等標志畫出折線。第8頁,共48頁,2022年,5月20日,13點35分,星期二下表是我國華北地區(qū)5個省市2003年城鎮(zhèn)居民家庭平均每人全年消費性支出的六項指標數(shù)據(jù)考慮微機的普及應用,圖形的制作則

5、通過電腦實現(xiàn)。輪廓圖、矩陣散點圖在SPSS中制作,雷達圖則在EXCEL中實現(xiàn)。 表 華北5省市城鎮(zhèn)居民家庭消費性支出第9頁,共48頁,2022年,5月20日,13點35分,星期二在SPSS中作輪廓圖的方法如下: (1)將原始數(shù)據(jù)輸入SPSS中。把不同地區(qū)當成變量,而把支出指標當成觀測。作輪廓圖時的數(shù)據(jù)組織形式 第10頁,共48頁,2022年,5月20日,13點35分,星期二(2)選擇菜單項GraphsLine,打開Line Charts對話框,如圖。在對話框上方的三個選項用于選擇輪廓圖的形式,由于是這里是多變量作圖,所以選擇Multiple。在對話框下面的三個選項中選擇Value of ind

6、ividual cases。單擊Define按鈕,打開Define Multiple Line對話框。 Line Charts對話框 第11頁,共48頁,2022年,5月20日,13點35分,星期二(3)在Define Multiple Line對話框中,將代表不同地區(qū)的5個變量移入Lines Represent列表框中,將代表支出指標的變量(variable)移入Variable框中。單擊OK按鈕,即可作出如圖所示的輪廓圖。從圖中可以清楚地看出北京市幾乎各項支出都排在第一,而山西省則幾乎每項支出都是最低的。 Define Multiple Line對話框第12頁,共48頁,2022年,5月2

7、0日,13點35分,星期二輪廓圖第13頁,共48頁,2022年,5月20日,13點35分,星期二散點圖又稱散布圖,它是以點的分布反映變量之間相關關系的可視化方法。矩陣散點圖則是一種反映多個變量之間相關關系的二維散點圖。利用SPSS制作矩陣散點圖的步驟如下: (1)在SPSS中按圖11.6的形式組織數(shù)據(jù),即把支出指標當成變量,而把不同地區(qū)當成觀測。 圖11.6 作散點圖時的數(shù)據(jù)組織形式第14頁,共48頁,2022年,5月20日,13點35分,星期二 (2)選擇菜單項GraphsScatter,打開Scatter plot對話框,如圖11.7。該對話框用于選擇散點圖的形式。選定Matrix,即矩陣

8、散點圖 ,單擊Define按鈕,打開Scatter plot Matrix對話框,如圖11.8。 圖11.7 Scatter plot對話框第15頁,共48頁,2022年,5月20日,13點35分,星期二圖11.8 Scatter plot Matrix對話框 第16頁,共48頁,2022年,5月20日,13點35分,星期二 (3)在打開的Scatter plot Matrix對話框中,將食品、衣著、居住三個變量移入Matrix Variables列表框中,將標志變量region移入Label Cases by列表框中。 (4)點擊OK按鈕,得到如圖11.9所示的矩陣散點圖。 從圖11.9可以

9、看出,河北、山西、內蒙古在居住和食品消費支出方面與北京、天津相比較低,食品與居住支出變量之間存在一定的線性關系。天津在衣著支出方面較低,與最低的河北接近,與最高居住支出形成鮮明對比。北京則除在居住支出方面低于天津外,其他方面支出均高于華北其他省市。內蒙古則在衣著支出方面僅次于北京,顯示出某種特殊消費特征。 第17頁,共48頁,2022年,5月20日,13點35分,星期二矩陣散點圖 第18頁,共48頁,2022年,5月20日,13點35分,星期二3.2 雷達圖 作圖步驟: (1)作一圓,并把圓周分為 等分。 (2) 連接圓心和各分點,把這 條半徑依次定義為各變量的坐標軸,并標以適當?shù)目潭取?(3

10、) 對給定的一次觀測值,把它的 個分量值分別點在相應的坐標軸上,然后連接成一個 邊形,這個 邊形就是 元觀測值的圖示, 次觀測值可畫出 個 邊形。第19頁,共48頁,2022年,5月20日,13點35分,星期二第20頁,共48頁,2022年,5月20日,13點35分,星期二例如,根據(jù)前表中的數(shù)據(jù),調用EXCEL圖表向導,即可制作出如圖17所示的雷達圖。圖1畫出了北京、天津和河北的雷達圖,從圖可以看出,三省市消費支出結構有較大差異。北京人均消費支出的各項指標都高,對應面積最大的六邊形,其次是天津,在三個省市中面積最小的是河北,天津在居住支出方面與北京較為接近,而在衣著和交通、通訊支出方面則與河北

11、接近。其他支出方面三地存在較大差異。利用雷達圖的形狀、面積大小,可以對樣品進行初始分類分析。為了加強雷達圖的效果,在雷達圖中適當?shù)姆峙渥鴺溯S是很重要的,具體的分配辦法要結合分析的問題而定。例如可將要對比的指標分布在左、右或上、下方,以便于對比分析。 第21頁,共48頁,2022年,5月20日,13點35分,星期二當觀測次數(shù)n較大和指標較多時,畫出的雷達圖線段太多,圖形的效果會很差。為了獲得較好的可視化效果,在一張雷達圖上可以畫幾個樣品觀測數(shù)據(jù),甚至一張雷達圖只畫一個樣品觀測數(shù)據(jù)。如圖17所示,對這些圖進行比較分析,也可了解其特點。 圖1 第22頁,共48頁,2022年,5月20日,13點35分

12、,星期二圖2第23頁,共48頁,2022年,5月20日,13點35分,星期二圖3第24頁,共48頁,2022年,5月20日,13點35分,星期二圖4第25頁,共48頁,2022年,5月20日,13點35分,星期二圖5第26頁,共48頁,2022年,5月20日,13點35分,星期二圖6第27頁,共48頁,2022年,5月20日,13點35分,星期二圖7第28頁,共48頁,2022年,5月20日,13點35分,星期二 當觀測次數(shù) 較大時,為使圖形清晰,每張圖可以只畫少數(shù)幾次觀測數(shù)據(jù),甚至每張圖只畫一次觀測值。為了獲得較好的效果,在雷達圖中適當分配變量的坐標軸,并選取合適的尺度是十分重要的。 注意:

13、這里坐標軸只有正半軸,因而只能表示非負數(shù)據(jù),若有負數(shù)據(jù),只能通過合理變換使之非負才行。第29頁,共48頁,2022年,5月20日,13點35分,星期二3.3 調和曲線圖 調和曲線圖的思想:把高維空間中的一個樣品點對應于二維平面上的一條曲線。 調和曲線圖是在1972年提出的三角多項式作圖法,所以又稱為三角多項式圖。第30頁,共48頁,2022年,5月20日,13點35分,星期二 上例數(shù)據(jù)北京,上海,陜西,甘肅分別對應的曲線為:第31頁,共48頁,2022年,5月20日,13點35分,星期二 調和曲線圖第32頁,共48頁,2022年,5月20日,13點35分,星期二 在多項式的圖表示中,當各變量的

14、數(shù)值太懸殊時,最好先標準化后再作圖。 調和曲線圖對聚類分析很有幫助,如果選擇聚類統(tǒng)計量為距離的話,同類的曲線非常靠近擰在一起,不同類的曲線擰成不同的束,非常直觀。 調和曲線的性質: (1)保線性關系第33頁,共48頁,2022年,5月20日,13點35分,星期二(2)保歐式距離第34頁,共48頁,2022年,5月20日,13點35分,星期二3.4 星座圖 思想:將高維空間中的樣品點投影到平面上的一個半圓內,用投影點表示樣品點。 作圖步驟: 第35頁,共48頁,2022年,5月20日,13點35分,星期二 (3)畫出一個半徑為1的上半圓及半圓底邊的直徑。第36頁,共48頁,2022年,5月20日

15、,13點35分,星期二 下面對本章開頭所給出的數(shù)據(jù),使用相同的權數(shù) 作星座圖。由數(shù)據(jù)表易知,各指標的最高分,最低分以及它們的級差 分別為:第37頁,共48頁,2022年,5月20日,13點35分,星期二 它們的星座圖如下: 第38頁,共48頁,2022年,5月20日,13點35分,星期二 在人工畫星座圖時,可按下面步驟去作:第39頁,共48頁,2022年,5月20日,13點35分,星期二 有時為了突出星星的位置,也可以不畫路徑,只畫星星,容易想象,如果這 次觀測數(shù)據(jù)來自不同的類,且不同類的觀測數(shù)據(jù)所對應的星星分別相對集中地散步在星座圖的不同區(qū)域,那么星座圖可能用于多變量數(shù)據(jù)的分類。 從作圖過程

16、可以看出:星星的位置和路徑與權數(shù)的選取有關,取不同的權數(shù),畫出的星座圖也不同。一般權數(shù)選取的原則以實際問題的需要而定。通常情況對較重要指標取權數(shù)大些,次要指標取權數(shù)小些,如果指標的重要程度相差不大或難以區(qū)分,則選取等權。 多元數(shù)據(jù)的圖表示法還有很多,如臉譜圖,樹形圖,塑像圖等等。第40頁,共48頁,2022年,5月20日,13點35分,星期二2022/9/741 目錄 上頁 下頁 返回 結束 3.5 臉譜圖 臉譜圖是用臉譜來表達多變量的樣品,由美國統(tǒng)計學家H.Chernoff于1970年首先提出,該方法是將觀測的個變量(指針)分別用臉的某一部位的形狀或大小來表示,一個樣品(觀測)可以畫成一張臉

17、譜。他首先將該方法用于聚類分析,引起了各國統(tǒng)計學家的極大興趣,并對他的畫法作出了改進,一些統(tǒng)計軟件也收入了臉譜圖分析法,國內也有很多研究工作者將該方法應用于多元統(tǒng)計分析中。 第41頁,共48頁,2022年,5月20日,13點35分,星期二2022/9/742 目錄 上頁 下頁 返回 結束 臉譜圖分析法的基本思想是由1518個指針決定臉部特征,若實際資料變量更多將被忽略(有新的畫圖方法取消了臉的對稱性并引入更多臉部特征從而最多可以用36個變量來畫臉譜),若實際資料變量較少則臉部有些特征將被自動固定。統(tǒng)計學曾給出了幾種不同的臉譜圖的畫法,而對于同一種臉譜圖的畫法,將變量次序重新排列,得到的臉譜的形

18、狀也會有很大不同。此處我們不對臉譜的各個部位與原始變量的數(shù)學關系作過多探討,而只說明其作圖的思想及軟件實現(xiàn)方法。第42頁,共48頁,2022年,5月20日,13點35分,星期二2022/9/743 目錄 上頁 下頁 返回 結束 按照切爾諾夫于1973年提出的畫法,采用15個指標,各指標代表的面部特征為:1表示臉的范圍,2表示臉的形狀,3表示鼻子的長度,4表示嘴的位置,5表示笑容曲線,6表示嘴的寬度,711分別表示眼睛的位置,分開程度,角度,形狀和寬度,12表示瞳孔的位置,1315分別表示眼眉的位置,角度及寬度。這樣,按照各變量的取值,根據(jù)一定的數(shù)學函數(shù)關系,就可以確定臉的輪廓、形狀及五官的部位

19、、形狀,每一個樣本點都用一張臉譜來表示。而臉譜容易給人們留下較為深刻的印象,通過對臉譜的分析,就可以直觀地對原始資料進行歸類或比較研究。 第43頁,共48頁,2022年,5月20日,13點35分,星期二2022/9/744 目錄 上頁 下頁 返回 結束 SPlus軟件收入了臉譜圖的作圖方法,下面我們舉例說明如何用SPlus軟件畫臉譜圖:【例13-2】仍以我國35個上市公司的八大評價指標為例說明,SPlus畫臉譜圖的方法非常簡單,只要調用faces函數(shù)就可以實現(xiàn)了。將前面的資料的數(shù)字部分輸入SPlus,并令文件名為gongsi.sdd,在命令窗口調用下面的函數(shù): faces(data.matri

20、x(gongsi), fill = T, which = 1:8, head = Faces of 35 Companies,ncol=5,scale=T,byrow=T)回車運行就可以生成35個公司的臉譜圖,每一個公司用一張臉譜表示出來,但是,此時生成的臉譜圖不好與公司名對應,可將35個公司名放入一個向量a中,然后在上面的命令中加入選項labels=a,即可生成如下臉譜圖:第44頁,共48頁,2022年,5月20日,13點35分,星期二2022/9/745 目錄 上頁 下頁 返回 結束 第45頁,共48頁,2022年,5月20日,13點35分,星期二2022/9/746 目錄 上頁 下頁 返回 結束 臉譜圖給人的感覺形象直觀,容易留下較深刻的印象,可以根據(jù)臉譜圖來對各公司的運營能力進行比較,比如根據(jù)臉的范圍(凈資產(chǎn)收益率)來看,方正科技,清華同方,粵電力,深南電,金豐投資等公司處于較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論