多元統(tǒng)計分析方法概述_第1頁
多元統(tǒng)計分析方法概述_第2頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、多元統(tǒng)計分析方法概述目 錄引言.第四頁多元線性回歸方法原理簡介.第四頁多元線性回歸案例敘述分析.第四頁多元線性回歸分析方法在社會的應(yīng)用.第八頁聚類分析方法原理簡介.第八頁聚類分析案例敘述分析.第八頁聚類分析方法在社會的應(yīng)用.第十頁主成份分析方法原理簡介.第十頁主成份分析案例敘述分析.第十一頁主成份分析方法在社會的應(yīng)用.第十四頁因子分析方法原理簡述.第十四頁因子分析案例敘述分析.第十四頁因子分析方法在社會的應(yīng)用.第十七頁偏最小二乘回歸分析方法原理簡介.第十八頁偏最小二乘回歸分析案例敘述分析.第十九頁偏最小二乘回歸分析方法在社會的應(yīng)用.第二一頁總結(jié).第二十一頁參考文獻(xiàn).第二十二頁謝辭.第二十三頁摘

2、要本文主要概述了多元統(tǒng)計分析的各個方法, 然后在后面介紹了多元統(tǒng)計分析方法在社會生活等方面的實際案例以及分析。 并由案例分 析找出各個統(tǒng)計分析方法的對應(yīng)使用領(lǐng)域。關(guān)鍵詞多元統(tǒng)計分方法 回歸分析 聚類分析 因子分析 主成份分 析 偏最小二乘回歸分析 因素 股市 模型 財務(wù)SummaryThe Chemometrics includes chemical experimental design andoptimization (such as orthogonal design, simplex method and varianceanalysis), chemical pattern reco

3、gnition (such as clusters, PCA,k-nearest neighbour analysis, SIMCA and ANN), multi-variancecalibration (such as MLR, CLS, PCR and PLS) and spectrum analysis(Such as ITTFA, EFA and FSWEFA), signal processing (such asfiltering, smoothing, derivation and convolution).keywordmultivariate statistical ana

4、lysis method regression analysiscluster analysis factor analysis principal component analysis linearleast squares estimate complication equity market model finance引言多元統(tǒng)計分析的基本方法。 多元統(tǒng)計分析是數(shù)理統(tǒng)計學(xué) 30 多年來迅速發(fā)展 起來的一個分支隨著計算機(jī)的普及, 各種統(tǒng)計軟件不斷推出, 多元統(tǒng)計分析方法 已廣泛應(yīng)用到教育管理的各個領(lǐng)域。 多元統(tǒng)計分析是運用數(shù)理統(tǒng)計的方法來研究 多變量問題的理論和方法, 它是一元統(tǒng)計學(xué)的推廣

5、在許多教育問題中, 教育現(xiàn)象 涉及到的變量不是一個,而是多個變量, 且這些變量間又存在一定的聯(lián)系, 需要 處理多個變量的觀測數(shù)據(jù), 如果用一元統(tǒng)計方法就要對多方面分別進(jìn)行分析, 而 一次分析一個方面,同時忽視了各方面之間存在的相關(guān)性, 這樣會丟失很多信息, 分析的結(jié)果不能客觀全面地反映情況。多元統(tǒng)計分析方法主要包括線性回歸分析方法、 判別分析方法、 聚類分析方 法、主成份分析方法、因子分析方法、對應(yīng)分析方法、典型相關(guān)分析方法以及片 最小二乘回歸分析方法等。 在這里我們主要針對了最常用的回歸分析方法、 聚類 分析方法、主成份分析方法、 因子分析方法以及偏最小二乘回歸分析方法結(jié)合實 際案例進(jìn)行分析

6、總結(jié)。最終總結(jié)出各個方法所使用的領(lǐng)域。二、 多元線性回歸分析方法一)多元線性回歸分析方法原理簡介根據(jù)相關(guān)性的大小把變量分組, 使得同組內(nèi)的變量之間的相關(guān)性較高, 但不 同組的變量相關(guān)性較低各個因子間互不相關(guān),所有變量都可以表示成公因子的線 性組合。因子分析的目的就是減少變量的數(shù)目, 用少數(shù)因子代替所有變量去分析 整個問題。二)多元線性回歸案例敘述分析公路客貨運輸量多元線性回歸預(yù)測方法探討1. 背景公路客、 貨運輸量的定量預(yù)測, 近幾年來在我國公路運輸領(lǐng)域大面積廣泛地 開展起來,并有效的促進(jìn)了公路運輸經(jīng)營決策的科學(xué)化和現(xiàn)代化。關(guān)于公路客、 貨運輸量的定量預(yù)測方法很多, 本文主要介紹多元線性回歸方

7、法在公路客貨運輸量預(yù)測中的具體操作。根據(jù)筆者先后參加的部、省、 市的科研課題的實踐, 證明了多元線性回歸方法是對公路客、 貨運輸量預(yù)測的一種置信度 較高的有效方法。2. 多元線性回歸預(yù)測線性回歸分析法是以相關(guān)性原理為基礎(chǔ)的 相關(guān)性原理是預(yù)測學(xué)中的基本原 理之一。由于公路客、貨運輸量受社會經(jīng)濟(jì)有關(guān)因素的綜合影響。所以,多元線 性回歸預(yù)測首先是建立公路客、 貨運輸量與其有關(guān)影響因素之間線性關(guān)系的數(shù)學(xué) 模型。然后通過對各影響因素未來值的預(yù)測推算出公路客貨運輸量的預(yù)測值。3. 公路客、貨運輸量多元線性回歸預(yù)測方法的實施步驟:影響因素的確定 影響公路客貨運輸量的因素很多,主要包括以下一些因素:(1) 客

8、運量影響因素 人口增長量褲保有量、國民生產(chǎn)總值、國民收入工農(nóng)業(yè)總產(chǎn)值,基本建設(shè)投 資額城鄉(xiāng)居民儲蓄額鐵路和水運客運量等。(2) 貨運量影響因素人口貨車保有量(包括拖拉機(jī)),國民生產(chǎn)總值,國民收入、工農(nóng)業(yè)總產(chǎn)值, 基本建設(shè)投資額,主要工農(nóng)業(yè)產(chǎn)品產(chǎn)量,社會商品購買力,社會商品零售總額.鐵 路和水運貨運量等。上述影響因素僅是對一般而言,在針對具體研究對象時會有所增減。因此, 在建立模型時只須列入重要的影響因素,對于非重要因素可不列入模型中。若疏 漏了某些重要的影響因素,則會造成預(yù)測結(jié)果的失真。另外,影響因素太少會造成模型的敏感性太強反之,若將非重要影響因素列入模型,則會增加計算工作 量,使模型的建立

9、復(fù)雜化并增大隨機(jī)誤差。影響因素的選擇是建立預(yù)測模型首要的關(guān)鍵環(huán)節(jié), 可采取定性和定量相結(jié)合 的方法進(jìn)行.影響因素的確定可以通過專家調(diào)查法, 其目的是為了充分發(fā)揮專家 的聰明才智和經(jīng)驗。具體做法就是通過對長期從事該地區(qū)公路運輸企業(yè)和運輸管理部門的領(lǐng)導(dǎo) 干部、專家、工作人員和行家進(jìn)行調(diào)查??赏ㄟ^組織召開座談會也可以通過采 訪,填寫調(diào)查表等方法進(jìn)行,從中選出主要影響因素為了避免影響因素確定的隨 意性,提高回歸模型的精度和減少預(yù)測工作量, 可通過查閱有關(guān)統(tǒng)計資料后,再 對各影響因素進(jìn)行相關(guān)度(或關(guān)聯(lián)度)和共線性分析,從而再次篩選出最主要的影 響因素.所謂相關(guān)度分析就是將各影響因素的時間序列與公路客貨運

10、量的時間序 列做相關(guān)分杯事先確定一個相關(guān)系數(shù), 對相關(guān)系數(shù)小于的影響因素進(jìn)行淘汰. 關(guān) 聯(lián)度是灰色系統(tǒng)理論中反映事物發(fā)展變化過程中各因素之間的關(guān)聯(lián)程度,可通過建空公路客、貨運量與各影響影響因素之間關(guān)聯(lián)系數(shù)矩陣,按一定的標(biāo)準(zhǔn)系數(shù)舍 去關(guān)聯(lián)度小的影響因素.所謂共線性是指某些影響因素之問存在著線性關(guān)系或接 近于線性關(guān)系.由于公路運輸經(jīng)濟(jì)自身的特點, 影響公路客,貨運輸量的諸多因 素之問總是存在著一定的相關(guān)性,持別是與國民經(jīng)濟(jì)有關(guān)的一些價值型指標(biāo)。4. 建立經(jīng)驗線性回歸方程利用最小二乘法原理尋求使誤差平方和達(dá)到撮小的經(jīng)驗線性回歸方程:一怎.一沁 ny預(yù)測的客、貨運量g各主要影響因數(shù)5. 數(shù)據(jù)整理對收集

11、的歷年客、貨運輸量和各主要影響因素的統(tǒng)計資料進(jìn)行審核和加工整 理是為了保證預(yù)測工作的質(zhì)量。資料整理主要包括下列內(nèi)容:(1) 資料的補缺和推算。對不可靠資料加以核實調(diào)整.對查明原因的異常值加以修正。(3) 對時間序列中不可比的資料加以調(diào)整和規(guī)范化;對按當(dāng)年價格計算的價 值指標(biāo)應(yīng)折算成按統(tǒng)。6. 多元線性回歸模型的參數(shù)估計在經(jīng)驗線性回歸模型中, . 是要估計的參數(shù),可通過數(shù)理統(tǒng)計理論建立模型來確定。在實際預(yù)測中,可利用多元線性回歸復(fù)相關(guān)分析的計 算機(jī)程序來實現(xiàn)對模型參數(shù)的估計值進(jìn)行檢驗。此項工作的目的在于判定估計值是否滿意、 可靠。一般檢驗工作須從以下幾 方面來進(jìn)行。(1) 經(jīng)濟(jì)意義檢驗(2) 統(tǒng)

12、計檢驗(3) 擬合度檢驗(4) 回歸方程的顯著性檢驗(5) 參數(shù)估計值的標(biāo)準(zhǔn)差檢驗應(yīng)當(dāng)強調(diào)指出 統(tǒng)計檢驗相對于經(jīng)濟(jì)意義檢驗來說是第二位的。 如果經(jīng)濟(jì)意 義檢驗不合理, 那么即使統(tǒng)計檢驗可以達(dá)到很高的置信度, 也應(yīng)當(dāng)拋棄這種估計 結(jié)果,因為用這樣的結(jié)果來進(jìn)行經(jīng)濟(jì)預(yù)測是沒有意義的。7. 最優(yōu)回歸方程的確定 經(jīng)過上述的經(jīng)濟(jì)意義和統(tǒng)計檢驗后,挑選出的線性回歸方程往往是好幾個、 為了從中優(yōu)選出用于進(jìn)行實際預(yù)測的方程, 我們可以采用定性和定量相結(jié)合的辦 法。從數(shù)理統(tǒng)計的原理來講,應(yīng)挑選方程的剩余均方和S - E 較小為好.但作為經(jīng)濟(jì)預(yù) 刪還必須盡量考慮到方程中的影響因素更切合實際和其未來值更易把握 的原則

13、來綜合考慮。當(dāng)然、 有時也可以從中挑選出好幾個較優(yōu)的回歸方程. 通過 預(yù)測后,分別作為不同的高、中、低方案以供決策人員選擇。8. 模型的實際預(yù)測檢驗在獲得模型參數(shù)估計值后, 又經(jīng)過了上述一系列檢驗而選出的最優(yōu) ( 或較優(yōu) ) 回歸方程,還必須對模型的預(yù)測能力加以檢驗。 不難理解、 最優(yōu)回歸方程對于樣 本期間來說是正確的,但是對用于實際預(yù)測是否合適呢?為此,還必須研究參數(shù)估計值的穩(wěn)定性及相對于樣本容量變化時的靈敏度, 也必須研究確定估計出來的 模型是否可以用于樣本觀察值以外的范國,其具休做法是:(1) 采用把增大樣本容量以后模型估計的結(jié)果與原來的估計結(jié)果進(jìn)行比較, 并檢驗其差異的顯著性。(2)

14、把估計出來的模型用于樣本以外某一時間的實際預(yù)測,并將這個預(yù)測值 與實際的觀察值作一比較,然后檢驗其差異的顯著性。9. 模型的應(yīng)用 公路客、貨運輸量多元線性回歸預(yù)測模型的研究目的主要有以下幾個方面。(1) 進(jìn)行結(jié)構(gòu)分析,研究影響該地區(qū)的公路客、貨運輸量的主耍因素和各影 響因素影響程度的大小,進(jìn)一步探討該地區(qū)公路運輸經(jīng)濟(jì)理論。(2) 預(yù)測該地區(qū)今后年份的公路客、 貨運輸量的變化, 以便為公路運輸市場、 公路運輸政策及公路運輔建設(shè)項目投資作出正確決策提供理論依據(jù)。 另外,還可 以通過公路客. 貨運輸量與公路交通量作相關(guān)分析來對公路的飽和度發(fā)展趨勢進(jìn) 行預(yù)測。從而為公路的新建、擴(kuò)建項目的投資提供決策分

15、析。(3) 模擬各種經(jīng)濟(jì)政策下的經(jīng)濟(jì)效果,以便對有關(guān)政策進(jìn)行評價。 四、經(jīng)調(diào)查分析,影響某地區(qū)旅客運輸量的因素為。Xi- 國民收入X2 工農(nóng)業(yè)總產(chǎn)值X3社會總產(chǎn)值X4人口X5- 客車保有量X 6城鄉(xiāng)居民儲蓄存款經(jīng)計算得下列相關(guān)系數(shù)表:XiX2X3X4X5X6丫0.94390.92 87 O.90 43 0.9914 0.9670 0.7021Z 0.97 3 6 0.961 4 O.932 6 O.8645 O.9321 0.6678丫-客運盈Z旅客周轉(zhuǎn)量若令a= 0.85,則可以舍去 X6這個影響因索,也就是認(rèn)為“城鄉(xiāng)居民儲蓄 存款”不能作為響旅客運輸量的主要因素。2.經(jīng)調(diào)查分析、影響某地區(qū)

16、旅客運輸量的因素為:Xi國民收入X2工農(nóng)業(yè)總產(chǎn)值X3社會總產(chǎn)值X4-人口X5-客車保有量X6國民生產(chǎn)總值X7公路通車?yán)锍探?jīng)計算得客運量和旅客周轉(zhuǎn)量的經(jīng)驗線性回歸方程如下:丫=a0+a1X1+a2X2+a5X5RA2=0.9997Z =B0+B4X4+B5X5+B7X7Z =侏+角叭+爲(wèi) +g的丫-客運盈Z旅客周轉(zhuǎn)量各自變量問的相關(guān)系數(shù)表如下:5J0.9836 0.96210.9710 0.W42 690360.93440.98360.95230,9607 0.9466 0.98250.9&23引0.96210.85230.8924 0.9205 0.97730.91140.97100.

17、96070.89240.9348 0.9766O.B928xs0.93420.94660.92050.93480.9817 0.90360.90360.98250J7730.9766 0.980-9715巧0.91440.98230.91140.8928 0.9036 0,9715由上述計算可知,四個方程中均未出現(xiàn) rj 氏的情況因此可以認(rèn)為各自 方程中的影響因y=必+a;刼+ 仙+a:工4RA2=0.9962RA2=0.9983R = 0.9990素之間不存在嚴(yán)重共線性問題。3.經(jīng)調(diào)查分析,影響某地區(qū)貨運周轉(zhuǎn)量的因素為:Xi-國民收入X2工農(nóng)業(yè)總產(chǎn)值X3基建投資額X4原煤產(chǎn)量X5-鋼鐵、化肥

18、、水泥、糧食總產(chǎn)量X6國民總產(chǎn)值X7社會商品零售總額X8相鄰地、市工農(nóng)業(yè)總產(chǎn)值的平均值Y = a0+ a4X4+ a6X6+ a7X7(1)其中:R2=0.9875F=206.33 S E=1673.24t4=-2.8321t6=3.1407t7=2.7431Y = b0+ b2X2+ b4X4(2)其中:R2=0.9764F=164.59 S E=1044.27三)多元線性回歸分析方法在社會的應(yīng)用由上述案例分析可知多元線性回歸分析方法在通過線性約束等條件將一個 事物進(jìn)行多元的分析處理, 最終能篩選出影響這個事物發(fā)展的因素。 這樣就能通 過多元線性回歸分析將一個事物進(jìn)行資源最優(yōu)化配置, 在交通

19、、 航運的等領(lǐng)域都 比較實用。三、 聚類分析方法(一) 聚類分析方法原理簡介聚類分析是研究事物分類的一種方法, 是將一批樣本或變量按照它們在性質(zhì) 上的親疏程度加以分類。 實質(zhì)是按照距離的遠(yuǎn)近將數(shù)據(jù)分為若干個類別, 以使得 類別內(nèi)數(shù)據(jù)的差異盡可能小,類別間的“差異”盡可能大。聚類分析中包括:層 次聚類法,費層次聚類法,智能聚類法等多種詳細(xì)的方法。(二)聚類分析案例敘述分析1.問題的提出 隨著我國市場經(jīng)濟(jì)建設(shè)的高速發(fā)展,人們的金融意識和投資意識日益增強, 而作為市場經(jīng)濟(jì)的組成部分股票市場, 正逐步走向成熟與規(guī)范, 越來越多的投 資者把眼光投向了股票, 歷史 已經(jīng)證明股票是一種不僅在過去已提供了投資

20、者可 觀的長期利益,并且在將來也將提供良好機(jī)遇的投資媒體。然而,股價漲跌無常,股市變幻莫測,投資者要想在股市投資中贏取豐厚的投資回報, 成為一個成功的 投資者,就得認(rèn)真研究上市公司的歷史、業(yè)績和發(fā)展前景, 詳細(xì)分析上市公司的 財務(wù)狀況,樹立以基本分析為主, 技術(shù)分析為輔的投資理念, 找出真正具有投資 價值的股票,進(jìn)行長期投資。股票投資的基本分析分為宏觀分析、 中觀分析、微觀分析三大部分,宏觀分 析指對國家的國民經(jīng)濟(jì)以及 政治、文化的分析,微觀分析指公司分析,而中觀分 析主要指行業(yè)分析和地區(qū)分析等,板塊分析主要歸屬于中觀分析,兼有微觀分析。中國股市從無到有,發(fā)展至今已頗具規(guī)模, 前些年,在中國股

21、市發(fā)展的初生階段, 由于市場規(guī)模小,上市公司數(shù)量不多,加上股民的投資思維和操作方法不太成熟,因此,投機(jī)性特強,這時用不上多少板塊分析。但是,隨著股市發(fā)展、投資手法 和證券監(jiān)管方法的成熟,以及上市公司數(shù)量的不斷增多,如果再和以往一樣, 面 對上千種股票胡亂抓一氣,碰運氣, 甚至受各種股評和謠言所左右,則很難走向 理性化,進(jìn)而難以最終取得投資成功。因此,在成熟股市中,一個股民若想成功, 必須學(xué)會板塊分析,習(xí)慣理性操作,樹立板塊投資理念。2.聚類分析在股市板塊分析中的應(yīng)用系統(tǒng)聚類分析的基本思想是首先將每個樣本當(dāng)作一類,然后根據(jù)樣本之間的 相似程度并類,并計算新類與其它類之間的距離,再選擇相近者并類,

22、每合并一次減少一類,繼續(xù)這一過程,直到所有樣本都并成一類為止。在聚類過程中,我 們選用歐氏距離來度量類與類之間的相似程度,聚類方法采用類平均法。我們以高科技板塊中的 31 個上市公司為研究對象,分析中選取了這 31 個上 市公司1997 年的每股收益、每股凈資產(chǎn)、股東權(quán)益率、凈資產(chǎn)收益率、凈利潤 率等五個反映上市公司綜合盈利能力的指標(biāo),數(shù)據(jù)取自 4(略)。應(yīng)用 SAS 軟 件中的系統(tǒng)聚類過程CLUSTE對31個樣本進(jìn)行聚類, 得到表1所示的聚類過程。 表1中NCL為聚類數(shù); ClustersJoined 為每次聚成一個新類的 2 個樣品(標(biāo)有 0B 或舊類(標(biāo)有 CL); FREQ 為新類中所

23、含有的樣品數(shù);SPRS(為半偏 R2,它表示 每一次合并對信息的損失程度,看這一列的數(shù)值可知:從 4 類合并成 3 類時信息 損失(為 0.1042)最多,此統(tǒng)計量表明聚成 4 類較合適;CCC 在 NCL=4 時達(dá)到唯一 的峰值-2.49,它支持分 4 類;PSF 為偽 F 統(tǒng)計量,PSF出現(xiàn)峰值時所對應(yīng)的分類 數(shù)較合適,從這一列的數(shù)值可知 PSF 在 NCL=17 NCL=12NCL=9 和 NCL=4 時 4 次 達(dá)到峰值,但在 NCL=4 寸峰更陡些;PST2 為 t2 統(tǒng)計量,PST2出現(xiàn)峰值的前一行 所對應(yīng)的分類數(shù)較合適,從這一列的數(shù)值可知NCL=3 時出現(xiàn)峰值9.8,它也支持分

24、4 類。綜合這四個統(tǒng)計量可知:將 31 個樣本分成 4 類較合適。根據(jù)表 1,作 出圖 1 所示的聚類譜系圖。當(dāng)我們?nèi)》诸愰y值為 1.0 時,31 個樣本被分成了各 類包含的樣本如下:表 1 系筑聚類過程NELCliist arcJoi nadFKEQSFESQCCCF2FFSTZEIST300E20B19EQ.Q01S19. nn.F33H2Q0B160B30U.0026IB. 1U. 2712260B90E2320.002B1570.2804270B250B2720 002715. 70.2S39ZB口 EBz口,0D41,351B25CL300B2030.005612. 6310.375

25、1240B3CLE730.005811.72. 2.0.386023口 El20.00&311.20 434022undbLL2Ub0.011B6 5:3.40.440221UB170B3120.00700. 459920CL240B540. 00670.4&541 日EIDE15Z 00759 4 4T441S0B4OBS20.0082g. s0.405217on 110B2120 00829. 70 4965衛(wèi) BrTJ-q40.01339 44 nQ15CL20OB?0 0111Q.mU.EL!t:14CL23CL1840. 0143it日.52. Q0.5680130B

26、14CL2130. 0129-9 71.00.565T1ZE13EZ4Z.0141g. g.-B512第一類:0B18 天津磁卡),OB29 燕化高新);第二類:OB22 深科技),0B15 實達(dá)電腦),OB10 清華同方),0B12 東大阿 派),0B14 長城電腦),0B31 風(fēng)華高科),0B17 東方通信);第三類:0B1 華光科技),0B26 佛山照明),0B4 國脈通信),0B8 工大高新),0B11 振華科技),0B21 彩虹股份);第四類:0B2 冰箱壓縮),0B19 同濟(jì)科技),0B20 華東電腦),0B9 長安信 息),0B23 仲科?。?B16 湘計算機(jī)),0B30 倍特

27、高新),0B6 南華西),0B28 深 圳華強),0B7 廈門信達(dá)),0B25 華意壓縮),0B27 粵 TCL), 0B3(復(fù)華實業(yè)),0B5南洋實業(yè)),0B13 中國高新),0B24 深華源)。第一、二類公司在經(jīng)營規(guī)模、經(jīng)營實力、技術(shù)水平等方面具有一定優(yōu)勢,竟 爭能力強,經(jīng)營業(yè)績優(yōu)良,綜合財務(wù)狀況良好,屬高科技板塊的績優(yōu)龍頭股,頗 具發(fā)展?jié)摿烷L期投資價值,是高科技板塊中投資者的首選投資對象。其中第一類的天津磁卡、燕化高新 1997 年凈利潤率分別為 45.86%和 44.32%,凈利潤增長 率分別是 93.6%和 96.95%,其獲利能力遠(yuǎn)遠(yuǎn)大于其它公司。第四類公司業(yè)績一般,投資者應(yīng)謹(jǐn)慎

28、介入,可多加觀望。(二)聚類分析方法在社會的應(yīng)用由上述案例可以看出聚類分析能綜合多項財務(wù)指標(biāo)來反映上市公司的盈利 能力和水平,所得聚類結(jié)果與公司的實際財務(wù)狀況和經(jīng)營狀況相吻合。我們還可以對所選出的各個板塊的龍頭潛力股再進(jìn)行聚類分析,找出最具實力的板塊龍頭股。因此聚類分析方法適用于分析社會上的一些公司的盈利能力和水平,在經(jīng)濟(jì)類比較突出。(一)主成份分析方法原理簡介主成分分析是將多指標(biāo)化為少數(shù)幾個綜合指標(biāo)的一種統(tǒng)計方法主成分分析 是從原始變量中導(dǎo)出少數(shù)幾個主分量,使他們盡可能多地保留原始變量的信息,:11CI22CL1&0. 04278 57.20. &S46100B12CL134

29、O.O10E亂81.90. &B48CL1930. 02249.13.00 74351CL11CL15140 0368TO9 20. 794370B180S290.02137.SD. T909CL14CL1T60. D49S-3.12T.8o 81501CL3CL12160. 05T3-E.S53.03.6Q 9oa?CL9CL1070 OT03-2 493 45. 110. 9533CL6cis220,1T45-3.55& 29 e1.0341CL3CL40. 1556-3.494.S6 71 06131CL2CI731i0.1426-o.oa4.8I四、主成份分析方法且彼此

30、互不相關(guān)主成分分析的應(yīng)用目的是數(shù)據(jù)的壓縮、數(shù)據(jù)的解釋,它常被用來尋找判斷某種事物或現(xiàn)象的綜合指標(biāo),并且給綜合指標(biāo)所包含的信息以適當(dāng)?shù)慕?釋,從而更加深刻地揭示事物的內(nèi)在規(guī)律。(二)主成份分析案例敘述分析1.中學(xué)生身體四項指標(biāo)的主成分分析在某中學(xué)隨機(jī)抽取某年級 30 名學(xué)生,測量起身高(XI),體重(X2),胸圍 (X3)和坐高(X4),數(shù)據(jù)如下表。試對這 30 名中學(xué)生身體四項指標(biāo)數(shù)據(jù)做主成 分分析。2139347176171494782 793160497786181453570 774149366779191604774 875159458086201564478 856142316676

31、211514273 827153437683221473873 788150437779231573968 809151427780241473065 7510139316874251574880 8811140296474261513674 8012161477884271443668 7613158497883281413067 7614140336777291393268 7315137316673301483870 782.對數(shù)據(jù)的相關(guān)陣作主成分分析,有 pr.studv-pri ncomp(stude nt,cor=TRUE) summary(pr.stud,load in gs=T

32、RUE)Importa nee of comp onen ts:Comp.1 Comp.2 Comp.3 Comp.4Sta ndard deviation 1.8817805 0.55980636 0.28179594 0.25711844Proportion of Varia nee 0.8852745 0.07834579 0.01985224 0.01652747Cumulative Proportio n 0.8852745 0.96362029 0.98347253 1.00000000Load in gs:Comp.1 Comp.2 Comp.3 Comp.4X1 -0.497

33、0.543 -0.450 0.506X2 -0.515 -0.210 -0.462 -0.691X3 -0.481 -0.725 0.175 0.461X4 -0.507 0.368 0.744 -0.232其中 Standard deviation 為主成分的標(biāo)準(zhǔn)差,即方差的開方,也就是相應(yīng) 的特征值的開方。Proportion of Variane表示方差的貢獻(xiàn)率,而 CumulativeProportion 表示方差的累計貢獻(xiàn)率。Loadings=FALSE 或缺省就不列出 loadings。3.分析:從主成分分析結(jié)果可看出前兩個主成分的累計貢獻(xiàn)率高達(dá)96%,選擇兩個主成分。第一個主成分

34、對應(yīng)系數(shù)的符號都相同, 其值在 0.5 左右,反映了中學(xué)生身材 的魁梧程度,身材高大的學(xué)生,他的四個部分的尺寸都比較大,因此第一主成分 的值就較小。而身材矮小的同學(xué)他的四部分都比較小,第一主成分的值較大。第 一主成分為大小因子。第二主成分是高度和圍度之差,比較大表明該學(xué)生細(xì)高,比較小為“矮胖”, 稱第二因子為形體因子??匆幌赂鳂颖镜闹鞒煞葜诞嫷谝粋€主成分的散點圖, 可看出 10, 11, 15, 29 值較大,說明學(xué)生比較瘦 小,而 3,5,25值較小,說明學(xué)生比較高大.predict(pr.stud)-score plot(1:30, score,1) plot(1:30, score,2)

35、1:30從這個圖很容易看出,那些學(xué)生屬于高大魁梧型,比如 25 號學(xué)生,3、5 號學(xué) 生,那些學(xué)生屬于高瘦型比如 23、19、4 等等。(三)主成份分析方法在社會的應(yīng)用根據(jù)主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應(yīng) 用。概括起來說,主成分分析主要有以下幾方面的應(yīng)用。1 主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究 m 維的丫空間代替 p 維的 X 空間(mvp),而低維的丫空間代替 高維的 x 空間所損失的信息很少。即: 使只有一個主成分丫1(即 m= 1)時,這個丫1 仍是使用全部 X 變量(p 個)得到的。 例如要計算丫1 的均值也得使用全部 x 的均值。在所選的前

36、m 個主成分中,如果 某個 Xi 的系數(shù)全部近似于fl-fl- L7129!GB DEFmKXA(flaK IA7)Z7B265j.st-37 0r-70-21F-2*壇施數(shù)牖能臟述詐北 S 麗槌供的數(shù)據(jù)栗由于樣本量較小,變量較多,變量數(shù)遠(yuǎn)遠(yuǎn)多于樣本量,為了獲得較為可靠的白血 病分型錯誤率估計,更好地評價所建模型的擬合與預(yù)測效果,并同Golub 等人的研究進(jìn)行對照比較,因此,本研究采用了如下四個步驟進(jìn)行樣本分類錯誤率的估 計。1. 樣本劃分:為了使本研究與 Golub 等人的研究具有可比性,仍然采用與 Golub 等研究完全一致的樣本劃分,整個數(shù)據(jù)集劃分為訓(xùn)練樣本集與獨立測試樣 本集,其中訓(xùn)練

37、樣本集含急性淋巴性白血病 (ALL)病例 27 例,急性髓性細(xì)胞白血 病(AML)11 例,測試樣本集中含 20 例 AI L14 例 AML2. 擬合精度評價:利用訓(xùn)練樣本集建立白血病分型識別模型,采用 Jackknife法評價通過偏最小二乘判別分析(PLS DA)所建立的識別模型在訓(xùn)練樣本集上的 擬合效果,即每次保留一個不同的樣本作為測試用,其余樣本用作訓(xùn)練樣本集,考察識別模型分類正確與誤判的情況;并且,分析運用VIP 指標(biāo)篩選基因前后所建識別模型的實際擬合效果。3. 預(yù)測精度評價:在進(jìn)行擬合精度評價的同時,采用與擬合精度評價相類似 的步驟,利用獨立測試樣本集考察通過偏最小二乘判別分析(P

38、LSDA)所建立的 識別模型預(yù)測白血病分型正確與誤判情況,以評價其實際預(yù)測精度。4. 方法對照比較:對通過 PLS-DA 所建模型和 Golub 等人所建模型的擬合精度 和預(yù)測精度予以對比分析,評價它們對白血病分型的實際效果。在未作基因篩選的原始數(shù)據(jù)和經(jīng)過基因篩選的相關(guān)數(shù)據(jù)集上,使用偏最小二乘判別分析(PLS-DA)分析該數(shù)據(jù)集,建立急性白血病識別模型,并分別進(jìn)行上述步 驟,對其判別效果予以評價。其中,基因篩選采用VIP 得分,提取前 50 個影響強度最大的基因。為法 -訓(xùn)練集(JsckKnifc 法)稱試集正確分裝錯溟分類正確分類錯溟分類未經(jīng)篩選362313基因端選380340由表 2 可見

39、,未經(jīng)基因篩選的偏最小二乘判別分析在訓(xùn)練集的正確分類率約 為 95%,而在測試集上的正確率則約為 91% ;經(jīng)過基因篩選的偏最小二乘判別 分析無論在訓(xùn)練集上,還是測試集上,其正確率均為100%。由此可見,經(jīng)過基因篩選的偏最小二乘判別分析,無論擬合精度,還是預(yù)測精度均優(yōu)于未經(jīng)篩選的 偏最小二乘判別分析。表2基于PLSDA的白血病分堂識別欖型分型戲果針對腫瘤的基因表達(dá)微陣列數(shù)據(jù)特點,Golub 等首先采用了一種類似于 t 統(tǒng)計 量的信噪比形式作為基因?qū)δ[瘤的辨識性度量指標(biāo),用以分別檢測每個基因在白血病骨髓中表達(dá)水平的差異程度。Golub 等利用該指標(biāo)選取出 50 個對腫瘤辨識性較大的基因,并在此過

40、程中利用鄰域分析(Neighborhood An alysis) 方法對急性白血病進(jìn)行分類,從而構(gòu)建出急性白血病的識別模型。由于經(jīng)過基因篩選的偏最小二乘判別分析的判別效果優(yōu)于未經(jīng)篩選的偏最 小二乘判別分析,因而,以下仍將根據(jù) VIP 得分,提取前 50 個最相關(guān)的基因,構(gòu) 建急性白血病的識別模型。見表 3。表3不同方法的白血病識別模型效果訓(xùn) Kmftfe)厠試集A正 M 類錯誤分類抵蹩說別正橢分歩錯保分類柜蹩識別GdubM0 22905PISDA 380 03400由表 3 可見,基于偏最小二乘判別分析的白血病識別模型的擬合精度和預(yù)測精 度均優(yōu)于 Golub 等人提出的鄰域分析,同時,基于偏最

41、小二乘判別分析的白血病 識別模型也不存在拒絕識別的現(xiàn)象。 因此,基于偏最小二乘判別分析的識別模型 優(yōu)于 Golub 等的鄰域分析。由于基因表達(dá)譜數(shù)據(jù)樣本少,維度高,數(shù)據(jù)量巨大,而且各種干擾混雜于其 中,從而,要求判別分析方法能夠高效地在大規(guī)?;虮磉_(dá)譜中濾除噪聲干擾, 準(zhǔn)確提取特征基因,建立有效的腫瘤識別模型。偏最小二乘判別分析(PLS DA)比較適合于處理此類特點的基因表達(dá)譜數(shù)據(jù), 該方法通過協(xié)方差最大化準(zhǔn)則能有 效地去除基因微陣列表達(dá)數(shù)據(jù)中的噪聲干擾,降低數(shù)據(jù)維度,從而,使得用偏最小二乘判別分析建立的白血病分型識別模型不僅具有較好的擬合精度,而且可以獲得較高的分型準(zhǔn)確率(包括擬合精度和預(yù)測精度)。偏最小二乘判別分析的基因微陣列建模方法,通過 VIP 得分從全部解釋變量 (基因)中篩選出對分型有較強影響的變量(基因),尋找出與疾病類別關(guān)聯(lián)最緊密 的基因,利用比較穩(wěn)健的統(tǒng)計分析方法一一 偏最小二乘判別分析,建立疾病類 別識別模型,從而,有效地提高了所建模型的分型準(zhǔn)確度(包括擬合精度和預(yù)測 精度),更好地識別出疾病種類;并且,基于 VIP 得分的變量篩選無需正態(tài)性假設(shè), 適應(yīng)范圍更為寬廣。、(三)偏最小二乘回歸分析方法在社會的應(yīng)用由上面的案例可以得出: 偏最小二乘回歸分析方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論