版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
./第一章多元正態(tài)分布1.在數(shù)據(jù)處理時,為什么通常要進行標準化處理?數(shù)據(jù)的標準化〔normalization是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間.在某些比較和評價的指標處理中經(jīng)常會用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標能夠進行比較和加權(quán).其中最典型的就是0-1標準化和Z標準化.〔10-1標準化<0-1normalization>也叫離差標準化,是對原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換函數(shù)如下:其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值.這種方法有一個缺陷就是當有新數(shù)據(jù)加入時,可能導(dǎo)致max和min的變化,需要重新定義.〔2Z-score標準化<zero-meannormalization>也叫標準差標準化,經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,標準差為1,也是SPSS中最為常用的標準化方法,其轉(zhuǎn)化函數(shù)為:其中μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標準差.2、歐氏距離與馬氏距離的優(yōu)缺點是什么?歐氏距離〔Euclideandistance也稱歐幾里得度量、歐幾里得度量,是一個通常采用的距離定義,它是在m維空間中兩個點之間的真實距離.在二維和三維空間中的歐氏距離的就是兩點之間的距離.缺點:就大部分統(tǒng)計問題而言,歐氏距離是不能令人滿意的.〔每個坐標對歐氏距離的貢獻是同等的.當坐標表示測量值時,它們往往帶有大小不等的隨機波動,在這種情況下,合理的方法是對坐標加權(quán),使變化較大的坐標比變化較小的坐標有較小的權(quán)系數(shù),這就產(chǎn)生了各種距離.當各個分量為不同性質(zhì)的量時,"距離"的大小與指標的單位有關(guān).它將樣品的不同屬性〔即各指標或各變量之間的差別等同看待,這一點有時不能滿足實際要求.沒有考慮到總體變異對距離遠近的影響.馬氏距離<Mahalanobisdistance>是由印度統(tǒng)計學(xué)家馬哈拉諾比斯提出的,表示數(shù)據(jù)的協(xié)方差距離.為兩個服從同一分布并且其協(xié)方差矩陣為Σ的隨機變量與的差異程度:如果協(xié)方差矩陣為單位矩陣,那么馬氏距離就簡化為歐氏距離,如果協(xié)方差矩陣為對角陣,則其也可稱為正規(guī)化的歐氏距離.它是一種有效的計算兩個未知樣本集的相似度的方法.對于一個均值為μ,協(xié)方差矩陣為Σ的多變量向量,樣本與總體的馬氏距離為<dm>^2=<x-μ>'Σ^<-1><x-μ>.在絕大多數(shù)情況下,馬氏距離是可以順利計算的,但是馬氏距離的計算是不穩(wěn)定的,不穩(wěn)定的來源是協(xié)方差矩陣,這也是馬氏距離與歐式距離的最大差異之處.優(yōu)點:它不受量綱的影響,兩點之間的馬氏距離與原始數(shù)據(jù)的測量單位無關(guān).〔它考慮到各種特性之間的聯(lián)系〔例如:一條關(guān)于身高的信息會帶來一條關(guān)于體重的信息,因為兩者是有關(guān)聯(lián)的并且是尺度無關(guān)的<scale-invariant>,即獨立于測量尺度;由標準化數(shù)據(jù)和中心化數(shù)據(jù)<即原始數(shù)據(jù)與均值之差計算出的二點之間的馬氏距離相同.馬氏距離還可以排除變量之間的相關(guān)性的干擾.缺點:夸大了變化微小的變量的作用.受協(xié)方差矩陣不穩(wěn)定的影響,馬氏距離并不總是能順利計算出.3、當變量X1和X2方向上的變差相等,且與互相獨立時,采用歐氏距離與統(tǒng)計距離是否一致?統(tǒng)計距離區(qū)別于歐式距離,此距離要依賴樣本的方差和協(xié)方差,能夠體現(xiàn)各變量在變差大小上的不同,以及優(yōu)勢存在的相關(guān)性,還要求距離與各變量所用的單位無關(guān).如果各變量之間相互獨立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個觀測指標的標準差的倒數(shù)作為權(quán)數(shù)的加權(quán)歐氏距離.均值向量和協(xié)方差陣的檢驗3、多元均值檢驗,從題意知道,容量為9的樣本,總體協(xié)方差未知假設(shè)H0:,H1:<n=9p=5>檢驗統(tǒng)計量/<n-1>服從P,n-1的分布統(tǒng)計量實際上是樣本均值與已知總體均值之間的馬氏距離再乘以n*〔n-1,這個值越大,相等的可能性越小,備擇假設(shè)成立時,有變大的趨勢,所以拒絕域選擇值較大的右側(cè)部分,也可以轉(zhuǎn)變?yōu)镕統(tǒng)計量零假設(shè)的拒絕區(qū)域{〔n-p/[<n-1>*p]}*>1/10*>F5,4<5>μ0=〔6212.0132.8729729.5 15.78’樣本均值〔4208.78 35.12 1965.89 12.21 27.79’〔樣本均值-μ0’=<-2003.23 2.25 -1006.11 2.71 12.01>協(xié)方差矩陣<降維——因子分析——抽取>Inter-ItemCovarianceMatrix人均GDP<元三產(chǎn)比重〔%人均消費<元人口增長<%>文盲半文盲〔%>人均GDP<元1020190.840582.460331693.531-599.784-6356.325三產(chǎn)比重〔%582.46019.480-105.4646.62543.697人均消費<元331693.531-105.464125364.321-213.634-3130.038人口增長<%>-599.7846.625-213.6346.09925.410文盲半文盲〔%>-6356.32543.697-3130.03825.410196.884協(xié)方差的逆矩陣1.88034E-05-0.000440368-6.09781E-050.00279921-0.000625893-0.000440370.207023949-0.000210374-0.0237044-0.06044981-6.0978E-05-0.0002103740.00022733-0.01050190.0030474740.002799208-0.023704352-0.0105018810.85288927-0.18139981-0.00062589-0.060449810.003047474-0.18139980.070148804計算:邊遠及少數(shù)民族聚居區(qū)社會經(jīng)濟發(fā)展水平的指標數(shù)據(jù).xls=9*<-2003.23 2.25 -1006.11 2.71 12.01>*s^-1*<-2003.23 2.25 -1006.11 2.71 12.01>’=9*50.11793817=451,06144353F統(tǒng)計量=45.2>6.2拒絕零假設(shè),邊緣及少數(shù)民族聚居區(qū)的社會經(jīng)濟發(fā)展水平與全國平均水平有顯著差異.聚類分析聚類分析的基本思想和功能是什么?研究的樣品或指標之間存著程度不同的相似性,于是根據(jù)一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間的相似程度的統(tǒng)計量,以這些統(tǒng)計量作為劃分類型的依據(jù),把一些相似程度較大的樣品聚合為一類,把另外一些彼此之間相似程度較大的樣品又聚合為另外一類,直到把所有的樣品聚合完畢,形成一個有小到大的分類系統(tǒng),最后再把整個分類系統(tǒng)畫成一張分群圖,用它把所有樣品間的親疏關(guān)系表示出來.作用是把相似的研究對象歸類.試述系統(tǒng)聚類法的原理和具體步驟.首先將n個樣品看成n類〔一類包含一個樣品>,然后將性質(zhì)最接近的兩類合并成一個新類,得到n-1類,再從中找出最接近的兩類加以合并變成n-2類,如此下去,最后所有的樣品均在一類,將上述并類過程畫成一張圖便可決定分多少類,每類各有哪些樣品.試述K-均值聚類的方法原理K-均值法是一種非譜系聚類法,把每個樣品聚集到其最近形心〔均值類中,它是把樣品聚集成K個類的集合,類的個數(shù)k可以預(yù)先給定或者在聚類過程中確定,該方法應(yīng)用于比系統(tǒng)聚類法大得多的數(shù)據(jù)組.把樣品分為K個初始類,進行修改,逐個分派樣品到期最近均值的類中〔通常采用標準化數(shù)據(jù)或非標準化數(shù)據(jù)計算歐氏距離重新計算接受新樣品的類和失去樣品的類的形心.重復(fù)這一步直到各類無元素進出.第四章判別分析1.應(yīng)用判別分析應(yīng)該具備什么樣的條件被解釋變量是屬性變量而解釋變量是度量變量,判別分析最基本的要求是,分組類型在兩組以上,每組案例的規(guī)模必須至少在一個以上,解釋變量必須是可測量的,才能夠計算其平均值和方差,使其能合理地應(yīng)用于統(tǒng)計函數(shù).假設(shè)之一是:每一個判別變量〔解釋變量不能是其他判別變量的線性組合.這時,為其他變量線性組合的判別變量不能提供新的信息,更重要的是在這種情況下無法估計判別函數(shù).不僅如此,有時一個判別變量與另外的判別變量高度相關(guān),或與另外的判別變量的線性組合高度相關(guān),雖然能求解,但是參數(shù)估計的標準誤差很大,以至于參數(shù)估計統(tǒng)計上不顯著,這就是常說的,多重共線性問題.假設(shè)之二:各組變量的協(xié)方差矩陣相等,判別分析最簡單和最常用的的形式是采用現(xiàn)行判別函數(shù),他們是判別變量的簡單線性組合,在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡單的公式來計算判別函數(shù)和進行顯著性檢驗.假設(shè)之三:各判別變量之間具有多元正態(tài)分布,即每個變量對于所有其他變量的固定值有正態(tài)分布,在這種條件下可以精確計算顯著性檢驗值和分組歸屬的概率,黨委被該假設(shè)時,計算的概率將非常不準確.2.試述貝葉斯判別法的思路貝葉斯判別法的思路是先假定對研究的對象已有一定的認識,常用先驗概率分布來描述這種認識,然后我們?nèi)〉靡粋€樣本,用樣本來修正已有的認識,〔先驗概率分布,得到后驗概率分布,各種統(tǒng)計推斷都通過后驗概率分布來進行.將貝葉斯判別方法用于判別分析得到貝葉斯判別.〔1最大后驗概率準則設(shè)有總體<i=1,2,…k>,具有概率密度函數(shù)fi<X>,并且知道根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為Pi.當樣本發(fā)生時,求屬于某類的概率,由貝葉斯公式計算后驗概率P〔|=Pi*fi<X>/ΣPi*fi<X>,i=1,2,…,k最大后驗概率準則采用的判別規(guī)則是:X〔2最小誤判代價準則設(shè)有K個總體分別具有p維密度函數(shù),,已知出現(xiàn)這k個總體的先驗概率分布為用表示樣本的一個劃分,互不相交,且,如果這個劃分取得適當,正好對應(yīng)于k個總體,這時判別規(guī)則可以采用如下方法用表示來自樣本而被誤判為的損失,這一誤判的概率為由以上判別規(guī)則帶來的平均損失ECM定義,目的是求,使得ECM最小3.試述費歇判別法的思想將k組P維數(shù)據(jù)投影到某一方向,使得它們的投影組與組之間盡可能地分開.K個總體分別取得k組P維觀察值令a為中的任一向量,為x向以a為法線方向的投影,這時,上述數(shù)據(jù)的投影為組間平方和為第i組均值為總體均值向量組內(nèi)平方和如果K組均值有顯著差異,則應(yīng)該充分地大,或者應(yīng)充分大的極大值為,它是的最大特征根,為相應(yīng)的特征向量,當時,可使達到最大值,由于的大小可以衡量判別的效果,所以稱為判別效率.得到以下定理:費歇準則下的線性判別函數(shù)的解a為方程的最大特征根所對應(yīng)的特征向量,且相應(yīng)的判別效率為.4.什么是逐步判別分析如果在某個判別問題中,將起最重要的變量忽略了,相應(yīng)的判別函數(shù)的效果一定不好.而另一方面,如果判別變量的個數(shù)太多,計算量必然大,會影響估計的精度,特別當引入了一些判別能力不強的變量時,還會嚴重影響到判別的效果.變量的選擇關(guān)系到判別函數(shù)的效果,適當篩選變量是一個很重要的問題.凡是具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法.〔1在中選出一個自變量,它使維爾克斯統(tǒng)計量達到最小,假定挑選的變量次序按照自然的次序,第一步選中,第r步選中,,考察是否落入接受域,如果不顯著則表明一個變量也不選中,,不能用判別分析,如顯著則進入下一步.<2>在未選中的變量中,計算它們與已選中變量配合的值,選擇使最小的作為第二個變量,依此,如選中r個變量,設(shè),計算,使其最小的為第個變量,檢驗第個變量能否提供附加信息,如果能則進入第四部,不能進入第三步.〔3在已選入的r個變量中,要考慮較早選中的變量中重要性有沒有較大的變化,應(yīng)及時把不能提供附加信息的變量剔除出去,剔除的原則等同于引進的原則.例如在已進入的r個變量中要考察是否應(yīng)剔除,就是計算選擇達到極小<大>的,看是否顯著,如不顯著將該變量剔除,回到第三步,繼續(xù)對于下的變量進行考察是否需要剔除,如果顯著則回到第二步.〔4這時既不能選進新變量,又不能剔除已選進的變量,將已選中的變量簡歷判別函數(shù).5.簡要敘述判別分析的步驟及流程〔1研究問題:選擇對象,評估一個多元問題各組的差異,將觀測<個體>歸類,確定組與組之間的判別函數(shù)〔2設(shè)計要點:選擇解釋變量,樣本的考慮,建立分析樣本的保留樣本<3>假定:解釋變量的整體性,線性關(guān)系,解釋變量間不存在多重共線性,協(xié)方差相等〔4估計判別函數(shù):聯(lián)立估計或者逐步估計,判別函數(shù)的顯著性〔5使用分類矩陣評估預(yù)測的精度:確定最優(yōu)臨界得分,確定準則來評估判對比率,預(yù)測精確的統(tǒng)計顯著性〔6判別函數(shù)的解釋,需要多個函數(shù),評價單個函數(shù)主要從判別權(quán)重、判別載荷、偏F值幾個方面,〔評價兩個以上的判別函數(shù)也需要,并且還要評價合并的函數(shù),函數(shù)的旋轉(zhuǎn)、能力指數(shù),各組重心的圖示、判別載荷的圖示,〔7判別結(jié)果的驗證:分開樣本或者交叉驗證,刻畫組間的差異.6.為研究某地區(qū)人口死亡狀況,已按某種方法將15個一直樣品分為三類,指標及原始數(shù)據(jù)見下表,試建立判別函數(shù),并判定另外四個帶判樣品屬于哪類AnalysisCaseProcessingSummaryUnweightedCasesNPercentValid1578.9ExcludedMissingorout-of-rangegroupcodes0.0Atleastonemissingdiscriminatingvariable0.0Bothmissingorout-of-rangegroupcodesandatleastonemissingdiscriminatingvariable421.1Total421.1Total19100.0GroupStatisticsyMeanStd.DeviationValidN<listwise>UnweightedWeighted1X138.74206.8843455.000X211.90006.7852855.000X31.5000.7593155.000X412.24606.9758555.000X5100.05807.4774055.000X667.46002.6968555.0002X139.53648.3720655.000X211.49608.4491155.000X32.93802.1253055.000X427.83006.1197155.000X5151.224017.6221955.000X666.05001.9072255.0003X138.500010.5680155.000X210.11809.8193055.000X3.6840.9079055.000X410.33209.6736055.000X593.946012.2527655.000X667.42003.0507455.000TotalX138.92618.104731515.000X211.17137.856361515.000X31.70731.618971515.000X416.802710.823061515.000X5115.076029.227931515.000X666.97672.497351515.000TestsofEqualityofGroupMeansWilks'LambdaFdf1df2Sig.X1.997.019212.981X2.990.061212.941X3.6453.301212.072X4.4387.690212.007X5.17328.728212.000X6.926.478212.631對各組均值是否相等的檢驗,在0.01的顯著性水平上,X4、X5在三組的均值有顯著差異反映協(xié)方差矩陣的秩和行列式的對數(shù)值,后者對各種體協(xié)方差陣是否相等的統(tǒng)計檢驗,由F值及其顯著水平,我們在0.05的顯著性水平下接受原假設(shè)〔原假設(shè)假定各總體協(xié)方差陣相等EigenvaluesFunctionEigenvalue%ofVarianceCumulative%CanonicalCorrelation160.267a98.998.9.9922.678a1.1100.0.636a.First2canonicaldiscriminantfunctionswereusedintheanalysis.第一判別函數(shù)解釋了98.9%的方差,第二判別函數(shù)解釋了1.1%的方差Wilks'LambdaTestofFunction<s>Wilks'LambdaChi-squaredfSig.1through2.01044.01412.0002.5964.9195.426第一判別函數(shù)在0.05的顯著性水平上是顯著的標準化的判別函數(shù)StandardizedCanonicalDiscriminantFunctionCoefficientsFunction12X1-17.048-7.685X214.7109.793X3-1.301-.513X46.403-.566X51.344.657X64.3111.813CanonicalDiscriminantFunctionCoefficientsFunction12X1-1.951-.879X21.7421.160X3-.927-.366X4.827-.073X5.102.050X61.661.698<Constant>-78.860-29.413Unstandardizedcoefficients非標準化的判別函數(shù)Y1=-78.860+-1.951X1+1.742X2+-0.927X3+0.827X4+0.102X5+1.661X6根據(jù)這個判別函數(shù)計算每個觀測的判別Z得分后者是判別函數(shù)在各組的重心各組的先驗概率FunctionsatGroupCentroidsyFunction121-2.6851.00229.523-.2543-6.838-.748UnstandardizedcanonicaldiscriminantfunctionsevaluatedatgroupmeansPriorProbabilitiesforGroupsyPriorCasesUsedinAnalysisUnweightedWeighted1.33355.0002.33355.0003.33355.000Total1.0001515.000ClassificationFunctionCoefficientsy123X1-158.299-181.006-148.660X2166.206186.018156.942X3-97.779-108.631-93.291X459.02669.21755.718X511.52212.71011.009X6201.552220.946193.435<Constant>-5586.484-6553.476-5227.094Fisher'slineardiscriminantfunctions每組的費歇線性判別函數(shù)Y=1這組F1=-5586.484+-158.299X1+166.206X2+-97.779X3+59.026X4+11.522X5+201.552X6Y=2這組F2=-6553.476+-181.006X1+186.018X2+-108.631X3+69.217X4+12.710+X5220.946X6Y=3這組F3=-5227.094+-148.660X1+156.942X2+-93.291X3+55.718X4+11.009X5+193.435X6將觀測分到較大的函數(shù)值中帶判樣品f1f2f3分別如下3902.3613612.1173997.6615563.0035478.9575556.3037015.1927149.3516931.5745013.9214877.5445030.7341號待判判為第三組2號待判判為第一組3號待判判為第二組4號待判判為第三組ClassificationResultsa,cyPredictedGroupMembershipTotal123OriginalCount150052050530055%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0Cross-validatedbCount150052140532035%1100.0.0.0100.0220.080.0.0100.0340.0.060.0100.0a.100.0%oforiginalgroupedcasescorrectlyclassified.b.Crossvalidationisdoneonlyforthosecasesintheanalysis.Incrossvalidation,eachcaseisclassifiedbythefunctionsderivedfromallcasesotherthanthatcase.c.80.0%ofcross-validatedgroupedcasescorrectlyclassified.PredictedGroupMembership表示預(yù)設(shè)的所屬組關(guān)系Original表示原始數(shù)據(jù)的所屬組關(guān)系Cross-validated表示交叉驗證的所屬組關(guān)系主成分分析1.主成分的基本思想是什么?在對某一事物進行實證研究時,為更全面、準確地反映事物的特征及其發(fā)展規(guī)律,往往考慮與其有關(guān)的多個指標,在多元統(tǒng)計中也稱為變量.一方避免遺漏重要信息而考慮盡可能多的指標,另一方面考慮指標的增多,又難以避免信息重疊.希望涉及的變量少,而得到的信息量有較多.主成分的基本思想是研究如何通過原來變量的少數(shù)幾個線性組合來解釋原來變量絕大多數(shù)信息的一種多元統(tǒng)計方法.研究某一問題涉及的眾多變量之間有一定的相關(guān)性,必然存在著起支配作用的共同因素.通過對原始變量相關(guān)矩陣或協(xié)方差矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究,利用原始變量的線性組合形成幾個互相無關(guān)的綜合指標〔主成分來代替原來的指標.通常數(shù)學(xué)上的處理就是將原來P個指標作線性組合,作為新的綜合指標.最經(jīng)典的做法就是用F1〔選取的第一個線性組合,即第一個綜合指標的方差來表達,即Var<F1>越大,表示F1包含的信息越多.因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分.如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語言表達就是要求Cov<F1,F2>=0,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第P個主成分.2.主成分在應(yīng)用中的主要作用是什么?作用:利用原始變量的線性組合形成幾個綜合指標〔主成分,在保留原始變量主要信息的前提下起到降維與簡化問題的作用,使得在研究復(fù)雜問題時更容易抓住主要矛盾.通過主成分分析,可以從事物之間錯綜復(fù)雜的關(guān)系中找出一些主要成分,從而能有效利用大量統(tǒng)計數(shù)據(jù)進行定量分析,解釋變量之間的內(nèi)在關(guān)系,得到對事物特征及其發(fā)展規(guī)律的一些深層次的啟發(fā),把研究工作引向深入.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù),有時可通過因子負荷aij的結(jié)論,弄清X變量間的某些關(guān)系,多維數(shù)據(jù)的一種圖形表示方法,用主成分分析篩選變量,可以用較少的計算量來選擇,獲得選擇最佳變量子集合的效果.3.由協(xié)方差陣出發(fā)和由相關(guān)陣出發(fā)求主成分有什么不同?由協(xié)方差陣出發(fā)設(shè)隨即向量X=〔X1,X2,X3,……Xp’的協(xié)方差矩陣為Σ,1≥2≥……≥p為Σ的特征值,γ1,γ2,……γp為矩陣A各特征值對應(yīng)的標準正交特征向量,則第i個主成分為Yi=γ1i*X1+γ2i*X2+……+γpi*Xp,i=1,2,……,p此時VAR〔Yi=i,COV〔Yi,Yj=0,i≠j我們把X1,X2,X3,……Xp的協(xié)方差矩陣Σ的非零特征根1≥2≥……≥p>0向量對應(yīng)的標準化特征向量γ1,γ2,……γp分別作為系數(shù)向量,Y1=γ1’*X,Y2=γ2’*X,……,Yp=γp’*X分別稱為隨即向量X的第一主成分,第二主成分……第p主成分.Y的分量Y1,Y2,……,Yp依次是X的第一主成分、第二主成分……第p主成分的充分必要條件是:〔1Y=P’*X,即P為p階正交陣,〔2Y的分量之間互不相關(guān),即D〔Y=diag<1,2,……,p>,<3>Y的p個分量是按方差由大到小排列,即1≥2≥……≥p.由相關(guān)陣出發(fā)對原始變量X進行標準化,Z=<Σ^1/2>^-1*<X-μ>cov〔Z=R原始變量的相關(guān)矩陣實際上就是對原始變量標準化后的協(xié)方差矩陣,因此,有相關(guān)矩陣求主成分的過程與主成分個數(shù)的確定準則實際上是與由協(xié)方差矩陣出發(fā)求主成分的過程與主成分個數(shù)的確定準則相一致的.λi,γi分別表示相關(guān)陣R的特征根值與對應(yīng)的標準正交特征向量,此時,求得的主成分與原始變量的關(guān)系式為:Yi=γi’*Z=γi’*<Σ^1/2>^-1*<X-μ>在實際研究中,有時單個指標的方差對研究目的起關(guān)鍵作用,為了達到研究目的,此時用協(xié)方差矩陣進行主成分分析恰到好處.有些數(shù)據(jù)涉及到指標的不同度量尺度使指標方差之間不具有可比性,對于這類數(shù)據(jù)用協(xié)方差矩陣進行主成分分析也有不妥.相關(guān)系數(shù)矩陣計算主成分其優(yōu)勢效應(yīng)僅體現(xiàn)在相關(guān)性大、相關(guān)指標數(shù)多的一類指標上.避免單個指標方差對主成分分析產(chǎn)生的負面影響,自然會想到把單個指標的方差從協(xié)方差矩陣中剝離,而相關(guān)系數(shù)矩陣恰好能達到此目的.第六章因子分析因子分析與主成分分析有什么本質(zhì)不同?因子分析把展示在我們面前的諸多變量看成由對每一個變量都有作用的一些公共因子和一些僅對某一個變量有作用的特殊因子線性組合而成,因此,我們的目的就是要從數(shù)據(jù)中探查能對變量起解釋作用的公共因子和特殊因子,以及公共因子和特殊因子的線性組合,主成分分析則簡單一些,它只是從空間生成的角度尋找能解釋諸多變量絕大部分變異扥機組彼此不相關(guān)的新變量因子分析中,把變量表示成各因子的線性組合,而主成分分析中,把主成分表示成各變量的線性組合主成分分析中不需要有一些專門架設(shè),因子分析則需要一些假設(shè),因子分析的假設(shè)包括,各個因子之間不相關(guān),特殊因襲之間不相關(guān),公共因子和特殊因子之間不相關(guān)提取主因子的方法不僅有主成分法還有極大似然法等,基于這些不同算法得到的結(jié)果一般也不同,而主成分只能用主成分法提取主成分分析中,當給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值唯一時,主成分一般是固定,而因子分析中,因子不是固定的,可以旋轉(zhuǎn)得到不同的因子.在因子分析中,因子個數(shù)需要分析者指定,結(jié)果隨指定的因子數(shù)不同而不同,主成分分析中,主成分的數(shù)量是一定的,一般有幾個變量就有幾個主成分.與主成分分析相比,由于因子分析可以使用旋轉(zhuǎn)技術(shù)幫助解釋因子,在解釋方面更加有優(yōu)勢,而如果想把現(xiàn)有的變量變成少數(shù)幾個新的變量來進行后續(xù)的分析,則可以使用主成分分析.因子載荷的統(tǒng)計定義是什么?它在實際問題分析中的作用是什么?因子載荷的統(tǒng)計定義,是原始變量與公共因子的協(xié)方差,與都是均值為0,方差為1的變量,因此同時也是與的相關(guān)系數(shù).,則表示的是公共因子對于的每一分量所提供的方差的總和,稱為公共因子對原始變量向量X的方差貢獻,是衡量公共因子相對重要性的指標,計算出因子載荷矩陣A的所有,并按照大小排序,提出影響力大的公共因子.典型相關(guān)分析試述典型相關(guān)分析的統(tǒng)計思想及該方法在研究實際問題中的作用典型相關(guān)分析研究兩組變量之間整體的線性相關(guān)關(guān)系,它是將每一組變量作為一個整體來分析研究而不是分析每一組變量內(nèi)部的各個變量,所研究的兩組變量可以是一組變量為自變量,一組變量為因變量的情況,兩組變量也可以處于同等地位,但典型相關(guān)分析要求兩組變量都至少是間隔尺度的.借助主成分分析的思想,對每一組變量分別尋找線性組合,使生成的新的綜合變量能代表原始變量大部分的信息,同時與由另一組變量生成的新的綜合變量的相關(guān)程度最大,這樣一組新的綜合變量稱為第一對典型相關(guān)變量,同樣的方法找到第二對,第三對....使各隊典型相關(guān)變量之間互不相關(guān),典型相關(guān)變量之間的簡單相關(guān)系數(shù)稱為典型相關(guān)系數(shù).典型相關(guān)分析中的冗余度有什么作用在進行典型相關(guān)分析的時候,需要了解典型變量的解釋比例,從而定量測度典型變量所包含的原始信息量的大小,此時就需要典型變量的冗余分析.冗余度<Redundancy>分析結(jié)果,它列出各典型相關(guān)系數(shù)所能解釋原變量變異的比例,可以用來輔助判斷需要保留多少個典型相關(guān)系數(shù).典型變量的解釋有什么具體方法,實際意義是什么主要使用以下三種方法〔1典型權(quán)重〔標準化系數(shù),〔2典型載荷〔結(jié)構(gòu)系數(shù)〔3典型交叉載荷平均解釋量是某一個典型因素與各觀察變量之典型因素結(jié)構(gòu)系數(shù)的平方和,再除以觀察變量的個數(shù).<結(jié)構(gòu)系數(shù)平方和/個數(shù)>若X、Y變量的數(shù)目不同,則典型因素對各自觀察變量的累積解釋量也會不同.結(jié)構(gòu)系數(shù)大于等于0.3就可以認為有意義;大于等于0.5就屬于高度相關(guān),可以依此來判定有意義的結(jié)構(gòu).交叉結(jié)構(gòu)系數(shù)是指X變量與另一個典型因素η之間的相關(guān)系數(shù),或各Y變量與另一側(cè)典型因素χ間的相關(guān)系數(shù).附表1.邊遠及少數(shù)民族聚居區(qū)社會經(jīng)濟發(fā)展水平的指標數(shù)據(jù).xlsXX436740.9204714.4842.92樣本均值4208.7835.121965.8912.2127.79全國平均水平6212.0132.8729729.515.78樣本均值-全國平均<A>-2003.232.25-1006.112.7112.01Inter-ItemCovarianceMatrix人均GDP<元三產(chǎn)比重〔%人均消費<元人口增長<%>文盲半文盲〔%>人均GDP<元1020190.84582.46331693.531-599.784-6356.325三產(chǎn)比重〔%582.4619.48-105.4646.62543.697人均消費<元331693.531-105.464125364.321-213.634-3130.038人口增長<%>-599.7846.625-213.6346.09925.41文盲半文盲〔%>-6356.32543.697-3130.03825.41196.884逆矩陣<B>1.88034E-05-0.000440368-6.09781E-050.00279921-0.000625893-0.000440370.207023949-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度消防安全責任協(xié)議書編寫規(guī)范
- 2024年緊急消火栓施工及安裝服務(wù)協(xié)議版B版
- 2024新能源充電樁充電站設(shè)計與運營管理合同3篇
- 2025年貨運從業(yè)資格考試題庫
- 2024年高端技術(shù)研發(fā)與轉(zhuǎn)讓合同具體條款
- 2025-2031年中國爽膚水行業(yè)市場調(diào)查研究及發(fā)展趨勢預(yù)測報告
- 中國城市規(guī)劃建設(shè)行業(yè)市場發(fā)展現(xiàn)狀及前景趨勢與投資分析研究報告(2024-2030版)
- 2024年運動會場地租借合同
- 2024版二手住宅買賣合同(簡約版)3篇
- 2025年度小額貸款合同書(資產(chǎn)保全)2篇
- 2024年社會工作者《社會工作實務(wù)(中級)》考試真題必考題
- FZ∕T 74001-2020 紡織品 針織運動護具
- MOOC 作物育種學(xué)-四川農(nóng)業(yè)大學(xué) 中國大學(xué)慕課答案
- 汽車租賃服務(wù)投標方案(技術(shù)方案2)
- 2024年中考語文名著閱讀《儒林外史》內(nèi)容簡介、主要人物形象及相關(guān)練習
- 流浪乞討人員救助工作總結(jié)
- 云南省昆明市盤龍區(qū)2023-2024學(xué)年高二上學(xué)期期末質(zhì)量檢測數(shù)學(xué)試題【含答案解析】
- 腎上腺皮質(zhì)功能減退通用課件
- 《安徒生童話》試題及答案
- 《社會工作概論》課件
- 化工生產(chǎn)操作工培訓(xùn)手冊
評論
0/150
提交評論