多元統(tǒng)計(jì)分析課件_第1頁(yè)
多元統(tǒng)計(jì)分析課件_第2頁(yè)
多元統(tǒng)計(jì)分析課件_第3頁(yè)
多元統(tǒng)計(jì)分析課件_第4頁(yè)
多元統(tǒng)計(jì)分析課件_第5頁(yè)
已閱讀5頁(yè),還剩536頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章概論第一節(jié)多元統(tǒng)計(jì)分析方法概述第二節(jié)多元統(tǒng)計(jì)分析在Excel中的實(shí)現(xiàn)第一節(jié)多元統(tǒng)計(jì)分析方法概述多元統(tǒng)計(jì)分析研究對(duì)象

多元統(tǒng)計(jì)分析方法的主要內(nèi)容

多元統(tǒng)計(jì)分析方法在經(jīng)濟(jì)統(tǒng)計(jì)中的具體應(yīng)用

多元統(tǒng)計(jì)分析方法在經(jīng)濟(jì)統(tǒng)計(jì)中應(yīng)用的一般步驟

一、多元統(tǒng)計(jì)分析研究對(duì)象

研究對(duì)象多元統(tǒng)計(jì)分析是以多維隨機(jī)變量的內(nèi)在聯(lián)系及統(tǒng)計(jì)規(guī)律為其研究對(duì)象。是統(tǒng)計(jì)中討論多維隨機(jī)變量的統(tǒng)計(jì)方法的總稱(chēng)。二、多元統(tǒng)計(jì)分析方法的主要內(nèi)容

從形式上看,一類(lèi)是單變量常用的統(tǒng)計(jì)方法在多維隨機(jī)變量情況下的應(yīng)用;另一類(lèi)是對(duì)多維變量本身進(jìn)行研究的一些特殊方法。具體內(nèi)容包括

多元正態(tài)分布主成分分析因子分析聚類(lèi)分析判別分析對(duì)應(yīng)分析(選)典型相關(guān)分析(選)

(多元回歸分析)

(時(shí)間序列分析)三、多元統(tǒng)計(jì)分析方法在經(jīng)濟(jì)統(tǒng)計(jì)中

的具體應(yīng)用對(duì)多個(gè)變量進(jìn)行降維處理,選擇數(shù)目較少的變量子集合;主成分分析、因子分析、對(duì)應(yīng)分析等對(duì)現(xiàn)象進(jìn)行分類(lèi)研究、分類(lèi)處理、構(gòu)造分類(lèi)模式;聚類(lèi)分析、判別分析等建立經(jīng)濟(jì)模型和利用模型進(jìn)行外推;預(yù)測(cè)模型--回歸分析方法描述模型--聚類(lèi)分析方法研究時(shí)間序列變化趨勢(shì);時(shí)間序列分析方法、馬爾科夫概型分析分析方法等研究經(jīng)濟(jì)現(xiàn)象之間相互關(guān)系;典型相關(guān)分析多種多元統(tǒng)計(jì)分析方法的有機(jī)結(jié)合運(yùn)用

主成分回歸分析因子分析與聚類(lèi)分析的結(jié)合判別分析與聚類(lèi)分析的結(jié)合四、多元統(tǒng)計(jì)分析方法在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用的一般步驟

進(jìn)行定性分析,設(shè)計(jì)理論模型抽取樣本,并取得樣本統(tǒng)計(jì)資料對(duì)描述樣本的指標(biāo)進(jìn)行統(tǒng)計(jì)分析,選擇最佳的統(tǒng)計(jì)指標(biāo)根據(jù)最佳指標(biāo)的樣本數(shù)據(jù),估計(jì)參數(shù),建立數(shù)量模型對(duì)數(shù)量模型進(jìn)行檢驗(yàn)、優(yōu)化以及運(yùn)用

多元統(tǒng)計(jì)分析的實(shí)際應(yīng)用經(jīng)濟(jì)學(xué)工業(yè)農(nóng)業(yè)醫(yī)學(xué)教育體育生態(tài)學(xué)地質(zhì)學(xué)社會(huì)學(xué)考古學(xué)環(huán)境保護(hù)軍事科學(xué)文學(xué)第二節(jié)多元統(tǒng)計(jì)分析在Excel

中的實(shí)現(xiàn)

多元統(tǒng)計(jì)分析在Excel中的實(shí)現(xiàn)的必要性與可行性多元統(tǒng)計(jì)分析系統(tǒng)在Excel中的實(shí)現(xiàn)的基本步驟和方法Excel實(shí)現(xiàn)多元統(tǒng)計(jì)分析的基本特點(diǎn)

Excel實(shí)現(xiàn)多元統(tǒng)計(jì)分析的運(yùn)行環(huán)境Excel實(shí)現(xiàn)多元統(tǒng)計(jì)分析的功能介紹

一、多元統(tǒng)計(jì)分析在Excel中的實(shí)現(xiàn)的必要性與可行性(一)必要性1.由于多元統(tǒng)計(jì)分析方法要分析大量的多維數(shù)據(jù),進(jìn)行數(shù)據(jù)處理時(shí)在計(jì)算上是非常復(fù)雜的,為此,應(yīng)用多元統(tǒng)計(jì)分析方法都離不開(kāi)計(jì)算機(jī)軟件的使用。2.常用的有SPSS,SAS,Statistica,Matlab,S-plus,NCSS等,屬于專(zhuān)業(yè)性很強(qiáng)的統(tǒng)計(jì)軟件,使用費(fèi)用都較高,而且有的還有應(yīng)用期限限制。

(二)可行性1.Excel是微軟公司出品的Office系列辦公軟件中的一個(gè)組件,確切地說(shuō),它是一個(gè)功能強(qiáng)大、技術(shù)先進(jìn)、使用方便的電子數(shù)據(jù)表格軟件。它可以進(jìn)行各種數(shù)據(jù)處理、統(tǒng)計(jì)分析和輔助決策操作,廣泛應(yīng)用于管理、統(tǒng)計(jì)、財(cái)政、金融等眾多領(lǐng)域。而且不斷更新的版本,又不斷地加入新的功能,使其數(shù)據(jù)分析的能力不斷改進(jìn),提高了工作的效率。2.VBA(VisualBasicforApplications)是Microsoft的應(yīng)用軟件編程環(huán)境,它是從VisualBasic中演化而來(lái)的,也是Excel編程的主要工具。Excel不僅具有強(qiáng)大的計(jì)算功能,且可通過(guò)VisualBasic編程,對(duì)Excel進(jìn)行復(fù)雜、快速的操作,即所謂的宏功能。因此,利用EXCEL工作薄或Access作為數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)管理,運(yùn)用VBA(VisualBasicforApplications)進(jìn)行編程,這就為我們?cè)贓XCEL軟件上實(shí)現(xiàn)多元統(tǒng)計(jì)分析提供了可行性。二、多元統(tǒng)計(jì)分析系統(tǒng)在Excel中的實(shí)現(xiàn)的基本步驟和方法

為了有效的在Excel上完成從BASIC程序到VBA程序的升級(jí)轉(zhuǎn)換并建立宏,我們實(shí)施了以下主要步驟和方法:第一步:進(jìn)行通用類(lèi)的總體設(shè)計(jì)

第二步:執(zhí)行代碼的轉(zhuǎn)換第三步:程序的運(yùn)行和調(diào)試三、Excel實(shí)現(xiàn)多元統(tǒng)計(jì)分析的基本特點(diǎn)1、應(yīng)用簡(jiǎn)單、方便、靈活,降低費(fèi)用。2、方法系統(tǒng),較為全面。3、經(jīng)濟(jì)分析案例為主,針對(duì)性強(qiáng)。

四、Excel實(shí)現(xiàn)多元統(tǒng)計(jì)分析的運(yùn)行環(huán)境為了使多元統(tǒng)計(jì)分析系統(tǒng),有效運(yùn)行,還需要有Windows系統(tǒng),以及Offices軟件的支持。為了更方便運(yùn)行統(tǒng)計(jì)分析,在設(shè)計(jì)“多元統(tǒng)計(jì)分析系統(tǒng)”時(shí),我們還直接嵌入了Excel中自帶的一些統(tǒng)計(jì)分析程序,如“多元線性回歸分析”,這樣,為了有效運(yùn)行這些程序,對(duì)于Excel2003以前版的Excel需要實(shí)現(xiàn)加載軟件自身的“數(shù)據(jù)分析”宏,才可以正常運(yùn)行

五、Excel實(shí)現(xiàn)多元統(tǒng)計(jì)分析的功能介紹Excel實(shí)現(xiàn)多元統(tǒng)計(jì)分析主要包括8個(gè)宏,共同構(gòu)成Excel中實(shí)現(xiàn)多元統(tǒng)計(jì)分析的系統(tǒng)。具體系統(tǒng)中各個(gè)宏的主要統(tǒng)計(jì)分析方法和功能介紹如下:1、方差方差分析。包括單因素方差分析、無(wú)交互作用方差分析、有交互作用方差分析。2、多元回歸分析。包括多元線性回歸分析、多元逐步回歸分析、多對(duì)多回歸分析、嶺回歸分析、趨勢(shì)面分析。3、主成分分析。4、因子分析。5、聚類(lèi)分析。包括系統(tǒng)聚類(lèi)分析、動(dòng)態(tài)聚類(lèi)分析、模糊聚類(lèi)分析、圖論聚類(lèi)分析。6、判別分析。包括兩組判別分析、多組判別分析、逐步判別分析。7、對(duì)應(yīng)分析8、典型相關(guān)分析第二章多元正態(tài)分布多元分布的基本概念多元正態(tài)分布及其參數(shù)估計(jì)多元正態(tài)分布的假設(shè)檢驗(yàn)

第一節(jié)多元分布的基本概念

一、隨機(jī)向量二、多元分布函數(shù)和多元密度函數(shù)三、多維隨機(jī)向量的邊緣密度、獨(dú)立性與條件分布四、多維隨機(jī)向量的數(shù)字特征隨機(jī)向量

所謂隨機(jī)變量通俗理解就是“其值隨機(jī)會(huì)而定”的變量

隨機(jī)變量按其可能取值的性質(zhì),區(qū)分為兩大類(lèi)。一類(lèi)是離散型隨機(jī)變量,其特征是只能取有限個(gè)值;另一類(lèi)是連續(xù)型的隨機(jī)變量,其特征是變量的全部可能取值不僅是無(wú)窮多的,并且還不能無(wú)遺漏地逐一排列,而是充滿一個(gè)區(qū)間的。同樣隨機(jī)向量也有離散型和連續(xù)型之分。對(duì)于一個(gè)多維隨機(jī)向量,如果其每個(gè)分量都是一維離散型隨機(jī)變量,則稱(chēng)為多維離散型隨機(jī)向量;如果把一個(gè)p維隨機(jī)向量的取值可視為p維歐氏空間中的一個(gè)點(diǎn),若p維隨機(jī)向量的全部取值能夠充滿歐氏空間中某一區(qū)域,則稱(chēng)該p維隨機(jī)向量為連續(xù)型的。多元分布函數(shù)和多元密度函數(shù)

(一)多元分布函數(shù)(二)多元分布密度(三)密度函數(shù)和分布函數(shù)的關(guān)系從數(shù)學(xué)角度看,隨機(jī)向量的密度函數(shù)、分布函數(shù)之間的關(guān)系可以理解為導(dǎo)數(shù)和積分之間的關(guān)系。通俗的理解,密度函數(shù)、分布函數(shù)之間實(shí)際上是對(duì)隨機(jī)向量的統(tǒng)計(jì)特性分別從兩個(gè)不同側(cè)面進(jìn)行的刻劃,前者是一個(gè)一般意義的函數(shù),后者則是自變量為累計(jì)值的函數(shù),是一個(gè)問(wèn)題的兩個(gè)方面。多維隨機(jī)向量的邊緣密度、

獨(dú)立性與條件分布多維隨機(jī)向量的邊緣密度:

多維隨機(jī)向量的獨(dú)立性:

多維隨機(jī)向量的條件分布:

多維隨機(jī)向量的數(shù)字特征隨機(jī)變量的數(shù)字特征,是指某些由隨機(jī)變量的分布所決定的常數(shù),它刻畫(huà)了隨機(jī)變量(或者其分布)的某一方面的性質(zhì)。對(duì)于多維隨機(jī)變量刻畫(huà)其性質(zhì)的最重要的數(shù)字特征有均值、自協(xié)差陣與協(xié)差陣及相關(guān)矩陣。(一)多維隨機(jī)向量的均值向量(二)多維隨機(jī)向量的自協(xié)差陣與協(xié)差陣

(三)隨機(jī)向量均值與協(xié)差陣的性質(zhì)(四)隨機(jī)向量的相關(guān)陣

第二節(jié)多元正態(tài)分布及其參數(shù)估計(jì)一、多元正態(tài)分布密度函數(shù)二、多元正態(tài)分布的數(shù)字特征三、多元正態(tài)分布的參數(shù)估計(jì)多元正態(tài)分布密度函數(shù)

多元正態(tài)隨機(jī)向量具有以下的性質(zhì):多元正態(tài)分布的數(shù)字特征

多元正態(tài)分布的參數(shù)估計(jì)

在實(shí)際應(yīng)用中,多元正態(tài)分布中的均值向量和協(xié)差陣通常是未知的,需要由樣本資料來(lái)估計(jì),而參數(shù)估計(jì)的方法很多,這里用最常見(jiàn)的最大似然估計(jì)法給出估計(jì)量,用樣本均值向量估計(jì)總體均值向量,用樣本協(xié)差陣估計(jì)總體協(xié)差陣。

第三節(jié)多元正態(tài)分布的假設(shè)檢驗(yàn)一、對(duì)多元正態(tài)總體均值向量和協(xié)差陣進(jìn)行假設(shè)檢驗(yàn)時(shí)常用的三個(gè)重要的抽樣分布二、一個(gè)正態(tài)總體均值向量的假設(shè)檢驗(yàn)三、兩個(gè)正態(tài)總體均值向量的檢驗(yàn)四、多個(gè)正態(tài)總體均值向量的檢驗(yàn)——多元方差分析五、正態(tài)總體的協(xié)方差陣檢驗(yàn)對(duì)多元正態(tài)總體均值向量和協(xié)差陣進(jìn)行

假設(shè)檢驗(yàn)時(shí)常用的三個(gè)重要的抽樣分布

一個(gè)正態(tài)總體均值向量的假設(shè)檢驗(yàn)

兩個(gè)正態(tài)總體均值向量的檢驗(yàn)

多個(gè)正態(tài)總體均值向量的檢驗(yàn)

——多元方差分析

正態(tài)總體的協(xié)方差陣檢驗(yàn)

(一)一個(gè)正態(tài)總體的協(xié)方差陣檢驗(yàn)(二)多個(gè)協(xié)差陣相等的檢驗(yàn)本章內(nèi)容講授結(jié)束方差分析的基本問(wèn)題單因素方差分析

雙因素方差分析第三章正態(tài)分布第一節(jié)方差分析的基本問(wèn)題

一、方差分析研究的問(wèn)題

二、方差分析的基本思想

方差分析研究的問(wèn)題

方差分析是檢驗(yàn)若干個(gè)具有相同方差的正態(tài)總體的均值是否相等的一種假設(shè)檢驗(yàn)方法。例如,我們要研究不同化肥品種(甲種、乙種)與某農(nóng)作物的關(guān)系,測(cè)定是否不同化肥的增產(chǎn)效果也不同。則通過(guò)比較不同品種組的平均數(shù)的差異來(lái)反映分組變量(如化肥)對(duì)因變量(如農(nóng)作物產(chǎn)量)的影響和作用,這就是方差分析要解決的內(nèi)容。在方差分析中,常常用到以下術(shù)語(yǔ):響應(yīng),是指觀察指標(biāo)的結(jié)果或試驗(yàn)結(jié)果為響應(yīng)。如農(nóng)作物的產(chǎn)量為響應(yīng)。因子(因素),是指在觀察中或在試驗(yàn)中改變其狀態(tài)時(shí)對(duì)響應(yīng)產(chǎn)生影響的因素,也稱(chēng)為因子。如用來(lái)進(jìn)行分組研究的變量化肥就是因素或因子。水平,是指因子(因素)在觀察或試驗(yàn)中所取的狀態(tài)稱(chēng)為因子(因素)的水平。如化肥的種類(lèi)甲種、乙種就是因素的水平。方差分析主要有兩種:如果方差分析只針對(duì)一個(gè)因素進(jìn)行,稱(chēng)為單因素方差分析。如果同時(shí)對(duì)多個(gè)因素進(jìn)行,稱(chēng)為多因素分析。在方差分析中,通常假定在同一條件下的試驗(yàn)結(jié)果是來(lái)自正態(tài)總體的一個(gè)樣本;不同條件下的正態(tài)總體是相互獨(dú)立的,它們的期望可能不同,但方差相同。要判斷不同條件對(duì)響應(yīng)有無(wú)影響就是要檢驗(yàn)各個(gè)正態(tài)總體的均值是否相等。在實(shí)際應(yīng)用時(shí),一般應(yīng)近似地符合上述要求。

方差分析的基本思想從方差分析的目的看,是要檢驗(yàn)各個(gè)正態(tài)總體的均值是否相等,而實(shí)現(xiàn)這個(gè)目的的手段是通過(guò)方差的比較。方差分析就是通過(guò)不同方差的比較,作出接受原假設(shè)或拒絕原假設(shè)的判斷。

為了進(jìn)行具體的檢驗(yàn),根據(jù)證明有,觀察值的總離差有以下的分解關(guān)系式:總離差=水平(組)間離差+水平(組)內(nèi)離差并且,根據(jù)水平間(也稱(chēng)組間)方差和水平內(nèi)(也稱(chēng)組內(nèi))方差之比構(gòu)造一個(gè)統(tǒng)計(jì)量,這個(gè)統(tǒng)計(jì)量服從F分布。

F分布有這樣的幾個(gè)特征:(1)統(tǒng)計(jì)量F是大于零的正數(shù);(2)F分布曲線是正偏態(tài),它的尾端以橫軸為漸近線趨于無(wú)窮;(3)F分布是一種連續(xù)的概率分布,不同的自由度組合有不同的F分布曲線。方差分析要用F統(tǒng)計(jì)量來(lái)進(jìn)行假設(shè)檢驗(yàn)。第二節(jié)單因素方差分析

一、單因素方差分析的計(jì)算步驟二、單因素方差分析中的其他問(wèn)題

三、單因素方差分析在Excel中的實(shí)現(xiàn)

單因素方差分析的計(jì)算步驟

(一)計(jì)算水平均值(二)計(jì)算離差平方和

(三)計(jì)算平均平方(四)方差分析表

(五)作出統(tǒng)計(jì)判斷(一)計(jì)算水平均值(二)計(jì)算離差平方和

(三)計(jì)算平均平方(四)方差分析表(五)作出統(tǒng)計(jì)判斷單因素方差分析中的其他問(wèn)題

1、進(jìn)行方差分析編制方差分析的數(shù)據(jù)表格時(shí),可以把方差分析的因素放在列的位置也可以放在行的位置,但通常放在列的位置。2、進(jìn)行方差分析,各個(gè)水平下的樣本容量可以相同,也可以不同。3、方差分析可以對(duì)若干個(gè)平均值是否相等同時(shí)進(jìn)行檢驗(yàn),這是此種方法的特點(diǎn)和長(zhǎng)處。

單因素方差分析在Excel中的實(shí)現(xiàn)第三節(jié)雙因素方差分析

一、雙因素方差分析的類(lèi)型二、無(wú)交互作用的雙因素方差分析三、有交互作用的雙因素方差分析

四、雙因素方差分析在Excel中的實(shí)現(xiàn)雙因素方差分析的類(lèi)型雙因素方差分析有兩種類(lèi)型:一種是無(wú)交互作用的雙因素方差分析,它假定因素A和因素B的效應(yīng)之間是相互獨(dú)立的,不存在相互關(guān)系;另一種是有交互作用的雙因素方差分析,它假定因素A和因素B的結(jié)合會(huì)產(chǎn)生出一種新的效應(yīng)。

無(wú)交互作用的雙因素方差分析其中有交互作用的雙因素方差分析

雙因素方差分析在Excel中的實(shí)現(xiàn)本章內(nèi)容講授結(jié)束第四章回歸分析簡(jiǎn)單回歸分析法多元線性回歸分析逐步回歸分析多對(duì)多線性回歸分析嶺回歸分析趨勢(shì)面分析

回歸分析概論

回歸分析是研究一個(gè)變量或多個(gè)變量(即因變量)對(duì)于另外一個(gè)或多個(gè)其他變量(即解釋變量)的依存關(guān)系,并用數(shù)學(xué)模型加以模擬,目的在于根據(jù)模型對(duì)因變量進(jìn)行因素分析、趨勢(shì)預(yù)測(cè)及誤差分析等。一般地,把在研究回歸模型時(shí)所采用的估計(jì)、計(jì)算方法,檢驗(yàn)、分析理論統(tǒng)稱(chēng)為回歸分析?;貧w分析方法又稱(chēng)因素分析方法、經(jīng)濟(jì)計(jì)量模型方法。屬于多元統(tǒng)計(jì)分析方法之一。

回歸分析的一般步驟是:根據(jù)研究問(wèn)題的性質(zhì)、要求,建立回歸模型;根據(jù)樣本觀測(cè)值對(duì)回歸模型參數(shù)進(jìn)行估計(jì),求得回歸方程;對(duì)回歸方程、參數(shù)估計(jì)值進(jìn)行顯著性檢驗(yàn),并從影響因變量的自變量中判斷哪些顯著,哪些不顯著;利用回歸方程進(jìn)行因素分析、趨勢(shì)預(yù)測(cè)及誤差分析。第一節(jié)簡(jiǎn)單回歸分析法

一、模型和參數(shù)估計(jì)二、模型的檢驗(yàn)三、進(jìn)行預(yù)測(cè)四、簡(jiǎn)單回歸分析在Excel下的實(shí)現(xiàn)模型和參數(shù)估計(jì)

(一)模型1.總體回歸模型

我們要研究對(duì)象是某個(gè)總體中兩個(gè)變量之間的依存關(guān)系,設(shè)因變量為,主要影響因素為自變量,假定它們之間呈線性關(guān)系。則建立的模型為:

2.樣本回歸模型

在現(xiàn)實(shí)生活中,事實(shí)上,我們是很難直接得到總體模型的。而是采用抽樣的方法,從總體中抽取容量為n的一個(gè)樣本。根據(jù)樣本的資料來(lái)推斷總體的。具體這里,就是要根據(jù)樣本資料建立樣本模型,用樣本模型來(lái)推斷總體模型。

樣本回歸模型:

(二)

參數(shù)估計(jì)根據(jù)上述建立模型的思路,以及用樣本資料來(lái)推斷總體的要求,進(jìn)一步需要回答以下的兩個(gè)問(wèn)題:一是,如何根據(jù)給定的樣本資料,求出估計(jì)值和。二是,為什么用估計(jì)值和就可以來(lái)推斷總體的參數(shù)和。

關(guān)于第一個(gè)問(wèn)題。給定的樣本資料后,依照不同的準(zhǔn)則,采用不同的估計(jì)方法,可以得到不同的估計(jì)值。在應(yīng)用中,通常采用最小二乘法的估計(jì)方法。對(duì)于給定的樣本資料關(guān)于第二個(gè)問(wèn)題。在遵循隨機(jī)抽樣的原則下,給定一個(gè)樣本資料運(yùn)用最小二乘估計(jì)方法,就可以得到一個(gè)和,不同的樣本資料就可以得到不同的和。模型的檢驗(yàn)

(一)模型檢驗(yàn)的原因(二)檢驗(yàn)的內(nèi)容及方法1.回歸系數(shù)的顯著性檢驗(yàn)2.回歸方程的顯著性檢驗(yàn)回歸方程的顯著性檢驗(yàn),就是要檢驗(yàn)樣本回歸方程是否能夠很好擬合樣本數(shù)據(jù)。對(duì)于給定的具體樣本數(shù)據(jù),樣本方程作為一個(gè)整體來(lái)擬合樣本數(shù)據(jù)以及樣本模型,樣本方程對(duì)樣本數(shù)據(jù)擬合的好壞,關(guān)系著方程是否有意義,關(guān)系著應(yīng)用的效果。如果方程不能對(duì)樣本數(shù)據(jù)進(jìn)行很好的擬合,求出的樣本方程也就沒(méi)有存在的意義了。3.D.W檢驗(yàn)導(dǎo)致回歸余項(xiàng)序列相關(guān)的可能原因:(1)模型中遺漏關(guān)鍵變量時(shí)產(chǎn)生序列的自相關(guān)性;(2)經(jīng)濟(jì)變量的滯后性會(huì)給序列帶來(lái)自相關(guān)性;許多的經(jīng)濟(jì)變量都會(huì)產(chǎn)生滯后影響,例如物價(jià)指數(shù)、投資等。(3)采用錯(cuò)誤的回歸函數(shù)形式也可能引起自相關(guān)性;(4)經(jīng)濟(jì)變量序列中包含有較強(qiáng)的趨勢(shì)性也會(huì)導(dǎo)致自相關(guān)性;(5)因?qū)π蛄羞M(jìn)行了加工整理如季節(jié)調(diào)整、數(shù)據(jù)修勻等而導(dǎo)致誤差之間產(chǎn)生自相關(guān)性。4.回歸標(biāo)準(zhǔn)差5.擬合優(yōu)度檢驗(yàn)進(jìn)行預(yù)測(cè)

預(yù)測(cè)是給定了自變量x的一組未來(lái)數(shù)值后,利用回歸方程計(jì)算出相應(yīng)的因變量y的未來(lái)值。預(yù)測(cè)有點(diǎn)預(yù)測(cè)和區(qū)間預(yù)測(cè)兩類(lèi)。1.點(diǎn)預(yù)測(cè)

點(diǎn)預(yù)測(cè),是將自變量的未來(lái)數(shù)值,直接代入回歸方程計(jì)算出相應(yīng)的因變量的未來(lái)值即可。

2.區(qū)間預(yù)測(cè)第二節(jié)多元線性回歸分析

一、模型和參數(shù)估計(jì)二、模型檢驗(yàn)三、多重共線性四、回歸模型的變量子集合的選擇五、多元線性回歸模型在Excel下的實(shí)現(xiàn)模型和參數(shù)估計(jì)

(一)總體回歸模型(二)樣本回歸模型

在現(xiàn)實(shí)生活中,我們是很難掌握總體資料的。而是采用抽樣的方法,從總體中抽取容量為的一個(gè)樣本。根據(jù)樣本的資料來(lái)推斷總體的。具體這里,就是要根據(jù)樣本資料建立樣本模型,用樣本模型來(lái)推斷總體模型。設(shè)某具體樣本資料如下:(三)參數(shù)估計(jì)利用樣本資料對(duì)多元線性回歸總體模型參數(shù)進(jìn)行估計(jì)與一元線性回歸一樣,采用最小二乘法,其原理是使離差平方和達(dá)到最小,即

達(dá)到最小.對(duì)上式求偏導(dǎo)并令其為0,得方程為:該方程稱(chēng)為正規(guī)方程,求解方程即得參數(shù)估計(jì)值。上述過(guò)程也可以通過(guò)矩陣形式來(lái)進(jìn)行。樣本模型表示為。

根據(jù)證明,上述最小二乘估計(jì)量b具有以下的統(tǒng)計(jì)特性:

對(duì)參數(shù)的估計(jì)值進(jìn)行應(yīng)用時(shí)注意:1.參數(shù)估計(jì)值以及各種符號(hào)的實(shí)際意義。模型中的參數(shù),對(duì)不同的預(yù)測(cè)對(duì)象有不同的含義。參數(shù)估計(jì)值的符號(hào)和大小,要符合它的實(shí)際意義。其中表示其他變量保持不變時(shí),自變量變化一個(gè)單位因變量變化多少,因此,經(jīng)濟(jì)分析中,通過(guò)可以求得邊際,而且通過(guò)對(duì)數(shù)回歸還可以求得彈性。2.參數(shù)估計(jì)值的符號(hào)和大小不符合其實(shí)際含義,其可能原因是:某些自變量的取值范圍太窄;模型中遺漏了某些重要的因素;模型中自變量之間存在較強(qiáng)的線性關(guān)系。模型檢驗(yàn)

(一)回歸系數(shù)的顯著性檢驗(yàn)

回歸系數(shù)反映因變量與自變量之間的線性變化關(guān)系,回歸系數(shù)的假設(shè)檢驗(yàn)的就是要檢驗(yàn)這種線性關(guān)系是否顯著,如果某一回歸系數(shù)的估計(jì)量在給定的顯著水平下,顯著不等于0,說(shuō)明自變量與因變量之間存在較強(qiáng)的線性關(guān)系,自變量能夠很好的解釋因變量的變化關(guān)系,符合模型的假設(shè),變量也保留在模型中。若相反,某回歸系數(shù)與0無(wú)顯著不同,表明該自變量的變化無(wú)助于解釋因變量的變化,該自變量是否應(yīng)作為自變量留在模型中,則需要進(jìn)一步考慮。(二)回歸方程的顯著性檢驗(yàn)

回歸方程檢驗(yàn),檢驗(yàn)樣本回歸方程的回歸擬合效果是否顯著,實(shí)質(zhì)是對(duì)樣本回歸模型的整體線性關(guān)系的顯著性檢驗(yàn),即檢驗(yàn)下列假設(shè)是否為真(三)可決系數(shù)以及修正可決系數(shù)

與一元回歸一樣,可決系數(shù)的計(jì)算公式為:(四)其他檢驗(yàn)

多元線性回歸方程也需要進(jìn)行殘差序列的自相關(guān)檢驗(yàn)(D.W檢驗(yàn))和回歸標(biāo)準(zhǔn)差的計(jì)算,D.W檢驗(yàn)的方法與一元線性回歸一樣,但回歸標(biāo)準(zhǔn)差的計(jì)算公式為:多重共線性

多重共線性是多元回歸分析中出現(xiàn)的特有問(wèn)題,在總體模型中,我們?cè)俣ㄗ宰兞恐g是互不相關(guān)的,但是我們?cè)趯?shí)際應(yīng)用中,往往會(huì)遇到兩個(gè)或更多個(gè)自變量之間具有明顯的相關(guān)性,簡(jiǎn)稱(chēng)為自變量的多重共線性。如研究國(guó)家財(cái)政收入的變化,若選擇國(guó)民收入、工業(yè)總產(chǎn)值、農(nóng)業(yè)總產(chǎn)值等為解釋變量時(shí),則自變量之間趨向于有高度的相關(guān)。若發(fā)生了多重共線性問(wèn)題,則前面的一系列統(tǒng)計(jì)方法就會(huì)失效,導(dǎo)致錯(cuò)誤的判定,使預(yù)測(cè)失誤。(一)多重共線性的影響1.由于多重共線性的存在會(huì)改變回歸系數(shù)。2.多重共線性不降低模型的擬合能力,但使回歸平方和、剩余平方和的含義變得模糊。

(二)多重共線性的識(shí)別模型中是否存在多重共線性,可通過(guò)以下的方法進(jìn)行識(shí)別。(1)F檢驗(yàn)通過(guò),而有的回歸系數(shù)的t檢驗(yàn)未通過(guò);(2)模型中引入或剔除一個(gè)自變量,回歸系數(shù)的估計(jì)值有較大的變化;(3)回歸系數(shù)估計(jì)值的符號(hào)與實(shí)際經(jīng)驗(yàn)判斷相反;(4)簡(jiǎn)單相關(guān)系數(shù)矩陣中,兩個(gè)自變量之間的相關(guān)系數(shù)值較大。通常,簡(jiǎn)單相關(guān)系數(shù)r>0.7,應(yīng)考慮有多重共線性存在。(三)多重共線性消除

消除多重共線性的辦法,一是較為簡(jiǎn)單的方法,如刪除共線性組中自變量與因變量的簡(jiǎn)單相關(guān)系數(shù)最小者;通過(guò)差分改變變量定義形式;增加樣本容量。另外是采用新的估計(jì)方法,如有偏估計(jì)方法,包括嶺估計(jì)、廣義嶺估計(jì)、主成分估計(jì)等?;貧w模型的變量子集合的選擇

多變量的情況下,特別是在增加解釋變量以便增加擬合優(yōu)度的情況下,由于變量之間存在多重共線性,使回歸系數(shù)的估計(jì)值存在不穩(wěn)定,以及由于變量抽樣誤差的積累將使因變量估計(jì)值的誤差增大,這樣構(gòu)造的模型穩(wěn)定性差。為此需要選擇變量的最佳子集合進(jìn)入模型。1.選擇變量子集合的原則及方法(1)修正可決系數(shù)的方法當(dāng)模型中引入一個(gè)變量,可決系數(shù)增加,而修正可決系數(shù)卻增加不大,說(shuō)明該變量對(duì)因變量的影響不大,可以不進(jìn)入模型。類(lèi)似地,可以依此原則來(lái)選擇變量子集合。(2)AIC準(zhǔn)則

AIC準(zhǔn)則(Aninformationcriterion)又稱(chēng)為最小信息準(zhǔn)則,1973年由赤池弘治(Akaike)提出。該準(zhǔn)則適用于ARMA模型,包括AR,MA模型的檢驗(yàn)。AIC準(zhǔn)則的計(jì)算公式定義為

AIC中右側(cè)第一項(xiàng)為衡量模型擬合優(yōu)度的一個(gè)量,第二項(xiàng)為增加參數(shù)的折扣,應(yīng)用時(shí)選擇AIC值最小的那個(gè)回歸模型為最優(yōu)模型,也即選擇AIC值最小的變量子集合

(3)Cp準(zhǔn)則馬勒斯(Mallows)從預(yù)測(cè)角度提出一個(gè)可以用來(lái)選擇自變量的統(tǒng)計(jì)量,即Cp準(zhǔn)則。Cp統(tǒng)計(jì)量定義為

Cp中右側(cè)第一項(xiàng)為衡量模型擬合優(yōu)度的一個(gè)量,第二項(xiàng)為增加參數(shù)的折扣,應(yīng)用時(shí)選擇Cp值最小的那個(gè)回歸模型為最優(yōu)模型,也即選擇Cp值最小的變量子集合

此外,變量子集合的選擇還可以采用逐步回歸的方法,自動(dòng)地從大量可供選擇的變量中,選擇對(duì)建立回歸方程重要的變量。逐步回歸特別適用于解釋變量比較多的情況下進(jìn)行變量的選擇。但是,逐步回歸分析方法只能識(shí)別出一個(gè)子集合回歸,不能給我們提供幾個(gè)有爭(zhēng)議的子集合進(jìn)行選擇。第三節(jié)逐步回歸分析一、逐步回歸分析的基本原理二、引入或剔除變量的依據(jù)及檢驗(yàn)三、逐步回歸中回歸系數(shù)的求解四、逐步回歸分析在Excel中的實(shí)現(xiàn)逐步回歸分析的基本原理

1.“最優(yōu)”回歸方程

當(dāng)自變量的個(gè)數(shù)很多時(shí),建立多元回歸方程會(huì)經(jīng)常出現(xiàn)多重共線性問(wèn)題。這就需要探索更方便的方法,從眾多的自變量中選擇對(duì)因變量y影響最為顯著的自變量,建立最優(yōu)回歸模型。所謂“最優(yōu)”回歸方程,是指方程中包含所有對(duì)y影響比較顯著的變量,而不包括對(duì)影響不顯著的變量的回歸方程。建立“最優(yōu)”回歸方程,可采用以下的方法:

(1)從所有可能的自變量組合的回歸方程中選擇最優(yōu)方程。這種方法理論可行,但是實(shí)際中需要建立()個(gè)方程,工作量太大。(2)“逐步剔除法”。原理是先采用全部自變量與因變量建立回歸方程,然后對(duì)每個(gè)自變量進(jìn)行顯著性檢驗(yàn),剔除不顯著的自變量中偏回歸平方和最小的變量,然后再用剩下來(lái)的自變量與因變量建立新的回歸方程,再對(duì)方程中每個(gè)自變量進(jìn)行顯著性檢驗(yàn),剔除不顯著的自變量中偏回歸平方和最小的變量,這個(gè)過(guò)程不斷重復(fù),直到回歸方程中的自變量都顯著為止,最后的回歸方程就是“最優(yōu)”方程。該方法的不足,一是計(jì)算量大,二是自變量一旦被剔除就再?zèng)]有機(jī)會(huì)被引入,沒(méi)有考慮到由于某個(gè)變量的剔除后使變得顯著的其他變量再回到方程中的情況。(3)“逐步引入法”。原理是從一個(gè)自變量開(kāi)始,逐個(gè)引入回歸方程。先是在所有的自變量中選擇一個(gè),使它和因變量建立的一元回歸方程比其他自變量與因變量建立的一元回歸方程具有最大的回歸平方和。然后,再在未選入的變量中選擇一個(gè)自變量,使它和已選入模型的變量所建立的二元回歸方程,比其他自變量和已選入模型的變量所建立的二元回歸方程具有最大的回歸平方和。依次類(lèi)推,選擇第三個(gè)變量,這個(gè)過(guò)程重復(fù)下去,每選擇一次,都對(duì)要引入的變量進(jìn)行顯著性檢驗(yàn),一旦檢驗(yàn)不能通過(guò),就不再引入,過(guò)程結(jié)束。最后的回歸方程就是“最優(yōu)方程”。該方法的不足,一是計(jì)算量大,二是自變量一旦被引入就再?zèng)]有機(jī)會(huì)被剔除,沒(méi)有考慮到由于某個(gè)自變量的引入使變得不顯著的其他變量應(yīng)從方程中剔除的情況。(4)“逐步回歸分析法”逐步回歸分析法是綜合上述(2)(3)兩種方法特點(diǎn),吸收優(yōu)點(diǎn),避免不足,產(chǎn)生的方法。是一種自動(dòng)地從大量可供選擇的變量中,選擇對(duì)建立回歸方程重要的變量的方法,它是在多元線性回歸分析基礎(chǔ)上派生的一種算法。2.逐步回歸分析方法的基本原理原理是:類(lèi)似于逐步引入法,從一個(gè)自變量出發(fā),視自變量對(duì)因變量的影響顯著性大小,從大到小逐個(gè)引入回歸方程,同時(shí),在逐個(gè)自變量選入回歸方程的過(guò)程中,如果發(fā)現(xiàn)先前被引入的自變量在其后由于某些自變量的引入而失去其重要性時(shí),可以從回歸方程中隨時(shí)予以剔除。引入一個(gè)變量或剔除一個(gè)變量,為逐步回歸的一步,每步都要進(jìn)行顯著性檢驗(yàn),以便保證每次引入變量前回歸方程中只包括顯著性變量,這個(gè)過(guò)程反復(fù)進(jìn)行,直到既無(wú)不顯著變量從回歸方程中剔除,又無(wú)顯著變量需要選入回歸方程時(shí)為止。

引入或剔除變量的依據(jù)及檢驗(yàn)

逐步回歸分析是按照各自變量對(duì)因變量作用顯著程度大小來(lái)決定其是否引入還是剔除。用于衡量各自變量對(duì)因變量作用大小的量是它們對(duì)因變量的“貢獻(xiàn)”,即偏回歸平方和。偏回歸平方和的意義和計(jì)算:逐步回歸中回歸系數(shù)的求解

1.標(biāo)準(zhǔn)化正規(guī)方程

對(duì)于多元線性回歸方程:其中心化回歸方程為:對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化:由中心化方程有則有:

上式我們稱(chēng)為標(biāo)準(zhǔn)化回歸方程。

標(biāo)準(zhǔn)化回歸方程與原回歸方程其他統(tǒng)計(jì)量之間的關(guān)系:

可見(jiàn),利用標(biāo)準(zhǔn)化正規(guī)方程求解得標(biāo)準(zhǔn)化回歸方程各項(xiàng)參數(shù)估計(jì)值,進(jìn)而可以利用上述各式還原得原正規(guī)方程的各項(xiàng)參數(shù)估計(jì)值。2.標(biāo)準(zhǔn)化回歸系數(shù)通過(guò)矩陣變換求得逐步回歸分析中,標(biāo)準(zhǔn)化回歸系數(shù)的求解是以相關(guān)矩陣的增廣矩陣為計(jì)算起點(diǎn)的。

每一步,不論引入變量或剔除變量,均對(duì)相關(guān)矩陣施行一次矩陣變換。一般地以表示對(duì)應(yīng)于第m步后的相關(guān)矩陣,如果第m+1步是剔除或引入第個(gè)k變量,則求第m+1步后的相關(guān)矩陣時(shí),矩陣變換公式為:

這樣不斷引入或剔除變量的過(guò)程中將對(duì)相關(guān)矩陣不斷進(jìn)行矩陣變換。則變化后的相關(guān)矩陣即能夠給出該步相應(yīng)的回歸方程的系數(shù)等多種統(tǒng)計(jì)量。如設(shè)第m步后得到的相關(guān)矩陣為第四節(jié)多對(duì)多線性回歸分析一、多對(duì)多線性回歸分析模型

二、多對(duì)多線性回歸分析模型的參數(shù)估計(jì)

三、多對(duì)多線性回歸系數(shù)向量的假設(shè)檢驗(yàn)(在正態(tài)假定下)

四、多對(duì)多線性回歸分析的計(jì)算步驟

五、多對(duì)多線性回歸分析在Excel中的實(shí)現(xiàn)多對(duì)多線性回歸分析模型

于是多對(duì)多線性回歸模型可寫(xiě)成:注:組與組之間的隨機(jī)誤差項(xiàng)是相互獨(dú)立的,但組內(nèi)可以是不獨(dú)立的,即每一行內(nèi)部可以是不獨(dú)立的。多對(duì)多線性回歸分析模型

的參數(shù)估計(jì)

為此用拉直法以及利用矩陣四塊求逆公式可得回歸系數(shù)的估計(jì)值如下:

其中左側(cè)是回歸系數(shù)陣,且有多對(duì)多線性回歸系數(shù)向量

的假設(shè)檢驗(yàn)

一元統(tǒng)計(jì)中多元回歸系數(shù)檢驗(yàn)是:對(duì)多重多元回歸,同樣需要考察某一部分自變量對(duì)p個(gè)因變量的影響是否顯著的問(wèn)題,為此考慮模型:

多對(duì)多線性回歸分析的計(jì)算步驟

設(shè)p為自變量個(gè)數(shù),m為包括因變量在內(nèi)的變量總個(gè)數(shù)(因變量個(gè)數(shù)為m-p個(gè)),n為樣本數(shù)。多對(duì)多線性回歸分析在

Excel中的實(shí)現(xiàn)

(一)問(wèn)題與背景(二)分析過(guò)程(三)輸出結(jié)果(四)幾點(diǎn)結(jié)論第五節(jié)嶺回歸分析一、嶺回歸的基本思想二、嶺回歸估計(jì)的性質(zhì)三、嶺回歸估計(jì)中回歸系數(shù)的確定四、嶺回歸分析在Excel中的實(shí)現(xiàn)嶺回歸的基本思想

當(dāng)線性回歸模型存在較強(qiáng)的多重共線性時(shí),如果仍然采用普通最小二乘法,參數(shù)估計(jì)值的方差往往會(huì)增大。在這樣的背景下,人們開(kāi)始對(duì)普通最小二乘法估計(jì)提出了修改的辦法。嶺回歸估計(jì)就是其中之一。

嶺回歸估計(jì)的性質(zhì)

與普通最小二乘估計(jì)比較,嶺回歸估計(jì)有以下的性質(zhì):由此不難看出,運(yùn)用嶺回歸估計(jì)參數(shù)是犧牲了無(wú)偏性來(lái)滿足參數(shù)估計(jì)的最小方差性。嶺回歸估計(jì)未知參數(shù)的最小方差性是建立在有偏估計(jì)的基礎(chǔ)上的。從某種意義上說(shuō),該方法為我們尋求參數(shù)估計(jì)的最小方差性提供了新的思路。嶺回歸估計(jì)是解決多重共線性的有效的方法,但也有不足,即嶺回歸系數(shù)的確定比較麻煩。嶺回歸估計(jì)中回歸系數(shù)的確定

第六節(jié)趨勢(shì)面分析一、趨勢(shì)面分析的一般原理二、趨勢(shì)面分析中的模型參數(shù)估計(jì)三、趨勢(shì)面模型的適度性檢驗(yàn)四、趨勢(shì)面分析的步驟五、趨勢(shì)面分析在Excel中的實(shí)現(xiàn)趨勢(shì)面分析的一般原理

(一)趨勢(shì)面分析的基本思想趨勢(shì)面分析是擬合數(shù)學(xué)面的一種統(tǒng)計(jì)分析方法,它是通過(guò)回歸分析原理,運(yùn)用最小二乘法擬合一個(gè)二維非線性函數(shù),利用數(shù)學(xué)曲面模擬某種系統(tǒng)要素在空間上的分布及變化趨勢(shì)的一種數(shù)學(xué)方法。在利用趨勢(shì)面分析擬合回歸模型進(jìn)行經(jīng)濟(jì)分析和預(yù)測(cè)時(shí),一個(gè)基本的要求是,所選擇的趨勢(shì)面模型必須使剩余值比較小,回歸平方和比較大,這樣擬合度較高,預(yù)測(cè)結(jié)果才能達(dá)到足夠的準(zhǔn)確性。(二)趨勢(shì)面分析的數(shù)學(xué)模型設(shè)已知觀測(cè)數(shù)據(jù)為:

趨于最小。這就是在最小二乘意義下的曲面擬合問(wèn)題,即趨勢(shì)面分析。趨勢(shì)面分析中的模型參數(shù)估計(jì)

根據(jù)高斯-馬爾科夫定理,最小二乘法給出了多項(xiàng)式系數(shù)的最佳線性無(wú)偏估計(jì)值,這些估計(jì)值使殘差平方和達(dá)到最小。趨勢(shì)面模型的適度性檢驗(yàn)

趨勢(shì)面分析擬合程度與回歸模型的效果直接相關(guān),因此,對(duì)趨勢(shì)面分析進(jìn)行適度性檢驗(yàn)是一個(gè)關(guān)系到趨勢(shì)面能否在實(shí)際研究中加以應(yīng)用的關(guān)鍵問(wèn)題,也是趨勢(shì)面分析中不可缺少的重要環(huán)節(jié)。趨勢(shì)面分析的適度性檢驗(yàn)可以通過(guò)以下檢驗(yàn)來(lái)完成:

(三)趨勢(shì)面適度性的逐次檢驗(yàn)

趨勢(shì)面適度性逐次檢驗(yàn)的基本思想是通過(guò)對(duì)相繼兩個(gè)階次的模型適度性進(jìn)行比較,來(lái)檢驗(yàn)?zāi)P托Ч麅?yōu)劣的方法。首先,求出較高次多項(xiàng)式方程的回歸平方和與較低次多項(xiàng)式方程的回歸平方和之差;其次,將此差除以回歸平方和的自由度之差,得出由于多項(xiàng)式次數(shù)增高所產(chǎn)生的回歸均方差;第三,將此均方差除以較高次多項(xiàng)式的剩余均方差,得出相繼兩個(gè)階次趨勢(shì)面模型的適度性比較檢驗(yàn)值。最后,若所得的值是顯著的,則較高次多項(xiàng)式對(duì)回歸作出了新貢獻(xiàn),若F值不顯著,則較高次多項(xiàng)式對(duì)于回歸并無(wú)新貢獻(xiàn)。

說(shuō)明:在實(shí)際應(yīng)用中,往往用次數(shù)低的趨勢(shì)面逼近變化比較小的數(shù)據(jù),用次數(shù)高的趨勢(shì)面逼近起伏變化比較復(fù)雜的數(shù)據(jù)。次數(shù)低的趨勢(shì)面使用起來(lái)比較方便,但具體到某點(diǎn)擬合較差;次數(shù)較高的趨勢(shì)面在觀測(cè)點(diǎn)附近擬合效果較好,而在外推和內(nèi)插時(shí)則效果較差。趨勢(shì)面分析的步驟

1、對(duì)趨勢(shì)面模型進(jìn)行識(shí)別。根據(jù)代數(shù)一般知識(shí),一元一次多項(xiàng)式為直線,一元二次多項(xiàng)式為拋物線,一元三次多項(xiàng)式為三次曲線。相應(yīng)地二元一次多項(xiàng)式是一個(gè)平面,二元二次多項(xiàng)式為拋物面、二元三次多項(xiàng)式為三次曲面。2、求解正規(guī)方程組,進(jìn)行模型參數(shù)估計(jì)。其中,求解正規(guī)方程組可以用正交變換法進(jìn)行,也可以用主元消去法進(jìn)行。3、對(duì)趨勢(shì)面模型進(jìn)行適度性檢驗(yàn)本章內(nèi)容講授結(jié)束聚類(lèi)分析概述系統(tǒng)聚類(lèi)分析動(dòng)態(tài)聚類(lèi)法模糊聚類(lèi)分析圖論聚類(lèi)分析第五章聚類(lèi)分析統(tǒng)計(jì)分組或分類(lèi)可以深化人們的認(rèn)識(shí)。實(shí)際應(yīng)用中,有些情況下進(jìn)行統(tǒng)計(jì)分組比較容易,分組標(biāo)志確定了,分組也就得到了,但是,有些情況下進(jìn)行統(tǒng)計(jì)分組卻比較困難,特別是當(dāng)客觀事物性質(zhì)變化沒(méi)有明顯標(biāo)志時(shí),用于確定分組的標(biāo)志和組別就很難確定。聚類(lèi)分析實(shí)際上給我們提供了一種對(duì)于復(fù)雜問(wèn)題如何分組的統(tǒng)計(jì)方法。

第一節(jié)聚類(lèi)分析概述一、聚類(lèi)分析的定義二、聚類(lèi)分析的種類(lèi)三、聚類(lèi)分析中樣品或變量親疏程度的測(cè)定聚類(lèi)分析的定義

聚類(lèi)分析是將樣品或變量按照它們?cè)谛再|(zhì)上的親疏程度進(jìn)行分類(lèi)的多元統(tǒng)計(jì)分析方法。聚類(lèi)分析時(shí),用來(lái)描述樣品或變量的親疏程度通常有兩個(gè)途徑,一是把每個(gè)樣品或變量看成是多維空間上的一個(gè)點(diǎn),在多維坐標(biāo)中,定義點(diǎn)與點(diǎn),類(lèi)和類(lèi)之間的距離,用點(diǎn)與點(diǎn)間距離來(lái)描述樣品或變量之間的親疏程度;另一個(gè)是計(jì)算樣品或變量的相似系數(shù),用相似系數(shù)來(lái)描述樣品或變量之間的親疏程度。

(一)聚類(lèi)分析按照分組理論依據(jù)的不同,可分為系統(tǒng)聚類(lèi)法,動(dòng)態(tài)聚類(lèi)法,模糊聚類(lèi)、圖論聚類(lèi)、聚類(lèi)預(yù)報(bào)等多種聚類(lèi)方法。

1、系統(tǒng)聚類(lèi)分析法。是在樣品距離的基礎(chǔ)上定義類(lèi)與類(lèi)的距離,首先將個(gè)樣品自成一類(lèi),然后每次將具有最小距離的兩個(gè)類(lèi)合并,合并后再重新計(jì)算類(lèi)與類(lèi)之間的距離,再并類(lèi),這個(gè)過(guò)程一直持續(xù)到所有的樣品都?xì)w為一類(lèi)為止。這種聚類(lèi)方法稱(chēng)為系統(tǒng)聚類(lèi)法。根據(jù)并類(lèi)過(guò)程所做的樣品并類(lèi)過(guò)程圖稱(chēng)為聚類(lèi)譜系圖。2、動(dòng)態(tài)聚類(lèi)分析法。是將個(gè)樣品初步分類(lèi),然后根據(jù)分類(lèi)函數(shù)盡可能小的原則,對(duì)初步分類(lèi)進(jìn)行調(diào)整優(yōu)化,直到分類(lèi)合理為止。這種分類(lèi)方法一般稱(chēng)為動(dòng)態(tài)聚類(lèi)法,也稱(chēng)為調(diào)優(yōu)法。聚類(lèi)分析的種類(lèi)

3、模糊聚類(lèi)分析法。是利用模糊數(shù)學(xué)中模糊集理論來(lái)處理分類(lèi)問(wèn)題的方法,它對(duì)經(jīng)濟(jì)領(lǐng)域中具有模糊特征的兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類(lèi)效果。4、圖論聚類(lèi)分析法。是利用圖論中最小支撐樹(shù)(MST)的概念來(lái)處理分類(lèi)問(wèn)題,是一種獨(dú)具風(fēng)格的方法。5、聚類(lèi)預(yù)報(bào)法。是利用聚類(lèi)方法處理預(yù)報(bào)問(wèn)題的方法。主要應(yīng)用于處理一些出現(xiàn)異常數(shù)據(jù)的情況,如氣象中的災(zāi)害性天氣的預(yù)報(bào),這些異常數(shù)據(jù)采用回歸分析或判別分析處理的效果不好,而聚類(lèi)預(yù)報(bào)可以彌補(bǔ)回歸分析及判別分析方法之不足,是一個(gè)很值得重視的方法。

(二)按照分析對(duì)象不同,可以分為Q型聚類(lèi)分析和R型聚類(lèi)分析。

Q型聚類(lèi)分析法是對(duì)樣品進(jìn)行的分類(lèi)處理,可以揭示樣品之間的親疏程度。R型聚類(lèi)分析法是對(duì)變量進(jìn)行的分類(lèi)處理,可以了解變量之間,以及變量組合之間親疏程度。根據(jù)R型聚類(lèi)的結(jié)果,可以選擇最佳的變量組合進(jìn)行回歸分析或者Q型聚類(lèi)分析。其中,選擇最佳變量的一般方法是,在聚合的每類(lèi)變量中,各選出一個(gè)具有代表性的變量作為典型變量,其中選擇的依據(jù)是。

:表示每個(gè)變量與其同類(lèi)的其它變量的相關(guān)系數(shù)的平方的均值。k為該類(lèi)中變量的個(gè)數(shù)。應(yīng)用中,挑選值最大的變量作為該類(lèi)的典型變量。聚類(lèi)分析中樣品或變量

親疏程度的測(cè)定

1、變量類(lèi)型與數(shù)據(jù)變換通常變量類(lèi)型按照計(jì)量尺度的不同,分為定類(lèi)尺度,定序尺度,定距尺度,定比尺度變量。其中,前兩者一般又稱(chēng)為定性資料,后兩者一般又稱(chēng)為定量資料。在進(jìn)行聚類(lèi)分析處理時(shí),樣品間的相似系數(shù)和距離有許多不同的定義,這些定義與變量的類(lèi)型有著密切關(guān)系,不同類(lèi)型的變量在定義距離或相似性測(cè)度時(shí)具有很大的差異。

另外,由于樣本數(shù)據(jù)受量綱和數(shù)量級(jí)的影響,在聚類(lèi)分析處理過(guò)程中,首先應(yīng)對(duì)原始數(shù)據(jù)矩陣進(jìn)行變換處理,以便使不同量綱、不同數(shù)量級(jí)的數(shù)據(jù)能放在一起比較。常用的數(shù)據(jù)變換方法有以下幾種:(1)中心化變換中心化是一種標(biāo)準(zhǔn)化處理方法,它是先求出每個(gè)變量的樣本均值,再?gòu)脑紨?shù)據(jù)中減去該變量的均值,就得到中心化后的數(shù)據(jù)。即(2)規(guī)格化變換(極差規(guī)格變換)規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱(chēng)為極差,然后從每一個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差就得到規(guī)格化數(shù)據(jù)。規(guī)格化后的數(shù)據(jù)為:進(jìn)行了規(guī)格化變換后的數(shù)據(jù)特點(diǎn)是,將每列的最大數(shù)據(jù)變?yōu)?,最小數(shù)據(jù)變?yōu)?,其余數(shù)據(jù)取值在0,1之間。(3)標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)化變換是對(duì)變量的屬性進(jìn)行變換處理,首先對(duì)數(shù)據(jù)進(jìn)行中心化然后再除以標(biāo)準(zhǔn)差,即其中

進(jìn)行了標(biāo)準(zhǔn)化變換后的數(shù)據(jù)特點(diǎn)是,每列數(shù)據(jù)的平均值為0,方差為1,同時(shí)消除了量綱的影響。使用標(biāo)準(zhǔn)差處理后,在抽樣樣本改變時(shí),它仍保持相對(duì)穩(wěn)定性。(4)對(duì)數(shù)變換對(duì)數(shù)變換主要是對(duì)原始數(shù)據(jù)取對(duì)數(shù)。即對(duì)數(shù)變換后的數(shù)據(jù)特點(diǎn)是,可將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)化為線性數(shù)據(jù)結(jié)構(gòu)。此外,還有平方根變換、立方根變換等。極差標(biāo)準(zhǔn)化變換和規(guī)格化變換類(lèi)似。它是把每個(gè)變量的樣本極差皆化為1,排除量綱的干擾。立方根變換和平方根變換的主要作用是把非線性數(shù)據(jù)結(jié)構(gòu)變?yōu)榫€性數(shù)據(jù)結(jié)構(gòu),以適應(yīng)某些統(tǒng)計(jì)方法的需要。2、多維空間的距離

對(duì)于定量數(shù)據(jù)資料常用的距離有以下幾種:

歐氏距離是聚類(lèi)分析中用得最廣泛的距離,但該距離與個(gè)變量的量綱有關(guān),沒(méi)有考慮指標(biāo)間的相關(guān)性;也沒(méi)有考慮各變量方差的不同。則稱(chēng)為切比雪夫距離.

由明氏距離公式可知,當(dāng)各變量的單位不同或雖單位相同但各變量的測(cè)量值相差很大時(shí),不應(yīng)該直接使用明氏距離,而應(yīng)該先對(duì)各變量的數(shù)據(jù)進(jìn)行準(zhǔn)化處理,然后再用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。(2)蘭氏(Lance和Williams)距離蘭氏距離是由Lance和Williams最早提出的,故稱(chēng)為蘭氏距離。當(dāng)全部數(shù)據(jù)大于零,即

可見(jiàn)蘭氏距離是一個(gè)無(wú)量綱的量,克服了明氏距離與各指標(biāo)的量綱有關(guān)的缺點(diǎn),其受奇異值的影響較小,使其適合應(yīng)用于具有高度偏倚的數(shù)據(jù)。然而蘭氏距離沒(méi)有考慮變量間的相關(guān)性。明氏距離和蘭氏距離的共同的特點(diǎn)是,假定變量之間相互獨(dú)立,即均沒(méi)有考慮變量之間的相關(guān)性,都是在正交空間內(nèi)討論距離的,而實(shí)際情況并非如此。但在實(shí)際問(wèn)題中,變量之間往往存在著一定的相關(guān)性,為克服變量之間的這種相關(guān)性影響,可以采用馬氏距離。

馬氏距離的優(yōu)點(diǎn)是考慮到個(gè)變量之間的相關(guān)性,并且與個(gè)變量的單位無(wú)關(guān)。不足之處是在聚類(lèi)分析過(guò)程中,如果用全部數(shù)據(jù)計(jì)算的均值和協(xié)方差陣來(lái)計(jì)算馬氏距離,并且始終保持不變,則顯得不妥;然而若要隨聚類(lèi)過(guò)程而不斷改變,計(jì)算將會(huì)很困難。這樣造成聚類(lèi)效果不是很好的。比較合理的辦法是用各個(gè)類(lèi)的樣品來(lái)計(jì)算各自的協(xié)方差矩陣,同一類(lèi)樣本的馬氏距離應(yīng)當(dāng)用這一類(lèi)的協(xié)方差矩陣來(lái)計(jì)算。(4)斜交空間距離由于多個(gè)變量之間存在著不同程度的相關(guān)關(guān)系。在這種情況下,用正交空間距離來(lái)計(jì)算樣品間的距離,易產(chǎn)生變形,從而使聚類(lèi)分析時(shí)的譜系結(jié)構(gòu)發(fā)生改變。為此,計(jì)算斜交空間距離,第個(gè)i樣品與第j個(gè)樣品之間的斜交空間距離定義為,3、相似系數(shù)聚類(lèi)分析方法不僅用來(lái)對(duì)樣品進(jìn)行分類(lèi),而且有時(shí)需要對(duì)變量進(jìn)行分類(lèi),在對(duì)變量進(jìn)行聚分類(lèi)析時(shí),則通常采用相似系數(shù)來(lái)表示變量之間的親疏程度。相似系數(shù)定義如下:(1)夾角余弦

(2)相關(guān)系數(shù)(3)指數(shù)相似系數(shù)指數(shù)相似系數(shù)不受變量量綱的影響。(4)相似系數(shù)的非參數(shù)方法4、距離以及相似系數(shù)的選擇原則一般說(shuō)來(lái),同一批數(shù)據(jù)采用不同的相似性尺度,就會(huì)得到不同的分類(lèi)結(jié)果。產(chǎn)生不同分類(lèi)結(jié)果的原因,主要是不同指標(biāo)代表了不同意義上的相似性。因此我們?cè)谶M(jìn)行數(shù)值分類(lèi)時(shí),應(yīng)注意相似性尺度的選擇,選擇的基本原則是:(1)所選擇的相似性尺度在實(shí)際應(yīng)用中應(yīng)有明確的意義。(2)根據(jù)原始數(shù)據(jù)的性質(zhì),選擇適當(dāng)?shù)淖儞Q方法,再根據(jù)不同的變換方法選擇不同的距離或相似系數(shù)。如標(biāo)準(zhǔn)化變換處理下,相關(guān)相似系數(shù)和夾角余弦一致;又如原始數(shù)據(jù)在進(jìn)行聚類(lèi)分析之前已經(jīng)對(duì)變量的相關(guān)性作了處理,則通??刹捎脷W氏距離而不必選用斜交空間距離。再如選擇距離時(shí),還須和選用的聚類(lèi)方法相一致,如聚類(lèi)方法選用離差平方和法時(shí),距離只能選用歐氏距離。(3)適當(dāng)?shù)乜紤]計(jì)算量的大小,如對(duì)樣品量較多的聚類(lèi)問(wèn)題,不適宜選擇斜交空間距離,因采用該距離處理時(shí),計(jì)算工作量太大。第二節(jié)系統(tǒng)聚類(lèi)分析

一、系統(tǒng)聚類(lèi)分析的基本思想和分析步驟二、常用系統(tǒng)聚類(lèi)分析方法三、系統(tǒng)聚類(lèi)分析方法的統(tǒng)一公式四、系統(tǒng)聚類(lèi)分析方法的性質(zhì)五、Q型聚類(lèi)分析時(shí)典型變量的選擇與剩余信息的剔除六、譜系分類(lèi)的確定七、系統(tǒng)聚類(lèi)分析在Excel下的實(shí)現(xiàn)系統(tǒng)聚類(lèi)分析的基本思想

和分析步驟

(一)基本思想系統(tǒng)聚類(lèi)分析(HierachicalC1usterAnalysis)是在樣品距離的基礎(chǔ)上,定義類(lèi)與類(lèi)之間的距離,首先將個(gè)樣品自成一類(lèi),然后每次將具有最小距離的兩類(lèi)合并,合并后重新計(jì)算類(lèi)與類(lèi)之間的距離,這個(gè)過(guò)程一直繼續(xù)到所有樣品歸為一類(lèi)為止,并把這個(gè)過(guò)程做成一個(gè)聚類(lèi)譜系圖。這種方法即系統(tǒng)聚類(lèi)分析。系統(tǒng)聚類(lèi)分析的基本思想是:把n個(gè)樣品看成p維(p個(gè)指標(biāo))空間的點(diǎn),而把每個(gè)變量看成p維空間的坐標(biāo)軸,根據(jù)空間上點(diǎn)與點(diǎn)的距離來(lái)進(jìn)行分類(lèi)。系統(tǒng)聚類(lèi)分析的具體方法是:將n個(gè)樣品自成一類(lèi),先計(jì)算n(n-1)/2個(gè)相似性測(cè)度或距離,并且把具有最小測(cè)度的兩個(gè)樣品合并成兩個(gè)元素的類(lèi),然后按照某種聚類(lèi)方法計(jì)算這個(gè)類(lèi)和其余(n-2)個(gè)樣品之間的距離,這樣一直持續(xù)下去,并類(lèi)過(guò)程中,每一步所做的并類(lèi)(樣品與樣品,樣品與類(lèi)、類(lèi)與類(lèi))都要使測(cè)度在系統(tǒng)中保持最小,每次減少一類(lèi),直到所有樣品都?xì)w為一類(lèi)為止。(二)系統(tǒng)聚類(lèi)分析的一般步驟1、對(duì)數(shù)據(jù)進(jìn)行變換處理;2、計(jì)算各樣品之間的距離,并將距離最近的兩個(gè)樣品合并成一類(lèi);

3、選擇并計(jì)算類(lèi)與類(lèi)之間的距離,并將距離最近的兩類(lèi)合并,如果類(lèi)的個(gè)數(shù)大于1,則繼續(xù)并類(lèi),直至所有樣品歸為一類(lèi)為止;4、最后繪制系統(tǒng)聚類(lèi)譜系圖,按不同的分類(lèi)標(biāo)準(zhǔn)或不同的分類(lèi)原則,得出不同的分類(lèi)結(jié)果;常用系統(tǒng)聚類(lèi)分析方法

進(jìn)行聚類(lèi)分析時(shí),由于對(duì)類(lèi)與類(lèi)之間的距離的定義和理解不同,并類(lèi)的過(guò)程中又會(huì)產(chǎn)生不同的聚類(lèi)方法。常用的系統(tǒng)聚類(lèi)方法有8種。即最短距離法、最長(zhǎng)距離法、中間距離法、重心法、類(lèi)平均法、可變類(lèi)平均法、可變法、離差平方和法等。盡管系統(tǒng)聚類(lèi)分析方法很多,但每種方法的歸類(lèi)步驟基本是一樣的,所不同的主要是對(duì)類(lèi)與類(lèi)之間的距離的定義不同。用最短距離法的聚類(lèi)主要步驟如下:(二)最長(zhǎng)距離法最長(zhǎng)距離法與最短距離法在并類(lèi)步驟上是完全一致的,而是在定義類(lèi)與類(lèi)之間的距離是相反的,類(lèi)與類(lèi)之間的距離定義為兩類(lèi)之間所有樣品間距離最大者,(三)中間距離法(Gower,1966年)

該法是在定義類(lèi)與類(lèi)之間的距離時(shí),既不采用兩類(lèi)樣品之間的最近距離,也不采用兩類(lèi)樣品之間最遠(yuǎn)距離,而是采用介于兩者之間的中間距離,

具體分類(lèi)過(guò)程與前面最短和最長(zhǎng)距離分類(lèi)方法步驟相同,只是在定義的距離為中間距離。

(四)重心法以上三種方法在定義類(lèi)與類(lèi)之間距離時(shí),沒(méi)有考慮每一類(lèi)所包含的樣品數(shù)。因此,在定義類(lèi)與類(lèi)的距離時(shí),把每一類(lèi)中所包括的樣品數(shù)目也考慮進(jìn)去,把兩個(gè)類(lèi)重心之間的距離定義為類(lèi)與類(lèi)的距離,用這種距離分類(lèi)的方法就稱(chēng)為重心法。所謂每一類(lèi)的重心就是該類(lèi)樣品的均值。其中單個(gè)樣品的重心就是它本身,兩個(gè)樣品的類(lèi)的重心就是兩點(diǎn)連線的中點(diǎn)。

重心法的歸類(lèi)步驟與以上三種方法基本一樣,所不同的是每合并一次類(lèi),就要重新計(jì)算一次新類(lèi)的重心以及與與其他各類(lèi)的距離。

(五)類(lèi)平均法

該方法定義類(lèi)與類(lèi)的距離時(shí),不僅把每一類(lèi)中所包括的樣品數(shù)目考慮進(jìn)來(lái),而且把各樣品的信息都充分地考慮進(jìn)來(lái),而把兩個(gè)類(lèi)之間的距離平方定義為兩類(lèi)元素兩兩之間距離平方的平均。(六)可變類(lèi)平均法(七)可變法(八)離差平方和法(Ward法)

基本思想是,基于方差分析的思想,如果類(lèi)分得合理,則同類(lèi)樣品之間離差平方和應(yīng)當(dāng)較小,類(lèi)與類(lèi)之間的離差平方和應(yīng)當(dāng)較大。

Ward方法的基本思想是將兩類(lèi)合并后所增加的離差平方和看成類(lèi)之間的距離,先將n個(gè)樣品各自成一類(lèi),然后每次縮小一類(lèi),每縮小一次離差平方和就會(huì)增加,選擇使S增加最小的兩類(lèi)合并,直到所有的樣品歸為一類(lèi)為止。實(shí)際應(yīng)用中,離差平方和法應(yīng)用比較廣泛,分類(lèi)效果比較好。離差平方和法要求樣品之間的距離必須是歐氏距離。系統(tǒng)聚類(lèi)分析方法的統(tǒng)一公式

由于上述聚類(lèi)方法的合并類(lèi)原則和步驟是完全一樣的,所不同的是類(lèi)與類(lèi)之間的距離公式有不同的定義,所以可得到不同的遞推公式。1969年維希特提出了統(tǒng)一的公式,這為編制統(tǒng)一的計(jì)算機(jī)程序提供了極大的方便性。具體公式為:系統(tǒng)聚類(lèi)分析方法的性質(zhì)

1、關(guān)于并類(lèi)時(shí)距離的單調(diào)性設(shè)是系統(tǒng)聚類(lèi)法中第次并類(lèi)時(shí)的距離,如果則稱(chēng)并類(lèi)距離具有單調(diào)性。經(jīng)過(guò)證明最短距離法、最長(zhǎng)距離法、類(lèi)平均法、離差平方和法、可變法和可變類(lèi)平均法都具有單調(diào)性,只有重心法和中間距離法不具有單調(diào)性。具有單調(diào)性畫(huà)出的聚類(lèi)圖符合系統(tǒng)聚類(lèi)的思想,先并類(lèi)的類(lèi)關(guān)系較近,后并類(lèi)的類(lèi)關(guān)系較遠(yuǎn)。

2、關(guān)于兩種聚類(lèi)方法之間距離矩陣的比較:空間擴(kuò)張、空間收縮由于作系統(tǒng)聚類(lèi)圖的時(shí)候,橫坐標(biāo)(并類(lèi)距離)的范圍太小,對(duì)區(qū)分類(lèi)的靈敏度就差,所以,也即太濃縮的聚類(lèi)方法不夠靈活,但太擴(kuò)張的方法對(duì)分類(lèi)不利。經(jīng)過(guò)證明,都與類(lèi)平均法比較,結(jié)果是最短距離法、重心法使空間濃縮,最長(zhǎng)距離法、可變平均法、離差平方和法使空間擴(kuò)張,而類(lèi)平均法比較適中,與其他方法比較,既不太濃縮也不太夸張。一般作聚類(lèi)圖時(shí)橫坐標(biāo)(并類(lèi)距離)的范圍太小時(shí)對(duì)區(qū)別類(lèi)的靈敏度就差些,也就是說(shuō)太濃縮的方法不夠靈敏,但太擴(kuò)張的方法對(duì)分類(lèi)不利。和類(lèi)平均法相比最短距離法、重心法使空間濃縮。最長(zhǎng)距離法、可變類(lèi)平均法、離差平方和法使空間擴(kuò)散。而類(lèi)平均法比較適中,與其它方法相比。既不太濃縮也不太擴(kuò)張。

Q型聚類(lèi)分析時(shí)典型變量的選擇

與剩余信息的剔除進(jìn)行Q型聚類(lèi)分析時(shí),必須選擇能夠恰當(dāng)反映樣本的變量,選擇對(duì)聚類(lèi)效果較為顯著的變量,剔除對(duì)聚類(lèi)分析效果影響較小的變量。選擇變量的一般原則是:選擇對(duì)所研究問(wèn)題密切相關(guān)的變量;選擇具有較強(qiáng)分辨能力的變量。具體選擇變量的方法有:1、人為地挑選變量;2、先用R型聚類(lèi)分析挑選主要變量,然后再進(jìn)行Q型聚類(lèi)分析;3、先進(jìn)行主成分分析挑選主要變量,然后再進(jìn)行Q型聚類(lèi)分析;譜系分類(lèi)的確定經(jīng)過(guò)系統(tǒng)聚類(lèi)法處理之后,得到聚類(lèi)譜系圖或叫聚類(lèi)樹(shù),聚類(lèi)樹(shù)或譜系圖只反映變量之間或樣品之間的親疏關(guān)系,它本身并不是分類(lèi),需要規(guī)定一個(gè)臨界相似性尺度,用以分割譜系圖而得到樣品或變量的分類(lèi)。對(duì)于如何分類(lèi),Deminren(1972)提出了根據(jù)研究的目的來(lái)確定適當(dāng)?shù)姆诸?lèi)方法,并提出了一些根據(jù)譜系圖來(lái)分類(lèi)的準(zhǔn)則:準(zhǔn)則A;任何類(lèi)都必須在鄰近各類(lèi)中是突出的,即各類(lèi)重心之間距離必須極大;準(zhǔn)則B,確定的類(lèi)中,各類(lèi)所包含的元素都不要過(guò)分地多;準(zhǔn)則C:分類(lèi)的數(shù)目必須符合實(shí)用目的;準(zhǔn)則D;若采用幾種不同的聚類(lèi)方法處理,則在各自的聚類(lèi)圖中應(yīng)發(fā)現(xiàn)相同的類(lèi);第三節(jié)動(dòng)態(tài)聚類(lèi)法

一、動(dòng)態(tài)聚類(lèi)法基本思想

二、動(dòng)態(tài)聚類(lèi)分析的基本原理

三、動(dòng)態(tài)聚類(lèi)分析主要計(jì)算步驟四、動(dòng)態(tài)聚類(lèi)分析在Excel下的實(shí)現(xiàn)

動(dòng)態(tài)聚類(lèi)法基本思想

系統(tǒng)聚類(lèi)分析需要計(jì)算距離矩陣,當(dāng)樣本容量很大時(shí),距離矩陣的計(jì)算要占據(jù)較大的計(jì)算機(jī)內(nèi)存空間和需要較長(zhǎng)的計(jì)算時(shí)間。為了改進(jìn)上述不足,一種想法就是先粗略的分下類(lèi),然后再按某種規(guī)則進(jìn)行修正,直到將樣本分類(lèi)分得比較合理為止。基于此思想產(chǎn)生了動(dòng)態(tài)聚類(lèi)法,也稱(chēng)逐步聚類(lèi)或快速聚類(lèi)法。

動(dòng)態(tài)聚類(lèi)法基本思想是:開(kāi)始按照一定的方法選取一批凝聚點(diǎn),然后讓樣品向最近的凝聚點(diǎn)靠近形成初始分類(lèi),得到初始分類(lèi)。然而,初始分類(lèi)不一定合理,需按最近距離的原則進(jìn)行修改不合理的分類(lèi),直到分類(lèi)比較合理為止,這樣形成一個(gè)最終的分類(lèi)結(jié)果。動(dòng)態(tài)聚類(lèi)法方法具有計(jì)算簡(jiǎn)單的特點(diǎn),在計(jì)算機(jī)的處理過(guò)程中,不需要存儲(chǔ)距離矩陣,占據(jù)較小的內(nèi)存空間,在很大程度上減少了計(jì)算機(jī)地工作量,因而更適合于對(duì)具有較大樣品量的樣本進(jìn)行聚類(lèi)分析。動(dòng)態(tài)聚類(lèi)法的聚類(lèi)過(guò)程,可由圖5.9表示。圖5.9動(dòng)態(tài)聚類(lèi)過(guò)程圖動(dòng)態(tài)聚類(lèi)分析的基本原理

(一)選擇凝聚點(diǎn)

凝聚點(diǎn)就是一批有代表性的點(diǎn),是待形成類(lèi)的中心。凝聚點(diǎn)的選擇直接決定初始分類(lèi),對(duì)分類(lèi)結(jié)果也有很大影響,通常選擇凝聚點(diǎn)的方法為:1.憑經(jīng)驗(yàn)選擇凝聚點(diǎn)。例如,對(duì)于具有經(jīng)驗(yàn)的研究者,當(dāng)拿到一批樣品數(shù)據(jù)之后,可對(duì)于樣品進(jìn)行大體上的分類(lèi),分成幾類(lèi)。這時(shí)可以從每一類(lèi)中選擇一個(gè)有代表性的樣品作為凝聚點(diǎn)來(lái)進(jìn)行聚類(lèi)分析。該方法雖然具有一定主觀性,但在實(shí)際應(yīng)用中具有方便、簡(jiǎn)單等特點(diǎn)。2.根據(jù)數(shù)據(jù)情況將全部樣品人為地憑經(jīng)驗(yàn)分成類(lèi),之后計(jì)算每一類(lèi)的重心,將這些重心作為凝聚點(diǎn)。這種方法比較常用,簡(jiǎn)單、適用。

3.用密度法選擇凝聚點(diǎn)。這里的密度是指以每個(gè)樣品為球心,以某個(gè)正數(shù)d作為半徑的形成一個(gè)球,此時(shí)落在這個(gè)球內(nèi)的樣品個(gè)數(shù)則稱(chēng)為以該樣品為中心的空間中點(diǎn)的密度,稱(chēng)為樣品點(diǎn)密度或簡(jiǎn)稱(chēng)為密度。當(dāng)所有樣品點(diǎn)的密度都計(jì)算好以后,首先選擇密度較大的樣品點(diǎn)作為第一凝聚點(diǎn),并且人為地確定一個(gè)正數(shù)D,然后選出密度次之的樣品點(diǎn),并且它與第一凝聚點(diǎn)的距離大于D,則將其作為第二凝聚點(diǎn),否則該樣品點(diǎn)被取消。這樣,按密度大小依次挑選凝聚點(diǎn),直至全部樣品考查完畢為止,確定合理的凝聚點(diǎn)。4.用前k個(gè)樣品作為凝聚點(diǎn)。

(二)初始分類(lèi)

有了凝聚點(diǎn)以后接下來(lái)就要進(jìn)行初始分類(lèi),同樣獲得初始分類(lèi)也有不同的方法。需要說(shuō)明的是,初始分類(lèi)不一定非通過(guò)凝聚點(diǎn)確定不可,也可以依據(jù)其他原則確定。下面介紹幾種確定初始分類(lèi)的方法。1、人為地分類(lèi),憑經(jīng)驗(yàn)將樣品進(jìn)行初步分類(lèi)。2、選擇一批凝聚點(diǎn)以后,每個(gè)樣品按與其距離最近的凝聚點(diǎn)歸類(lèi)。3、選擇一批凝聚點(diǎn)后,每個(gè)凝聚點(diǎn)自成一類(lèi),將樣品依次歸入與其距離最近的凝聚點(diǎn)的那一類(lèi),并立即重新計(jì)算該類(lèi)的重心,以代替原來(lái)的凝聚點(diǎn),再計(jì)算下一個(gè)樣品的歸類(lèi),直至所有的樣品都劃到相應(yīng)的類(lèi)中為止。(三)分類(lèi)函數(shù)按照修改分類(lèi)的原則不同,動(dòng)態(tài)聚類(lèi)方法有按批修改法、逐個(gè)修改法、等混合法等。這里主要介紹逐步聚類(lèi)法中按批修改法。所謂按批修改法,其修改分類(lèi)的原則是,在按批修改法中,每一步修改都將是對(duì)應(yīng)的分類(lèi)函數(shù)縮小,趨于合理,并且分類(lèi)函數(shù)最終趨于定值,即計(jì)算過(guò)程是收斂的。按批修改法中一個(gè)重要的概念就是分類(lèi)函數(shù)。動(dòng)態(tài)聚類(lèi)分析主要計(jì)算步驟

1、首先將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。2、選擇預(yù)定數(shù)目的凝聚點(diǎn)進(jìn)行初始分類(lèi)。3、計(jì)算每一類(lèi)的重心,將重心作為凝聚點(diǎn),然后計(jì)算每一個(gè)樣品與重心凝聚點(diǎn)的距離,并將它歸入與凝聚點(diǎn)距離最近的那一類(lèi)別。每歸入—個(gè)樣品之后,重新計(jì)算該類(lèi)的重心,并用新計(jì)算的重心替代原凝聚點(diǎn)。如果所有的新凝聚點(diǎn)與前一次的老凝聚點(diǎn)重合,則分類(lèi)過(guò)程終止,否則重復(fù)上述步驟,直至分類(lèi)過(guò)程終止。步驟3的重復(fù)過(guò)程就是迭代過(guò)程,每一次迭代都是對(duì)應(yīng)的分類(lèi)函數(shù)縮小,當(dāng)兩次的重心完全相同時(shí),計(jì)算過(guò)程收斂,此時(shí)分類(lèi)函數(shù)也趨于定值。按批修改法的最終分類(lèi)結(jié)果受到初始分類(lèi)的影響,這是動(dòng)態(tài)聚類(lèi)法的一個(gè)缺點(diǎn)。第四節(jié)模糊聚類(lèi)分析一、模糊聚類(lèi)分析的基本思想二、模糊聚類(lèi)分析的基本原理三、模糊聚類(lèi)分析的主要步驟四、模糊聚類(lèi)分析在Excel下的實(shí)現(xiàn)模糊聚類(lèi)分析的基本思想

系統(tǒng)聚類(lèi)分析、動(dòng)態(tài)聚類(lèi)分析方法都是一種硬劃分,它把每個(gè)待歸類(lèi)的樣品嚴(yán)格地劃分到某類(lèi)中去,具有“非此即彼”的性質(zhì),因此這種類(lèi)別劃分的界限是分明的。然而在實(shí)際經(jīng)濟(jì)社會(huì)中大多數(shù)對(duì)象并沒(méi)有嚴(yán)格的屬性,它們?cè)诜诸?lèi)中存在著模糊性,具有“亦此亦彼”的性質(zhì),因此對(duì)其應(yīng)進(jìn)行一種軟劃分,即模糊聚類(lèi)分析的方法。模糊聚類(lèi)法是將模糊集的概念用到聚類(lèi)分析中所產(chǎn)生的一種聚類(lèi)方法。它是根據(jù)研究對(duì)象本身的屬性而構(gòu)造一個(gè)模糊矩陣,在此基礎(chǔ)上根據(jù)一定的隸屬度來(lái)確定其分類(lèi)關(guān)系,根據(jù)分類(lèi)關(guān)系得到相應(yīng)的聚類(lèi)結(jié)果。模糊聚類(lèi)分析的基本原理

(一)基本概念1、普通集合與特征函數(shù)

(二)模糊集合與隸屬函數(shù)

在現(xiàn)實(shí)生活中,當(dāng)我們要了解某一地區(qū)的經(jīng)濟(jì)發(fā)展水平是否達(dá)到某一標(biāo)準(zhǔn)值時(shí),用特征函數(shù)簡(jiǎn)單描述顯得有些不足。這時(shí)在模糊數(shù)學(xué)中把它推廣到[0,1]閉區(qū)間,即用0到1之間的一個(gè)數(shù)值去度量它達(dá)到某一水平的程度,則這個(gè)數(shù)稱(chēng)為隸屬度。當(dāng)用函數(shù)來(lái)表示隸屬度的變化規(guī)律時(shí)就叫做隸屬函數(shù),即

模糊集轉(zhuǎn)換為普通集的方法

模糊集的運(yùn)算

(三)普通矩陣與模糊矩陣

若一個(gè)矩陣的元素的取值在[0,1]區(qū)間內(nèi),則稱(chēng)該矩陣為模糊矩陣。同普通矩陣一樣,模糊矩陣也有模糊單位陣,模糊零矩陣和元素皆為1的矩陣。模糊矩陣的乘積運(yùn)算:

(四)分類(lèi)關(guān)系與模糊分類(lèi)關(guān)系

模糊聚類(lèi)分析是在模糊分類(lèi)關(guān)系基礎(chǔ)上進(jìn)行的分類(lèi)。下面給出分類(lèi)關(guān)系和模糊分類(lèi)關(guān)系的含義。模糊聚類(lèi)分析的主要步驟

進(jìn)行模糊聚類(lèi)分析的具體步驟如下:第一步:對(duì)原始數(shù)據(jù)進(jìn)行變換

1、原始數(shù)據(jù)矩陣

2、數(shù)據(jù)變換在實(shí)際問(wèn)題中,不同的數(shù)據(jù)往往具有不同的量綱,為了避免由量綱的不同帶來(lái)的誤差通常需要對(duì)原始數(shù)據(jù)作適當(dāng)?shù)淖儞Q。通常需要作如下兩種變換:標(biāo)準(zhǔn)化變換、極差變換等。

第二步:建立模糊相似矩陣。第三步:獲得模糊分類(lèi)關(guān)系。

上述建立的模糊矩陣,只是一個(gè)模糊相似矩陣,不一定具有傳遞性,為了獲得模糊分類(lèi)關(guān)系,根據(jù)數(shù)學(xué)的證明,對(duì)于一個(gè)模糊相似矩陣,通過(guò)的不斷自乘(褶積計(jì)算),求其極限,就可以得到模糊分類(lèi)關(guān)系。即第四步:進(jìn)行模糊聚類(lèi)。

第五節(jié)圖論聚類(lèi)分析一、圖論聚類(lèi)分析的基本思想二、圖論聚類(lèi)分析的基本原理三、圖論聚類(lèi)分析在Excel下的實(shí)現(xiàn)圖論聚類(lèi)分析的基本思想

圖論聚類(lèi)法最早是由Zahn提出來(lái)的,又稱(chēng)為最小支撐數(shù)聚類(lèi)方法。圖論聚類(lèi)法主要的基本思想為,一個(gè)多變量的樣品可以用多維空間中的一個(gè)點(diǎn)來(lái)代表。在多維空間中,如果樣品點(diǎn)在某些區(qū)域密度很高,而在另一些區(qū)域密度很低,甚至空白,且高密度區(qū)被空白或低密度區(qū)所分隔,這樣就形成了最自然的、最能體現(xiàn)樣品分布結(jié)構(gòu)的聚類(lèi)。因此,圖論聚類(lèi)作為一種對(duì)一些點(diǎn)、點(diǎn)間連線所組成的簡(jiǎn)單幾何圖形的性質(zhì)及其分類(lèi)的定量研究,已被廣泛的應(yīng)用。圖論聚類(lèi)分析的基本原理

(一)最小支撐樹(shù)的意義

最小支撐樹(shù)。對(duì)于p維空間,在n個(gè)樣品點(diǎn)間形成的一切可能的聯(lián)接圖中,存在著一個(gè)不形成回路且邊長(zhǎng)總和為最小的聯(lián)接圖,則稱(chēng)為最小支撐樹(shù)(MST)。最小支撐樹(shù)表示了與每個(gè)樣品點(diǎn)最近的一些樣品點(diǎn),反映了樣品點(diǎn)間聯(lián)系的親疏程度。最小支撐樹(shù)計(jì)算。(二)最小支撐樹(shù)中的“長(zhǎng)邊”與分類(lèi)

在最小支撐樹(shù)中,我們總是可以找到一些“長(zhǎng)邊”把最小支撐樹(shù)分割成若干個(gè)自然類(lèi)。亦即聚類(lèi)分析。由此,圖論聚類(lèi)法的分類(lèi)原則在于,把各個(gè)樣品看成多維空間上的點(diǎn),如果對(duì)樣品進(jìn)行分類(lèi)比較合理,則同一類(lèi)樣品點(diǎn)之間在MST上相互以較短的邊長(zhǎng)相聯(lián)結(jié),而不同類(lèi)與類(lèi)之間的樣品點(diǎn)在MST上則被較長(zhǎng)的邊(“長(zhǎng)邊”)所分開(kāi)。長(zhǎng)邊的定義。

(三)確定樣品點(diǎn)密度為了方便分類(lèi),我們還需要運(yùn)用另外一個(gè)概念,即樣品密度。如以某個(gè)樣品點(diǎn)為中心,以長(zhǎng)度為半徑,我們將落在這個(gè)球內(nèi)的樣品數(shù)稱(chēng)之為以該樣品點(diǎn)為球心的空間內(nèi)樣品點(diǎn)的密度。顯然,在一個(gè)類(lèi)的中心部位密度應(yīng)較高,而其邊緣部位的密度應(yīng)較低。根據(jù)密度可以作出密度等值線,由密度等值線圖可以清晰地反映出分類(lèi)的概貌。實(shí)際應(yīng)用中,半徑的確定一般是將MST的邊長(zhǎng)平均數(shù)乘上一個(gè)大于1的數(shù)來(lái)確定。本章內(nèi)容講授結(jié)束判別分析的基本原理和模型

逐步判別分析

第六章判別分析第一節(jié)判別分析的基本原理和模型一、判別分析概述二、判別分析方法三、判別分析在Excel中的實(shí)現(xiàn)判別分析概述

(一)什么是判別分析

判別分析是多元統(tǒng)計(jì)中用于判別樣品所屬類(lèi)型的一種統(tǒng)計(jì)分析方法,是一種在已知研究對(duì)象用某種方法已經(jīng)分成若干類(lèi)的情況下,確定新的樣品屬于哪一類(lèi)的多元統(tǒng)計(jì)分析方法。判別分析方法處理問(wèn)題時(shí),通常要給出用來(lái)衡量新樣品與各已知組別的接近程度的指標(biāo),即判別函數(shù),同時(shí)也指定一種判別準(zhǔn)則,借以判定新樣品的歸屬。所謂判別準(zhǔn)則是用于衡量新樣品與各已知組別接近程度的理論依據(jù)和方法準(zhǔn)則。常用的有,距離準(zhǔn)則、Fisher準(zhǔn)則、貝葉斯準(zhǔn)則等。判別準(zhǔn)則可以是統(tǒng)計(jì)性的,如決定新樣品所屬類(lèi)別時(shí)用到數(shù)理統(tǒng)計(jì)的顯著性檢驗(yàn),也可以是確定性的,如決定樣品歸屬時(shí),只考慮判別函數(shù)值的大小。判別函數(shù)是指基于一定的判別準(zhǔn)則計(jì)算出的用于衡量新樣品與各已知組別接近程度的函數(shù)式或描述指標(biāo)。(二)判別分析的種類(lèi)

按照判別組數(shù)劃分有兩組判別分析和多組判別分析;按照區(qū)分不同總體的所用數(shù)學(xué)模型來(lái)分有線性判別分析和非線性判別分析;按照處理變量的方法不同有逐步判別、序貫判別等;按照判別準(zhǔn)則來(lái)分有距離準(zhǔn)則、費(fèi)舍準(zhǔn)則與貝葉斯判別準(zhǔn)則。判別分析方法

(一)距離判別法

1.基本思想:首先根據(jù)已知分類(lèi)的數(shù)據(jù),分別計(jì)算各類(lèi)的重心,即分組(類(lèi))均值,距離判別準(zhǔn)則是對(duì)于任給一新樣品的觀測(cè)值,若它與第類(lèi)的重心距離最近,就認(rèn)為它來(lái)自第類(lèi)。因此,距離判別法又稱(chēng)為最鄰近方法(nearestneighbormethod)。距離判別法對(duì)各類(lèi)總體的分布沒(méi)有特定的要求,適用于任意分布的資料。

2.兩組距離判別

兩組距離判別的基本原理。

說(shuō)明:當(dāng)兩總體靠的比較近時(shí),即兩總體的均值差異較小的時(shí)候,無(wú)論用何種判別方法,錯(cuò)判的概率都比較大,這時(shí)的判別分析也是沒(méi)有意義的。因此只有當(dāng)兩總體的均值有顯著差異時(shí),進(jìn)行判別分析才有意義,為此,要對(duì)兩總體的均值差異性進(jìn)行檢驗(yàn),對(duì)此在下文中敘述。(3)關(guān)于兩組判別分析的檢驗(yàn)

由于判別分析是假設(shè)兩組樣品是取自不同總體,如果兩個(gè)總體的均值向量在統(tǒng)計(jì)上差異不顯著,則進(jìn)行判別分析意義不大。所以,兩組判別分析的檢驗(yàn),實(shí)際就是要經(jīng)驗(yàn)兩個(gè)正態(tài)總體的均值向量是否相等,為此,檢驗(yàn)的統(tǒng)計(jì)量為:3、多個(gè)總體的距離判別法類(lèi)似兩個(gè)總體的討論推廣到多個(gè)總體。

(二)費(fèi)舍判別法

費(fèi)舍判別法是1936年提出來(lái)的,該方法對(duì)總體分布未提出什么特定的要求。

1.基本思想

費(fèi)舍判別法是基于統(tǒng)計(jì)上的費(fèi)舍準(zhǔn)則,即判別的結(jié)果應(yīng)該使兩組間區(qū)別最大,使每組內(nèi)部離散性最小。在費(fèi)舍準(zhǔn)則意義下,確定線性判別函數(shù):

其中為待求的判別函數(shù)的系數(shù)。判別函數(shù)的系數(shù)的確定原則是使兩組間區(qū)別最大,使每組內(nèi)部離散性最小。有了判別函數(shù)后,對(duì)于一個(gè)新的樣品,將p個(gè)指標(biāo)的具體數(shù)值代入判別式中求出值,然后與判別臨界值進(jìn)行比較,并判別其應(yīng)屬于哪一組。2.兩組判別分析(1)方法原理(2)判別系數(shù)的導(dǎo)出(3)判別準(zhǔn)則

(4)兩組判別分析的檢驗(yàn)

由于判別分析是假設(shè)兩組樣品是取自不同總體,如果兩個(gè)總體的均值向量在統(tǒng)計(jì)上差異不顯著,則進(jìn)行判別分析意義不大。所以,兩組判別分析的檢驗(yàn),實(shí)際就是要檢驗(yàn)兩個(gè)正態(tài)總體的均值向量是否相等,為此,檢驗(yàn)的統(tǒng)計(jì)量為:

3、多組費(fèi)舍判別分析(1)方法原理

類(lèi)似兩總體的費(fèi)舍判別法,下面給出多總體的費(fèi)舍判別法。

(2)判別函數(shù)

判別系數(shù)(矩陣A關(guān)于矩陣E的廣義特征向量)的導(dǎo)出。判別函數(shù)的判別能力與判別函數(shù)的個(gè)數(shù)。

(3)判別準(zhǔn)則

有了判別函數(shù)之后,如何對(duì)待判的樣品進(jìn)行分類(lèi)?Fisher判別法本身并未給出最合適的分類(lèi)法,在實(shí)際工作中可以選用下列分類(lèi)法之一進(jìn)行分類(lèi)。

(三)貝葉斯判別法1.基本思想

顯然考慮損失函數(shù)更為合理,但是由于實(shí)際應(yīng)用中,由于L(h/g)不容易確定,經(jīng)常在數(shù)學(xué)模型中假定各種錯(cuò)判的損失皆相等,這樣,尋找h使后驗(yàn)概率最大實(shí)際上等價(jià)于使錯(cuò)判損失最小。根據(jù)上述思想,在假定協(xié)方差矩陣相等的條件下,即可以導(dǎo)出判別函數(shù)。

2.多元正態(tài)總體的Bayes判別法在實(shí)際問(wèn)題中遇到的許多總體往往服從正態(tài)分布,下面給出p元正態(tài)總體的Bayes判別法,以及判別函數(shù)的導(dǎo)出。(1)待判樣品的先驗(yàn)概率和密度函數(shù)使用Bayes準(zhǔn)則進(jìn)行分析,首先需要知道待判總體的先驗(yàn)概率和密度函數(shù)(如果是離散情形則是概率函數(shù))。

(2)假設(shè)各組協(xié)方差陣相等,導(dǎo)出判別函數(shù)(3)計(jì)算后驗(yàn)概率

說(shuō)明:貝葉斯方法一般多用于多組判別分析,貝葉斯判別方法的數(shù)學(xué)模型所要求的條件嚴(yán)格,它要求各組變量必須服從多元正態(tài)分布,各組的協(xié)方差矩陣相等,各組的均值向量有顯著差異。而費(fèi)舍判別法主要要求各組均值向量有顯著差異即可。第二節(jié)逐步判別分析一、逐步判別分析的基本思想二、逐步判別的基礎(chǔ)理論――對(duì)判別變量附加信息的檢驗(yàn)三、引入和剔除變量的依據(jù)和檢驗(yàn)統(tǒng)計(jì)量四、求解判別函數(shù)中的矩陣變換五、建立判別式,對(duì)樣品判別分類(lèi)六、逐步判別分析在Excel上的實(shí)現(xiàn)逐步判別分析的基本思想

在判別問(wèn)題中,當(dāng)判別變量個(gè)數(shù)較多時(shí),如果不加選擇地一概采用來(lái)建立判別函數(shù),不僅計(jì)算量大,還由于變量之間的相關(guān)性,可能使求解逆矩陣的計(jì)算精度下降,建立的判別函數(shù)不穩(wěn)定。因此適當(dāng)?shù)睾Y選變量的問(wèn)題就成為一個(gè)很重要的事情。

凡具有篩選變量能力的判別分析方法就統(tǒng)稱(chēng)為逐步判別法。

逐步判別法和通常的判別分析一樣,也有許多不同的原則,從而產(chǎn)生各種方法。這里討論的逐步判別分析方法是在多組判別分析基礎(chǔ)上發(fā)展起來(lái)的一種方法,判別準(zhǔn)則為貝葉斯判別函數(shù),其基本思路類(lèi)似于逐步回歸分析,采用“有進(jìn)有出”的算法,即按照變量是否重要,從而逐步引入變量,每引入一個(gè)“最重要”的變量進(jìn)入判別式,同時(shí)要考慮較早引入的變量是否由于其后的新變量的引入使之喪失了重要性變得不再顯著了(例如其作用被后引入地某幾個(gè)變量的組合所代替),應(yīng)及時(shí)從判別式中把它剔除,直到判別式中沒(méi)有不重要的變量需要剔除,剩下來(lái)的變量也沒(méi)有重要的變量可引入判別式時(shí),逐步篩選結(jié)束。也就是說(shuō)每步引入或剔除變量,都作相應(yīng)的統(tǒng)計(jì)檢驗(yàn),使最后的貝葉斯判別函數(shù)僅保留“重要”的變量。逐步判別的基礎(chǔ)理論

――對(duì)判別變量附加信息的檢驗(yàn)

根據(jù)逐步判別分析的基本思想,進(jìn)行判別分析需要解決兩個(gè)關(guān)鍵的問(wèn)題,一個(gè)是引入或剔除判別變量的依據(jù)和檢驗(yàn)問(wèn)題;另外則是判別函數(shù)的及時(shí)導(dǎo)出的問(wèn)題。其中的理論基礎(chǔ)又在于如何對(duì)判別變量在區(qū)別各個(gè)總體中是否提供附加信息的檢驗(yàn)。為此這里先給出如何對(duì)判別變量在區(qū)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論