版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
PAGEPAGE166《多元統(tǒng)計分析》目錄前言第一章基本知識﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍5§1·1總體,個體與樣本﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍5§1·2樣本數(shù)字特征與統(tǒng)計量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍6§1·3一些統(tǒng)計量的分布﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍9第二章統(tǒng)計推斷﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍15§2·1參數(shù)估計﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍15§2·2假設檢驗﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍19第三章方差分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍32§3·1一個因素的方差分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍32§3·2二個因素的方差分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍37§3·3用方差分析進行地層對比﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍44第四章回歸分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍49§4·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍49§4·2回歸方程的確定﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍49§4·3相關系數(shù)及其顯著性檢驗﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍52§4·4回歸直線的精度﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍55§4·5多元回歸分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍56§4·6應用實例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍60第五章逐步回歸分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍65§5·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍65§5·2“引入”和“剔除”變量的標準﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍66§5·3矩陣變換法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍67§5·4回歸系數(shù),復相關系數(shù)和剩余標準差的計算﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍69§5·5逐步回歸計算方法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍70§5·6實例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍74第六章趨勢面分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍80§6·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍80§6·2圖解漢趨勢面分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍81§6·3計算法趨勢面分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍83第七章判別分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍90§7·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍90§7·2判別變量的選擇﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍91§7·3判別函數(shù)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍92§7·4判別方法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍96§7·5多類判別分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍104第八章逐步判別分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍110§8·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍110§8·2變量的判別能力與“引入”變量的統(tǒng)計量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍110§8·3矩陣變換與“剔除”變量的統(tǒng)計量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍113§8·4計算步聚與實例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍115第九章聚類分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍125§9·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍125§9·2數(shù)據(jù)的規(guī)格化(標準化)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍125§9·3相似性統(tǒng)計量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍126§9·4聚類分析方法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍131§9·5實例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍134§9·6最優(yōu)分割法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍134第十章因子分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍142§10·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍142§10·2因子的幾何意義﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍143§10·3因子模型﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍145§10·4初始因子載荷矩陣的求法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍147§10·5方差極大旋圍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍152§10·6計算步聚﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍156§10·7實例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍157附錄﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍162附錄1標準正態(tài)分布函數(shù)量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍162附錄2正態(tài)分布臨界值ua表﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍164附錄3t分布臨界值ta表﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍165附錄4(a)F分布臨界值Fa表(a=0·1)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍附錄4(b)F分布臨界值Fa表(a=0·05)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍附表4(c)F分布臨界值Fa表(a=0·01)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍附表5x2分布臨界值xa2表﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍第一章基本知識§1·1總體、個體與樣本總體(母體)、個體一(樣本點)和樣本(子樣)是統(tǒng)計分析中常用的名詞。在統(tǒng)計學中通常把研究的全部元素的集合稱為總體。組成總體的每個元素稱為個體。而把從總體中取出的一部分個體的集合叫做樣本。例如研究某花崗巖體中鉀的含量(通常研究某一指標,即某一變量),若從該巖體中合理選取n個樣品(n=3000),分析其中鉀的鉀的含量為K(i=1,2,…,n),則(1)k1,K2,…或Kn等稱為個體;(2)n個元素(個體)組成的集合(K1,K2,…,K)稱為樣本(子樣);(3)樣本中包含的個體數(shù)目(n)稱為樣本的容量。一般樣本容量n≥30稱為大樣本,n<30稱為小樣本;(4)所有可能的個體的集合稱為總體,通常地質體皆可無限取樣,這時總體包含無限多個體。這樣的總體稱為無限總體。若每個樣品。同時又分析了另一個指標(變量),則可獲得相應于別一個變量的個體。子樣和總體。若同時分析多個指標,則得多個子樣,代表多個變變量的總體,這種總體稱為多元總體??傮w是樣本的全體,樣本是總體的一部分??傮w通常是未知的。樣本是已知的。為了對總體的分布進行研究,就必須對總體進行隨機抽樣觀測。由于樣本是隨機抽取的,它取一組什么值事先是無法知道的,因此樣本可以看作是一個隨機向量X=(x1,x2,…,xn),而樣本的每個分量xi可以看作是一個隨機變量。當然對某次抽樣來說。樣本就有一組確定的觀測值。通常根據(jù)樣本以總體進行分析研究時,要求樣本能很好反映總體的特點。為此在抽樣時必須注意如下二點:(1)代表性。要求使總體的每一個個體都有相同的抽取機會。使樣本的每一個分量xi和總體XX具有相同的分布;(2)獨立性,要求每個觀測結果既不影響其它觀察結果。也不受其它觀察結果的影響,也就是說抽樣是獨立的隨機抽樣。滿足上述二點的子樣(樣本)通常稱為簡單子樣。在研究地質問題時。為了滿足土述要求,必須根據(jù)研究對象,按照具體地質條件合理布置取樣點?!?·2樣本數(shù)字特征與統(tǒng)計量樣本的數(shù)字特征是反映樣本分布的主要特性的參數(shù)。利用樣本的數(shù)字特征可以估計總體的數(shù)字特征。常用的數(shù)字特征(特征數(shù))有二類。一類是反映數(shù)據(jù)分布的集中位置,從而可以代表數(shù)據(jù)整體的特征數(shù)(表征數(shù)),稱為整個代表性特征數(shù)(又叫集中性參數(shù));另一類是反映數(shù)據(jù)分布離散程度的參數(shù),稱為離散性特征數(shù)。1·整體代表性特征數(shù)常用的整體特征數(shù)有:(1)樣本算術平均數(shù)設是取自某一總體的容量為n的樣本,則樣本的算術平均數(shù)為:……(1)當數(shù)據(jù)很多時,為了簡化計算,常常將數(shù)據(jù)分組(設分為m組),統(tǒng)計各組的頻數(shù)為并用組中值Cj(組中值即為組的上限與下限的平均數(shù))代替這組所有的觀測值。進行近似計算。這時平均數(shù)計算方式:=………………(2)用上式求平均數(shù)的方法叫做加權平均法,求得的平均數(shù)叫加權平均數(shù)。上式中的權即為各組出現(xiàn)的頻數(shù)。(2)樣本幾何平均數(shù)樣本幾何平均數(shù)為……(3)計算時,一般是把等式兩邊取對數(shù)即得………………(4)于是,只要先算出原始數(shù)據(jù)的對數(shù)值的平均數(shù)。然后再查反對數(shù)。即可求出幾何平均數(shù)。由于地質體中某些微量元素的含量,有時服從對數(shù)正態(tài)分布,在求其背景值時就會用到幾何平均數(shù)。除了平均數(shù)(樣本均值)和幾何平均數(shù)以外。尚有樣本中位數(shù)和樣本眾數(shù),也屬整體代表性特征數(shù)。所謂樣本中位數(shù)就是將樣本觀測值按大小順序排列起來,居中的一個數(shù)值就是樣本中位數(shù)。例如樣本(1,2,2,3,5,7,8)的中位數(shù)是3。如果樣本數(shù)據(jù)的個數(shù)是偶數(shù),則十位數(shù)可取中部一個數(shù)的平均值。所謂樣本眾數(shù)就是最容易出現(xiàn)的數(shù)值。也就是說把樣本規(guī)測按大小順序排列起來。若某個數(shù)出現(xiàn)的次數(shù)比與它相鄰的數(shù)出現(xiàn)的次數(shù)都大。則這個數(shù)就是樣本的眾數(shù)。通常中位數(shù)和眾數(shù)得不多。2·離散性特征數(shù)(1)均方差(標準差)均方差S是最常用的離散性特征數(shù)。均方差的平方叫方差。用S2表示。設樣本觀測值。其平均數(shù)(均值)為。若都分布在附近則離散程度較小,否則離散程度大。每個觀測值與之差,稱為離差(偏差)。離差有正有負,其平均數(shù)接近零(時,偏差平均趨于零),因此無法用以表示離散程度的大小。而離差平方的平均數(shù)能很好地反映出觀測數(shù)據(jù)的離散程度的大小。離差平方的平均數(shù)叫方差,即………………(5)均方差的計算公式為……(6)均方差又可寫為…………(7)對分成m組的數(shù)據(jù)來說,設組中值為Cj,各組的頻數(shù)為fj,則計算公式為…………(8)(2)極差極差就是樣本觀測值中最大值減去最小值的差,用R表示。設觀測值中最大值為,最小值為則。極差計算簡便。但由于只依賴于二個極端值。沒有充分利用數(shù)據(jù)所提供的許多重要信息。因而反映實際情況的精確度較差。3·樣本矩樣本的某些數(shù)字特征例如平均數(shù)和均方差等??捎脴颖揪剡@一術語來表示。設為取自某一總體的一個容量。為n的隨機樣本。則定義為樣本對于A的K階矩(其中A為常數(shù))。(1)原點矩當A=0時,稱為樣本的原點矩,用aK表示。則第K階樣本原點矩為K=1,2……(9)可見K=1時,有(2)中心矩當A=時,稱為樣本的中心矩,用uk表示。則第k階樣本中心矩為k=1,2,……(10)可見k=2時,有(3)樣本的偏度和峰度三階中心矩可以反映分布的偏斜程度,四階中心矩可以反映分布的陡峭程度。因此樣本的偏度g1和峰度g2可以定義為…………(11)如g1=0則分布對稱,g1>0則分布為正偏的,g1<0分布為負偏的。g2<=0分布與正態(tài)分布陡峭程度一樣,g2>0則分布比正態(tài)分布更陡峭。g2<=0m則分布沒有正態(tài)分布那么陡峭。4·統(tǒng)計量以上所述。樣本的數(shù)字特征是根據(jù)樣本導出的量。這些量通稱為統(tǒng)計量。可見一個子樣可以導出許多統(tǒng)計量。一般地說凡是子樣(樣本)的函數(shù)(不含任何未知參數(shù))均為統(tǒng)計量。根據(jù)研究問題的不同,可以利用子樣構造出某種統(tǒng)計量。以便進行推斷。由于予樣可以看作是一個隨機向量(或n繼隨機變量),所以統(tǒng)統(tǒng)計量也是一個隨機變量。例如樣本的平均數(shù)和均方差等都是隨機變量。§1·3一些統(tǒng)計量的分布在敘述統(tǒng)計量分布之前,先介紹幾種常用的分布,這些分布在概率論中已有論述,這里以表格形式將這些分布的一些主要結果列出來以備查用。1·樣本(子樣)線性函數(shù)的分布從正態(tài)總體N(u9σ2)中抽取一個容量為n的簡單子樣()。(1)設子樣的線性函數(shù)(統(tǒng)計量)為……(12)式中ai為已知常數(shù)。由于xi相互獨立。且有相同的分布N(u9σ2)。根據(jù)正態(tài)分布的性質可知,y服從正態(tài)分布。N(uy。σy2),其均值(數(shù)學期望)E(y)和方差D(y)分別為…………(13)當名稱密度函數(shù)K階原點矩K階中心矩附注正態(tài)分布N(μ,σ2)N(0,1)各階矩存在a1=μμ2=σ2μ2k+1=0μ2k=加法定理成立,設ξi獨立分別有N(μi,σi2),則ξ有分布N(,)若ξi獨立,有同分布N(μi,σ2)則有分布N(μ,)x2分布(自由度為n的x2分布簡記為x2(n))當x>00當x<0ak=n(n+2)……(n+2k-2)特別有=n2n設ξi獨立且有相同分布N(0,1)則有分布x2(n)加法定理成立,設ξ1,ξ2分別有x2(n1),x2(n2)則ξ=ξ1+ξ2有分布X2(n1+n2)表1.1幾種常用的分布
t分布(自由度為n的t分布簡記為t(n))k(<n)階矩有限a1=0(1<n)(2k<n)設ξ1,ξ2獨立,分別有N(0,1)及x2(n),則有分布t(n)F分布(自由度為m,n的F分布簡記為F(m,n)),當x>00,當x<=0對m<2k<n存在(n>4)設ξ1,ξ2獨立,分別有x2(m)及x2(n),則有分布F(m,n)可見那時子樣均值服從正態(tài)分布N(),其均值E()和方差D()分別為…………(14)所以子樣平均數(shù)(均值)和隨機觀測值x有相同的均值,但方差小n倍,故的分布更為集中。(3)設子樣線性方程組為…………(15)其中A為系數(shù)方法。則y1,…,yn也是正態(tài)隨機變量,其均E(yi),方差D(y1),協(xié)方差COV(yi,yj)分別為…………(16)i,j=1,2,…,p當p=n,A為正交方陣時,則有……(17)那時若xi(i=1,2,…,n)服從N(0,1)分布,則依據(jù)上式可得COV(yi,yj)=0……(18)E(yi)=0,D(yi)=1……(19)因為新變量(yi)的協(xié)方差為零。即兩兩互不相關。由于新變量也都服從正態(tài)分布。故y19y29…yn相互獨立(正態(tài)變量兩兩互不相關。亦即相互獨立)。以上討論可以得出結論。相互獨立的服從N(0,1)分布的簡單子樣xi(i=1,2,…,n)通過正交變換后,得到的也是相互獨立的服從N(0,1)分布的新變量yi(i=1,2,…,n)。2·幾個有關子樣方差與均值的統(tǒng)計量的分布(1)設x19x29…xn是從正態(tài)總體N(μ9σ2)中抽取的一個簡單子樣。其均值與方差為,…………(20)則統(tǒng)計量和S2相互獨立,且有ns2/σ2服從自由度為n-1的x2分布。服從自由度為n-1的t分布,即有a,ns2/σ2~x2(n-1)…………(21)b,…………(22)因為對子樣作正交變換并令正并方陣A中的第一行為a1i=1/(滿足正交條件a·y1=…………(23)b·(正交變換持長度不變)則故…………(24)c·…………(25)因此由于相互獨立,則y1與nS2獨立。又因因為服從N(0,1)分布,故服從自由度為n-1的x2分布。因為服從分布N(0,1),nS2/σ2服從分布x2(n-1)且相互獨立,故……(26)服從t分布。(2)設x1,y2,…,xm是從正態(tài)總體N(u1,σ12)中抽取的一個子樣,y1,y2,…,yn是從另一個正態(tài)總體N(u2,σ22)中抽取的一個子樣。并假定x1,x2,…,xm和y1,y2,…,yn相互獨立,則a·…………(27)b·當時,有其中:……(29)因為F=當二個正態(tài)總體分布的方差相同是,即因為當另外由分布加法定理知,統(tǒng)計量則統(tǒng)計量服從自由度為m+n-的t分布。若(32)或式中以上幾個統(tǒng)計量的分布,在統(tǒng)計分析中常會用到。今后根據(jù)統(tǒng)計推斷的需要。還將陸續(xù)引進一些其它的統(tǒng)計量。第二章統(tǒng)計推斷統(tǒng)計推斷就是根據(jù)子樣的數(shù)據(jù)來推斷母體的種種統(tǒng)計特性。它大體可以分為參數(shù)估計與假設檢驗二個方面?!?·1參數(shù)估計在地地工作中,常常需要根據(jù)一批礦樣的平均品位來估計整個礦體的平均品位;或根據(jù)每一巖體上測得的放射性強度(或其它物理性質)的平均數(shù),來估計該巖體的放射性底數(shù)(背景值)等等,這些就是參數(shù)估計問題。參數(shù)估計又可分為點估計與區(qū)間估計。1·點估計點估計就是選擇一個統(tǒng)計量作為母體未知參數(shù)的估計。這個統(tǒng)計量(是子樣的函數(shù))稱為的估計量。當x1,x2,…,xn是子樣的一組確定的觀測值時,就是一個具體數(shù)值(或一個點),所以也叫的點估計。常用的求估計量的方法有矩法和最大似然法。(1)矩法矩法就是用子樣矩(樣本矩)代替母體矩(總本矩),從而求出估計量的方法。例如,正態(tài)母體一階矩為二階矩為;若用一階和二階子樣矩來估計,則有:}…………(1)解上式可得因此母體均值和差2的估計量分別是子樣均值和子樣方差S2因為……(2)……(3)==…………(4)由此可見。作為的估計時,它在值周圍波動,其均值恰好是真值。這一性質稱為無偏性。無偏性就是要求的估計值的均值正好等于,即E。這種估計稱為無偏估計。因此是的無偏估計量,而不是的無偏估計量。由于…………(5)故的無偏估計因此……(6)具總體方差2和均方差的無偏估計量。(2)最大似然法設總體X有分布函數(shù)F(X;…,是未知參數(shù),X1,X2,…,Xn是容量為n的子樣。采用大似然定未知參數(shù)時,首先確定似然函數(shù)。a·若總體為離散型分布設Pi()…………(7)b·若總體為連續(xù)型分布設X的密度函數(shù)是f(X;θ1,…,),則似然函數(shù)為L…………(8)顯然,當X1,X2,…固定時,L是θ1,θ2,…的函數(shù),它表示樣本值X1,X2,…,的可能性大小。最大似然法就是使樣本值X1,X2,…,出現(xiàn)的可能性為最大的參數(shù)值。來作為未知參數(shù)的估計值。因此求估計值的問題。就是求似然函數(shù)的最大值問題。它可以通過解下述方程組求得…………(9)由于L最大時,也最大,故可將上述方程組換成如下比較容易解的方程組來求解(i=1,2,…,K)……(10)由上式求出的即為θ1,θ2,…θ的最大似然估計值。例如,設正態(tài)母體,其未知參數(shù)為和,用最大似然法求估計量是,因其似然函數(shù)為=則故解上述聯(lián)立方程組,得所以大似然估計。乙區(qū)間估計點估計總不免有偏差,在許多實際問題中常常采用一個區(qū)間而不用一個定值來估計母體的參數(shù)。并指出母體參數(shù)落在此區(qū)間的概率大小。這種估計方法叫區(qū)間估計,這種區(qū)間叫置信區(qū)間。設總體未知數(shù)為θ,通過子樣找出二個量1(X19…,Xn)和包含θ的概率為給定值1—。即……(11)區(qū)間即為置信區(qū)間,(1—)叫區(qū)間的置信概率,叫信度(或顯著性水平)。(1)當正態(tài)總體的2已知時,的區(qū)間估計因為服N(,2/n)分布。故標準化變量服從N(0,1)分布,則從標準正態(tài)分布表可得即…(12)即即若求具有置信概率為1-=0·95的置信區(qū)間??扇t這就是所要求的置信區(qū)間。必須指出。若母體不服從正態(tài)分布,但當子樣容量很大時,即n>30(稱為大樣本)。則子樣均值就近似服從N(,2/n)分布。故仍可用上述方法進行區(qū)間估計。(2)當正態(tài)母體的2來知時。的區(qū)間估計這時可用統(tǒng)計量因為t服從t(n-1)分布。則從t分布表可查得即P==1—………………(13)令則即得的置信區(qū)間。(3)正態(tài)總體2的氏間估計這時利用統(tǒng)計量,因它服從分布,故從分布表中可以找出可這樣選取λ1和λ2的值。使由上式可知……(14)令即得2的區(qū)間估計。(4)總體均值差的區(qū)間估計若有兩個總體,分別服從N(1,2)和N(2,2)分布,從中分別抽取子樣X1,X2,…,和Y1,Y2,…,Y。求1—2的置信區(qū)間(直置信概率為1—)。因為這時統(tǒng)計量故由t分布表可查出即u1-u2<=1-ɑ…………(15)§2·2假設檢驗地質工作中常會遇到各種需要進行統(tǒng)計推斷的問題。例如兩相鄰地段巖體中某些主要元素的平均含量有無顯著區(qū)別?是否從正態(tài)分布(或對數(shù)正態(tài)分布)?等等。這些問題都要用到統(tǒng)計假設檢驗。1·基本原理概要地說,統(tǒng)計假設檢驗就是先將需要推斷的問題(總體),作出一種假設,然后利用一個實測子樣數(shù)據(jù)算出某個已知分布的統(tǒng)計量,根據(jù)統(tǒng)主量出現(xiàn)的概率來檢驗假設是否合理。檢驗的依據(jù)是“小概率實際不可能性”原理。如果在一次實際取樣中就竟然出現(xiàn)小概率事件。則認為假設不合理,從而否定假設。若發(fā)生的是大概率事件。則認為是合理的。人而肯定假設。所以推斷時的步驟為(a)先作出假設H,即寫明所要檢驗的假設的具體內容;(b)在H條件下,選擇一個合適的已知分布的統(tǒng)計量;(c)根據(jù)子樣算出統(tǒng)計量的值;(d)確定顯著性水平。即確定作為小概率事件的臨界概率(概率上限)值a,通常根據(jù)問題的要求可取a=0·10,0·05,0·01等;(e)接受或拒絕假設。根據(jù)給定的a值確定否定哉A(P(A)=a),如果統(tǒng)計量值落在否定域中,則否定假設。通??梢愿鶕?jù)a值選確定統(tǒng)計量的臨界值(相應于臨界概率)。并把統(tǒng)計量的絕對值大于臨界的區(qū)域稱為否定域。小于臨界值的區(qū)域稱為肯定域。當統(tǒng)計量的值落在否定域中時,則否定(拒絕)假設。必須指出,統(tǒng)計假設檢驗是一種統(tǒng)計推斷,是在一定概率基礎上作出的判斷,不可能總是正確的,它可能發(fā)生的錯誤有兩類。第一類錯誤是,原假設本來為真(是肯定的),但取樣檢驗后卻否定了這個假設。當然這一錯誤判斷的概率等于a。一般統(tǒng)計假設檢驗都希望能否完原假設,因為這樣犯錯誤的概率可以預先控制。第二類錯誤就是原先假設不真。而取樣檢驗的結果卻肯定了原假設,從而作出了錯誤的判斷。在子樣容量n一定時,第一類錯誤減小,第二類錯誤碼就會增加。所以選擇a時要考慮兩類錯誤的危害性大小。如第一類錯誤危害性大則a可選擇小些。如果要同時減小這兩類錯誤。則只有增加子樣的容量(大小)。統(tǒng)計檢驗內容較多,現(xiàn)將一些常用方法介紹如下。2·u檢驗法若總體xx服從N(u,σ02)分布,其中總體標準差σ0為已知,今欲檢驗假設H:u=u。。設從總體中抽取子樣x1,x2,…xn。若H為真,即u=u。,則子樣均值服從N(u0,oO2/n)分布,將變量標準化得統(tǒng)計量。…………(16)由于統(tǒng)計量u服從N(0,1)分布,在給定顯著性水平a上,查正態(tài)分布表可得μ,使P{│u│>ua}=a,如圖2—1所示.則│u│>ua為否定域。若根據(jù)子樣算出的u絕對值大于此臨界值即│u│>ua,則在顯著水平a下,統(tǒng)計量u值落在否定域中,故否定假設H.反之若u<ua,則肯定假設圖2—1N(0,1)分布的H.這種根據(jù)統(tǒng)計量u密度函數(shù)圖(服從正態(tài)分布)來檢驗假設的方法叫做u檢驗法。顯著若取a=0·05,則ua=1·96。故當根據(jù)具體子樣算出u值后,若│u│>1·96,則在顯著性水平a下否定假設。在方差已知的條件下,u檢驗法也可用以檢驗兩個正態(tài)總體的均值是否相等。設兩個總體X和Y分切服從N(u1,o12)和N(u2,o22)分布。若σ1=σ2=σ0為已知,今欲檢驗假設H:u1=u2。從兩個總體中分別抽取子樣x1,x2,…xn和y1,y2,…ym求得相應的平均值為。若H為真,即u1=u2=u0,則……(17)由于通常方差比較穩(wěn)定。故假設則…………(18)將標準化。得統(tǒng)計量……(19)因此若取顯著性水平a=0·05,則可以從正態(tài)分布表查得統(tǒng)計量的臨界值為ua=1·96。若│u│>ua,則否定假設H,反之若│u│<ua則肯定假設H。必須指出。當未知時,若子樣容量n和m都很大,則總體方差可用子樣方差的加權平均值來代替,則有故…………(20)例如在某個黑云母花崗巖地段進行放射性伽瑪測量,取得169個數(shù)據(jù)。算得平均放射性強度為31·7Y,標準差為2·5Y。后在相鄰的另一個地段又測得放射性Y強度數(shù)據(jù)99個,算得平均值為28·8Y,標準差為2·6Y。要判斷這相鄰兩地段是否可看作同一母體(即從Y強度來看兩巖體的性質相同)?因已知放射性Y強度服從正態(tài)分布,又因二個子樣的標準差非常接近,故可認為這兩個母體的均方差是一樣的。因此只要檢驗兩母體的均值是否相同即可。用子樣算出的值n=169,m=99代入上式。得設a=0·05,則否定域為│u│>ua,臨界值ua=1·96。今│u│>ua,故可斷定這兩個地段不屬一個母體,或者說從放射性Y強度來看,這兩個地段的巖性不同。3·t檢驗法若母體服從N(u,)分布,u和都求知,今欲檢驗假設H:u=u0。這時可用子樣方差代替總體方差進行判斷。設從總體中抽取一個子樣求得子樣均值和標準差為和S,這時可利用統(tǒng)計量t…………(21)式中當H成立時,統(tǒng)計量t服從t(n-1)分布。因此在選定顯著性水平a后,就可以從t分布表上查出臨力界值ta,否定域為│t│>ta。故當│t│>ta時,則否定假設H,反之│t│<ta則肯定假設H。這種方法(根據(jù)服從t分布的統(tǒng)計量來檢驗總體均值的方法)叫做t檢驗法。應當指出,當樣本的容量無限增大時t分布趨于正態(tài)分布。事實上當樣本容量n≥30時。T檢驗法可用u檢驗法代替(結果相差不大),所以t檢驗法特別適用于小樣本推斷。t檢驗法還可用于檢驗二個帶有未知方差的正態(tài)母體的均值是否相等。設正態(tài)母體X和Y分別服從N(u1,)和N(),其中為未知,要求檢驗假設H:u1=u2。分別從X和Y中抽取容量為m和n的子樣,求得子樣均值和方差為,當子樣容量較小時(即對小子樣而言),可以利用統(tǒng)計量t來推斷?!?2)若H()成立。則上式?jīng)Q定的統(tǒng)計量t服從t(m+n-2)分布。因此根據(jù)選定的顯著性水平a,從t分布表上可查出臨界值ta,當│t│>ta時。則否定假設H。例:從某鋅礦的東、西兩支脈中各取10個樣品,化驗出東支脈中鋅含量為z1i。西支脈中鋅含量為z2i(i=1,2,…,10),數(shù)據(jù)見表2—1。問能否把東西兩支礦脈認為是一條礦脈?表2—1東西礦脈鋅含量表z1i(10-4)Z2i(10-4)23273025232135281724262330182429372427311·361·431·481·401·361·321·541·451·231·381·421·361·481·261·381·461·571·381·431·49由于鋅礦脈含量一般服從對數(shù)正態(tài)分布。故稱取對數(shù)。令xi=。則xi和yi為服從正態(tài)分布的數(shù)據(jù)。又因方差一般比較穩(wěn)定。設二者方差相同,所以只需檢驗二支脈中鋅含量的總體均值(u1和u2)有無顯著差異即可。由于n=m=10,為小子樣(小樣本),可用t檢驗法來推斷。為此先假設H:u1=u2,則當n=m時,則………………(23)根據(jù)表中數(shù)據(jù)可以算得t=-0·73。若取a=0·05時,可從t分布表中查得當自由度為m+n-2=18時的臨界值ta=2·101,可見│t│<ta。則可肯定假設H。由此可以認為東西兩支鋅礦脈是一條礦脈。4·F檢驗法如上所述,在用t檢驗法檢驗兩個母體均值是否相同時,通常假定方差相等。若不能肯定。則須對方差進行檢驗。這時常用F檢驗法作兩個母體的方差比(S1/S2)檢驗。設兩個正態(tài)母體。分別服從N(u1,)和N分布。從中分別抽取容量為nn1和n2的兩個小樣本。若子樣方差采用無偏估計量表示,并仍記為S,即………………(24)顯然,這時當假設H:時,則“方差比”統(tǒng)計量服從自由度為n1-1和n2-1的F分布,即}…………(25)當給定顯著性水平α,并已知γ1和γ2時,即可以F分布中查出臨界值Fα/2。使?jié)M足P{F≥Fα/2}=α/2,如圖2·2所示。由于F分布左右兩邊并1不對稱,所以否定域各取面積為積為α/2的兩部分(如圖中陰影部分)。通常為了制表方便起見,F(xiàn)分布表中只給出F>1的右邊臨界值。因圖2—2F分布的密度函數(shù)圖此,一般在實際計算F時,就要把數(shù)值較大的一個方差放在分子上,使F>1。這時否定域為F>Fα/2。這種根據(jù)服從F分布的統(tǒng)計量來進行檢驗的方法叫做F檢驗法。例:從一號和二號巖體中各取40個樣品?;炂渲械你~含量。求得一號和二號巖體銅含量的方差分別為問兩母體(巖體銅含量)的方差有無顯著差異。首先計算統(tǒng)計量值。因為S2>S1,則因為假設H:時,F(xiàn)統(tǒng)計量服從F()分布。故查F分布表可得當時的臨界值FO.O5=1·7。所以F<Fα/2,落在肯定域中,則肯定假設H:即兩母體標標準差(或方差)無顯著差異??烧J為相等。5·皮爾遜x2檢驗法(K.pearson)前面敘述的幾種檢驗方法。都是對母體分布的未知參數(shù)進行檢驗,那時假定母體分布是已知的。因此只要對參數(shù)進行檢驗即可。這些方法統(tǒng)稱參數(shù)性檢驗法。但有時母體分布的類型事先并不知道,需要對母體的分布和出種種假設。然后進行檢驗。這樣的方法稱為非參數(shù)性檢驗。皮爾遜x2檢驗法是一種常用的非參數(shù)性檢驗法。皮爾遜x2檢驗法常用以檢驗母體是否服從某個給定分布。假設H:母體XX的分布函數(shù)為F(x)。從母體中抽取一空量為n的子樣計算時將x軸分成r個區(qū)間(—·∞,a1),(a1,a2),(a2,a3)…(a2,a3)…(ar—1,+∞),即i=1,2,…,r其中aO=-∞,ar=∞。若H為真,則總體XX取Si內的值的概率為通常Pi稱為理論頻率。將子樣觀測值x1,x2,…,xn分組。把在同一個Si內的xi作為一組,即把子樣也分成r組,用fi表示落在Si中的子樣值的個數(shù)。則有fi稱為實測頻數(shù),顯然理論頻數(shù)為n·pi。一般說來。若H為具,則fi和n·Pi之間的差異不顯著。若H為假則差異顯著。K.pearson提出用下面統(tǒng)計量來衡量理論與實際的差異程度。在假設H下,只要n足夠大(n≥50),不管母體服從什么分布,上式定義的x2統(tǒng)計量服從自由度為r—k—1的x2分布。其中k為理論分布中用估計量代替的未知參數(shù)的個數(shù),即…………(26)所以對給定的水平α,查x2分布表,求出臨界xα2。若x2>xα2,則否定假設H。通常用這種方法進行檢驗時要求:(1)子樣容量較大(n>50),(2)每組的實測頻數(shù)不能太小(至少不小于5)。例:設在某礦體上均勻取樣,共得120個樣品。分析其中某金屬的品位。該金屬品位數(shù)據(jù)見表2·2。問礦體的該金屬品位是否服從正態(tài)分布?表2—2礦體某金屬品位表組號金屬品位(%)間隔組中值(%)頻數(shù)fi123456789102·5~7·57·5~12·512·5~17·517·5~22·522·5~27·527·5~32·532·5~37·537·5~42·542·5~47·547·5~52·5510152025303540455012514283524731根據(jù)表中數(shù)據(jù)可以算得,標準差S=7·5,將它們分別代替總體(理論)分布中的μ和現(xiàn)檢驗如下:假設H:巖體某金屬品位符合N(28·6,7·52)分布,則統(tǒng)計量在此例中由于和S代替兩個未知參數(shù)μ和,故k=2。此外原分組中,有些組的頻數(shù)f<5,則需要適當合并??砂?,2,3組并為一組,8,9,10組并為一組,合并后的各組頻組和理論頻數(shù)及部分計算結果見表2—3。表2—3品位分組的實測與理論頻數(shù)表組號品位(%)間隔實測頻數(shù)fi理論頻數(shù)n·Pifi-n·Pi1234562·5~17·517·5~22·522·5~27·527·5~32·532·5~37·537·5~52·5814283524118·2916·7527·7730·9722·1413·96-0·29-2·750·234·031·86-2·960·0100·4520·0020·5240·1560·628表中理論頻率Pi是根據(jù)標準正態(tài)分布表查得的。求法如下:例如。要求第三組間隔為(2·25~2·75)的概率P3,則P3=則這時統(tǒng)計量x2值為若取顯著性水平α=0·05,查γ=r-k-1=3-欄。得臨界值xα2=x02·05=7·82。因為x2<xα2,即統(tǒng)計量值落在肯定域中,則肯定假設,即認為巖體的該金屬品位符合正態(tài)分布。6·符號與秩和檢驗法符號檢驗法和秩和檢驗法是兩種常用的非參數(shù)性檢驗法。(1)符號檢驗法在地質工作中常會遇到。對同一批樣品,不同人用不同儀器或不同分析方法,得出成對數(shù)據(jù)(xi,yi)。要檢驗這兩批成對數(shù)據(jù)間有無顯著性差異時??梢圆捎煤啽愕姆枡z驗法。例,甲、乙兩人分析同一氣體co2含量。得兩組數(shù)據(jù)xi和yi(見表2·4)。問兩人分析結果有無顯著差異?表2—4xi14·715·015·214·815·514·614·914·815·115·0yi14·615·115·411·715·214·714·814·615·215·0符號+--++-++-0xi14·714·814·715·014·914·915·214·715·415·3yi14·614·614·815·314·714·614·814·915·215·0符號++--+++-++顯然若沒二批分析結果具有相同的分布[其母體具有相同的分布F(xi)=F(yi)],則xi>yi的可能性和yi>xi的可能性相同,即正負符號數(shù)相差不大。設xi>yi記為“+”號。yi>xi記為“-”號,xi=yi記為“0”令n+和n-分別表示“+”和“-”號的個數(shù)。它們的和記為n=n++n—,它們中較小的一個記為S,即在檢驗時,對于已知n和給定的顯著性水平α,可從符號檢驗表中查得臨界值Sα。然后把S和Sα相比較,若S≤Sα則否完原假設,若S>Sα則肯定原假設。本例中n+=12,n—=7,nO=1,故n=12+7=19,S=min(n+,n—)=7。對n=19,α=0·05,查得Sα=4。由于S>Sα,故肯定原假設。故可說二人分析結果無顯著差異。符號檢驗法雖然簡單,但要求數(shù)據(jù)成對出現(xiàn),而且在比較數(shù)據(jù)大小時不管其具體數(shù)值。因此方法的精度較差。秩和檢驗法在一定程度上彌被了上述缺點。(2)秩和檢驗法假設H:兩個母體A和B有相同的分布。從中分別抽取容量為n1和n2的兩個子樣。假定n1<n2。秩和檢驗步驟如下。a·將兩個子樣混合起來,按大小遞增的次序排列編號,每個數(shù)據(jù)所對應的序號(或叫序數(shù))稱為數(shù)據(jù)的秩。b·計算較小容量為子樣所對應的秩之和,用T表示。c·對于n,和nr及給定的顯著性水平α,從秩和檢驗表中查出秩和下限(T1)和上限(T2)。d·若T1<T<T2,則肯定假設H,否則否定假設。例:甲、乙二人作某氣體中Co2,含量分析,測得數(shù)據(jù)為xi和yi,見表2·5。問二人分析結果是否有顯著差異?表2·5xi14·714·815·215·6yi14·615·015·1(見·28·頁。)(b)因yi容量較?。╪=3),則計算yi的秩和。這時T=1+4+5=10。(c)對n1=3,n2=4,α=0·05查秩和檢驗表得T1=7,T2=17。(d)由地T=10,故T1<T<T2則肯這假設,認為兩母體分布相同,即甲、乙二人分析結晶果無顯著差異。通常秩和表只給出n1≤n2≤10條件下的T1和T2值。當n1和n2較大時,在假設A、B二母體分布相同條件下,統(tǒng)計量T近似服從正態(tài)分布。這時有或式中,例如將符號檢驗法中的例子,進行秩和檢驗時(a)將數(shù)據(jù)按大小排列,得表2·7表2·7秩3·53·53·53·53·53·510101010xiyi14·614·614·614·614·614·614·714·714·714·7秩10101016·516·516·516·516·516·521·5xiyi14·714·714·714·814·814·814·814·814·814·9秩21·521·521·5262626262629·529·5xiyi14·914·914·915·015·015·015·015·015·115·1秩333333333336·536·538·538·540x15·215·215·315·415·5yi15·215·215·215·315·4注:當數(shù)據(jù)相同時,其秩取秩數(shù)的平均數(shù)。如前六個數(shù)相等,則其秩均為(1+2+3+4+5+6)/6=3·5。(b)由于n1=n2,故可任取xi或yi的秩和(T)。設取yi的T值為T=374。(c)均值u=標準差=37(d)u=(T-u)/因a=0.05時,ua=1.96,即│u│<ua,則肯定假設,亦即二人分析結果無顯著差別。這與符號檢驗法結果相同。接·27·頁開始。作秩和檢驗時:(a)將數(shù)據(jù)按大小排列編號,如表2—6。表2—6秩1234567xi14·714·815·215·6yi14·615·015·1第三章方差分析地質現(xiàn)象通常由若干地質因素決定。例如礦體中某元素的品位,就可能受礦體理藏深度(也可用層位表示)和不同類型的圍巖等等因素的影響。如何通過試驗數(shù)據(jù)分析出各個因素,以及各因素之間的交互作用。這就是方差分析的主要任務。所謂方差分析,就是從方差的角度來分析觀測數(shù)據(jù)以確定各因素作用的大小,從而把由于控制因素的改變(或稱試驗條件的改變)而引起的觀測數(shù)據(jù)的系統(tǒng)誤差和觀測過程(或稱試驗過程)中不可避免的偶然誤差(或叫試驗誤差或隨機誤差)區(qū)別開來。方差分析是一種有效的統(tǒng)計分析方法。這種方法于本世紀二十年代首先由英國統(tǒng)計學家費會爾(R·A·Fisher)把它應用到農(nóng)業(yè)實驗上,其后在許多工業(yè)和科學研究方面都得到應用。在地質工作中,例如在研究礦物變異和對比及劃分地層等工作中使用方差分析都取得良好結果?!?·1一個因素的方差分析1·概述一個因素的方差分析的基本內容,往往是檢驗多個總體的均值是否相同的問題。例如在地球化學找礦時鉛是伴生指示元素,往往需要知道鉛在礦體垂直分帶上有無顯著變化。也就是研究深度(礦體理藏深度)這個因素對鉛含量有無顯著變化。這時我們可以在不同深度的層位上(即在不同總體上)各采取一組樣品進行研究。由于通常方差比較穩(wěn)定。所以要檢驗不同層位上鉛含量是否有顯著變化。就是要檢驗不同總體的均值是否相等。一般地說,就是從G個總體(例如G個層位)中,分別獨立抽取子樣進行觀測,共得G組測值(xg1,xg2,…,xgng).根據(jù)這些觀測值來檢驗G個總體的均值是否相等,即檢驗假設H:u1=u2=…=uG。推斷時根據(jù)子樣組間方差和組內方差的比值來進行。所以這種方法可以說是假設檢驗的推廣?,F(xiàn)將方法原理敘述如下。2·方法原理設所有觀測值(xgk,g=1,2,…G;k=1,2,…,ng)的總平均值為,第g組觀測值的平均值為,則…………(1)…………(2)………………(3)式中n為總的觀測數(shù),ng為第g組中的觀測數(shù)(即g子樣的容量)。這時觀測數(shù)據(jù)的總的離差平方和Q為…………(4)總離差平方和Q可以分解成組間平方和Q1和組內平方和Q2兩部分,即………………(5)………………(6)由于因則………………(7)總平方和的自由度v,也可分解成組間自由度和組內自由度兩部分。因為總的自由度v為…………(8)組間自由度v1為v1=G-1…………(9)組內自由度v2為v2=…………(10)則v=v1+v2組間平方和Q1是每個組平均值與總平均值的加權離差平方和。它的大小反映了各總體均值之間的差異程度。組內平方和Q2,則反映了試驗誤差(觀測過程中各種偶然因素造成的誤差)的影響。若H為真。即u1=u2=…=uG,那么所有全體子樣可看作取自同一正態(tài)母體N(u,)。由于它們相互獨立,則服從自由度為n—1的x2分布,即……(12)同樣有根據(jù)x2分布加法定理可知Q1/服從自由度為v2=n—G的x2分布,即………………(13)下面證明Q1和Q2獨立(則Q1/),且Q1服從分布。因為式中ugk=xgk–u為相互獨立的隨變量。V1是ugk的一個正交線性變換。因此根據(jù)第一章子樣線性函數(shù)分布以及有關正交變換的性質可知,這時可以再找到n—1獨立的變量Vi(i=2,…,n),可使式中Vi(i=2,3,…,n)相互獨立并服從N(0,)分布。同樣有:式中Wi是ugk的一個正交線性變換。因此可以再找到n—G獨立變量Wi(i=G+1,…,n),使得所以式中由于zkyk相互獨立,則Q1與Q2獨立。此外由上式可知,zk/服從N(0,1)分布,則服從自由度為V1的x2分布。即…………(14)從(13)、(14)式可知,統(tǒng)計量F=服從自由度為V1和V2的F分布,即…………(15)式中S21和S22分別稱為組間方差與組內方差。于是當給定顯著性水平a時,從F分布表可查得臨界值Fa/2。若實測統(tǒng)計值F>Fa/2是,則在顯著性水平a下否定假設H。3·方差分析步驟與實例如上所述一個因素的方差分析可以歸納為如下幾步。(1)計算組間離差平方和S21,組內離差平方和S22,及總偏差平方和S2,并用S2=S12+S22進行驗算;(2)計算組間自由度V1=G—1和組內自由度總自由度v=n—1,并且用v=v1+v2進行驗算;(3)計算組間和組內方差(4)求出統(tǒng)計量F值(F=);(5)查F分布表,求出臨界Fa/2,與實測F相比較。作出判斷。實例:某礦區(qū),要求查明鉛在礦體垂直分帶上有無顯著變化?為了查明這一問題,在礦體的四個不同層位上,分別于五個剖面處取了鉛的組合樣,鉛含量(組合樣中鉛含量為單個樣中含量的幾何平均數(shù))如表3—1所示。表3—1鉛含量(Pb×10-6)數(shù)據(jù)表層位號(g)樣品號(K)1234123452·452·322·122·441·894·653·843·394·732·403·765·577·856·945·054·803·305·185·755·6311·2219·0129·1724·662·2443·8025·8344·9324·20根據(jù)表中數(shù)據(jù)作方差分析,結果如表3—2(方差分析表)所示。表3—2方差分析表方差來源平方和自由度方差FF0.05F0.01顯著性組間35·9505311·983510·583·245·29**組內18·1164161·1323總54·066919從這張方差分析表中,計算和推斷結果都可一自了然。必須指出,為了直觀地表示顯著性的不同程度,通常當實測F<F0.05時,即無顯著差異,則在顯著性一欄上無*號表示:當F0,05<F<F0,01時,即有顯著差異。則用*號表示:若F>F0,01時,即差異特別顯著,則用**表示。從表中可以年出,層閏這一因素對鉛含量有特別顯著的影響。§3—2二個因素的方差分析以上討論了一個因素的方差分析,即只考慮一個因素對觀測結果的影響。在實際地質工作中,影響一個量的因素常常不止一個。諸因素之間又有互相作用,情況較為復雜。下面敘述兩個影響因素在無交互作用和有交互和用時的方差分析,說明解決這些總是題的思想和方法。按比原則,可以解決更為復雜的問題。1·不考慮交互作用時,兩個因素的方差分析例如在研究礦脈厚度和它的埋藏深度對鉛的平均品位的影響時,用A表示礦脈厚度因素,用B表示礦脈埋藏深度因素。將因素A按厚度不同分為若干個等級(通常稱為若干水平),如A1=5~15cm,A2=15~25cm,…等等。同樣將因素B按照深度(即不同層位)分為若干等級(水平),如第一層為B1,第二層為B2等等。一般說來,例如將因素A分為a個水平,即A1,A2,…Aa;將因素B分為b個水平,即B1,B2,…Bb,,則因素A和B總共有a×b種不同的水平配合。在每一種水平配合(如一定的厚度和一定的深度上)進行一次觀測,其結果用xij表示。含量結果如表3—3所示。表3—3BAB1…Bj…BbA1···Ai··接下頁·接下頁x11…x1j…x1b·········xi1xij…xib···············AaxaI…xaj…xab……設……(16)為a×b個觀測值的總平均值。為j列的平均值,即為B因素j水平的平均值。為i列的平均值,即為A因素i水平的平均值。若變量總體分別服從N(uij)分布,分析的目的是檢驗假設H:所有的uij都相等。解決這類問題的基本方法與一上因素的方差分析一樣。這時把總離差平方和分解為三部分。即A因素,B因素與觀測誤差三部分。…………(17)由(16)式可知(17)式中三個交錯乘積皆為0。比如:因此(17)式可寫為……(18)式中為A因素的離差平方和。為B因素的離差平方和,為誤差平方和?!?9)
在應用中通常用下式計算(20)比如=當假設H為真時,則a×b個觀測值xij可看作來自同一總體N(u,),即u=uij。自由度分別為v=ab—1,vA=a—1,vB=b—1,vE=(a—1)(b—1)?!?1)和一個因素的方差分析一樣,有相互獨立,且…………(22)故…………(23)對于給定的a可從F分布表中分別求出A和B的臨界值F和F。若由觀測數(shù)據(jù)算出的FA和FB均分別小于F和F時,則肯定假設,否則否定假設。實例:已知鉛含量隨層位不同而變化。而某礦的品級也隨層位而變化,那么就需研究鉛含量的變化究竟是由于層位間地球化學條件不同引起的,還是由于礦的品級變化所引起的呢?設礦的品級因素為A,分為四個品級A1,A2,A3,A4。層位因素為B,分為四個水平B1,B2,B3,B4。在不同的Ai,Bi條件下各取一個樣品分析出鉛含量xij(×10-6)。其數(shù)據(jù)列于表3—4中。問A、B二因素對鉛含量是否有顯著影響?二者中哪個更大些?表3—4鉛含量(Pb×10-6)數(shù)據(jù)表BAB1B2B3B4A12·203·763·724·17A22·184·724·855·50A33·004·954·205·50A45·107·108·306·31根據(jù)原始數(shù)據(jù)用以上公式計算結果見表3·5。表3·5不考慮交互作用時二個因素方差分析表方差來源平方和自由度方差FF0.05F0.01顯著性ABE總23·0913·813·840·70339157·704·600·4218·3310·953·863·866·996·9****表中可以看出,某礦的品位和層位二個因素對鉛含量均有特別顯著的影響,但比較起來,品位因素影響更大些。因為所以品位因素影響大些。2、考慮交互作用時,二個因素的方差分析所謂交互作用是指二個因素A和B相配合時對結果的影響。例如有時當?shù)V脈的厚度這一因素和埋藏深度因素結合(搭配)起來時對某元素的含量影響特別大。這種因素間聯(lián)合起來所起的作用稱為交互作用。為了考慮交互作用,在不同因素Ai,Bi條件下只取一個樣品就不夠了。必須取一組樣品進行觀測才行。這是因為每一取樣觀測都有承機誤誤,所以即使搭配作用較大,在一次取樣觀測中未必能得到同樣好的結果。所以面要多交取樣觀測才能平均出交互作用來。設在A、B二因素的每一種水平搭配時,都進行m次取樣觀測,其結果如表3—6所示。表3—6BAB1…Bj…BbA1┆Ai┆Aax111…x11m…x1j1…x1jm…x1b1…x1bm┆┆┆┆┆xill…xilm…xij1…xijm…xib1…x1bm┆┆┆┆┆Xall…xa1m…xaj1…xajm…xab1…xabm表中xijk表示第I行,第j列內的第k次取樣觀測值。I=1,2,…,a:j=1,2,…,b:k=1,2,…,m。設為表中全部數(shù)所的平均值。為表中第i行數(shù)的平均值。列數(shù)據(jù)的平均值。則……(24)與前類似,將總離差平方和分解為四項之和?!?5)上式簡記為……(26)為總平方和,其自由度v=abm—1A為A因素平方和,其自由度為vA=a—1。B為B因素平方和,其自由度為vB=b—1A×B為A和B交互作用引起的平方和。其自由度為VA×B=(a—1)(b—1),E為誤差平方和,其自由度為vE=abm—ab=ab(m—1)v=vA+vB+vA×B+vE…………(27)和以前討論的相似,可以證明(28)因此……(29)以上統(tǒng)計量FA9FB和FA×B可以分別用以判斷A,B和A×B對觀測結果的影響。方法與前面相同。實例:在某多金屬礦床上,用方差分析法研究脈厚和埋藏深度對鉛含量有無顯著影響。設,厚度因素用A表示。分為四個水平,即A1=5~15cm,A2=15~25cm,A,=25~35cm,A4=35~45cm。埋藏深度因素用B表示,分為三個水平,即第一層為B1,第二層為B2,第三層為B3。在每一Ai,Bi條件下各取三個樣品。測量結果鉛含量的原始數(shù)據(jù)列于表3—6中。表3—5鉛含量(%)的原始數(shù)據(jù)表BAB1B2B3A1A2A3A41,5,61,3,52,3,72,2,52,5,83,8,101,4,102,2,116,7,85,10,122,10,154,7,10根據(jù)上述公式,計算結果列于表3—7。表3—7考慮交互作用時方差分析差方差業(yè)源平方和自由度方差FFoooFOo顯著性ABA×BE總1046·535·5314460326243534·673·255·9213·082·650·250·453·013·402·514·725·613·67表中可以看出,由地實測各F值皆小于FO。05,故均無顯著影響。結論為:礦脈厚度和埋藏深度以及它們的交互作用,對鉛含量皆無顯著影響?!?—3用方差分析進行地層對比通常不同巖層,由于形成的地質條件不同。因而它們的某些定量標志(比如含砂量、滲透率、電阻率、放射性強度等等)往往有著顯著的差異。而同一巖層內這些標志(隨機變量)間的差異則相對來講就要小些。因此可以利用層間方差(組間方差)和層內方差(納內方差)之比作為統(tǒng)計量來對比和劃分地層。比如(a)在對比A、B、C三個不同地層時??梢栽贏、B、C地層中分別采取一組樣品。分析劃分巖層的標志變量(如含砂量)。我后計算組間方差和組內方差,并進行方差比顯著性檢驗。若差異顯著則A、B、C三個地層就不能歸屬于同一巖層。(b)在根據(jù)物業(yè)資料進行地層劃分時。為了取得最佳效果,可以根據(jù)對不同地層有明顯差異的物性參數(shù)變化曲線(比如電阻率變化曲線等),按一定間隔(比如10cm到100cm)取值。然后根據(jù)要求劃分出的層數(shù)用方差分析法確定層位界線。比如分成二層時,即將所有的n個數(shù)據(jù)分成二組。顯然任意劃分時可有n-1種劃分方法。我們可以對這n-1種劃分法,都計算出n-1個組間方差S1和組內方差S2。很明顯,能獲得最大方差比(S1/S2)的劃分法,就是最佳劃分法。在確定二層的基礎上,根據(jù)需要??梢园凑胀瑯釉瓌t分成三層、四層或更多層。下面舉例說明二個已知分層的對比方法。設:有相鄰二井(A和B)各分四層。每層平均電阻率數(shù)據(jù)如表3—8所示。表3—8各巖層電阻率數(shù)據(jù)表井號層號AB12346.0211.698.875.744.078.296.223.38若A和B井的各層分別用Ai和Bi(i=1,2,3,4)表示,則地層的以比可能有以下五種方案(A4對B1和A1對B4二種方案原因數(shù)據(jù)太小,故略去),參見圖3—1。采用方差來對比方案時,將對比的地層看作是同一個地層。這樣A、B二井中可看作同一地層的對比數(shù)是:第一方案為2層,第二方案有3層,第三方案有4層等等。于是就可以求出租間方差S1121234121234121234123A1A2A3B1A4B2B3B4A1A2B1A3B2A4B3B4A1B1A2B2A3B3A4B4B1A1B2A2B3A3B4A4B1B2A1B3A2B4A312112121233-1地層對示意圖(層間方差)和組內方差S2(層內方差)。因為參加對比的層數(shù)不同,對層間方差有很大影響,必須乘一個校正系數(shù)。才能保持對五種方案在相似條件下進行對比。設五種方案中參加對比的最多層數(shù)為m。第i方案參加對比的層數(shù)為p,則校正數(shù)Ki=m/P。于是可規(guī)定地層對比指標顯然能夠取得H(i)值最大的方案,就是最佳對比方案?,F(xiàn)將各方案的計算敘述如下(通常規(guī)定當H(i)為負時一律記為0)。(一)第一方案。原始數(shù)據(jù)見表3—9。這時n1=n2=2,G=2.表3—9一方案數(shù)據(jù)表層號g井號K121(A)8.875.742(B)4.078.2912.9414.036.477.0156.74m=4,p=2(二)第二方案原始數(shù)據(jù)見表3·10。這時n1=n2=2,G=3。表3—10二方案數(shù)據(jù)表層號g井號k1231(A)11.698.875.742(B)4.078.296.2215.7617.1611.967.888.585.987.48方差計算結果為:因m=4,p=3則H(2)=0(三)第三方案原始數(shù)據(jù)見表3--11。表3--11三方案數(shù)據(jù)表地層號g井號k12341(A)6.0211.698.875.742(B)4.078.296.223.3810.0919.9815.099.125.0459.9907.5454.5606.785這時m=4,p=4H(3)=0.721(四)第四方案原始數(shù)據(jù)見表3—12。表3—12四方案原始數(shù)據(jù)表地層號g井號k1231(A)6.0211.698.872(B)8.296.223.3814.3117.9112.257.1558.9556.1257.412這時n1=n2=2,G=3S1=4.1033S2=10.869M=4,P=3H(4)=0(五)第五方案原始數(shù)據(jù)見表3—13表3—13五方案原始數(shù)據(jù)表地層號g井號k121(A)6.0211.692(B)6.223.3812.2415.076.127.5356.83這時n1=n2=2,G=2S1=2.0S2=17.27m=4,P=2H(5)=0比較上述五個方案計算結果,只有H(3)=0.721不為零,故H(3)最大。因此第三方案是所求的地層對比的最佳方案。第四章回歸分析§4—1概述回歸分析是地質學中常用的一種統(tǒng)計分析方法。用以研究某一變量(指標)與另一變量(或其它若干變量)之間的相關關系。一切事物都是相互聯(lián)系的。事物之間的聯(lián)系反映在數(shù)學上就是變量之間的關系。通常變量之間的關系可以分為二類。(1)確定性關系。這就是通常所說的函數(shù)關系。例如歐姆定律所確定的電阻、電流和電壓之間的關系,即V=IR。知道子其中兩個變量的值。第三個變量的值就完全確定了。(2)相關關系。比如巖石中鈾鉀含量之間的關系,原生暈強度與到礦體的距離之間的關系,金屬礦床中各種金屬含量之間的關系,放射性元素含量與伴生元素含量的關系等等。這些變量之間存在著密切的關系,但這些關系受許多隨機因素的影響,不能由一個(或幾個)變量的效值。精確的求出另一個變量的值。這些變量都是隨機變量。這種變量之間的關系叫做相關關系。通常利用回歸分析(相關分析)在一定地質條件下確定變量間的相關關系后,就可以根據(jù)一個或幾個比較容易測定和控制的變量,對另一個變量(如某種礦石的品位)進行予測?;貧w分析內容較多,應用范圍也較廣。本章重點敘述最常用和最基本的線性回歸方法?!?—2回歸方程的確定在研究二個隨機變量的關系時,若觀測n對數(shù)據(jù)(xi,yi,i=1,2,…,n)。設xi為自變量,yi為因變量。為了表明它們之間的關系,將x作橫坐標,y作縱坐標,在直角坐標系中把n對數(shù)據(jù)表示成n個點。如圖4—1所示。這樣的圖稱為散點圖。圖中可以看出這些點大致分布在一條直線隊近。即大體呈線性關系。在理論上若二個變量之間存在線性關系時,則理論相關表達式為ε…………(1)圖4—1散點圖式中a,β為理論待定參數(shù)(待估計參數(shù))ε是誤差項,它是服從N(o,)分布的隨機變量。通常在解決實際問題時??偸歉鶕?jù)樣本對未知參數(shù)進行估計。設a為a的估計,b為β的估計,為y的估計。則y對x的回歸議程為…………(2)系數(shù)a,b通常根據(jù)最小乘法原則來確定(即根據(jù)樣本用最小二乘法原則來確定a和β的估計值a,b)。這時要求選擇系數(shù)a,b使得各觀測值y和估計值之間的偏差(y)的平方和為最小。即…………(3)因此求系數(shù)a,b的正規(guī)方程組為}…………(4)即}…………(5)以下為了簡便,用表示表示等等。解(5)式可得:=}…………(6)由(5)式可知,加歸直線必然通過平均值點()。A和b稱為回歸直線的截距和斜率。b又稱回歸系數(shù)?;貧w系數(shù)b通常又可寫成如下形式}…………(7)式中稱為x,y的交叉積:為x,y的交叉積為x的方差(也可記為Sxx或SSx)。實際工作中常采用如下公式計算}…(8)顯然。當=0時(或=0時),b=0,表示y不隨x發(fā)生變化,即x和y不相關。例:在某礦取了18個煤樣,分析其比重()和灰分()的數(shù)據(jù)如表4—1。試求回歸方程。表4—1煤樣比重()和灰分()數(shù)據(jù)表樣品號(%)樣品號(%)11·525101·3421·24111·51731·730121·52441·420131·62551·836141·4661·37151·62671·35161·52481·524171·42091·733181·40根據(jù)上述公式可以求得,則回歸直線為§4—3相關系數(shù)及其顯著性檢驗1·相關系數(shù)在求回歸直線時,我們可以發(fā)現(xiàn)不管觀測點(xi,yi)分布狀態(tài)如何,即不管是非常分散還是集中地落在一條直線附近,也就是說不管變量x和y之間關系的密切程度如何,都可用最小二乘法求出一條回歸直線來。倘若x和y關系并不密切,甚至并不相關,那未所配的回歸直線就毫無意義。只有當x和y間關系密切時所配的回歸直線才有意義。因此需要找出一個參數(shù)(r)來定量地描寫變量x和y之間關系的密切程度。這個參數(shù)要求滿足(a)當x和y不相關時r=0。(b)當x和y完全相關時r=1。(c)在其它情況下,0<r<1。由于因變量y的離散程度可用總離差平方和(簡稱總平方和Lyy)來表示,如圖4—2所示??偲椒胶陀挚勺魅缦路纸猓?/p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 磁頭清洗裝置項目運營指導方案
- 膠面增濕器辦公用品項目營銷計劃書
- 掃雪機的修理或維護行業(yè)市場調研分析報告
- 傷口敷料產(chǎn)品供應鏈分析
- 臺球桿產(chǎn)品供應鏈分析
- 航空器用機翼項目運營指導方案
- 國際電話服務行業(yè)相關項目經(jīng)營管理報告
- 卡車露營車產(chǎn)品供應鏈分析
- O2O服務行業(yè)營銷策略方案
- 家用籃產(chǎn)業(yè)鏈招商引資的調研報告
- 人教版英語九年級Unit 1《How can we become good learners》全單元說課稿
- 電力通信理論題庫-網(wǎng)絡知識(含答案)
- 人教版數(shù)學九年級上冊24.4《弧長和扇形的面積》教學設計
- 2024年江蘇南通市崇川區(qū)城管協(xié)管員招考(高頻重點復習提升訓練)共500題附帶答案詳解
- 船舶貿易智慧樹知到期末考試答案章節(jié)答案2024年上海海事大學
- 電子工廠化學品系統(tǒng)工程技術規(guī)范
- 混凝土攪拌機械
- 浙江省中小學心理健康教育課程標準
- 紅色教育教案設計(3篇模板)
- JT-T-1199.1-2018綠色交通設施評估技術要求第1部分:綠色公路
- 項目工程退出申請書
評論
0/150
提交評論