版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、礦床統(tǒng)計地質(zhì)變量研究3陳 志 軍中國地質(zhì)大學()學院1 地質(zhì)數(shù)據(jù)的預處理2 地質(zhì)變量的概念和類型3 地質(zhì)變量的選擇4 地質(zhì)變量的取值和綜合變量的構(gòu)置5 地質(zhì)變量的變換本章內(nèi)容應(yīng)用數(shù)學地質(zhì)的理論和方法進行各種地質(zhì)問題研究,首先遇到的問題是對地質(zhì)數(shù)據(jù)和變量的研究。在各類研究中,效果的優(yōu)劣,在很大程度上取決于所選擇和構(gòu)置的地質(zhì)變量在其取值和變換后所得數(shù)據(jù)與預測對象的直接和間接關(guān)聯(lián)程度。1地質(zhì)數(shù)據(jù)的預處理地質(zhì)數(shù)據(jù)的預處理是指用地質(zhì)數(shù)據(jù)構(gòu)前對地質(zhì)數(shù)據(jù)進行處理。質(zhì)變量目的:排除或壓低數(shù)據(jù)中所包括的隨機干擾(噪音),突出有用信息,提高數(shù)據(jù)的可利用程度,增強構(gòu)質(zhì)變量的可靠性。 地質(zhì)數(shù)據(jù)的誤差 l隨機誤差或偶然
2、誤差l系統(tǒng)誤差服從正態(tài)分布誤差常表現(xiàn)為常數(shù)l過差非地質(zhì)因素影響而失去數(shù)據(jù)的真實性和代表性地質(zhì)數(shù)據(jù)是構(gòu)質(zhì)變量的基礎(chǔ)有的地質(zhì)數(shù)據(jù)可直接作為地質(zhì)變量的取值,但 多數(shù)地質(zhì)數(shù)據(jù)需要經(jīng)過處理后才能用來構(gòu)質(zhì)變量。故將地質(zhì)數(shù)據(jù)構(gòu)置為地質(zhì)變量時,首先要對地 質(zhì)數(shù)據(jù)進行預處理。地質(zhì)數(shù)據(jù)預處理的內(nèi)容包括對數(shù)據(jù)的l數(shù)據(jù)的校正:環(huán)境、地形校正等l統(tǒng)計分布研究、混合總體篩分l可疑觀測值的剔除、奇異值的穩(wěn)健處理l數(shù)據(jù)分布均勻化:的抽稀數(shù)據(jù)的補齊、過密數(shù)據(jù)l不同時間、技術(shù)條件下所獲得不同水平的資料的分析處理等。地質(zhì)數(shù)據(jù)經(jīng)過預處理得到數(shù)據(jù)矩陣,進而根據(jù)需要 構(gòu)置成地質(zhì)變量。地質(zhì)數(shù)據(jù)預處理中幾個常見問題Ø 數(shù)據(jù)校正問題
3、(環(huán)境、地形)Ø 離群數(shù)據(jù)鑒別問題Ø 缺值問題Ø 空間插值問題Ø 數(shù)據(jù)變換(見后節(jié)變量變換) 數(shù)據(jù)校正問題 位于湖泊及森林地帶中的銅遠景區(qū)557個樣品的土壤Cu的等值線圖a土壤中銅的等值線圖(原始數(shù)據(jù))(斜線面積200ppm) b進行環(huán)境校正后銅的等值線圖(斜線面積150ppm)(據(jù)RR克爾伯特,1976年) OutlierOutliers are observations that appear to have an abnormal value as compared with the rest of the values in the data s
4、et; that is, the value of an outlier is either much higher or significantly lower than any other value in the data set.An outlier could be a discordant observation or a contaminant.* A discordant observation is one that appears surprising or discrepant to the investigator and is to some extent subje
5、ctive.* A contaminant is an observation that is from a different distribution than the rest of the data.What to do with outliers?There are basically two methods that are employed in dealing with outliers.One method is to use statistical testing procedures to detect outliers, possibly removing them f
6、rom the data set if we know that these are measurement errors, incorrectly entered values, or impossible values in real life, and letting the analysis deal only with the rest of the data.The second method is to use statistical procedures, such as nonparametric tests or data transformations, that are
7、 immune or only minimally sensitive to the presence of outliers.離群數(shù)據(jù)鑒別問題統(tǒng)計方法:肖維納(Chauvent)檢驗法 格羅伯斯(Grubps)檢驗法狄克松(Dixon)檢驗法 威爾克斯(Wilks)統(tǒng)計量檢驗法等In data analysis, it is necessary to label suspected outliers for further study.For normally distributed data, we give three simple methods to identify an outl
8、ier:z-score modified z-score box plot.z-score化探數(shù)據(jù)處理中,一種常見的做法是:計算均值和方差,剔除均值+-3倍標準方差的數(shù)據(jù),再次計算均值和方差,再剔除均值+-3倍標準方差的數(shù)據(jù), 再次計算均值和方差,按此一直迭代,直到?jīng)]有數(shù)據(jù)可剔除位置,得到最終的均值和標準方差。以最終獲得的均值+-3倍標準方差劃定閾值,原始數(shù)據(jù)在此區(qū)間外的,即判定為特異值。modified z-score 箱線圖(盒須圖)離群數(shù)據(jù)鑒別問題箱線圖(Box plot),亦稱箱須圖(Box-whisker plot),或骨架圖(Schematic Plot)。箱線圖能夠直觀明了地識別
9、數(shù)據(jù)集中的異常值,利用數(shù)據(jù)中的五個統(tǒng)計量:最小值、第一四分位數(shù)Q1、中位數(shù)Median、第三四分位數(shù)Q3、最大值來描述數(shù)據(jù)。I. 揚子克拉通II. 華南褶皺系III. 蘭坪思茅褶皺系面積 = 154 x 114 km2離群數(shù)據(jù)鑒別問題 離群值的處理,是外來值,查明失真的a. 舍棄,是無效數(shù)據(jù),消除干擾b. 重測,是重要數(shù)據(jù)且有條件重新觀測c. 代替,非上述兩種情況,可采用平均值代替法、鄰近平均值代替法、界線值代替法和地質(zhì)推斷法 等予以處理是有價值的異常值,不能舍棄,根據(jù)地質(zhì)問題和數(shù) 學模型假設(shè)條件的需要靈活使用數(shù)據(jù)Missing data: Information not avaiable f
10、or a subject (or case) about whom other information is avaiable.Missing data often occure when a respondent fails to answer one or more questions in a survey.Missing data, where valid value on one or more variables are not avaialbe for analysis, are a fact of life in multivariate analysis. 數(shù)據(jù)機制 在對數(shù)據(jù)
11、進行處理前,了解數(shù)據(jù)的機制和形式是十分必要的。將數(shù)據(jù)集中不含值的變量(屬性)稱為完全變量,數(shù)據(jù)集中含有值的變量稱為全變量,Little 和Rubin定義了以下三種不同的數(shù)據(jù)機制:1)完全隨機(Missing Completely at Random,MCAR)。數(shù)據(jù)的與全變量以及完全變量都是無關(guān)的。2)隨機(Missing at Random,MAR)。數(shù)據(jù)的僅僅依賴于完全變量。3)非隨機、不可忽略(Not Missing atRandom,NMAR,or nonignorable)。全變量中數(shù)據(jù)的依賴于全變量本身,這種是不可忽略的。TheNaN (Not a Number) value is
12、 normally usedto represent missing data. NaN values allow variables withmissing data to maintain their structure.空間插值問題空間插值是在未采樣點估計變量值的過程作用:ü 重要數(shù)據(jù)補值ü 數(shù)據(jù)分布均勻化xx0rj xjxnNote插值處理技術(shù)主要依據(jù)采樣點之間的幾何關(guān)系和關(guān)聯(lián)信息進行補值;缺值處理技術(shù)根據(jù)先驗知識或最大似然原理進行補值兩種技術(shù)正在互相借鑒融合網(wǎng)格化的一種例子(例如化探掃面)黑點代表原始采樣數(shù)據(jù)點。網(wǎng)格化的一種例子(例如化探掃面)黑點代表原始采樣數(shù)據(jù)
13、點, 紅點為網(wǎng)格化后的數(shù)據(jù)點。紅點上的值是同格中所有黑點值的平均值??臻g插值問題插值方法分類 點/面插值 整體/局部插值 精確/擬合插值 隨機(統(tǒng)計)/確定插值 漸變(平滑)/突變插值xx0rxnj xj插值方法空間插值問題xx0最鄰近法算術(shù)平均法距離反比法(IDW) 多項式插值法樣條插值高次曲面插值最優(yōu)插值克立格插值經(jīng)驗正交函數(shù)插值張量有限差分徑向基函數(shù)插值rjxxjnIDW插值2 地質(zhì)變量的類型 地質(zhì)變量的概念 隨著空間位置(或時間)不同,表示某一地質(zhì)現(xiàn)象可取不同數(shù)值的變量。在統(tǒng)計研究中,地質(zhì)變量大多是作為隨量來處理分析的,因此對于地質(zhì)變量既要了解其變化范圍,又要了解其不同區(qū)間值的概率。&
14、amp;取值區(qū)間分布特征 地質(zhì)變量分類 按性質(zhì)分定性型:二態(tài)、三態(tài)定量型:連續(xù)型、離散型、方向型按其應(yīng)用時取值方法分觀測變量乘積變量綜合變量偽變量 觀測變量 對各種地、地質(zhì)現(xiàn)象或地質(zhì)過程可進行直接觀察、測量、分析所獲得的各種原始觀測值的變量。如:地層產(chǎn)狀、地層厚度、元素豐度、礦石品位、礦體、礦體傾角、巖體頂面標高、煤層厚度等。連續(xù)型 vs.離散型定量、半定量 & 定性變量地質(zhì)數(shù)據(jù)的整理與觀測變量的矩陣表示2 ,., xp )變量1,變量2,變量péêê .ù樣品1樣品21pú原始數(shù)據(jù)矩陣= ê2 p ú. ú
15、;.êúêë= éë xij ùûn´ púûn´ p樣品nnp(i=1,2,n; j=1,2,p) 乘積變量 由若干個觀測變量的乘積(包括比值)的新變量。 乘積變量往往可以提供更為重要的隱蔽信息。 如:品位×厚度、Pb*Zn, K2O/Na2O、Co/Ni、Rb/Sr等。Co/Ni比值可反映成礦物質(zhì)以殼源或幔源為主;Fe/Mn比值反映紅土型風化殼的成熟度及有關(guān)次生氧化礦床的品質(zhì)。 綜合變量 將幾個地質(zhì)因素或標志的原始觀測值加以綜合, 個具有特定地質(zhì)意義的新變量。一
16、 利用綜合變量還可起到減少變量,簡化數(shù)學模型的作用。 如:某金礦體的前緣暈指示元素為Hg、Sb、As和Tl,而尾暈的指示元素為Cu、Pb、Zn。用多個元素的組合V1=Hg+Sb+As+Tl, V2=Cu+Pb+Zn,或比值V1/V2則能較有效地指示礦體可能存在的空間位置。因子分析中的因子實際上也是綜合變量,如F1=c11Au+c12Ag+c13Bi+c14Te F2=c21Au+c22Ag+c23Zn+c24Pb代表兩個成礦階段。Y = CAu ´ CCu / CZn再如,化探研究中,定義表示“金、銅豐度高同時鋅豐度低”,是一個綜合變量。 偽變量為了計算方便而人為附加的一個變量,又稱
17、虛擬變量。Note:引進偽變量的目的純屬計算技巧上的要求,而不影響計算的結(jié)果。例如在多元回歸中求回歸系數(shù)時,常在原始數(shù)據(jù)矩陣中加上一行或一列取值為1的偽變量,會給計算帶來很大方便。é 11 p ùê 1úX = ê2 p úê. úê 1úënp û 地質(zhì)變量的特征 地質(zhì)資料中包的地質(zhì)信息,但對于特定的研究對象來說,不是所有的地質(zhì)信息都可成為有效的地質(zhì)變量,地質(zhì)變量必須具備一定的特點:l 具有明確的地質(zhì)意義l 統(tǒng)計特征明顯l 地質(zhì)變量與研究對象直接存在著密切的或定量的關(guān)系 3
18、 地質(zhì)變量的選擇 選擇地質(zhì)變量的目的 經(jīng)過地質(zhì)研究和成礦條件分析,一般可以獲得與研究對象和目的有關(guān)的多種地質(zhì)變量。它們之間的密切程度互不相同,有的甚至還起干擾作用。因此,并不是所有這些變量都能直接用于統(tǒng)計分析和計算,而是需要從中篩選出最重要的那些變量,得到最優(yōu)化的變量組合。地質(zhì)變量的選擇從數(shù)量眾多的地質(zhì)變量中篩選重要變量的過程。l要獲得一批地質(zhì)意義明確、統(tǒng)計特征明顯且與研究對象和目的有密切關(guān)系的變量。l是要達到“變量結(jié)構(gòu)最優(yōu)化”,也就是說要具有最佳變量組合。Ø減少空間維數(shù)簡化系統(tǒng)(即使變量個數(shù)達到盡可能地少使變量間相互),Ø同時又不損失與研究對象有直接和間接的主要信息。 選
19、擇地質(zhì)變量的基本原則和方法 先多后少尺度對等深淺結(jié)合選擇變量應(yīng)以地質(zhì)研究為基礎(chǔ), 地質(zhì)方法和數(shù)學方法相結(jié)合。 選擇地質(zhì)變量的統(tǒng)計方法 1幾何作圖法,如點圖法、圖法;2計算簡單相關(guān)系數(shù)、偏相關(guān)系數(shù)、秩相關(guān)系數(shù);3信息量計算法;4秩和檢驗法;5用于二態(tài)變量選擇的地質(zhì)向量長度分析法、相關(guān)系數(shù)比值法、變異序列法;6各種多元統(tǒng)計方法,如主成分分析法、各種序貫分析法、包括全部可能回歸法、逐步回歸、逐步判別、序貫判別等等。設(shè)有8個巖體,由每個巖體取n個樣品進行化學分析,得5個變量TiO2、SiO2、FeO、CaO、K2O,算出各巖體各變量的平均數(shù),作圖。1、2、3、4:已知含礦巖體,實線表示;5、6、7、8
20、:已知無礦巖體,虛線表示。觀察圖,可見:(1) 區(qū)分兩總體最好的變量為SiO2和FeO,其次為TiO2和CaO。(2) 僅據(jù)TiO2和CaO,可能將有礦的4號巖體錯判為無礦。(3) 考慮變量組合SiO2FeOTiO2CaO,在有礦巖體中,TiO2、CaO、SiO2、FeO的相關(guān)性很強,故從多邊形形態(tài)對比時,4號巖體應(yīng)為有礦巖體。(4) K2O變量無區(qū)分意義,可以剔除后再次作圖,以簡化巖體分類問題。 信息量計算法 信息量用以表征某種地質(zhì)因素或標志與研究對象(礦床)的相關(guān)性,可以通過條件概率來計算。P(B A )= lgjIAj ®BP(B)IAjBA標志(如斷裂)j狀態(tài)(如NE向,張性
21、)存在P( AjB)= lg時B發(fā)生的信息量,實IA®BP( A )際工作中,由于P(B)一般不jj容易確定,但根據(jù)概率乘法原理,上式可變換為:= lg P *( AjB)具體運算時,總體概率用樣本頻率來估計IAj ®BP *( A )j= lg N jNS jS以礦床為例,IAjB為NE向張性斷裂(Aj)指示有礦(B)的信息量;Nj具有NE向張性斷裂Aj的含礦單元數(shù),N含礦單元總數(shù),Sj所有單元中具有NE向張性斷裂的單元數(shù),S研究區(qū)或區(qū)的單元總數(shù)。IAjB=0,NE向張性斷裂不提供任何找礦信息,與成礦無關(guān)。IAjB<0,NE向張性斷裂存在時對找礦反而不利。IAjB&
22、gt;0,NE向張性斷裂存在時能提供找礦信息;IAjB越大,Aj提供的找礦信息量越大。(1)計算出各標志狀態(tài)的信息量后,將所有標志狀態(tài)n的IAjB按大小順序排列,計算正信息量的總和 åIj ,i=1(n為具正信息量的標志狀態(tài)數(shù))(2)給定有用信息水平k(一般0.75),計算有用信息nDI + = kåIji=1(3)將各標志狀態(tài)的信息量由大到小進行累積,累積到I +時的前p個地質(zhì)標志狀態(tài)就是我們所要選取的有利地質(zhì)因素(變量)。一個簡單算例劃分單元后N= 6S = 7x7 = 49北東向斷裂Nj = 4Sj = 14于是, 信息量= log(4./6)/(14./49)= 0
23、.847北西向斷裂Nj = 1Sj = 11于是, 信息量= log(1./6)/(11/49)= -0.2984 地質(zhì)變量的取值和綜合變量的構(gòu)置地質(zhì)變量的取值,指獲取某個地質(zhì)特征的具體數(shù)值。在礦床統(tǒng)計中,主要是對礦床不同層次的控礦成礦地質(zhì)因素和找礦標志進行室內(nèi)和野外取值。圖件類;異常圖類,主要為各種物化探異常圖;遙感解釋圖類;各種主要控礦地質(zhì)因素研究的專題圖件類等。是在充分研究控礦地質(zhì)條件和找礦標志基礎(chǔ)上,設(shè)計制定“找礦信息卡片”按網(wǎng)格單元或礦化異常單元逐個進行野外填寫。室內(nèi)取值野外取值 獲得地質(zhì)變量的原始觀測值直接觀測、化驗、分析測試、計數(shù)等。在進行數(shù)學處理和統(tǒng)計分析之前,必須對定性變量以
24、某種方式進行賦值。定量變量的取值定性變量的取值二態(tài)變量三態(tài)變量ì-1在單元中出現(xiàn),起負作用x = ï 0在單元中不出現(xiàn)iíï 1在單元中出現(xiàn), 起正作用îx = ì1在單元中出現(xiàn)ií0在單元中不出現(xiàn)î某類礦床一般分布在距花崗巖體150-400m范圍內(nèi),這時,“距花崗巖體距離”這一變量取值可有兩種狀態(tài),x = ì1150 £ dist £ 400í0othersî 地質(zhì)變量取值遵循基本原則 l應(yīng)當保證抽樣的隨機性l需要保持抽樣方式或條件的一致性如:網(wǎng)格取樣方式如:取樣
25、介質(zhì)、深度、質(zhì)量、包裝、樣品處 理等同一規(guī)定統(tǒng)一觀測和取值的方法和標準提取變量時應(yīng)注意:(1)地質(zhì)概念模型及勘查、研究成果是重要依據(jù),同時還要利用有關(guān)專業(yè)知識、發(fā)揮想象力,提取盡可能多的變量。(2)變量所代表的地質(zhì)現(xiàn)象或概念在空間尺度上與單元尺度要有可比性,從而一個變量在一個單元中可以取一個值,在研究范圍內(nèi)不同位置上可能得到不同的值。(3)盡量提取定量變量。這是因為通過某些變換,定量變量可以變?yōu)槎ㄐ宰兞?,但反過來卻不易。(4)已證明與礦化無關(guān)的因素或標志,不應(yīng)提取。(實際工作中往往難以確認某種地質(zhì)因素與礦化之間無任何關(guān)系。經(jīng)常需要借助統(tǒng)計分析方法是否有關(guān)。) 綜合變量的構(gòu)置在實際工作中,建立綜
26、合變量是一個需要結(jié)合具 體任務(wù),在研究變量組合控礦基礎(chǔ)上的創(chuàng)造性研 究過程,必須搞清綜合變量的物理意義并與地質(zhì) 分析緊密結(jié)合,對于參加綜合的單個地質(zhì)因素, 必須經(jīng)過認真選擇。那種簡單羅列各種地質(zhì)標志,堆切各類原始測試數(shù)據(jù)的作法是十分不利的。 組合特征值 相對熵或組合熵N- 100å pi ln pi為單元不確定性分母為最大不確定性= i=1100HrH度量相對不確定性mpiN元系統(tǒng)中第i成分所占 比例(i=1,2,N)Hr值大表示單元內(nèi)出現(xiàn)多組分且分布均勻; Hr 值小表示單元內(nèi)出現(xiàn)少組分且分布不均勻。H= LnNm該公式是將參加計算的組分同等而不分重要成分和次要成分, 賦權(quán)枝狀綜合變量 在研究多因素組合控礦
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《基因表達與疾病》課件
- 2025至2030年中國導桿固定桌虎鉗數(shù)據(jù)監(jiān)測研究報告
- 《穩(wěn)固結(jié)構(gòu)的探析定》課件
- 2025至2030年中國四通道/八通道視頻采集卡數(shù)據(jù)監(jiān)測研究報告
- 2025年金屬化塑膠電容器項目可行性研究報告
- 2025年便攜式攝影測速雷達項目可行性研究報告
- 2025年中國整體孔加工刀具市場調(diào)查研究報告
- 《皮膚護理基礎(chǔ)訓練》課件
- 一年級數(shù)學計算題專項練習1000題集錦
- 智能家居商標轉(zhuǎn)讓居間合同
- 2024年??谑羞x調(diào)生考試(行政職業(yè)能力測驗)綜合能力測試題及答案1套
- 六年級數(shù)學質(zhì)量分析及改進措施
- 一年級下冊數(shù)學口算題卡打印
- 2024年中科院心理咨詢師新教材各單元考試題庫大全-下(多選題部分)
- 真人cs基于信號發(fā)射的激光武器設(shè)計
- 【閱讀提升】部編版語文五年級下冊第三單元閱讀要素解析 類文閱讀課外閱讀過關(guān)(含答案)
- 四年級上冊遞等式計算練習200題及答案
- 法院后勤部門述職報告
- 2024年國信證券招聘筆試參考題庫附帶答案詳解
- 道醫(yī)館可行性報告
- 視網(wǎng)膜中央靜脈阻塞護理查房課件
評論
0/150
提交評論