數(shù)據(jù)標(biāo)準(zhǔn)化.歸一化處理_第1頁
數(shù)據(jù)標(biāo)準(zhǔn)化.歸一化處理_第2頁
數(shù)據(jù)標(biāo)準(zhǔn)化.歸一化處理_第3頁
數(shù)據(jù)標(biāo)準(zhǔn)化.歸一化處理_第4頁
數(shù)據(jù)標(biāo)準(zhǔn)化.歸一化處理_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 數(shù)據(jù)的標(biāo)準(zhǔn)化 在數(shù)據(jù)分析之前,我們通常需要先將數(shù)據(jù)標(biāo)準(zhǔn)化(normalization),利用標(biāo)準(zhǔn)化后的數(shù)據(jù)進行數(shù)據(jù)分析。數(shù)據(jù)標(biāo)準(zhǔn)化也就是統(tǒng)計數(shù)據(jù)的指數(shù)化。數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果,須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì),使所有指標(biāo)對測評方案的作用力同趨化,再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性。去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標(biāo)能夠進行比較和加權(quán)。數(shù)據(jù)標(biāo)準(zhǔn)化的方法有很多種,常用的有“最小最大標(biāo)準(zhǔn)化”、“Z-score標(biāo)

2、準(zhǔn)化”和“按小數(shù)定標(biāo)標(biāo)準(zhǔn)化”等。經(jīng)過上述標(biāo)準(zhǔn)化處理,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標(biāo)測評值,即各指標(biāo)值都處于同一個數(shù)量級別上,可以進行綜合測評分析。一、Min-max 標(biāo)準(zhǔn)化 min-max標(biāo)準(zhǔn)化方法是對原始數(shù)據(jù)進行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標(biāo)準(zhǔn)化映射成在區(qū)間0,1中的值x,其公式為:新數(shù)據(jù)=(原數(shù)據(jù)-極小值)/(極大值-極小值) 二、z-score 標(biāo)準(zhǔn)化 這種方法基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進行數(shù)據(jù)的標(biāo)準(zhǔn)化。將A的原始值x使用z-score標(biāo)準(zhǔn)化到x。 z-score標(biāo)準(zhǔn)化方

3、法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。 新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標(biāo)準(zhǔn)差 spss默認的標(biāo)準(zhǔn)化方法就是z-score標(biāo)準(zhǔn)化。 用Excel進行z-score標(biāo)準(zhǔn)化的方法:在Excel中沒有現(xiàn)成的函數(shù),需要自己分步計算,其實標(biāo)準(zhǔn)化的公式很簡單。步驟如下: 求出各變量(指標(biāo))的算術(shù)平均值(數(shù)學(xué)期望)xi和標(biāo)準(zhǔn)差si ;.進行標(biāo)準(zhǔn)化處理:zij(xijxi)si,其中:zij為標(biāo)準(zhǔn)化后的變量值;xij為實際變量值。將逆指標(biāo)前的正負號對調(diào)。 標(biāo)準(zhǔn)化后的變量值圍繞0上下波動,大于0說明高于平均水平,小于0說明低于平均水平。 三、Decimal scaling小數(shù)定標(biāo)

4、標(biāo)準(zhǔn)化 這種方法通過移動數(shù)據(jù)的小數(shù)點位置來進行標(biāo)準(zhǔn)化。小數(shù)點移動多少位取決于屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標(biāo)準(zhǔn)化到x的計算方法是:x=x/(10*j) 其中,j是滿足條件的最小整數(shù)。例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數(shù)定標(biāo)標(biāo)準(zhǔn)化,我們用1000(即,j=3)除以每個值,這樣,-986被規(guī)范化為-0.986。 注意,標(biāo)準(zhǔn)化會對原始數(shù)據(jù)做出改變,因此需要保存所使用的標(biāo)準(zhǔn)化方法的參數(shù),以便對后續(xù)的數(shù)據(jù)進行統(tǒng)一的標(biāo)準(zhǔn)化。除了上面提到的數(shù)據(jù)標(biāo)準(zhǔn)化外還有對數(shù)Logistic模式、模糊量化模式等等: 對數(shù)Logistic模式

5、:新數(shù)據(jù)=1/(1+e(-原數(shù)據(jù)))模糊量化模式:新數(shù)據(jù)=1/2+1/2sin派3.1415/(極大值-極小值)*(X-(極大值-極小值)/2) ,X為原數(shù)據(jù)數(shù)據(jù)歸一化歸一化是一種簡化計算的方式,即將有量綱的表達式,經(jīng)過變換,化為無量綱的表達式,成為純量。歸一化是為了加快訓(xùn)練網(wǎng)絡(luò)的收斂性,可以不進行歸一化處理歸一化的具體作用是歸納統(tǒng)一樣本的統(tǒng)計分布性。歸一化在0-1之間是統(tǒng)計的概率分布,歸一化在-1-+1之間是統(tǒng)計的坐標(biāo)分布。歸一化有同一、統(tǒng)一和合一的意思。無論是為了建模還是為了計算,首先基本度量單位要同一,神經(jīng)網(wǎng)絡(luò)是以樣本在事件中的統(tǒng)計分別幾率來進行訓(xùn)練(概率計算)和預(yù)測的,歸一化是同一在0

6、-1之間的統(tǒng)計概率分布;SVM是以降維后線性劃分距離來分類和仿真的,因此時空降維歸一化是統(tǒng)一在-1-+1之間的統(tǒng)計坐標(biāo)分布。 當(dāng)所有樣本的輸入信號都為正值時,與第一隱含層神經(jīng)元相連的權(quán)值只能同時增加或減小,從而導(dǎo)致學(xué)習(xí)速度很慢。為了避免出現(xiàn)這種情況,加快網(wǎng)絡(luò)學(xué)習(xí)速度,可以對輸入信號進行歸一化,使得所有樣本的輸入信號其均值接近于0或與其均方差相比很小。歸一化是因為sigmoid函數(shù)的取值是0到1之間的,網(wǎng)絡(luò)最后一個節(jié)點的輸出也是如此,所以經(jīng)常要對樣本的輸出歸一化處理。所以這樣做分類的問題時用0.9 0.1 0.1就要比用要好。但是歸一化處理并不總是合適的,根據(jù)輸出值的分布情況,標(biāo)準(zhǔn)化等其它統(tǒng)計變

7、換方法有時可能更好。主要是為了數(shù)據(jù)處理方便提出來的,把數(shù)據(jù)映射到01范圍之內(nèi)處理,更加便捷快速,應(yīng)該歸到數(shù)字信號處理范疇之內(nèi)。 歸一化方法(Normalization Method)1。把數(shù)變?yōu)椋?,1)之間的小數(shù) 主要是為了數(shù)據(jù)處理方便提出來的,把數(shù)據(jù)映射到01范圍之內(nèi)處理,更加便捷快速,應(yīng)該歸到數(shù)字信號處理范疇之內(nèi)。2 。把有量綱表達式變?yōu)闊o量綱表達式歸一化是一種簡化計算的方式,即將有量綱的表達式,經(jīng)過變換,化為無量綱的表達式,成為純量。比如,復(fù)數(shù)阻抗可以歸一化書寫:Z = R + jL = R(1 + jL/R) ,復(fù)數(shù)部分變成了純數(shù)量了,沒有量綱。標(biāo)準(zhǔn)化方法(Normalization

8、 Method) 數(shù)據(jù)的標(biāo)準(zhǔn)化是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。由于信用指標(biāo)體系的各個指標(biāo)度量單位是不同的,為了能夠?qū)⒅笜?biāo)參與評價計算,需要對指標(biāo)進行規(guī)范化處理,通過函數(shù)變換將其數(shù)值映射到某個數(shù)值區(qū)間。關(guān)于神經(jīng)網(wǎng)絡(luò)(matlab)歸一化的整理關(guān)于神經(jīng)網(wǎng)絡(luò)歸一化方法的整理由于采集的各數(shù)據(jù)單位不一致,因而須對數(shù)據(jù)進行-1,1歸一化處理,歸一化方法主要有如下幾種,供大家參考:(by james)1、線性函數(shù)轉(zhuǎn)換,表達式如下:y=(x-MinValue)/(MaxValue-MinValue)說明:x、y分別為轉(zhuǎn)換前、后的值,MaxValue、MinValue分別為樣本的最大值和最小值。2

9、、對數(shù)函數(shù)轉(zhuǎn)換,表達式如下:y=log10(x)說明:以10為底的對數(shù)函數(shù)轉(zhuǎn)換。3、反余切函數(shù)轉(zhuǎn)換,表達式如下:y=atan(x)*2/PI歸一化是為了加快訓(xùn)練網(wǎng)絡(luò)的收斂性,可以不進行歸一化處理歸一化的具體作用是歸納統(tǒng)一樣本的統(tǒng)計分布性。歸一化在0-1之間是統(tǒng)計的概率分布,歸一化在-1+1之間是統(tǒng)計的坐標(biāo)分布。歸一化有同一、統(tǒng)一和合一的意思。無論是為了建模還是為了計算,首先基本度量單位要同一,神經(jīng)網(wǎng)絡(luò)是以樣本在事件中的統(tǒng)計分別幾率來進行訓(xùn)練(概率計算)和預(yù)測的,歸一化是統(tǒng)一在0-1之間的統(tǒng)計概率分布; 當(dāng)所有樣本的輸入信號都為正值時,與第一隱含層神經(jīng)元相連的權(quán)值只能同時增加或減小,從而導(dǎo)致學(xué)習(xí)

10、速度很慢。為了避免出現(xiàn)這種情況,加快網(wǎng)絡(luò)學(xué)習(xí)速度,可以對輸入信號進行歸一化,使得所有樣本的輸入信號其均值接近于0或與其均方差相比很小。 歸一化是因為sigmoid函數(shù)的取值是0到1之間的,網(wǎng)絡(luò)最后一個節(jié)點的輸出也是如此,所以經(jīng)常要對樣本的輸出歸一化處理。所以這樣做分類的問題時用0.9 0.1 0.1就要比用1 0 0要好。但是歸一化處理并不總是合適的,根據(jù)輸出值的分布情況,標(biāo)準(zhǔn)化等其它統(tǒng)計變換方法有時可能更好。關(guān)于用premnmx語句進行歸一化:Premnmx語句格式: Pn,minp,maxp,Tn,mint,maxt=premnmx(P,T)其中P,T分別為原始輸入和輸出數(shù)據(jù),minp和m

11、axp分別為P中的最小值和最大值(最大最小是針對矩陣的行來取,而min(p)是針對矩陣的列來?。?。mint和maxt分別為T的最小值和最大值。 premnmx函數(shù)用于將網(wǎng)絡(luò)的輸入數(shù)據(jù)或輸出數(shù)據(jù)進行歸一化,歸一化后的數(shù)據(jù)將分布在-1,1區(qū)間內(nèi)。我們在訓(xùn)練網(wǎng)絡(luò)時如果所用的是經(jīng)過歸一化的樣本數(shù)據(jù),那么以后使用網(wǎng)絡(luò)時所用的新數(shù)據(jù)也應(yīng)該和樣本數(shù)據(jù)接受相同的預(yù)處理,這就要用到tramnmx。關(guān)于用tramnmx語句進行歸一化:Tramnmx語句格式: Pn=tramnmx(P,minp,maxp)其中P和Pn分別為變換前、后的輸入數(shù)據(jù),maxp和minp分別為premnmx函數(shù)找到的最大值和最小值。(by

12、 terry2008)matlab中的歸一化處理有三種方法1. premnmx、postmnmx、tramnmx2. restd、poststd、trastd3. 自己編程具體用那種方法就和你的具體問題有關(guān)了(by happy)pm=max(abs(p(i,:); p(i,:)=p(i,:)/pm;和for i=1:27p(i,:)=(p(i,:)-min(p(i,:)/(max(p(i,:)-min(p(i,:);end 可以歸一到0 1 之間0.1+(x-min)/(max-min)*(0.9-0.1)其中max和min分別表示樣本最大值和最小值。這個可以歸一到0.1-0.9矩陣歸一化歸一

13、化化定義:我是這樣認為的,歸一化化就是要把你需要處理的數(shù)據(jù)經(jīng)過處理后(通過某種算法)限制在你需要的一定范圍內(nèi)。首先歸一化是為了后面數(shù)據(jù)處理的方便,其次是保正程序運行時收斂加快。在matlab里面,用于:歸一化的方法共有三種(1) premnmx、postmnmx、tramnmx premnmx指的是歸一到1 1。(2) prestd、poststd、trastd prestd歸一到單位方差和零均值。(3) 是用matlab語言自己編程。 關(guān)于自己編程一般是歸一到0.1 0.9。為什么要用歸一化呢?首先先說一個概念,叫做奇異樣本數(shù)據(jù),所謂奇異樣本數(shù)據(jù)數(shù)據(jù)指的是相對于其他輸入樣本特別大或特別小的樣

14、本矢量。下面舉例:m=0.11 0.15 0.32 0.45 30;0.13 0.24 0.27 0.25 45;其中的第五列數(shù)據(jù)相對于其他4列數(shù)據(jù)就可以成為奇異樣本數(shù)據(jù)(下面所說的網(wǎng)絡(luò)均值bp)。奇異樣本數(shù)據(jù)存在所引起的網(wǎng)絡(luò)訓(xùn)練時間增加,并可能引起網(wǎng)絡(luò)無法收斂,所以對于訓(xùn)練樣本存在奇異樣本數(shù)據(jù)的數(shù)據(jù)集在訓(xùn)練之前,最好先進形歸一化,若不存在奇異樣本數(shù)據(jù),則不需要事先歸一化。一個小程序:p=1.3711 1.3802 1.3636 1.3598 1.3502 1.3404 1.3284 1.3160 1.3118 1.3032 1.2989 1.2945 1.2923 1.2923 1.2856

15、 1.2788 1.2742 1.2672 1.2577 1.2279 1.1903 1.0864 0.9956 ;t=0 1.38 1.68 1.98 2.08 2.23 2.53 2.83 2.93 3.13 3.23 3.33 3.43 3.53 3.63 3.73 3.83 3.93 4.03 4.13 4.23 4.33 4.43;u=p;tt=t;p=(p-min(p)/(max(p)-min(p);%g歸一化t=(t-min(t)/(max(t)-min(t);net=newff(minmax(p),23 1,tansig purelin,traingdx);net.trainParam.epochs=1000;net.trainParam.goal=0.001;net.trainP

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論