Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-1.數(shù)據(jù)預(yù)處理_第1頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-1.數(shù)據(jù)預(yù)處理_第2頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-1.數(shù)據(jù)預(yù)處理_第3頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-1.數(shù)據(jù)預(yù)處理_第4頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-1.數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)缺失值處理數(shù)據(jù)規(guī)范化主成分分析缺失值處理第5章

在數(shù)據(jù)處理過程中,缺失值是常見的,需要對(duì)其進(jìn)行處理。Pandas包中的fillna()函數(shù)并沒有充分利用數(shù)據(jù)集中的信息。這里介紹scikit-learn包中能充分利用數(shù)據(jù)信息的3種常用填充方法,即均值填充、中位數(shù)填充和最頻繁值填充。注意填充方式主要是按列填充均值填充:對(duì)某列中的所有缺失值用該列中非缺失部分的值的平均值來表示;中位數(shù)填充:取某列中非缺失部分的值的中位數(shù)來表示缺失值。最頻繁值填充:取某列中非缺失部分的值出現(xiàn)頻次最多的值來表示缺失值。(常用于分類型或離散型變量)缺失值處理第5章

(1)導(dǎo)入數(shù)據(jù)預(yù)處理中的填充模塊SimpleImputer

fromsklearn.imputeimportSimpleImputer(2)利用SimpleImputer創(chuàng)建填充對(duì)象impimp=SimpleImputer(missing_values=np.nan,strategy='mean')參數(shù)說明如下:strategy:均值(mean)、中位數(shù)(median)、最頻繁值(most_frequent)(3)調(diào)用填充對(duì)象imp中的fit()擬合方法,對(duì)待填充數(shù)據(jù)進(jìn)行擬合訓(xùn)練。

imp.fit(Data)#Data為待填充數(shù)據(jù)集變量(4)調(diào)用填充對(duì)象imp中的transform()方法,返回填充后的數(shù)據(jù)集。

FData=imp.transform(Data)#返回填充后的數(shù)據(jù)集FData需要注意的是填充的數(shù)據(jù)集結(jié)構(gòu)要求為數(shù)組或數(shù)據(jù)框,類型為數(shù)值類型缺失值處理第5章

fromsklearn.imputeimportSimpleImputerfC=Cimp=SimpleImputer(missing_values=np.nan,strategy='mean')imp.fit(fC)fC=imp.transform(fC)數(shù)據(jù)規(guī)范化第5章

變量或指標(biāo)的單位不同,導(dǎo)致有些指標(biāo)數(shù)據(jù)值非常大,而有些指標(biāo)數(shù)據(jù)值非常小,在模型運(yùn)算過程中大的數(shù)據(jù)會(huì)把小的數(shù)據(jù)覆蓋,導(dǎo)致模型失真。因此,需要對(duì)這些數(shù)據(jù)規(guī)范化處理,或者說去量綱化。所謂均值-方差規(guī)范化,是指變量或指標(biāo)數(shù)據(jù)減去其均值再除以標(biāo)準(zhǔn)差得到新的數(shù)據(jù)。新的數(shù)據(jù)均值為0,方差為1,其公式如下:極差規(guī)范化是指變量或指標(biāo)數(shù)據(jù)減去其最小值,再除以最大值與最小值之差,得到新的數(shù)據(jù)。新的數(shù)據(jù)取值范圍在[0,1],其公式如下:數(shù)據(jù)規(guī)范化第5章

對(duì)數(shù)據(jù)集X(數(shù)組)做均值-方差規(guī)范化處理,基本步驟如下:(1)導(dǎo)入均值-方差規(guī)范化模塊StandardScaler。

fromsklearn.preprocessingimportStandardScaler(2)利用StandardScaler創(chuàng)建均值-方差規(guī)范化對(duì)象scaler。

scaler=StandardScaler()(3)調(diào)用scaler對(duì)象中的fit()擬合方法,對(duì)待處理的數(shù)據(jù)X進(jìn)行擬合訓(xùn)練。

scaler.fit(X)(4)調(diào)用scaler對(duì)象中的transform()方法,返回規(guī)范化后的數(shù)據(jù)集X(覆蓋原未規(guī)范化的X)。

X=scaler.transform(X)數(shù)據(jù)規(guī)范化第5章

fromsklearn.preprocessingimportStandardScalerX=datascaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)數(shù)據(jù)規(guī)范化第5章

對(duì)數(shù)據(jù)集X1(數(shù)組)做極差規(guī)范化處理,基本步驟如下:(1)導(dǎo)入極差規(guī)范化模塊MinMaxScaler。

fromsklearn.preprocessingimportMinMaxScaler(2)利用MinMaxScaler創(chuàng)建極差規(guī)范化對(duì)象min_max_scaler。

min_max_scaler=MinMaxScaler()(3)調(diào)用min_max_scaler中的fit()擬合方法,對(duì)處理的數(shù)據(jù)X1進(jìn)行擬合訓(xùn)練。

min_max_scaler.fit(X1)(4)調(diào)用min_max_scaler中的transform()方法,返回處理后的數(shù)據(jù)集X1(覆蓋原未處理的X1)。

X1=min_max_scaler.transform(X1)數(shù)據(jù)規(guī)范化第5章

fromsklearn.preprocessingimportMinMaxScalerX1=datamin_max_scaler=MinMaxScaler()min_max_scaler.fit(X1)x1=min_max_scaler.transform(X1)主成分分析第5章

在數(shù)據(jù)分析與挖掘中,通常會(huì)遇到眾多變量,這些變量之間往往具有一定的相關(guān)性。例如,身高、體重這兩個(gè)指標(biāo),身高較高,其體重也相對(duì)較大;經(jīng)營收入、凈利潤這兩個(gè)指標(biāo),經(jīng)營收入越高,其凈利潤也相對(duì)較高,這就是指標(biāo)之間相關(guān)性的一種體現(xiàn)。如果眾多指標(biāo)之間具有較強(qiáng)的相關(guān)性,不僅會(huì)增加計(jì)算復(fù)雜度,也會(huì)影響模型的分析結(jié)果。一種思路就是把眾多的變量轉(zhuǎn)換為少數(shù)幾個(gè)互不相關(guān)的綜合變量,同時(shí)又不影響原來變量所反映的信息。這種方法在數(shù)學(xué)上稱為主成分分析我們通??吹礁鞣N各樣的排行榜,如綜合國力排名、省市經(jīng)濟(jì)發(fā)展水平排名、大學(xué)綜合排名等——綜合評(píng)價(jià)問題,就是主成分分析應(yīng)用的一種體現(xiàn)。主成分分析第5章

怎樣對(duì)各地區(qū)2016年農(nóng)村居民人均可支配收入情況進(jìn)行排名呢

地區(qū)工資性收入(X1)經(jīng)營凈收入(X2)財(cái)產(chǎn)凈收入(X3)轉(zhuǎn)移凈收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………我們需要一個(gè)綜合指標(biāo)來衡量,但是這個(gè)綜合指標(biāo)該如何定義和計(jì)算呢?指標(biāo)加權(quán)是一個(gè)通常的思路,例如: Y1=a11×X1+a12×X2+a13×X3+a14×X4Xi反映了地區(qū)農(nóng)村居民人均可支配收入某個(gè)方面的指標(biāo),僅代表某方面的信息,它在綜合指標(biāo)Y1中,其重要程度可以通過對(duì)應(yīng)的a1j來反映,可以稱a1j為信息系數(shù)。注意綜合變量Y1盡量不丟失原來變量反映的信息,如果一個(gè)綜合變量不夠,就繼續(xù)構(gòu)造新的綜合變量Y2,……,同時(shí)要求綜合變量之間互不相關(guān)主成分分析第5章

Y1=a11×X1+a12×X2+a13×X3+a14×X4不丟失原來變量反映的信息(方差),其數(shù)學(xué)表達(dá)式為:

Var(X1)+…+Var(X4)=Var(Y1)如果Y1還不足以保留原來的信息,則再構(gòu)造一個(gè)Y2:

Y2=a21×X1+a22×X2+a23×X3+a24×X4使得Y1和Y2不相關(guān),同時(shí):

Var(X1)+…+Var(X4)=Var(Y1)+Var(Y2)如果還不足以保留原來的信息,則繼續(xù)構(gòu)造Y3??傊疃鄻?gòu)造到Y(jié)4一定能滿足條件。一般地,前k個(gè)變換后的變量Y1…Yk,其方差之和與原變量總方差之比為:

(Var(Y1)+Var(Y2)+Var(Yk))/(Var(X1)+…+Var(X4))稱其為k個(gè)變換后變量的信息占比。在實(shí)際應(yīng)用中只需取少數(shù)幾個(gè)變換后的變量。例如,它們的

信息占比為90%,就可以說采用變換后的變量反映了原來變量90%的信息。以上僅是方便理解,系數(shù)如何限制?系數(shù)向量如何計(jì)算?這些分析嚴(yán)格嗎?為了解決這些問題,需要給出嚴(yán)格的主成分分析數(shù)學(xué)模型(具體見課本)。主成分分析第5章

主成分分析的一般步驟(1)對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。(2)計(jì)算樣本相關(guān)系數(shù)矩陣。(3)求相關(guān)系數(shù)矩陣的特征值和相應(yīng)的特征向量。(4)選擇重要的主成分,并寫出主成分表達(dá)式。(5)計(jì)算主成分得分。(6)依據(jù)主成分得分的數(shù)據(jù),進(jìn)一步從事統(tǒng)計(jì)分析。主成分分析(應(yīng)用舉例)第5章

#數(shù)據(jù)獲取importpandasaspdData=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=Data.iloc[:,1:]#數(shù)據(jù)規(guī)范化處理fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)(1)數(shù)據(jù)獲取及數(shù)據(jù)規(guī)范化處理主成分分析(應(yīng)用舉例)第5章

①導(dǎo)入主成分分析模塊PCA。

fromsklearn.decompositionimportPCA②利用PCA創(chuàng)建主成分分析對(duì)象pca。

pca=PCA(n_components=0.95)③調(diào)用pca對(duì)象中的fit()方法,進(jìn)行擬合訓(xùn)練。

pca.fit(X)④調(diào)用pca對(duì)象中的transform()方法,返回提取的主成分。

Y=pca.transform(X)⑤通過pca對(duì)象中的相關(guān)屬性,返回相關(guān)結(jié)果。

tzxl=ponents_#返回特征向量

tz=pca.explained_variance_#返回特征值

#返回主成分方差百分比(貢獻(xiàn)率)

gxl=pca.explained_variance_ratio_(2)對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)X做主成分分析,基本步驟如下:主成分分析(應(yīng)用舉例)第5章

⑥主成分表達(dá)式及驗(yàn)證。由前面分析,我們知道第i個(gè)主成分表示為:代表第i個(gè)主成分對(duì)應(yīng)的特征向量。例如,可以通過程序驗(yàn)證第1個(gè)主成分前面的4個(gè)分量的值。Y00=sum(X[0,:]*tzxl[0,:])Y01=sum(X[1,:]*tzxl[0,:])Y02=sum(X[2,:]*tzxl[0,:])Y03=sum(X[3,:]*tzxl[0,:])。主成分分析(應(yīng)用舉

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論