大數(shù)據(jù)預處理代碼

上傳人：m*** IP屬地：天津上傳時間：2023-05-08 格式：DOCX 頁數(shù)：10 大小：34.96KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第一個例子：importmatplotlib.pyplotaspltimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.decompositionimportPCAfromsklearn.pipelineimportmake_pipelinefromsklearn.preprocessingimportFunctionTransformerdef_generate_vector(shift=0.5,noise=15):returnnp.arange(1000)+(np.random.rand(1000)-shift)*noisedefgenerate_dataset():IIIIIIThisdatasetistwolineswithaslope~1,whereonehasayoffsetof~100IIIIIIreturnnp.vstack((np.vstack((_generate_vector(),_generate_vector()+100,)).T,np.vstack((_generate_vector(),_generate_vector(),)).T,)),np.hstack((np.zeros(1000),np.ones(1000)))defall_but_first_column(X):returnX[:,1:]defdrop_first_component(X,y):IIIIIICreateapipelinewithPCAandthecolumnselectoranduseittotransformthedataset.IIIIIIpipeline=make_pipeline(PCA(),FunctionTransformer(all_but_first_column),)X_train,X_test,y_train,y_test=train_test_split(X,y)pipeline.fit(X_train,y_train)returnpipeline.transform(X_test),y_testif__name__=='__main__':X,y=generate_dataset()lw=0plt.figure()plt.scatter(X[:,0],X[:,1],c=y,lw=lw)plt.figure()X_transformed,y_transformed=drop_first_component(*generate_dataset())plt.scatter(X_transformed[:,0],np.zeros(len(X_transformed)),c=y_transformed,lw=lw,s=60)plt.show()第二個例子：from__future__importprint_functionprint(__doc__)#Codesource:ThomasUnterthiner#License:BSD3clauseimportmatplotlib.pyplotaspltimportnumpyasnpfromsklearn.preprocessingimportStandardScaler,RobustScaler#Createtrainingandtestdatanp.random.seed(42)n_datapoints=100Cov=[[0.9,0.0],[0.0,20.0]]mu1=[100.0,-3.0]mu2=[101.0,-3.0]X1=np.random.multivariate_normal(mean=mu1,cov=Cov,size=n_datapoints)X2=np.random.multivariate_normal(mean=mu2,cov=Cov,size=n_datapoints)Y_train=np.hstack([[-1]*n_datapoints,[1]*n_datapoints])X_train=np.vstack([X1,X2])X1=np.random.multivariate_normal(mean=mu1,cov=Cov,size=n_datapoints)X2=np.random.multivariate_normal(mean=mu2,cov=Cov,size=n_datapoints)Y_test=np.hstack([[-1]*n_datapoints,[1]*n_datapoints])X_test=np.vstack([X1,X2])X_train[0,0]=-1000#afairlylargeoutlier#Scaledatastandard_scaler=StandardScaler()Xtr_s=standard_scaler.fit_transform(X_train)Xte_s=standard_scaler.transform(X_test)robust_scaler=RobustScaler()Xtr_r=robust_scaler.fit_transform(X_train)Xte_r=robust_scaler.transform(X_test)#Plotdatafig,ax=plt.subplots(1,3,figsize=(12,4))ax[0].scatter(X_train[:,0],X_train[:,1],color=np.where(Y_train>0,'r','b'))ax[1].scatter(Xtr_s[:,0],Xtr_s[:,1],color=np.where(Y_train>0,'r','b'))ax[2].scatter(Xtr_r[:,0],Xtr_r[:,1],color=np.where(Y_train>0,'r','b'))ax[0].set_title("Unscaleddata")ax[1].set_title("Afterstandardscaling(zoomedin)")ax[2].set_title("Afterrobustscaling(zoomedin)")#forthescaleddata,wezoomintothedatacenter(outliercan'tbeseen!)forainax[1:]:a.set_xlim(-3,3)a.set_ylim(-3,3)plt.tight_layout()plt.show()#Classifyusingk-NNfromsklearn.neighborsimportKNeighborsClassifierknn=KNeighborsClassifier()knn.fit(Xtr_s,Y_train)acc_s=knn.score(Xte_s,Y_test)print("Testsetaccuracyusingstandardscaler:%.3f"%acc_s)knn.fit(Xtr_r,Y_train)acc_r=knn.score(Xte_r,Y_test)print("Testsetaccuracyusingrobustscaler:%.3f"%acc_r)Scikit-learnPreprocessing預處理本文主要是對照scikit-learn的preprocessing章節(jié)結(jié)合代碼簡單的回顧下預處理技術(shù)的幾種方法，主要包括標準化、數(shù)據(jù)最大最小縮放處理、正則化、特征二值化和數(shù)據(jù)缺失值處理內(nèi)容比較簡單，僅供參考！首先來回顧一下下面要用到的基本知識。一、知識回顧均值公式：X_=1n三上1nXi方差公式：S2=1nX_i=1n(X,-X")20-范數(shù)，向量中非零元素的個數(shù)。1-范數(shù)：X=X_i=1nxi2-范數(shù)：|兇|二=("%2匯P-范數(shù)的計算公式：||X||p=(|x1|p+|x2|p+...+|xn|p)1p數(shù)據(jù)標準化：當單個特征的樣本取值相差甚大或明顯不遵從高斯正態(tài)分布時，標準化表現(xiàn)的效果較差。實際操作中，經(jīng)常忽略特征數(shù)據(jù)的分布形狀，移除每個特征均值，劃分離散特征的標準差，從而等級化，進而實現(xiàn)數(shù)據(jù)中心化。二、標準化(Standardization)，或者去除均值和方差進行縮放公式為：(X-X_mean)/X_std計算時對每個屬性/每列分別進行.將數(shù)據(jù)按其屬性(按列進行)減去其均值，然后除以其方差。最后得到的結(jié)果是，對每個屬性/每列來說所有數(shù)據(jù)都聚集在0附近，方差值為1。首先說明下sklearn中preprocessing庫里面的scale函數(shù)使用方法：sklearn.preprocessing.scale(X,axis=0,with_mean=True,with_std=True,copy=True)根據(jù)參數(shù)的不同，可以沿任意軸標準化數(shù)據(jù)集。參數(shù)解釋：X：數(shù)組或者矩陣

? axis：int類型，初始值為0,axis用來計算均值means和標準方差standarddeviations.如果是0，則單獨的標準化每個特征(列)，如果是1，則標準化每個觀測樣本行)。with_mean:boolean類型，默認為True,表示將數(shù)據(jù)均值規(guī)范到0with_std:boolean類型，默認為True,表示將數(shù)據(jù)方差規(guī)范到1一個簡單的例子假設(shè)現(xiàn)在我構(gòu)造一個數(shù)據(jù)集X，然后想要將其標準化。下面使用不同的方法來標準化X：方法一：使用sklearn.preprocessing?scale()函數(shù)方法說明：X.mean(axis=0)用來計算數(shù)據(jù)X每個特征的均值;X.std(axis=0)用來計算數(shù)據(jù)X每個特征的方差;? preprocessing.scale(X)直接標準化數(shù)據(jù)X。將代碼整理到一個文件中：fromsklearnimportpreprocessingimportnumpyasX=np.array[[npimportnumpyasX=np.array[[np1.,2.,-1.,0.,2.],0.],[0.,1.,-1.]])#calculatemeanX_mean=X.mean(axis=0)#calculatevarianceX_std=X.std(axis=0)#standardizeXX1=(X-X_mean)/X_std#usefunctionpreprocessing.scaletostandardizeXX_scale=preprocessing.scale(X)最后X_scale的值和X1的值是一樣的，前面是單獨的使用數(shù)學公式來計算，主要是為了形成一個對比，能夠更好的理解scale()方法。方法2：sklearn.preprocessing.StandardScaler類該方法也可以對數(shù)據(jù)X進行標準化處理，實例如下：fromsklearnimportpreprocessingimportnumpyasX=np.array(importnumpyasX=np.array([[[np1.,2.,-1.,0.,2.],0.],[0.,1.,-1.]])scaler=preprocessing.StandardScaler()X_scaled=scaler.fit_transform(X)這兩個方法得到最后的結(jié)果都是一樣的。

三、將特征的取值縮小到一個范圍（如0到1）除了上述介紹的方法之外，另一種常用的方法是將屬性縮放到一個指定的最大值和最小值（通常是1-0）之間，這可以通過preprocessing.MinMaxScaler類來實現(xiàn)。使用這種方法的目的包括：1、對于方差非常小的屬性可以增強其穩(wěn)定性；2、維持稀疏矩陣中為0的條目。F面將數(shù)據(jù)縮至0-1之間，采用MinMaxScaler函數(shù)fromsklearnimportpreprocessingimportnumpyasXimportnumpyasX=np.array([[np1.,-1.,2.],2.,0.,0.],0. ,1. ],0.5,0.33333333],1. ,0. ]])>>>0. ,1. ],0.5,0.33333333],1. ,0. ]])>>>X_test=np.array[[-3.,-1.,4.]])[0.,1.,-1.]])min_max_scaler=preprocessing.MinMaxScaler()X_minMax=min_max_scaler.fit_transform(X)最后輸出：array（[[0.[1.[0.測試用例：>>>X_test_minmax=min_max_scaler.transform(X_test)>>>X_test_minmaxarray([[-1.5 ,0.,1.66666667]])注意：這些變換都是對列進行處理。當然，在構(gòu)造類對象的時候也可以直接指定最大最小值的范圍::eature_range=(min,max),此時應(yīng)用的公式變?yōu)椋篨_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))X_minmax=X_std/(X.max(axis=0)-X.min(axis=0))+X.min(axis=0))四、正則化(Normalization)正則化的過程是將每個樣本縮放到單位范數(shù)（每個樣本的范數(shù)為1），如果要使用如二次型（點積）或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。該方法是文本分類和聚類分析中經(jīng)常使用的向量空間模型（VectorSpaceModel）的基礎(chǔ).Normalization主要思想是對每個樣本計算其p-范數(shù)，然后對該樣本中每個元素除以該范數(shù),這樣處理的結(jié)果是使得每個處理后樣本的p-范數(shù)（l1-norm,l2-norm）等于1。方法1：使用sklearn.preprocessing.normalize。函數(shù)

>>>X=[[1.,-1.>>>X_normalized2.>>>X=[[1.,-1.>>>X_normalized2.],... [2.,0.,0.],... [0.,preprocessing.normalize(X,norm='l2'1.-1.]]>>>X_normalizedarray([[0.40...,-0.40...,0.81...],[1 ,0 ,0 ],[0 ,0.70...,-0.70...]])#fitdoes方法2：sklearn.preprocessing.StandardScaler#fitdoes>>>normalizer=preprocessing.Normalizer().fit(X)nothing>>>normalizerNormalizer(copy=Truenorm=Normalizer(copy=Truenorm='l2'然后使用正則化實例來轉(zhuǎn)換樣本向量：>>>normalizer.transform(X)array([[0.40...,-0.40...,0.81...],[1 ,0 ,0 ],[0 ,0.70...,-0.70...]])>>>normalizer.transform([[-1.,1.,0.]])array([[-0.70...,0.70...,0 ]])兩種方法都可以，效果是一樣的。五、二值化(Binarization)特征的二值化主要是為了將數(shù)據(jù)特征轉(zhuǎn)變成boolean變量。在sklearn中,skiearn.preprocessing.Binarizer函數(shù)可以實現(xiàn)這一功能。實例如下：>>>X=[[1.,->>>X=[[1.,-1.,2.],...[2.,0.,0.],...[0.,1.,-1.]]>>>binarizerpreprocessing.Binarizer().fit(X)#>>>binarizer>>>binarizerBinarizer(copy=True,threshold=0.0)>>>binarizer.transform(X)array([[1.,0.,1.],[1.,0.,0.],[0.,1.,0.]])Binarizer函數(shù)也可以設(shè)定一個閾值，結(jié)果數(shù)據(jù)值大于閾值的為1小于閾值的為0,實例代碼如下：>>>binarizer=preprocessing.Binarizer(threshold=1.1)>>>binarizer.transform(X)array([[0.,0.,1.],[1.,0.,0.],[0.,0.,0.]]

六、缺失值處理由于不同的原因，許多現(xiàn)實中的數(shù)據(jù)集都包含有缺失值，要么是空白的，要么使用NaNs或者其它的符號替代。這些數(shù)據(jù)無法直接使用scikit-learn分類器直接訓練，所以需要進行處理。幸運地是，sklearn中的Imputer類提供了一些基本的方法來處理缺失值，如使用均值、中位值或者缺失值所在列中頻繁出現(xiàn)的值來替換。下面是使用均值來處理的實例：>>>importnumpyasnp>>>fromsklearn.preprocessingimportImputerimp=Imputer(missing_values='NaN',strategy='mean',axis=0)imp.fit(>>>importnumpy

人人文庫> 全部分類> 行業(yè)資料 > 各類標準

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)預處理代碼

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)預處理代碼

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔