Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 第5章 機(jī)器學(xué)習(xí)與實(shí)現(xiàn)_第1頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 第5章 機(jī)器學(xué)習(xí)與實(shí)現(xiàn)_第2頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 第5章 機(jī)器學(xué)習(xí)與實(shí)現(xiàn)_第3頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 第5章 機(jī)器學(xué)習(xí)與實(shí)現(xiàn)_第4頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 第5章 機(jī)器學(xué)習(xí)與實(shí)現(xiàn)_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)缺失值處理數(shù)據(jù)規(guī)范化主成分分析缺失值處理第5章

在數(shù)據(jù)處理過程中,缺失值是常見的,需要對(duì)其進(jìn)行處理。Pandas包中的fillna()函數(shù)并沒有充分利用數(shù)據(jù)集中的信息。這里介紹scikit-learn包中能充分利用數(shù)據(jù)信息的3種常用填充方法,即均值填充、中位數(shù)填充和最頻繁值填充。注意填充方式主要是按列填充均值填充:對(duì)某列中的所有缺失值用該列中非缺失部分的值的平均值來表示;中位數(shù)填充:取某列中非缺失部分的值的中位數(shù)來表示缺失值。最頻繁值填充:取某列中非缺失部分的值出現(xiàn)頻次最多的值來表示缺失值。(常用于分類型或離散型變量)缺失值處理第5章

(1)導(dǎo)入數(shù)據(jù)預(yù)處理中的填充模塊SimpleImputer

fromsklearn.imputeimportSimpleImputer(2)利用SimpleImputer創(chuàng)建填充對(duì)象impimp=SimpleImputer(missing_values=np.nan,strategy='mean')參數(shù)說明如下:strategy:均值(mean)、中位數(shù)(median)、最頻繁值(most_frequent)(3)調(diào)用填充對(duì)象imp中的fit()擬合方法,對(duì)待填充數(shù)據(jù)進(jìn)行擬合訓(xùn)練。

imp.fit(Data)#Data為待填充數(shù)據(jù)集變量(4)調(diào)用填充對(duì)象imp中的transform()方法,返回填充后的數(shù)據(jù)集。

FData=imp.transform(Data)#返回填充后的數(shù)據(jù)集FData需要注意的是填充的數(shù)據(jù)集結(jié)構(gòu)要求為數(shù)組或數(shù)據(jù)框,類型為數(shù)值類型缺失值處理第5章

fromsklearn.imputeimportSimpleImputerfC=Cimp=SimpleImputer(missing_values=np.nan,strategy='mean')imp.fit(fC)fC=imp.transform(fC)數(shù)據(jù)規(guī)范化第5章

變量或指標(biāo)的單位不同,導(dǎo)致有些指標(biāo)數(shù)據(jù)值非常大,而有些指標(biāo)數(shù)據(jù)值非常小,在模型運(yùn)算過程中大的數(shù)據(jù)會(huì)把小的數(shù)據(jù)覆蓋,導(dǎo)致模型失真。因此,需要對(duì)這些數(shù)據(jù)規(guī)范化處理,或者說去量綱化。所謂均值-方差規(guī)范化,是指變量或指標(biāo)數(shù)據(jù)減去其均值再除以標(biāo)準(zhǔn)差得到新的數(shù)據(jù)。新的數(shù)據(jù)均值為0,方差為1,其公式如下:極差規(guī)范化是指變量或指標(biāo)數(shù)據(jù)減去其最小值,再除以最大值與最小值之差,得到新的數(shù)據(jù)。新的數(shù)據(jù)取值范圍在[0,1],其公式如下:數(shù)據(jù)規(guī)范化第5章

對(duì)數(shù)據(jù)集X(數(shù)組)做均值-方差規(guī)范化處理,基本步驟如下:(1)導(dǎo)入均值-方差規(guī)范化模塊StandardScaler。

fromsklearn.preprocessingimportStandardScaler(2)利用StandardScaler創(chuàng)建均值-方差規(guī)范化對(duì)象scaler。

scaler=StandardScaler()(3)調(diào)用scaler對(duì)象中的fit()擬合方法,對(duì)待處理的數(shù)據(jù)X進(jìn)行擬合訓(xùn)練。

scaler.fit(X)(4)調(diào)用scaler對(duì)象中的transform()方法,返回規(guī)范化后的數(shù)據(jù)集X(覆蓋原未規(guī)范化的X)。

X=scaler.transform(X)數(shù)據(jù)規(guī)范化第5章

fromsklearn.preprocessingimportStandardScalerX=datascaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)數(shù)據(jù)規(guī)范化第5章

對(duì)數(shù)據(jù)集X1(數(shù)組)做極差規(guī)范化處理,基本步驟如下:(1)導(dǎo)入極差規(guī)范化模塊MinMaxScaler。

fromsklearn.preprocessingimportMinMaxScaler(2)利用MinMaxScaler創(chuàng)建極差規(guī)范化對(duì)象min_max_scaler。

min_max_scaler=MinMaxScaler()(3)調(diào)用min_max_scaler中的fit()擬合方法,對(duì)處理的數(shù)據(jù)X1進(jìn)行擬合訓(xùn)練。

min_max_scaler.fit(X1)(4)調(diào)用min_max_scaler中的transform()方法,返回處理后的數(shù)據(jù)集X1(覆蓋原未處理的X1)。

X1=min_max_scaler.transform(X1)數(shù)據(jù)規(guī)范化第5章

fromsklearn.preprocessingimportMinMaxScalerX1=datamin_max_scaler=MinMaxScaler()min_max_scaler.fit(X1)x1=min_max_scaler.transform(X1)主成分分析第5章

在數(shù)據(jù)分析與挖掘中,通常會(huì)遇到眾多變量,這些變量之間往往具有一定的相關(guān)性。例如,身高、體重這兩個(gè)指標(biāo),身高較高,其體重也相對(duì)較大;經(jīng)營收入、凈利潤(rùn)這兩個(gè)指標(biāo),經(jīng)營收入越高,其凈利潤(rùn)也相對(duì)較高,這就是指標(biāo)之間相關(guān)性的一種體現(xiàn)。如果眾多指標(biāo)之間具有較強(qiáng)的相關(guān)性,不僅會(huì)增加計(jì)算復(fù)雜度,也會(huì)影響模型的分析結(jié)果。一種思路就是把眾多的變量轉(zhuǎn)換為少數(shù)幾個(gè)互不相關(guān)的綜合變量,同時(shí)又不影響原來變量所反映的信息。這種方法在數(shù)學(xué)上稱為主成分分析我們通??吹礁鞣N各樣的排行榜,如綜合國力排名、省市經(jīng)濟(jì)發(fā)展水平排名、大學(xué)綜合排名等——綜合評(píng)價(jià)問題,就是主成分分析應(yīng)用的一種體現(xiàn)。主成分分析第5章

怎樣對(duì)各地區(qū)2016年農(nóng)村居民人均可支配收入情況進(jìn)行排名呢

地區(qū)工資性收入(X1)經(jīng)營凈收入(X2)財(cái)產(chǎn)凈收入(X3)轉(zhuǎn)移凈收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………我們需要一個(gè)綜合指標(biāo)來衡量,但是這個(gè)綜合指標(biāo)該如何定義和計(jì)算呢?指標(biāo)加權(quán)是一個(gè)通常的思路,例如: Y1=a11×X1+a12×X2+a13×X3+a14×X4Xi反映了地區(qū)農(nóng)村居民人均可支配收入某個(gè)方面的指標(biāo),僅代表某方面的信息,它在綜合指標(biāo)Y1中,其重要程度可以通過對(duì)應(yīng)的a1j來反映,可以稱a1j為信息系數(shù)。注意綜合變量Y1盡量不丟失原來變量反映的信息,如果一個(gè)綜合變量不夠,就繼續(xù)構(gòu)造新的綜合變量Y2,……,同時(shí)要求綜合變量之間互不相關(guān)主成分分析第5章

Y1=a11×X1+a12×X2+a13×X3+a14×X4不丟失原來變量反映的信息(方差),其數(shù)學(xué)表達(dá)式為:

Var(X1)+…+Var(X4)=Var(Y1)如果Y1還不足以保留原來的信息,則再構(gòu)造一個(gè)Y2:

Y2=a21×X1+a22×X2+a23×X3+a24×X4使得Y1和Y2不相關(guān),同時(shí):

Var(X1)+…+Var(X4)=Var(Y1)+Var(Y2)如果還不足以保留原來的信息,則繼續(xù)構(gòu)造Y3。總之最多構(gòu)造到Y(jié)4一定能滿足條件。一般地,前k個(gè)變換后的變量Y1…Yk,其方差之和與原變量總方差之比為:

(Var(Y1)+Var(Y2)+Var(Yk))/(Var(X1)+…+Var(X4))稱其為k個(gè)變換后變量的信息占比。在實(shí)際應(yīng)用中只需取少數(shù)幾個(gè)變換后的變量。例如,它們的

信息占比為90%,就可以說采用變換后的變量反映了原來變量90%的信息。以上僅是方便理解,系數(shù)如何限制?系數(shù)向量如何計(jì)算?這些分析嚴(yán)格嗎?為了解決這些問題,需要給出嚴(yán)格的主成分分析數(shù)學(xué)模型(具體見課本)。主成分分析第5章

主成分分析的一般步驟(1)對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。(2)計(jì)算樣本相關(guān)系數(shù)矩陣。(3)求相關(guān)系數(shù)矩陣的特征值和相應(yīng)的特征向量。(4)選擇重要的主成分,并寫出主成分表達(dá)式。(5)計(jì)算主成分得分。(6)依據(jù)主成分得分的數(shù)據(jù),進(jìn)一步從事統(tǒng)計(jì)分析。主成分分析(應(yīng)用舉例)第5章

#數(shù)據(jù)獲取importpandasaspdData=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=Data.iloc[:,1:]#數(shù)據(jù)規(guī)范化處理fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)(1)數(shù)據(jù)獲取及數(shù)據(jù)規(guī)范化處理主成分分析(應(yīng)用舉例)第5章

①導(dǎo)入主成分分析模塊PCA。

fromsklearn.decompositionimportPCA②利用PCA創(chuàng)建主成分分析對(duì)象pca。

pca=PCA(n_components=0.95)③調(diào)用pca對(duì)象中的fit()方法,進(jìn)行擬合訓(xùn)練。

pca.fit(X)④調(diào)用pca對(duì)象中的transform()方法,返回提取的主成分。

Y=pca.transform(X)⑤通過pca對(duì)象中的相關(guān)屬性,返回相關(guān)結(jié)果。

tzxl=ponents_#返回特征向量

tz=pca.explained_variance_#返回特征值

#返回主成分方差百分比(貢獻(xiàn)率)

gxl=pca.explained_variance_ratio_(2)對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)X做主成分分析,基本步驟如下:主成分分析(應(yīng)用舉例)第5章

⑥主成分表達(dá)式及驗(yàn)證。由前面分析,我們知道第i個(gè)主成分表示為:代表第i個(gè)主成分對(duì)應(yīng)的特征向量。例如,可以通過程序驗(yàn)證第1個(gè)主成分前面的4個(gè)分量的值。Y00=sum(X[0,:]*tzxl[0,:])Y01=sum(X[1,:]*tzxl[0,:])Y02=sum(X[2,:]*tzxl[0,:])Y03=sum(X[3,:]*tzxl[0,:])。主成分分析(應(yīng)用舉例)第5章

(3)基于主成分進(jìn)行綜合排名。記綜合排名指標(biāo)為F,則F的計(jì)算公式如下其中m表示提取的主成分個(gè)數(shù),分別表示第i個(gè)主成分和其貢獻(xiàn)率F=gxl[0]*Y[:,0]+gxl[1]*Y[:,1]+gxl[2]*Y[:,2]dq=list(Data['省、直轄市及地區(qū)'].values)Rs=pd.Series(F,index=dq)

Rs=Rs.sort_values(ascending=False)

第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)一元線性回歸多元線性回歸線性回歸應(yīng)用舉例一元線性回歸第5章

引例1:有一則新聞:預(yù)計(jì)20××年中國旅游業(yè)總收入將超過3000億美元。這個(gè)數(shù)據(jù)是如何預(yù)測(cè)出來的呢?引例2:身高預(yù)測(cè)問題:子女的身高(y),父母的身高(x)旅游總收入(y)居民平均收入(x)……變量之間的相互關(guān)系,主要有3種:①確定的函數(shù)關(guān)系,。②不確定的統(tǒng)計(jì)相關(guān)關(guān)系,。③沒有關(guān)系,不用分析。以上兩個(gè)例子均屬于第(2)種情況。一元線性回歸第5章

一元線性回歸模型y為因變量(隨機(jī)變量),x為自變量(確定的變量),

為模型系數(shù),

每給定一個(gè)x,就得到y(tǒng)的一個(gè)分布。一元線性回歸第5章

對(duì)回歸模型兩邊取數(shù)學(xué)期望,得到以下回歸方程:每給定一個(gè)x,便有y的一個(gè)數(shù)學(xué)期望值與之對(duì)應(yīng),它們是一個(gè)函數(shù)關(guān)系。一般地,通過樣本觀測(cè)數(shù)據(jù),可以估計(jì)出以上回歸方程的參數(shù),一般形式為:其中為對(duì)期望值及兩個(gè)參數(shù)的估計(jì)一元線性回歸第5章

對(duì)總體(x,y)進(jìn)行n次獨(dú)立觀測(cè),獲得n個(gè)樣本觀測(cè)數(shù)據(jù),即(x1,y1),(x2,y2),…,(xn,yn),將其繪制在圖像上。如何對(duì)這些觀測(cè)值給出最合適的擬合直線呢?使用最小二乘法。其基本思路是真實(shí)觀測(cè)值與預(yù)測(cè)值(均值)總的偏差平方和最小,計(jì)算公式如下:求解以上最優(yōu)化問題,即得到:其中最后得到了基于經(jīng)驗(yàn)的回歸方程一元線性回歸第5章

總離差平方和TSS、回歸平方和RSS、殘差平方和ESS,計(jì)算公式分別如下:可以證明:回歸方程的線性關(guān)系是否顯著,可以用一個(gè)指標(biāo)公式來計(jì)算:稱為擬合優(yōu)度(判定系數(shù)),值越大表明直線擬合程度越好。多元線性回歸第5章

前文介紹了只有一個(gè)自變量和一個(gè)因變量的一元線性回歸模型,然而在現(xiàn)實(shí)中自變量通常包含多個(gè),這時(shí)稱它為多元線性回歸模型對(duì)于總體的n個(gè)觀測(cè)值,滿足以下公式:其中

相互獨(dú)立,且記,則其矩陣形式為其中

即為待估計(jì)的向量多元線性回歸第5章

對(duì)

兩邊取期望值,即得到以下回歸方程:其一般的形式如下其中

分布為期望值及回歸系數(shù)的估計(jì)的參數(shù)估計(jì)(最小二乘法,過程略)為的參數(shù)估計(jì)(推導(dǎo)過程略)為其中,H稱為對(duì)稱冪等矩陣與一元線性回歸模型類似,擬合優(yōu)度(判定系數(shù))公式為:線性回歸應(yīng)用舉例第5章

在發(fā)電場(chǎng)中電力輸出(PE)與溫度(AT)、壓力(V)、濕度(AP)、壓強(qiáng)(RH)有關(guān),相關(guān)測(cè)試數(shù)據(jù)(部分)如表所示ATVAPRHPE8.3440.771010.8490.01480.4823.6458.491011.474.2445.7529.7456.91007.1541.91438.7619.0749.691007.2276.79453.09…………………………需實(shí)現(xiàn)的功能如下:(1)利用線性回歸分析命令,求出PE與AT、V、AP、RH之間的線性回歸關(guān)系式系數(shù)

向量(包括常數(shù)項(xiàng))和擬合優(yōu)度(判定系數(shù)),并在命令窗口輸出。(2)現(xiàn)有某次測(cè)試數(shù)據(jù)AT=28.4、V=50.6、AP=1011.9、RH=80.54,試預(yù)測(cè)其PE值。線性回歸應(yīng)用舉例第5章

1.讀取數(shù)據(jù),確定自變量x和因變量yimportpandasaspddata=pd.read_excel('發(fā)電場(chǎng)數(shù)據(jù).xlsx')x=data.iloc[:,0:4].valuesy=data.iloc[:,4].values線性回歸應(yīng)用舉例第5章

(1)導(dǎo)入線性回歸模塊(簡(jiǎn)稱LR)。

fromsklearn.linear_modelimportLinearRegressionasLR(2)利用LR創(chuàng)建線性回歸對(duì)象lr。

lr=LR()(3)調(diào)用lr對(duì)象中的fit()方法,對(duì)數(shù)據(jù)進(jìn)行擬合訓(xùn)練。

lr.fit(x,y)(4)調(diào)用lr對(duì)象中的score()方法,返回其擬合優(yōu)度,觀察線性關(guān)系是否顯著。

Slr=lr.score(x,y)#判定系數(shù)R2(5)取lr對(duì)象中的coef_、intercept_屬性,返回x對(duì)應(yīng)的回歸系數(shù)和回歸系數(shù)常數(shù)項(xiàng)。

c_x=lr.coef_#x對(duì)應(yīng)的回歸系數(shù)

c_b=ercept_#回歸系數(shù)常數(shù)項(xiàng)2.線性回歸分析線性回歸應(yīng)用舉例第5章

(1)可以利用lr對(duì)象中的predict()方法進(jìn)行預(yù)測(cè)。

importnumpyasnp

x1=np.array([28.4,50.6,1011.9,80.54])

x1=x1.reshape(1,4)

R1=lr.predict(x1)(2)也可以利用線性回歸方程式進(jìn)行預(yù)測(cè),這個(gè)方法需要自行計(jì)算。

r1=x1*c_x

R2=r1.sum()+c_b#計(jì)算預(yù)測(cè)值print('x回歸系數(shù)為:',c_x)print('回歸系數(shù)常數(shù)項(xiàng)為:',c_b)print('判定系數(shù)為:',Slr)print('樣本預(yù)測(cè)值為:',R1)3.利用線性回歸模型進(jìn)行預(yù)測(cè)執(zhí)行結(jié)果為:x回歸系數(shù)為:[-1.97751311-0.233916420.06208294-0.1580541]回歸系數(shù)常數(shù)項(xiàng)為:454.609274315判定系數(shù)為:0.928696089812樣本預(yù)測(cè)值為:[436.70378447]第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)邏輯回歸模型邏輯回歸模型應(yīng)用舉例邏輯回歸第5章

線性回歸模型處理的因變量是數(shù)值型變量。然而在許多實(shí)際問題中,我們需要研究的因變量y不是數(shù)值型變量,而是名義變量或者分類變量,如0、1變量問題。邏輯回歸模型是使用一個(gè)函數(shù)來歸一化y值,使y的取值在區(qū)間(0,1)內(nèi),這個(gè)函數(shù)稱為L(zhǎng)ogistic函數(shù),公式如下:其中這樣就將線性回歸預(yù)測(cè)問題轉(zhuǎn)化為一個(gè)概率問題,一般以0.5為界,如果預(yù)測(cè)值大于0.5,我們判斷此時(shí)y更可能為1,否則為y=0邏輯回歸應(yīng)用舉例第5章

取UCI公共測(cè)試數(shù)據(jù)庫中的澳大利亞信貸批準(zhǔn)數(shù)據(jù)集作為本例的數(shù)據(jù)集,該數(shù)據(jù)集共有14個(gè)特征,1個(gè)分類標(biāo)簽y(1—同意貸款,0—不同意貸款),共690個(gè)申請(qǐng)者記錄。x1x2x3x4x5x6x7x8x9x10x11x12x13x14y122.0811.462441.5850001210012130022.6772840.1650000216010029.581.751441.250001228010021.6711.51530111112011120.178.172641.96111402601591015.830.5852881.51120210011117.426.52340.12500002601010058.674.4621183.0411602435611……以前600個(gè)申請(qǐng)者作為訓(xùn)練數(shù)據(jù),后90個(gè)申請(qǐng)者作為測(cè)試數(shù)據(jù),利用邏輯回歸模型預(yù)測(cè)準(zhǔn)確率。邏輯回歸應(yīng)用舉例第5章

1.?dāng)?shù)據(jù)獲取

importpandasaspd

data=pd.read_excel('credit.xlsx')2.訓(xùn)練樣本與測(cè)試樣本劃分

訓(xùn)練用的特征數(shù)據(jù)用x表示,預(yù)測(cè)變量用y表示,測(cè)試樣本則分別記為x1和y1。

x=data.iloc[:600,:14]

y=data.iloc[:600,14]

x1=data.iloc[600:,:14]

y1=data.iloc[600:,14]邏輯回歸應(yīng)用舉例第5章

(1)導(dǎo)入邏輯回歸模塊(簡(jiǎn)稱LR)。

fromsklearn.linear_modelimportLogisticRegressionasLR(2)利用LR創(chuàng)建邏輯回歸對(duì)象lr。

lr=LR()(3)調(diào)用lr中的fit()方法進(jìn)行訓(xùn)練。

lr.fit(x,y)(4)調(diào)用lr中的score()方法返回模型準(zhǔn)確率。

r=lr.score(x,y);#模型準(zhǔn)確率(針對(duì)訓(xùn)練數(shù)據(jù))(5)調(diào)用lr中的predict()方法,對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),獲得預(yù)測(cè)結(jié)果。

R=lr.predict(x1)3.邏輯回歸分析邏輯回歸應(yīng)用舉例第5章

邏輯回歸分析完整示例代碼如下:importpandasaspddata=pd.read_excel('credit.xlsx')x=data.iloc[:600,:14]y=data.iloc[:600,14]x1=data.iloc[600:,:14]y1=data.iloc[600:,14]fromsklearn.linear_modelimportLogisticRegressionasLRlr=LR()#創(chuàng)建邏輯回歸模型類lr.fit(x,y)#訓(xùn)練數(shù)據(jù)r=lr.score(x,y);#模型準(zhǔn)確率(針對(duì)訓(xùn)練數(shù)據(jù))R=lr.predict(x1)Z=R-y1Rs=len(Z[Z==0])/len(Z)print('預(yù)測(cè)結(jié)果為:',R)print('預(yù)測(cè)準(zhǔn)確率為:',Rs)預(yù)測(cè)結(jié)果為:[0111100101100011000101101110100010010

0010110101011100100100010110001001101

0001010110110110]預(yù)測(cè)準(zhǔn)確率為:0.8333333333333334第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)模擬思想與神經(jīng)元工作過程神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型神經(jīng)網(wǎng)絡(luò)分類與回歸應(yīng)用舉例神經(jīng)網(wǎng)絡(luò)模擬思想第5章

資料學(xué)習(xí)(孩子的日常辨識(shí)能力):一個(gè)孩子從生下來,就開始不斷地學(xué)習(xí)。他的大腦就好比一個(gè)能不斷接受新事物,同時(shí)能識(shí)別事物的龐大而復(fù)雜的模型,大腦模型不斷地接受外界的信息,并對(duì)其進(jìn)行判斷和處理。小孩會(huì)說話后,總喜歡問這問那,并不斷地說出這是什么那是什么。即使很多是錯(cuò)誤的,但經(jīng)過大人的糾正后,小孩終于能辨識(shí)日常中一些常見的事物了,這就是一個(gè)監(jiān)督學(xué)習(xí)的過程。某一天,大人帶著小孩,來到一個(gè)農(nóng)場(chǎng),遠(yuǎn)遠(yuǎn)地就看到一大片綠油油的稻田,小孩興奮地說出“好大的一片稻田”,大人樂了。因?yàn)樾『⒌拇竽X已經(jīng)是一個(gè)經(jīng)過長(zhǎng)時(shí)間學(xué)習(xí)訓(xùn)練的“模型”,具備了一定的辨識(shí)能力。神經(jīng)元工作過程第5章

可以理解為n個(gè)輸入信號(hào)(信息),可以理解為對(duì)n個(gè)輸入信號(hào)的加權(quán)值,從而得到一個(gè)綜合信號(hào)(加權(quán)求和)神經(jīng)元需要對(duì)這個(gè)綜合信號(hào)做出反應(yīng),即引入一個(gè)閾值

并與綜合信號(hào)比較,根據(jù)比較的結(jié)果做出不同的反應(yīng),即輸出。這里用一個(gè)被稱為激發(fā)函數(shù)的函數(shù)

來模擬其反應(yīng)。例如,你蒙上眼睛,要判斷面前的人是男孩,還是女孩??梢宰鲆粋€(gè)簡(jiǎn)單假設(shè)(大腦只有一個(gè)神經(jīng)元),只用一個(gè)輸入信號(hào)x1=頭發(fā)長(zhǎng)度(如50cm),權(quán)重為1,則其綜合信號(hào)為

我們用一個(gè)二值函數(shù)作為激發(fā)函數(shù):假設(shè)閾值

=12,由于

,故

,由此我們可以得到輸出1為女孩,0為男孩。神經(jīng)元工作過程第5章

那么如何確定閾值是12,輸出1表示女孩,而0表示男孩呢?這就要通過日常生活中的大量實(shí)踐認(rèn)識(shí)。數(shù)學(xué)模型不像人可以通過日常中漫長(zhǎng)的學(xué)習(xí)和實(shí)踐訓(xùn)練,它只能通過樣本數(shù)據(jù)來訓(xùn)練,從而獲得模型的參數(shù)并應(yīng)用。例如,可以選擇1000個(gè)人,其中500個(gè)人是男孩,500個(gè)人是女孩,分別量其頭發(fā)長(zhǎng)度,輸入以上模型進(jìn)行訓(xùn)練,訓(xùn)練的準(zhǔn)則是判別正確率最大化。(1)取閾值=1,這時(shí)判別正確率應(yīng)該非常低。(2)取值依次增加,假設(shè)閾值=12時(shí)為最大,達(dá)到0.95,當(dāng)閾值>12時(shí),判別的正確率開始下降,

故可以認(rèn)為閾值=12時(shí)達(dá)到判別正確率最大。這個(gè)時(shí)候,其中95%的男孩對(duì)應(yīng)的函數(shù)值為0,

同樣95%的女孩對(duì)應(yīng)的函數(shù)值為1。如果選用這個(gè)模型進(jìn)行判別,其判別正確率達(dá)到0.95。以上兩步訓(xùn)練完成即得到參數(shù)閾值=12,有95%的可能性輸出1表示判別為女孩,輸出0表示判別為男孩神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型第5章

x為m維向量,y為n維向量,隱含層有q個(gè)神經(jīng)元。假設(shè)有N個(gè)樣本數(shù)據(jù),從輸入層到隱含層的權(quán)重記為從隱含層到輸出層的權(quán)重記為記第t個(gè)樣本輸入網(wǎng)絡(luò)時(shí),隱含層單元的輸出為輸出層單元的輸出為,則:這里

為對(duì)應(yīng)輸入神經(jīng)元的閾值,

通常為1,

為對(duì)應(yīng)隱含層神經(jīng)元的閾值,

通常為1,

分別為隱含層、輸出層神經(jīng)元的激發(fā)函數(shù)。常用的激發(fā)函數(shù)如下神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型第5章

選定隱含層及輸出層神經(jīng)元的個(gè)數(shù)和激發(fā)函數(shù)后,這個(gè)神經(jīng)網(wǎng)絡(luò)就只有輸入層至隱含層、隱含層至輸出層的參數(shù)未知了。一旦確定了這些參數(shù),神經(jīng)網(wǎng)絡(luò)就可以工作了。如何確定這些參數(shù)呢?基本思路如下:通過輸入層的N個(gè)樣本數(shù)據(jù),使得真實(shí)的y值與網(wǎng)絡(luò)的預(yù)測(cè)值的誤差最小即可,它變成了一個(gè)優(yōu)化問題,記

,則優(yōu)化問題如下:如何求解這個(gè)優(yōu)化問題獲得最優(yōu)的

呢?常用的有BP算法,這里不再介紹該算法的具體細(xì)節(jié),本節(jié)著重介紹如何利用Python進(jìn)行神經(jīng)網(wǎng)絡(luò)模型應(yīng)用。神經(jīng)網(wǎng)絡(luò)分類應(yīng)用舉例第5章

取UCI公共測(cè)試數(shù)據(jù)庫中的澳大利亞信貸批準(zhǔn)數(shù)據(jù)集作為本例的數(shù)據(jù)集,該數(shù)據(jù)集共有14個(gè)特征,1個(gè)分類標(biāo)簽y(1—同意貸款,0—不同意貸款),共690個(gè)申請(qǐng)者記錄。x1x2x3x4x5x6x7x8x9x10x11x12x13x14y122.0811.462441.5850001210012130022.6772840.1650000216010029.581.751441.250001228010021.6711.51530111112011120.178.172641.96111402601591015.830.5852881.51120210011117.426.52340.12500002601010058.674.4621183.0411602435611……以前600個(gè)申請(qǐng)者作為訓(xùn)練數(shù)據(jù),后90個(gè)申請(qǐng)者作為測(cè)試數(shù)據(jù),利用神經(jīng)網(wǎng)絡(luò)分類模型預(yù)測(cè)準(zhǔn)確率。神經(jīng)網(wǎng)絡(luò)分類應(yīng)用舉例第5章

1.?dāng)?shù)據(jù)獲取、訓(xùn)練樣本與測(cè)試樣本的劃分

importpandasaspd

data=pd.read_excel('credit.xlsx')#訓(xùn)練用的特征數(shù)據(jù)用x表示,預(yù)測(cè)變量用y表示,測(cè)試樣本則分別記為x1和y1。

x=data.iloc[:600,:14]

y=data.iloc[:600,14]

x1=data.iloc[600:,:14]

y1=data.iloc[600:,14]神經(jīng)網(wǎng)絡(luò)分類應(yīng)用舉例第5章

(1)導(dǎo)入神經(jīng)網(wǎng)絡(luò)分類模塊MLPClassifier。

fromsklearn.neural_networkimportMLPClassifier(2)利用MLPClassifier創(chuàng)建神經(jīng)網(wǎng)絡(luò)分類對(duì)象clf。

clf=MLPClassifier(solver='lbfgs',alpha=1e-5,hidden_layer_sizes=(5,2),random_state=1)

參數(shù)說明如下:

solver:神經(jīng)網(wǎng)絡(luò)優(yōu)化求解算法,包括lbfgs、sgd、adam3種,默認(rèn)值為adam。

alpha:模型訓(xùn)練誤差,默認(rèn)值為0.0001。

hidden_layer_sizes:隱含層神經(jīng)元個(gè)數(shù)。單層神經(jīng)元設(shè)置具體數(shù)值即可,本例隱含層有兩層,即5×2。

random_state:默認(rèn)設(shè)置為1即可。(3)調(diào)用clf對(duì)象中的fit()方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練。

clf.fit(x,y)(4)調(diào)用clf對(duì)象中的score()方法,獲得神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確率(針對(duì)訓(xùn)練數(shù)據(jù))。

rv=clf.score(x,y)(5)調(diào)用clf對(duì)象中的predict()方法可以對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),獲得預(yù)測(cè)結(jié)果。

R=clf.predict(x1)2.神經(jīng)網(wǎng)絡(luò)分類模型構(gòu)建神經(jīng)網(wǎng)絡(luò)分類應(yīng)用舉例第5章

importpandasaspddata=pd.read_excel('credit.xlsx')x=data.iloc[:600,:14].valuesy=data.iloc[:600,14].valuesx1=data.iloc[600:,:14].valuesy1=data.iloc[600:,14].valuesfromsklearn.neural_networkimportMLPClassifierclf=MLPClassifier(solver='lbfgs',alpha=1e-5,hidden_layer_sizes=(5,2),random_state=1)clf.fit(x,y);rv=clf.score(x,y)R=clf.predict(x1)Z=R-y1Rs=len(Z[Z==0])/len(Z)print('預(yù)測(cè)結(jié)果為:',R)print('預(yù)測(cè)準(zhǔn)確率為:',Rs)預(yù)測(cè)結(jié)果為:[011110010110001100010110100000000000000001101011010001001000101000000000000000010010110010]預(yù)測(cè)準(zhǔn)確率為:0.8222222222222222神經(jīng)網(wǎng)絡(luò)回歸應(yīng)用舉例第5章

在發(fā)電場(chǎng)中電力輸出(PE)與溫度(AT)、壓力(V)、濕度(AP)、壓強(qiáng)(RH)有關(guān),相關(guān)測(cè)試數(shù)據(jù)(部分)如表所示ATVAPRHPE8.3440.771010.8490.01480.4823.6458.491011.474.2445.7529.7456.91007.1541.91438.7619.0749.691007.2276.79453.09…………………………需實(shí)現(xiàn)的功能如下:(1)構(gòu)建神經(jīng)網(wǎng)絡(luò)回歸預(yù)測(cè)模型。(2)現(xiàn)有某次測(cè)試數(shù)據(jù)AT=28.4、V=50.6、AP=1011.9、RH=80.54,試預(yù)測(cè)其PE值。神經(jīng)網(wǎng)絡(luò)回歸應(yīng)用舉例第5章

1.?dāng)?shù)據(jù)獲取及訓(xùn)練樣本構(gòu)建#訓(xùn)練樣本的特征輸入變量用x表示,輸出變量用y表示。

importpandasaspd

data=pd.read_excel('發(fā)電場(chǎng)數(shù)據(jù).xlsx')

x=data.iloc[:,0:4]

y=data.iloc[:,4]2.預(yù)測(cè)樣本的構(gòu)建#預(yù)測(cè)樣本的輸入特征變量用x1表示。

importnumpyasnp

x1=np.array([28.4,50.6,1011.9,80.54])

x1=x1.reshape(1,4)神經(jīng)網(wǎng)絡(luò)回歸應(yīng)用舉例第5章

(1)導(dǎo)入神經(jīng)網(wǎng)絡(luò)回歸模塊MLPRegressor。

fromsklearn.neural_networkimportMLPRegressor(2)利用MLPRegressor創(chuàng)建神經(jīng)網(wǎng)絡(luò)回歸對(duì)象clf。

clf=MLPRegressor(solver='lbfgs',alpha=1e-5,hidden_layer_sizes=8,random_state=1)

參數(shù)說明如下:

solver:神經(jīng)網(wǎng)絡(luò)優(yōu)化求解算法,包括lbfgs、sgd、adam3種,默認(rèn)為adam。

alpha:模型訓(xùn)練誤差,默認(rèn)為0.0001。

hidden_layer_sizes:隱含層神經(jīng)元個(gè)數(shù)。單層神經(jīng)元設(shè)置具體數(shù)值即可。如果是多層,如隱含層有兩層5×2。

random_state:默認(rèn)設(shè)置為1即可。(3)調(diào)用clf對(duì)象中的fit()方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練。

clf.fit(x,y)(4)調(diào)用clf對(duì)象中的score()方法,獲得神經(jīng)網(wǎng)絡(luò)回歸的擬合優(yōu)度(判決系數(shù))。

rv=clf.score(x,y)(5)調(diào)用clf對(duì)象中的predict()可以對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),獲得預(yù)測(cè)結(jié)果。

R=clf.predict(x1)3.神經(jīng)網(wǎng)絡(luò)回歸模型構(gòu)建神經(jīng)網(wǎng)絡(luò)回歸應(yīng)用舉例第5章

importpandasaspddata=pd.read_excel('發(fā)電場(chǎng)數(shù)據(jù).xlsx')x=data.iloc[:,0:4]y=data.iloc[:,4]fromsklearn.neural_networkimportMLPRegressorclf=MLPRegressor(solver='lbfgs',alpha=1e-5,hidden_layer_sizes=8,random_state=1)clf.fit(x,y);rv=clf.score(x,y)importnumpyasnpx1=np.array([28.4,50.6,1011.9,80.54])x1=x1.reshape(1,4)R=clf.predict(x1)print('樣本預(yù)測(cè)值為:',R)樣本預(yù)測(cè)值為:[439.27258187]第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)支持向量機(jī)原理支持向量機(jī)應(yīng)用舉例支持向量機(jī)原理第5章

支持向量機(jī)基于統(tǒng)計(jì)學(xué)理論,強(qiáng)調(diào)結(jié)構(gòu)風(fēng)險(xiǎn)最小化。其基本思想是:對(duì)給定有限數(shù)量訓(xùn)練樣本的學(xué)習(xí)任務(wù),通過在原空間或投影后的高維空間構(gòu)造最優(yōu)分離超平面,將給定的兩類訓(xùn)練樣本分開,構(gòu)造分離超平面的依據(jù)是兩類樣本對(duì)分離超平面的最小距離最大。最優(yōu)分離超平面可以記為:位于最優(yōu)分離超平面上方的點(diǎn)滿足:位于最優(yōu)分離超平面下方的點(diǎn)滿足:通過調(diào)整權(quán)重

,邊緣的超平面可以記為:正類負(fù)類綜合所得從最優(yōu)分離超平面到

上任意點(diǎn)的距離為

,同理

到上任意點(diǎn)的距離也為

,則最大邊緣間隔為

。支持向量機(jī)原理第5章

如何尋找最優(yōu)分離超平面,需要用到更高的數(shù)學(xué)理論知識(shí)及技巧,這里不再介紹。對(duì)于非線性可分的情形,可以通過非線性映射將原數(shù)據(jù)變換到更高維空間,在新的高維空間中實(shí)現(xiàn)線性可分。這種非線性映射可以通過核函數(shù)來實(shí)現(xiàn),常用的核函數(shù)包括。1.高斯核函數(shù)2.多項(xiàng)式核函數(shù)3.sigmoid核函數(shù)支持向量機(jī)應(yīng)用舉例第5章

取自UCI公共測(cè)試數(shù)據(jù)庫中的汽車評(píng)價(jià)數(shù)據(jù)集作為本例的數(shù)據(jù)集,該數(shù)據(jù)集共有6個(gè)特征、1個(gè)分類標(biāo)簽,共1728條記錄a1a2a3a4a5a6d442232344223334422313442222344222334422213……其中特征a1~a6的含義及取值依次為:buyingv-high,high,med,lowmaintv-high,high,med,lowdoors2,3,4,5-morepersons2,4,morelug_bootsmall,med,bigsafetylow,med,high分類標(biāo)簽d的取值情況為:unacc、acc、good、v-good,分別用1、2、3、4來表示。取數(shù)據(jù)集的前1690條記錄作為訓(xùn)練集,余下的作為測(cè)試集,計(jì)算預(yù)測(cè)準(zhǔn)確率。支持向量機(jī)應(yīng)用舉例第5章

1.?dāng)?shù)據(jù)獲取importpandasaspddata=pd.read_excel('car.xlsx')2.訓(xùn)練樣本與測(cè)試樣本劃分#訓(xùn)練用的特征數(shù)據(jù)用x表示,預(yù)測(cè)變量用y表示,測(cè)試樣本則分別記為x1和y1。x=data.iloc[:1690,:6].valuesy=data.iloc[:1690,6].valuesx1=data.iloc[1691:,:6].valuesy1=data.iloc[1691:,6].values支持向量機(jī)應(yīng)用舉例第5章

(1)導(dǎo)入支持向量機(jī)模塊svm。

fromsklearnimportsvm(2)利用svm創(chuàng)建支持向量機(jī)類svm。

clf=svm.SVC(kernel='rbf')

其中核函數(shù)可以選擇線性核函數(shù)、多項(xiàng)式核函數(shù)、高斯核函數(shù)、sigmoid核,

分別用linear、poly、rbf、sigmoid表示,默認(rèn)情況下選擇高斯核函數(shù)。(3)調(diào)用svm中的fit()方法進(jìn)行訓(xùn)練。

clf.fit(x,y)(4)調(diào)用svm中的score()方法,考查訓(xùn)練效果。

rv=clf.score(x,y);#模型準(zhǔn)確率(針對(duì)訓(xùn)練數(shù)據(jù))(5)調(diào)用svm中的predict()方法,對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),獲得預(yù)測(cè)結(jié)果。

R=clf.predict(x1)3.支持向量機(jī)分類模型構(gòu)建支持向量機(jī)應(yīng)用舉例第5章

支持向量機(jī)完整示例代碼如下:importpandasaspddata=pd.read_excel('car.xlsx')x=data.iloc[:1690,:6].valuesy=data.iloc[:1690,6].valuesx1=data.iloc[1691:,:6].valuesy1=data.iloc[1691:,6].valuesfromsklearnimportsvmclf=svm.SVC(kernel='rbf')clf.fit(x,y)rv=clf.score(x,y);R=clf.predict(x1)Z=R-y1Rs=len(Z[Z==0])/len(Z)print('預(yù)測(cè)結(jié)果為:',R)print('預(yù)測(cè)準(zhǔn)確率為:',Rs)預(yù)測(cè)結(jié)果為:[4311314314333333333331314314331314314]預(yù)測(cè)準(zhǔn)確率為:0.7027027027027027第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)聚類思想與K-均值聚類K-均值聚類應(yīng)用舉例聚類思想第5章

聚類分析主要是使類內(nèi)的樣本盡可能相似,而類之間的樣本盡可能相異。聚類問題的一般提法是,設(shè)有n個(gè)樣本的

維觀測(cè)數(shù)據(jù)組成一個(gè)數(shù)據(jù)矩陣為:其中,每一行表示一個(gè)樣本,每一列表示一個(gè)指標(biāo),xij表示第i個(gè)樣本關(guān)于第j項(xiàng)指標(biāo)的觀測(cè)值,并根據(jù)觀測(cè)值矩陣X對(duì)樣本進(jìn)行聚類。聚類分析的基本思想是:在樣本之間定義距離,距離表明樣本之間的相似度,距離越小,相似度越高,關(guān)系越緊密;將關(guān)系密切的聚集為一類,關(guān)系疏遠(yuǎn)的聚集為另一類,直到所有樣本都聚集完畢。K-均值聚類方法第5章

K-均值聚類是一種基于原型的、根據(jù)距離劃分組的算法,其時(shí)間復(fù)雜度比其他聚類算法低,用戶需指定劃分組的個(gè)數(shù)K。其中,K-均值聚類常見距離測(cè)度包括歐幾里得距離(也稱歐氏距離)、曼哈頓距離、切比雪夫距離等。K-均值聚類默認(rèn)采用歐氏距離進(jìn)行計(jì)算,其公式如下:(表示第個(gè)i樣本與第個(gè)j樣本之間的歐氏距離)K-均值聚類算法的直觀理解如下:Step1:隨機(jī)初始化K個(gè)聚類中心,即K個(gè)類中心向量。Step2:對(duì)每個(gè)樣本,計(jì)算其與各個(gè)類中心向量的距離,并將該樣本指派給距離最小的類。Step3:更新每個(gè)類的中心向量,更新的方法為取該類所有樣本的特征向量均值。Step4:直到各個(gè)類的中心向量不再發(fā)生變化為止,作為退出條件。K-均值聚類方法第5章

xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類,其算法執(zhí)行如下Step1:初始化兩個(gè)類的聚類中心,這里取前兩個(gè)樣本分別為聚類中心。C1=(1.5,2.5),C2=(1.7,1.3)到達(dá)C1的距離:0

1.22

0.32

3.75

2.79

4.69

4.41

0.67到達(dá)C2的距離:1.22

0

0.91

4.92

3.93

5.84

5.56

0.61各樣本所屬類:

1

2

1

1

1

1

1

2Step2:分別計(jì)算每個(gè)樣本到達(dá)各個(gè)聚類中心的距離:Step3:更新聚類中心,更新方法為計(jì)算所屬類的特征向量的均值C1=((1.5+1.6+2.1+2.2+2.4+2.5)/6,(2.5+2.2+6.2+5.2+7.1+6.8)/6)=(2.05,5)C2=((1.7+1.8)/2,(1.3+1.9)/2)=(1.75,1.6)K-均值聚類方法第5章

xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類,其算法執(zhí)行如下返回Step2,重新計(jì)算各樣本到達(dá)各聚類中心的距離。到達(dá)C1的距離:2.56

3.72

2.84

1.2

0.25

2.13

1.86

3.11到達(dá)C2的距離:0.93

0.3

0.62

4.61

3.63

5.54

5.25

0.3各樣本所屬類:

2

2

2

1

1

1

1

2同理更新聚類中心得C1=(2.3,6.325)C2=(1.65,1.975)返回Step2,重新計(jì)算各樣本到達(dá)各聚類中心的距離。到達(dá)C1的距離:3.91

5.06

4.18

0.24

1.13

0.78

0.52

4.45到達(dá)C2的距離:0.55

0.68

0.23

4.25

3.27

5.18

4.9

0.17各樣本所屬類:

2

2

2

1

1

1

1

2同理更新聚類中心得C1=(2.3,6.325)C2=(1.65,1.975)Step4:這里我們發(fā)現(xiàn),聚類中心不再發(fā)生變化,而且類歸屬也沒有發(fā)生變化。其實(shí)正是因?yàn)轭悮w屬?zèng)]有發(fā)生變化,才導(dǎo)致了聚類中心不再發(fā)生變化,達(dá)到算法終止條件。故樣本1、2、3、8歸為一類,樣本4、5、6、7歸為另一類。K-均值聚類算法應(yīng)用舉例第5章

對(duì)表所示的31個(gè)地區(qū)2016年農(nóng)村居民人均可支配收入情況做聚類分析地區(qū)工資性收入(X1)經(jīng)營凈收入(X2)財(cái)產(chǎn)凈收入(X3)轉(zhuǎn)移凈收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………1.?dāng)?shù)據(jù)獲取及標(biāo)準(zhǔn)化處理importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)K-均值聚類算法應(yīng)用舉例第5章

(1)導(dǎo)入K-均值聚類模塊KMeans。

fromsklearn.clusterimportKMeans(2)利用KMeans創(chuàng)建K-均值聚類對(duì)象model。

model=KMeans(n_clusters=K,random_state=0,max_iter=500)

參數(shù)說明如下:

n_clusters:設(shè)置的聚類個(gè)數(shù)K。

random_state:隨機(jī)初始狀態(tài),設(shè)置為0即可。

max_iter:最大迭代次數(shù)。(3)調(diào)用model對(duì)象中的fit()方法進(jìn)行擬合訓(xùn)練。

model.fit(X)(4)獲取model對(duì)象中的labels_屬性,可以返回其聚類的標(biāo)簽。

c=model.labels_2.K-均值聚類分析K-均值聚類算法應(yīng)用舉例第5章

完整代碼如下:importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)fromsklearn.clusterimportKMeansmodel=KMeans(n_clusters=4,random_state=0,max_iter=500)model.fit(X)c=model.labels_Fs=pd.Series(c,index=data['地區(qū)'])Fs=Fs.sort_values(ascending=True)第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)關(guān)聯(lián)規(guī)則概念布爾關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則概念第5章

假設(shè)有以下數(shù)據(jù),每行代表一個(gè)顧客在超市的購買記錄。I1:西紅柿、排骨、雞蛋。I2:西紅柿、茄子。I3:雞蛋、襪子。I4:西紅柿、排骨、茄子。I5:西紅柿、排骨、襪子、酸奶。I6:雞蛋、茄子、酸奶。I7:排骨、雞蛋、茄子。I8:土豆、雞蛋、襪子。I9:西紅柿、排骨、鞋子、土豆。假如有一條規(guī)則:西紅柿—排骨,則同時(shí)購買西紅柿和排骨的顧客比例為4/9,而購買西紅柿的顧客當(dāng)中也購買了排骨的比例是

4/5。這兩個(gè)比例參數(shù)在關(guān)聯(lián)規(guī)則中是非常有意義的度量,分別稱作支持度(Support)和置信度(Confidence)。支持度反映了規(guī)則的覆蓋范圍,置信度反映了規(guī)則的可信程度。關(guān)聯(lián)規(guī)則概念第5章

在關(guān)聯(lián)規(guī)則中,商品集合I={西紅柿,排骨,雞蛋,茄子,襪子,酸奶,土豆,鞋子}稱作項(xiàng)集,每一個(gè)顧客購買的商品集合Ii稱為一個(gè)事務(wù),所有事務(wù)T={I1,I2,…,I9}稱作事務(wù)集合,且滿足Ii是T的真子集。項(xiàng)集是項(xiàng)的集合。包含k項(xiàng)的項(xiàng)集稱作k項(xiàng)集,例如,集合{西紅柿,排骨,雞蛋}是一個(gè)3項(xiàng)集。項(xiàng)集出現(xiàn)的頻率是所有包含項(xiàng)集的事務(wù)計(jì)數(shù),又稱作絕對(duì)支持度或支持度計(jì)數(shù)。假設(shè)某項(xiàng)集I的相對(duì)支持度滿足預(yù)定義的最小支持度閾值,則I是頻繁項(xiàng)集。頻繁k項(xiàng)集通常記作k。假設(shè)有以下數(shù)據(jù),每行代表一個(gè)顧客在超市的購買記錄。I1:西紅柿、排骨、雞蛋。I2:西紅柿、茄子。I3:雞蛋、襪子。I4:西紅柿、排骨、茄子。I5:西紅柿、排骨、襪子、酸奶。I6:雞蛋、茄子、酸奶。I7:排骨、雞蛋、茄子。I8:土豆、雞蛋、襪子。I9:西紅柿、排骨、鞋子、土豆。關(guān)聯(lián)規(guī)則概念第5章

一對(duì)一關(guān)聯(lián)規(guī)則的形式如下:,A、B滿足A、B是T的真子集,并且A和B的交集為空集。其中A稱為前件,B稱為后件。關(guān)聯(lián)規(guī)則有時(shí)也表示形如“如果……那么……”,前者是規(guī)則成立的條件,后者是條件下發(fā)生的結(jié)果。支持度和置信度有以下計(jì)算公式:支持度表示為項(xiàng)集A、B同時(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論