美國居民收入的預(yù)測_第1頁
美國居民收入的預(yù)測_第2頁
美國居民收入的預(yù)測_第3頁
美國居民收入的預(yù)測_第4頁
美國居民收入的預(yù)測_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、論文題目:美國居民收入的預(yù)測組別姓名學(xué)號(hào)學(xué)院專長短號(hào)長號(hào)本部建模寫作編程組別:研究生評(píng)閱情況(評(píng)閱專家填寫):評(píng)閱1.評(píng)閱2.評(píng)閱3.美國居民收入的預(yù)測摘要從居民眾多的信息中判別居民年收入問題具有很高的社會(huì)實(shí)際應(yīng)用意義,本題主要就是找出判別居民收入是否超過50K的具有一定可信度的檢驗(yàn)方法。對于此,我們建立了基于spss的Fisher判別模型、基于MATLAB的BP神經(jīng)網(wǎng)絡(luò)模型和主成分分析模型。問題一和問題二都是判別問題,本文比較了基于SPSS的Fisher判別算法和BP神經(jīng)網(wǎng)絡(luò)算法,通過比較,BP神經(jīng)網(wǎng)絡(luò)做判別分析的準(zhǔn)確性更高。問題一和問題二的區(qū)別就在于樣本數(shù)據(jù)的維度問題,問題一只需要考慮連續(xù)

2、型數(shù)據(jù)樣本,問題二需要考慮所有的數(shù)據(jù)信息,因此需要將類別型屬性數(shù)據(jù)進(jìn)行數(shù)值化處理。通過我們選取的BP神經(jīng)網(wǎng)絡(luò)的判別模型,問題一的判別準(zhǔn)確度檢驗(yàn)的結(jié)果如下:訓(xùn)練樣本的準(zhǔn)確度測試樣本的準(zhǔn)確度平均值85.7%76.5%對附錄三200個(gè)居民樣本數(shù)據(jù)的預(yù)測結(jié)果如下:年收入統(tǒng)計(jì)人數(shù)總和占比>50k5929.5%<=50k14170.5%總和200100%統(tǒng)計(jì)的人數(shù)總和相對應(yīng)的居民樣本可見正文表5-2。對于問題二的判別準(zhǔn)確度的檢驗(yàn)結(jié)果:訓(xùn)練樣本的準(zhǔn)確度測試樣本的準(zhǔn)確度平均值87%83.03%問題二中的判別模型對附錄三200個(gè)居民樣本數(shù)據(jù)的預(yù)測結(jié)果如下:年收入統(tǒng)計(jì)的人數(shù)總和占比>50k562

3、8%<=50k14472%總和200100%有表中的問題一和問題二中對于判別模型準(zhǔn)確度檢驗(yàn),以及對附錄三的預(yù)測結(jié)果比較得知,我們建立的判別模型具有較高的可信度。 對于問題三中主成分的提取問題,我們運(yùn)用SPSS的主成分因子分析得到了與居民年收入相關(guān)度較高的8個(gè)指標(biāo),依次是:hours-per-week、relationship、capital-gain、native-country、education、fnlwgt、occupation、workclass這8項(xiàng)關(guān)鍵因素。為了驗(yàn)證這8個(gè)關(guān)鍵因素的正確性,我們保留附錄三中這8個(gè)主成分樣本數(shù)據(jù)進(jìn)行年收入的預(yù)測,得到的結(jié)果:年收入統(tǒng)計(jì)的人數(shù)總和占

4、比>50K5829%<=50K14271%對比可知,我們提取出來的8個(gè)主成分具有較強(qiáng)的代表性。關(guān)鍵字:Fisher判別,BP神經(jīng)網(wǎng)絡(luò),主成分分析,SPSS1.問題重述1.1 問題的背景隨著社會(huì)經(jīng)濟(jì)與科學(xué)技術(shù)的不斷發(fā)展,人們已經(jīng)進(jìn)入了信息時(shí)代,要在大量的信息中獲得有科學(xué)價(jià)值的結(jié)果,從而統(tǒng)計(jì)方法越來越成為人們必不可少的工具和手段。通過一些居民相關(guān)的信息測算估計(jì)居民年收入對于政府機(jī)構(gòu)、慈善機(jī)構(gòu)客觀較真實(shí)的了解人民的收入情況、生活水平具有很強(qiáng)的實(shí)踐意義,從而更好的實(shí)行惠民政策。1.2 需要解決的問題本題給出的一組從美國1994年人口普查數(shù)據(jù)庫抽取出來的數(shù)據(jù),其中包含了年齡,工種,學(xué)歷,職業(yè)

5、,人種以及年收入等相關(guān)信息,我們需要通過對所給屬性數(shù)據(jù)進(jìn)行分析處理,通過正確的判別方法,對已知樣本數(shù)據(jù)進(jìn)行訓(xùn)練測試,基于此再對附錄三給出的數(shù)據(jù)相關(guān)信息判斷居民收入是否超過五萬美元進(jìn)行預(yù)測分析。由于所給的數(shù)據(jù)信息中,除了連續(xù)型數(shù)據(jù)之外,還有類別數(shù)據(jù),據(jù)此我們需要進(jìn)行前期的數(shù)據(jù)處理。問題一:根據(jù)附錄二中的數(shù)據(jù),只考慮連續(xù)型屬性,提出判別美國居民年收入是否超過5萬美元的方法,并檢驗(yàn)?zāi)闾岢龇椒ǖ恼_性。按照所提出的方法,判斷附錄三中的200個(gè)居民的年收入是否超過5萬美元。問題二:考慮所有屬性(包括連續(xù)型屬性和類別型屬性),提出判別美國居民年收入是否超過5萬美元的方法,并檢驗(yàn)?zāi)闾岢龇椒ǖ恼_性。按照所提

6、出的方法,判斷附錄三中的200個(gè)居民的年收入是否超過5萬美元。問題三:在第二問的基礎(chǔ)上,判斷各屬性的重要程度,選取幾個(gè)重要屬性,重新建模并于原模型進(jìn)行對比。2. 問題分析問題一:在所給信息中,首先只需考慮連續(xù)型屬性(即age,fnlwgt, education-num, captical, hours-per-week這五個(gè)屬性 ),判斷這些屬性和年收入之間的關(guān)系,提出年收入超過50K的判別方法,并檢驗(yàn)該判別方法的正確性。得到具備一定可信度的判別方法后,再對附錄三中的200個(gè)居民數(shù)據(jù)的年收入是否超過50K做出檢驗(yàn)判別。問題二:問題二不同于問題一的地方在于,問題一只考慮了所給信息中部分是連續(xù)型屬

7、性的信息,問題二就要考慮所給的全部信息情況,找出這些所有信息和年收入超過50K的判別關(guān)系,依然對所得判別方法進(jìn)行正確性的檢驗(yàn),再對附錄三中的200個(gè)居民年收入是否超過50K進(jìn)行判別分析。問題三:通過前面兩問的分析解答,我們可以得到只分析部分?jǐn)?shù)據(jù)和分析全部數(shù)據(jù)對結(jié)果判別的正確率的影響,那樣我們可以接著判斷各個(gè)屬性的重要程度,找出影響判別的重要因素,建立新的模型與原模型進(jìn)行比較分析,看是否能在保證正確率的情況下,精簡對年收入是否大于50K的判斷信息的收集工作。3.基本假設(shè)與符號(hào)說明3.1 基本假設(shè)(1)假設(shè)所給信息均真實(shí)有效(2)所給數(shù)據(jù)非主觀挑選,具有一般性(3)所給數(shù)據(jù)信息與居民收入有一定的相

8、關(guān)性,可以用來判別居民的收入情況3.2 符號(hào)說明符號(hào)符號(hào)說明BP神經(jīng)網(wǎng)絡(luò)的輸出的與實(shí)際輸出樣本之間的誤差平方和BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速率 神經(jīng)元的閥值原始樣本數(shù)據(jù)標(biāo)準(zhǔn)后的樣本數(shù)據(jù)4.數(shù)據(jù)處理和分析4.1 美國居民收入信息的統(tǒng)計(jì)根據(jù)題目的附錄二中給出的居民收入大于或者小于等于50K的其他眾多個(gè)人信息,我們做了一些統(tǒng)計(jì)整理,首先統(tǒng)計(jì)了男女的分布情況,如下表:表4-1:居民收入按性別統(tǒng)計(jì)情況性別 收入>50K占比率<=50K占比率男(1)9528.02%24471.98%女(0)4829.81%11370.19%分析統(tǒng)計(jì)所給數(shù)據(jù)我們知道,男性有339個(gè),其中收入大于50K的有95人,占比28

9、.02%;女性有161個(gè),其中收入大于50K的有48人,占比29.81%。表4-2:居民收入和教育年限的統(tǒng)計(jì)情況收入教育年限>50K占比率<=50K占比率>平均值(10年)48男1327.08%127男3527.56%女3572.92%女9272.44%<=平均值(10年)95男6063.16230男7833.91%女3536.84女15266.09%由表4-2簡單的統(tǒng)計(jì)數(shù)據(jù)可知居民年收入和居民受教育年限的關(guān)系,發(fā)現(xiàn)教育年限與收入的關(guān)系并不呈強(qiáng)烈的顯著相關(guān)性。這與問題三中主成分分析中教育年限的相關(guān)系系數(shù)基本符合。4.2 美國居民收入信息的收據(jù)處理4.2.1數(shù)據(jù)處理 附錄

10、二中有capital-gain(正數(shù)), capital-loss(正數(shù))兩項(xiàng)針對資產(chǎn)投資是正收益還是負(fù)收益的情況,我們用excel 將兩項(xiàng)進(jìn)行相減處理合并,所得正數(shù)即為資產(chǎn)投資所得的盈利,負(fù)數(shù)則為資產(chǎn)投資的損失值。4.2.2 缺失數(shù)據(jù)的處理 我們對附錄二所給的數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),所給的屬性特征中有35個(gè)標(biāo)識(shí)“?”的數(shù)據(jù)缺失。對于缺失數(shù)據(jù)的處理方法有以均值替代、眾數(shù)替代、K最近距離鄰發(fā)、組合完整化方法以及直接剔除等方法。要根據(jù)實(shí)際情況的需要進(jìn)行靈活的方法選擇,本題中考慮到樣本數(shù)量基數(shù)大有500個(gè),35個(gè)缺失數(shù)據(jù)只占7%相對較小,所以我們在問題一做判別建模分析中直接用剔除缺失數(shù)據(jù)的處理方法進(jìn)行了數(shù)

11、據(jù)判別分析,得出了判別模型后,再對附錄三200個(gè)居民樣本數(shù)據(jù)的預(yù)測處理上,為了保證樣本數(shù)據(jù)的完整性我們對于缺失的數(shù)據(jù)進(jìn)行的是以眾數(shù)替代缺失值。4.2.3 對類別型數(shù)據(jù)的數(shù)值型處理因?yàn)樗o的數(shù)據(jù)中還有很多是類別屬性的信息(race, sex, relationship, marital-status, Occupation, education, workclass, native-country)所以我們需要進(jìn)行數(shù)值化處理,相應(yīng)的處理標(biāo)識(shí)見下表(具體數(shù)值見附錄十三):表4-3:類別屬性數(shù)據(jù)的數(shù)值化處理所在列名稱原始值賦值Income<=50K0>50K1RaceWhite0Asia

12、n-Pac-Islander1Amer-Indian-Eskimo2Other3Black4sexMale0Female1workclassPrivate1Self-emp-not-inc2Self-emp-inc3Federal-gov4Local-gov5State-gov6Without-pay7Never-worked8.5 問題一的解答問題一要求提出判別美國居民收入方法,并檢驗(yàn)提出方法的正確性.該問題屬于判別問題,解決此類問題的方法有判別分析法和網(wǎng)絡(luò)神經(jīng)系統(tǒng)等,我們選擇用spss方法和BP神經(jīng)網(wǎng)絡(luò)建立模型求解。為了檢驗(yàn)提出方法的正確性,我們選取附錄二中任意300組數(shù)據(jù)進(jìn)行訓(xùn)練,利用其

13、余200組數(shù)據(jù)進(jìn)行檢測。首先,我們用SPSS判別工具建立判別模型。5.1模型一的建立: 基于SPSS的 Fisher判別5.11 Fisher判別的基本原理Fisher判別法由Fisher在1936年提出,是根據(jù)方差分析的思想建立起來的一種能較好區(qū)分各個(gè)總體的線性判別法,該判別方法對總體的分布不做任何要求。各類在維特征空間里的樣本均值向量: , (5.1-1)通過變換映射到一維特征空間后,各類的平均值為:, (5.1-2)映射后,各類樣本“類內(nèi)離散度”定義為:, (5.1-3)顯然,我們希望在映射之后,兩類的平均值之間的距離越大越好,而各類的樣本類內(nèi)離散度越小越好。因此,定義Fisher準(zhǔn)則函

14、數(shù): (5.1-4)使最大的解就是最佳解向量,也就是Fisher的線性判別式。5.1.2求解從的表達(dá)式可知,它并非的顯函數(shù),必須進(jìn)一步變換。已知:,, 依次代入,有:, (5.1-5)所以: (5.1-7)其中: (5.1-8)是原維特征空間里的樣本類內(nèi)離散度矩陣,表示兩類均值向量之間的離散度大小,因此,越大越容易區(qū)分。將和代入(5.1-3)式中: (5.1-9)其中:, (5.1-10)因此: (5.1-11)顯然: (5.1-12)稱為原維特征空間里,樣本“類內(nèi)離散度”矩陣。是樣本“類內(nèi)總離散度”矩陣。為了便于分類,顯然越小越好,也就是越小越好。將上述的所有推導(dǎo)結(jié)果代入表達(dá)式:可以得到:其

15、中,是一個(gè)比例因子,不影響的方向,可以刪除,從而得到最后解: (5.1-13)就使取得最大值,可使樣本由維空間向一維空間映射,其投影方向最好。是一個(gè)Fisher線性判斷式。 這個(gè)向量指出了相對于Fisher準(zhǔn)則函數(shù)最好的投影線方向。5.1.3 Fisher算法步驟由Fisher線性判別式求解向量的步驟: 把來自兩類的訓(xùn)練樣本集分成和兩個(gè)子集和。 由,計(jì)算。 由計(jì)算各類的類內(nèi)離散度矩陣,。 計(jì)算類內(nèi)總離散度矩陣。 計(jì)算的逆矩陣。 由求解。5.2 基于SPSS的Fisher判別分析SPSS的基本功能包括數(shù)據(jù)管理、統(tǒng)計(jì)分析、圖表分析、輸出管理等等。SPSS統(tǒng)計(jì)分析過程包括描述性統(tǒng)計(jì)、均值比

16、較、一般線性模型、相關(guān)分析、回歸分析、對數(shù)線性模型、聚類分析、數(shù)據(jù)簡化、生存分析、時(shí)間序列分析、多重響應(yīng)等幾大類,每類中又分好幾個(gè)統(tǒng)計(jì)過程,比如回歸分析中又分線性回歸分析、曲線估計(jì)、Logistic回歸、Probit回歸、加權(quán)估計(jì)、兩階段最小二乘法、非線性回歸等多個(gè)統(tǒng)計(jì)過程,而且每個(gè)過程中又允許用戶選擇不同的方法及參數(shù)。我們首先隨機(jī)選擇300組樣本數(shù)據(jù)進(jìn)行判別分析,剩下的200組數(shù)據(jù)進(jìn)行SPSS判別準(zhǔn)確度的檢驗(yàn)測算,達(dá)到的準(zhǔn)確率為74.6%。表5-1:spss分析結(jié)果income預(yù)測組成員合計(jì)01初始計(jì)數(shù)010043143184273357%069.930.1100.0123.576.5100

17、.0交叉驗(yàn)證b計(jì)數(shù)09746143184273357%067.832.2100.0123.576.5100.0注:a 已對初始分組案例中的 74.6% 個(gè)進(jìn)行了正確分類。b 僅對分析中的案例進(jìn)行交叉驗(yàn)證。 在交叉驗(yàn)證中,每個(gè)案例都是按照從該案例以外的所有其他案例派生的函數(shù)來分類的。c 已對交叉驗(yàn)證分組案例中的 74.0% 個(gè)進(jìn)行了正確分類。由上表可知,SPSS做判別分析的準(zhǔn)確度為74.6%,并不是很理想,對此,我們引入BP神經(jīng)網(wǎng)絡(luò)的判別模型。5.3 BP神經(jīng)網(wǎng)絡(luò)模型5.3.1 BP神經(jīng)網(wǎng)絡(luò)的基本理論神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型,由大量的節(jié)點(diǎn)(或稱“神經(jīng)元”)和之間相互聯(lián)接構(gòu)成。每個(gè)節(jié)點(diǎn)代表一種特定的

18、輸出函數(shù),稱為激勵(lì)函(activation function)。每兩個(gè)節(jié)點(diǎn)間的連接都代表一個(gè)對于通過該連接信號(hào)的加權(quán)值,稱之為權(quán)重(weight),這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式,權(quán)重值和激勵(lì)函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對自然界某種算法或者函數(shù)的逼近,也可能是對一種邏輯策略的表達(dá)。人工神經(jīng)網(wǎng)絡(luò)通常是通過一個(gè)基于數(shù)學(xué)統(tǒng)計(jì)學(xué)類型的學(xué)習(xí)方法(Learning Method)得以優(yōu)化,所以人工神經(jīng)網(wǎng)絡(luò)也是數(shù)學(xué)統(tǒng)計(jì)學(xué)方法的一種實(shí)際應(yīng)用,通過統(tǒng)計(jì)學(xué)的標(biāo)準(zhǔn)數(shù)學(xué)方法我們能夠得到大量的可以用函數(shù)來表達(dá)的局部結(jié)構(gòu)空間,另一方面在人工智能學(xué)的人工感知領(lǐng)域,我們通過數(shù)學(xué)統(tǒng)計(jì)學(xué)的應(yīng)用可

19、以來做人工感知方面的決定問題(也就是說通過統(tǒng)計(jì)學(xué)的方法,人工神經(jīng)網(wǎng)絡(luò)能夠類似人一樣具有簡單的決定能力和簡單的判斷能力),這種方法比起正式的邏輯學(xué)推理演算更具有優(yōu)勢。圖5: 多層神經(jīng)元網(wǎng)絡(luò)(BP神經(jīng)網(wǎng)絡(luò)圖)輸入輸出層之間實(shí)現(xiàn)全連接,而同一層的神經(jīng)元之間無連接,輸入神經(jīng)元與隱含層神經(jīng)元之間是網(wǎng)絡(luò)的權(quán)值,其意思是兩個(gè)神經(jīng)元之間的連接強(qiáng)度隱含層或輸出層任一神經(jīng)元將前一層所有神經(jīng)元傳來的信息進(jìn)行整合,通過還會(huì)在整合過的信息中添加一個(gè)閥值,這主要是模仿生物學(xué)中的神經(jīng)元必須到達(dá)一定的閥值才會(huì)觸發(fā)的原理,然后將整合過的信息作為該層神經(jīng)元輸入。BP算法由數(shù)據(jù)流的前向計(jì)算(正向傳播)和誤差信號(hào)的反向傳播兩個(gè)過程構(gòu)

20、成。正向傳播時(shí),傳播方向?yàn)檩斎雽与[層輸出層,每層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元。若在輸出層得不到期望的輸出,則轉(zhuǎn)向誤差信號(hào)的反向傳播流程。通過這兩個(gè)過程的交替進(jìn)行,在權(quán)向量空間執(zhí)行誤差函數(shù)梯度下降策略,動(dòng)態(tài)迭代搜索一組權(quán)向量,使網(wǎng)絡(luò)誤差函數(shù)達(dá)到最小值,從而完成信息提取和記憶過程。本質(zhì)上來說BP算法的核心是數(shù)學(xué)中的負(fù)梯度下降理論,即BP網(wǎng)絡(luò)的誤差調(diào)整方向總是沿誤差下降最快的方向進(jìn)行,常規(guī)三層BP網(wǎng)絡(luò)權(quán)值和閥值調(diào)整公式如下: , , 其中為網(wǎng)絡(luò)的輸出的與實(shí)際輸出樣本之間的誤差平方和;為網(wǎng)絡(luò)的學(xué)習(xí)速率;為神經(jīng)元的閥值,下標(biāo)的意義與權(quán)值的相同。5.4 BP神經(jīng)網(wǎng)絡(luò)模型的實(shí)現(xiàn)5.4.1BP神經(jīng)網(wǎng)絡(luò)模型學(xué)

21、習(xí)樣本的建立根據(jù)附錄一給出的數(shù)據(jù),我們隨機(jī)選擇了其中的60%作為訓(xùn)練樣本,其余40%作為測試樣本。該數(shù)據(jù)共有500個(gè)隨機(jī)樣本,在問題一里面只需要考慮連續(xù)型屬性的樣本數(shù)據(jù),所以在問題一中只需要分析5個(gè)影響因數(shù)(age, fnlwgt, education-num,資產(chǎn)收益,hours-per-week)。該數(shù)據(jù)是隨機(jī)進(jìn)行排序的,所以我們選擇原始數(shù)據(jù)的300個(gè)樣本作為訓(xùn)練樣本,其他的200個(gè)樣本作為測試樣本。問題二中將所有數(shù)據(jù)進(jìn)行統(tǒng)一數(shù)值化處理后,依然在總的數(shù)據(jù)中選取部分作為樣本訓(xùn)練數(shù)據(jù),其他數(shù)據(jù)作為檢驗(yàn)我們模式準(zhǔn)確度的測試樣本數(shù)據(jù)。5.4.2原始數(shù)據(jù)預(yù)處理 (1)數(shù)據(jù)歸一化處理的必要性附錄中原始

22、數(shù)據(jù)的屬性不一樣,會(huì)使得神經(jīng)網(wǎng)絡(luò)收斂慢、訓(xùn)練時(shí)間長。數(shù)據(jù)范圍大的輸入在模式分類中的作用可能會(huì)偏大,而數(shù)據(jù)范圍小的輸入作用就可能會(huì)偏小。由于神經(jīng)網(wǎng)絡(luò)輸出層的激活函數(shù)的值域是有限制的,因此需要將網(wǎng)絡(luò)訓(xùn)練的目標(biāo)數(shù)據(jù)映射到激活函數(shù)的值域,需要進(jìn)行數(shù)據(jù)歸一化的處理。(2)數(shù)據(jù)歸一化處理的方法數(shù)據(jù)歸一化處理方法有簡單快捷的線性轉(zhuǎn)換,以及Matlab的premnmx , postmnmx , tramnmx 3個(gè)函數(shù)的處理。在本題綜合考慮到我們基于MATLAB編程,由此我們采用了MATLAB提供的PN1=mapminmax(P1)函數(shù)進(jìn)行數(shù)據(jù)的歸一化處理。(3)設(shè)置參數(shù) 訓(xùn)練樣本共有300個(gè),在滿足網(wǎng)絡(luò)需求

23、的前提下我們設(shè)置隱含層節(jié)點(diǎn)數(shù)為12個(gè);由于訓(xùn)練目標(biāo)和測試目標(biāo)為一維的向量,輸出維數(shù)為1維;判別函數(shù)我們根據(jù)網(wǎng)絡(luò)的層數(shù)分別選擇了非線性的tansig以及線性的purelin函數(shù);訓(xùn)練顯示間隔,學(xué)習(xí)步長,最大訓(xùn)練時(shí)間等均設(shè)置在合理的范圍內(nèi)。(4)網(wǎng)絡(luò)的運(yùn)算過程 利用MATLAB提供的神經(jīng)網(wǎng)絡(luò)工具箱實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)的功能。首先,我們利用訓(xùn)練樣本(數(shù)據(jù)見附錄一)對網(wǎng)絡(luò)實(shí)行訓(xùn)練,通過調(diào)節(jié)各項(xiàng)參數(shù)以及判別函數(shù)來提高訓(xùn)練樣本精度;然后,當(dāng)訓(xùn)練精度達(dá)到一定程度的時(shí)候,我們再加入測試樣本,對網(wǎng)絡(luò)進(jìn)行檢驗(yàn)。BP網(wǎng)絡(luò)的運(yùn)行結(jié)果不是十分的穩(wěn)定,當(dāng)訓(xùn)練次數(shù)達(dá)到100次以后,我們連續(xù)測得20組數(shù)據(jù)(具體的編程代碼見附錄二

24、)求的均值如下表所示(見附錄三)表5-2:問題一的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練和檢測訓(xùn)練樣本的準(zhǔn)確度測試樣本的準(zhǔn)確度平均值85.7%76.5% 由表5-2可知,對于問題一的BP神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練樣本中的準(zhǔn)確度達(dá)到了85.7%,在測試樣本中也達(dá)到了76.5%,說明問題一中的BP神經(jīng)網(wǎng)絡(luò)模型對于判別分析具有較好的可信度。綜上所述,可知用BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本的準(zhǔn)確度高達(dá)85.7%,它的測試結(jié)果的準(zhǔn)確度也有76.5%,相對使用spss方法預(yù)測的效果準(zhǔn)確率74.6%更加理想。于是,我們更有理由采用BP神經(jīng)網(wǎng)絡(luò)模型。5.5對附錄三數(shù)據(jù)的檢測按照我們前面所做的BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練測試網(wǎng)絡(luò)模型,我們對附錄三中200個(gè)居民數(shù)

25、據(jù)(具體數(shù)據(jù)見附錄四)年收入是否超過50K做了預(yù)測判別(代碼見附錄五)。輸出檢驗(yàn)值C2大于等于1的即為年收入大于50K的樣本數(shù)據(jù),輸出值C3小于1的表示年收入小于等于50K的樣本數(shù)據(jù)。表5-3:附錄三200個(gè)居民年收入預(yù)測統(tǒng)計(jì)年收入統(tǒng)計(jì)對應(yīng)的具體居民占比>50k591 12 18 20 21 25 28 29 30 33 39 41 43 47 49 50 52 60 62 66 75 76 77 81 82 83 87 90 91 93 104 106 110 112 117 118 121 125 126 136 137 140 147 148 151 156 161 163 164

26、 172 175 176 177 188 189 191 193 197 20029.5%<=50k1412 3 4 5 6 7 8 9 10 11 13 14 15 16 17 19 22 23 24 26 27 31 32 34 35 36 37 38 40 42 44 45 46 48 51 53 54 55 56 57 58 59 61 63 64 65 67 68 69 70 71 72 73 74 78 79 80 84 85 86 88 89 92 94 95 96 97 98 99 100 101 102 103 105 107 108 109 111 113 114 1

27、15 116 119 120 122 123 124 127 128 129 130 131 132 133 134 135 138 139 141 142 143 144 145 146 149 150 152 153 154 155 157 158 159 160 162 165 166 167 168 169 170 171 173 174 178 179 180 181 182 183 184 185 186 187 190 192 194 195 196 198 19970.5%總和200200100%由表5-3可知,年收入大于50K的共有59個(gè),占比29.5%;年收入小于等于50K

28、的有141個(gè),占比70.5%。而在附錄一所給的500個(gè)樣本數(shù)據(jù)中,年收入超過50K的有143人,占比28.6%;年收入小于等于50K的有357人,占比71.4%。通過對比可知,預(yù)測值的占比率與實(shí)際情況的占比率浮動(dòng)1%,相對來說結(jié)果浮動(dòng)比較小,由此可知我們的預(yù)測方法具有較高的可信度。6 問題二的解答6.1 問題二的建模問題一是基于所給數(shù)據(jù)中的連續(xù)屬性的信息判別居民收入是否超過50K的情況,而問題二考慮的是所給信息的所有屬性(包括連續(xù)型屬性和類別型屬性),提出判別美國居民年收入是否超過5萬美元的方法,再檢驗(yàn)我們所提方法的正確性。按照所提出的方法,判斷附錄三中的200個(gè)居民的年收入是否超過5萬美元。

29、 問題二中首先依然要進(jìn)行數(shù)據(jù)處理,將類別型的數(shù)據(jù)進(jìn)行數(shù)值化處理,具體的數(shù)值統(tǒng)一化標(biāo)準(zhǔn)(見表4-3:類別型數(shù)據(jù)的數(shù)值化),將所給的樣本數(shù)據(jù)按照表4-3的數(shù)值標(biāo)準(zhǔn)統(tǒng)一化后得到數(shù)值型的樣本數(shù)據(jù)(全部樣本數(shù)據(jù)見附錄六),然后剔除掉含有缺失值的35項(xiàng)樣本數(shù)據(jù),依然利用MATLAB提供的BP神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行樣本的測算(程序代碼見附錄七),得到的結(jié)果(附錄八)整理如下表:表6-1:問題二的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練和檢測訓(xùn)練樣本的準(zhǔn)確度測試樣本的準(zhǔn)確度平均值87%83.03%由表6-1可知,我們對所提的BP神經(jīng)網(wǎng)絡(luò)的方法檢驗(yàn),用隨機(jī)選取的300個(gè)樣本進(jìn)行的訓(xùn)練樣本的準(zhǔn)確度達(dá)到87%,用剩下的165個(gè)測試樣本的準(zhǔn)確度

30、檢驗(yàn)更是達(dá)到了83.03%,準(zhǔn)確率相對第一問來說,指標(biāo)增加的情況下準(zhǔn)確度有所提高具有一定可信度。因此,運(yùn)用BP神經(jīng)網(wǎng)絡(luò)對于判別居民年收入是否超過50K的方法具有一定的可靠性。 6.2 問題二模型的檢驗(yàn)為了驗(yàn)證我們在問題二中BP神經(jīng)網(wǎng)絡(luò)模型的正確性,我們輸入附錄三中200個(gè)居民樣本數(shù)據(jù),為了保證樣本的完整性和不失數(shù)據(jù)的一般性,對于其中的缺失值我們以眾數(shù)替代,基于MATLAB的進(jìn)行BP神經(jīng)網(wǎng)絡(luò)運(yùn)算(程序代碼見附錄九),得到的結(jié)果如下:表6-2:對附錄三中200個(gè)居民數(shù)據(jù)的預(yù)測檢驗(yàn)?zāi)晔杖虢y(tǒng)計(jì)對應(yīng)的具體居民占比>50k562 6 18 20 21 23 24 25 28 29 37 38 40

31、43 45 46 49 50 51 59 60 62 65 67 72 74 75 82 86 87 91 95 101 104 108 109 118 119 126 128 139 140 147 151 155 161 172 173 175 177 178 179 188 189 199 20028%<=50k1441 3 4 5 7 8 9 10 11 12 13 14 15 16 17 19 22 26 27 30 31 32 33 34 35 36 39 41 42 44 47 48 52 53 54 55 56 57 58 61 63 64 66 68 69 70 71

32、73 76 77 78 79 80 81 83 84 85 88 89 90 92 93 94 96 97 98 99 100 102 103 105 106 107 110 111 112 113 114 115 116 117 120 121 122 123 124 125 127 129 130 131 132 133 134 135 136 137 138 141 142 143 144 145 146 148 149 150 152 153 154 156 157 158 159 160 162 163 164 165 166 167 168 169 170 171 174 176

33、180 181 182 183 184 185 186 187 190 191 192 193 194 195 196 197 19872%總和200200100%由表6-2可知,在附錄三中200個(gè)居民樣本中,年收入大于50K的有56人,占比28%;年收入小于等于50K的有144人,占比72%。相比較于附錄一所給的500個(gè)樣本數(shù)據(jù)中,年收入超過50K的有57人,占比28.6%;年收入小于等于50K的有357人,占比71.4%。圖6:預(yù)測組值與實(shí)際組值的對比由圖6可以更加直觀的看到預(yù)測與實(shí)際值之間占比浮動(dòng)小,再次說明我們的預(yù)測方法具有較高的可信度。7 問題三的解答判斷居民收入是否超過50k的潛在

34、影響因素眾多,題目給出了15個(gè)可能影響收入的條件指標(biāo)因素,在不影響判別準(zhǔn)確性的前提下,精簡指標(biāo)信息在信息膨脹的今天顯得很有必要。問題三中我們運(yùn)用主成分分析法進(jìn)行指標(biāo)的精簡,確定影響居民收入是否超過50K的關(guān)鍵指標(biāo)。7.1 主成分的基本思想主成分分析旨在利用降維的思想,設(shè)法將原來眾多的具有一定相關(guān)性的指標(biāo),重新組合成一組新的互補(bǔ)相關(guān)的綜合指標(biāo)來代替原來指標(biāo).通常數(shù)學(xué)上的處理就是將原來的個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。線性組合的選取應(yīng)遵循以下準(zhǔn)則:在所有線性組合中所選取的應(yīng)該是方差最大的,故稱為第一主成分。如果第一主成分不足以代表原來個(gè)指標(biāo)的信息,再考慮選取即選第二個(gè)線性組合.為了有效的反映原

35、有信息,已有的信息就不需要再出現(xiàn)在中,用數(shù)學(xué)的語言表達(dá)就是要求,稱為第一主成分,依次類推可以構(gòu)造出第三、第四、第個(gè)主成分。7.2問題三模型的建立我們以附錄二中的500組數(shù)據(jù)為樣本數(shù)據(jù),記表示以從age到native-country的16個(gè)信息特征為指標(biāo),記得到原始數(shù)據(jù)矩陣。(1)樣本數(shù)據(jù)標(biāo)準(zhǔn)化為為了消除各項(xiàng)因素之間在量綱化和數(shù)量級(jí)上的差別,對樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化矩陣,用標(biāo)準(zhǔn)化后的數(shù)據(jù)代替,得:;其中,為因素 的平均數(shù), 為因素 的標(biāo)準(zhǔn)差。(2)根據(jù)標(biāo)準(zhǔn)化矩陣建立相關(guān)系數(shù)矩陣相關(guān)系數(shù)矩陣是反映標(biāo)準(zhǔn)化后的數(shù)據(jù)之間的相關(guān)關(guān)系的密切程度的統(tǒng)計(jì)指標(biāo),值越大,說明有必要對數(shù)據(jù)進(jìn)行主成分分析。由于

36、矩陣是一個(gè)實(shí)對稱矩陣,故;其中,。(3)根據(jù)相關(guān)系數(shù)矩陣求特征值及正交化單位特征向量求解相關(guān)系數(shù)矩陣的特征方程,得到特征值,由于是一個(gè)正定矩陣,故其特征值均為正數(shù),將其按從大到小的數(shù)序排列得。將特征值帶入方程,求得對應(yīng)的特征向量,由于正交化單位特征向量,故(4)選擇重要的主成分,并寫出主成分表達(dá)式 主成分分析可以得到個(gè)主成分,但是由于各個(gè)主成分的方差是遞減的,包含的信息量也是遞減的,所以實(shí)際分析時(shí),一般不是選取p個(gè)主成分,而是根據(jù)各個(gè)主成分累計(jì)貢獻(xiàn)率的大小選取前k個(gè)主成分,這里貢獻(xiàn)率就是指某個(gè)主成分的方差占全部方差的比重,實(shí)際也就是某個(gè)特征值占全部特征值合計(jì)的比重。即得到貢獻(xiàn)率若貢獻(xiàn)率越大,說

37、明該主成分所包含的原始變量的信息越強(qiáng)。主成分個(gè)數(shù)k的選取,主要根據(jù)主成分的累積貢獻(xiàn)率來決定,即一般要求累計(jì)貢獻(xiàn)率達(dá)到85%以上,這樣才能保證綜合變量能包括原始變量的絕大多數(shù)信息。 (5)計(jì)算主成分得分計(jì)算個(gè)樣品在個(gè)主成分上的得分如下:綜合評(píng)價(jià)函數(shù)(6)綜合評(píng)價(jià)函數(shù)每個(gè)主成分的貢獻(xiàn)率為綜上所述,我們得到模型如下:7.3模型的求解(1)數(shù)據(jù)KMO檢驗(yàn)和巴特利球體檢驗(yàn)我們依然采用附錄二中的數(shù)據(jù),即剔除了35個(gè)缺失值的居民的全部屬性信息,用SPSS軟件求解,因?yàn)镾PSS做主成分分析數(shù)據(jù)時(shí)首先進(jìn)行KMO檢驗(yàn)和巴特利球體檢驗(yàn),KMO檢驗(yàn)系數(shù)>0.5,P值(最后一行Sig為球星檢驗(yàn)的P值)<0.

38、05時(shí),數(shù)據(jù)才有結(jié)構(gòu)效度,才能進(jìn)行主成分分析。我們對居民收入信息中所給的信息得到的KMO檢驗(yàn)系數(shù)為0.542(結(jié)果見附錄十)>0.5,P值=0.000,所以數(shù)據(jù)具有結(jié)構(gòu)效度,可以做主成分分析。(2)主成分個(gè)數(shù)的確定數(shù)據(jù)具備做因子分析的前提條件,運(yùn)用SPSS做得的相關(guān)系數(shù)矩陣的特征值及所有主成分的貢獻(xiàn)率情況,如下表所示:表7-1:特征值及貢獻(xiàn)率主成分特征值貢獻(xiàn)率累計(jì)貢獻(xiàn)率12.10515.03715.03721.82913.06528.10231.3449.59837.741.2528.94246.64251.0747.6754.31261.0697.63761.94971.0377.40

39、969.35880.9096.4975.84890.8436.02381.87100.7975.6987.56110.6724.892.36120.6264.4796.831130.4443.169100142.31E-151.65E-14100由表可知,主成分F1.。F7特征值均大于1,故可以確定主成分的個(gè)數(shù)m=7(3)主成分的系數(shù)分析確定主成分后,我們在SPSS里得到主成分對每個(gè)原指標(biāo)的相關(guān)系數(shù),如下表:表7-2:主成分矩陣系數(shù)屬性成份1234567age.273-.128.187.573-.189-.165-.295workclass.039-.115.666-.010.119.238-

40、.307fnlwgt.011.253-.285-.035.128.522.342education.070.139-.160.649.340.187-.186education-num.267-.376.468-.327-.314.073.114marital-status-.350.667.246-.077-.143.001.252occupation-.068.055.376-.218.710-.059.119relationship-.073.517.344.428-.229.038.390race-.035.279.081-.154.044.610-.446sex-.208.578.2

41、31-.070-.205-.161-.325capital-gain.926.324-.055-.118-.010-.006.011capital-loss.002-.353-.038.084-.373.512.107hours-per-week.923.341-.053-.122.009-.033.005native-country.257-.318.391.304.184.078.382根據(jù)表7-2,通過比較每個(gè)主成分關(guān)于原指標(biāo)的系數(shù)絕對值,我們得到以下結(jié)論:第一主成分與caption-gain、hours-per-week 等屬性強(qiáng)相關(guān),第二主成分與marital婚姻狀態(tài)、relatio

42、nship關(guān)系、sex性別等屬性強(qiáng)相關(guān),第三主成分與workclass屬性相關(guān),第四主成分與age年齡、education教育等屬性強(qiáng)相關(guān),第五主成分與職業(yè)強(qiáng)相關(guān),第六主成分與fnlwgt、種族、資產(chǎn)損失等屬性強(qiáng)相關(guān),第七主成分與race種族屬性相關(guān)。(4)根據(jù)表達(dá)式計(jì)算個(gè)主成分對原指標(biāo)的相關(guān)系數(shù)為保證原來數(shù)據(jù)的信息最大程度的保留,故將特征值大于1的前面幾個(gè)指標(biāo)定為關(guān)鍵指標(biāo),如下表:表7-3:對應(yīng)特征值的特征向量1234567age0.188-0.0950.1610.512-0.182-0.16-0.29workclass0.027-0.0850.574-0.0090.1150.23-0.30

43、1fnlwgt0.0760.187-0.2460.0310.1240.5050.336education0.0480.103-0.1380.580.3280.181-0.183education-num0.184-0.2780.404-0.292-0.3030.0710.112marital-status-0.2410.4930.212-0.069-0.1380.0010.247occupation-0.0470.0410.324-0.1950.6860.0570.117relationship-0.050.3820.2970.383-0.2210.0370.383race-0.0240.20

44、60.07-0.1380.0420.59-0.438sex-0.1430.4270.199-0.063-0.198-0.156-0.319capital-gain0.6380.24-0.047-0.105-0.01-0.0060.011capital-loss0.001-0.261-0.0330.0750.360.4950.105hours-per-week0.6360.252-0.0460.1090.0090.0320.005native-country0.177-0.2350.3370.2720.1780.0750.375所以得到主成分對原指標(biāo)的相關(guān)系數(shù)函數(shù): 而每個(gè)主成分的貢獻(xiàn)率為表7-

45、4:主成分的貢獻(xiàn)率w占比w10.2168w20.1884w30.1384w40.1379w50.1183w60.1101w70.1068則綜合評(píng)價(jià)函數(shù),如下表:表7-5:綜合評(píng)價(jià)得分1234567綜合評(píng)價(jià)得分age0.188-0.0950.1610.512-0.182-0.16-0.290.045629workclass0.027-0.0850.574-0.0090.1150.23-0.3010.0748208fnlwgt0.0760.187-0.2460.0310.1240.5050.3360.1280906education0.0480.103-0.1380.580.3280.181-0.

46、1830.1298805education-num0.184-0.2780.404-0.292-0.3030.0710.112-0.0129034marital-status-0.2410.4930.212-0.069-0.1380.0010.2470.0706224occupation-0.0470.0410.324-0.1950.6860.0570.1170.115411relationship-0.050.3820.2970.383-0.2210.0370.3830.1738831race-0.0240.2060.07-0.1380.0420.59-0.4380.0474142sex-0

47、.1430.4270.199-0.063-0.198-0.156-0.319-0.0063699capital-gain0.6380.24-0.047-0.105-0.01-0.0060.0110.1618813capital-loss0.001-0.261-0.0330.0750.360.4950.1050.0651212hours-per-week0.6360.252-0.0460.1090.0090.0320.0050.1991482native-country0.177-0.2350.3370.2720.1780.0750.3750.1476141主成分得分系數(shù)0.21680.1884

48、0.13840.13790.11830.11010.1068根據(jù)綜合得分對其進(jìn)行排序如下表:表7-6: 綜合得分排序影響因素綜合得分貢獻(xiàn)率累計(jì)貢獻(xiàn)率相關(guān)性hours-per-week 0.1991482 0.1444341140.144正相關(guān)relationship 0.1738831 0.1261103610.27正相關(guān)capital-gain 0.1618813 0.1174059420.387正相關(guān)native-country 0.1476141 0.1070585210.494正相關(guān)education 0.1298805 0.094197060.588正相關(guān)fnlwgt 0.1280906 0.0928989180.681正相關(guān)occupation 0.115411 0.0837029180.765正相關(guān)workclass 0.0748208 0.0542644920.819正相關(guān)marital-status 0.0706224 0.0512195630.87正相關(guān)capital-loss 0.0651212 0.0472297660.92正相關(guān)race 0.04744142 0.0344073380.954正相關(guān)age 0.045629 0.0330928

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論