泰坦尼克號乘客遇難預(yù)測分析_第1頁
泰坦尼克號乘客遇難預(yù)測分析_第2頁
泰坦尼克號乘客遇難預(yù)測分析_第3頁
泰坦尼克號乘客遇難預(yù)測分析_第4頁
泰坦尼克號乘客遇難預(yù)測分析_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、    泰坦尼克號乘客遇難預(yù)測分析    撒宇航摘 要:在機(jī)器學(xué)習(xí)中,有兩大類常見的問題,一類為回歸問題,另外一類為分類問題。對于回歸問題的解決,常見的方法有線性回歸,隨機(jī)森林等。而針對分類問題,有knn,logsitic,svm,神經(jīng)網(wǎng)絡(luò)等算法。不同的算法在不同的問題中具有不同的效果。因此,本研究通過具體的實(shí)例“泰坦尼克號乘客遇難預(yù)測”,通過運(yùn)用機(jī)器學(xué)習(xí)中的不同分類模型來分析乘客的存活是運(yùn)氣原因,還是存在一定的規(guī)律性。通過該對問題的研究,比較了不同機(jī)器學(xué)習(xí)分類模型的差異性以及優(yōu)缺點(diǎn)。關(guān)鍵詞:遇難乘客預(yù)測;knn;svm;邏輯回歸;神經(jīng)網(wǎng)絡(luò)泰坦尼克號的沉

2、沒是歷史上具有廣泛影響的沉船事件之一,1912年4月15日,在首次航行期間,泰坦尼克號撞上冰山后沉沒,2224名乘客和機(jī)組人員中有1502人遇難。這場轟動的悲劇震撼了國際社會。雖然幸存下來的人存在一些運(yùn)氣方面的因素,但有一些人比其他人更有可能生存,比如婦女,兒童和上層階級。我們的目標(biāo)便是根據(jù)每位乘客的性別,年齡,艙位等相關(guān)特征,來預(yù)測該乘客是否會在該次乘船事故中存活下來。訓(xùn)練集以及測試集,我們總共有900名左右的乘客數(shù)據(jù),每位乘客包括10個特征,包括pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarke。我們將拿出600名乘客數(shù)據(jù)作為

3、我們的訓(xùn)練集,剩余的300名乘客的數(shù)據(jù),用來作為我們的測試集,用于檢驗(yàn)訓(xùn)練出的模型的性能。一、分類模型構(gòu)建(一) knn模型(1) knn模型原理。knn(k nearest neighbor)算法,又叫作k領(lǐng)近算法,是機(jī)器學(xué)習(xí)中一種常見的分類算法之一。其中的k表示待測樣本最近的k個鄰居。在1968年,cover和hart提出了knn算法,這是一個在理論上比較成熟的方法1。knn算法的訓(xùn)練過程是將所有的訓(xùn)練集映射在特征空間中,測試過程將待測試樣本,計算每個樣本與訓(xùn)練集樣本的歐氏距離,然后對所有距離進(jìn)行排序,從中挑選出最近的k個樣本,在k個樣本中,采用基本投票原則,票數(shù)最多的類別作為待測樣本的類

4、別。在我們的泰坦尼克號問題中,訓(xùn)練集一共含有600名乘客的特征數(shù)據(jù),將它們映射到特征空間當(dāng)中。測試階段,我們將測試集的300個乘客數(shù)據(jù),分別計算與600名乘客的歐幾里得距離,從中挑選出最近的k個距離后,采用投票原則,將票數(shù)最多的類別作為待測樣本的類別。(2) 結(jié)果分析。我們調(diào)用了sklearn中集成的knn模型,在訓(xùn)練集上進(jìn)行了訓(xùn)練,并且嘗試了不同的k取值,在該問題上的正確率。我們分別測試了當(dāng)k 取5,10,15,20時模型的結(jié)果。測試的結(jié)果顯示,在上述4種k的取值下,在測試集上的正確率分別為79.3%,81.7%,83.1%,82.4%。由此可見,在泰坦尼克號這個問題上,當(dāng)k取值在15左右時

5、,模型的結(jié)果較好。關(guān)于knn模型中k值的不同選擇:當(dāng)k值較小時,預(yù)測結(jié)果對近鄰的實(shí)例點(diǎn)非常敏感,容易發(fā)生過擬合;如果k值過大模型會傾向大類,容易欠擬合;通常k是不大于20的整數(shù)。knn算法的優(yōu)點(diǎn)是精度高,對異常值不敏感。但是缺點(diǎn)是對k的取值相對比較敏感,不同的k取值對模型產(chǎn)生的結(jié)果可能差異性非常的明顯。另一方面,由于我們的訓(xùn)練集的大小僅僅為600個樣本,而對于其他的一些機(jī)器學(xué)習(xí)應(yīng)用,我們的數(shù)據(jù)集可能十分巨大,特征維數(shù)也會十分巨大,會造成knn算法的運(yùn)行速度緩慢,因?yàn)槊款A(yù)測一個樣本,就要計算該樣本與訓(xùn)練集中的所有的樣本距離,還要對所有距離進(jìn)行排序,這會大大提高算法運(yùn)行的時間,降低knn算法的效率

6、,所以一般knn算法只適用于數(shù)據(jù)集比較小的情況。(二)邏輯回歸模型(1) 邏輯回歸模型原理。邏輯回歸是現(xiàn)今的工業(yè)界中一種常見的分類模型,對于大多數(shù)的問題都夠取得相當(dāng)不錯的結(jié)果。邏輯回歸的基本原理是使用邏輯回歸函數(shù)來作為我們的預(yù)測函數(shù),去預(yù)測在給定特征下,樣本屬于每個類別的概率。在訓(xùn)練階段,通過梯度下降算法,不斷的降低交叉熵代價函數(shù),提高在訓(xùn)練集上的準(zhǔn)確率。同時,我們加入了l1正則化,可以避免模型陷入過擬合。(2)結(jié)果分析。通過在訓(xùn)練的過程中加入的l1正則化項(xiàng),我們的模型基本沒有發(fā)生過擬合,在訓(xùn)練集上的準(zhǔn)確率達(dá)到了79.8%,在測試集上達(dá)到了81.7%的正確率,取得了良好的性能。邏輯回歸的優(yōu)點(diǎn)是

7、在于簡單,訓(xùn)練速度相對于knn模型快很多。但是其一般更適合用于線性可分的問題當(dāng)中,而對于一些線性不可分的問題中,采用更復(fù)雜的非線性模型可能會取得更好的效果。(三)svm模型(1) svm模型原理。支持向量機(jī)(support vector machine,svm),是機(jī)器學(xué)習(xí)分類算法中一種綜合性能十分優(yōu)秀的模型。其不僅能處理線性可分的問題,引入的核函數(shù),還能夠處理線性不可分的問題。大大提高了模型的泛化能力。近年來,由于其性能優(yōu)異,被廣泛的運(yùn)用在各種分類問題中。svm可以理解為是邏輯回歸的改進(jìn),對于邏輯回歸模型來講,由于存在無數(shù)個可能的解,解不唯一。即存在無數(shù)個超平面將數(shù)據(jù)分割開來,因此算法得到的

8、解可能不一定是最優(yōu)的。而svm算法能從這無數(shù)個超平面中,選取一個最大間隔的超平面,使模型的泛化能力更強(qiáng)。svm主要適用于兩種情況。第一類是線性可分?jǐn)?shù)據(jù),第二類是線性不可分?jǐn)?shù)據(jù)。對于線性可分?jǐn)?shù)據(jù),采用了核技巧,將數(shù)據(jù)從低維空間映射到高維空間,再通過松弛變量等技術(shù)使數(shù)據(jù)變的線性可分。(2) svm模型的核函數(shù)。對于線性可分的數(shù)據(jù),普通的svm可以取得很好的效果。但在現(xiàn)實(shí)世界里,存在著很多非線性可分的數(shù)據(jù)。這個時候,普通的svm就不太適用。但是可以通過一定的核技巧,將數(shù)據(jù)從低維空間映射到高維度空間。此時,線性不可分?jǐn)?shù)據(jù)就可能變成線性可分?jǐn)?shù)據(jù),核函數(shù)用來計算兩個低維空間的向量在高維空間的內(nèi)積,只要滿足

9、mercer 條件的函數(shù),都可以作為核函數(shù)。常見的核函數(shù)有線性核函數(shù),高斯核函數(shù),多項(xiàng)式核函數(shù)等。(3) 結(jié)果分析。當(dāng)訓(xùn)練集數(shù)目比較小時,svm算法一般能夠取得很好的效果。但是當(dāng)訓(xùn)練集數(shù)目比較多時,svm比較容易陷入過擬合,所以需要采用一定的正則化措施來緩解過擬合。因此我們使用了sklearn中帶有核函數(shù)的svm,在包含有600個樣本的訓(xùn)練集上經(jīng)過一段時間的訓(xùn)練后,最終得到的支持向量個數(shù)為298個??梢钥吹酱蟾庞?0%的訓(xùn)練樣本為支持向量。我們采用了不同的核函數(shù)來檢驗(yàn)?zāi)P偷男Ч瑢?shí)驗(yàn)結(jié)果表明,不同的核函數(shù)在該問題上的差異性不顯著。最終我們采用了帶有高斯核函數(shù)的svm,在訓(xùn)練集上的正確率為81.

10、8%,在測試集中進(jìn)行測試時,得到了83.5%的正確率。從訓(xùn)練集和測試集上的正確率來看,模型基本上沒有發(fā)生過擬合。svm也是在包含上述一系列的分類模型中,所達(dá)到的正確率比較高的模型,因此可見,svm模型是效果非常好的一個分類模型。(四)神經(jīng)網(wǎng)絡(luò)模型(1)神經(jīng)網(wǎng)絡(luò)模型原理。神經(jīng)網(wǎng)絡(luò)是基于生物學(xué)中神經(jīng)網(wǎng)絡(luò)的基本原理,對人類大腦工作過程的一個簡單的模擬。它能夠通過一定的學(xué)習(xí)算法,學(xué)到一個非常復(fù)雜的非線性模型。當(dāng)數(shù)據(jù)量比較大時,具有十分強(qiáng)大的泛化能力。神經(jīng)網(wǎng)絡(luò)通過將多個神經(jīng)元通過一定的聯(lián)結(jié)方式連接在一起,構(gòu)成一個運(yùn)算模型。每個神經(jīng)元節(jié)點(diǎn)的輸入是上一層神經(jīng)元輸入的線性組合,然后加上激活函數(shù)后,作為該個神經(jīng)

11、元的輸出。常用的激活函數(shù)有sigmoid,tanh,relu等。每兩個神經(jīng)元之間,具有一個權(quán)重值w。神經(jīng)網(wǎng)絡(luò)就是通過激活函數(shù),權(quán)重,聯(lián)結(jié)方式來模擬人類大腦的學(xué)習(xí)記憶功能。神經(jīng)網(wǎng)絡(luò)在工作時,首先通過前向傳播計算代價函數(shù)值,然后通過反向傳播算法計算代價函數(shù)的梯度值,最后通過一定的優(yōu)化算法,更新神經(jīng)網(wǎng)絡(luò)的每一層的權(quán)重矩陣w。在我們的泰坦尼克號乘客遇難問題中,每個乘客在經(jīng)過預(yù)處理后,有14個特征,所以我們的神經(jīng)網(wǎng)絡(luò)的輸入層一共含有14個神經(jīng)元,第二層網(wǎng)絡(luò)具有32個神經(jīng)元,第三層網(wǎng)絡(luò)具有64個神經(jīng)元,輸出層含有一個神經(jīng)元。在這個問題上,我們建立了一個具有多層感知機(jī)的神經(jīng)網(wǎng)絡(luò)來進(jìn)行預(yù)測,并且添加了相應(yīng)的正

12、則化項(xiàng)來防止模型的過擬合。(2) 結(jié)果分析。我們通過構(gòu)建了一個三層的感知機(jī)神經(jīng)網(wǎng)絡(luò),對600個訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,最終在訓(xùn)練集上取得了85.8%的正確率,在測試集上取得了83.5%的正確率,基本和svm得到的結(jié)果不相上下。實(shí)質(zhì)上,神經(jīng)網(wǎng)絡(luò)更適合處理特征數(shù)目很多,訓(xùn)練集數(shù)目很大的情況,而在泰坦尼克號這個問題上,由于我們只有幾百個訓(xùn)練樣本,每個樣本只有十幾個特征。因此,雖然結(jié)果表現(xiàn)不錯,但是沒有真正體現(xiàn)出神經(jīng)網(wǎng)絡(luò)強(qiáng)大的泛化能力,沒有體現(xiàn)出多層神經(jīng)網(wǎng)絡(luò)的主要優(yōu)勢。三、結(jié)語本項(xiàng)目通過具體的實(shí)例“泰坦尼克號乘客遇難預(yù)測分析”,對該問題分別采用了knn模型,邏輯回歸模型,svm模型以及神經(jīng)網(wǎng)絡(luò)模型。在該問題的同一測試集上,最優(yōu)模型分別取得了79%,81.7%,83.5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論