泰坦尼克號乘客遇難預(yù)測分析

上傳人：灰*** IP屬地：寧夏上傳時間：2021-12-08 格式：DOCX 頁數(shù)：7 大?。?8.77KB 積分：10.8 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、泰坦尼克號乘客遇難預(yù)測分析撒宇航摘要：在機(jī)器學(xué)習(xí)中，有兩大類常見的問題，一類為回歸問題，另外一類為分類問題。對于回歸問題的解決，常見的方法有線性回歸，隨機(jī)森林等。而針對分類問題，有knn，logsitic，svm，神經(jīng)網(wǎng)絡(luò)等算法。不同的算法在不同的問題中具有不同的效果。因此，本研究通過具體的實(shí)例“泰坦尼克號乘客遇難預(yù)測”，通過運(yùn)用機(jī)器學(xué)習(xí)中的不同分類模型來分析乘客的存活是運(yùn)氣原因，還是存在一定的規(guī)律性。通過該對問題的研究，比較了不同機(jī)器學(xué)習(xí)分類模型的差異性以及優(yōu)缺點(diǎn)。關(guān)鍵詞：遇難乘客預(yù)測;knn;svm;邏輯回歸;神經(jīng)網(wǎng)絡(luò)泰坦尼克號的沉

2、沒是歷史上具有廣泛影響的沉船事件之一，1912年4月15日，在首次航行期間，泰坦尼克號撞上冰山后沉沒，2224名乘客和機(jī)組人員中有1502人遇難。這場轟動的悲劇震撼了國際社會。雖然幸存下來的人存在一些運(yùn)氣方面的因素，但有一些人比其他人更有可能生存，比如婦女，兒童和上層階級。我們的目標(biāo)便是根據(jù)每位乘客的性別，年齡，艙位等相關(guān)特征，來預(yù)測該乘客是否會在該次乘船事故中存活下來。訓(xùn)練集以及測試集，我們總共有900名左右的乘客數(shù)據(jù)，每位乘客包括10個特征，包括pclass，name，sex，age，sibsp，parch，ticket，fare，cabin，embarke。我們將拿出600名乘客數(shù)據(jù)作為

3、我們的訓(xùn)練集，剩余的300名乘客的數(shù)據(jù)，用來作為我們的測試集，用于檢驗(yàn)訓(xùn)練出的模型的性能。一、分類模型構(gòu)建（一） knn模型（1） knn模型原理。knn（k nearest neighbor）算法，又叫作k領(lǐng)近算法，是機(jī)器學(xué)習(xí)中一種常見的分類算法之一。其中的k表示待測樣本最近的k個鄰居。在1968年，cover和hart提出了knn算法，這是一個在理論上比較成熟的方法1。knn算法的訓(xùn)練過程是將所有的訓(xùn)練集映射在特征空間中，測試過程將待測試樣本，計算每個樣本與訓(xùn)練集樣本的歐氏距離，然后對所有距離進(jìn)行排序，從中挑選出最近的k個樣本，在k個樣本中，采用基本投票原則，票數(shù)最多的類別作為待測樣本的類

4、別。在我們的泰坦尼克號問題中，訓(xùn)練集一共含有600名乘客的特征數(shù)據(jù)，將它們映射到特征空間當(dāng)中。測試階段，我們將測試集的300個乘客數(shù)據(jù)，分別計算與600名乘客的歐幾里得距離，從中挑選出最近的k個距離后，采用投票原則，將票數(shù)最多的類別作為待測樣本的類別。（2）結(jié)果分析。我們調(diào)用了sklearn中集成的knn模型，在訓(xùn)練集上進(jìn)行了訓(xùn)練，并且嘗試了不同的k取值，在該問題上的正確率。我們分別測試了當(dāng)k 取5，10，15，20時模型的結(jié)果。測試的結(jié)果顯示，在上述4種k的取值下，在測試集上的正確率分別為79.3%，81.7%，83.1%，82.4%。由此可見，在泰坦尼克號這個問題上，當(dāng)k取值在15左右時

5、，模型的結(jié)果較好。關(guān)于knn模型中k值的不同選擇：當(dāng)k值較小時，預(yù)測結(jié)果對近鄰的實(shí)例點(diǎn)非常敏感，容易發(fā)生過擬合;如果k值過大模型會傾向大類，容易欠擬合;通常k是不大于20的整數(shù)。knn算法的優(yōu)點(diǎn)是精度高，對異常值不敏感。但是缺點(diǎn)是對k的取值相對比較敏感，不同的k取值對模型產(chǎn)生的結(jié)果可能差異性非常的明顯。另一方面，由于我們的訓(xùn)練集的大小僅僅為600個樣本，而對于其他的一些機(jī)器學(xué)習(xí)應(yīng)用，我們的數(shù)據(jù)集可能十分巨大，特征維數(shù)也會十分巨大，會造成knn算法的運(yùn)行速度緩慢，因?yàn)槊款A(yù)測一個樣本，就要計算該樣本與訓(xùn)練集中的所有的樣本距離，還要對所有距離進(jìn)行排序，這會大大提高算法運(yùn)行的時間，降低knn算法的效率

6、，所以一般knn算法只適用于數(shù)據(jù)集比較小的情況。（二）邏輯回歸模型（1）邏輯回歸模型原理。邏輯回歸是現(xiàn)今的工業(yè)界中一種常見的分類模型，對于大多數(shù)的問題都夠取得相當(dāng)不錯的結(jié)果。邏輯回歸的基本原理是使用邏輯回歸函數(shù)來作為我們的預(yù)測函數(shù)，去預(yù)測在給定特征下，樣本屬于每個類別的概率。在訓(xùn)練階段，通過梯度下降算法，不斷的降低交叉熵代價函數(shù)，提高在訓(xùn)練集上的準(zhǔn)確率。同時，我們加入了l1正則化，可以避免模型陷入過擬合。（2）結(jié)果分析。通過在訓(xùn)練的過程中加入的l1正則化項(xiàng)，我們的模型基本沒有發(fā)生過擬合，在訓(xùn)練集上的準(zhǔn)確率達(dá)到了79.8%，在測試集上達(dá)到了81.7%的正確率，取得了良好的性能。邏輯回歸的優(yōu)點(diǎn)是

7、在于簡單，訓(xùn)練速度相對于knn模型快很多。但是其一般更適合用于線性可分的問題當(dāng)中，而對于一些線性不可分的問題中，采用更復(fù)雜的非線性模型可能會取得更好的效果。（三）svm模型（1） svm模型原理。支持向量機(jī)（support vector machine，svm），是機(jī)器學(xué)習(xí)分類算法中一種綜合性能十分優(yōu)秀的模型。其不僅能處理線性可分的問題，引入的核函數(shù)，還能夠處理線性不可分的問題。大大提高了模型的泛化能力。近年來，由于其性能優(yōu)異，被廣泛的運(yùn)用在各種分類問題中。svm可以理解為是邏輯回歸的改進(jìn)，對于邏輯回歸模型來講，由于存在無數(shù)個可能的解，解不唯一。即存在無數(shù)個超平面將數(shù)據(jù)分割開來，因此算法得到的

8、解可能不一定是最優(yōu)的。而svm算法能從這無數(shù)個超平面中，選取一個最大間隔的超平面，使模型的泛化能力更強(qiáng)。svm主要適用于兩種情況。第一類是線性可分?jǐn)?shù)據(jù)，第二類是線性不可分?jǐn)?shù)據(jù)。對于線性可分?jǐn)?shù)據(jù)，采用了核技巧，將數(shù)據(jù)從低維空間映射到高維空間，再通過松弛變量等技術(shù)使數(shù)據(jù)變的線性可分。（2） svm模型的核函數(shù)。對于線性可分的數(shù)據(jù)，普通的svm可以取得很好的效果。但在現(xiàn)實(shí)世界里，存在著很多非線性可分的數(shù)據(jù)。這個時候，普通的svm就不太適用。但是可以通過一定的核技巧，將數(shù)據(jù)從低維空間映射到高維度空間。此時，線性不可分?jǐn)?shù)據(jù)就可能變成線性可分?jǐn)?shù)據(jù)，核函數(shù)用來計算兩個低維空間的向量在高維空間的內(nèi)積，只要滿足

9、mercer 條件的函數(shù)，都可以作為核函數(shù)。常見的核函數(shù)有線性核函數(shù)，高斯核函數(shù)，多項(xiàng)式核函數(shù)等。（3）結(jié)果分析。當(dāng)訓(xùn)練集數(shù)目比較小時，svm算法一般能夠取得很好的效果。但是當(dāng)訓(xùn)練集數(shù)目比較多時，svm比較容易陷入過擬合，所以需要采用一定的正則化措施來緩解過擬合。因此我們使用了sklearn中帶有核函數(shù)的svm，在包含有600個樣本的訓(xùn)練集上經(jīng)過一段時間的訓(xùn)練后，最終得到的支持向量個數(shù)為298個?？梢钥吹酱蟾庞?0%的訓(xùn)練樣本為支持向量。我們采用了不同的核函數(shù)來檢驗(yàn)?zāi)Ｐ偷男Ч瑢?shí)驗(yàn)結(jié)果表明，不同的核函數(shù)在該問題上的差異性不顯著。最終我們采用了帶有高斯核函數(shù)的svm，在訓(xùn)練集上的正確率為81.

10、8%，在測試集中進(jìn)行測試時，得到了83.5%的正確率。從訓(xùn)練集和測試集上的正確率來看，模型基本上沒有發(fā)生過擬合。svm也是在包含上述一系列的分類模型中，所達(dá)到的正確率比較高的模型，因此可見，svm模型是效果非常好的一個分類模型。（四）神經(jīng)網(wǎng)絡(luò)模型（1）神經(jīng)網(wǎng)絡(luò)模型原理。神經(jīng)網(wǎng)絡(luò)是基于生物學(xué)中神經(jīng)網(wǎng)絡(luò)的基本原理，對人類大腦工作過程的一個簡單的模擬。它能夠通過一定的學(xué)習(xí)算法，學(xué)到一個非常復(fù)雜的非線性模型。當(dāng)數(shù)據(jù)量比較大時，具有十分強(qiáng)大的泛化能力。神經(jīng)網(wǎng)絡(luò)通過將多個神經(jīng)元通過一定的聯(lián)結(jié)方式連接在一起，構(gòu)成一個運(yùn)算模型。每個神經(jīng)元節(jié)點(diǎn)的輸入是上一層神經(jīng)元輸入的線性組合，然后加上激活函數(shù)后，作為該個神經(jīng)

11、元的輸出。常用的激活函數(shù)有sigmoid，tanh，relu等。每兩個神經(jīng)元之間，具有一個權(quán)重值w。神經(jīng)網(wǎng)絡(luò)就是通過激活函數(shù)，權(quán)重，聯(lián)結(jié)方式來模擬人類大腦的學(xué)習(xí)記憶功能。神經(jīng)網(wǎng)絡(luò)在工作時，首先通過前向傳播計算代價函數(shù)值，然后通過反向傳播算法計算代價函數(shù)的梯度值，最后通過一定的優(yōu)化算法，更新神經(jīng)網(wǎng)絡(luò)的每一層的權(quán)重矩陣w。在我們的泰坦尼克號乘客遇難問題中，每個乘客在經(jīng)過預(yù)處理后，有14個特征，所以我們的神經(jīng)網(wǎng)絡(luò)的輸入層一共含有14個神經(jīng)元，第二層網(wǎng)絡(luò)具有32個神經(jīng)元，第三層網(wǎng)絡(luò)具有64個神經(jīng)元，輸出層含有一個神經(jīng)元。在這個問題上，我們建立了一個具有多層感知機(jī)的神經(jīng)網(wǎng)絡(luò)來進(jìn)行預(yù)測，并且添加了相應(yīng)的正

12、則化項(xiàng)來防止模型的過擬合。（2）結(jié)果分析。我們通過構(gòu)建了一個三層的感知機(jī)神經(jīng)網(wǎng)絡(luò)，對600個訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練，最終在訓(xùn)練集上取得了85.8%的正確率，在測試集上取得了83.5%的正確率，基本和svm得到的結(jié)果不相上下。實(shí)質(zhì)上，神經(jīng)網(wǎng)絡(luò)更適合處理特征數(shù)目很多，訓(xùn)練集數(shù)目很大的情況，而在泰坦尼克號這個問題上，由于我們只有幾百個訓(xùn)練樣本，每個樣本只有十幾個特征。因此，雖然結(jié)果表現(xiàn)不錯，但是沒有真正體現(xiàn)出神經(jīng)網(wǎng)絡(luò)強(qiáng)大的泛化能力，沒有體現(xiàn)出多層神經(jīng)網(wǎng)絡(luò)的主要優(yōu)勢。三、結(jié)語本項(xiàng)目通過具體的實(shí)例“泰坦尼克號乘客遇難預(yù)測分析”，對該問題分別采用了knn模型，邏輯回歸模型，svm模型以及神經(jīng)網(wǎng)絡(luò)模型。在該問題的同一測試集上，最優(yōu)模型分別取得了79%，81.7%，83.5

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

泰坦尼克號乘客遇難預(yù)測分析

文檔簡介

溫馨提示

最新文檔

評論

泰坦尼克號乘客遇難預(yù)測分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔