版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章數(shù)據(jù)分析前言YOURENGLISHTITLE對(duì)收集來(lái)的數(shù)據(jù)進(jìn)行處理與分析,提取有價(jià)值的信息是機(jī)器學(xué)習(xí)中的一個(gè)關(guān)鍵環(huán)節(jié)。數(shù)據(jù)分析的目的是實(shí)現(xiàn)效率最大化開發(fā)數(shù)據(jù)的功能,涉及到數(shù)據(jù)預(yù)處理,數(shù)據(jù)分析和數(shù)據(jù)可視化等操作,最后分析結(jié)果通過(guò)可視化呈現(xiàn)。本章重點(diǎn)對(duì)數(shù)據(jù)分析的基礎(chǔ)知識(shí)和常用工具進(jìn)行介紹。。思維導(dǎo)圖學(xué)習(xí)目標(biāo)(1)了解數(shù)據(jù)處理的基本流程;(2)了解numpy的功能與使用;(3)掌握pandas的功能與使用;(4)掌握Matplotlib的使用。1數(shù)據(jù)分析介紹數(shù)據(jù)收集問(wèn)卷法:調(diào)查者通過(guò)設(shè)計(jì)問(wèn)卷來(lái)讓其他人作答,來(lái)從被調(diào)查者的答案中獲取相關(guān)信息。這種方法操作簡(jiǎn)單,但是數(shù)據(jù)質(zhì)量難以保證,并且需要大量人力去發(fā)問(wèn)卷。實(shí)驗(yàn)法:通過(guò)進(jìn)行實(shí)驗(yàn)來(lái)得到相關(guān)的數(shù)據(jù)。這樣得到的結(jié)果一般來(lái)說(shuō)比較準(zhǔn)確,但是實(shí)施比較困難。觀察法:帶著特定的目的去進(jìn)行研究和觀察??梢酝ㄓ密浖ぞ呋蛘吒泄龠M(jìn)行觀察。它得到的結(jié)果也比較準(zhǔn)確,但是較耗時(shí)。采訪/訪談法:通過(guò)多人或單人對(duì)用戶進(jìn)行采訪,與用戶進(jìn)行討論,得到相關(guān)數(shù)據(jù)。文獻(xiàn)法:通過(guò)查閱論文,書籍等資料得到數(shù)據(jù)。數(shù)據(jù)預(yù)處理很多原始數(shù)據(jù)在收集之后是不能直接應(yīng)用的,它會(huì)存在各種各樣的問(wèn)題影響使用,我們稱這些數(shù)據(jù)為“臟數(shù)據(jù)”。“臟數(shù)據(jù)”可以分為以下幾種。數(shù)據(jù)重復(fù):在數(shù)據(jù)集中有些數(shù)據(jù)重復(fù)出現(xiàn)多次,造成不必要的冗余。異常值(離群值):在數(shù)據(jù)集合中有一些數(shù)據(jù)很明顯偏離了數(shù)據(jù)集群。數(shù)據(jù)缺失:在一條數(shù)據(jù)記錄中存在屬性值為空的情況。數(shù)據(jù)不均衡:指的是數(shù)據(jù)集中的數(shù)據(jù)類別不均衡。數(shù)據(jù)噪聲:指的是一些數(shù)據(jù)記錄不合理或者錯(cuò)誤。數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理的方法一般有:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)規(guī)約和數(shù)據(jù)變換。數(shù)據(jù)清理一般指的是通過(guò)填補(bǔ)缺失值、刪除異常數(shù)據(jù)、平滑數(shù)據(jù)等手段來(lái)處理數(shù)據(jù)集中的一些“臟數(shù)據(jù)”。數(shù)據(jù)集成是將多個(gè)來(lái)源的數(shù)據(jù)放在一起存儲(chǔ)。在數(shù)據(jù)集成的過(guò)程中會(huì)遇到取值沖突,冗余等問(wèn)題。所以一般數(shù)據(jù)集成后會(huì)對(duì)數(shù)據(jù)進(jìn)行二次處理。數(shù)據(jù)規(guī)約通過(guò)技術(shù)手段降低數(shù)據(jù)規(guī)模,當(dāng)數(shù)據(jù)規(guī)模較大時(shí)常用。數(shù)據(jù)變換一般是對(duì)數(shù)據(jù)進(jìn)行變換使得更加規(guī)范,稀疏化。常用的變換方式有最大-最小規(guī)范化和Score標(biāo)準(zhǔn)化。2numpynumpy的介紹與安裝numpy的全稱是numericalpython。它是一個(gè)python的擴(kuò)展程序庫(kù),提供很多數(shù)學(xué)函數(shù)庫(kù),支持?jǐn)?shù)組矩陣運(yùn)算。本章節(jié)主要介紹其中的nadrray數(shù)組對(duì)象以及numpy中一些常用的數(shù)學(xué)函數(shù)。numpy的安裝一般通過(guò)命令語(yǔ)句安裝或第三方自帶。上一章詳細(xì)講解了python的安裝方法,讀者在安裝numpy前需要安裝好Python的環(huán)境。一般在Anaconda上便會(huì)附帶numpy等關(guān)鍵包,讀者可使用Anaconda自帶的python環(huán)境。也可以在命令提示符中使用以下語(yǔ)句進(jìn)行安裝:pip3install–usernumpyscipymatplotlibndarrayndarray是numpy中的N維數(shù)組對(duì)象,它是同一類型的數(shù)據(jù)集合。ndarray主要由跨度元組,維度大小,數(shù)據(jù)類型和指針?biāo)膫€(gè)部分組成。array.array:array.array只處理一維數(shù)組并提供較少的功能。ndarray對(duì)象有著一些更重要的屬性,具體如下:ndarray.ndim:數(shù)組維度的個(gè)數(shù)。維度一般用的最多的是一維和二維;ndarray.shape:數(shù)組的維度。它用來(lái)表示每個(gè)維度中數(shù)組的大小。shape元組的長(zhǎng)度就是rank或維度的個(gè)數(shù)ndim;ndarray.dtype:一個(gè)描述數(shù)組中元素類型的對(duì)象;ndarray(1)創(chuàng)建一維數(shù)組importnumpyasnpa=np.array([1,2,3,4,5,6,7,8,9,10])print(a)#輸出結(jié)果:[12345678910](2)創(chuàng)建二維數(shù)組importnumpyasnpb=np.array([[1,2,0],[3,4,5],[6,7,8]])print(b)#輸出結(jié)果:[[120][345][678]](3)創(chuàng)建指定維數(shù)ndarrayimportnumpyasnpc=np.array([1,2],ndmin=5)print(c)#輸出結(jié)果:[[[[[12]]]]]常用函數(shù)字符串函數(shù)在numpy中有很多常用的函數(shù),包括我們所熟知的字符串,數(shù)學(xué),算數(shù)和統(tǒng)計(jì)函數(shù)等。字符串函數(shù)一般使用numpy.char來(lái)進(jìn)行操作。numpy.char.add():對(duì)兩個(gè)字符串進(jìn)行連接numpy.char.multiply():能夠?qū)崿F(xiàn)多個(gè)相同的字符串連接numpy.char.replace():使用新字符串代替原字符串numpy.char.strip():移除串頭和串尾的特定字符numpy.char.split():對(duì)字符串進(jìn)行分割,默認(rèn)使用空格常用函數(shù)數(shù)學(xué)函數(shù)numpy.around():返回?cái)?shù)字的舍入值(四舍五入)numpy.ceil():向上取整函數(shù)numpy.floor():向下取整函數(shù)常用的三角函數(shù)。np.sin(a*np.pi/180))np.cos(a*np.pi/180))np.tan(a*np.pi/180))常用函數(shù)運(yùn)算函數(shù)加減乘除函數(shù)np.add()np.subtract()np.multiply()np.dividenumpy.mod():求余函數(shù)numpy.reciprocal():求導(dǎo)函數(shù)常用函數(shù)統(tǒng)計(jì)函數(shù)求最小值和最大值函數(shù)np.amin()np.amax()numpy.median():用于計(jì)算中位數(shù)numpy.mean():用于計(jì)算平均值np.std():用來(lái)計(jì)算標(biāo)準(zhǔn)差np.var():用來(lái)計(jì)算方差3pandaspandas的介紹與安裝pandas是python中的一個(gè)資源庫(kù)。它在數(shù)據(jù)分析中能發(fā)揮巨大作用,所以pandas基本已經(jīng)成為數(shù)據(jù)分析的主流工具。它主要能夠?qū)崿F(xiàn)加載數(shù)據(jù),整理數(shù)據(jù),操作數(shù)據(jù),構(gòu)建數(shù)據(jù)模型和分析數(shù)據(jù)五個(gè)功能。pandas庫(kù)在第三方都是自帶的。例如我們熟知的Anaconda,WinPython以及Python(x,y)。讀者想要通過(guò)這幾種方式安裝的可以直接去相應(yīng)的第三方官網(wǎng)安裝。在Windows系統(tǒng)下,標(biāo)準(zhǔn)發(fā)行版上安裝pandas只需要在cmd命令提示符界面輸入:pipinstallpandas即可。DataFrame在Pandas中DataFrame是使用最多的數(shù)據(jù)結(jié)構(gòu)。DataFrame它是一個(gè)二維表形的數(shù)據(jù)結(jié)構(gòu),有行和列的標(biāo)簽,分別稱之為index和columns。DataFrame特殊之處在于它每列的數(shù)據(jù)類型可以不同,因此也被稱之為異構(gòu)數(shù)據(jù)表。pd.DataFrame(data,index,columns,dtype,copy),是創(chuàng)建DataFrame對(duì)象的語(yǔ)句,其中五個(gè)參數(shù)分別表示輸入的數(shù)據(jù),行標(biāo)簽,列標(biāo)簽,數(shù)據(jù)類型和復(fù)制數(shù)據(jù)參數(shù)(默認(rèn)為否)。DataFrame創(chuàng)建DataFrame一般有以下四種方式:1.創(chuàng)建空的DataFrame對(duì)象2.利用列表創(chuàng)建DataFrame3.利用字典創(chuàng)建4.利用列表鑲嵌字典Series和DataFrame一樣,Series也是pandas中的一種數(shù)據(jù)結(jié)構(gòu),不同的是Series類似于一維數(shù)組,它由數(shù)據(jù)和標(biāo)簽組成。Series能夠存任何類型的數(shù)據(jù)。創(chuàng)建Series語(yǔ)句使用s=pd.Series(data,index,dtype,copy)。括號(hào)中四個(gè)參數(shù)分別表示輸入的數(shù)據(jù),索引值,數(shù)據(jù)類型和是否拷貝(默認(rèn)為否)。Series的創(chuàng)建方法:1.創(chuàng)建空的對(duì)象。2.使用之前學(xué)習(xí)過(guò)的ndarray創(chuàng)建Series對(duì)象。3.利用字典來(lái)創(chuàng)建Series對(duì)象。4.創(chuàng)建一個(gè)標(biāo)量Series對(duì)象。Pandas常見(jiàn)統(tǒng)計(jì)函數(shù)在Python中使用文件格式最多的是csv格式。利用df=pd.read_csv('文件名.csv')語(yǔ)句便可以讀取csv文件,然后能夠利用相應(yīng)的函數(shù)對(duì)文件進(jìn)行分析。在后面的實(shí)驗(yàn)中,會(huì)體現(xiàn)更多關(guān)于Pandas的函數(shù)。下面介紹一些常用的統(tǒng)計(jì)函數(shù)。mean()函數(shù)返回?cái)?shù)據(jù)的平均數(shù);median()函數(shù)返回?cái)?shù)據(jù)的中位數(shù);mode()函數(shù)返回?cái)?shù)據(jù)的眾數(shù);std()函數(shù)得到數(shù)據(jù)的標(biāo)準(zhǔn)差;count()函數(shù)用來(lái)統(tǒng)計(jì)數(shù)據(jù)集中的非空數(shù);min()和max()函數(shù)分別求數(shù)據(jù)的最大值和最小值;cumsum(),cumprod()函數(shù)分別計(jì)算數(shù)據(jù)集的累加和與累加積。4MatplotlibMatplotlib介紹與安裝python有很多功能強(qiáng)大的軟件包,Matplotlib是用于數(shù)據(jù)可視化的軟件包,它功能強(qiáng)大,使用簡(jiǎn)單,能夠繪制各種2D圖像,應(yīng)用極為廣泛。除此之外,Matplotlib還有一些功能擴(kuò)展包,例如Mplot3d可用于3D繪圖,Bashmap可用于繪制地圖還有Natgrid包可用于對(duì)不規(guī)則數(shù)據(jù)網(wǎng)格化處理等等。Matplotlib的安裝有第三方軟件自帶以及命令行安裝兩種方式。Anaconda軟件中自帶Matplotlib軟件包,讀者可以預(yù)先下載Anaconda直接使用Matplotlib。不想使用Anaconda的也可以在cmd命令提示符窗口輸入pipinstallmatplotlib進(jìn)行安裝。Matplotlib常用功能Matplotlib中,主要就是為了創(chuàng)建圖形對(duì)象,也就是figureobject??梢酝ㄟ^(guò)fig=plt.figure()語(yǔ)句創(chuàng)建空?qǐng)D。利用ax=fig.add_axes([0,0,1,1])添加畫布。函數(shù)中的四個(gè)參數(shù)分別表示圖的左邊,下邊,寬度以及高度。其中四個(gè)參數(shù)都是在0到1之間。其中圖像的坐標(biāo),曲線顏色,數(shù)學(xué)函數(shù)圖像,圖像各處標(biāo)題都可以通過(guò)修改代碼中函數(shù)的參數(shù)進(jìn)行調(diào)整。除此之外,圖的軸也十分重要。在Matplotlib中,一般使用axes類來(lái)指定繪圖的區(qū)域。我們常畫的2D圖像一般包含兩個(gè)軸也就是兩個(gè)軸對(duì)象,而復(fù)雜的三維圖像則需要三個(gè)軸對(duì)象。Matplotlib常用功能部分圖例:曲線圖柱狀圖餅狀圖5項(xiàng)目實(shí)戰(zhàn):有關(guān)心臟病的數(shù)據(jù)分析項(xiàng)目介紹目前,預(yù)測(cè)疾病的模型有很多,對(duì)于特定的疾病,不同的模型結(jié)構(gòu)和參數(shù)選擇對(duì)預(yù)測(cè)結(jié)果的影響非常大,而且疾病本身是一個(gè)非常復(fù)雜的現(xiàn)象,通常受到環(huán)境、個(gè)人、社會(huì)等多種因素的影響。本項(xiàng)目通過(guò)對(duì)患者數(shù)據(jù)進(jìn)行分析,對(duì)可能得心臟病的有關(guān)因素進(jìn)行預(yù)處理及分析,分析得到與心臟病有關(guān)的因素。本項(xiàng)目的數(shù)據(jù)使用Heart
Disease
UCI數(shù)據(jù)集,該數(shù)據(jù)集有76個(gè)屬性,本項(xiàng)目中只使用其中的14個(gè)屬性進(jìn)行分析。本數(shù)據(jù)是從Kaggle中進(jìn)行下載,直接在本項(xiàng)目中進(jìn)行導(dǎo)入使用。數(shù)據(jù)統(tǒng)計(jì)與分析信息圖數(shù)據(jù)有303名患者樣本數(shù)據(jù),14個(gè)特征屬性數(shù)據(jù)。年齡分析
柱狀圖小提琴圖年齡分析
年齡和性別散點(diǎn)圖年齡和患病分析小提琴圖心率分析
柱狀圖折線圖項(xiàng)目結(jié)論
在疾病預(yù)測(cè)的研究方法中,必須要在實(shí)踐中檢驗(yàn)才能更加符合實(shí)際的應(yīng)用。疾病本身是一個(gè)非常復(fù)雜的現(xiàn)象,通常受到環(huán)境、個(gè)人、社會(huì)等多種因素的影響。本次實(shí)戰(zhàn)通過(guò)對(duì)影響心臟病發(fā)病因子中的年齡、性別、最大心率及地中海貧血分別進(jìn)行分析。由上述各個(gè)關(guān)系的可視化可以看出,年齡并不是影響心臟病的一個(gè)重要的因素;在性別中,女性比男性更容易患病;隨著年齡的增長(zhǎng),最大心率
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 科研機(jī)構(gòu)行業(yè)實(shí)驗(yàn)室安全保障
- 咨詢服務(wù)保安員工作總結(jié)
- 公司注冊(cè)代理合同三篇
- 動(dòng)漫游戲行業(yè)會(huì)計(jì)的特點(diǎn)總結(jié)
- 2023年浙江省杭州市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 《合理使用中成藥》課件
- 高三學(xué)習(xí)計(jì)劃書
- 河北省唐山市(2024年-2025年小學(xué)六年級(jí)語(yǔ)文)統(tǒng)編版隨堂測(cè)試(下學(xué)期)試卷及答案
- 2024年防沉劑項(xiàng)目資金籌措計(jì)劃書
- 顧客檢查表(完整版)
- 世界職業(yè)院校技能大賽高職組“關(guān)務(wù)實(shí)務(wù)組”賽項(xiàng)參考試題及答案
- 高中歷史教師資格考試面試試題及解答參考(2024年)
- 北師大版(2024新版)生物七年級(jí)上冊(cè)期末考點(diǎn)復(fù)習(xí)提綱
- 期末 試題 -2024-2025學(xué)年人教PEP版英語(yǔ)六年級(jí)上冊(cè) (含答案)
- 2024年理論中心組學(xué)習(xí)心得體會(huì)模版(2篇)
- 浙江省杭州市2023-2024學(xué)年六年級(jí)上學(xué)期語(yǔ)文期末試卷(含答案)
- 環(huán)保行業(yè)工業(yè)廢氣污染防治技術(shù)路線方案
- 電工的職業(yè)健康培訓(xùn)
- 《預(yù)防性侵害講座》課件
- 2024年中國(guó)船舶涂料市場(chǎng)調(diào)查研究報(bào)告
- 體能準(zhǔn)備活動(dòng)與放松
評(píng)論
0/150
提交評(píng)論