數(shù)據(jù)分析 課件 【知識精講+備課精研】 粵教版(2019)高中信息技術(shù)必修1_第1頁
數(shù)據(jù)分析 課件 【知識精講+備課精研】 粵教版(2019)高中信息技術(shù)必修1_第2頁
數(shù)據(jù)分析 課件 【知識精講+備課精研】 粵教版(2019)高中信息技術(shù)必修1_第3頁
數(shù)據(jù)分析 課件 【知識精講+備課精研】 粵教版(2019)高中信息技術(shù)必修1_第4頁
數(shù)據(jù)分析 課件 【知識精講+備課精研】 粵教版(2019)高中信息技術(shù)必修1_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

泰坦尼克號生存率分析數(shù)據(jù)分析與可視化實(shí)戰(zhàn)數(shù)據(jù)分析處理的對象運(yùn)用的工具分析的方法分析的目的初級工具:Excel高級工具:SPSS、SAS編程工具R語言、Python、Java語言等一大批雜亂無章的數(shù)據(jù)運(yùn)用數(shù)字化工具和技術(shù)探索數(shù)據(jù)內(nèi)在的結(jié)構(gòu)和規(guī)律構(gòu)建數(shù)學(xué)模型進(jìn)行可視化表達(dá),通過驗證將模型轉(zhuǎn)化為知識為診斷過去、預(yù)測未來發(fā)揮作用DATAANALYSIS

特征探索的主要任務(wù)是對數(shù)據(jù)進(jìn)行預(yù)處理,發(fā)現(xiàn)和處理缺失值、異常數(shù)據(jù),繪制直方圖,觀察分析數(shù)據(jù)的分布特征,求最大值、最小值、極差等描述性統(tǒng)計量。EXPLORATIONOFCHARACTERISTICS【概念講授】5.3.1特征探索一、導(dǎo)入數(shù)據(jù)importpandasaspdimportmatplotlib.pyplotaspltdata=pd.read_csv('train.csv')print(())目標(biāo):探索生存率高的因素導(dǎo)入數(shù)據(jù)處理庫,簡寫為pd導(dǎo)入繪圖庫,簡寫為plt用pd讀取csv文件,存到data輸出data的信息目標(biāo):探索生存率高的因素二、清洗數(shù)據(jù)1.篩選需要的列乘客ID乘客等級(1/2/3等艙位)幸存與否堂兄妹個數(shù)父母與小孩個數(shù)票面信息票價所在客艙登船港口(C=Cherbourg,Q=Queenstown,S=Southampton)data.drop(['PassengerId','Ticket','Cabin'],axis=1,inplace=True)df=data.iloc[:,[1,2,4,5,6,7,9,11]]要刪除的列名構(gòu)成的列表1:按列;0:按行替換原來的數(shù)據(jù)按索引號提取行的范圍列的范圍:列表目標(biāo):探索生存率高的因素二、清洗數(shù)據(jù)2.處理缺失值均值填充刪除或填充df.Age=df.Age.fillna(df.Age.mean())df.loc[df['Age'].isnull(),['Age']]=df.Age.mean()幸存與否艙位等級堂兄妹個數(shù)父母與小孩個數(shù)票價登錄港口目標(biāo):探索生存率高的因素三、分析數(shù)據(jù)df.Age.describe()df.describe()統(tǒng)計各分位數(shù)1.統(tǒng)計分析關(guān)聯(lián)分析是分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,從而描述一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。CONCEPT【概念講授】目標(biāo):探索生存率高的因素三、分析數(shù)據(jù)2.性別和生存率的關(guān)系sex.plot(kind='bar',title='性別和生存率的關(guān)系')能得出說明結(jié)論?df.groupby('Sex').Survived.mean()sex=目標(biāo):探索生存率高的因素三、分析數(shù)據(jù)3.船艙等級和生存率的關(guān)系Pclass_percentage=df.groupby('Pclass').Survived.mean()Pclass_percentage.plot(kind='bar',title='船艙等級和生存率的關(guān)系',color='red')能得出說明結(jié)論?目標(biāo):探索生存率高的因素三、分析數(shù)據(jù)4.船艙等級、性別和生存率的關(guān)系Pclass_Sex_percentage=df.pivot_table(index=['Pclass','Sex'],values='Survived',aggfunc={'Survived':'mean'})Pclass_Sex_percentage.plot(kind='bar',title='船艙等級、性別和生存率的關(guān)系')能得出說明結(jié)論?目標(biāo):探索生存率高的因素三、分析數(shù)據(jù)5.存活和遇難的年齡分布df.plot('Survived','Age',kind='scatter')能得出說明結(jié)論?流水號交易的商品001可樂,雞蛋,漢堡002可樂,尿布,啤酒003可樂,尿布,啤酒,漢堡004尿布,啤酒以下是某超市的交易記錄,請分組討論如何提高超市商品的銷量?【學(xué)生小組活動】典型例子:購物籃分析頻率次數(shù)統(tǒng)計:可樂、尿布、啤酒支持度(兩個商品同時被購買發(fā)生的概率):最大頻繁項集:{

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論