(5.1.7)-1.4數(shù)據(jù)合并與數(shù)據(jù)變換_第1頁
(5.1.7)-1.4數(shù)據(jù)合并與數(shù)據(jù)變換_第2頁
(5.1.7)-1.4數(shù)據(jù)合并與數(shù)據(jù)變換_第3頁
(5.1.7)-1.4數(shù)據(jù)合并與數(shù)據(jù)變換_第4頁
(5.1.7)-1.4數(shù)據(jù)合并與數(shù)據(jù)變換_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

腳本——數(shù)據(jù)合并與數(shù)據(jù)變換(ppt1,2)同學(xué),你好。這節(jié)課我們來學(xué)習(xí)數(shù)據(jù)合并與數(shù)據(jù)變換。(ppt3)先來了解一下數(shù)據(jù)變換的重要性。(ppt4)(動(dòng)畫1,2)為什么要對(duì)數(shù)據(jù)進(jìn)行變換呢?例如回歸分析中的異方差性,誤差項(xiàng)的方差隨著自變量的變化而變化,如果直接進(jìn)行回歸估計(jì)殘差的方差會(huì)隨著自變量的變化而變化,如果對(duì)變量進(jìn)行適當(dāng)變換,此時(shí)殘差服從同一個(gè)正態(tài)分布??梢愿玫陌l(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系。(動(dòng)畫3)那為什么要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化呢?主要功能就是消除變量間的量綱關(guān)系,從而使數(shù)據(jù)具有可比性。(動(dòng)畫4)將數(shù)據(jù)變成可以挖掘使用的形式,更好的探索數(shù)據(jù)中隱藏的信息。(ppt5)下面我們來講解怎么樣來合并數(shù)據(jù)。(ppt6)(動(dòng)畫1)數(shù)據(jù)合并的第一種形式:橫向表縱向表堆疊。(動(dòng)畫2)橫向堆疊是將兩個(gè)表在X軸向拼接在一起,在python可以使用concat函數(shù)完成。即在橫向?qū)⒉煌忻Q的兩張或多張表合并。(動(dòng)畫3)縱向堆疊是將兩個(gè)在Y軸向拼接在一起,也可以使用concat函數(shù)完成。即在縱向上,concat做列對(duì)齊,將不同行索引的兩張或多張表縱向合并。(ppt7)我們來看兩個(gè)例子。(動(dòng)畫1)下面是兩張數(shù)據(jù)表,我們想要用橫向堆疊將其合并。(動(dòng)畫2)采用并集方式合并之后得到表3,我們發(fā)現(xiàn)表3將原來的全部列拼接到一起,然后將相應(yīng)的數(shù)據(jù)填入表中。(ppt8)(動(dòng)畫1)如果我們要用縱向堆疊將其合并。(動(dòng)畫2)類似合并之后得到表3,我們發(fā)現(xiàn)表3將全部的行拼接到一起,然后將對(duì)應(yīng)的數(shù)據(jù)填入表中。(ppt9)(動(dòng)畫1)第二種形式是主鍵合并數(shù)據(jù)。(動(dòng)畫2)通過一個(gè)或多個(gè)鍵將兩個(gè)數(shù)據(jù)集的行連接起來,主要利用merge函數(shù)。(動(dòng)畫3)如下表,在每一行增加了一個(gè)鍵,同一個(gè)行索引的鍵的名稱相同。(動(dòng)畫4)合并后得到表3,我們發(fā)現(xiàn)在表3中用主鍵將兩張表的行連接起來,這就是我們的主鍵合并數(shù)據(jù)的原理。(ppt10)(動(dòng)畫1)第三種是重疊合并數(shù)據(jù)。(動(dòng)畫2)若出現(xiàn)兩份數(shù)據(jù)的內(nèi)容幾乎一致的情況,但是某些特征在其中一張表上是完整的,而在另外一張表上的數(shù)據(jù)則是缺失的時(shí)候,在python中可以用combine_first方法進(jìn)行重疊數(shù)據(jù)合并。(動(dòng)畫3)如下表,兩個(gè)數(shù)據(jù)表中都有一些缺失的數(shù)據(jù),但是這些缺失的數(shù)據(jù)可以在另外一個(gè)表中找到,因此我們把他們重疊,(動(dòng)畫4)就可以得到表10,我們發(fā)現(xiàn)這個(gè)表的數(shù)據(jù)相對(duì)已經(jīng)比較完整了。數(shù)據(jù)之間的合并操作還有很多,大家在后續(xù)學(xué)習(xí)中可以更深入了解。(ppt11)接下來我們來學(xué)習(xí)數(shù)據(jù)變換。(ppt12)(動(dòng)畫1)第一個(gè)是標(biāo)準(zhǔn)化數(shù)據(jù)。(動(dòng)畫2,3)先考慮用離差來標(biāo)準(zhǔn)化數(shù)據(jù)。離差標(biāo)準(zhǔn)化是對(duì)原始數(shù)據(jù)的一種線性變換,結(jié)果是將原始數(shù)據(jù)的數(shù)值映射到[0,1]區(qū)間之間,轉(zhuǎn)換公式如下:X星等于(X-最小值)再除以極差。(動(dòng)畫4)離差標(biāo)準(zhǔn)化保留了原始數(shù)據(jù)值之間的聯(lián)系,是消除量綱和數(shù)據(jù)取值范圍影響最簡(jiǎn)單的方法。(ppt13)(動(dòng)畫1)再考慮用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù)。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化也叫零均值標(biāo)準(zhǔn)化或分?jǐn)?shù)標(biāo)準(zhǔn)化,是當(dāng)前使用最廣泛的數(shù)據(jù)標(biāo)準(zhǔn)化方法。經(jīng)過該方法處理的數(shù)值均值為0,標(biāo)準(zhǔn)差為1,轉(zhuǎn)化公式如下:X星等于X-均值除以原始數(shù)據(jù)的標(biāo)準(zhǔn)差服從標(biāo)準(zhǔn)正態(tài)分布。(動(dòng)畫2)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化后的值區(qū)間不局限于[0,1],并且存在負(fù)值。同時(shí),標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化和離差標(biāo)準(zhǔn)化一樣不會(huì)改變數(shù)據(jù)的分布情況。(ppt14)(動(dòng)畫1)小數(shù)定標(biāo)標(biāo)準(zhǔn)化數(shù)據(jù)。通過移動(dòng)數(shù)據(jù)的小數(shù)位數(shù),將數(shù)據(jù)映射到區(qū)間[-1,1]之間,移動(dòng)的小數(shù)位數(shù)取決于數(shù)據(jù)絕對(duì)值的最大值。轉(zhuǎn)化公式如下:X星等于X除以10的K次方。K我們一般通過經(jīng)驗(yàn)取得,要保證10的k次方大于X的最大值,這樣就會(huì)將所有的數(shù)據(jù)映射到區(qū)間[-1,1]之間。(ppt15)(動(dòng)畫1)我們來對(duì)三種標(biāo)準(zhǔn)化數(shù)據(jù)的方式進(jìn)行總結(jié)。離差標(biāo)準(zhǔn)化方法簡(jiǎn)單,便于理解,標(biāo)準(zhǔn)化后的數(shù)據(jù)限定在[0,1]區(qū)間內(nèi);標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化受到數(shù)據(jù)分布的影響較小;小數(shù)定標(biāo)標(biāo)準(zhǔn)化方法適用范圍廣,并且受到數(shù)據(jù)分布的影響較小,相比較于前兩種方法而言該方法適用程度適中。(ppt16)(動(dòng)畫1)接下來我們看第二種數(shù)據(jù)變換的方式,簡(jiǎn)單函數(shù)變換。簡(jiǎn)單函數(shù)變換就是對(duì)原始數(shù)據(jù)進(jìn)行某些數(shù)學(xué)函數(shù)變換,常用的函數(shù)變換包括平方、開方、對(duì)數(shù)、差分運(yùn)算等。(動(dòng)畫2)如果對(duì)數(shù)據(jù)進(jìn)行平方、開方和對(duì)數(shù)運(yùn)算。(動(dòng)畫3)對(duì)特性數(shù)據(jù)可以將不具有正態(tài)分布的數(shù)據(jù)變換成具有正態(tài)分布的數(shù)據(jù)。(動(dòng)畫4)如果對(duì)數(shù)據(jù)進(jìn)行差分運(yùn)算,(動(dòng)畫5)一般可以將非平穩(wěn)序列轉(zhuǎn)換成平穩(wěn)序列。(ppt17)(動(dòng)畫1)常用的第三種數(shù)據(jù)變換方式,連續(xù)屬性的離散化。(動(dòng)畫2)一些數(shù)據(jù)挖掘算法,特別是某些分類算法,要求數(shù)據(jù)是分類屬性形式,如ID3算法(決策樹,分類算法)、Apriori算法(關(guān)聯(lián)算法)等。這樣,常常需要將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化。(動(dòng)畫3)連續(xù)屬性變換成分類屬性涉及兩個(gè)子任務(wù):決定需要多少個(gè)分類變量,以及確定如何將連續(xù)屬性值映射到這些分類值。(ppt18)將連續(xù)屬性離散化一般有三種方法。(動(dòng)畫1)第一種是等寬法。將屬性的值域分成具有相同寬度的區(qū)間,區(qū)間的個(gè)數(shù)由數(shù)據(jù)本身的特點(diǎn)決定,或者由用戶指定,類似于制作頻率分布表。(動(dòng)畫2)如右邊的圖所示,每一個(gè)區(qū)間的寬度是相同的,但是區(qū)間中的數(shù)據(jù)個(gè)數(shù)是不同的。(動(dòng)畫3)第二種是等頻法,即將相同數(shù)量的記錄放進(jìn)每個(gè)區(qū)間。(動(dòng)畫4)如右邊的圖所示,每一個(gè)區(qū)間中數(shù)據(jù)的個(gè)數(shù)是相同的,但是所占的區(qū)間寬度確實(shí)不同的。(動(dòng)畫5)基于聚類分析的方法:一維聚類的方法包括兩個(gè)步驟,首先將連續(xù)屬性的值用聚類算法(如K-Means算法)進(jìn)行聚類,然后將聚類得到的簇進(jìn)行處理,合并到一個(gè)簇的連續(xù)屬性值并做同一標(biāo)記。(ppt19)下面我們來講解轉(zhuǎn)換數(shù)據(jù)。(ppt20)(動(dòng)畫1)第一種是利用啞變量處理數(shù)據(jù)。(動(dòng)畫2)啞變量,也叫虛擬變量,引入啞變量的目的是,將不能夠定量處理的變量量化。它是人為虛設(shè)的變量,通常取值為0或1,來反映某個(gè)變量的不同屬性。(動(dòng)畫3)Python中可以利用pandas庫中的get_dummies函數(shù)對(duì)類別型特征進(jìn)行啞變量處理。(ppt21)(動(dòng)畫1)我們通過一個(gè)例子來了解啞變量的原理。我們想要研究的是學(xué)歷為小學(xué)、中學(xué)、大學(xué)、碩士和博士的人,如果一個(gè)人他屬于這個(gè)學(xué)歷,就記為1,否則,記為0。(動(dòng)畫2)因?yàn)閷?duì)于我們所研究的群體,如果他不是小學(xué)、中學(xué)、大學(xué)或者碩士,他必然就是博士,因此我們固定博士,記為(0,0,0,0)。(動(dòng)畫3)我們得到啞變量處理之后的表格如右表所示,得到的是一個(gè)四維矩陣。(ppt22)(動(dòng)畫1)所以我們啞變量處理數(shù)據(jù)的特點(diǎn)就是對(duì)于一個(gè)類別型特征,若其取值有m個(gè),則經(jīng)過啞變量處理后就變成了m個(gè)二元特征,并且這些特征互斥,每次只有一個(gè)激活,這使得數(shù)據(jù)變得稀疏。對(duì)類別型特征進(jìn)行啞變量處理主要解決了部分算法模型無法處理類別型數(shù)據(jù)的問題,這在一定程度上起到了擴(kuò)充特征的作用。由于數(shù)據(jù)變成了稀疏矩陣的形式,因此也加速了算法模型的運(yùn)算速度。(ppt23)(動(dòng)畫1)接下來我們來講解one-hot編碼處理類別數(shù)據(jù)。one-hot編碼也叫做獨(dú)熱碼,其方法是使用N位狀態(tài)寄存器來對(duì)N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都由他獨(dú)立的寄存器位,并且在任意時(shí)候,其中只有一位有效。直觀來說就是有多少個(gè)狀態(tài)就有多少比特,而且只有一個(gè)比特為1,其他全為0的一種碼制。(ppt24)(動(dòng)畫1)還是考慮之前的那個(gè)例子,One-hot編碼會(huì)對(duì)每一個(gè)狀態(tài)都進(jìn)行編碼,因此我們可以得到右邊那個(gè)五維的矩陣形式。(ppt25)(動(dòng)畫1)那么啞變量與one-hot編碼有什么區(qū)別呢?啞變量將定性特征轉(zhuǎn)化為n-1個(gè)特征,而One-hot則是轉(zhuǎn)化為n個(gè)特征。即啞變量在編碼時(shí)會(huì)去除第一個(gè)狀態(tài),而One-hot則對(duì)所有的狀態(tài)都會(huì)進(jìn)行編碼。(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論