《新媒體數(shù)據(jù)分析》課件-第3章 新媒體數(shù)據(jù)的處理_第1頁(yè)
《新媒體數(shù)據(jù)分析》課件-第3章 新媒體數(shù)據(jù)的處理_第2頁(yè)
《新媒體數(shù)據(jù)分析》課件-第3章 新媒體數(shù)據(jù)的處理_第3頁(yè)
《新媒體數(shù)據(jù)分析》課件-第3章 新媒體數(shù)據(jù)的處理_第4頁(yè)
《新媒體數(shù)據(jù)分析》課件-第3章 新媒體數(shù)據(jù)的處理_第5頁(yè)
已閱讀5頁(yè),還剩67頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章新媒體數(shù)據(jù)的處理導(dǎo)

語(yǔ)1999年美國(guó)宇航局NASA丟失了一個(gè)價(jià)值1.25億美元的火星軌道飛行器,而丟失的原因讓美國(guó)人哭笑不得,原來(lái)飛行器的設(shè)計(jì)者洛克希德·馬丁公司的工程師在設(shè)計(jì)時(shí)使用的都是英制度量衡(英寸、英尺等),而NASA用的是國(guó)際公制(厘米、米等),因此雖然輸入的數(shù)據(jù)是正確的,但因?yàn)閱挝徊煌鴮?dǎo)致導(dǎo)航信息錯(cuò)誤,飛行器因此丟失。古人云:差之毫厘,謬以千里。1%的錯(cuò)誤等于100%的失敗,我們不要輕視一個(gè)數(shù)據(jù)的作用。毫不夸張地說(shuō),一個(gè)數(shù)字能影響一個(gè)結(jié)果,一個(gè)結(jié)果能影響一個(gè)決策,一個(gè)錯(cuò)誤的決策能毀掉一個(gè)組織!學(xué)習(xí)目標(biāo)由于互聯(lián)網(wǎng)的發(fā)明,“開放”已經(jīng)成為人類社會(huì)一個(gè)不可逆轉(zhuǎn)、不斷加速的社會(huì)思潮。如果說(shuō)收集數(shù)據(jù)是一種意識(shí),使用數(shù)據(jù)是一種文化、一種習(xí)慣,那么處理數(shù)據(jù)、分析數(shù)據(jù)將成為人人應(yīng)當(dāng)具備的一種能力和生活態(tài)度。在整個(gè)數(shù)據(jù)分析過(guò)程中,有高達(dá)60%的時(shí)間是用于數(shù)據(jù)處理,只有對(duì)采集過(guò)來(lái)的數(shù)據(jù)進(jìn)行精細(xì)化地處理,才能便于后續(xù)分析。處理后的數(shù)據(jù)不僅能提高準(zhǔn)確性,還能減少因?yàn)槌鲥e(cuò)而造成的復(fù)查時(shí)間,降低因錯(cuò)誤分析給帶來(lái)的決策風(fēng)險(xiǎn)。本章主要講解新媒體數(shù)據(jù)處理的基本原理、通用處理方法,然后通過(guò)一些典型的案例展示不同類型數(shù)據(jù)的處理過(guò)程。目

錄第一節(jié)新媒體數(shù)據(jù)處理的基本原理第二節(jié)數(shù)據(jù)清洗第三節(jié)數(shù)據(jù)加工第四節(jié)數(shù)據(jù)透視表的使用第一節(jié)新媒體數(shù)據(jù)處理的基本原理一、什么是數(shù)據(jù)處理二、數(shù)據(jù)處理的基本流程三、通用的新媒體數(shù)據(jù)處理方法一、什么是數(shù)據(jù)處理

數(shù)據(jù)處理就是根據(jù)數(shù)據(jù)分析的目的,將收集到的數(shù)據(jù),用適當(dāng)?shù)奶幚矸椒ㄟM(jìn)行整理加工,形成適合數(shù)據(jù)分析的要求樣式,它是數(shù)據(jù)分析前必不可少的階段。它的基本目的是從大量的、可能是雜亂無(wú)章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)于特定分析目標(biāo)具有價(jià)值、有意義的數(shù)據(jù)。二、數(shù)據(jù)處理的基本流程

數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)加工。

首先我們先將有問(wèn)題的數(shù)據(jù)進(jìn)行清洗,數(shù)據(jù)清洗的結(jié)果是對(duì)各種臟數(shù)據(jù)進(jìn)行對(duì)應(yīng)方式的處理,得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù),提供給數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘等使用。清洗數(shù)據(jù)包括三部分:清除掉不必要的重復(fù)數(shù)據(jù);填充缺失的數(shù)據(jù),檢測(cè)邏輯錯(cuò)誤的數(shù)據(jù)。

其次是進(jìn)行數(shù)據(jù)加工。經(jīng)過(guò)數(shù)據(jù)清洗步驟之后,數(shù)據(jù)表中的數(shù)據(jù)已經(jīng)沒(méi)有錯(cuò)誤值存在了,但這時(shí)的數(shù)據(jù)仍然不適合直接進(jìn)行分析和呈現(xiàn),還需要根據(jù)數(shù)據(jù)分析的目的,對(duì)數(shù)據(jù)進(jìn)行加工。因?yàn)閿?shù)據(jù)表中現(xiàn)有的數(shù)據(jù)字段不滿足我們的數(shù)據(jù)分析需求,所以需要對(duì)現(xiàn)有字段進(jìn)行抽取、計(jì)算或者轉(zhuǎn)換,形成我們分析所需要的一列新數(shù)據(jù)字段。三、通用的新媒體數(shù)據(jù)處理方法

數(shù)據(jù)處理是指根據(jù)數(shù)據(jù)分析的目的,將收集到的原始數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)用適當(dāng)?shù)奶幚矸椒ㄟM(jìn)行整理加工,使原始數(shù)據(jù)更加符合數(shù)據(jù)分析的目標(biāo)要求樣式。它是數(shù)據(jù)分析前必不可少的階段。它的基本目的是從大量的、可能是雜亂無(wú)章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)于特定分析目標(biāo)具有價(jià)值、有意義的數(shù)據(jù),使原始數(shù)據(jù)整理成為一份具備準(zhǔn)確性、完整性和一致性的數(shù)據(jù)。一般要達(dá)到這個(gè)標(biāo)準(zhǔn)需要對(duì)原始數(shù)據(jù)進(jìn)行清洗和加工。第二節(jié)數(shù)據(jù)清洗一、剔除重復(fù)數(shù)據(jù)二、填補(bǔ)缺失數(shù)據(jù)三、修正錯(cuò)誤數(shù)據(jù)四、規(guī)范數(shù)據(jù)格式五、數(shù)據(jù)清洗常用函數(shù)一、剔除重復(fù)數(shù)據(jù)

在采集數(shù)據(jù)過(guò)程中,同一份數(shù)據(jù)可能由于采集渠道不同而進(jìn)行了多次輸入,可能因?yàn)椴僮魇д`重復(fù)輸入數(shù)據(jù)。種種原因造成數(shù)據(jù)表中的數(shù)據(jù)存在重復(fù)現(xiàn)象,篩選剔除多余的數(shù)據(jù)是開展數(shù)據(jù)處理工作的首要任務(wù)。(一)查找重復(fù)項(xiàng)

要剔除一份數(shù)據(jù)表中的重復(fù)數(shù)據(jù)就需要先找到數(shù)據(jù)表中的重復(fù)項(xiàng)。這里以網(wǎng)站用戶流量為例介紹四種查找重復(fù)項(xiàng)的方法。1.條件格式法2.函數(shù)法3.高級(jí)篩選法4.數(shù)據(jù)透視表法1.條件格式法2.函數(shù)法3.高級(jí)篩選法4.數(shù)據(jù)透視表法(二)刪除重復(fù)項(xiàng)

通過(guò)以上此種方法查找到重復(fù)項(xiàng)之和,就需要將重復(fù)項(xiàng)刪除。除了手動(dòng)刪除找到的重復(fù)項(xiàng)以外,下面給大家介紹四種刪除重復(fù)項(xiàng)的方法。1.菜單刪除重復(fù)項(xiàng)2.排序刪除重復(fù)項(xiàng)3.條件格式刪除重復(fù)項(xiàng)4.篩選刪除重復(fù)項(xiàng)1.菜單刪除重復(fù)項(xiàng)2.排序刪除重復(fù)項(xiàng)3.條件格式刪除重復(fù)項(xiàng)

使用排序的方法刪除重復(fù)項(xiàng)有兩個(gè)弊端,一是只適用數(shù)據(jù)量較小的數(shù)據(jù)表,二是當(dāng)數(shù)據(jù)是一串編碼或非數(shù)字型數(shù)據(jù)時(shí)人工就不容易辨識(shí)出重復(fù)項(xiàng)。那么,用條件格式可以自動(dòng)標(biāo)識(shí)出重復(fù)項(xiàng),再手動(dòng)刪除。4.篩選刪除重復(fù)項(xiàng)(三)利用Python處理重復(fù)數(shù)據(jù)

在Python中利用drop_duplicates()方法,該方法默認(rèn)對(duì)所有值進(jìn)行重復(fù)值判斷,且默認(rèn)保留第一個(gè)(行)值。二、填補(bǔ)缺失數(shù)據(jù)

采集的原始數(shù)據(jù)除了會(huì)出現(xiàn)數(shù)據(jù)重復(fù)以外,經(jīng)常還會(huì)出現(xiàn)數(shù)據(jù)缺失的問(wèn)題,缺失值指的是現(xiàn)有數(shù)據(jù)集中某個(gè)或某些屬性的值是不完全的。缺失值產(chǎn)生的原因多種多樣,主要分為機(jī)械原因和人為原因。

處理缺失值有兩種思路,即刪除和插補(bǔ)。對(duì)于主觀數(shù)據(jù),人將影響數(shù)據(jù)的真實(shí)性,存在缺失值的樣本的其他屬性的真實(shí)值不能保證,所以對(duì)于主觀數(shù)據(jù)一般不推薦插補(bǔ)的方法,而采取刪除存在缺失值的個(gè)案。插補(bǔ)主要是針對(duì)客觀數(shù)據(jù),它的可靠性有保證。(一)缺失值為空值

在數(shù)據(jù)表里,缺失值最常見的表現(xiàn)形式就是空值或者錯(cuò)誤標(biāo)識(shí)符。如果缺失值以空白單元格的形式出現(xiàn),首先是將缺失值的單元格找出來(lái),最快捷的方法是利用Excel的定位功能。

處理缺失值的方法一般有3種:(1)樣本平均值替代法。用一個(gè)樣本統(tǒng)計(jì)量的值代替缺失值。最典型的做法就是使用該變量的樣本平均值代替缺失值。例如一組銷量數(shù)據(jù)中有缺失值,就可以使用評(píng)價(jià)銷量來(lái)進(jìn)行替換。(2)模型計(jì)算值替代法。用一個(gè)統(tǒng)計(jì)模型計(jì)算出來(lái)的值去代替缺失值,常使用的模型有回歸模型、判別模型等,例如連續(xù)時(shí)間段內(nèi)公眾號(hào)粉絲增長(zhǎng)的數(shù)據(jù)中有缺失值,可以通過(guò)數(shù)據(jù)預(yù)測(cè)回歸分析法,計(jì)算出數(shù)值替代缺失值。(3)刪除缺失值法。當(dāng)數(shù)據(jù)量足夠大,且缺失值較數(shù)量不是太多,且變量之間不存在高度相關(guān)的情況下,可以對(duì)缺失值做刪除處理。(二)缺失值為錯(cuò)誤標(biāo)識(shí)符

當(dāng)缺失值是以錯(cuò)誤標(biāo)識(shí)符形式出現(xiàn)的時(shí)候,處理方法和空值類似,只是步驟由“定位->輸入平均值”改為“查找->替換”。同樣可以利用快捷鍵,查找功能的快捷鍵為“Ctrl+F”,替換功能的快捷鍵為“Ctrl+H”,在“查找內(nèi)容”文本框中輸入要查找的文本或數(shù)字,在“替換為”中輸入要替換的文本或數(shù)字,單擊“替換”即可,如圖3-14。一般情況下選擇將數(shù)字型字段的錯(cuò)誤標(biāo)識(shí)符替換為“0”或平均值。(三)利用Python處理缺失數(shù)據(jù)

在Python中直接調(diào)用info()方法就會(huì)返回每一列的缺失情況。Python中缺失值一般用NaN表示。三、修正錯(cuò)誤數(shù)據(jù)

原始數(shù)據(jù)表中可能存在不符合邏輯的數(shù)據(jù),例如圖文消息送達(dá)人數(shù)180人,圖文頁(yè)閱讀人數(shù)卻達(dá)到300人,這明顯不符合邏輯。在數(shù)據(jù)清洗過(guò)程中,需要檢查出這類錯(cuò)誤并修正數(shù)據(jù)。檢查數(shù)據(jù)是否存在邏輯錯(cuò)誤,我們不可能逐一進(jìn)行排查,這樣效率太低,而需要運(yùn)用函數(shù)或條件格式快速判斷。(一)函數(shù)檢查法

在Excel中,函數(shù)的使用方法是在英文狀態(tài)下輸入“=”后再根據(jù)不同的函數(shù)的語(yǔ)法輸入公式,如“=AVERAGE()”就是返回所有參數(shù)的算術(shù)平均值。IF函數(shù)是用來(lái)判斷數(shù)據(jù)邏輯正確與否的常用函數(shù)。

使用IF函數(shù)不僅可以判斷數(shù)字型數(shù)據(jù)是否符合特定的要求,還可以判斷非數(shù)字型數(shù)據(jù)是否符合要求,例如,一張微博粉絲用戶信息表中,“性別”一欄的值中出現(xiàn)了“南”、“32”等非性別數(shù)據(jù),如果數(shù)據(jù)量少可以人工檢測(cè),如果數(shù)據(jù)量過(guò)大,使用IF函數(shù)很快就能找出數(shù)據(jù)表中出現(xiàn)錯(cuò)誤的全部數(shù)據(jù)。(二)條件格式法

在Excel中,函數(shù)的使用方法是在英文狀態(tài)下輸入“=”后再根據(jù)不同的函數(shù)的語(yǔ)法輸入公式,如“=AVERAGE()”就是返回所有參數(shù)的算術(shù)平均值。IF函數(shù)是用來(lái)判斷數(shù)據(jù)邏輯正確與否的常用函數(shù)。(三)利用Python處理錯(cuò)誤數(shù)據(jù)

在Python中,刪除異常值用到的方法和Excel中的方法原理類似,Python中是通過(guò)過(guò)濾的方法對(duì)異常值進(jìn)行刪除。比如df表中有年齡這個(gè)指標(biāo),要把年齡大于100的值刪掉,可以通過(guò)篩選把年齡大于100的曬出來(lái),然后刪除篩選出的部分?jǐn)?shù)據(jù)。而如果對(duì)異常值進(jìn)行填充的話,就需要用到replace()方法對(duì)特定的值進(jìn)行替換。(三)利用Python處理錯(cuò)誤數(shù)據(jù)

在Python中,刪除異常值用到的方法和Excel中的方法原理類似,Python中是通過(guò)過(guò)濾的方法對(duì)異常值進(jìn)行刪除。比如df表中有年齡這個(gè)指標(biāo),要把年齡大于100的值刪掉,可以通過(guò)篩選把年齡大于100的曬出來(lái),然后刪除篩選出的部分?jǐn)?shù)據(jù)。而如果對(duì)異常值進(jìn)行填充的話,就需要用到replace()方法對(duì)特定的值進(jìn)行替換。1.一對(duì)一替換2.一對(duì)多替換3.多對(duì)多替換四、規(guī)范數(shù)據(jù)格式

采集過(guò)來(lái)的原始數(shù)據(jù)包括數(shù)值、文本、日期等多種格式。不同類型的數(shù)據(jù)對(duì)應(yīng)不同的格式,數(shù)據(jù)的格式如果有誤,將會(huì)影響后期數(shù)據(jù)加工和呈現(xiàn)。因此,規(guī)范數(shù)據(jù)格式是數(shù)據(jù)清洗過(guò)程中必不可少的過(guò)程。通常情況下,我們檢查數(shù)據(jù)格式需要重點(diǎn)關(guān)注的是數(shù)值格式中的小數(shù)位數(shù)、數(shù)值格式中的千分位分隔符、百分比格式、日期格式以及時(shí)間格式等。(一)數(shù)值格式規(guī)范

針對(duì)前三個(gè)格式問(wèn)題檢查的方法比較簡(jiǎn)單,先選中對(duì)應(yīng)的數(shù)據(jù)列,然后在“開始”選項(xiàng)卡中的“數(shù)字”組中對(duì)選中的數(shù)據(jù)進(jìn)行查看,查看格式是否正確,如果格式全部統(tǒng)一,在“設(shè)置單元格格式”對(duì)話框中,它會(huì)對(duì)應(yīng)一種格式,如“常規(guī)”、“數(shù)值”、“百分比”,如果選中的這一列數(shù)據(jù)在“設(shè)置單元格格式”對(duì)話框中沒(méi)有對(duì)應(yīng)的格式,說(shuō)明這一列的數(shù)據(jù)格式不同統(tǒng)一,可以直接在對(duì)話框中進(jìn)行設(shè)置和調(diào)整。(二)日期格式規(guī)范

日期格式的規(guī)范比起數(shù)值格式規(guī)范相對(duì)復(fù)雜一些,尤其是當(dāng)日期書寫方式不統(tǒng)一時(shí),不是直接在“設(shè)置單元格格式”對(duì)話框中直接修改就能解決的,而是要借助“分列”功能來(lái)實(shí)現(xiàn)日期格式的統(tǒng)一修改。(三)利用Python處理數(shù)據(jù)格式

Python不像Excel中對(duì)數(shù)據(jù)類型分的那么詳細(xì),主要有6種數(shù)據(jù)類型,如下表。

Python數(shù)據(jù)類型類型說(shuō)明int整形數(shù),即整數(shù)float浮點(diǎn)數(shù),即含有小數(shù)點(diǎn)的數(shù)objectPython對(duì)象類型,用O表示string_字符串類型,經(jīng)常用S表示,S10表示長(zhǎng)度為10的字符串unicode_固定長(zhǎng)度的unicode類型,跟字符串定義方式一樣datetime64[ns]表示時(shí)間格式五、數(shù)據(jù)清洗常用函數(shù)函數(shù)功能語(yǔ)法Trim去除單元格兩端的空格。=TRIM(text)Clean刪除文本中所有不能打印的字符。=CLEAN(text)Concatenate連接單元格內(nèi)的內(nèi)容=CONCATENATE(text1,[text2],...)Mid提取字符串中間的字符串=MID(text,start_num,num_chars)Left提取字符串左邊的字符串=LEFT(text,[num_chars])Right提取字符串右邊的字符串=RIGHT(text,[num_chars])Repalce替換字符串中的連續(xù)幾個(gè)字符或者某個(gè)字符=REPLACE(old_text,start_num,num_chars,new_text)Substitute替換字符串中的連續(xù)幾個(gè)字符或者某個(gè)字符=SUBSTITUTE(text,old_text,new_text,[instance_num])第三節(jié)數(shù)據(jù)加工一、數(shù)據(jù)轉(zhuǎn)換二、數(shù)據(jù)計(jì)算三、數(shù)據(jù)分組四、數(shù)據(jù)重組五、數(shù)據(jù)排序一、數(shù)據(jù)轉(zhuǎn)換

在數(shù)據(jù)分析前,需要考慮數(shù)據(jù)表的呈現(xiàn)形式是否方便后續(xù)的數(shù)據(jù)分析和規(guī)律的把握,如行列字段的設(shè)置、數(shù)據(jù)記錄方式等。數(shù)據(jù)轉(zhuǎn)換就是針對(duì)不恰當(dāng)?shù)臄?shù)據(jù)表呈現(xiàn)進(jìn)行調(diào)整的方法,以滿足后續(xù)數(shù)據(jù)分析的需求。(一)行列互換

通常采集好的原始數(shù)據(jù)表是一維數(shù)據(jù)表,但在采集或記錄時(shí)沒(méi)有考慮周全,行列設(shè)置不太恰當(dāng),當(dāng)后續(xù)數(shù)據(jù)更新或增加時(shí),不方便查看。針對(duì)這種情況,可以借助行列互換的方法將字段設(shè)置進(jìn)行調(diào)整。(二)記錄方式轉(zhuǎn)換

Excel的替換功能將不統(tǒng)一的表述方式快速統(tǒng)一起來(lái)。替換功能的使用方法比較簡(jiǎn)單易掌握,但需注意的是,在使用替換功能統(tǒng)一數(shù)據(jù)記錄方式前,要先明確后期數(shù)據(jù)分析的需求,結(jié)合需求進(jìn)行記錄方式轉(zhuǎn)換。(三)利用Python進(jìn)行數(shù)據(jù)轉(zhuǎn)換

在Python中通過(guò)在源數(shù)據(jù)表的基礎(chǔ)上調(diào)用.T方法實(shí)現(xiàn)數(shù)據(jù)表的行列互換。二、數(shù)據(jù)計(jì)算

數(shù)據(jù)計(jì)算是運(yùn)用最廣泛的數(shù)據(jù)加工方法,主要是運(yùn)用簡(jiǎn)單的數(shù)學(xué)運(yùn)算或函數(shù)計(jì)算,將原始的采集數(shù)據(jù)處理成為便于后續(xù)數(shù)據(jù)分析的新字段。(一)簡(jiǎn)單計(jì)算

簡(jiǎn)單計(jì)算就是Excel表格中單元格對(duì)應(yīng)的名稱與加、減、乘、除等簡(jiǎn)單運(yùn)算符結(jié)合使用計(jì)算的過(guò)程。簡(jiǎn)單計(jì)算通常包括數(shù)據(jù)求和、計(jì)算平均數(shù)、計(jì)算比例等。(一)簡(jiǎn)單計(jì)算

簡(jiǎn)單計(jì)算就是Excel表格中單元格對(duì)應(yīng)的名稱與加、減、乘、除等簡(jiǎn)單運(yùn)算符結(jié)合使用計(jì)算的過(guò)程。簡(jiǎn)單計(jì)算通常包括數(shù)據(jù)求和、計(jì)算平均數(shù)、計(jì)算比例等。(二)函數(shù)計(jì)算

當(dāng)簡(jiǎn)單的加減乘除運(yùn)算不能滿足計(jì)算需求時(shí),就需要使用函數(shù)進(jìn)行計(jì)算。使用函數(shù)計(jì)算數(shù)據(jù),需要掌握函數(shù)計(jì)算的格式,即:“=”+函數(shù)名稱+數(shù)據(jù)單元格區(qū)域”,此外,還需要掌握具體的某個(gè)函數(shù)的使用方法。表

常用函數(shù)使用方法函數(shù)函數(shù)作用函數(shù)示意SUM求和=SUM(A2:A20)計(jì)算A2至A20之間單元格數(shù)據(jù)的總和AVERAGE求平均數(shù)=AVERAGE(A2:A20)計(jì)算A2至A20之間單元格數(shù)據(jù)的平均數(shù)COUNTIF條件計(jì)算=COUNTIF(A2:A20,"女")計(jì)算A2至A20之間含有“女”字的單元格的數(shù)量(三)利用Python進(jìn)行數(shù)據(jù)計(jì)算

1.簡(jiǎn)單計(jì)算2.比較運(yùn)算3.匯總運(yùn)算4.相關(guān)性運(yùn)算三、數(shù)據(jù)分組

數(shù)據(jù)分組是依據(jù)數(shù)據(jù)分析的需要,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)劃分成不同的組別,分組后的的數(shù)據(jù)稱為分組數(shù)據(jù)。數(shù)據(jù)分組的方法有單變量值分組和組距分組兩種。數(shù)據(jù)分組的主要目的是觀察數(shù)據(jù)的分布特征。

數(shù)據(jù)分組應(yīng)遵循兩個(gè)原則,即“相互獨(dú)立”和“完全窮盡”。所謂相互獨(dú)立,即分組之間不能有交叉,組別之間具有明顯的差異性,每個(gè)數(shù)據(jù)只能歸屬于某一組;所謂完全窮盡,即分組中不要遺漏任何數(shù)據(jù),保證完整性,各組的空間足以容納總體的所有數(shù)據(jù)。

Excel是通過(guò)運(yùn)用VLOOKUP函數(shù)實(shí)現(xiàn)快速分組的。VLOOKUP函數(shù)是Excel中一個(gè)縱向查找函數(shù),可以用來(lái)返回?cái)?shù)據(jù)所在分組的名稱。其功能是按列查找,最終返回該列所需查詢序列所對(duì)應(yīng)的值。VLOOKUP函數(shù)的語(yǔ)法為:VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)四、數(shù)據(jù)重組

根據(jù)數(shù)據(jù)分析目的的不同,所需要的數(shù)據(jù)項(xiàng)目也有所不同。在采集數(shù)據(jù)時(shí)可能考慮不夠細(xì)致,將所有可能用到的數(shù)據(jù)都統(tǒng)計(jì)在一起,這難免會(huì)出現(xiàn)數(shù)據(jù)多余、數(shù)據(jù)項(xiàng)目不符合需求等情況,此時(shí)就需要重新組合現(xiàn)有數(shù)據(jù),使其符合數(shù)據(jù)分析的需要。數(shù)據(jù)分組主要從三個(gè)方面著手,即將一個(gè)數(shù)據(jù)拆分成兩個(gè)數(shù)據(jù)、將兩個(gè)數(shù)據(jù)合并成一個(gè)數(shù)據(jù)、從多個(gè)數(shù)據(jù)中抽取部分?jǐn)?shù)據(jù)組合成新的數(shù)據(jù)。(一)數(shù)據(jù)拆分

在采集到的數(shù)據(jù)表中,一列數(shù)據(jù)項(xiàng)可能包含多種類型的信息。例如,IP地址信息包含IP地址、用戶所在省份、用戶所在城市等,在進(jìn)行后續(xù)數(shù)據(jù)分析時(shí),如果需要單獨(dú)統(tǒng)計(jì)用戶所在省份、城市分布的話,需要將這組數(shù)據(jù)進(jìn)行拆分。對(duì)數(shù)據(jù)進(jìn)行拆分時(shí),使用Excel中的分列功能。該功能可以根據(jù)數(shù)據(jù)的規(guī)律,用不同的標(biāo)準(zhǔn)實(shí)現(xiàn)數(shù)據(jù)拆分。(二)數(shù)據(jù)合并

數(shù)據(jù)合并與數(shù)據(jù)拆分的作用正好相反,它是將多列數(shù)據(jù)合并成一列數(shù)據(jù)。例如將省份列和城市列合并為歸屬地列(即省份+城市)。數(shù)據(jù)合并主要使用邏輯連接符和文本轉(zhuǎn)換函數(shù)實(shí)現(xiàn)多列數(shù)據(jù)的合并。1.使用“&”邏輯連接符2.使用“TEXT”文本轉(zhuǎn)換函數(shù)3.使用“CONCATENATE”文本轉(zhuǎn)換函數(shù)(三)數(shù)據(jù)抽取

數(shù)據(jù)抽取是指從現(xiàn)有原始數(shù)據(jù)中抽取部分?jǐn)?shù)據(jù)作為目標(biāo)分析對(duì)象。抽取情況分為兩種,一種是從一列數(shù)據(jù)中抽取一部分,另一種是從多列數(shù)據(jù)中抽取部分?jǐn)?shù)據(jù)列。兩種抽取方法都要借助函數(shù)實(shí)現(xiàn)。1.從一列數(shù)據(jù)中抽取部分?jǐn)?shù)據(jù)2.從多列數(shù)據(jù)中抽取部分列五、數(shù)據(jù)排序

在數(shù)據(jù)加工過(guò)程中,面對(duì)凌亂的原始數(shù)據(jù),可以采用排序的方法將其進(jìn)行整理。Excel不僅可以提供諸如按某個(gè)字段升序、降序,按顏色、字母、筆劃等方式的簡(jiǎn)單排序,還可以提供解決復(fù)雜問(wèn)題的自定義排序。(一)基礎(chǔ)排序

1.按數(shù)值大小排序

2.按顏色排序3.按筆劃或字母排序(二)自定義排序

基本排序?qū)τ谀承?fù)雜的數(shù)據(jù)處理并不能解決問(wèn)題。數(shù)值型數(shù)據(jù)的排序規(guī)制比較簡(jiǎn)單,根據(jù)大小即可排序;而涉及到非數(shù)字型數(shù)據(jù)的排序規(guī)制就比較復(fù)雜,這時(shí)可以通過(guò)自定義進(jìn)行排序。(三)利用Python進(jìn)行排序

在Python中若想對(duì)某一列進(jìn)行排序,需要用到sort_values()方法,在sort_values后的括號(hào)中指明要排序的名列,以及升序還是降序排列。第四節(jié)數(shù)據(jù)透視表的使用一、數(shù)據(jù)透視表的創(chuàng)建二、數(shù)據(jù)透視表的使用技巧三、數(shù)據(jù)透視表的應(yīng)用

數(shù)據(jù)透視表是一種類似于數(shù)據(jù)分組的操作方法,常見于Excel與類似的表格應(yīng)用中。數(shù)據(jù)透視表是將每一列作為輸入,輸出將數(shù)據(jù)不斷細(xì)分為多個(gè)維度累計(jì)信息的二維數(shù)據(jù)表。

數(shù)據(jù)透視表(PivotTable)是一種交互式的表。之所以稱為數(shù)據(jù)透視表,是因?yàn)橐粡垟?shù)據(jù)透視表僅靠鼠標(biāo)拖動(dòng)字段位置,就可以動(dòng)態(tài)地改變它的版面布局,變換出各種類型的分析報(bào)表,以便按照不同方式展示數(shù)據(jù)特征。使用時(shí)只需指定所需分析的字段、數(shù)據(jù)透視表的組織形式,以及要計(jì)算的類型(求和、計(jì)數(shù)、平均、方差等)。如果原始數(shù)據(jù)發(fā)生更改,則可以刷新數(shù)據(jù)透視表來(lái)更改匯總結(jié)果。一、數(shù)據(jù)透視表的創(chuàng)建(一)數(shù)據(jù)透視表的基本構(gòu)造(二)Excel中創(chuàng)建數(shù)據(jù)透視表

用Excel2016建立透視表有兩種方法:一種是使用系統(tǒng)推薦的透視表,可以省去字段設(shè)置的過(guò)程;另一種是自定義建立透視表,可以靈活地選擇數(shù)據(jù)區(qū)域及進(jìn)行字段設(shè)置。(三)Python中創(chuàng)建數(shù)據(jù)透視表

Python中數(shù)據(jù)透視表的制作原理與Excel中的制作原理是一樣的,Python中的數(shù)據(jù)透視表用到的是pivot_table()方法。二、數(shù)據(jù)透視表的使用技巧

數(shù)據(jù)透視表不僅僅能動(dòng)態(tài)、便捷地改變數(shù)據(jù)表的組織結(jié)構(gòu)形式,還能將數(shù)據(jù)進(jìn)行多樣的結(jié)構(gòu)分析和對(duì)比分析,比如計(jì)算百分比、環(huán)比、同比,分組統(tǒng)計(jì),使用篩選器等功能。(一)計(jì)算百分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論