商務(wù)數(shù)據(jù)分析與應(yīng)用 課件 項(xiàng)目四 商務(wù)數(shù)據(jù)采集_第1頁
商務(wù)數(shù)據(jù)分析與應(yīng)用 課件 項(xiàng)目四 商務(wù)數(shù)據(jù)采集_第2頁
商務(wù)數(shù)據(jù)分析與應(yīng)用 課件 項(xiàng)目四 商務(wù)數(shù)據(jù)采集_第3頁
商務(wù)數(shù)據(jù)分析與應(yīng)用 課件 項(xiàng)目四 商務(wù)數(shù)據(jù)采集_第4頁
商務(wù)數(shù)據(jù)分析與應(yīng)用 課件 項(xiàng)目四 商務(wù)數(shù)據(jù)采集_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

商務(wù)數(shù)據(jù)處理CONTENTS目錄01數(shù)據(jù)清洗02數(shù)據(jù)轉(zhuǎn)換03數(shù)據(jù)合并01數(shù)據(jù)清洗數(shù)據(jù)重復(fù)分為實(shí)體重復(fù)和字段重復(fù)。查找重復(fù)數(shù)據(jù)的方法有:條件格式法,通過標(biāo)記顏色快速定位;數(shù)據(jù)透視表法,利用頻次統(tǒng)計(jì)發(fā)現(xiàn)重復(fù);高級篩選法,直接篩選不重復(fù)記錄;函數(shù)法,使用COUNTIF函數(shù)精確計(jì)算重復(fù)次數(shù)。例如,使用條件格式法可將重復(fù)編號標(biāo)記為紅色,方便識別。查找重復(fù)數(shù)據(jù)的方法查找重復(fù)數(shù)據(jù)后,保留唯一數(shù)據(jù)記錄,刪除其他重復(fù)數(shù)據(jù)。可通過篩選或直接刪除重復(fù)行實(shí)現(xiàn)。例如,通過數(shù)據(jù)透視表統(tǒng)計(jì)頻次后,刪除頻次大于1的記錄。刪除重復(fù)數(shù)據(jù)在刪除重復(fù)數(shù)據(jù)時(shí),需確保保留能顯示特征的唯一數(shù)據(jù)記錄,避免丟失重要信息。例如,對于商品信息,保留唯一商品編號對應(yīng)的數(shù)據(jù)。保留唯一數(shù)據(jù)處理重復(fù)數(shù)據(jù)找到缺失數(shù)據(jù)缺失數(shù)據(jù)包括記錄缺失和字段信息缺失。可通過“查找和選擇”功能定位空值。例如,使用“查找和選擇”中的“定位條件”選擇“空值”,快速找到缺失數(shù)據(jù)。刪除或插補(bǔ)缺失數(shù)據(jù)缺失數(shù)據(jù)處理方法有:刪除記錄、刪除缺失值、缺失數(shù)據(jù)插補(bǔ)。插補(bǔ)方法包括均值插補(bǔ)、同類均值插補(bǔ)、極大似然估計(jì)、多重插補(bǔ)等。例如,對于定距型數(shù)據(jù),可使用均值插補(bǔ)填補(bǔ)缺失值。選擇合適的處理方法根據(jù)數(shù)據(jù)類型和分析需求選擇合適的處理方法。對于關(guān)鍵字段缺失,可考慮插補(bǔ);對于非關(guān)鍵字段,可刪除記錄。例如,對于客戶年齡字段缺失,可使用均值插補(bǔ)。處理缺失數(shù)據(jù)常用方法有:箱盒圖、描述分析、散點(diǎn)圖。箱盒圖通過最小估計(jì)值和最大估計(jì)值判斷異常值;描述分析查看極端值;散點(diǎn)圖直觀顯示離群點(diǎn)。例如,通過箱盒圖可直觀發(fā)現(xiàn)數(shù)據(jù)中的異常值。鑒別異常值分析異常值產(chǎn)生的原因,判斷是“偽異?!边€是“真異常”。對于“偽異常”,需結(jié)合業(yè)務(wù)背景理解其合理性。例如,某商品銷量突然增加,需結(jié)合促銷活動判斷是否為異常。分析異常值原因處理方法包括:刪除異常值、不處理、視為缺失值、降低異常值權(quán)重。選擇方法需考慮數(shù)據(jù)量和分析需求。例如,對于少量異常值,可直接刪除;對于大量異常值,可視為缺失值處理。處理異常值處理異常值01使用函數(shù)檢測邏輯錯(cuò)誤,如COUNTIF、IF、OR函數(shù)。COUNTIF函數(shù)統(tǒng)計(jì)選項(xiàng)數(shù);IF函數(shù)標(biāo)記錯(cuò)誤記錄;OR函數(shù)檢驗(yàn)條件。例如,使用IF函數(shù)標(biāo)記選項(xiàng)數(shù)大于3的記錄為“錯(cuò)誤”。檢測邏輯錯(cuò)誤修正后需驗(yàn)證結(jié)果是否符合邏輯和業(yè)務(wù)規(guī)則。可通過再次檢測或人工審核驗(yàn)證。例如,修正后使用OR函數(shù)再次檢驗(yàn),確保無邏輯錯(cuò)誤。驗(yàn)證修正結(jié)果02修正邏輯錯(cuò)誤需結(jié)合業(yè)務(wù)規(guī)則和數(shù)據(jù)背景。對于明顯錯(cuò)誤的數(shù)據(jù),可直接修正;對于復(fù)雜錯(cuò)誤,需進(jìn)一步調(diào)查。例如,對于客戶年齡錯(cuò)誤,需結(jié)合出生年份修正。修正邏輯錯(cuò)誤03處理邏輯錯(cuò)誤值數(shù)據(jù)格式問題包括時(shí)間、日期、數(shù)值、半全角等格式不一致。可通過設(shè)置單元格格式或分列功能統(tǒng)一格式。例如,將百分比格式統(tǒng)一為小數(shù)格式。字段中可能包含多余字符,如單位、空格等??赏ㄟ^替換操作去除多余字符。例如,去除身高字段中的“cm”字符。根據(jù)分析需求調(diào)整數(shù)據(jù)格式,如提取身份證中的出生年月??墒褂肕ID、LEFT、RIGHT等函數(shù)提取數(shù)據(jù)。例如,使用MID函數(shù)提取身份證中的出生年月。010203統(tǒng)一數(shù)據(jù)格式調(diào)整數(shù)據(jù)格式去除多余字符數(shù)據(jù)格式清洗02數(shù)據(jù)轉(zhuǎn)換行列轉(zhuǎn)換可通過“選擇性粘貼”中的“轉(zhuǎn)置”選項(xiàng)實(shí)現(xiàn)。適用于從不同維度觀察數(shù)據(jù)。例如,將時(shí)間維度數(shù)據(jù)轉(zhuǎn)置為地區(qū)維度數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)置對于多維度數(shù)據(jù),可通過多次轉(zhuǎn)置或使用數(shù)據(jù)透視表實(shí)現(xiàn)多維度轉(zhuǎn)換。例如,將時(shí)間、地區(qū)、產(chǎn)品維度數(shù)據(jù)轉(zhuǎn)換為不同組合形式。多維度數(shù)據(jù)轉(zhuǎn)換轉(zhuǎn)置后需調(diào)整數(shù)據(jù)格式和標(biāo)題,確保數(shù)據(jù)清晰易讀。例如,調(diào)整轉(zhuǎn)置后的日期格式和列標(biāo)題。轉(zhuǎn)置后的數(shù)據(jù)調(diào)整行列轉(zhuǎn)換數(shù)值轉(zhuǎn)字符可通過“分列”功能實(shí)現(xiàn)。適用于長數(shù)字或科學(xué)記數(shù)法數(shù)據(jù)。例如,將手機(jī)號碼轉(zhuǎn)換為文本格式。數(shù)值轉(zhuǎn)字符字符轉(zhuǎn)數(shù)字可通過“分列”功能或直接轉(zhuǎn)換實(shí)現(xiàn)。適用于文本格式的數(shù)字?jǐn)?shù)據(jù)。例如,將文本格式的銷售額轉(zhuǎn)換為數(shù)字格式。字符轉(zhuǎn)數(shù)字文本日期轉(zhuǎn)標(biāo)準(zhǔn)日期可通過“分列”功能或日期函數(shù)實(shí)現(xiàn)。適用于非標(biāo)準(zhǔn)日期格式數(shù)據(jù)。例如,將“YYYYMMDD”格式日期轉(zhuǎn)換為標(biāo)準(zhǔn)日期格式。文本日期轉(zhuǎn)標(biāo)準(zhǔn)日期類型轉(zhuǎn)換添加排序條件數(shù)據(jù)排序可通過“排序”功能實(shí)現(xiàn)。可添加多個(gè)排序條件,如按訪客數(shù)降序、下單買家數(shù)升序。例如,將數(shù)據(jù)按訪客數(shù)降序排列,再按下單買家數(shù)升序排列。自定義排序次序多字段排序自定義排序可通過“自定義序列”實(shí)現(xiàn)。適用于特定順序的數(shù)據(jù)排序。例如,按流量來源的自定義順序排序。多字段排序可通過添加多個(gè)排序條件實(shí)現(xiàn)。適用于復(fù)雜數(shù)據(jù)排序需求。例如,按地區(qū)、產(chǎn)品、時(shí)間等多個(gè)字段排序。數(shù)據(jù)排序常規(guī)計(jì)算包括加、減、乘、除運(yùn)算,以及使用函數(shù)計(jì)算統(tǒng)計(jì)指標(biāo),如AVERAGE、SUM等。例如,計(jì)算成交轉(zhuǎn)化率(成交客戶數(shù)/訪客數(shù))。常規(guī)計(jì)算日期時(shí)間計(jì)算包括日期加減、日期函數(shù)計(jì)算等。常用函數(shù)有YEAR、MONTH、TODAY等。例如,計(jì)算用戶購買間隔時(shí)長(最近下單時(shí)間-首次下單時(shí)間)。日期時(shí)間計(jì)算復(fù)雜計(jì)算可通過組合函數(shù)實(shí)現(xiàn)。適用于復(fù)雜數(shù)據(jù)處理需求。例如,計(jì)算商品上架天數(shù)(當(dāng)前日期-上架日期)。復(fù)雜計(jì)算數(shù)據(jù)計(jì)算字段匹配可通過VLOOKUP函數(shù)實(shí)現(xiàn)。適用于關(guān)聯(lián)數(shù)據(jù)表的字段匹配。例如,將“基本信息”表與“考核得分”表匹配,獲取員工考核得分。字段匹配步驟包括:確定關(guān)聯(lián)字段、選擇匹配函數(shù)、設(shè)置參數(shù)、復(fù)制公式。例如,使用VLOOKUP函數(shù)時(shí),需設(shè)置lookup_value、table_array、col_index_num、range_lookup參數(shù)。多表匹配可通過多次使用VLOOKUP函數(shù)或使用其他匹配函數(shù)實(shí)現(xiàn)。適用于多個(gè)數(shù)據(jù)表的字段匹配。例如,將多個(gè)數(shù)據(jù)表的字段進(jìn)行匹配,獲取完整數(shù)據(jù)。VLOOKUP函數(shù)字段匹配步驟多表匹配字段匹配03數(shù)據(jù)合并使用CONCATENATE函數(shù)字段合并也可通過CONCATENATE函數(shù)實(shí)現(xiàn)。適用于復(fù)雜字段合并。例如,使用CONCATENATE函數(shù)將多個(gè)字段合并為一段文本。使用“&”運(yùn)算符字段合并可通過“&”運(yùn)算符實(shí)現(xiàn)。適用于簡單字段合并。例如,將工號和姓名字段合并為“xx的工號是xx”。合并后的數(shù)據(jù)調(diào)整合并后需調(diào)整數(shù)據(jù)格式和內(nèi)容,確保數(shù)據(jù)清晰易讀。例如,調(diào)整合并后的字段格式和內(nèi)容。字段合并剪貼板復(fù)制粘貼工作表合并可通過剪貼板復(fù)制粘貼實(shí)現(xiàn)。適用于數(shù)據(jù)量較少的情況。例如,將多個(gè)工作表的數(shù)據(jù)復(fù)制到一個(gè)工作表中。VBA法工作表合并可通過VBA代碼實(shí)現(xiàn)。適用于數(shù)據(jù)量較多的情況。例如,使用VBA代碼批量合并多個(gè)工作表的數(shù)據(jù)。PowerQuery法工作表合并也可通過Power

Query實(shí)現(xiàn)。適用于Excel2016及以上版本。例如,使用Power

Query批量合并多個(gè)工作表的數(shù)據(jù)。工作表合并PowerQuery法工作簿合并可通過Power

Query實(shí)現(xiàn)。適用于多個(gè)工作簿文件的數(shù)據(jù)合并。例如,使用Power

Query批量合并多個(gè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論