版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
財(cái)務(wù)大數(shù)據(jù)分析項(xiàng)目二大數(shù)據(jù)采集、清洗與集成前言大數(shù)據(jù)開啟了一個(gè)大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時(shí)代,它給技術(shù)和商業(yè)帶來了巨大的變化。麥肯錫研究表明,在醫(yī)療、零售和制造業(yè)領(lǐng)域,大數(shù)據(jù)每年可以提高勞動(dòng)生產(chǎn)率0.5-1個(gè)百分點(diǎn)。大數(shù)據(jù)技術(shù),就是從各種類型的數(shù)據(jù)中快速獲得有價(jià)值信息的技術(shù)。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù),它們成為大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的有力武器。大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)清理集成、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。然而調(diào)查顯示,未被使用的信息比例高達(dá)99.4%,很大程度都是由于高價(jià)值的信息無法獲取采集完成數(shù)據(jù)清理集成。目錄頁數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)集成任務(wù)一數(shù)據(jù)采集任務(wù)一數(shù)據(jù)采集【任務(wù)描述】1.單企業(yè)財(cái)報(bào)數(shù)據(jù)采集:采集江西銅業(yè)2021年的年報(bào)數(shù)據(jù),報(bào)表類型為基本信息表。2.采集多家企業(yè)的基本信息表,企業(yè)可在上交所上市的公司中任選,比如選擇“貴州茅臺(tái)”、“美克家居”、“柳鋼股份”、“三一重工”四家公司的基本信息表。3.采集4家企業(yè)(比如選擇“貴州茅臺(tái)”、“美克家居”、“柳鋼股份”、“三一重工”)的資產(chǎn)負(fù)債表、利潤(rùn)表、現(xiàn)金流量表。任務(wù)一數(shù)據(jù)采集數(shù)據(jù)采集,又稱“數(shù)據(jù)獲取”,是數(shù)據(jù)分析的入口,也是數(shù)據(jù)分析過程中相當(dāng)重要環(huán)節(jié),它通過各種技術(shù)手段把外部各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)實(shí)時(shí)或非實(shí)時(shí)地采集并加以利用。數(shù)據(jù)采集是每個(gè)數(shù)據(jù)分析項(xiàng)目的第一個(gè)步驟。在數(shù)據(jù)分析的道路上,數(shù)據(jù)采集是重中之重。數(shù)據(jù)采集的質(zhì)量直接決定了后續(xù)的分析是否準(zhǔn)確。如圖。(一)數(shù)據(jù)采集的數(shù)據(jù)源
數(shù)據(jù)的獲取來源主要分為外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)。內(nèi)部數(shù)據(jù)是指機(jī)構(gòu)日常業(yè)務(wù)中積累的業(yè)務(wù)數(shù)據(jù)和財(cái)務(wù)數(shù)據(jù),外部數(shù)據(jù)主要有國(guó)家統(tǒng)計(jì)數(shù)據(jù)、地方政府公開數(shù)據(jù)、研究機(jī)構(gòu)的調(diào)研報(bào)告、上司公司的年報(bào)、季報(bào)等。如圖所示。任務(wù)一數(shù)據(jù)采集(二)數(shù)據(jù)采集的三大要點(diǎn)
1.全面性
數(shù)據(jù)量足夠具有分析價(jià)值、數(shù)據(jù)面足夠支撐分析需求。比如對(duì)于“查看商品詳情”這一行為,需要采集用戶觸發(fā)時(shí)的環(huán)境信息、會(huì)話、以及背后的用戶ID,最后需要統(tǒng)計(jì)這一行為在某一時(shí)段觸發(fā)的人數(shù)、次數(shù)、人均次數(shù)、活躍比等。
2.多維性
數(shù)據(jù)更重要的是能滿足分析需求。靈活、快速自定義數(shù)據(jù)的多種屬性和不同類型,從而滿足不同的分析目標(biāo)。3.高效性
高效性包含技術(shù)執(zhí)行的高效性、團(tuán)隊(duì)內(nèi)部成員協(xié)同的高效性以及數(shù)據(jù)分析需求和目標(biāo)實(shí)現(xiàn)的高效性。任務(wù)一數(shù)據(jù)采集(三)數(shù)據(jù)采集準(zhǔn)備1.明確數(shù)據(jù)驅(qū)動(dòng)目標(biāo)帶數(shù)據(jù)采集切忌大而全,數(shù)據(jù)分析需求也是隨著產(chǎn)品不斷迭代的,明確長(zhǎng)遠(yuǎn)和當(dāng)前階段的分析需求,讓分析更有目的性,技術(shù)執(zhí)行更高效。
2.按需采集數(shù)據(jù)帶著需求和分析目標(biāo)去采數(shù)據(jù),不只避免了數(shù)據(jù)冗余帶來的無從下手,也避免了全量采集以后殊不知道要分析什么的尷尬。
3.選擇數(shù)據(jù)采集的工具和手段為了高效采集大數(shù)據(jù),依據(jù)采集環(huán)境及數(shù)據(jù)類型選擇適當(dāng)?shù)拇髷?shù)據(jù)采集方法及平臺(tái)至關(guān)重要。(四)數(shù)據(jù)采集工具常用的大數(shù)據(jù)采集平臺(tái)和工具有:
1.火車采集器
是一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網(wǎng)頁上散亂分布的數(shù)據(jù)信息,并通過一系列的分析處理,準(zhǔn)確挖掘出所需數(shù)據(jù)。任務(wù)一數(shù)據(jù)采集3.八爪魚八爪魚是一款通用的網(wǎng)頁數(shù)據(jù)采集神器,它突破了網(wǎng)頁數(shù)據(jù)采集的傳統(tǒng)思維方法,沒有編程基礎(chǔ)一樣可以采集,讓用戶在網(wǎng)站上抓取資料變得更加簡(jiǎn)單容易。如圖所示。4.網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。如圖所示。八爪魚網(wǎng)絡(luò)爬蟲
2.集搜客是一款簡(jiǎn)單易用的網(wǎng)頁信息抓取軟件,能夠抓取網(wǎng)頁文字、圖表、超鏈接等多種網(wǎng)頁元素,可以提供好用的網(wǎng)頁抓取軟件、數(shù)據(jù)挖掘攻略、行業(yè)資訊和前沿科技等。如圖所示。集搜客任務(wù)一數(shù)據(jù)采集二、網(wǎng)絡(luò)爬蟲簡(jiǎn)介(一)什么是網(wǎng)絡(luò)爬蟲?網(wǎng)絡(luò)爬蟲(webcrawler),也叫網(wǎng)絡(luò)蜘蛛(spider),是一種用來自動(dòng)瀏覽萬維網(wǎng)的網(wǎng)絡(luò)機(jī)器人。其早期目的一般為編纂網(wǎng)絡(luò)索引。之后廣泛應(yīng)用在數(shù)據(jù)采集、信息監(jiān)控等領(lǐng)域。簡(jiǎn)單來說,網(wǎng)絡(luò)爬蟲就是獲取網(wǎng)頁并提取和保存信息的自動(dòng)化程序。某些信息散布在多個(gè)網(wǎng)站、頁面里,為了提取它們,我們可編寫網(wǎng)絡(luò)爬蟲程序或使用具有網(wǎng)絡(luò)爬蟲功能的工具,實(shí)現(xiàn)規(guī)模化、自動(dòng)化的數(shù)據(jù)采集。任務(wù)一數(shù)據(jù)采集(二)網(wǎng)絡(luò)爬蟲的幾個(gè)基本術(shù)語1.URL(UniformResourceLocator)統(tǒng)?資源定位符,?叫URL(UniformResourceLocator),是專為標(biāo)識(shí)Internet?上資源位置?設(shè)置的?種編址?式,我們平時(shí)所說的?頁地址指的即是URL。2.客戶端(Client)
客戶端(Client)或稱為用戶端,是指與服務(wù)器相對(duì)應(yīng),為客戶提供本地服務(wù)的程序。主要功能是請(qǐng)求訪問文本或圖像等資源。其行為過程是根據(jù)目標(biāo)URL,編制請(qǐng)求報(bào)文并發(fā)送,并獲取資源。3.web服務(wù)器(webserver)
Web服務(wù)器一般指網(wǎng)站服務(wù)器,是指駐留于因特網(wǎng)上某種類型計(jì)算機(jī)的程序,可以向?yàn)g覽器等Web客戶端提供文檔,也可以放置網(wǎng)站文件,讓全世界瀏覽;可以放置數(shù)據(jù)文件,讓全世界下載。主要功能是提供資源響應(yīng)。其行為過程是接收請(qǐng)求,按照既定規(guī)則返回相應(yīng)文件資源。任務(wù)一數(shù)據(jù)采集(三)爬蟲基本原理簡(jiǎn)單來說這段過程發(fā)生了以下四個(gè)步驟:1.查找域名對(duì)應(yīng)的IP地址。2.向IP對(duì)應(yīng)的服務(wù)器發(fā)送請(qǐng)求。3.服務(wù)器響應(yīng)請(qǐng)求,發(fā)回網(wǎng)頁內(nèi)容。4.瀏覽器解析網(wǎng)頁內(nèi)容。(四)網(wǎng)絡(luò)爬蟲的基本工作流程網(wǎng)絡(luò)爬蟲的基本工作流程如下:
1.確定數(shù)據(jù)源:一個(gè)或多個(gè)網(wǎng)站的某些頁面的某部分信息。2.構(gòu)造并發(fā)送請(qǐng)求:根據(jù)頁面的URL和請(qǐng)求報(bào)文,模擬真實(shí)的瀏覽器,構(gòu)造HTTP請(qǐng)求。3.獲取響應(yīng)數(shù)據(jù):如果上一步的請(qǐng)求能夠成功獲取到正常的響應(yīng)數(shù)據(jù),獲取響應(yīng)報(bào)文中的響應(yīng)數(shù)據(jù)??赡苁荋TML、JSON、圖片、視頻等類型的文件。4.解析、處理、保存數(shù)據(jù):數(shù)據(jù)可能是不同編碼,首先要轉(zhuǎn)換為需要的編碼格式,再做進(jìn)一步的數(shù)據(jù)解析、提取,獲取到目標(biāo)數(shù)據(jù),之后目標(biāo)數(shù)據(jù)可能不是我們需要的形式,需要做進(jìn)一步的處理,最后將數(shù)據(jù)保存。任務(wù)一數(shù)據(jù)采集【任務(wù)實(shí)施】1.單企業(yè)財(cái)報(bào)數(shù)據(jù)采集:采集江西銅業(yè)2021年的年報(bào)數(shù)據(jù),報(bào)表類型為基本信息表。如圖2-1-7所示。步驟一:點(diǎn)擊任務(wù)“單企業(yè)數(shù)據(jù)采集”,點(diǎn)擊“開始任務(wù)”,在平臺(tái)提供的代碼頁面,修改其中的企業(yè)信息為(“600362”,“江西銅業(yè)”,“jxty”)、年份信息修改為“2021”。步驟二:點(diǎn)擊【運(yùn)行】,系統(tǒng)執(zhí)行代碼,從仿真的上交所網(wǎng)站上采集江西步銅業(yè)2021年的基礎(chǔ)信息表。運(yùn)行完畢,提示采集成功,如圖2-1-8所示。
步驟三:點(diǎn)擊【查看數(shù)據(jù)】,系統(tǒng)顯示出采集結(jié)果,如圖2-1-9所示。可以點(diǎn)擊【下載】,將采集結(jié)果下載到本地。任務(wù)一數(shù)據(jù)采集任務(wù)二數(shù)據(jù)清洗12354【任務(wù)描述】1.字段拆分(客戶)
將任務(wù)1清洗完的數(shù)據(jù),進(jìn)行客戶分布分析,將客戶ID字段拆分為兩列值為“-”和空格的替換為NULLB公司是一家銷售辦公用品、辦公家具和辦公電子設(shè)備的公司,旗下有多家直營(yíng)店,每月月底各直營(yíng)店都會(huì)向財(cái)務(wù)提供本月的銷售數(shù)據(jù)表?,F(xiàn)公司的財(cái)務(wù)分析師手上有一份匯總多年的銷售數(shù)據(jù)。數(shù)據(jù)表中的單元格有“-”和空值,有的單元格有特殊字符。清洗要求∶將表格中值為“-”和空格的替換為NULL,為2.字段拆分(產(chǎn)品名稱)
將“產(chǎn)品名稱”列切分為三列“品牌”、“客戶名稱”和“客戶ID”。“品名”、“規(guī)格”?!局R(shí)準(zhǔn)備】一、數(shù)據(jù)清洗的概念
數(shù)據(jù)清洗(Datacleaning)是對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別錯(cuò)誤的最后一道程序,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。數(shù)據(jù)清洗包括檢查數(shù)據(jù)一致性、處理無效值和缺失值等。二、數(shù)據(jù)清洗主要內(nèi)容及處理方法
數(shù)據(jù)清洗的主要內(nèi)容有:缺失值清洗、格式內(nèi)容清洗、邏輯錯(cuò)誤清洗、非需求性數(shù)據(jù)清洗、關(guān)聯(lián)性驗(yàn)證。任務(wù)二數(shù)據(jù)清洗。三、數(shù)據(jù)清洗設(shè)計(jì)
數(shù)據(jù)清洗不是一次性工作,需要多次、多環(huán)節(jié)進(jìn)行。因此,要做好數(shù)據(jù)清洗、保證數(shù)據(jù)質(zhì)量,首先需要對(duì)整個(gè)數(shù)據(jù)處理的流程進(jìn)行設(shè)計(jì)或了解,在了解了數(shù)據(jù)流程后再進(jìn)行相應(yīng)環(huán)節(jié)設(shè)計(jì)數(shù)據(jù)清洗流程。(一)數(shù)據(jù)清洗遵循原則
數(shù)據(jù)清洗可以遵循下列原則:1.少量數(shù)據(jù)時(shí),先對(duì)數(shù)據(jù)進(jìn)行合并、聯(lián)接,再進(jìn)行數(shù)據(jù)清洗;2.大數(shù)據(jù)源接入時(shí),先按照統(tǒng)一標(biāo)準(zhǔn)清洗數(shù)據(jù),再進(jìn)行接入;3.當(dāng)有多個(gè)計(jì)算層時(shí),每個(gè)數(shù)據(jù)計(jì)算層先清洗再計(jì)算;4.分析結(jié)果發(fā)現(xiàn)存在數(shù)據(jù)問題時(shí),向前溯源,新增、修訂清洗規(guī)則。(二)數(shù)據(jù)清洗設(shè)計(jì)原則1.一個(gè)清洗步驟用一條清洗規(guī)則;2.多拆分清洗步驟時(shí),每個(gè)步驟進(jìn)行數(shù)據(jù)備份,方便出問題時(shí)回退;3.一般先做全局清洗(即對(duì)全部數(shù)據(jù)進(jìn)行清洗),再做個(gè)別字段的清洗;4.清洗的輸出結(jié)果不要直接放在正式數(shù)據(jù)任務(wù)二數(shù)據(jù)清洗【任務(wù)實(shí)施】
1.將表格中值為“-”和空格的替換為NULLB公司是一家銷售辦公用品、辦公家具和辦公電子設(shè)備的公司,旗下有多家直營(yíng)店,每月月底各直營(yíng)店都會(huì)向財(cái)務(wù)提供本月的銷售數(shù)據(jù)表?,F(xiàn)公司的財(cái)務(wù)分析師手上有一份匯總多年的銷售數(shù)據(jù)。數(shù)據(jù)表中的單元格有“-”和空值,有的單元格有特殊字符。清洗要求∶將表格中值為“-”和空格的替換為NULL。
步驟一:進(jìn)入課程平臺(tái),項(xiàng)目三-數(shù)據(jù)清洗-數(shù)據(jù)清洗實(shí)戰(zhàn),點(diǎn)擊“任務(wù)∶全局清洗規(guī)則”,點(diǎn)擊【開始任務(wù)】,進(jìn)入數(shù)據(jù)清洗頁面,如圖所示。任務(wù)二數(shù)據(jù)清洗
步驟二:點(diǎn)擊“選擇數(shù)據(jù)源”,要清洗的表已經(jīng)內(nèi)置在課程平臺(tái)中,所以直接點(diǎn)擊空白框向下的箭頭,選擇內(nèi)置的表“清洗實(shí)例-超市-1210精簡(jiǎn)”,如圖所示。任務(wù)二數(shù)據(jù)清洗
步驟三:點(diǎn)擊【查看數(shù)據(jù)源】,可以看到“折扣”列有的值為“-”,有的值為空,如圖所示。
任務(wù)二數(shù)據(jù)清洗
步驟四:點(diǎn)擊“配置全局規(guī)則”,左側(cè)出現(xiàn)“配置全局清洗規(guī)則”區(qū),選擇“字符替換”下的“-(僅有)替換為Null”和“空格(僅有)替換為Null”,如圖所示。圖2-2-4選擇全局清洗規(guī)則任務(wù)二數(shù)據(jù)清洗步驟五:此處也可以選擇“-(僅有)替換為0”和“空格(僅有)替換為0”。點(diǎn)擊“開始清洗”,系統(tǒng)彈出“確定要開始清洗嗎”,點(diǎn)擊【確定】,如圖所示。任務(wù)二數(shù)據(jù)清洗
步驟六:清洗完成,點(diǎn)擊“查看清洗結(jié)果”,可以看到折扣列原來的“-”變成了空值null。如圖所示??梢詫⒃撉逑唇Y(jié)果下載,作為下一步清洗的數(shù)據(jù)源表?!咀⒁狻看舜吻逑磿r(shí)不要選擇“非法字符清洗”,“產(chǎn)品名稱”列的非法字符后續(xù)會(huì)統(tǒng)一替換,此處不做清洗。任務(wù)二數(shù)據(jù)清洗2.字段拆分(客戶)
將任務(wù)1清洗完的數(shù)據(jù),進(jìn)行客戶分布分析,將客戶ID字段拆分為兩列,為“客戶名稱”和“客戶ID”。步驟一:點(diǎn)擊“任務(wù)∶客戶分布分析”,點(diǎn)擊【開始任務(wù)】,進(jìn)入數(shù)據(jù)清洗頁面,點(diǎn)擊“選擇數(shù)據(jù)源”,下拉選擇“超市銷售數(shù)據(jù)”(注∶也可以將上一步清洗后的結(jié)果在此處上傳),點(diǎn)擊【保存】,如圖所示。任務(wù)二數(shù)據(jù)清洗步驟二:點(diǎn)擊“添加規(guī)則”,選擇“字段切分”,彈出“選擇字段”窗口,將“客戶ID”移到右側(cè),如圖所示。任務(wù)二數(shù)據(jù)清洗步驟三:在“字段清洗規(guī)則”區(qū),切分分割符為“-”,客戶ID切分后的字段名分別設(shè)為“客戶名稱”和“客戶ID”,如圖所示。任務(wù)二數(shù)據(jù)清洗步驟四:點(diǎn)擊【保存】,保存規(guī)則,之后點(diǎn)擊“開始清洗”,系統(tǒng)自動(dòng)按清洗規(guī)則執(zhí)行清洗任務(wù),清洗完畢,點(diǎn)擊“查看數(shù)據(jù)”,可以看到原“客戶ID”列,變?yōu)椤翱蛻裘Q”和“客戶ID”兩列,如圖所示。任務(wù)二數(shù)據(jù)清洗3.字段拆分(產(chǎn)品名稱)
將“產(chǎn)品名稱”列切分為三列“品牌”、“品名”、“規(guī)格”。
在字段拆分前,需要將“產(chǎn)品名稱”列中的切分符統(tǒng)一,需要將現(xiàn)有字段中的特殊字符進(jìn)行逐一的替換,最終替換為統(tǒng)一的切分符。其替換步驟見下圖。任務(wù)二數(shù)據(jù)清洗步驟一:
字段里的非法字符和分隔符統(tǒng)一
點(diǎn)擊“任務(wù)∶受歡迎商品分析-產(chǎn)品名稱切分”,點(diǎn)擊【開始任務(wù)】,進(jìn)入數(shù)據(jù)清洗頁面,點(diǎn)擊“選擇數(shù)據(jù)源”,下拉選擇“超市銷售數(shù)據(jù)”(注∶也可以將上一步清洗后的結(jié)果在此處上傳),點(diǎn)擊【保存】,如圖所示。任務(wù)二數(shù)據(jù)清洗點(diǎn)擊“配置按字段清洗規(guī)則”,點(diǎn)擊“添加規(guī)則”,選擇“字符替換”-“產(chǎn)品名稱”,將*替換為空(什么也不輸入),將/替換為空(什么也不輸入),將\替換為空(什么也不輸入),如圖1所示。將|替換為空格(空格需要輸入,按空格鍵),如圖2所示。圖2字符替換為空格圖1字符替換為空任務(wù)二數(shù)據(jù)清洗
點(diǎn)擊【保存】,點(diǎn)擊“開始清洗”,清洗完成,查看清洗結(jié)果,“產(chǎn)品名稱”列中的特殊字符都被清理了,如圖所示。任務(wù)二數(shù)據(jù)清洗點(diǎn)擊【下載】,將該清洗結(jié)果下載到本地。步驟二:將“產(chǎn)品名稱”切分為兩列為“品牌”和“品名規(guī)格”。點(diǎn)擊退回,回到數(shù)據(jù)清洗頁面,如圖所示。任務(wù)二數(shù)據(jù)清洗點(diǎn)擊【重置】,重新選擇數(shù)據(jù)源,點(diǎn)擊【上傳數(shù)據(jù)】,將上一步下載的數(shù)據(jù)表進(jìn)行上傳,如圖所示。任務(wù)二數(shù)據(jù)清洗點(diǎn)擊“配置字段清洗規(guī)則”,點(diǎn)擊“添加規(guī)則”,選擇“字段切分”,切分字段為“產(chǎn)品名稱”,切分分隔符為空格(按空格鍵輸入),切分后的字段分別為“品牌”、“品名規(guī)格”。如圖所示。任務(wù)二數(shù)據(jù)清洗
點(diǎn)擊【保存】,點(diǎn)擊“開始清洗”,系統(tǒng)執(zhí)行清洗任務(wù),清洗完成后點(diǎn)擊“查看清洗結(jié)果”,可以看到新拆分的兩列∶“品牌”列和“品名規(guī)格”列。任務(wù)二數(shù)據(jù)清洗點(diǎn)擊【下載】,將清洗結(jié)果保存到本地。步驟三:將“品名規(guī)格”列拆分為“品名”和“規(guī)格”兩列點(diǎn)擊退回,回到數(shù)據(jù)清洗頁面,點(diǎn)擊【重置】,重新選擇數(shù)據(jù)源,點(diǎn)擊【上傳數(shù)據(jù)】,將上一步下載的數(shù)據(jù)表進(jìn)行上傳。任務(wù)二數(shù)據(jù)清洗
點(diǎn)擊“配置按字段清洗規(guī)則”,點(diǎn)擊“添加規(guī)則”,選擇“字符替換”,字段為“品名規(guī)格”,空格(輸入空格鍵),替換為空(什么也不輸);再次點(diǎn)擊“添加規(guī)則”,選擇“字段切分”,字段為“品名規(guī)格”,切分分隔符為英文的逗號(hào),切分后的字段名為“品名”和“規(guī)格”,如圖所示。
點(diǎn)擊【保存】,點(diǎn)擊“開始清洗”,系統(tǒng)執(zhí)行清洗任務(wù),清洗完成后點(diǎn)擊“查看清洗結(jié)果”,可以看到新拆分的兩列∶“品名”列和“規(guī)格”列,如圖所示。任務(wù)二數(shù)據(jù)清洗任務(wù)三數(shù)據(jù)集成【任務(wù)描述】1.數(shù)據(jù)關(guān)聯(lián)
2.數(shù)據(jù)合并【知識(shí)準(zhǔn)備】一、數(shù)據(jù)集成的概念
從廣義上來說,在企業(yè)中,由于開發(fā)時(shí)間或開發(fā)部門的不同,往往有多個(gè)異構(gòu)的、運(yùn)行在不同軟硬件平臺(tái)上的信息系統(tǒng)同時(shí)運(yùn)行,這些系統(tǒng)的數(shù)據(jù)源彼此獨(dú)立、相互封閉,這使得數(shù)據(jù)難以在系統(tǒng)之間交流、共享和融合,從而形成了“信息孤島”。
從狹義上來說,數(shù)據(jù)集成是一個(gè)數(shù)據(jù)整合的過程。就是指將多份數(shù)據(jù)進(jìn)行合并,形成數(shù)據(jù)集的過程和方法。通過綜合各數(shù)據(jù)源,將擁有不同結(jié)構(gòu)、不同屬性的數(shù)據(jù)合并,存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。這些數(shù)據(jù)源可能包括多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件等,以產(chǎn)生更高的數(shù)據(jù)價(jià)值和更豐富的數(shù)據(jù)。
數(shù)據(jù)集成最常見的兩種方法是數(shù)據(jù)關(guān)聯(lián)與數(shù)據(jù)合并。前者用于將不同數(shù)據(jù)內(nèi)容的表格根據(jù)條件進(jìn)行左右連接,后者用于將相同或相似數(shù)據(jù)內(nèi)容的表格進(jìn)行上下連接,如圖所示。任務(wù)三數(shù)據(jù)集成二、數(shù)據(jù)集成的主要內(nèi)容(一)數(shù)據(jù)關(guān)聯(lián)1.數(shù)據(jù)關(guān)聯(lián)的概念
數(shù)據(jù)關(guān)聯(lián)必須要有關(guān)聯(lián)條件,一般是指左表的主鍵或其他唯一約束字段(即沒有重復(fù)值)與右表的主鍵或其他唯一約束字段相等(相同),即表之間有關(guān)鍵字段(列名),不同的表根據(jù)列名將數(shù)據(jù)進(jìn)行關(guān)聯(lián)。如表A、表B都有共同的字段ID,通過ID將表A與表B進(jìn)行連接,如圖所示。任務(wù)三數(shù)據(jù)集成2.數(shù)據(jù)關(guān)聯(lián)的方式數(shù)據(jù)關(guān)聯(lián)有四種方式:左連接(leftjoin)、右連接(rightjoin)、內(nèi)連接(innerjoin)、全連接(fulljoin),如圖所示。(1)左連接左連接是以左表為基礎(chǔ),根據(jù)兩表的關(guān)聯(lián)條件將兩表連接起來。結(jié)果會(huì)將左表所有的數(shù)據(jù)條目列出,而右表只列出與左表關(guān)聯(lián)條件滿足的部分。左連接全稱為左外連接,屬于外連接的一種方式,如圖4示。任務(wù)三數(shù)據(jù)集成(2)右連接右連接是以右表為基礎(chǔ),根據(jù)兩表的關(guān)聯(lián)條件將兩表連接起來。結(jié)果會(huì)將右表所有的數(shù)據(jù)條目列出,而左表只列出與右表關(guān)聯(lián)條件滿足的部分。右連接全稱為右外連接,屬于外連接的一種方式,如圖所示。(3)內(nèi)連接內(nèi)連接只顯示滿足關(guān)聯(lián)條件的左右兩表的數(shù)據(jù)記錄,不符合條件的數(shù)據(jù)不顯示,如圖所示。圖
右連接圖
內(nèi)連接任務(wù)三數(shù)據(jù)集成(4)全連接全連接即為滿足關(guān)聯(lián)條件的左右表數(shù)據(jù)相連,但不滿足條件的各表數(shù)據(jù)仍保留,兩表之間無對(duì)應(yīng)數(shù)據(jù)的內(nèi)容為空值,如圖所示?!咀⒁狻?jī)蓚€(gè)數(shù)據(jù)集進(jìn)行關(guān)聯(lián)時(shí),每個(gè)數(shù)據(jù)集中的列名在各自數(shù)據(jù)集中都必須是唯一的,但兩個(gè)數(shù)據(jù)集之間的列名可以重復(fù),因?yàn)橹挥袃蓚€(gè)數(shù)據(jù)集中有相同列,數(shù)據(jù)關(guān)聯(lián)才有實(shí)際意義。任務(wù)三數(shù)據(jù)集成(二)數(shù)據(jù)合并數(shù)據(jù)合并,也稱數(shù)據(jù)追加,是指對(duì)多份數(shù)據(jù)字段基本完全相同的數(shù)據(jù)進(jìn)行上下連接。如有表1和表2兩個(gè)數(shù)據(jù)庫表格,它們對(duì)應(yīng)的字段是相同的,那么就可以對(duì)這兩個(gè)表進(jìn)行數(shù)據(jù)合并,如圖所示。
表2表1圖
數(shù)據(jù)合并任務(wù)三數(shù)據(jù)集成【任務(wù)實(shí)施】1.數(shù)據(jù)關(guān)聯(lián)B公司的數(shù)據(jù)分析師對(duì)清洗后的超市銷售數(shù)據(jù)表要從省份和大區(qū)的維度進(jìn)行銷售額統(tǒng)計(jì),但數(shù)據(jù)表中只有“城市”的數(shù)據(jù),沒有省份和大區(qū)的數(shù)據(jù),如圖所示。任務(wù)三數(shù)據(jù)集成數(shù)據(jù)分析師做了兩張表:城市表和省區(qū)表。城市表是城市和省區(qū)的對(duì)應(yīng)表,超市銷售情況表中的每一個(gè)城市都有對(duì)應(yīng)的省區(qū);省區(qū)表是省份和大區(qū)的對(duì)應(yīng)表,每一個(gè)省份都對(duì)應(yīng)了所屬的大區(qū)。城市表如圖2-3-10所示,省區(qū)表如圖所示。任務(wù)三數(shù)據(jù)集成
將超市數(shù)據(jù)與地區(qū)數(shù)據(jù)進(jìn)行關(guān)聯(lián),“超市銷售情況表”上增加“省份”列和“地區(qū)”列,與“城市”列相匹配。步驟一∶數(shù)據(jù)上傳
將下載的“超市數(shù)據(jù)清洗結(jié)果”、“城市表”、“省區(qū)表”上傳到分析云。任務(wù)三數(shù)據(jù)集成步驟二∶數(shù)據(jù)關(guān)聯(lián)
單擊【新建】按鈕,系統(tǒng)彈出“創(chuàng)建數(shù)據(jù)集”窗口,選擇【關(guān)聯(lián)數(shù)據(jù)集】,名稱設(shè)為“超市省區(qū)關(guān)聯(lián)”。
單擊【確定】,將“超市數(shù)據(jù)清洗結(jié)果”、“城市表”、“省區(qū)表”依次拖拽到右方數(shù)據(jù)編輯區(qū),如圖所示。任務(wù)三數(shù)據(jù)集成
先點(diǎn)選“超市數(shù)據(jù)清洗結(jié)果”,再單擊“城市表”,系統(tǒng)彈出“連接”窗口,選擇“左連接”,關(guān)聯(lián)字段是“城市”,單擊【確定】,如圖所示。任務(wù)三數(shù)據(jù)集成【注意】此次關(guān)聯(lián)是以“城市表”為主表,如果該表在左邊,則關(guān)聯(lián)方式選擇“左連接”,如果該表在右邊,則需要選擇“右連接”。單擊【執(zhí)行】,系統(tǒng)將三張表連接成一張表,在下方的數(shù)據(jù)預(yù)覽區(qū)可以看到表中有“省自治區(qū)”列和“地區(qū)”列,如圖所示。任務(wù)三數(shù)據(jù)集成
單擊【abc】,修改關(guān)聯(lián)表的“數(shù)量”、“折
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版小漁船買賣合同含船舶性能評(píng)估及交易保障3篇
- 2025年度跨境電商店鋪?zhàn)赓U及物流服務(wù)合同
- 2025年全球及中國(guó)真空拾取筆行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年度個(gè)人與公司間信用借款合同規(guī)范3篇
- 二零二五年度采石場(chǎng)安全生產(chǎn)監(jiān)管服務(wù)合同3篇
- 二零二五年度電子元器件ROHS檢測(cè)與供應(yīng)鏈管理協(xié)議3篇
- 高效學(xué)習(xí)與時(shí)間管理的藝術(shù)
- 2025版?zhèn)€人民間借款合同書范本:個(gè)人光伏發(fā)電設(shè)備貸款合作協(xié)議4篇
- 潮州2024年廣東潮州市科學(xué)技術(shù)局屬下事業(yè)單位招聘10人(第二輪)筆試歷年參考題庫附帶答案詳解
- 2025版房地產(chǎn)開發(fā)項(xiàng)目部安全生產(chǎn)責(zé)任保障協(xié)議3篇
- 衛(wèi)生服務(wù)個(gè)人基本信息表
- 醫(yī)學(xué)脂質(zhì)的構(gòu)成功能及分析專題課件
- 高技能人才培養(yǎng)的策略創(chuàng)新與實(shí)踐路徑
- 廣東省湛江市廉江市2023-2024學(xué)年八年級(jí)上學(xué)期期末考試數(shù)學(xué)試卷(含答案)
- 2024年湖北省知名中小學(xué)教聯(lián)體聯(lián)盟中考語文一模試卷
- 安徽省蕪湖市2023-2024學(xué)年高一上學(xué)期期末考試 生物 含解析
- 交叉口同向可變車道動(dòng)態(tài)控制與信號(hào)配時(shí)優(yōu)化研究
- 燃?xì)庑袠I(yè)有限空間作業(yè)安全管理制度
- 數(shù)列練習(xí)題(含答案)基礎(chǔ)知識(shí)點(diǎn)
- 人教版(2024新版)七年級(jí)上冊(cè)英語期中+期末學(xué)業(yè)質(zhì)量測(cè)試卷 2套(含答案)
- 安華農(nóng)業(yè)保險(xiǎn)股份有限公司北京市地方財(cái)政生豬價(jià)格指數(shù)保險(xiǎn)條款(風(fēng)險(xiǎn)敏感型)
評(píng)論
0/150
提交評(píng)論