跨境電商數(shù)據(jù)分析與應(yīng)用-課件 項目二 跨境電商數(shù)據(jù)采集、清洗及處理_第1頁
跨境電商數(shù)據(jù)分析與應(yīng)用-課件 項目二 跨境電商數(shù)據(jù)采集、清洗及處理_第2頁
跨境電商數(shù)據(jù)分析與應(yīng)用-課件 項目二 跨境電商數(shù)據(jù)采集、清洗及處理_第3頁
跨境電商數(shù)據(jù)分析與應(yīng)用-課件 項目二 跨境電商數(shù)據(jù)采集、清洗及處理_第4頁
跨境電商數(shù)據(jù)分析與應(yīng)用-課件 項目二 跨境電商數(shù)據(jù)采集、清洗及處理_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)分析與應(yīng)用跨境電商教材編寫團隊Crossbordere-commerceCORSSBORDERE-COMMERCERESEARCHANDANALYSISCrossbordere-commerce跨境電商數(shù)據(jù)采集、清洗及處理OverviewofCrossborderE-commerceDataAnalysis項目二E-commerce跨境電商數(shù)據(jù)采集、清洗及處理知識目標掌握跨境電商數(shù)據(jù)采集的相關(guān)知識。熟悉跨境電商數(shù)據(jù)清洗的相關(guān)知識。掌握跨境電商數(shù)據(jù)處理的相關(guān)知識。技能目標能夠利用數(shù)據(jù)分析工具Excel完成跨境電商數(shù)據(jù)的采集工作。能夠利用數(shù)據(jù)分析工具Excel完成跨境電商數(shù)據(jù)清洗的相關(guān)工作。能夠利用數(shù)據(jù)分析工具Excel完成跨境電商數(shù)據(jù)處理的相關(guān)工作。素質(zhì)目標通過對跨境電商市場數(shù)據(jù)的分析,培養(yǎng)學(xué)生的數(shù)據(jù)化思維能力。在分組完成實訓(xùn)任務(wù)過程中,培養(yǎng)學(xué)生的團隊合作意識以及精益求精的職業(yè)素養(yǎng)。DSR采集機器人某跨境電商賣家,在大促活動之后,DSR評分(DetailSellerRating,店鋪動態(tài)評分)經(jīng)常處于低于行業(yè)水平的邊緣。賣家需要把商品ID和對應(yīng)的商品DSR分值抓取到Excel表中,以供分析哪些商品在售賣中出現(xiàn)了問題,及時調(diào)整銷售策略,從而幫助提升店鋪DSR評分。盡管市場上有商品DSR評價批量查詢工具,但逐條輸入商品ID再將信息復(fù)制粘貼到表中,仍然耗時費力。情景案例DSR采集機器人,可以自動查詢商品ID并將與之對應(yīng)的商品DSR分值批量錄入本地Excel表中。方便查詢店鋪商品不同區(qū)間的描述評分,同時按照店鋪物流評分升序排列。每次跨境電商活動結(jié)束后,運營團隊的3個人都在查詢商品DSR分值。然而使用采集機器人分配到1臺電腦上,為公司節(jié)省了人力。使用DSR采集機器人進行商品DSR分值查詢,準確率高,不會遺漏任何商品DSR分值。案例分析人工智能技術(shù)在跨境電商數(shù)據(jù)分析行業(yè)的應(yīng)用越來越多,雖然采集機器可以代替=人們做很多工作,但對于跨境電商數(shù)據(jù)分析從業(yè)人員而言,掌握基本的跨境電商數(shù)據(jù)采集、清洗和處理技術(shù)也是十分有必要的。DSR采集機器人Crossbordere-commerce跨境電商數(shù)據(jù)采集Crossbordere-commercedatacollection跨境電商數(shù)據(jù)采集的定義跨境電商數(shù)據(jù)采集概述跨境電商數(shù)據(jù)采集也稱為跨境電商數(shù)據(jù)獲取,是指利用采集工具或者系統(tǒng)程序獲取跨境電商平臺數(shù)據(jù)的過程。用戶與企業(yè)在利用跨境電子商務(wù)網(wǎng)站進行交易時,網(wǎng)站記錄下大量的商務(wù)數(shù)據(jù),不僅包含基于用戶的瀏覽信息、消費信息、行為信息、評論信息、社交信息與地理位置信息等,還包含企業(yè)的商品信息以及交易信息。企業(yè)通過數(shù)據(jù)可以看到用戶從哪里來,如何實現(xiàn)產(chǎn)品的高轉(zhuǎn)化率,投放廣告的效率等。跨境電商數(shù)據(jù)采集的原則跨境電商數(shù)據(jù)采集概述在進行數(shù)據(jù)采集時盡可能獲取跨境電商的最新數(shù)據(jù),只有將最新數(shù)據(jù)與往期數(shù)據(jù)進行比對,才能及時發(fā)現(xiàn)當前存在的問題,從而預(yù)測未來的變化趨勢。及時性數(shù)據(jù)采集時確保所采集的數(shù)據(jù)準確無誤,從而避免數(shù)據(jù)分析時出現(xiàn)較大的偏差。在數(shù)據(jù)分析過程中,一旦前期數(shù)據(jù)出現(xiàn)誤差,會導(dǎo)致后續(xù)分析出現(xiàn)偏差。準確性數(shù)據(jù)采集過程中,需要注意數(shù)值期限的有效性。有效性數(shù)據(jù)采集過程中注意采集的合法性。合法性01020304跨境電商數(shù)據(jù)采集渠道跨境電商數(shù)據(jù)采集渠道與工具跨境電商數(shù)據(jù)采集渠道是數(shù)據(jù)有效性、準確性、可靠性的保證。常見的數(shù)據(jù)采集渠道可分為內(nèi)部數(shù)據(jù)渠道和外部數(shù)據(jù)渠道兩類。內(nèi)部數(shù)據(jù)渠道是指獲取自身運營過程中所產(chǎn)生的數(shù)據(jù)。外部數(shù)據(jù)渠道是指能夠獲取行業(yè)及競爭對手數(shù)據(jù)的數(shù)據(jù)渠道。常用的數(shù)據(jù)采集渠道如表:數(shù)據(jù)采集渠道類型采集數(shù)據(jù)類型典型代表企業(yè)或網(wǎng)站跨境電商平臺行業(yè)數(shù)據(jù)速賣通、亞馬遜等政府部門、機構(gòu)協(xié)會、媒體行業(yè)數(shù)據(jù)國家及各級統(tǒng)計局、各類協(xié)會、電視臺、報紙、雜志等權(quán)威的數(shù)據(jù)網(wǎng)站行業(yè)數(shù)據(jù)、產(chǎn)品數(shù)據(jù)艾瑞網(wǎng)、易觀分析等跨境電商獨立站、跨境電商店鋪后臺產(chǎn)品數(shù)據(jù)、市場數(shù)據(jù)、運營數(shù)據(jù)、人群數(shù)據(jù)等速賣通、亞馬遜的后臺,生意參謀、BusinessReports、Shopify等??缇畴娚讨笖?shù)相關(guān)工具行業(yè)數(shù)據(jù)、人群數(shù)據(jù)GoogleTrends、GoogleAnalytics、百度指數(shù)等跨境電商數(shù)據(jù)采集工具選擇跨境電商數(shù)據(jù)采集渠道與工具市面上的跨境電商數(shù)據(jù)采集工具在功能、用途、使用難易程度上雖有相同,但也各有差異,選擇合適的跨境電商數(shù)據(jù)采集工具要從以下3方面進行考慮:賣家根據(jù)自身情況的不同,應(yīng)當選擇不同的數(shù)據(jù)采集工具。使用范圍由數(shù)據(jù)采集工具所采集到的數(shù)據(jù)并不是真實的運營數(shù)據(jù),而是對實際數(shù)據(jù)進行計算轉(zhuǎn)化后得到的數(shù)據(jù),數(shù)據(jù)類型有所差異,在選擇該類數(shù)據(jù)采集工具時需要識別數(shù)據(jù)類型。數(shù)據(jù)類型需要根據(jù)采集需求選擇對應(yīng)的工具。功能需求跨境電商數(shù)據(jù)采集方法的種類跨境電商數(shù)據(jù)采集方法根據(jù)采集的需求不同,跨境電商數(shù)據(jù)采集的方法也有所不同。在跨境電商運營領(lǐng)域中,數(shù)據(jù)采集的方法可以分為以下4類。數(shù)據(jù)庫數(shù)據(jù)采集數(shù)據(jù)庫數(shù)據(jù)采集是指通過數(shù)據(jù)庫采集系統(tǒng)直接與企業(yè)業(yè)務(wù)后臺服務(wù)器結(jié)合,將企業(yè)業(yè)務(wù)后臺每時每刻產(chǎn)生的大量業(yè)務(wù)記錄寫入數(shù)據(jù)庫最后由特定的處理系統(tǒng)進行數(shù)據(jù)分析。系統(tǒng)日志數(shù)據(jù)采集系統(tǒng)日志中會記錄企業(yè)業(yè)務(wù)平臺日志數(shù)據(jù)。通過對這些信息進行采集、分析,可以挖掘出跨境電商企業(yè)業(yè)務(wù)平臺數(shù)據(jù)中的潛在價值?;ヂ?lián)網(wǎng)數(shù)據(jù)采集互聯(lián)網(wǎng)數(shù)據(jù)分布于網(wǎng)頁不同的位置,需要將互聯(lián)網(wǎng)數(shù)據(jù)采集后導(dǎo)入本地文件,然后進行統(tǒng)一處理。調(diào)查問卷調(diào)查問卷是以問題形式系統(tǒng)記載調(diào)查內(nèi)容的一種方式??缇畴娚虜?shù)據(jù)采集方法的種類跨境電商數(shù)據(jù)采集方法根據(jù)采集的需求不同,跨境電商數(shù)據(jù)采集的方法也有所不同。在跨境電商運營領(lǐng)域中,數(shù)據(jù)采集的方法可以分為以下4類。數(shù)據(jù)庫數(shù)據(jù)采集數(shù)據(jù)庫數(shù)據(jù)采集是指通過數(shù)據(jù)庫采集系統(tǒng)直接與企業(yè)業(yè)務(wù)后臺服務(wù)器結(jié)合,將企業(yè)業(yè)務(wù)后臺每時每刻產(chǎn)生的大量業(yè)務(wù)記錄寫入數(shù)據(jù)庫最后由特定的處理系統(tǒng)進行數(shù)據(jù)分析。系統(tǒng)日志數(shù)據(jù)采集系統(tǒng)日志中會記錄企業(yè)業(yè)務(wù)平臺日志數(shù)據(jù)。通過對這些信息進行采集、分析,可以挖掘出跨境電商企業(yè)業(yè)務(wù)平臺數(shù)據(jù)中的潛在價值。互聯(lián)網(wǎng)數(shù)據(jù)采集互聯(lián)網(wǎng)數(shù)據(jù)分布于網(wǎng)頁不同的位置,需要將互聯(lián)網(wǎng)數(shù)據(jù)采集后導(dǎo)入本地文件,然后進行統(tǒng)一處理。調(diào)查問卷調(diào)查問卷是以問題形式系統(tǒng)記載調(diào)查內(nèi)容的一種方式??缇畴娚虜?shù)據(jù)采集實例跨境電商數(shù)據(jù)采集方法為了能更好地理解如何利用數(shù)據(jù)采集工具實現(xiàn)數(shù)據(jù)采集,下面利用八爪魚采集器實操演示爬取亞馬遜平臺上的一些商品評論信息。步驟1步驟2步驟3步驟4步驟5新建采集任務(wù)進行自定義任務(wù)的相關(guān)設(shè)置系統(tǒng)自動識別務(wù)調(diào)整或優(yōu)化采集規(guī)則完成采集并導(dǎo)出數(shù)據(jù)任務(wù)小結(jié)通過該任務(wù)的學(xué)習(xí),學(xué)生能夠了解跨境電商數(shù)據(jù)采集的定義、掌握跨境電商數(shù)據(jù)采集的渠道與工具,并熟悉跨境電商數(shù)據(jù)采集的方法,為后續(xù)的學(xué)習(xí)做準備。任務(wù)評價評價內(nèi)容自我評價(30分)同學(xué)互評(30分)教師評價(40分)分值平均分分值平均分分值平均分跨境電商數(shù)據(jù)采集的定義101010跨境電商數(shù)據(jù)采集的渠道與工具101010跨境電商數(shù)據(jù)采集的方法101020跨境電商數(shù)據(jù)采集評價表拓展實訓(xùn)以八爪魚數(shù)據(jù)采集器為采集工具,采集某跨境電商網(wǎng)站上的一些商品評論信息。Crossbordere-commerce跨境電商數(shù)據(jù)清洗Crossbordere-commercedatacleaning跨境電商數(shù)據(jù)清洗的定義跨境電商數(shù)據(jù)清洗概述跨境電商數(shù)據(jù)清洗是指減少跨境電商數(shù)據(jù)文件中“臟數(shù)據(jù)”對數(shù)據(jù)分析和挖掘結(jié)果的影響,需要采用一些有效的措施對采集的跨境電商原始數(shù)據(jù)進行預(yù)處理。也可以說,是在跨境電商數(shù)據(jù)集中發(fā)現(xiàn)不準確、不完整或者不合理的數(shù)據(jù),并對這些數(shù)據(jù)進行修補或移除以提高數(shù)據(jù)質(zhì)量的過程??缇畴娚虜?shù)據(jù)清洗概述跨境電商數(shù)據(jù)清洗的方式跨境電商數(shù)據(jù)清洗原理是指利用有關(guān)技術(shù),如數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則,將“臟數(shù)據(jù)”轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。01清洗不必要的重復(fù)數(shù)據(jù)數(shù)據(jù)庫中屬性值相同的記錄被認為是重復(fù)記錄,通過判斷記錄間的屬性值是否相同來檢測記錄是否重復(fù),并將重復(fù)的記錄合并為一條記錄(即合并/清除)。02填充殘失數(shù)據(jù)缺失值需要手動填入(即手動清洗)。某些缺失值可以從本數(shù)據(jù)源或者其他數(shù)據(jù)源中推導(dǎo)出來,可以用平均值、最大值、最小值或更為復(fù)雜的概率估計代替缺失值,從而達到清洗的目的。03檢驗邏輯錯誤數(shù)據(jù)用統(tǒng)計分析的方法識別可能的邏輯錯誤值或者異常值,如偏差分析、識別不遵守分布或者回歸方程的值,或使用不同屬性間的約束、外部的數(shù)據(jù)來檢測和清洗數(shù)據(jù)??缇畴娚虜?shù)據(jù)清洗概述跨境電商數(shù)據(jù)清洗的流程跨境電商數(shù)據(jù)清洗的流程主要包括以下7步選擇子集列名重命名刪除重復(fù)項缺失值處理一致化處理數(shù)據(jù)排序異常值查看處理跨境電商數(shù)據(jù)清洗基本操作重復(fù)數(shù)據(jù)的處理要對源數(shù)據(jù)中的重復(fù)數(shù)據(jù)進行處理,需要先查找出是否存在重復(fù)的數(shù)據(jù),如果存在,需要先將其找出來,然后再刪除。數(shù)據(jù)透視表法數(shù)據(jù)透視表法是通過統(tǒng)計出現(xiàn)的頻次大于等于2的數(shù)據(jù)的方式來統(tǒng)計重復(fù)項的方法。函數(shù)法函數(shù)法是指利用COUNTIF(range,criteria)函數(shù)對區(qū)域中滿足單個指定條件的單元格進行計數(shù)。高級篩選法高級篩選法是利用Excel中“數(shù)據(jù)”選項卡中的高級篩選方式來刪除重復(fù)記錄。條件格式法條件格式法是利用Excel中“開始”選項卡的條件格式來找出重復(fù)數(shù)據(jù)。查找重復(fù)數(shù)據(jù)01040203跨境電商數(shù)據(jù)清洗基本操作重復(fù)數(shù)據(jù)的處理要對源數(shù)據(jù)中的重復(fù)數(shù)據(jù)進行處理,需要先查找出是否存在重復(fù)的數(shù)據(jù),如果存在,需要先將其找出來,然后再刪除。通過菜單操作刪除重復(fù)項通過排序刪除重復(fù)項通過篩選刪除重復(fù)項刪除數(shù)據(jù)跨境電商數(shù)據(jù)清洗基本操作缺失數(shù)據(jù)處理除重復(fù)數(shù)據(jù)外,還經(jīng)常會遇到缺失數(shù)據(jù)的問題。如果缺失值過多,說明數(shù)據(jù)收集過程中存在著嚴重的問題??梢越邮艿臉藴适侨笔е翟?0%以下。具體的處理操作步驟如下:查找缺失值的方式:利用定位輸入。相關(guān)知識處理缺失值的4種方式用一個樣本統(tǒng)計量的值代替缺失值。最典型的做法就是使用該變量的樣本平均值代替缺失值。方式11用一個統(tǒng)計模型計算出來的值代替缺失值。常使用的模型有回歸模型、判別模型等。方式22將有缺失值的記錄刪除,不過可能會導(dǎo)致樣本量的減少。方式33將有缺失值的記錄保留,僅在相應(yīng)的分析中做出必要的排除。當調(diào)查的樣本量比較大,缺失值的數(shù)量又不是很多,而且變量之間也不存在高度相關(guān)的情況下,采用這個方法處理缺失值比較可行。方式44任務(wù)小結(jié)通過該任務(wù)的學(xué)習(xí),學(xué)生能夠了解跨境電商數(shù)據(jù)清洗的基本定義,掌握跨境電商清洗的基本操作,為后續(xù)的學(xué)習(xí)做準備。任務(wù)評價評價內(nèi)容自我評價(30分)同學(xué)互評(30分)教師評價(40分)分值平均分分值平均分分值平均分跨境電商數(shù)據(jù)清洗的定義151520跨境電商數(shù)據(jù)清洗的基本操作151520跨境電商數(shù)據(jù)清洗評價表拓展實訓(xùn)以某跨境電商類網(wǎng)店的商品交易數(shù)據(jù)為數(shù)據(jù)源請掃描下方二維碼獲取數(shù)據(jù)包,包含店鋪中近期的交易數(shù)據(jù),運用Excel工具,從缺失值、重復(fù)值、錯誤值三個方面對數(shù)據(jù)進行清洗??缇畴娚躺唐方灰讛?shù)據(jù)Crossbordere-commerce跨境電商數(shù)據(jù)處理Crossbordere-commercedataprocessing跨境電商數(shù)據(jù)處理概述跨境電商數(shù)據(jù)處理的定義跨境電商數(shù)據(jù)處理是指對收集到的數(shù)據(jù)進行加工、整理,形成合適的數(shù)據(jù)分析樣式,這是數(shù)據(jù)分析前必不可少的階段??缇畴娚虜?shù)據(jù)處理的基本目的就是從大量的、雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對解決問題有價值的數(shù)據(jù)。一般來說,跨境電商數(shù)據(jù)處理是指從存儲的數(shù)據(jù)中,提取、篩選出有用的數(shù)據(jù)??缇畴娚虜?shù)據(jù)處理數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)化數(shù)據(jù)提取數(shù)據(jù)計算跨境電商數(shù)據(jù)處理概述數(shù)據(jù)計算Excel是最基本、最常用的跨境電商數(shù)據(jù)處理工具,通過Excel進行數(shù)據(jù)處理包括排序、篩選、數(shù)據(jù)透視表等。除此之外,跨境電商數(shù)據(jù)分析的工具還有Python、BI、SQL等,每種工具都有其優(yōu)劣勢,應(yīng)根據(jù)實際情況來選擇分析工具??缇畴娚虜?shù)據(jù)處理方法跨境電商數(shù)據(jù)處理的工具簡單計算簡單計算就是字段通過加減乘除簡單的算術(shù)運算就能計算出來。在Excel中,加減乘除的運算符就是鍵盤中的“+、-、*、/”符號。函數(shù)計算SUM函數(shù)AVERAGE函數(shù)COUNT函數(shù)MAX函數(shù)和MIN函數(shù)SUMIF函數(shù)COUNTIF函數(shù)IF函數(shù)VLOOKUP函數(shù)RANK函數(shù)ABS函數(shù)跨境電商數(shù)據(jù)處理方法數(shù)據(jù)分組步驟1:準備一個分組對應(yīng)表,用來確定分組的范圍和標準;步驟2:在B2單元格中輸入“=VLOOKUP(A2,$D$1:$E$12,2,1)”,并將公式自動填充到數(shù)據(jù)區(qū)域即可。源數(shù)據(jù)閾值分組表結(jié)果顯示跨境電商數(shù)據(jù)處理方法數(shù)據(jù)分列過數(shù)據(jù)分列,可以將一個單元格中的內(nèi)容分到不同單元格中,快速整理數(shù)據(jù)。任務(wù)小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論