商務大數(shù)據(jù)分析導論 課件 項目四 構建數(shù)據(jù)模型_第1頁
商務大數(shù)據(jù)分析導論 課件 項目四 構建數(shù)據(jù)模型_第2頁
商務大數(shù)據(jù)分析導論 課件 項目四 構建數(shù)據(jù)模型_第3頁
商務大數(shù)據(jù)分析導論 課件 項目四 構建數(shù)據(jù)模型_第4頁
商務大數(shù)據(jù)分析導論 課件 項目四 構建數(shù)據(jù)模型_第5頁
已閱讀5頁,還剩50頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

網(wǎng)站分析與推薦目錄01.網(wǎng)站分析與推薦的重要性02.電商數(shù)據(jù)分析指標體系網(wǎng)站分析與推薦的重要性PARTONE網(wǎng)站分析與推薦的重要性為了能夠更好地滿足用戶需求,依據(jù)其網(wǎng)站海量的數(shù)據(jù),研究用戶的興趣偏好,分析用戶的需求和行為,發(fā)現(xiàn)用戶的興趣點,從而引導用戶發(fā)現(xiàn)自己的信息需求,將長尾網(wǎng)頁準確地推薦給所需用戶,幫助用戶發(fā)現(xiàn)他們感興趣但很難發(fā)現(xiàn)的網(wǎng)頁信息。為用戶提供個性化的服務,并且建立網(wǎng)站與用戶之間的密切關系,讓用戶對推薦系統(tǒng)產生依賴,從而建立穩(wěn)定的企業(yè)忠實顧客群,實現(xiàn)客戶鏈式反應增值,提高消費者滿意度。通過提高服務效率幫助消費者節(jié)約交易成本等,制定有針對性的營銷戰(zhàn)略方針,促進企業(yè)長期穩(wěn)定高速發(fā)展。01電商數(shù)據(jù)分析指標體系PARTTWO電商總體運營指標人均頁面訪問數(shù),即頁面訪問數(shù)(PV)/獨立訪客數(shù)(UV),該指標反映的是網(wǎng)站訪問粘性。流量類指標01訪問到下單轉化率,即電商網(wǎng)站下單的次數(shù)與訪問該網(wǎng)站的次數(shù)之比。訂單產生效率指標02網(wǎng)站成交額(GMV),電商成交金額,即只要用戶下單,生成訂單號無論這個訂單最終是否成交,便可以計算在GMV里面,包含付款和未付款的部分??傮w銷售業(yè)績指標03毛利率,是衡量電商企業(yè)盈利能力的指標,是銷售毛利與銷售收入的比值整體指標04網(wǎng)站流量指標包括獨立訪客數(shù)和頁面訪問數(shù),相應的指標定義在前文(電商總體運營指標)已經(jīng)描述,在此不在贅述。流量規(guī)模類指標01指在流量推廣中,廣告活動產生的投放費用與廣告活動帶來的獨立訪客數(shù)的比值流量成本類指標02跳出率(BounceRate)也被稱為蹦失率,為瀏覽單頁即退出的次數(shù)/該頁訪問次數(shù),跳出率只能衡量該頁作為著陸頁面(LandingPage)的訪問流量質量類指標03注冊會員數(shù)、活躍會員數(shù)、會員復購率、會員回購率、會員留存率會員類指標04網(wǎng)站銷售(轉化率)類指標基礎類指標,包括一定統(tǒng)計周期內加入購物車次數(shù)、加入購物車買家數(shù)以及加入購物車商品數(shù)。購物車類指標01基礎類指標,包括一定統(tǒng)計周期內的下單筆數(shù)、下單金額以及下單買家數(shù)。下單類指標02基礎統(tǒng)計類指標,包括一定統(tǒng)計周期內支付金額、支付買家數(shù)和支付商品數(shù)。支付類指標03客戶價值類指標包括一定統(tǒng)計周期內的累計購買客戶數(shù)和客單價??蛻糁笜?1第一次在店鋪中產生消費行為的客戶所產生交易額與新客戶數(shù)量的比值新客戶指標02包括消費頻率、最近一次購買時間、消費金額和重復購買率。老客戶指標03商品類指標SKU、SPU和在線SPU。產品總數(shù)指標01主要是獨家產品的收入占比,即獨家銷售的產品收入占總銷售收入的比例。產品優(yōu)勢性指標02包括品牌數(shù)和在線品牌數(shù)指標。品牌數(shù)指商品的品牌總數(shù)量。在線品牌數(shù)則指在線商品的品牌總數(shù)量。品牌存量指標03包括上架商品SKU數(shù)、上架商品SPU數(shù)、上架在線SPU數(shù)、上架商品數(shù)和上架在線商品數(shù)。上架05包括首次上架商品數(shù)和首次上架在線商品數(shù)。首發(fā)04市場營銷指標包括新增訪問人數(shù)、新增注冊人數(shù)、總訪問次數(shù)、訂單數(shù)量、活動下單轉化率以及投資回報率(ROI)。市場營銷活動指標01包括新增訪問人數(shù)、新增注冊人數(shù)、總訪問次數(shù)、訂單數(shù)量、UV訂單轉化率、廣告投資回報率。廣告投放指標02市場競爭類指標包括市場占有率、市場擴大率和用戶份額。市場占有率指電商網(wǎng)站交易額占同期所有同類型電商網(wǎng)站整體交易額的比重;市場擴大率指購物網(wǎng)站占有率較上一個統(tǒng)計周期增長的百分比;用戶份額指購物網(wǎng)站獨立訪問用戶數(shù)占同期所有B2C購物網(wǎng)站合計獨立訪問用戶數(shù)的比例。市場份額相關指標01包括交易額排名和流量排名。交易額排名指電商網(wǎng)站交易額在所有同類電商網(wǎng)站中的排名;流量排名指電商網(wǎng)站獨立訪客數(shù)量在所有同類電商網(wǎng)站中的排名。網(wǎng)站排名02分析方法與過程目錄01.數(shù)據(jù)抽取02.數(shù)據(jù)探索分析03.結果分析數(shù)據(jù)抽取PARTONE數(shù)據(jù)抽取以用戶的訪問時間為條件,選取3個月內(2020-02-01?2020-04-29)用戶的訪問數(shù)據(jù)作為原始數(shù)據(jù)集。每個地區(qū)的用戶訪問習慣以及興趣愛好存在差異性,本例抽取廣州地區(qū)的用戶訪問數(shù)據(jù)進行分析,其數(shù)據(jù)量總計有837450條記錄,其中包括用戶號、訪問時間、來源網(wǎng)站、訪問頁面、頁面標題、來源網(wǎng)頁、標簽、網(wǎng)頁類別和關鍵詞等屬性。01數(shù)據(jù)探索分析PARTTWO2.1網(wǎng)頁類型分析作為第一步,我們針對原始數(shù)據(jù)中用戶點擊的網(wǎng)頁類型進行統(tǒng)計,網(wǎng)頁類型是指“網(wǎng)址類型”中的前3位數(shù)字(它本身有6/7位數(shù)字)。前面已經(jīng)提到過,此處處理的要義在于“分塊進行”,必要時可以使用多線程甚至分布式計算。所以,代碼清單12-2所給出的例子,已經(jīng)展示了處理大數(shù)據(jù)的要義所在。后面的各項統(tǒng)計均按照類似的方法進行,不再贅述。2.1網(wǎng)頁類型分析結果見表12-3,從中發(fā)現(xiàn)點擊與咨詢相關(網(wǎng)頁類型為101,http://www.****.com/ask/)的記錄占了49.16%,其次是其他的類型(網(wǎng)頁類型為199)占比24%左右,然后是知識相關(網(wǎng)頁類型為107,http://www.****.com/info/)占比22%左右。2.1網(wǎng)頁類型分析

統(tǒng)計分析知識類型內部的點擊情況,因知識類型中只有一種類型(107001),所以利用網(wǎng)址對其進行分類,獲得知識內容頁(http://www.****.com/info/*/數(shù)字.html,其中數(shù)字部分可能帶有下劃線_)以及知識首頁(http://www.****.com/infb/*/)和知識列表頁(http://www.****.com/info/*.html,是除了知識內容頁外的html頁面)的分布情況2.1網(wǎng)頁類型分析分析其他(199)頁面的情況,其中網(wǎng)址中帶有“?”的占了32%左右,其他咨詢相關與法規(guī)專題占比達到43%,地區(qū)和律師占比26%左右。2.1網(wǎng)頁類型分析2.1網(wǎng)頁類型分析

從上述網(wǎng)址類型分布分析中,可以發(fā)現(xiàn)一些與分析目標無關數(shù)據(jù)的規(guī)則。①咨詢發(fā)布成功頁面。②中間類型網(wǎng)頁(帶有midques_關鍵字)。③網(wǎng)址中帶有“?”類型,無法還原其本身類型的快搜頁面與發(fā)布咨詢網(wǎng)頁。④重復數(shù)據(jù)(同一時間同一用戶,訪問相同網(wǎng)頁)。⑤其他類別的數(shù)據(jù)(主網(wǎng)址不包含關鍵字)。⑥無點擊.html頁面行為的用戶記錄。⑦律師的行為記錄(通過快車-律師助手判斷)。記錄這些規(guī)則,有利于在數(shù)據(jù)清洗階段對數(shù)據(jù)進行清洗操作。2.2.點擊次數(shù)分析

統(tǒng)計分析原始數(shù)據(jù)用戶瀏覽網(wǎng)頁次數(shù)(以“真實IP”區(qū)分)的情況,其結果見表12-9,可以從表中發(fā)現(xiàn)瀏覽一次的用戶占所有用戶總量的58%左右,大部分用戶瀏覽的次數(shù)在2?7次,用戶瀏覽的平均次數(shù)是3次。2.2.點擊次數(shù)分析從上表中可以看出大約80%的用戶(不超過3次)只提供了大約30%的瀏覽量(幾乎滿足二八定律)。在數(shù)據(jù)中,點擊次數(shù)最大值為42790次,對其進行分析,發(fā)現(xiàn)是律師的瀏覽信息(通過律師助手進行判斷)。表10是對瀏覽次數(shù)達到7次以上的情況進行的分析,可以從中看出大部分用戶瀏覽8到100次。2.2.點擊次數(shù)分析針對瀏覽次數(shù)為一次的用戶進行分析,其結果如表11所示。其中,問題咨詢頁占比78%,知識頁占比15%,而且這些記錄基本上全是通過搜索引擎進入的。2.2.點擊次數(shù)分析針對點擊一次的用戶瀏覽的網(wǎng)頁進行統(tǒng)計分析,其結果見表12-12O可以看出排名靠前的都是知識與咨詢頁面,因此可以猜測大量用戶的關注都在知識或咨詢方面上。2.3.網(wǎng)頁排名2.3.網(wǎng)頁排名

由分析目標可知,個性化推薦主要針對以html為后綴的網(wǎng)頁(與物品的概念類似)。從原始數(shù)據(jù)中統(tǒng)計以html為后綴的網(wǎng)頁的點擊率,其點擊率排名的結果見表12-13。從表中可以看出,點擊次數(shù)排名前20名中,“法規(guī)專題”占了大部分,其次是“知識”,然后是“咨詢”。但是,從前面分析的結果中可知,原始數(shù)據(jù)中與咨詢主題相關的記錄占了大部分。在其html后綴的網(wǎng)頁排名中,“專題與知識”的占了大部分。通過對業(yè)務了解,專題是屬于知識大類里的一個小類&在統(tǒng)計以html為后綴的網(wǎng)頁點擊排名,出現(xiàn)這種現(xiàn)象的原因見表12-14。其中,知識頁面相對咨詢的頁面要少很多,當大量的用戶在瀏覽咨詢頁面時,呈現(xiàn)一種比較分散的瀏覽次數(shù),即其各個頁面點擊率不高,但是其總的瀏覽量高于知識。所以造成網(wǎng)頁排名中咨詢方面的排名比較低。2.3.網(wǎng)頁排名2.3.網(wǎng)頁排名從原始html的點擊率排行榜中可以發(fā)現(xiàn)如下情況,排行榜中存在這樣兩種類似的網(wǎng)址"http://www.****.com/infb/hunyin/lhlawlhxy/201107071376932.html"和"http://www.****.com/info/hunyin/lhlawlhxy/20110707137693.html"o通過訪問其網(wǎng)址,發(fā)現(xiàn)兩者屬于同一網(wǎng)頁,但由于系統(tǒng)在記錄用戶的訪問網(wǎng)址的信息時會將其記錄在數(shù)據(jù)中。因此,在用戶訪問網(wǎng)址的數(shù)據(jù)中存在這些翻頁的情況,針對這些翻頁的網(wǎng)頁進行統(tǒng)計,結果見表15。2.4數(shù)據(jù)預處理本案例在原始數(shù)據(jù)的探索分析的基礎上,炭現(xiàn)與分析目標無關或模型需要處理的數(shù)據(jù),針對此類數(shù)據(jù)進行處理。其中涉及的數(shù)據(jù)處理方式有:數(shù)據(jù)清洗、數(shù)據(jù)集成和數(shù)據(jù)變換。通過這幾類的處理方式,將原始數(shù)據(jù)處理成模型需要的輸入數(shù)據(jù),其數(shù)據(jù)處理流程圖如圖所示。

1)數(shù)據(jù)清洗從探索分析的過程中發(fā)現(xiàn)與分析目標無關的數(shù)據(jù),歸納總結其數(shù)據(jù)滿足如下規(guī)則:中間頁面的網(wǎng)址、咨詢發(fā)布成功頁面、律師登錄助手的頁面等。將其整理成刪除數(shù)據(jù)的規(guī)則,其清洗的結果見表16從表中可以發(fā)現(xiàn),律師用戶信息占了所有記錄中的22%左右。,其他類型的數(shù)據(jù),占比很小,大概5%左右。1)數(shù)據(jù)清洗經(jīng)過上述數(shù)據(jù)清洗后的記錄中仍然存在大量的目錄網(wǎng)頁(可理解為用戶瀏覽信息的路徑),在進入推薦系統(tǒng)時,這些信息的作用不大,反而會影響推薦的結果,因此需要進一步篩選以html為后綴的網(wǎng)頁。根據(jù)分析目標以及探索結果可知,咨詢與知識是其主要業(yè)務來源,故需篩選咨詢與知識相關的記錄,將此部分數(shù)據(jù)作為模型分析需要的數(shù)據(jù)。1)數(shù)據(jù)清洗針對數(shù)據(jù)進行清洗操作,Python實現(xiàn)的代碼例子(部分)如代碼清單5所示。代碼清單5Python訪問MariaDB(MySQL)數(shù)據(jù)庫進行清洗操作2)數(shù)據(jù)變換

由于在用戶訪問知識的過程中,存在翻頁的情況,不同的網(wǎng)址屬于同一類型的網(wǎng)頁,見表17數(shù)據(jù)處理過程中需要對這類網(wǎng)址進行處理,最簡單的處理方法是將翻頁的網(wǎng)址刪掉。但是,用戶訪問頁面是通過搜索引擎進入網(wǎng)站的,所以其入口網(wǎng)頁不一定是其原始類別的首頁,采用刪除的方法會損失大量的有用數(shù)據(jù),在進入推薦系統(tǒng)時,會影響推薦結果。因此,針對網(wǎng)頁需要還原其原始類別,處理方式為首先識別翻頁的網(wǎng)址,然后對翻頁的網(wǎng)址進行還原,最后針對每個用戶訪問的頁面進行去重操作,其操作結果見表18。2)數(shù)據(jù)變換2)數(shù)據(jù)變換有關于用戶翻頁的數(shù)據(jù)處理代碼如代碼清單6所示。3)屬性規(guī)約由于推薦系統(tǒng)模型的輸入數(shù)據(jù)需要,需對處理后的數(shù)據(jù)進行屬性規(guī)約,提取模型需要的屬性。本案例中模型需要的數(shù)據(jù)屬性為用戶和用戶訪問的網(wǎng)頁。因此刪除其他的屬性,只選擇用戶與用戶訪問的網(wǎng)頁,其輸入數(shù)據(jù)集見表23。3)屬性規(guī)約4)模型構建在實際應用中,構造推薦系統(tǒng)時,并不是采用單一的推薦方法進行推薦。為了實現(xiàn)較好的推薦效果,大部分都結合多種推薦方法將推薦結果進行組合,最后得出推薦結果,在組合推薦結果時,可以采用串行或者并行的方法。本例所展示的是并行的組合方法,如圖所示。4)模型構建基于物品的協(xié)同過濾算法主要分為兩步。I

計算物品之間的相似度。II

根據(jù)物品的相似度和用戶的歷史行為給用戶生成推薦列表。5)基于物品的協(xié)同過濾

基于協(xié)同過濾推薦算法包括兩部分:基于用戶的協(xié)同過濾推薦和基于物品的協(xié)同過濾推薦

其中,訓練集與測試集是通過交叉驗證的方法劃分后的數(shù)據(jù)集。通過協(xié)同過濾算法的原理可知,在建立推薦系統(tǒng)時,建模的數(shù)據(jù)量越大,越能消除數(shù)據(jù)中的隨機性,得到的推薦結果對比數(shù)據(jù)量小要好。但是數(shù)據(jù)量越大,模型建立以及模型計算耗時就越久。因此本文選擇數(shù)據(jù)處理后的婚姻與咨詢的數(shù)據(jù),其數(shù)據(jù)分布情況見表26。由在實際數(shù)據(jù)中,物品數(shù)目過多,建立的用戶物品矩陣與物品相似度矩陣是一個很龐大的矩陣。因此,在用戶物品矩陣的基礎上采用杰卡德相似系數(shù)的方法,計算出物品相似度矩陣。通過物品相似矩陣與測試集的用戶行為,計算用戶的興趣度,獲得推薦結果,進而計算出各種評價指標。5)基于物品的協(xié)同過濾5)基于物品的協(xié)同過濾

為了對比個性化推薦算法與非個性化推薦算法的好壞,本文選擇了兩種非個性化算法和一種個性化算法進行建模并對其進行模型評價與分析。兩種非個性化算法為:Random算法和Popular算法。其中,Random算法是每次都隨機挑選用戶沒有產生過行為的物品并推薦給他

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論