2023年數(shù)據(jù)中臺項目建設(shè)方案_第1頁
2023年數(shù)據(jù)中臺項目建設(shè)方案_第2頁
2023年數(shù)據(jù)中臺項目建設(shè)方案_第3頁
2023年數(shù)據(jù)中臺項目建設(shè)方案_第4頁
2023年數(shù)據(jù)中臺項目建設(shè)方案_第5頁
已閱讀5頁,還剩230頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2023年數(shù)據(jù)中臺項目建建設(shè)方案第2章元數(shù)據(jù)中心我們在進(jìn)行周知時,可能有遺漏(原本應(yīng)該被周知到的下游未被周知必要的打擾(原本本次變更不會對該下游產(chǎn)生影響,但因怕遺漏,所加工、查詢、可視化等鏈路,如果不能較準(zhǔn)確地定位問題,那么從0元數(shù)據(jù)中心是數(shù)據(jù)中臺最基礎(chǔ)的系統(tǒng)(圖2-1),其他系統(tǒng)都需要passport_wechat_reldw_dim_passport_wechatdw_dim_passport_wechatpassportwechatrel據(jù)圖2-1(1)數(shù)據(jù)整合。數(shù)據(jù)源類型:MySQL生效時間(1)數(shù)據(jù)表的名稱、關(guān)系、字段、約束、存儲位置等。(2)數(shù)據(jù)表與字段之間的流程依賴關(guān)系。(3)事實邏輯表、維度表、屬性、層次的描述信息等。(5)調(diào)度系統(tǒng)的相關(guān)調(diào)度配置、調(diào)度周期等。針對不同類型的元數(shù)據(jù),我們可以把它們組織起來分為3組:數(shù)3組元數(shù)據(jù)的來源、內(nèi)容與實現(xiàn)方式。如圖2-4所示,這是一個訂單數(shù)據(jù)的開發(fā)流程,訂單交易明細(xì)表訂單交易明細(xì)表(dwd_goods_order_df)字段類型描述訂單類型創(chuàng)建時間訂單總價字段類型描述訂單總量訂單總價創(chuàng)建時間以圖2-4中的SKU每日匯總表(dws_go存儲空間有多大有多少訪問熱度所屬主題域、分層、是否分區(qū)表關(guān)聯(lián)的指標(biāo)表負(fù)責(zé)人是誰幾時創(chuàng)建的生命周期多久每周30次每日SKU粒度交易金額永久無記錄每日交易的明細(xì)記錄記錄數(shù)、存儲量等節(jié)點、執(zhí)行時間等表名注釋信息表的產(chǎn)出任務(wù)每個表有哪些字段每個字段的信息每個分區(qū)的信息變更日志信息產(chǎn)出日志的信息標(biāo)簽:A1下單金圖2-91)問題定位排查2)指標(biāo)波動分析完全。更好的解決方法是,通過Spark/Hive/Flink本身提供的有3個。在這3個時機中,時機(1)因為沒有執(zhí)行代碼,所以無法保證展示效果如圖2-11所示。三申請權(quán)限數(shù)據(jù)預(yù)覽全部(54)用戶域(14)活動域(10)用戶域(16)商品域(23)圖圖2-12血緣,如圖2-13所示。數(shù)據(jù)血緣可以幫助使用者了解這個表的來源總圖圖2-13第3章數(shù)據(jù)指標(biāo)中心營部門負(fù)責(zé)人的有差別,你檢查一下是不是你算錯了。”用戶?!眴栴},這個問題挺嚴(yán)重的,我們必須重視?!币环莞采w全平臺所有業(yè)務(wù)的指標(biāo)字典?!?.1數(shù)據(jù)指標(biāo)中心概述3.2數(shù)據(jù)指標(biāo)中心的設(shè)計思路3.2.1定義指標(biāo)并將其歸集到對應(yīng)的主題域曝光次數(shù)、瀏覽用戶數(shù)、點擊用戶數(shù)下單次數(shù)、支付次數(shù)、退款人數(shù)表3-13.2.2拆分原子指標(biāo)與派生指標(biāo)三三盾乙指咨新建原子指標(biāo)詛詛更多更多更多更多計算邏輯(seleet)輯更多輯更多3.2.3定義原子指標(biāo)與派生指標(biāo)的生產(chǎn)邏輯前文提到過“將指標(biāo)的組成部分解耦拆分開來,并在邏輯表中進(jìn)行規(guī)范的定義”,這個解耦和定義的過程就是把一個派生指標(biāo)拆解成統(tǒng)計周期、聚合粒度、限定維度、原子指標(biāo),再重新拼裝,生成新的派生指標(biāo)的過程,如圖3-2所示。指標(biāo)指標(biāo)我們可以這樣理解上面的例子。(1)統(tǒng)計周期是這個原子指標(biāo)進(jìn)行統(tǒng)計運算的時間范圍,在這里(2)聚合粒度是指標(biāo)的主體,即按照哪個維度來進(jìn)行聚合,在這(3)限定維度限制原子指標(biāo)的計算范圍,這里限定在商城,即只(4)原子指標(biāo)是預(yù)定義的某個字段計算規(guī)則,在這里是求和(下創(chuàng)建派生指標(biāo)如圖3-3所示。指標(biāo)命名規(guī)范有3個重點。(3)無指定業(yè)務(wù)范圍的指標(biāo)默認(rèn)為平臺指標(biāo),不需要帶與“平臺”業(yè)務(wù)名稱,如商城-近30天支付人數(shù)。(4)無指定時間周期的指標(biāo)默認(rèn)為“近1天”(但需要保存小時粒果限定了時間范圍,就需要加上時間周期,如近7天注冊人數(shù)。完整的指標(biāo)命名規(guī)范為商城(業(yè)務(wù)板塊)+用戶(實體)+近7天(統(tǒng)計周期)+新增((業(yè)務(wù)動作)+子單(類型)+單日(間隔周期)+平均(統(tǒng)計運算規(guī)則)十支付金額(原子指標(biāo)),如商城-用戶近7天新增子當(dāng)指標(biāo)主體為實體(名詞),如游客、用戶、商品等時,則只需當(dāng)指標(biāo)為業(yè)務(wù)動作(動詞),如點擊、支付、下單等時,則除將(1)一級指標(biāo),即原子指標(biāo)與小部分全平臺的(2)二級指標(biāo),即派生指標(biāo),由各個業(yè)務(wù)部門自行通過指標(biāo)中心指標(biāo)等級劃分如圖3-4所示。證所屬主題域全部(54)用戶域(14)交互域(23)會員域(23)活動域(10)用戶域(16)商品域(23)交易域(23)上原子指標(biāo)交易域2020/08/20編輯更多編維更多第4章數(shù)倉模型中心4.1數(shù)倉模型中心概述2154.2.1控制數(shù)據(jù)源的主題域或擴展的新主題域包含。主題域如圖4-2所示。數(shù)倉模型中心8交易域交互域_goods務(wù)板塊中的功能模塊劃分,如純線上電商的主題曝光、瀏覽、點擊下單、支付、發(fā)貨、退款、確認(rèn)收貨注冊、登錄、退出確規(guī)定度量值與關(guān)聯(lián)的維度。事實邏輯表是每個業(yè)務(wù)動作(可以簡單理解為埋點)的存儲表,如支付有支付事實邏輯表、下單有下單事實邏輯表等,如圖4-3所示。所屋主題域全部(54)用戶域(14)活動域(10)用戶域(16)商品域(23)交易域(23)交互域(23)會員域(23)表名商品商品ID、商品名稱、交易價格、類目ID、類目名稱、品類ID、品區(qū)域ID、區(qū)域名稱、城市Code、城市名稱、所屬主題域全部(54)用戶域(14)活動域(10)用戶域(16)商品域(23)交易域(23)交互域(23)會員域(23)表名_relation調(diào)度配置物理化編輯4.2.4構(gòu)建總線矩陣一致性維度品牌ID下單YYYYYYYYYYYYYY發(fā)貨YYNYYYY確認(rèn)收貨YYNYYYY4.2.5數(shù)倉分層建設(shè)2.CDM層來的。在CDM層,我們開始對數(shù)據(jù)進(jìn)行清洗與處理,并按照數(shù)據(jù)模ADS層是根據(jù)CDM層加工生成的,包含數(shù)據(jù)產(chǎn)品個性化的統(tǒng)計4.2.6數(shù)倉效果評估模板化管理。這個數(shù)據(jù)產(chǎn)品構(gòu)建在元數(shù)據(jù)中心之上,可以通過的表,就說明越多的任務(wù)是跳過DWD層去加工數(shù)據(jù)的,而且這些數(shù)所以要衡量復(fù)用度,就必須考量DWD層的模型被下游模型調(diào)用的數(shù)率表這幾個表調(diào)用和加工,那么這個訂單明細(xì)表的調(diào)用熱度就是4。我們把DWD層的所有表的調(diào)用熱度取平均值,就可以用這個值來衡第5章數(shù)據(jù)資產(chǎn)中心在月度報告會議.上,首席技術(shù)官讓大家聊聊在當(dāng)前企業(yè)數(shù)據(jù)化5.1數(shù)據(jù)資產(chǎn)中心概述三四產(chǎn)化化四產(chǎn)化化5.2數(shù)據(jù)資產(chǎn)中心的治理流程具被導(dǎo)入數(shù)倉,數(shù)據(jù)在數(shù)倉中進(jìn)行清洗、加工、整合、建模等-系列者使用。在整個流轉(zhuǎn)過程中,數(shù)據(jù)都以表的形式進(jìn)行傳輸,如圖5-2圖5-2從4個維度進(jìn)行評定:完整性、準(zhǔn)確性、一致性和時效性。從這4個據(jù)資產(chǎn)通常被劃分為5個等級。輔助的數(shù)據(jù),如果出現(xiàn)問題,就會對業(yè)務(wù)造成一-定的影響,造成效緣關(guān)系,沿著數(shù)據(jù)鏈路往回追溯,一直追溯到源數(shù)據(jù),找出與這個圖5-3所示,報表系統(tǒng)的等級是A2,調(diào)用任務(wù)table_1和table_2對應(yīng)的等級都為A2,對應(yīng)的表table1、table1_1、table1_2也都被打上A2標(biāo)記;table2_1本來也是需要被打上A2標(biāo)記的,但被營銷系統(tǒng)調(diào)用了,而營銷系統(tǒng)的資產(chǎn)等級是A1,等級更高,所以table2_1需要被打上A1標(biāo)記。A1A2報表系統(tǒng)A2強規(guī)則弱規(guī)則相關(guān)的數(shù)據(jù)表5-1分母為0提醒,NULL值參與計算影響結(jié)果,主鍵是否唯一,插入字(3)一致性:主要解決數(shù)據(jù)在不同的模型中的一致性問題,當(dāng)一產(chǎn)等級的數(shù)據(jù)能被準(zhǔn)時、準(zhǔn)確地產(chǎn)出,如圖54所示。圖5-4從我們梳理出來的數(shù)據(jù)資產(chǎn)地圖(圖5-3)的等級來看,如果在日數(shù)據(jù)監(jiān)控的校驗邏輯主要分為固定值比較與波動值比較兩個方則為1天波動檢測。1天√離散值(分組個數(shù))離散值(狀態(tài)值)離散值(分組個數(shù)及狀態(tài)值)表5-2求,為后續(xù)的方案改進(jìn)提供指導(dǎo)。數(shù)據(jù)質(zhì)量主要從以下4個方面進(jìn)行大小以一定的權(quán)重進(jìn)行配置。數(shù)據(jù)產(chǎn)品正常運行時間的達(dá)標(biāo)率是99.5%,這意味著數(shù)據(jù)在99.5%的時間內(nèi)可以被正常產(chǎn)出并交付給數(shù)從圖5-5中可以看到,在這個數(shù)據(jù)加工鏈路中,源頭是從業(yè)務(wù)庫圖5-5針對上述描述的3種數(shù)據(jù),我們需要設(shè)計對應(yīng)的策略。置相關(guān)的自動下架任務(wù),如超過30天沒有訪問記錄,或訪問記錄低高低中是高低低是低中高否低高高否衡是一項非常重要的工作,所以我們需要對數(shù)據(jù)成本治理效果進(jìn)行果。我們先統(tǒng)計高峰期的時長,再計算每秒消耗1個CU(1CU=4GB以被下架的表的存儲容量,乘以1GB內(nèi)存的價格,就可以得出數(shù)據(jù)資產(chǎn)優(yōu)化的相關(guān)功能界面如圖5-6所示。圖5-6第6章數(shù)據(jù)服務(wù)中心淀的資產(chǎn)數(shù)據(jù)的調(diào)用,都是由研發(fā)部門門定制化封裝接口進(jìn)行的?!?.1數(shù)據(jù)服務(wù)中心概述6.2數(shù)據(jù)服務(wù)中心的設(shè)計思路6.2.1將數(shù)據(jù)寫入查詢庫數(shù)據(jù)量小,500萬條記錄以內(nèi)分布式數(shù)據(jù)庫表6-1表中,以及物理表是HBase還是MySQL的、是單表還是分庫分表。數(shù)據(jù)服務(wù)中心的數(shù)據(jù)模型主要由3個部分組成:數(shù)居源、物理表、邏導(dǎo)入不同的查詢庫中,如MySQL、HBase、Redis等。這些查詢庫中分布式查詢的相關(guān)功能會從底層物理表中把數(shù)據(jù)取出來。因此,對幫大家拿吃的。你按從左到右的順序詢問第一個人他要吃什么,并效的方法是什么呢?你提前了解清楚各種食物的存放區(qū)域,了解并記任務(wù)分配給不同的人去執(zhí)行,大家在拿完食物后統(tǒng)一到桌子上一起字段。假如API調(diào)用者調(diào)用了A、B、C這3個指標(biāo),這3個指標(biāo)分別存放在3個物理表中,那么數(shù)據(jù)服務(wù)中心會把這個請求拆分成3個獨回給API調(diào)用者,這樣可以降低API調(diào)用者的調(diào)用與學(xué)習(xí)成本。數(shù)據(jù)服務(wù)中心的元數(shù)據(jù)模型很好地規(guī)避了數(shù)據(jù)字段頻繁變更的數(shù)據(jù)服務(wù)中心的元數(shù)據(jù)模型是一套解決方案解決數(shù)據(jù)煙囪式開數(shù)據(jù)中臺的數(shù)據(jù)開發(fā)人員在構(gòu)建好邏輯表與物理表的映射模型中,從查詢到返回結(jié)果,流程-般如圖6-1所示。圖6-1因為數(shù)據(jù)的運用在日常的運營場景中非常常見,API服務(wù)的調(diào)用在每次調(diào)用API請求時,數(shù)據(jù)服務(wù)中心都需要加載元數(shù)據(jù)中心的元數(shù)據(jù),如邏輯模型與物理模型的映射關(guān)系一用來解析請求并執(zhí)行前文曾提到,在API請求的處理過程中,有相似的API請求時,數(shù)據(jù)服務(wù)中心可以直接從緩存中得到解析后的在推送服務(wù)中(后續(xù)會講到),如對在線的用戶信息等也可以做本三Q選西否否圖6-2況下,通過API拿到對應(yīng)的數(shù)據(jù)。復(fù)用類似的API,不需要重復(fù)開發(fā)。AP數(shù)據(jù)服務(wù)中心樣mmArber2017-10-31231200有效詳過用更2017-10-3123:12:00情讓分析策略可以落地并正向影響業(yè)務(wù)。所以本篇會從宏觀(業(yè)務(wù)和數(shù)據(jù))、中觀(工作內(nèi)容和合作)和微觀(3種分析場景實操)3個維度第7章數(shù)據(jù)分析理論應(yīng)用價值。最近數(shù)括分析隊入職了一些新人,老湯姆決定上可2進(jìn)向組織一場內(nèi)部的分享會,跟大家助聘安乂21的相關(guān)內(nèi)容,營造一下業(yè)務(wù)數(shù)據(jù)化:收集數(shù)據(jù)業(yè)務(wù)化:賦能運運營業(yè)務(wù)產(chǎn)品:業(yè)務(wù)線上化圖7-1合作。下面按照圖7-1平的婁數(shù)據(jù)流轉(zhuǎn)鏈路來梳理一下不同部門(崗位)主要的職責(zé)邊界,以及整體是怎么串起來一起協(xié)調(diào)工作的。數(shù)據(jù)賦能業(yè)務(wù)一般會經(jīng)歷4個環(huán)節(jié):數(shù)據(jù)表現(xiàn)、業(yè)務(wù)原因、業(yè)務(wù)策略業(yè)務(wù)數(shù)據(jù)業(yè)務(wù)原因猜想原因通過產(chǎn)品/運營/管理等方式影響業(yè)務(wù)業(yè)務(wù)決策再就剛才提到的發(fā)燒的例子詳細(xì)解釋一下數(shù)據(jù)賦能業(yè)務(wù)的過程:體溫39C是數(shù)據(jù)表現(xiàn),背后的身體原因是發(fā)燒了(業(yè)務(wù)原因),醫(yī)生說7.1.4業(yè)務(wù)策略的閉環(huán)業(yè)務(wù)策略落地執(zhí)行數(shù)據(jù)業(yè)務(wù)我們在工作中怎么判斷業(yè)務(wù)策略是否接地氣呢?我們主要從以下(1)深入思考業(yè)務(wù)策略成立的業(yè)務(wù)假設(shè)是什么。(2)通過調(diào)研判斷業(yè)務(wù)假設(shè)是否成立。7.2.1數(shù)據(jù)分析的定義與流程撰寫報告拆解的模塊相互之間有交叉,就沒辦法具體定位是哪個模塊的問題我在后面具體講解實操案例時會展開講解如何應(yīng)用分析框架來報告的形式不限,可以是PPT、Exce|表格等,只要能夠恰當(dāng)、合理接下來我們還要和產(chǎn)品部門、運營部門-起7.2.2數(shù)據(jù)分析的3種場景一般來說,數(shù)據(jù)分析會有3種場景:預(yù)測性分析、描述性分析和診斷性分析,如圖7-6所示。不同場景的數(shù)據(jù)分析對應(yīng)的目的不同。圖7-6性分析和診斷性分析通常以報告的形式來呈現(xiàn)分析結(jié)果,可以是PPT文化問題。所以說團隊合作是-件相對復(fù)雜的事,數(shù)據(jù)分析師要多用據(jù)分析師80%的時間都在與數(shù)據(jù)打交道,通過數(shù)據(jù)去理解業(yè)務(wù),但在調(diào)研和數(shù)據(jù)分析的區(qū)別如表7-1所示。項目數(shù)據(jù)類型非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)外部內(nèi)部研究方向解答問題方向員工的產(chǎn)出是否與部門]的定位一致是非常重要的。如果企業(yè)當(dāng)要就是這些,大家吸收得怎么樣?”7.3.1數(shù)據(jù)分析團隊的組織架構(gòu)所以這就在機制上保證了數(shù)據(jù)分析師能夠站在老板的立場上去客觀隊就要用合理的方式來處理,需要根據(jù)實際情況來判斷,往往采取的方式是高優(yōu)解決團隊"老板"的需求,與業(yè)務(wù)方協(xié)調(diào)好需求排期。因為影響的是整個團隊,所以數(shù)據(jù)分析團隊一定要保證及時和高質(zhì)量地滿足團隊"老板"的需求,否則數(shù)據(jù)分析團隊會受到負(fù)面影響。數(shù)據(jù)分他們希望數(shù)據(jù)分析師與他們同頻,所以數(shù)據(jù)分析師和業(yè)務(wù)方之間良好的合作氛圍、互相信任與理解非常重要。數(shù)據(jù)分析師平時在處理需求給公司創(chuàng)造價值給公司創(chuàng)造價值對公司無益圖7-7有好的工作節(jié)奏,我們就需要想清楚當(dāng)下自己的核心訴求是什么,要目,將自己大部分的時間和精力都放在這個項目上。這樣一-來,隨是1+N中的1。項目的規(guī)模不能太小,要能給數(shù)據(jù)分析師足夠的成長空間。N代表可以同時接一-些小項目,以一兩個為宜,數(shù)據(jù)分析師經(jīng)理需要深刻了解業(yè)務(wù)、懂產(chǎn)品、懂?dāng)?shù)據(jù)、懂運營等,這對個人的你的認(rèn)知不一定真正是你理解和掌握到的認(rèn)以參考以下幾點建議(這種能力的養(yǎng)成需要經(jīng)過長期實踐和思考利用好團隊的資源,讓大家多從業(yè)務(wù)出發(fā),給自己-些輸入。比較忌如何培養(yǎng)好的工作方式呢?我們需要回到拆解的思維,把遇到的②數(shù)據(jù)分析師的專業(yè)技能不夠硬,目前只能做取數(shù)的事情。因①業(yè)務(wù)方不清楚數(shù)據(jù)分析師的定位。只要大家都在平等、信任②業(yè)務(wù)方比較強勢,在多次溝通后,業(yè)務(wù)方還是只讓數(shù)據(jù)分析師做取數(shù)的工作。這種情況該怎么解決?數(shù)據(jù)分析師可從以下3個方總結(jié)來說,就是數(shù)據(jù)分析師要用積極的態(tài)度+過硬的專業(yè)技能+人-定要把握合理的尺度。如果業(yè)務(wù)方一直催促數(shù)據(jù)分析師,那么數(shù)第8章數(shù)據(jù)分析實操預(yù)測是指基于已知信息(歷史數(shù)據(jù)、后續(xù)資源投入等),假設(shè)事物預(yù)測性分析3主要有兩種場景。分析師主導(dǎo)了業(yè)務(wù)目標(biāo)的測算,所以為了讓他們做到公正,-般不會個部分我們都會根據(jù)一些分析方法,結(jié)合實際資源投入情況來進(jìn)行進(jìn)行拆解。我們以GMV=付費用戶量x平均付費金額對GMV進(jìn)行拆解,預(yù)估活動期間的GMV就變成預(yù)估活動期間的付費用戶量及平均如果以相對粗略的方式進(jìn)行預(yù)估,那么我們可以將往年"雙十-"的付費用戶量,乘以預(yù)估系數(shù)(比較今年和往年的資源投入比),得出以是一個范圍,這樣就會得出GMV預(yù)估值的保守版和激進(jìn)版。GMV預(yù)估值的計算公式為GMV預(yù)估值=付費用戶量x平均付費金額=(往年付費用戶量x預(yù)估系數(shù))x往年平均付費金額示例如圖8-1所示。圖8-110天的數(shù)據(jù),那么今年的轉(zhuǎn)化率也要取活動前10天的數(shù)據(jù)。(2)近30天未瀏覽該商品的用戶量,可以在大盤用定,如限定為近30天登錄過的用戶。假設(shè)每個渠道的轉(zhuǎn)化率今年保持穩(wěn)定(結(jié)合資源投入、產(chǎn)品改進(jìn)等實際情況預(yù)估一個范圍),那么今年每個渠道的實際值是可以算出嗎?”阿北:"另外,在這里我要重點提醒一下,大家以后會常常需要等)上呈現(xiàn)最8.2.3描述性分析案例流量轉(zhuǎn)化可以按產(chǎn)品流程來分析,即進(jìn)入商品A頁面的流量有多少、到每個流程的轉(zhuǎn)化率是多少。從分析報告的結(jié)構(gòu).上來說,在開始的③流量轉(zhuǎn)化:分為5個流程,即進(jìn)入商品A頁面確認(rèn)訂單一選擇付費方式一付費成功,在每個流程都要關(guān)注量的達(dá)成度(與時間進(jìn)度對比);對于流量產(chǎn)生部分,對比不同時間段的流描述性分析示例如圖8-2所示。核心部分時間進(jìn)度月環(huán)比當(dāng)月目標(biāo)目標(biāo)達(dá)成度月環(huán)比當(dāng)月目標(biāo)目標(biāo)達(dá)成度月環(huán)比當(dāng)月目標(biāo)目標(biāo)達(dá)成度當(dāng)月值當(dāng)月值當(dāng)月轉(zhuǎn)化率圖8-2阿北:"這里涉及需求的細(xì)節(jié)我沒有講,如漏斗轉(zhuǎn)化數(shù)據(jù)的統(tǒng)計一-定義問題一拆解問題一尋找原因一提出解決方案-落地執(zhí)行一-的工作,如圖8-3所示。做專業(yè)的檢查提出解決方案你吃壞了肚子業(yè)務(wù)出現(xiàn)問題溝通需求圖8-3①中位數(shù)是一組數(shù)據(jù)在排序后處于50%位置上的數(shù)據(jù)。②四分位數(shù)是一-組數(shù)據(jù)在排序后處于25%位置和75%位置上的以上就是用箱線圖法判斷異常值的過程(見圖8-4),這里處理的距離是1.5倍IQR(溫和異常值),更嚴(yán)格一些可以用3倍IQR去判斷圖8-4類?銷量下滑了多少?類2月的日均銷量比1月下滑10%的原因。要注意。這是什么意思呢?我給大家舉一個考試的例子,假設(shè)某高考科目總分。這樣的拆解也是滿足MECE原則的,但如果把解決問題的問題的維度。但在前置拆解時,數(shù)據(jù)分析師需要往下再想一步,從在拆解完問題之后(把問題拆解為多個模塊),我們就需要尋找原因了。在這步我們采用的方法是分析數(shù)據(jù)+業(yè)務(wù)調(diào)研。針對每個模塊性分析等,這就是很多資料中提到的具體分析方法(對比思考一下上從哪里下手呢?分析數(shù)據(jù)比較忌諱的是沒有想清楚要分析什么,盲目接著上文提到的線下運營的A零售門店銷量下滑的案例往下講。提到的線下運營的A零售門店銷量下滑的案例,如果我們確實發(fā)現(xiàn)A是否是這個原因?qū)е落N量下滑,我們可以調(diào)研去附近J店購買商品的顧客,咨詢他們沒有選擇A零售門店的原因,詢問他們是否受到A(1)如何來解決?短期和長期的方案是什么(是運營活動還是產(chǎn)品機制)?大家先休息10分鐘,最后我再講一下如何撰寫數(shù)據(jù)分析報告。8.4數(shù)據(jù)分析報告的產(chǎn)品,所以數(shù)據(jù)分析師-定要高標(biāo)準(zhǔn)地對外交付數(shù)據(jù)分析報告。數(shù)據(jù)分析師通過數(shù)據(jù)分析報告向需求方表達(dá)分析的結(jié)論并闡述分析過據(jù)分析報告一般要滿足以下3個要求。在多數(shù)情況下,預(yù)測性分析的報告都是以Excel表格的形式來呈數(shù)據(jù)分析師在后續(xù)還需要根據(jù)實際情況對預(yù)測性分析的結(jié)果進(jìn)行調(diào)(2)一定要保留過程的計算公式,以方便后續(xù)對數(shù)據(jù)進(jìn)行調(diào)(3)最好用一個單獨的工作表來記錄數(shù)據(jù)之間的計算邏輯和指標(biāo)計算邏輯和指標(biāo)的口徑3個部分。數(shù)據(jù)分析師可以將測算的過程按數(shù)①確定業(yè)務(wù)的核心監(jiān)控指標(biāo)、拆解的子模塊的監(jiān)控指標(biāo),用對(1)將結(jié)論放在前面是為了讓業(yè)務(wù)方剛開始就對整個分析有宏觀略放在后面。對于這些,我們可以根據(jù)實際情況來調(diào)整。對于結(jié)論、策略、分論點論證過程這3個部分,我們在撰寫時一般需要注意什么①PPT的標(biāo)題是對整頁PPT內(nèi)容的概括。診斷性分析報告的呈現(xiàn)框架如圖8-5所示。將結(jié)論歸納為3~5個圖/表數(shù)據(jù)要能夠直接證明分論點圖/表區(qū)圖/表數(shù)據(jù)要能夠直接證明分論點圖/表區(qū)圖8-5PPT中。對于PPT中的數(shù)據(jù),我們要檢查4項:名稱+值+單位+數(shù)據(jù)口流程詳細(xì)地講解了一遍,我建議大家反復(fù)揣摩整個流程,體會數(shù)據(jù)第9章BI系統(tǒng)9.1讓人頭疼的看板需求上,截至今天,怎么這些看板報表還需要持續(xù)占用這么多資源?”1.研發(fā)人員的成長受限2.研發(fā)成本高3需求走排期,實現(xiàn)時間長9.2.2BI系統(tǒng)有哪些比較知名的BI系統(tǒng)早期大多數(shù)是由國外企業(yè)研發(fā)的,有臺,將數(shù)據(jù)處理和分析能力進(jìn)行整合,可以依據(jù)用戶需求定制化服務(wù)方案。近年來,國內(nèi)的企業(yè)也越來越強調(diào)通過數(shù)據(jù)來驅(qū)動業(yè)務(wù)增長,企業(yè)建設(shè)BI系統(tǒng)的需求越來越強烈,國內(nèi)的BI系統(tǒng)研發(fā)商提供的BI系統(tǒng)逐漸把數(shù)據(jù)加工、多維分析和可視化等技術(shù)整合成方案,實現(xiàn)對外服務(wù)輸出,在這期間出現(xiàn)了帆軟軟件有限公司、北京億信華辰軟件有限責(zé)任公司、阿里云、騰訊云、百度云等本地化服務(wù)更好的BI系統(tǒng)研發(fā)商。BI系統(tǒng)的發(fā)展階段如圖9-1所示。發(fā)展階段圖9-1隨著市面上的BI系統(tǒng)越來越多,BI系統(tǒng)研發(fā)商的產(chǎn)品研發(fā)戰(zhàn)略企業(yè)內(nèi)部,存在分析需求的人,都可以成為BI系統(tǒng)的用戶。BI系統(tǒng)的用戶構(gòu)成如圖9-2所示。的用戶構(gòu)成如圖9-2所示。數(shù)據(jù)工程師產(chǎn)品經(jīng)理企業(yè)高管數(shù)據(jù)分析師運營人員財務(wù)人員商務(wù)人員圖9-2務(wù)人員、產(chǎn)品經(jīng)理、企業(yè)高管和商務(wù)人員。而在BI系統(tǒng)的背后,是轉(zhuǎn)變?yōu)閷I系統(tǒng)的依賴。BI系統(tǒng)使有分析需求的人員可以在沒有技9.2.4BI系統(tǒng)的特點9.3BI系統(tǒng)的關(guān)鍵技術(shù)分析工作。但是報表開發(fā)畢竟需要一定的技術(shù),因此要想讓BI系統(tǒng)數(shù)倉是對海量數(shù)據(jù)進(jìn)行分析的基石,是BI系統(tǒng)的依托。個部分。日常的業(yè)務(wù)數(shù)據(jù)在被接入數(shù)倉后完成ETL的操作,幫助數(shù)據(jù)較普遍的解決方案是加并發(fā)和預(yù)計算。如果一個任務(wù)在MySQL中處鐘才能得到結(jié)果,你無法接受,那么你可以嘗試在預(yù)定的時間"跑數(shù)據(jù)”,將需要處理的數(shù)據(jù)提前進(jìn)行處理,待再做查詢時,速度就會有務(wù)數(shù)值偏離正常閾值時發(fā)出警示并輔助問題定位,如每年淘寶在"雙主流媒體,面對不同的受眾群體,對應(yīng)的可視化應(yīng)用風(fēng)格不盡相同。創(chuàng)建可視化數(shù)據(jù)報表,以及數(shù)據(jù)分析與可視化結(jié)果展示,這也是BI從數(shù)據(jù)接入到數(shù)據(jù)可視化的過程如圖9-3所示。9.4.1數(shù)據(jù)接入R圖9-4需要SSL(L)初始SQL..登錄表開發(fā)流程中起到承前啟后的作用。數(shù)據(jù)集加工的主要流程如圖9-6圖9-6需要進(jìn)行數(shù)據(jù)的再加工。數(shù)據(jù)集加I操作界面如圖9-7所示。選擇數(shù)據(jù)源1數(shù)據(jù)表加工3 字段21a2b3C4d5e圖9-7表,包括左關(guān)聯(lián)、內(nèi)關(guān)聯(lián)、全關(guān)聯(lián)等。如圖9-7所示,數(shù)據(jù)集加工經(jīng)歷了以下4步。擇數(shù)據(jù)源以后,即可看到數(shù)據(jù)源內(nèi)連接到的數(shù)據(jù)表(圖9-7中的1和2關(guān)的數(shù)據(jù)進(jìn)行關(guān)聯(lián)操作,得到一個數(shù)據(jù)寬表(圖9-7中的3區(qū)域)。4區(qū)域),邏輯如圖9-8所示。數(shù)據(jù)字段數(shù)據(jù)內(nèi)容112選擇其名數(shù)據(jù)集4設(shè)置已選中字段的權(quán)限范圍按枚舉取值控制(針對離散數(shù)值字段);按取值范圍控制(針對連續(xù)數(shù)值字段)選擇選中的數(shù)3圖9-9第三步,用戶a選擇需要設(shè)置權(quán)限的用戶1、用戶2、用戶3(圖第四步,用戶a對用戶1、用戶2、用戶3分別設(shè)置已選中字段圖9-10表還在持續(xù)增加中。各類BI系統(tǒng)支持的圖表類型截圖如圖9-11所示。圖9-11以餅圖為例,餅圖可以展現(xiàn)每個組成部分占整體的比例,如圖圖9-12用戶了解整體數(shù)據(jù)的比例分布。各品牌的市場份額、人群數(shù)量占比、過餅圖看到細(xì)微的差別。在這種情況下,條形圖(見圖9-13)就是對們也可以加入南丁格爾圖(見圖9-14),南丁格爾圖又稱南丁格爾玫瑰一般可視化元素的配

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論