保險倉庫數(shù)據(jù)模型設(shè)計_第1頁
保險倉庫數(shù)據(jù)模型設(shè)計_第2頁
保險倉庫數(shù)據(jù)模型設(shè)計_第3頁
保險倉庫數(shù)據(jù)模型設(shè)計_第4頁
保險倉庫數(shù)據(jù)模型設(shè)計_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、bi系統(tǒng)數(shù)據(jù)模型介紹,主 題,維度建模的基本概念 模型概述 模型介紹 模型運用方法與技巧 相關(guān)技術(shù)問題,如何建立分析集市模型,行業(yè)經(jīng)驗,bi.insurance dwm,工作組和建模,持續(xù)發(fā)展,業(yè)務(wù)需求,安邦分析 集市模型,業(yè)務(wù)驅(qū)動 根據(jù)固定報表和kpi、持續(xù)率、承保理賠、執(zhí)行力、再保五個數(shù)據(jù)集市的業(yè)務(wù)需求,結(jié)合bi.insurance dwm的建模方法, 建立taiping edw 分析集市模型,分析集市模型概念,維度建模 一種非規(guī)范化的關(guān)系模型 由一組屬性構(gòu)成的表所組成 表跟表之間的關(guān)系通過關(guān)鍵字和外鍵來定義 以良好的可理解性和方便的產(chǎn)生報表來進(jìn)行數(shù)據(jù)組織,很少考慮修改的性能 通過sql或

2、者相關(guān)的工具實現(xiàn)數(shù)據(jù)的查詢和維護(hù),分析集市模型概念,事實表(一) 每一個事實表通常包含了業(yè)務(wù)需求所關(guān)心的一系列的指標(biāo)值 每一個事實表的行包括 具有可加性的數(shù)值型的指標(biāo)值 文本事實通常具有不可預(yù)見的內(nèi)容,很難進(jìn)行分析 與維表相連接的外鍵 通常具有兩個和兩個以上的外鍵 外鍵之間表示維表之間多對多的關(guān)系,分析集市模型概念,事實表(二) 事實表的特征 非常的大 包含幾萬、幾十萬甚至幾百幾千條的記錄 內(nèi)容相對的窄 列數(shù)較少 經(jīng)常發(fā)生變化 現(xiàn)實世界中新事件的發(fā)生事實表中增加一條記錄 典型情況下,僅僅是數(shù)據(jù)的追加 事實表的使用 各類指標(biāo)值的聚集計算,分析集市模型概念,維表(一) 每一張維表對應(yīng)現(xiàn)實世界中的一

3、個對象或者概念 例如:客戶、產(chǎn)品、保單、標(biāo)的、案件 維表的特征 包含了眾多描述性的屬性列 如保單維表里的銷售渠道、保費區(qū)間、風(fēng)險等級等 通常情況下,跟事實表相比,行數(shù)相對較小 通常 10萬條 內(nèi)容相對固定 幾乎就是一類查找表,分析集市模型概念,維表(二) 維表的應(yīng)用 基于維屬性的過濾(切片、切塊等) 基于維屬性的各種聚集操作 報表中各類標(biāo)簽的主要來源 事實表通過維表進(jìn)行引用,分析集市模型概念,facts 屬性個數(shù)少(窄) 記錄行數(shù)多(大) 數(shù)值型指標(biāo) 隨著時間的推移,數(shù)據(jù)增長,dimensions 屬性個數(shù)多(寬) 記錄行數(shù)少(?。?描述性屬性 靜態(tài)的,很少發(fā)生變化,事實表與維表的比較,分析主

4、題域數(shù)據(jù) (analytical subject areas,通過事實(facts)和維度(dimensions)模型方式表達(dá),為典型保險分析應(yīng)用提供分析型數(shù)據(jù)架構(gòu),為數(shù)據(jù)集市提供統(tǒng)一的指標(biāo)和維度,為數(shù)據(jù)應(yīng)用提供統(tǒng)一的數(shù)據(jù)信息。 分析主題域數(shù)據(jù),將業(yè)務(wù)需求階段定義的分析主題域,按照維度建模方法,格式化成符合維度事實表的星型模型或雪花模型。其中維度信息由核心原子數(shù)據(jù)按照定義的層次形成相關(guān)的維度視圖,事實表數(shù)據(jù)通過核心原子數(shù)據(jù)相關(guān)主題域數(shù)據(jù)經(jīng)過匯總計算得到。核心原子數(shù)據(jù)和分析數(shù)據(jù)分別映射到不同的數(shù)據(jù)集市中。 其中,典型的分析主題域如通用承保分析(universal underwriting ana

5、lysis)如下圖,分析集市模型設(shè)計步驟,需求,整理指標(biāo)維度矩陣,設(shè)計集市層模型,設(shè)計分析層模型,維度指標(biāo)矩陣,維度指標(biāo)矩陣是把需求轉(zhuǎn)化為多維模型的重要工具,業(yè)務(wù)分析需求舉例,與上一年相比,各險種所占的份額有何差異? 每個機構(gòu)在各險種所占份額是多少,機構(gòu),險種,時間,2006和2007年度各險種份額對比,2006,2007,thousands,2006年度各機構(gòu)在各險種上的份額,維度建模舉例,時間,機構(gòu),險種,客戶,主 題,維度建模的基本概念 模型概述 模型介紹 模型運用方法與技巧 相關(guān)技術(shù)問題,元數(shù)據(jù),模型在整個系統(tǒng)架構(gòu)中的定位,面向業(yè)務(wù)應(yīng)用,基本上與業(yè)務(wù)數(shù)據(jù)同構(gòu) 保留詳細(xì)交易數(shù)據(jù),數(shù)據(jù)倉庫

6、,分析層,分析層模型主題域,分析層模型每個主題域為同類的業(yè)務(wù)處理,共享相同的維度 承保理賠分析 記錄安邦保險所關(guān)注的主要承保理賠業(yè)務(wù)指標(biāo)。 收付費分析 記錄財務(wù)收付中應(yīng)收保費、實收保費、應(yīng)收率、應(yīng)付賠款、實付賠款等收付類信息。 核賠效率分析 記錄理賠環(huán)節(jié)中查勘、定損、核損、繕制過程的相關(guān)指標(biāo),主 題,維度建模的基本概念 模型概述 模型介紹 模型運用方法與技巧 相關(guān)技術(shù)問題,分析層模型結(jié)構(gòu),收付費分析的星型結(jié)構(gòu),分析層模型介紹,承保理賠分析事實表”、“收付費分析事實表”、“核賠效率分析事實表”都是經(jīng)輕度匯總生成的表,它們?nèi)慷际鞘聞?wù)型事實表 中間事實表都是經(jīng)過版本化的歷史表,保存最細(xì)粒度的數(shù)據(jù)

7、中間事實表主要用于生成輕度匯總表的過渡,除此之外,通過冗余相關(guān)屬性,中間事實表的設(shè)計也考慮了其它無法從直接從分析層計算的指標(biāo)的計算,事務(wù)型事實和快照型事實,事務(wù)型,快照型,快照型事實表的指標(biāo)通常包含時點值,隨著時間積累,維度組合會越來越細(xì),此類型的事實表通常用于粒度較粗的數(shù)據(jù)集市或cube;而事務(wù)型事實表的度量都是可累加的,其對于維度較多的輕度匯總表是有利。如果olap server支持在事務(wù)型事實表上計算時點值,建議在維度較細(xì)的cube上使用事務(wù)型事實,中間層歷史數(shù)據(jù)的版本化,數(shù)據(jù)倉庫中的歷史數(shù)據(jù)決不會被刪除或覆蓋,因此需要加入數(shù)據(jù)版本特性來區(qū)分隨時間變化的業(yè)務(wù)信息,使得在任一給定時間點上都

8、能檢索到正確的數(shù)據(jù)。 數(shù)據(jù)是否需要版本化,首先依賴于實體是否有時變特性,比如“報案信息”通常是在某個時間點上發(fā)生,它就沒有時變特性,因此就不需要版本化。 在實體中加入時間戳屬性可以實現(xiàn)數(shù)據(jù)版本化,這個時間戳可以基于業(yè)務(wù)涵義,如對保單的某次批改的生效日期;也可以僅僅是技術(shù)上的,比如員工某項登記信息被修改,則生成新的員工記錄,并指定該記錄的有效(valid)期間,etl處理需要實現(xiàn)數(shù)據(jù)相鄰版本時間戳的鏈接。 需要為版本化的實體找出一個錨id來唯一標(biāo)識每個數(shù)據(jù)實例,比如保單實體的錨id可以是保單號,表明該實體中最原子的粒度是保單,時間戳與數(shù)據(jù)版本,業(yè)務(wù)信息的不同版本的時間鏈,時間戳(start_da

9、te/end_date,以上start_date為紅色的是該數(shù)據(jù)實例被創(chuàng)建時的版本,該值從邏輯上看應(yīng)該為數(shù)據(jù)的業(yè)務(wù)創(chuàng)建日期,比如入職日期,但為了避免受到數(shù)據(jù)質(zhì)量的影響,我們通常把每個數(shù)據(jù)實例的第一個版本的start_date置為1900-01-01,承保中間表場景示例,收付費中間表場景示例,理賠中間事實表場景示例,中間層的構(gòu)建算法,請安邦項目組自行用visio畫出算法流程圖,分頁貼在此處,分析層模型未涵蓋的特殊分析應(yīng)用,需求中有部分的指標(biāo)在計算上比較獨特,且與其它指標(biāo)沒有太多的共享價值,因此未納入分析層模型的考查范疇,這些指標(biāo)主要有: 核保效率分析用mid_policy_fact與核保信息表關(guān)

10、聯(lián),再經(jīng)過聚合計算可得到相應(yīng)的分析指標(biāo) 理財險網(wǎng)點活動率該指標(biāo)為非累計指標(biāo),不考慮安置在分析層,可在構(gòu)建cube時按原始算法計算,但日、月、季、年的匯總值要分別計算 車貸險指標(biāo)該類指標(biāo)的數(shù)據(jù)源比較特殊,不考慮建立分析層,可在構(gòu)建cube時按原始算法計算,從中間層到分析層承保理賠,簽單類 只計算保單,口徑為:核保日期在當(dāng)期 and start_date=1900-1-1 主要指標(biāo)有:保險金額、保單保費、保單筆數(shù)、累計儲金、已驗車數(shù)量、應(yīng)驗車數(shù)量 需要減去退保和注銷 會計年度類 不考慮版本,所有記錄一起計算,口徑為:核保日期在當(dāng)期 保額和保費只累計變化值 主要指標(biāo)有:保費收入、批增批減保費(件數(shù))

11、、退保(注銷)保費(件數(shù))等 理賠類 口徑:結(jié)案日期在當(dāng)期或估損修改日期在當(dāng)期 部分指標(biāo)只考慮起始兩個版本,即立案和結(jié)案,比如立案估損金額、結(jié)案天數(shù) 主要指標(biāo)有:已決筆數(shù)、已決賠款、未決筆數(shù)變化、未決賠款變化、立案估損金額、估損偏差絕對值、加權(quán)估損金額、結(jié)案天數(shù) 特殊口徑類 已賺保費算法參見“模型運用方法與技巧” 有部分指標(biāo)不需要定義在分析層,因為它們可以從以上指標(biāo)衍生,比如車險續(xù)保指標(biāo)、理財險指標(biāo),都可以從承保理賠分析表以保險止期維度為口徑聚合生成,從中間層到分析層收付費,收付費指標(biāo)的主要口徑基本上都是以收付確認(rèn)日期來計算,在源系統(tǒng)中體現(xiàn)為應(yīng)收(付)確認(rèn)日期和實收(付)確認(rèn)日期 需求中要求按

12、幣種分別展現(xiàn)人民幣和非人民幣的統(tǒng)計值,由于本事實表已經(jīng)包含保單維度,因此這些指標(biāo)都可以根據(jù)保單維度中的幣種重新匯總生成 應(yīng)收保費變化的計算規(guī)則是:應(yīng)收一筆保費以正數(shù)累計,實收一筆保費以負(fù)數(shù)累計,對實收的沖正以正數(shù)累計 滾動12個月財務(wù)保費收入是應(yīng)收保費收入的衍生指標(biāo),核賠效率分析,核賠效率分析的指標(biāo)基本都有共享的維度,因此為其建立一個分析層主題是合適的 核賠效率分析涉及的源表比較分散,且增量機制較為復(fù)雜,因此建立中間表有一定的難度,目前的策略是參照原指標(biāo)算法分別計算出各指標(biāo),并插入一臨時表中,再對該表執(zhí)行聚合操作 由于源系統(tǒng)可能會更新核賠數(shù)據(jù)的狀態(tài),因而導(dǎo)致部分指標(biāo)存在“過期”現(xiàn)象,在目前沒有

13、歷史數(shù)據(jù)支持的情況,我們的解決辦法是由業(yè)務(wù)部門確定一個過期閥值天數(shù)n,超過n天之前的指標(biāo)不會再過期,那么每天加載核賠效率事實表時,不僅僅計算當(dāng)天的事實數(shù)據(jù),而是把n天之前的數(shù)據(jù)也都復(fù)算一遍,主 題,維度建模的基本概念 模型概述 模型介紹 模型運用方法與技巧 相關(guān)技術(shù)問題,數(shù)據(jù)版本的截取時間點,查詢出2008-4-10各業(yè)務(wù)員的數(shù)據(jù): select * from 業(yè)務(wù)員表 where start_date 2008-4-10,保單中間表連接員工表獲取員工的職位屬性: select a.policy, , b.職位 from mid_policy_fact a, 業(yè)務(wù)員表 b where a.c_

14、emp_cde = b.c_emp_cde and b.start_date t_udr_date,截取時間為常量,截取時間為連接主表的相關(guān)時間字段,時間鏈的生成技巧,假定經(jīng)過相應(yīng)的處理后得到一個數(shù)據(jù)集t,t可以是一個臨時表、視圖或子查詢,并包含一個日期字段start_date(不可有空值)作為時間鏈的開始日期,但end_date還未生成,則可以用以下sql生成時間鏈: select anchor_id, , start_date, lead(start_date,1,to_date(99991231,yyyymmdd) over (partition by anchor_id order b

15、y start_date) as end_date from t; 其中anchor_id是數(shù)據(jù)集的錨id,比如保單號、單據(jù)號等,歷史表增量加載策略,在常規(guī)情況下,該算法也適合全量加載,此時數(shù)據(jù)集是全量數(shù)據(jù),而目標(biāo)表的初始狀況是空表,由于目標(biāo)表中要求第一條版本記錄的start_date應(yīng)該為1900-1-1,這里的算法要考慮t01的增量在目標(biāo)表中沒有前續(xù)版本記錄的情況,已賺保費的計算,以上有效時間段不能采用保單版本的時間鏈,而要按業(yè)務(wù)上的保單生效規(guī)則來確定時間范圍 一般情況下,保單的生效開始日期就是保險起期,但對于倒簽單,則按核保日期計算,因此回避了在此之前已匯總的漏算問題 最好在承保中間表中

16、事先計算出業(yè)務(wù)有效時間范圍,作為業(yè)務(wù)時間鏈,不僅避免在匯總指標(biāo)時多做計算,而且有利于測試時核對數(shù)據(jù) 由于涉及到除法,如果時間維的粒度太細(xì),可能導(dǎo)致過多的精度誤差,建議匯總表中該指標(biāo)字段保留更多的小數(shù)位,比如68位,2007.1,2007.6,安邦以前的算法 累加各版本保費變化乘以當(dāng)期內(nèi)的保險期限時間段在當(dāng)前保險期限內(nèi)的占比,2007.1,2007.6,較準(zhǔn)確的算法 累加各版本當(dāng)前保費乘以當(dāng)期內(nèi)的有效時間段在當(dāng)前保險期限內(nèi)的占比,每個線段表示保單各版本用于計算當(dāng)期有效天數(shù)的基準(zhǔn)時間段,而被陰影覆蓋的部分作為時間占比的分子,承保理賠分析應(yīng)用場景假設(shè),ply_prof_dm 為簡化起見,假定保單維表

17、只有一個維屬性:保險起期(月,dm_fact 承保理賠分析事實表經(jīng)過聚合計算后生成的局部視圖,含有三個指標(biāo),除統(tǒng)計月份外的維度組合有四種(不同的顏色區(qū)分,承保理賠分析應(yīng)用轉(zhuǎn)換成快照型事實,經(jīng)過與月維表的分區(qū)外連接,以上查詢填充了遺漏的月份,并利用分析函數(shù)計算出“期末未決”這個時點值??梢岳么瞬樵兘ube dm_fact應(yīng)該是經(jīng)聚合后粒度已經(jīng)較粗的事實,可以是表、視圖、物化視圖或子查詢 可以通過對月維表增加查詢條件來減少最終快照型事實的維度組合,比如保單維表中實際上是包含“核保月份”的,則可以增加一個連接條件為“v1.mon_id=核保月份”,但這種做法必須要有數(shù)據(jù)質(zhì)量的保證 會計年度的報

18、表或分析應(yīng)用可以在該查詢結(jié)果的基礎(chǔ)上直接以mon_id為時間維度進(jìn)行聚合得到,with v1 as (select mon_id from cal_mon where mon_id = 200706) select ply_prof_id,dpt_id, mon_id, 簽單件數(shù),已決件數(shù), sum(未決件數(shù)變化) over (partition by ply_prof_id,dpt_id order by mon_id rows unbounded preceding ) as 期末未決件數(shù) from (select ply_prof_id,dpt_id, v1.mon_id, 簽單件數(shù),

19、已決件數(shù),未決件數(shù)變化 from dm_fact partition by (ply_prof_id, dpt_id) right outer join v1 on (v1.mon_id = 統(tǒng)計月份,承保理賠分析應(yīng)用保單年度算法,保單年度分析是在兩個時間維度上的快照型事實,兩個時間維度分別是保險起期和截止月份,所有指標(biāo)都是在截止月份維度上的時點值,計算該快照型事實可參考下面的sql。 該算法同樣可以增加條件減少維度組合,比如通常在保險責(zé)任結(jié)束n年后,保單年度分析的價值已經(jīng)減退,因此可以在連接條件中增加“v1.mon_id = pf.保險止期 + n”, 注意:由于實際模型中保單維表不止保險起期一個屬性,則以下查詢在維度上還存在重復(fù)值,直接使用需要再進(jìn)行聚合,with v1 as (sele

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論