社保大數(shù)據(jù)分析平臺建設(shè)方案_第1頁
社保大數(shù)據(jù)分析平臺建設(shè)方案_第2頁
社保大數(shù)據(jù)分析平臺建設(shè)方案_第3頁
社保大數(shù)據(jù)分析平臺建設(shè)方案_第4頁
社保大數(shù)據(jù)分析平臺建設(shè)方案_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

社保大數(shù)據(jù)分析平臺建設(shè)方案

一、建設(shè)背景

目前,XX市"金保工程"業(yè)務(wù)系統(tǒng)基于聯(lián)機事務(wù)處理(OLTP),主要解決了日常業(yè)務(wù)經(jīng)辦的問題,

但隨著社保數(shù)據(jù)不斷積累,數(shù)據(jù)量呈現(xiàn)海量存儲特征,隨著公共服務(wù)的不斷推進,非結(jié)構(gòu)化數(shù)據(jù)量也

迅猛增加,這些情況導致社保的統(tǒng)計分析能力不斷下降,普遍存在業(yè)務(wù)報表分散、統(tǒng)計查詢不便、效

率低下的問題,另一方面,隨著基金平衡壓力劇增,管理層基于海量數(shù)據(jù)的主題分析、預測分析、政

策仿真需求日漸增多,現(xiàn)有的傳統(tǒng)數(shù)據(jù)庫平臺和核心業(yè)務(wù)平臺難以滿足上述這些需求,亟待使用大數(shù)

據(jù)技術(shù)來破解難題。

二、項目建設(shè)總體要求

2.1總體建設(shè)思路及目標

針對人社部門中社保業(yè)務(wù)數(shù)據(jù)分析和利用最為迫切的特點,作為XX市"智慧人社平臺"的重要組成

部分,擬在我市"金保工程"應(yīng)用系統(tǒng)數(shù)據(jù)基礎(chǔ)上,運用大■技術(shù),建立XX市社保大數(shù)據(jù)系統(tǒng)平

臺,建立完整的社保數(shù)據(jù)指標體系,實現(xiàn)對社保數(shù)據(jù)的綜合統(tǒng)計分析,實現(xiàn)社保業(yè)務(wù)關(guān)鍵指標的主題

分析、關(guān)聯(lián)分析,建立數(shù)據(jù)分析模型,來協(xié)助社保政策部門、基金監(jiān)管部門、經(jīng)辦部門進行政策調(diào)整

仿真,分析預測社?;疬\行的走向,輔助實現(xiàn)社保基金的"開源"和"節(jié)流",輔助實現(xiàn)"應(yīng)保盡保、

應(yīng)收盡收",幫助"堵塞漏洞"

2.2本項目建設(shè)目標

(1)建設(shè)社保大數(shù)據(jù)綜合統(tǒng)計分析基礎(chǔ)平臺框架;

(2)建設(shè)社保大數(shù)據(jù)綜合統(tǒng)計分析系統(tǒng);

(3)建設(shè)養(yǎng)老保險關(guān)聯(lián)分析系統(tǒng);

(4)建設(shè)醫(yī)療保險關(guān)聯(lián)分析系統(tǒng)。

3.1項目解決需求

3.1.1建設(shè)社保大數(shù)據(jù)綜合統(tǒng)計分析基礎(chǔ)平臺框架

采用先進的混搭架構(gòu)模式,運用大數(shù)據(jù)技術(shù),結(jié)合數(shù)據(jù)倉庫的設(shè)計模式,采用分布式計算+分布式數(shù)

據(jù)存儲的技術(shù)架構(gòu)框架來實現(xiàn)基礎(chǔ)平臺框架,本期主要工作包括:

(1)根據(jù)平臺技術(shù)架構(gòu)及應(yīng)用部署架構(gòu)完成系統(tǒng)環(huán)境搭建。

(2)將"金保工程”業(yè)務(wù)系統(tǒng)的數(shù)據(jù)通過ETL工具或同步工具,抽取到MPP數(shù)據(jù)倉庫。

(3)完成數(shù)據(jù)質(zhì)量分析,進行數(shù)據(jù)預處理,重點包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換等。

(4)初步完成基礎(chǔ)建模,在MPP數(shù)據(jù)倉庫中構(gòu)建數(shù)據(jù)集市。

(5)通過ETL工具將MPP數(shù)據(jù)倉庫中明細數(shù)據(jù)抽取到Hadoop中,同時將爬蟲過來的數(shù)據(jù)存儲到

Hadoop中。

(6)MPP數(shù)據(jù)倉庫作為數(shù)據(jù)集市支撐上層數(shù)據(jù)分析和服務(wù),Hadoop提供非結(jié)構(gòu)化數(shù)據(jù)的存儲和管

理,同時提供社保明細數(shù)據(jù)查詢。

其中數(shù)據(jù)抽取部分,可根據(jù)源系統(tǒng)的特點采用不同的數(shù)據(jù)采集方式。數(shù)據(jù)采集方式包括:

(1)△變更數(shù)據(jù)抽取:在業(yè)務(wù)系統(tǒng)部署監(jiān)控程序,業(yè)務(wù)系統(tǒng)數(shù)據(jù)一有變化,就實時從業(yè)務(wù)系統(tǒng)獲取變

更數(shù)據(jù),保障了業(yè)務(wù)監(jiān)控和決策的快速反應(yīng)。適合的數(shù)據(jù)源:人社的核心業(yè)務(wù)系統(tǒng)。

(2)△批量增量數(shù)據(jù)抽?。憾ㄆ趶臄?shù)據(jù)源中增量抽取數(shù)據(jù)。適合的數(shù)據(jù)源:人社的核心業(yè)務(wù)系統(tǒng)(在

無法采用變更數(shù)據(jù)抽取時)。

(3)數(shù)據(jù)交換平臺:人社部門與其它數(shù)據(jù)提供方確定數(shù)據(jù)交換接口和規(guī)范,通過數(shù)據(jù)交換平臺以文件

數(shù)據(jù)交換的形式獲取。適合的數(shù)據(jù)源:政府部門相關(guān)數(shù)據(jù)資源、社會部門相關(guān)數(shù)據(jù)資源、互聯(lián)網(wǎng)數(shù)據(jù)

資源。

(4)網(wǎng)絡(luò)爬蟲:自動的抓取互聯(lián)網(wǎng)信息的程序。對于如公共服務(wù)網(wǎng)站的信息可以利用網(wǎng)絡(luò)爬蟲抓取數(shù)

據(jù)。

(5)API接口:按需求訂制開發(fā)API接口供數(shù)據(jù)需求方獲取數(shù)據(jù)。

△--為重要的數(shù)據(jù)抽取方式,必須保證不影響原有核心業(yè)務(wù)系統(tǒng)的正常運行,需要原核心系統(tǒng)開發(fā)商

配合完成的工作由建設(shè)方負責協(xié)調(diào),配合工作若產(chǎn)生的相關(guān)費用須由中標商承擔。

3.1.2建設(shè)社保大數(shù)據(jù)綜合統(tǒng)計分析系統(tǒng)

按原有統(tǒng)計口徑重新開發(fā)現(xiàn)有“金保工程”系統(tǒng)中的各類綜合統(tǒng)計匯總查詢功能,并確保數(shù)據(jù)的準確、

一致。按照業(yè)務(wù)部門實際需求,根據(jù)統(tǒng)計分析系統(tǒng)設(shè)計要求,設(shè)計開發(fā)各類可定制化的條件查詢統(tǒng)計

匯總功能,其主要統(tǒng)計分析對象應(yīng)至少包括:

(1)參保人員

分析參保人群在各險種間參保、繳費的對比統(tǒng)計分析情況?;趨⒈H丝诘漠斍靶畔⒑蜌v史信息(如

年齡、性別、在職或退休、生存狀態(tài)等),根據(jù)生育率、生命表等,利用年齡移算,分析參保人口的

現(xiàn)狀、預測人口趨勢。通過參保人口的分析與預測,可以了解轄區(qū)內(nèi)參保人口現(xiàn)狀(年齡結(jié)構(gòu)、性別

結(jié)構(gòu)、在職與退休人員比例、期望壽命等),了解參保人口和老齡化的演化趨勢。通過系統(tǒng)內(nèi)外數(shù)據(jù)

比對聯(lián)動,分析查詢?nèi)藛T社保變化軌跡,提煉人員標簽,進行個體特征分析,用是供給“智慧入社"

公共服務(wù)平臺查詢;針對人群特征比對,挖掘全民參保擴面空間,分析政策補貼拉動社保征繳的可行

性。

(2)參保單位

參保繳費率分析:按區(qū)域、單位類型、經(jīng)濟類型、隸屬關(guān)系、行業(yè)等分析不同企業(yè)的參保繳費情況。

欠費情況分析:分析欠費規(guī)模、欠費企業(yè)特征。

繳費基數(shù)分析:比較分析同類企業(yè)的繳費基礎(chǔ),與社平工資、行業(yè)指導工資的差異。針對繳費基數(shù)按

照勵氐繳費工資水平繳費的現(xiàn)象進行分析。

企業(yè)經(jīng)營狀況分析:根據(jù)企業(yè)的人員規(guī)模、工資規(guī)模、人員流動情況、繳費情況分析企業(yè)的經(jīng)營狀況。

通過系統(tǒng)內(nèi)外數(shù)據(jù)比對聯(lián)動,分析單位社保變化軌跡,提煉單位標簽,實現(xiàn)特征分析,并提供給“智

慧人社"公共服務(wù)平臺查詢。

(3)基金收支

根據(jù)需求訂制開發(fā)統(tǒng)計查詢功能,用于實時、動態(tài)、準確地分析各社會保險基金的收入、支出和結(jié)余

情況,同比、環(huán)比變化情況,以及對應(yīng)的安全支付級別。

(4)考核指標類數(shù)據(jù)分析

具體按業(yè)務(wù)部門提供表樣,應(yīng)基本涵蓋現(xiàn)行社保的統(tǒng)計報表及決策部門需要的統(tǒng)計分析報表。

(5)醫(yī)療保險待遇統(tǒng)計分析

根據(jù)XX醫(yī)保政策,有針對性地對歷年醫(yī)保待遇數(shù)據(jù)進行統(tǒng)計分析,設(shè)計和構(gòu)建綜合性的醫(yī)?;疬\

行狀況的指標體系,結(jié)合專家經(jīng)驗和大數(shù)據(jù)技術(shù),從基金收入、支出、結(jié)余、監(jiān)管、管理等多維度全

面、綜合的考察、監(jiān)測醫(yī)?;疬\行的狀況。展示上應(yīng)多采用圖標形式,方便業(yè)務(wù)人員尋找其中的規(guī)

律,分析離散點的成因。內(nèi)容上應(yīng)至少包括:醫(yī)保費用分布情況,各待遇段人數(shù)分布情況;醫(yī)保費用

按醫(yī)保項目分布情況,如藥品、檢查、化驗等的占比統(tǒng)計分析;參保人醫(yī)保待遇分析,如人均費用、

均次費用、年人均就診次數(shù)、人均住院天數(shù)、就診率、各類參保人(如按年齡、在職/退休狀態(tài)、文

化程度、收入狀況)的醫(yī)保費用和項目使用情況等;各類診療類型的醫(yī)保待遇分析,如門急診、住院

等的醫(yī)保費用使用情況分析。

3.1.3建設(shè)養(yǎng)老保險關(guān)聯(lián)分析系統(tǒng)

按關(guān)聯(lián)分析系統(tǒng)設(shè)計要求,建立指標體系,從多維結(jié)構(gòu)化的角度處理對社會保險基金產(chǎn)生影響的政策、

宏觀經(jīng)濟方面的因素,為進一步挖掘事件與社?;鹬g的深層關(guān)系打好基礎(chǔ),具體包括:

(1)養(yǎng)老基金參保征繳指標體系

基金征繳是養(yǎng)老基金主要來源,因此加強基金征繳力度,防范其中風險,有利于保障養(yǎng)老基金的總體穩(wěn)定,

對養(yǎng)老基金征繳產(chǎn)生影響的因素主要有:養(yǎng)老保險參保率(實際參保人數(shù)/養(yǎng)老保險制度覆蓋人群的人

數(shù)X100%);養(yǎng)老基金征繳率(實際繳費人數(shù)/應(yīng)繳費人數(shù)X100%);繳費基數(shù);養(yǎng)老保險繳費率;養(yǎng)老

補繳/中斷;養(yǎng)老賬戶;利率等。

(2)養(yǎng)老基金支付寸旨標體系

養(yǎng)老基金支付主要受以下因素影響:贍養(yǎng)率(領(lǐng)取養(yǎng)老金職工人數(shù);在職職工人數(shù)X100%);隱性負債

率(隱性負債/養(yǎng)老基金總額xlOO%);養(yǎng)老保險替代率(統(tǒng)籌區(qū)內(nèi)同期養(yǎng)老金人均領(lǐng)取數(shù)/在崗職工人均

工資數(shù)x100%)。

(3)養(yǎng)老基金違法違規(guī)指標體系

基金冒領(lǐng)比率(基金冒領(lǐng)總額/應(yīng)收統(tǒng)籌養(yǎng)老基金總額);養(yǎng)老基金偷繳漏繳率(偷繳漏繳額/應(yīng)收統(tǒng)籌養(yǎng)

老基金總額)。

3.1.4建設(shè)醫(yī)療保險關(guān)聯(lián)分析系統(tǒng)

按關(guān)聯(lián)分析系統(tǒng)設(shè)計要求,建立指標體系,從多維結(jié)構(gòu)化的角度處理對職工和居民醫(yī)療保險基金產(chǎn)生

影響的政策、宏觀經(jīng)濟方面的因素,具體包括:

(1)醫(yī)療費用實時預警監(jiān)測

通過實時計算技術(shù),對醫(yī)?;稹⑨t(yī)院的結(jié)算情況進行實時監(jiān)控;利用時序預測方法,預測未來若干

月度的基金結(jié)算規(guī)模。

(2)醫(yī)保支付比例調(diào)整輔助決策

構(gòu)建醫(yī)療保險報銷參數(shù)調(diào)整的模型,針對不同醫(yī)療機構(gòu)等級、就診類型、人員類別等調(diào)整報銷比例,

測算各類人群的醫(yī)療負擔,受益受損情況,以及對醫(yī)保支出的影響。

(3)醫(yī)保藥品目錄的調(diào)整

利用大數(shù)據(jù)手段,幫助業(yè)務(wù)部門在診療記錄、醫(yī)保支付記錄中篩選使用廣泛、療效確切但未納入目錄

的藥品,或者,篩選已納入目錄但效果未達到預期的藥品,為提出目錄調(diào)整動議提供數(shù)據(jù)支撐

(4)居保個人繳費與財政補貼標準測算

利用歷史結(jié)算數(shù)據(jù),構(gòu)建居保繳費水平、財政補貼與醫(yī)保支出的測算模型,為標準調(diào)整提供決策依據(jù)。

(5)醫(yī)保季度分析報告

基于大數(shù)據(jù),自動生成季度報告所需的指標數(shù)值。

三、項目建設(shè)主要內(nèi)容與要求

3.1系統(tǒng)總體建設(shè)方案

本項目充分利用現(xiàn)有金保工程雌中心資源,采用先進的混搭架構(gòu)模式,運用大數(shù)據(jù)技術(shù),結(jié)合數(shù)據(jù)

倉庫的設(shè)計模式,采用分布式計算+分布式數(shù)據(jù)存儲的技術(shù)架構(gòu)框架來實現(xiàn)基礎(chǔ)平臺框架,同時建立

一套完備的數(shù)據(jù)標準和數(shù)據(jù)治理體系。

基于平臺提供的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)專題等服務(wù)能力,實現(xiàn)社保大數(shù)據(jù)綜合統(tǒng)計分析、養(yǎng)老保

險關(guān)聯(lián)分析、醫(yī)療保險關(guān)聯(lián)分析三大系統(tǒng),通過PC和移動雙門戶進行接入訪問。

數(shù)據(jù)治理數(shù)據(jù)標準

PC門戶移動門戶

接入平臺

數(shù)據(jù)資源

標準

數(shù)

據(jù)

應(yīng)綜合統(tǒng)計分析)養(yǎng)老關(guān)聯(lián)分析1:醫(yī)療關(guān)聯(lián)分析)基金監(jiān)控)

數(shù)據(jù)質(zhì)量

數(shù)數(shù)據(jù)挖堀服務(wù)標準

據(jù)

務(wù)

數(shù)據(jù)潟度數(shù)據(jù)調(diào)度

據(jù)

數(shù)

數(shù)標準

同步

據(jù)

球市批

標隹

數(shù)

據(jù)

源文件處理

社保大數(shù)據(jù)平臺

標準

計算資源存儲金源網(wǎng)絡(luò)資源安全資源互聯(lián)網(wǎng)資源

數(shù)據(jù)中心基礎(chǔ)資源

鎮(zhèn)江社保大數(shù)據(jù)平臺總體方案

3.1.1平臺技術(shù)架構(gòu)

PC門戶移動門戶

接入平臺

數(shù)

據(jù)

應(yīng)綜合統(tǒng)計分析養(yǎng)老關(guān)聯(lián)分析醫(yī)療關(guān)聯(lián)分析基金監(jiān)控政策仿真……

數(shù)數(shù)據(jù)分析服務(wù)數(shù)據(jù)挖凝服務(wù)數(shù)據(jù)專題服務(wù)

據(jù)

服精確查詢多維分析回歸分析關(guān)聯(lián)分析比對哂主觀搜索

務(wù)

全文檢索統(tǒng)計分析聚類服務(wù)機器學習隕測分析信用分析

數(shù)

據(jù)列式關(guān)聯(lián)計算ACIDHBasePIGHiveSqoop

儲關(guān)系模式碰撞計算多維計算MapReduceHDFSZooKeeper

數(shù)據(jù)集市(基于MPP)Hadoop平臺

關(guān)系型數(shù)據(jù)庫文件處理網(wǎng)絡(luò)爬蟲

社保大數(shù)據(jù)平臺

(1)數(shù)據(jù)源:

充分利用現(xiàn)有金保工程業(yè)務(wù)系統(tǒng)中的關(guān)系型數(shù)據(jù)資源,結(jié)合大數(shù)據(jù)技術(shù)的理念,搜集文件處理和網(wǎng)絡(luò)

爬蟲工具抓取來的互聯(lián)網(wǎng)上的數(shù)據(jù)資源,通過清洗、整合,統(tǒng)一同步至數(shù)據(jù)存儲層。

(2)數(shù)據(jù)存儲層:

采用先進的混搭技術(shù)架構(gòu),利用Hadoop軟件滿足人社海量數(shù)據(jù)的存儲、加工及并行計算,Hadoop

的Hive匯聚整合各來源的數(shù)據(jù),用于社保明細數(shù)據(jù)的快速查詢,并提供高并發(fā)查詢的信息;利用列

存MPP數(shù)據(jù)庫搭建人社數(shù)據(jù)集市,實現(xiàn)各類數(shù)據(jù)資源的關(guān)聯(lián)計算、分析計算和挖掘計算等應(yīng)用在性

能上的需求,支撐數(shù)據(jù)分析和數(shù)據(jù)服務(wù)。

(3)數(shù)據(jù)服務(wù)層

通過構(gòu)建統(tǒng)一數(shù)據(jù)服務(wù)平臺,對異構(gòu)數(shù)據(jù)存儲、計算能力進行整體封裝,實現(xiàn)數(shù)據(jù)與業(yè)務(wù)的結(jié)合,滿

足數(shù)據(jù)分析、拾掘和專題服務(wù),提升大數(shù)據(jù)價值挖掘能力。

(4)數(shù)據(jù)應(yīng)用層

提供各類服務(wù)接口、公共組件,接入現(xiàn)有ESB總線系統(tǒng)統(tǒng)一調(diào)度管理,與各前端應(yīng)用系統(tǒng)或公共服務(wù)

(網(wǎng)站、移動端)實時對接,為社保業(yè)務(wù)經(jīng)辦部門及服務(wù)對象提供更高層次的定制化服務(wù)。

(5)接入平臺層:

平臺采用雙門戶(PC門戶+移動門戶)設(shè)計,PC門戶主要面向業(yè)務(wù)經(jīng)辦機構(gòu),解決的是業(yè)務(wù)部門的

日常業(yè)務(wù)管理統(tǒng)計分析需求。移動門戶一方面面向社保經(jīng)辦部門和決策部門,解決的是匯總統(tǒng)計和決

策分析的移動端實時查詢需求;另一方面,面向服務(wù)對象,以提供個性化定制服務(wù)。雙門戶均可按需

實現(xiàn)報表的跳轉(zhuǎn)、切片/切塊、鉆取和旋轉(zhuǎn)等功能。

PC端的應(yīng)用從功能上應(yīng)當實現(xiàn)方便、快捷地查看專業(yè)報表及直方圖、餅圖、趨勢圖、點圖、區(qū)域圖

等,配有儀表盤等可隨意組合多種報表和圖在同界面展示,并可在各類圖形界面通過簡單點擊進行各

種維度的變化、數(shù)據(jù)鉆取、切片等。通過開發(fā)接口與其它應(yīng)用系統(tǒng)對接,實現(xiàn)數(shù)據(jù)共享。

移動門戶要實現(xiàn)通過移動應(yīng)用,可以實時、動態(tài)掌握各類統(tǒng)計查詢數(shù)據(jù),支持數(shù)據(jù)的維度變化及向上

向下鉆取。移動應(yīng)用主要提供可視化展現(xiàn)和預警的功能。業(yè)務(wù)現(xiàn)狀需要從多維度(多指標項)評價,

按閾值進行不同類別的警示。

3.1.2設(shè)備部署架構(gòu)

應(yīng)用HL挖掘

服務(wù)器服務(wù)器網(wǎng)務(wù)器應(yīng)用數(shù)據(jù)庫

服務(wù)舞服務(wù)器

人社內(nèi)網(wǎng)環(huán)境人社外網(wǎng)環(huán)境

本次項目建設(shè)應(yīng)當按照用戶方要求搭建XX市人社大數(shù)據(jù)平臺。平臺可采用成熟的產(chǎn)品解決方案,但

應(yīng)根據(jù)用戶實際需求進行本地化改造(所提供的大數(shù)據(jù)管理平臺,應(yīng)提供用戶長期免費使用)o要求

覆蓋XX社保系統(tǒng)各個維度數(shù)據(jù),同時支持未來百億級的數(shù)據(jù)存儲需求。在數(shù)據(jù)的處理能力方面,模

糊數(shù)據(jù)檢索速度做到億級秒回,億級數(shù)據(jù)基于SQL的實時分析,也能在秒級水平返回結(jié)果。平臺在

技術(shù)底層的應(yīng)當具備良好的可擴展性,從而能夠為用戶方其它大數(shù)據(jù)分析項目提供穩(wěn)健扎實的底層支

撐。

數(shù)據(jù)存儲和處理引擎的版本。它包括:HDFS、HBASE、Spark、YARN、MapReduce,Hive等處

理引擎以及本項目所涉及到的工具組件。

以及MPP數(shù)據(jù)庫軟件要求:

序號技術(shù)指標

★Hadoop平臺提供商的數(shù)據(jù)集成工具應(yīng)支持從多種關(guān)系型數(shù)據(jù)庫導人數(shù)

1

據(jù),包括但不限于oracle,SQLserver,mysql等。

Hadoop平臺提供商的數(shù)據(jù)集成工具應(yīng)支持數(shù)據(jù)從HDFS向HBase的相互導

2

人、導出。

Hadoop平臺提供商的數(shù)據(jù)集成工具應(yīng)支持數(shù)據(jù)從HDFS、HBase向多種關(guān)

3

系型數(shù)據(jù)庫導出數(shù)據(jù),包括但不限于oracle,SQLserver,mysql等。

Hadoop平臺提供商的數(shù)據(jù)集成工具應(yīng)史持從關(guān)系型數(shù)據(jù)庫向phoenix表

4

相輔■含、襄出莓色?.n,-JL-A->

Hadoop平臺提2文商的數(shù)據(jù)集成工具,在同一個集群內(nèi),支持從HDFS導數(shù)

5

據(jù)到HBase和Phoenix表,也支持從HBase和phoenix表導數(shù)據(jù)到HDFS。

Hadoop平臺提供商的數(shù)據(jù)集成工具,導入(導出)文件時,支持對文件

6

進行轉(zhuǎn)換編碼格式,同時支持保持原來文件的目錄結(jié)構(gòu)和文件名不變。

Hadoop平臺提供商的數(shù)據(jù)集成工具,導入(導出)文件時,支持對文件

7

進行合并、轉(zhuǎn)換和過濾,過濾規(guī)則同時支持通配符和正則表達式。

8★Hadoop平臺提供商的數(shù)據(jù)集成工具,提供界面管理工具。

大數(shù)據(jù)平臺需支持操作系統(tǒng)軟件包括:SuseLinux11SP1、SuseLinu

9x11SP2、SuseLinux11SP3>RedHat6.4、RedHat6.5、CentOS6.

4、CentOS6.5。

序號技術(shù)指標

★要求產(chǎn)品為關(guān)系型款據(jù)庫,非hadoop架構(gòu),且為成熟的商業(yè)產(chǎn)品,提供

1

集群版本.本項目部署1個節(jié)點.

★要求產(chǎn)品為列存儲MPP架構(gòu),MPP+SharedNothing架構(gòu),所有節(jié)點無共

2字,對等計算能力。完全扁平無Master節(jié)點,不存在單點性能瓶頸和SP0F

單點故障。

★要求產(chǎn)品能夠通過增加服分於節(jié)點對系統(tǒng)的計算和存儲能力進行擴容。

3支持在線擴反,不中斷當前系統(tǒng)的運行,性能線性提升??色E展節(jié)點數(shù)量

達到百個節(jié)點以上現(xiàn)模。

★要求產(chǎn)品支持異構(gòu)數(shù)據(jù)摩間增量數(shù)據(jù)實時同步功葩,末用基于源數(shù)據(jù)庫

4日志的增量獲取方式,增量獲取不依賴源數(shù)據(jù)庫表的時間葭、觸發(fā)器,費

據(jù)同步性能不低于5000條/秒。

要求產(chǎn)的符合SQL92標準,支持CREATE,ALTER,DROP等DDL語法.

5支持SELECT.INSERT.UPDATE、DELETE等DML語法,支持單表,多

表聯(lián)合查詢:

6要求產(chǎn)品符合并支持CAPI、ODBC、JDBC、ADO.NET等國際接口規(guī)范.:

3.1.3應(yīng)用設(shè)計需求

3.1.3.1統(tǒng)計分析系統(tǒng)設(shè)計要求

按照社保業(yè)務(wù)部門要求,利用各類統(tǒng)計分析方法(比較、分組、時間序列、平衡等),對分析對象(人

員、單位、基金等)設(shè)計分析指標(如參保人數(shù)、參保率、繳費率等),按照分析維度(時間、行業(yè)、

單位性質(zhì)、行政區(qū)劃等)從定量與定性兩個角度進行分析。統(tǒng)計分析功能是決策支持系統(tǒng)的最基礎(chǔ)功

能,也是后續(xù)開展關(guān)聯(lián)分析和預測分析的基礎(chǔ)準備工作。

統(tǒng)計分析系統(tǒng)解決基本和復雜的社保數(shù)據(jù)統(tǒng)計,從功能上需滿足以下要求:

(1)可按報表格式設(shè)計報表,包括報表的名稱、(復雜的)表頭、各類指標項、頁眉頁腳等。

(2)報表需按一定的周期(如月、季度、年度)自動生成,用戶無法手動修改數(shù)據(jù)。

(3)用戶可基于生成的報表進行(圖形化)分析,如鉆取、排序、添加額外字段、添加圖表等。

(4)用戶也可以將數(shù)據(jù)導出用于后續(xù)分析。

(5)全市性的數(shù)據(jù)統(tǒng)計分析,在展示上須使用市國土部門提供給用戶方的XX市地理信息數(shù)據(jù)電子

地圖底圖,通過開源工具建立GIS服務(wù),并要求在原有的二維地圖上增加影像地圖圖層,提供影像地

圖服務(wù),具體包括:實現(xiàn)二維及影像地圖基本功能,如地圖的放大、縮小、移動、定位、圖層控制等;

實現(xiàn)二維地圖和影像地圖的快速切換,并同步兩種地圖的數(shù)據(jù),包括統(tǒng)計信息等。

查詢方式主要包含以下兩種:

(1)統(tǒng)計報表查詢

指是按一定周期生成的固定格式報表,一般用作向上級主管部門或本級統(tǒng)計部門提交,報表格式一般

由上級主管部門或統(tǒng)計部門制定。

統(tǒng)計報表應(yīng)覆蓋社保相關(guān)的日常報表及業(yè)務(wù)部門訂制的臨時性報表;按用戶角色控制報表的訪問權(quán)限。

(2)自助式查詢

按人力資源和社會保障業(yè)務(wù)設(shè)計語義層,將數(shù)據(jù)倉庫的數(shù)據(jù)資源按照業(yè)務(wù)部門易于理解掌握的語言和

方式呈現(xiàn)。用戶可以基于語義層通過拖拽的形式自助式查詢數(shù)據(jù)、制作報表,以便進行更深入的分析。

(3)突發(fā)性數(shù)據(jù)統(tǒng)計分析

金保業(yè)務(wù)部門或上級主管部門出于工作、決策需要,常要求在指定時間內(nèi)為其提供偶發(fā)性的統(tǒng)計查詢

或統(tǒng)計分析,這類查詢、分析不同于固定格式報表,使用的頻度不高,一般無需固化。但所提供數(shù)據(jù)

的準確性、及時性要求較高,不得逾期。一般情況下,從接獲需求到提供最終統(tǒng)計分析結(jié)果的時間不

得超過72小時。

3.1.3.2關(guān)聯(lián)分析系統(tǒng)設(shè)計要求

在統(tǒng)計分析基礎(chǔ)上,利用關(guān)聯(lián)分析方法(關(guān)聯(lián)比對、關(guān)聯(lián)挖掘算法等)尋找存在于社保業(yè)務(wù)數(shù)據(jù)之間

或與其他部門數(shù)據(jù)的頻繁模式、關(guān)聯(lián)性、相關(guān)性或因果結(jié)構(gòu),尋找分析對象某些屬性的規(guī)律和模式。

在輔助業(yè)務(wù)部門進行決策判斷時能夠全面考慮、綜合分析,找到當前存在問題的原因,從而更加有針

對性地提出解決問題的辦法。關(guān)聯(lián)分析也包含已知因果關(guān)系的社保業(yè)務(wù)主題分析。

關(guān)聯(lián)分析系統(tǒng)包括社保內(nèi)部指標之間的關(guān)聯(lián)和主題分析,社保和外部數(shù)據(jù)間的關(guān)聯(lián)和主題分析。

要求對大數(shù)據(jù)量的社保數(shù)據(jù)利用關(guān)聯(lián)規(guī)則的挖掘進行探索性的分析,針對業(yè)務(wù)部門關(guān)心的核心數(shù)據(jù)指

標,設(shè)計和實現(xiàn)社保業(yè)務(wù)關(guān)聯(lián)規(guī)則,建立數(shù)據(jù)模型,搭建分析平臺,提供多種成熟的關(guān)聯(lián)分析模型及

算法,并預留模塊化的外部數(shù)據(jù)輸入功能。

平臺要求能夠?qū)崿F(xiàn)業(yè)務(wù)人員依據(jù)實際業(yè)務(wù)、社保數(shù)據(jù)的特點及個人理解,依托平臺自主運用進行研判,

尋找數(shù)據(jù)的頻繁模式、關(guān)聯(lián)性、相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論