大數(shù)據(jù)處理平臺(tái)構(gòu)架設(shè)計(jì)說明書_第1頁(yè)
大數(shù)據(jù)處理平臺(tái)構(gòu)架設(shè)計(jì)說明書_第2頁(yè)
大數(shù)據(jù)處理平臺(tái)構(gòu)架設(shè)計(jì)說明書_第3頁(yè)
大數(shù)據(jù)處理平臺(tái)構(gòu)架設(shè)計(jì)說明書_第4頁(yè)
大數(shù)據(jù)處理平臺(tái)構(gòu)架設(shè)計(jì)說明書_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)辦理平臺(tái)及可視化架構(gòu)設(shè)計(jì)說明書版本:1。0改正記錄序號(hào)版本改正說明更正人/日期審批人/日期11.0創(chuàng)辦李萬(wàn)鴻2015-3—18目錄11.文檔介紹......................................................................................................................................21.1文檔目的......................................................................................................21。2文檔范圍......................................................................................................21.3讀者對(duì)象......................................................................................................21。4參照文件......................................................................................................21。5術(shù)語(yǔ)與縮寫講解...........................................................................................22系統(tǒng)歸納...........................................................................................................................................33設(shè)計(jì)拘束...........................................................................................................................................44設(shè)計(jì)策略...........................................................................................................................................55系統(tǒng)整體結(jié)構(gòu)....................................................................................................................................65。1大數(shù)據(jù)集成解析平臺(tái)系統(tǒng)架構(gòu)設(shè)計(jì)..............................................................65.2可視化平臺(tái)系統(tǒng)架構(gòu)設(shè)計(jì)............................................................................96其余.................................................................................................................................................116。1數(shù)據(jù)庫(kù)設(shè)計(jì).................................................................................................116.2系統(tǒng)管理.....................................................................................................116。3日志管理.....................................................................................................111/1111.文檔介紹1.1文檔目的設(shè)計(jì)大數(shù)據(jù)集成解析平臺(tái),主要功能是多種數(shù)據(jù)庫(kù)及文件數(shù)據(jù);接見;采集;解析,清洗,ETL,同時(shí)能夠編寫模型支持后臺(tái)統(tǒng)計(jì)解析算法。設(shè)計(jì)數(shù)據(jù)可視化平臺(tái),應(yīng)用于大數(shù)據(jù)的可視化和互動(dòng)操作.為此,依照“先進(jìn)合用、牢固可靠"的原則設(shè)計(jì)本大數(shù)據(jù)辦理平臺(tái)及可視化平臺(tái)。1.2文檔范圍大數(shù)據(jù)的辦理,包括ETL、解析、可視化、使用。1.3讀者對(duì)象管理人員、開發(fā)人員1.4參照文件1.5術(shù)語(yǔ)與縮寫講解縮寫、術(shù)語(yǔ)講解BDBigdataSD系統(tǒng)設(shè)計(jì),SystemDesign2/11系統(tǒng)歸納大數(shù)據(jù)集成解析平臺(tái),分為9個(gè)層次,主要功能是對(duì)多種數(shù)據(jù)庫(kù)及網(wǎng)頁(yè)等數(shù)據(jù)進(jìn)行訪采集、解析,沖刷,整合、ETL,同時(shí)編寫模型支持后臺(tái)統(tǒng)計(jì)解析算法,供應(yīng)可信的數(shù)據(jù)。設(shè)計(jì)數(shù)據(jù)可視化平臺(tái),分為3個(gè)層次,在大數(shù)據(jù)集成解析平臺(tái)的基礎(chǔ)上實(shí)現(xiàn)大實(shí)現(xiàn)數(shù)據(jù)的可視化和互動(dòng)操作。3/11設(shè)計(jì)拘束。系統(tǒng)必定依照國(guó)家軟件開發(fā)的標(biāo)準(zhǔn)。2.系統(tǒng)用java開發(fā),采用開源的中間件。3。系統(tǒng)必定牢固可靠,性能高,滿足每天千萬(wàn)次的接見。4。保證數(shù)據(jù)的成功抽取、變換、解析,實(shí)現(xiàn)高可信和高可用.4/11設(shè)計(jì)策略1.系統(tǒng)高可用、高性能、易擴(kuò)展,安全牢固,合用可靠,滿足用戶的需要.系統(tǒng)能夠進(jìn)行擴(kuò)展,增加數(shù)據(jù)的種類和數(shù)量。系統(tǒng)能夠復(fù)用其余軟件和算法。5/11系統(tǒng)整體結(jié)構(gòu)5.1大數(shù)據(jù)集成解析平臺(tái)系統(tǒng)架構(gòu)設(shè)計(jì)1.邏輯架構(gòu)架構(gòu)說明系統(tǒng)分為9個(gè)層次:1)數(shù)據(jù)源:CSMAR數(shù)據(jù)庫(kù)、高頻系列數(shù)據(jù)庫(kù)、量化因子庫(kù)房、風(fēng)險(xiǎn)控制模型數(shù)據(jù)庫(kù)、量化輿情數(shù)據(jù)庫(kù)、互聯(lián)網(wǎng)的網(wǎng)頁(yè)。數(shù)據(jù)獲取層:接收數(shù)據(jù)源的數(shù)據(jù)和抓取網(wǎng)頁(yè),建立知識(shí)圖譜將網(wǎng)頁(yè)數(shù)據(jù)結(jié)構(gòu)化,為人工和機(jī)器決策供應(yīng)依照。3)數(shù)據(jù)導(dǎo)入層:經(jīng)過sqoop把數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入hbase,用flume、kafka把網(wǎng)頁(yè)導(dǎo)入hbase。4)數(shù)據(jù)加工層:對(duì)導(dǎo)入的數(shù)據(jù)進(jìn)行沖刷、抽取、整合,并存入數(shù)據(jù)核心儲(chǔ)藏層。5)數(shù)據(jù)核心儲(chǔ)藏層:采用hbase、關(guān)系數(shù)據(jù)庫(kù)保存加工后的數(shù)據(jù)。6)數(shù)據(jù)解析辦理層:經(jīng)過統(tǒng)計(jì)解析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、風(fēng)控模型等對(duì)大數(shù)據(jù)進(jìn)行解析辦理。7)數(shù)據(jù)服務(wù)儲(chǔ)藏層:儲(chǔ)藏解析結(jié)果,包括Elasticsearch分布式找尋,redis分布式緩存。應(yīng)用層:包括報(bào)表引擎、規(guī)則引擎、風(fēng)控找尋引擎、用戶認(rèn)證系統(tǒng)、統(tǒng)計(jì)解析接口等。9)服務(wù)層:對(duì)內(nèi)的應(yīng)用服務(wù)和對(duì)外的應(yīng)用服務(wù),為用戶供應(yīng)系統(tǒng)功能。系統(tǒng)采用一系列先進(jìn)的開源技術(shù)框架,實(shí)現(xiàn)大數(shù)據(jù)的抽取、ETL變換、沖刷、整合、匯總、統(tǒng)計(jì)解析,得出可信度高的結(jié)果,高速牢固地響應(yīng)用戶的央求,可對(duì)企業(yè)的寬系列產(chǎn)品供應(yīng)高質(zhì)量的支持。還可建立企業(yè)云,把大數(shù)據(jù)平臺(tái)放到云上.系統(tǒng)從CSMAR數(shù)據(jù)庫(kù)、高頻系列數(shù)據(jù)庫(kù)、量化因子庫(kù)房、風(fēng)險(xiǎn)控制模型數(shù)據(jù)庫(kù)、量化輿情數(shù)據(jù)庫(kù)抽取數(shù)據(jù),還用機(jī)器爬蟲從互聯(lián)網(wǎng)上抓取與金融相關(guān)的網(wǎng)頁(yè),對(duì)這些結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行抽取、沖刷、整合、變換,存入hbase數(shù)據(jù)庫(kù).6/11統(tǒng)計(jì)解析程序采用必然的算法和模型經(jīng)過spark、hadoop的yarn、hive、pig等讀取辦理數(shù)據(jù),結(jié)果保存在服務(wù)層數(shù)據(jù)庫(kù),為用戶供應(yīng)可信的數(shù)據(jù),還可經(jīng)過可視化以各種統(tǒng)計(jì)圖展現(xiàn)出來,經(jīng)過pc、手機(jī)能夠看到結(jié)果。系統(tǒng)供應(yīng)可視化的操作界面,用戶可自己定義統(tǒng)計(jì)統(tǒng)計(jì)和參數(shù),系統(tǒng)計(jì)算解析后給出對(duì)應(yīng)的圖表。系統(tǒng)的特點(diǎn)1、高負(fù)載和海量數(shù)據(jù)辦理能力以云儲(chǔ)藏或當(dāng)?shù)貎?chǔ)藏為基石,以云計(jì)算或企業(yè)服務(wù)器為辦理核心,建立了海量的數(shù)據(jù)業(yè)務(wù)支撐的大數(shù)據(jù)平臺(tái)。每天能夠承受千萬(wàn)級(jí)PV的接見壓力,支撐億級(jí)用戶及P級(jí)各種數(shù)據(jù)儲(chǔ)藏如金融數(shù)據(jù)、網(wǎng)頁(yè)、日志文件、圖片、文檔、影音等?;诖舜髷?shù)據(jù)支撐平臺(tái),不但能夠辦理日以繼夜增加的TB級(jí)數(shù)據(jù)增量,更能滿足各種實(shí)時(shí)業(yè)務(wù)需求2、業(yè)界當(dāng)先的實(shí)時(shí)性在實(shí)時(shí)辦理領(lǐng)域?qū)崿F(xiàn)秒級(jí)打破,能夠?qū)Ω黜?xiàng)業(yè)務(wù)數(shù)據(jù)驚醒實(shí)時(shí)查察與統(tǒng)計(jì),方便客戶快速做出決講和即時(shí)響應(yīng),適應(yīng)此刻快節(jié)奏發(fā)展趨勢(shì)。如傳統(tǒng)監(jiān)控對(duì)年、月、周、日的頻次統(tǒng)計(jì),能夠?qū)崿F(xiàn)24小時(shí)內(nèi)的實(shí)時(shí)監(jiān)控,和管理當(dāng)前實(shí)時(shí)變化的統(tǒng)計(jì)儀表盤數(shù)據(jù),更能實(shí)現(xiàn)7*24的用戶實(shí)時(shí)行為監(jiān)測(cè)及秒級(jí)解析。3、全面運(yùn)營(yíng)監(jiān)控指標(biāo)系統(tǒng)不但擁有常有的接入站點(diǎn)的運(yùn)營(yíng)監(jiān)控流量指標(biāo)如UV、PV、IP、新舊訪客數(shù),還建立了行為質(zhì)量指標(biāo)如用戶的央求,統(tǒng)計(jì)解析的正確度,并可在此基礎(chǔ)之上加入客戶行為解析、統(tǒng)計(jì)模型調(diào)優(yōu)、算法調(diào)優(yōu)、網(wǎng)站訪客背景解析、鼠標(biāo)點(diǎn)擊行為等高智能的解析功能,進(jìn)而為業(yè)務(wù)發(fā)展及運(yùn)營(yíng)策略供應(yīng)了有力的數(shù)據(jù)支撐。4、對(duì)用戶本源和數(shù)據(jù)的深入挖掘與解析經(jīng)過該平臺(tái)不但能夠看到接入網(wǎng)站用戶的基本信息(跳出率、回訪次數(shù)、回訪頻次、國(guó)家解析、省份解析、城市解析、網(wǎng)絡(luò)地址、閱讀器、移動(dòng)終端等),還能夠夠認(rèn)識(shí)到客戶本源(如本源頁(yè)面、網(wǎng)站、找尋引擎、要點(diǎn)字等)。并且在此基礎(chǔ)上能夠認(rèn)識(shí)到客戶接見路徑,對(duì)數(shù)據(jù)進(jìn)行多維鉆取,進(jìn)而對(duì)網(wǎng)站客戶數(shù)據(jù)信息的采集、挖掘更加深入.對(duì)大數(shù)據(jù)進(jìn)行深入的解析,為提升網(wǎng)站流量、供應(yīng)科學(xué)的介紹依照、實(shí)現(xiàn)高質(zhì)量的客戶差異化服務(wù)給出有力的數(shù)據(jù)支撐。7/115、對(duì)用戶行為進(jìn)行實(shí)時(shí)追蹤、立體解析及即時(shí)溝通和個(gè)性介紹服務(wù)能夠針對(duì)實(shí)時(shí)在線的個(gè)體用戶進(jìn)行WEBIM即時(shí)溝通,供應(yīng)即時(shí)的一對(duì)一服務(wù)。并能夠結(jié)合業(yè)務(wù)需求,在實(shí)現(xiàn)客服人員與用戶一對(duì)一的同時(shí),展現(xiàn)該用戶的歷史業(yè)務(wù)操作行為及個(gè)性化信息,如用戶花銷歷史記錄統(tǒng)計(jì)、行為習(xí)慣及喜好等。6、一致數(shù)據(jù)接入平臺(tái)數(shù)據(jù)接入層采用sqoop、flume、分布式日志系統(tǒng),實(shí)現(xiàn)推拉模式的各種主流方式,并可按需升級(jí)為一致數(shù)據(jù)接入平臺(tái),不但支持日志及頁(yè)面源碼數(shù)據(jù),還能夠夠?qū)崿F(xiàn)各種接口數(shù)據(jù)的無(wú)縫可視化接入,如關(guān)系型和非關(guān)系型數(shù)據(jù)、各種主流非結(jié)構(gòu)化數(shù)據(jù)等。7、立體介紹及算法可代替平臺(tái)能夠?qū)?shù)據(jù)進(jìn)行多種解析算法和模型的辦理,采用mahout、mlib的二元分類、線性回歸、聚類、共同過濾、卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行機(jī)器學(xué)習(xí),采用RF(隨機(jī)森林)、SVM(支持向量機(jī))、半督查學(xué)習(xí),經(jīng)過訓(xùn)練達(dá)到權(quán)重等參數(shù)的最正確化,優(yōu)化樣本空間,并實(shí)現(xiàn)完好自動(dòng)化調(diào)參和學(xué)習(xí)。還可結(jié)合用戶集體特點(diǎn)、個(gè)性行為歷史及各種顯式、隱式反響進(jìn)行人腦解析,實(shí)現(xiàn)個(gè)體用戶和集體用戶的立體化介紹和全過程的人工干預(yù)。以算法平臺(tái)為支撐,建立了可視化的算法訓(xùn)練和介紹結(jié)構(gòu)的過濾植入,以增強(qiáng)客戶個(gè)性化服務(wù)配置。實(shí)現(xiàn)了各種算法的代替、組合和深度學(xué)習(xí),如傳統(tǒng)的UCF、ICF及業(yè)務(wù)創(chuàng)新的二度人脈剪枝算法等,以盡吻合人腦思想習(xí)慣。8、多種風(fēng)格統(tǒng)計(jì)解析數(shù)據(jù)展現(xiàn)方式對(duì)數(shù)據(jù)統(tǒng)計(jì)解析實(shí)現(xiàn)人性化的各種閱讀器體驗(yàn),傳統(tǒng)風(fēng)格如線性、柱形、餅狀解析圖為企業(yè)對(duì)不同樣時(shí)段網(wǎng)站接見量、網(wǎng)站不同樣模塊的接見量、針對(duì)訪客的不同樣分類進(jìn)行更加直觀的解析。創(chuàng)新風(fēng)格如熱力求,更形象、視覺化的表現(xiàn)網(wǎng)站頁(yè)面不同樣地址客戶點(diǎn)擊密度,實(shí)時(shí)反響出集體用戶的興趣特點(diǎn),增強(qiáng)運(yùn)營(yíng).用戶能夠自定義條件,獲取可視化結(jié)果.9、主流客戶端的全端統(tǒng)計(jì)該方案不但能夠統(tǒng)計(jì)WINDOWS/MAC/LINUX各種PC用戶的主流閱讀器客戶端(如IE、360、Chrome、Firefox等)的數(shù)據(jù),還能夠針對(duì)搬動(dòng)互聯(lián)網(wǎng)用戶統(tǒng)計(jì)主流搬動(dòng)客戶端(如iphone,ipad,Android手機(jī)等)的各8/11類數(shù)據(jù),并能依照RESTful接口開發(fā)各種所需的各端統(tǒng)計(jì),如WAP手機(jī)端,嵌入設(shè)備端等。10、操作體驗(yàn)簡(jiǎn)潔方便該方案秉承了人性化的設(shè)計(jì)理念.在保證精準(zhǔn)、高效的基礎(chǔ)上簡(jiǎn)化了操作過程,數(shù)據(jù)檢索解析一鍵解決,極大的方便了客戶使用。各種所需統(tǒng)計(jì)數(shù)據(jù)如數(shù)家珍,并能針對(duì)主要數(shù)據(jù)如用戶信息、用戶行為等進(jìn)行一鍵化深度解析或即時(shí)服務(wù)操作。11、可靠性強(qiáng)以云平臺(tái)作為支撐。該平臺(tái)有極強(qiáng)的可靠性,能夠保證該軟件更牢固、有效、安全的運(yùn)行。12、可擴(kuò)展性強(qiáng)以云平臺(tái)作為支撐,能夠?qū)崿F(xiàn)各種平臺(tái)組件按需橫向擴(kuò)展,如儲(chǔ)藏?cái)U(kuò)容、計(jì)算增強(qiáng)等。13、集成性強(qiáng)豐富的接口擁有極強(qiáng)的集成性。能夠?qū)崿F(xiàn)與企業(yè)內(nèi)部業(yè)務(wù)系統(tǒng)的高密度集成,依照不同樣業(yè)務(wù)部門需求調(diào)取數(shù)據(jù)和數(shù)據(jù)解析結(jié)果.14、可視化強(qiáng)統(tǒng)計(jì)解析數(shù)據(jù)以圖表,熱圖等方式表現(xiàn),方便客戶比較判斷,在使用時(shí)更酣暢、方便,供應(yīng)客戶體驗(yàn)度。各種操作過程如算法訓(xùn)練、人工干預(yù)、數(shù)據(jù)ETL等均實(shí)現(xiàn)可視化,根本性解決了手工代碼操作的問題。15、供應(yīng)定制服務(wù)能夠依照客戶的特定需求進(jìn)行更豐富的功能擴(kuò)展,量身打造合適的實(shí)時(shí)運(yùn)營(yíng)解析及服務(wù)平臺(tái)。5.2可視化平臺(tái)系統(tǒng)架構(gòu)設(shè)計(jì)數(shù)據(jù)可

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論