![Apusic大數(shù)據(jù)平臺白皮書_第1頁](http://file4.renrendoc.com/view/b3837c752931ae936f456432a4821e39/b3837c752931ae936f456432a4821e391.gif)
![Apusic大數(shù)據(jù)平臺白皮書_第2頁](http://file4.renrendoc.com/view/b3837c752931ae936f456432a4821e39/b3837c752931ae936f456432a4821e392.gif)
![Apusic大數(shù)據(jù)平臺白皮書_第3頁](http://file4.renrendoc.com/view/b3837c752931ae936f456432a4821e39/b3837c752931ae936f456432a4821e393.gif)
![Apusic大數(shù)據(jù)平臺白皮書_第4頁](http://file4.renrendoc.com/view/b3837c752931ae936f456432a4821e39/b3837c752931ae936f456432a4821e394.gif)
![Apusic大數(shù)據(jù)平臺白皮書_第5頁](http://file4.renrendoc.com/view/b3837c752931ae936f456432a4821e39/b3837c752931ae936f456432a4821e395.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Apusic大數(shù)據(jù)平臺白皮書Apusic大數(shù)據(jù)平臺白皮書Apusic大數(shù)據(jù)平臺介紹Apusic大數(shù)據(jù)平臺通過提供從數(shù)據(jù)存儲、資源管理、分布式計(jì)算、數(shù)據(jù)分析挖掘以及數(shù)據(jù)可視化的整套支持,幫助企業(yè)建立一個(gè)統(tǒng)一的數(shù)據(jù)存儲和計(jì)算平臺。企業(yè)用戶可以在Apusic大數(shù)據(jù)平臺上進(jìn)行一站式的數(shù)據(jù)采集、存儲、分析、搜索和挖掘,獲取海量數(shù)據(jù)及其內(nèi)在價(jià)值。Apusic大數(shù)據(jù)平臺通過內(nèi)存計(jì)算技術(shù)、高效索引、執(zhí)行計(jì)劃優(yōu)化和高度容錯(cuò)的技術(shù),使得一個(gè)平臺能夠處理從GB到PB的數(shù)據(jù);在統(tǒng)一存儲上建立資源管理層,提供企業(yè)用戶統(tǒng)一的計(jì)算資源管理、動態(tài)資源分配、多部門之間的資源配置和動態(tài)共享等功能,使多部門多應(yīng)用可以靈活地在統(tǒng)一平臺上平滑運(yùn)行;支持批處理統(tǒng)計(jì)分析、交互式SQL分析、在線數(shù)據(jù)檢索、R語言數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、實(shí)時(shí)流處理、全文搜索和圖計(jì)算,無需切換平臺或架構(gòu)即可完成復(fù)雜的任務(wù);用戶友好的管理界面、提供了系統(tǒng)安裝、集群配置、安全訪問控制、監(jiān)控及預(yù)警等多方面支持,在可管理性方面優(yōu)勢顯著。項(xiàng)目背景今天的政府和企業(yè)正在需要能夠處理“大數(shù)據(jù)”,即數(shù)據(jù)量巨大,從TB級別躍升到PB級別;數(shù)據(jù)種類繁多,包括網(wǎng)絡(luò)日志、傳感器數(shù)據(jù)、視頻圖片、地理位置信息等;處理速度快,遵循1秒定律,可以從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息;只要合理利用數(shù)據(jù)并對其進(jìn)行正確的分析,將會帶來很高的回報(bào)。業(yè)界將其歸納為4V,volume(數(shù)據(jù)體量大)、variety(數(shù)據(jù)類型繁多)、velocity(處理速度快)和value(高價(jià)值)。面對大量數(shù)據(jù)集中處理的需求,過去一般會采用數(shù)據(jù)倉庫技術(shù)(DataWarehouse)。數(shù)據(jù)倉庫是一個(gè)面向主題、集成的、相對穩(wěn)定的、反應(yīng)歷史變化的數(shù)據(jù)集合,用戶支持管理決策。在今天需要處理大數(shù)據(jù)時(shí),數(shù)據(jù)倉庫就面臨了很多局限性。首先數(shù)據(jù)規(guī)模急劇增長,傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)會遇到可擴(kuò)展性問題,而且整體成本高昂;數(shù)據(jù)內(nèi)容每18個(gè)月會翻倍。(Source:GartnerGroup,Pattern-BasedStrategy:GettingValuefromBigData)大數(shù)據(jù)的數(shù)據(jù)類型繁多,除了結(jié)構(gòu)化數(shù)據(jù),還有大量的半結(jié)構(gòu)(semi-structured)/無結(jié)構(gòu)數(shù)據(jù)(unstructured),傳統(tǒng)數(shù)據(jù)倉庫只適合處理結(jié)構(gòu)化數(shù)據(jù),對于半結(jié)構(gòu)/無結(jié)構(gòu)數(shù)據(jù),需要經(jīng)過比較耗時(shí)的ETL(extract-transform-load)過程進(jìn)行轉(zhuǎn)換處理。大于80%的增長數(shù)據(jù)來自于無結(jié)構(gòu)數(shù)據(jù)(Source:GartnerGroup,Pattern-BasedStrategy:GettingValuefromBigData)最后,傳統(tǒng)數(shù)據(jù)倉庫滿足不了實(shí)時(shí)性的要求。隨著現(xiàn)在傳感器網(wǎng)絡(luò)、物聯(lián)網(wǎng)(IoT)的發(fā)展,數(shù)據(jù)產(chǎn)生的速度越來越快,同時(shí)越及時(shí)處理數(shù)據(jù),越能產(chǎn)生更大的價(jià)值,凸顯了實(shí)時(shí)大數(shù)據(jù)技術(shù)的重要性。近年來ApacheHadoop逐漸成為大數(shù)據(jù)處理的主要平臺。Hadoop生態(tài)系統(tǒng)是一系列開源項(xiàng)目的集合,它使構(gòu)建大規(guī)模分布式數(shù)據(jù)處理系統(tǒng)更加容易。Hadoop的核心由分布式文件系統(tǒng)、資源調(diào)度框架和MapReduce分布式處理框架構(gòu)成,基于Hadoop核心的多個(gè)開源項(xiàng)目滿足不同的數(shù)據(jù)處理需求,主要包括Hive數(shù)據(jù)倉庫,Mahout數(shù)據(jù)挖掘算法庫,Storm流處理引擎,HBase列族型NoSQL數(shù)據(jù)庫,Sqoop數(shù)據(jù)ETL工具等。Hadoop可以作為大數(shù)據(jù)平臺的基礎(chǔ),但由于它包含的開源項(xiàng)目眾多,各項(xiàng)目之間的兼容性可能存在問題,使系統(tǒng)部署維護(hù)困難,管理使用成本高,需要大量的后續(xù)開發(fā)維護(hù)工作,不利于產(chǎn)品的普及推廣使用。ADP基于Hadoop生態(tài)系統(tǒng),針對性地對ApacheHadoop進(jìn)行了系列技術(shù)開發(fā),成為滿足新一代數(shù)據(jù)管理需求的一站式大數(shù)據(jù)綜合平臺。Apusic大數(shù)據(jù)平臺體系架構(gòu)數(shù)據(jù)存儲平臺ADP提供了分布式文件系統(tǒng)作為存儲引擎,具有高容錯(cuò)的特點(diǎn),可以部署在通用的PC服務(wù)器上,提供高吞吐率的數(shù)據(jù)訪問服務(wù)。支持TB級的超大文件,提供流式數(shù)據(jù)訪問接口。具有故障檢測和自動恢復(fù)功能,應(yīng)對機(jī)器的硬件故障??梢噪S著數(shù)據(jù)的增長,動態(tài)不停機(jī)擴(kuò)容,避免傳統(tǒng)架構(gòu)數(shù)據(jù)遷移的棘手問題。同時(shí)ADP還支持多種數(shù)據(jù)模型接入,集成主流存儲系統(tǒng),如關(guān)系數(shù)據(jù)庫MySQL,列族數(shù)據(jù)庫HBase,文檔數(shù)據(jù)庫MongoDB,K/V存儲Redis等,可以先導(dǎo)入分布式文件系統(tǒng),也可以直接接入數(shù)據(jù)計(jì)算平臺。數(shù)據(jù)計(jì)算平臺ADP支持批處理統(tǒng)計(jì)分析、交互式SQL分析,實(shí)時(shí)流處理(Streaming),機(jī)器學(xué)習(xí)和圖計(jì)算,這些不同類型的處理都可以在一個(gè)應(yīng)用中無縫使用,客戶無需切換平臺或架構(gòu)即可完成復(fù)雜的任務(wù)。減少了開發(fā)和維護(hù)成本,同時(shí)作為一個(gè)統(tǒng)一的計(jì)算平臺,ADP在性能方面也具有很大的優(yōu)勢。分布式計(jì)算引擎是計(jì)算平臺的核心,包含任務(wù)調(diào)度、內(nèi)存管理、錯(cuò)誤恢復(fù)、于存儲系統(tǒng)交換等模塊。SQL引擎使開發(fā)者可以在一個(gè)應(yīng)用中同時(shí)使用SQL和復(fù)雜的數(shù)據(jù)分析,通過與ADP提供的豐富的計(jì)算環(huán)境進(jìn)行緊密結(jié)合,幫助企業(yè)建立實(shí)時(shí)數(shù)據(jù)倉庫。Streaming流計(jì)算引擎提供了對實(shí)時(shí)數(shù)據(jù)進(jìn)行流式計(jì)算的能力,越來越多的應(yīng)用需要即時(shí)處理收到的數(shù)據(jù),例如實(shí)時(shí)追蹤頁面的訪問統(tǒng)計(jì),訓(xùn)練機(jī)器學(xué)習(xí)模型,自動化異常檢測。Streaming引擎就是為這類應(yīng)用而設(shè)計(jì)的模型。GraphX是用來操作圖(比如社交網(wǎng)絡(luò)的朋友關(guān)系圖)的程序模塊,可以進(jìn)行并行圖計(jì)算,支持針對圖的各種操作以及一些常用圖算法。MLlib提供了多種機(jī)器學(xué)習(xí)算法,包括分類、回歸、聚類、協(xié)同過濾等,還提供了評估模型、數(shù)據(jù)導(dǎo)入等支持功能,所有這些方法都可以在集群上可伸縮部署。數(shù)據(jù)服務(wù)平臺對外提供統(tǒng)一的數(shù)據(jù)訪問服務(wù),支持在線高并發(fā)訪問。ADP同時(shí)提供可視化組件,提供直觀,生動,可交互,可高度個(gè)性化定制的數(shù)據(jù)可視化圖表。ADP支持多種索引技術(shù),包括Hash索引、B+tress、LSM-tree和倒排索引,滿足各種訪問場景的需求。產(chǎn)品價(jià)值A(chǔ)DP解決了傳統(tǒng)數(shù)據(jù)倉庫技術(shù)和Hadoop所面臨的問題,讓企業(yè)在面對大數(shù)據(jù)時(shí)從容不迫。資源彈性擴(kuò)展,解決數(shù)據(jù)規(guī)模急劇增長的問題。ADP分離了持久存儲和計(jì)算集群,可以提供根據(jù)計(jì)算需求彈性伸縮使用資源的能力,滿足了數(shù)據(jù)規(guī)模急劇增長時(shí),按需擴(kuò)展資源。統(tǒng)一的數(shù)據(jù)源接入,解決了數(shù)據(jù)類型繁多的問題。ADP除了能夠處理結(jié)構(gòu)化數(shù)據(jù),還支持半結(jié)構(gòu)(semi-structured)/無結(jié)構(gòu)數(shù)據(jù)(unstructured)類型的處理。ADP支持多種數(shù)據(jù)模型接入,集成了主流存儲系統(tǒng),如關(guān)系數(shù)據(jù)庫MySQL,列族數(shù)據(jù)庫HBase,文檔數(shù)據(jù)庫MongoDB,K/V存儲Redis等,可以先導(dǎo)入分布式文件系統(tǒng),也可以直接接入數(shù)據(jù)計(jì)算平臺。實(shí)時(shí)數(shù)據(jù)處理。ADP提供了一套可擴(kuò)展、高吞吐量、低延遲和可容錯(cuò)的實(shí)時(shí)大數(shù)據(jù)流處理框架,可應(yīng)用于實(shí)時(shí)追蹤統(tǒng)計(jì),實(shí)時(shí)訓(xùn)練機(jī)器學(xué)習(xí)模型,自動化異常檢測、風(fēng)險(xiǎn)控制等業(yè)務(wù)場景。統(tǒng)一的計(jì)算平臺。ADP支持批處理統(tǒng)計(jì)分析、交互式SQL分析,實(shí)時(shí)流處理(Streaming),機(jī)器學(xué)習(xí)和圖計(jì)算,使用同一個(gè)框架解決不同類型的問題,讓用戶聚焦在從數(shù)據(jù)中發(fā)掘價(jià)值,而不是為每個(gè)用例學(xué)習(xí)和維護(hù)不同的工具,用戶無需切換平臺或架構(gòu)即可完成復(fù)雜的任務(wù),減少了開發(fā)和維護(hù)成本。(Source:GartnerGroup,Pattern-BasedStrategy:GettingValuefromBigData)關(guān)于我們金蝶天燕中間件股份有限公司(簡稱“金蝶天燕”)始創(chuàng)于2000年,是中國領(lǐng)先的軟件基礎(chǔ)設(shè)施提供商。金蝶天燕堅(jiān)持以推動中國基礎(chǔ)軟件產(chǎn)業(yè)的創(chuàng)新與發(fā)展為己任,已累計(jì)為10,000多家黨政、企業(yè)和行業(yè)客戶,以及1,000多家合作伙伴提供了專業(yè)的中間件、云計(jì)算及大數(shù)據(jù)解決方案,是中國軟件基礎(chǔ)設(shè)施首選品牌、中國云計(jì)算領(lǐng)軍企業(yè)、國家規(guī)劃布局內(nèi)重點(diǎn)軟件企業(yè)。2014年聯(lián)合金蝶集團(tuán)、太極股份、京東、華為、阿里、360等18家國內(nèi)IT龍頭廠商,發(fā)起成立“信息安全品牌聯(lián)盟”。金蝶天燕作為中國領(lǐng)先的軟件基礎(chǔ)設(shè)施提供商,致力于踐行國家信息
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025成都建筑施工合同
- 2025年人員借調(diào)合同(2篇)
- 2025年廣告代言合同范本文
- 2025年社保醫(yī)療保險(xiǎn)合同
- 2025桑拿聯(lián)營合同
- 2025住房出租合同
- 2025年物業(yè)樓宇空調(diào)系統(tǒng)維護(hù)合同
- 2025醫(yī)療轉(zhuǎn)讓合同
- 2025年二合一防雷器租賃合同范文(2篇)
- 2025正規(guī)保證借款合同樣式
- 2025年初級社會工作者綜合能力全國考試題庫(含答案)
- 兩淮礦區(qū)地面定向多分支水平井鉆進(jìn)作業(yè)技術(shù)規(guī)程
- vc約起來史上最全180個(gè)知名投資人聯(lián)系方式
- 中國酒文化英文介紹
- 社會穩(wěn)定風(fēng)險(xiǎn)評估報(bào)告風(fēng)險(xiǎn)評估參考
- GB/T 14343-2008化學(xué)纖維長絲線密度試驗(yàn)方法
- 制冷操作證培訓(xùn)教材-制冷與空調(diào)設(shè)備運(yùn)行操作作業(yè)培課件
- 市級臨床重點(diǎn)專科申報(bào)書
- 中交與機(jī)械竣工區(qū)別
- 《醫(yī)院重點(diǎn)專科建設(shè)專項(xiàng)資金管理辦法》
- 第三章:王實(shí)甫與《西廂記》PPT課件(完整版)
評論
0/150
提交評論