方案架構(gòu)與案例研討_第1頁(yè)
方案架構(gòu)與案例研討_第2頁(yè)
方案架構(gòu)與案例研討_第3頁(yè)
方案架構(gòu)與案例研討_第4頁(yè)
方案架構(gòu)與案例研討_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

方案架構(gòu)與案例研討精誠(chéng)集團(tuán)提供BigData解決方案的獨(dú)立品牌在臺(tái)北與北京設(shè)有研發(fā)與專業(yè)服務(wù)團(tuán)隊(duì)我們關(guān)注的不只是技術(shù),更在意挖掘BigData對(duì)企業(yè)的商業(yè)價(jià)值透過軟硬件一體的整合,大幅「簡(jiǎn)化」與「優(yōu)化」企業(yè)處理BigData的種種問題意圖與關(guān)聯(lián)充滿的BigData世界Etu

幫您具體整合來呈現(xiàn)大數(shù)據(jù)(BigData)時(shí)代來臨StructuredDatabaseSpreadsheetFileinrecordformatSemi-structuredXMLDocsLogsClick-streamEquipment/Device,RFIDtagUnstructuredWebPagesE-mailMultimediaInstantMessagesDocumentsBigDataPeopleDevicesSensors移動(dòng)互聯(lián)網(wǎng)Mobile

Internet物聯(lián)網(wǎng)InternetofThings4新量級(jí)、新處理模式、新企業(yè)智能BigData

要解決的問題

Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)巨大的數(shù)據(jù)價(jià)值6SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog什么是半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)BigData帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式不同的數(shù)據(jù)管理策略超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量不同“看”數(shù)據(jù)的方式8可視:結(jié)構(gòu)化資料15%未視:半/非結(jié)構(gòu)化數(shù)據(jù)85%DB/DW主管們看的戰(zhàn)情數(shù)位儀表板,其實(shí)是殘缺的…10萬

GB10萬TB需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式9數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)計(jì)算更快

存儲(chǔ)更省85%半/非結(jié)構(gòu)化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile

不同的數(shù)據(jù)管理策略當(dāng)我們想要擴(kuò)充時(shí),才發(fā)覺:架構(gòu)只能scale-up,

scale-out不易處理時(shí)間過長(zhǎng),

time-to-value受限成本過高,

cost-efficiency受限15%結(jié)構(gòu)化的DB/DW遺憾殘缺每天幾百GB、幾TB的資料,且持續(xù)成長(zhǎng)中儲(chǔ)存Storing

在收數(shù)據(jù)的同時(shí)做必要的前置處理(pre-processing),并區(qū)分?jǐn)?shù)據(jù)處理的優(yōu)先等級(jí)(prioritizing)計(jì)算Processing如何有效的避免因硬件毀壞所導(dǎo)致的資料損毀管理Managing如何從中挖掘出所關(guān)注事件的pattern或behavior分析Analyzing超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量11大數(shù)據(jù)的儲(chǔ)存與處理/運(yùn)算大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計(jì)算框架分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)什么是大數(shù)據(jù)處理(BigDataProcessing)WordcountHarryPorter

(哈利波特)432,442LordVoldemort

(佛地魔)134,209Dumbledore

(鄧不利多)72,982SeverusSnape

(石內(nèi)圤)28,252……...……………../category.screen?category_id=PLANTS&JSESSIONID=S1FF9ADFF2http:///gp/product/B005OCFGTO/ref=s9_simh_gw_p14_d0_g74_i5?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=1YN4ES7ZEV17ZRKA858X&pf_rd_t=101&pf_rd_p=4631&pf_rd_i=507846http://.tw/exep/prod/china/chinafile.php?item=CN10816425http://.tw/exep/prod/china/chinafile.php?item=CN10759096http:///feds-issue-warning-unconven-sperm-donor-140811851.htmlLogfile:1.5TB/dayHitcount812,490,299232,934,490198,283,00257,922,190……………...…………HitCountWordCount什么是大數(shù)據(jù)處理(BigDataProcessing)/category.screen?category_id=PLANTS&JSESSIONID=S1FF9ADFF2http:///gp/product/B005OCFGTO/ref=s9_simh_gw_p14_d0_g74_i5?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=1YN4ES7ZEV17ZRKA858X&pf_rd_t=101&pf_rd_p=4631&pf_rd_i=507846http://.tw/exep/prod/china/chinafile.php?item=CN10816425http://.tw/exep/prod/china/chinafile.php?item=CN10759096http:///feds-issue-warning-unconven-sperm-donor-140811851.htmlhttp:///flower_store/cart.do?action=purchase&itemId=EST-13&JSESSIONID=SD7SL1FF9ADFFhttp:///a/20111221/000094.htmhttp://24.tw/?m=index&f=view&p=24hour&s=nlife.tw/?mod=store&func=style_show&SR_NO=DEAO45/category.screen/flower_store/.tw/exep/a/20111221.tw/exep24.tw/?m/feds.tw/?mod/gp…………0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-IPActionTimeServerURL###……….………..……………….……..…….……….………..……………….……..…….3rdpartypre-definedReportingFilterStringTruncationLogfile:1.5TB/day什么是大數(shù)據(jù)處理(BigDataProcessing)RDR_SEND_TIMERDR_TAGSUBSCRIBER_IDPACKAGE_IDSERVICE_IDPROTOCOL_IDSKIPPED_SESSIONSSERVER_IPSERVER_PORTACCESS_STRINGINFO_STRINGCLIENT_IPCLIENT_PORTINITIATING_SIDEREPORT_TIMEMILLISEC_DURATIONPROTOCOL_SIGNATURZONE_IDFLAVOR_IDStartdateStarttimeSessiontypeSourceIPSourcePortNATIPNATPortDestIPDestPortProtocalOutputIDStarttimeEndtimeSourceIPSourcePortDestIPDestPortProtocalUpstreamDownstreamURLJoin1.1TBper-day600GBper-day什么是大數(shù)據(jù)處理(BigDataProcessing)SequenceDe-Normalize0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-ABCDXYZOPQADACXEventSequenceDiagramRDBdataEvent范例被瀏覽的網(wǎng)頁(yè)每筆網(wǎng)絡(luò)交易所經(jīng)歷的每個(gè)程序或系統(tǒng)…….BigFlatFileforfulltextsearch什么是大數(shù)據(jù)處理(BigDataProcessing)SignatureMetaDataMetaDataTagValueTagValueAppAppAppAppMediaExtractionFileTransformation什么是大數(shù)據(jù)處理(BigDataProcessing)StringConvertCountFilterStringTruncateSortIndexingJoinSequenceExtractAggregateSocialMediaMachine&SensorDataMediaWebClickstreamMobileAppsCallLogSplunkBI/ReportingCustomizedSolutionsDatabase/DataWarehouseEtu知意圖的大數(shù)據(jù)解決方案大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計(jì)算框架分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)大數(shù)據(jù)處理的平臺(tái)解決方案企業(yè)的資料云

硬件與軟件一體

/儲(chǔ)存與運(yùn)算合一BigData運(yùn)算與儲(chǔ)存,單一架構(gòu)解決EtuAppliance20傳統(tǒng)并行計(jì)算架構(gòu)并行計(jì)算

+

分布式存儲(chǔ)運(yùn)算儲(chǔ)存?zhèn)鹘y(tǒng)儲(chǔ)存架構(gòu)計(jì)算與存儲(chǔ)一體,計(jì)算向數(shù)據(jù)靠攏,高效專用存儲(chǔ)模式為程序員屏蔽通性、并發(fā)、同步與一致性等問題任務(wù)之間無依賴(share-nothing),具有高系統(tǒng)延展性(scale-out)Hadoop

的特性Hadoop

不只是

HadoopHIVEBigDataApplicationsPig!ZooKeeperSQLRAW關(guān)系數(shù)據(jù)庫(kù)

vs

Hadoop關(guān)系數(shù)據(jù)庫(kù)Hadoop資料量GB->TBTB->PB存取方式交互式與批次批次數(shù)據(jù)更新多次讀寫一次寫,多次讀數(shù)據(jù)結(jié)構(gòu)固定schema無

schema資料一致性高(ACID)低擴(kuò)充性非線性線性連結(jié)關(guān)系數(shù)據(jù)庫(kù)與

Hadoop匯入與導(dǎo)出數(shù)據(jù)Sqoop查詢與整合HiveJDBCDriver(Java)HiveODBCDriver(C++)HiveAdd-inforExcel(byMicrosoft)Thrift(C/C++,Python,Perl,PHP)23Hive簡(jiǎn)介由Facebook開發(fā)架構(gòu)于

Hadoop

之上,設(shè)計(jì)用來管理結(jié)構(gòu)化數(shù)據(jù)的中間件以

MapReduce

為執(zhí)行環(huán)境數(shù)據(jù)儲(chǔ)存于HDFS上Metadata儲(chǔ)存于RDMBS中Hive的設(shè)計(jì)原則采用類SQL語法擴(kuò)充性

–Types,Functions,Formats,Scripts性能與平水?dāng)U展能力兼具Hive–SQLlikeHadoopDatabaseDriver(compiler,optimizer,executor)metastoreDataNodeDataNodeDataNodeDataNodeHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/RJobSqoop–SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMapTasksSqoop

支援的RDMBSOracleNetezzaTeradataSQLServerMicrosoftPDWMySqlPostgreSQL傳統(tǒng)的數(shù)據(jù)處理流程營(yíng)運(yùn)信息新用戶新訂單新產(chǎn)品數(shù)據(jù)倉(cāng)庫(kù)用戶瀏覽日志大部份刪除ETL部份資料探索式的數(shù)據(jù)處理流程新用戶新訂單新產(chǎn)品廣告效益分析

?促銷活動(dòng)分析

?電子報(bào)效益分析

?用戶瀏覽日志營(yíng)運(yùn)信息數(shù)據(jù)倉(cāng)庫(kù)2930StrictlyNDA-MicrosoftConfidentialDataWarehouseSensorsDevicesWebLogCrawlersERPCRMLOBAPPsConnectors非結(jié)構(gòu)化數(shù)據(jù)源SSRSSSASBIPlatformFamiliarEndUserToolsPowerViewExcelwithPowerPivotEmbeddedBIPredictiveAnalytics結(jié)構(gòu)化數(shù)據(jù)源Hadoop企業(yè)的

Hadoop

應(yīng)用策略30應(yīng)用一:參照RDBMS中的數(shù)據(jù)表

RDBMSCustomersWebLogsProductsHDFS應(yīng)用二:脫機(jī)數(shù)據(jù)分析RDBMSCustomersProductsHDFSSalesHistoryRDBMSHDFSSales2008Sales2009Sales2010Sales2008ODBC/JDBC應(yīng)用三:

歷史數(shù)據(jù)與在線數(shù)據(jù)交互運(yùn)用應(yīng)用四:

利用

Hadoop

進(jìn)行數(shù)據(jù)匯總

RDBMSWebLogsHDFSWebLog

Summary應(yīng)用五:利用ODBC連結(jié)

Excel&HiveExcelHiveAdd-in在線資料

:MSSQLServer歷史資料

:Hive其他應(yīng)用-Etu

Recommender

建構(gòu)在Etu

Appliance上的精準(zhǔn)推薦系統(tǒng)EtuRecommenderRecommendationEngine商品/內(nèi)容關(guān)聯(lián)性分析客戶行為相似性分析客戶海量量瀏覽數(shù)據(jù)客戶交易數(shù)據(jù)其他或第三方資料推薦清單其他應(yīng)用-EtuRecommender

建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)WebServerUserDBProductDBEtuRecommender商品瀏覽日志用戶數(shù)據(jù)產(chǎn)品目錄推薦結(jié)果API其他應(yīng)用-EtuRecommender

建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)EtuRecommender精準(zhǔn)推薦應(yīng)用系統(tǒng)個(gè)人化推薦清單個(gè)人化EDM個(gè)人化賬單百貨零售流通銀行連鎖媒體虛擬通路(在線)實(shí)體通路(線下)結(jié)賬點(diǎn)擊瀏覽搜尋交易購(gòu)物車推薦清單的運(yùn)用不光只是在線服務(wù)客戶應(yīng)用案例需求上億個(gè)影像圖文件每個(gè)影像圖文件大小約10~20K須集中管理需滿足圖檔的實(shí)時(shí)調(diào)閱與查詢現(xiàn)狀以SANStorage來儲(chǔ)存與管理所有的影像圖文件每個(gè)影像文件以檔案目錄方式來管理以數(shù)據(jù)庫(kù)來存放每個(gè)圖像圖文件之特征值(meta-data)與文件路徑,供使用者查詢與搜索SANStorageDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序其他應(yīng)用

–海量小圖檔管理其他應(yīng)用

–海量小圖檔管理SANStorageDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序大量的查詢與搜索造成SANStorage接口的效能瓶頸,響應(yīng)時(shí)間太久數(shù)據(jù)庫(kù)對(duì)上億條數(shù)據(jù)以上的查詢效能不佳無法支持全文搜索無法支撐大量的關(guān)連性計(jì)算與分析傳統(tǒng)Storage對(duì)儲(chǔ)存巨量小檔案并不合適每日新檔案的導(dǎo)入響應(yīng)時(shí)間太慢KeyMetadataObjectFileIDFilename…….….….……….導(dǎo)入Etu

Appliance運(yùn)用支巨量資料高平行讀寫和存儲(chǔ)之非關(guān)系數(shù)據(jù)庫(kù),來儲(chǔ)存巨量小圖像圖檔及其特征值,一次打通所有效能瓶頸利用內(nèi)建分布式文件系統(tǒng)作為提供其高可靠性的底層存儲(chǔ)支持圖像文件及其特征值導(dǎo)入應(yīng)用程序應(yīng)用程序應(yīng)用程序支持百億筆資料之高平行查詢其他應(yīng)用

–海量小圖檔管理高可靠性線性擴(kuò)展(scale-out),輕易快速擴(kuò)容總持有成本低高并發(fā)與高吞吐率,處理、查詢百億條數(shù)據(jù)沒有問題支持并行計(jì)算框架,可滿足巨量數(shù)據(jù)全文搜索與進(jìn)階數(shù)據(jù)分析的需求巨量存儲(chǔ),提供PB級(jí)以上儲(chǔ)存能立運(yùn)用支持海量資料高平行讀寫和存儲(chǔ)之非關(guān)系形數(shù)據(jù)庫(kù),來儲(chǔ)存巨量小圖像文件及其特征值,一次打通所有效能瓶頸利用內(nèi)建分布式文件系統(tǒng)作提供其高可靠性的底層存儲(chǔ)支持SANStorageDB應(yīng)用程序應(yīng)用程序應(yīng)用程序其他應(yīng)用

–海量小圖檔管理Hadoop

平臺(tái)競(jìng)爭(zhēng)要素HadoopDisruptionVectorsSource:GigaOMPro,2012整合部署存取延展:公有云等級(jí)的運(yùn)算架構(gòu)可靠:電信等級(jí)的系統(tǒng)質(zhì)量效能:企業(yè)等級(jí)的創(chuàng)新績(jī)效EtuAppliance簡(jiǎn)介

BigDataEnd-to-EndSolutioninaBox儲(chǔ)存與運(yùn)算一體,簡(jiǎn)化與優(yōu)化的優(yōu)勢(shì)機(jī)種:10分鐘內(nèi)可部署100+節(jié)點(diǎn)資料擷取能力1U勝過8UBig

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論