大數(shù)據(jù)與信息采集簡介_第1頁
大數(shù)據(jù)與信息采集簡介_第2頁
大數(shù)據(jù)與信息采集簡介_第3頁
大數(shù)據(jù)與信息采集簡介_第4頁
大數(shù)據(jù)與信息采集簡介_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)與信息采集簡介提綱大數(shù)據(jù)的由來及現(xiàn)狀大數(shù)據(jù)帶來的挑戰(zhàn):信息采集更多挑戰(zhàn):大數(shù)據(jù)的管理與分析大數(shù)據(jù)與云計算世界是數(shù)字的數(shù)據(jù)的前世今生4step3step2step1step紙質(zhì)數(shù)據(jù)文件系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘大數(shù)據(jù)時代BigData什么是大數(shù)據(jù)1KB=1024字節(jié)存儲單位1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB=1,048,576GB1EB=1024PB=1,073,741,824GB1ZB=1024EB=1,099,511,627,776GB100萬G10億G1萬億G22億臺215萬臺2100臺500G硬盤電腦15寸電腦排成行可以往返一次月球Intel:人類文明開始到2003年地球共產(chǎn)生了5EB數(shù)據(jù).2012年全年,全球產(chǎn)生數(shù)據(jù)2.7ZB是2003年以前的500倍2015年,全球估計產(chǎn)生數(shù)據(jù)8ZB,等于1800萬個美國國會圖書館2000年數(shù)字信息占全球數(shù)據(jù)量的25%75%都在報紙膠片磁帶等媒介2013年數(shù)字信息98%非數(shù)字信息2%2012年全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有

2.88萬個小時的視頻上傳到Y(jié)outube,足夠一個人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬筆訂單…每個月網(wǎng)民在Facebook上要花費7千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…新的時代,人們從信息的被動接受者變成了主動創(chuàng)造者大數(shù)據(jù)時代到來BigData什么是大數(shù)據(jù)商業(yè)數(shù)據(jù)現(xiàn)狀Twitter2007年5000條微博更新/天2008年30萬條微博更新/天2009年250萬條微博更新/天2010年3500萬條微博更新/天2011年2億條微博更新/天2013年4億條微博更新/天2013年上傳時長12年的視頻/天2013年用戶分享25億條信息/天一個單數(shù)據(jù)表幾億-幾百億條記錄下線商品14億件,在線商品8億件淘寶數(shù)據(jù)庫存了20PB數(shù)據(jù)平均每月增加1.5PB智能移動終端設(shè)備的巨量增長數(shù)據(jù)規(guī)模指數(shù)增長數(shù)字大爆炸GBTBPBEBZB地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進(jìn)TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個數(shù)字達(dá)到了1.8ZB。而有市場研究機(jī)構(gòu)預(yù)測:到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達(dá)到35.2ZB(1ZB=10億TB)!1GB

=2^30字節(jié)1TB=2^40字節(jié)1PB

=2^50字節(jié)1EB

=2^60字節(jié)1ZB=2^70字節(jié)為什么?facebook社交網(wǎng)絡(luò)淘寶、ebuy電子商務(wù)微博、Apps移動互聯(lián)21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。互聯(lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。信息技術(shù)的廣泛應(yīng)用提高了數(shù)據(jù)的處理能力,更提高了數(shù)據(jù)的產(chǎn)生能力,道高一尺,魔高一丈。這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇大數(shù)據(jù)時代正在來臨..數(shù)據(jù)規(guī)模指數(shù)增長數(shù)字大爆炸數(shù)據(jù)庫數(shù)據(jù)倉庫面向應(yīng)用面向主題當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)數(shù)據(jù)是可更新的數(shù)據(jù)不可更新避免數(shù)據(jù)冗余有意引入冗余支持事務(wù)處理支持決策分析數(shù)據(jù)操作頻繁操作相對不頻繁10數(shù)據(jù)分析:數(shù)據(jù)庫和數(shù)據(jù)倉庫11數(shù)據(jù)倉庫和數(shù)據(jù)挖掘數(shù)據(jù)庫數(shù)據(jù)倉庫不可知的價值提取數(shù)據(jù)數(shù)據(jù)挖掘

示例:“尿布與啤酒”的故事示例:你開心他就買你焦慮他就拋

華爾街“德溫特資本市場”公司首席執(zhí)行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進(jìn)而判斷民眾情緒,再以“1”到“50”進(jìn)行打分。根據(jù)打分結(jié)果,霍廷再決定如何處理手中數(shù)以百萬美元計的股票。

霍廷的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。

這一招收效顯著——當(dāng)年第一季度,霍廷的公司獲得了7%的收益率12大數(shù)據(jù)分析大數(shù)據(jù)分析:吃貨集中營大數(shù)據(jù)分析:關(guān)聯(lián)分析大數(shù)據(jù)分析:可視化大數(shù)據(jù)分析:趨勢預(yù)測從谷歌流感趨勢看大數(shù)據(jù)的應(yīng)用價值“谷歌流感趨勢”,通過跟蹤搜索詞相關(guān)數(shù)據(jù)來判斷全美地區(qū)的流感情況大數(shù)據(jù)應(yīng)用場景美國零售商和懷孕預(yù)測VISA信用卡與商戶推薦股票投資智能電表廣告投放中國糧食統(tǒng)計人的數(shù)字化京東信用貸款和淘寶數(shù)據(jù)魔方UPS快遞的最佳行車路徑數(shù)據(jù)源:規(guī)模龐大,通常在PB級數(shù)據(jù)結(jié)構(gòu):非結(jié)構(gòu)化,需要進(jìn)行量化打分,轉(zhuǎn)換成結(jié)構(gòu)化、數(shù)值型數(shù)據(jù)以便理解和分析分析邏輯:更簡單,性能是瓶頸性能:實時性要求更高大數(shù)據(jù)分析的特點什么是大數(shù)據(jù)?BigDataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtools.大數(shù)據(jù)(bigdata,megadata),或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點的數(shù)據(jù),才是大數(shù)據(jù)。體量Volume多樣性Variety價值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預(yù)測分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效Volume數(shù)據(jù)量PB是大數(shù)據(jù)層次的臨界點.KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量預(yù)計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍Volume數(shù)據(jù)量Dalles數(shù)據(jù)中心位于俄勒岡州的哥倫比亞河旁,河上的Dalles大壩為數(shù)據(jù)中心提供電力。數(shù)據(jù)中心有2座4層樓高的冷卻塔。Google數(shù)據(jù)中心Google數(shù)據(jù)中心以集裝箱為單位,每個集裝箱有1160臺服務(wù)器,每個數(shù)據(jù)中心有眾多集裝箱。23Google一次搜索查詢的能耗能點亮100瓦的燈泡11秒鐘。Microsoft數(shù)據(jù)中心微軟在美國芝加哥的數(shù)據(jù)中心.總面積為70萬平方英尺。即使只啟用半數(shù)服務(wù)器,能耗也達(dá)到30兆瓦。24Variety多樣性企業(yè)內(nèi)部的經(jīng)營交易信息;物聯(lián)網(wǎng)世界中商品,物流信息;互聯(lián)網(wǎng)世界中人與人交互信息,位置信息等是大數(shù)據(jù)的主要來源.

結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)如今的數(shù)據(jù)類型早已不是單一的文本形式,訂單、日志、音頻,能力提出了更高的要求結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起的數(shù)據(jù)類型,xml…文檔、視頻、音頻、圖片20%結(jié)構(gòu)化80%非結(jié)構(gòu)化企業(yè)數(shù)據(jù)2012年互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)25%結(jié)構(gòu)化75%非結(jié)構(gòu)化50%-70%源于人與人的互動Value價值挖掘大數(shù)據(jù)的價值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息.價值密度低,是大數(shù)據(jù)的一個典型特征.Value價值未來大數(shù)據(jù)的產(chǎn)業(yè)規(guī)模將會至少以萬億美元來進(jìn)行衡量美國醫(yī)療保健每年產(chǎn)值達(dá)3000億美金每年生產(chǎn)率增長約0.7%制造業(yè)最多可節(jié)省50%的產(chǎn)品研發(fā)、組裝成本最多可節(jié)約7%的營運資金美國零售業(yè)凈利率增長可能高達(dá)60%+每年生產(chǎn)率增長0.5-1.0%歐洲公共部門管理每年2500億歐元每年生產(chǎn)率增長約0.7%全球個人定位數(shù)據(jù)1000億+的服務(wù)供應(yīng)商收入為終端用戶帶來高達(dá)7000億美的價值Velocity速度1s是臨界點.對于大數(shù)據(jù)應(yīng)用而言,必須要在1秒鐘內(nèi)形成答案,否則處理結(jié)果就是過時和無效的.大數(shù)據(jù)的驚人不止是在數(shù)量上,同時數(shù)據(jù)還是巨量具有動態(tài)分析價值的數(shù)據(jù)。訪問響應(yīng)時間的加快,數(shù)據(jù)庫讀寫速度的加快,對電商企業(yè)來說就等于多成交。對于很多情況下,動態(tài)的數(shù)據(jù)價值遠(yuǎn)大于靜態(tài)數(shù)據(jù),比如氣象預(yù)測,災(zāi)難預(yù)測,快消行業(yè)等。實時處理的要求,是區(qū)別大數(shù)據(jù)應(yīng)用和傳統(tǒng)數(shù)據(jù)倉庫技術(shù),BI技術(shù)的關(guān)鍵差別之一.6000萬用戶登錄/天20億次頁面訪問/天每天1.2億次網(wǎng)站訪問響應(yīng)時間小于100毫秒Velocity速度數(shù)據(jù)的采集速度的加快導(dǎo)致處理時間都需要有相應(yīng)的提高在線數(shù)據(jù)分析(OnlineDataAnalytics)決策的延誤

商機(jī)的消失實例網(wǎng)上營銷(E-Promotions):基于用戶當(dāng)前的位置和過往的交易數(shù)據(jù)預(yù)測用戶的喜好在合適的時間和地點發(fā)送用戶感興趣的產(chǎn)品和店鋪健康監(jiān)控(Healthcaremonitoring):利用穿戴式的傳感器監(jiān)控用戶的生理和活動數(shù)據(jù)及時提供需要的醫(yī)療服務(wù)大數(shù)據(jù)提綱大數(shù)據(jù)的由來及現(xiàn)狀大數(shù)據(jù)帶來的挑戰(zhàn):信息采集更多挑戰(zhàn):大數(shù)據(jù)的管理與分析大數(shù)據(jù)與云計算大數(shù)據(jù)從哪里來?海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)從哪里來?海量交互數(shù)據(jù):源于Facebook、Twitter、微信,微博及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、傳送的海量多媒體文件、Web文本和點擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來會發(fā)生什么。馬云成功預(yù)測2008年經(jīng)濟(jì)危機(jī)“2008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);我們提前半年時間從詢盤上推斷出世界貿(mào)易發(fā)生變化了。”通常而言,買家在采購商品前,會比較多家供應(yīng)商的產(chǎn)品,反映到阿里巴巴網(wǎng)站統(tǒng)計數(shù)據(jù)中,就是查詢點擊的數(shù)量和購買點擊的數(shù)量會保持一個相對的數(shù)值,綜合各個維度的數(shù)據(jù)可建立用戶行為模型。因為數(shù)據(jù)樣本巨大,保證用戶行為模型的準(zhǔn)確性。因此在這個案例中,詢盤數(shù)據(jù)的下降,自然導(dǎo)致買盤的下降。大數(shù)據(jù)從哪里來?海量傳感器數(shù)據(jù):源于各類傳感器,如攝像頭,可穿戴設(shè)備,智能家電,工業(yè)設(shè)備等。它包括了多種環(huán)境信息,人體運動記錄,操作記錄等等。這一部分?jǐn)?shù)據(jù)規(guī)模將更加龐大。中國英特爾物聯(lián)技術(shù)研究院數(shù)據(jù)量的顛覆性變化每1天產(chǎn)生5EB數(shù)據(jù)每2天產(chǎn)生5EB數(shù)據(jù)1萬年產(chǎn)生5EB數(shù)據(jù)2015每人每天產(chǎn)生1.1TB時間2015數(shù)據(jù)量感知數(shù)據(jù)

=

社交媒體數(shù)據(jù)的10-20倍社交媒體數(shù)據(jù)大數(shù)據(jù)從哪里來?海量傳感器數(shù)據(jù):大數(shù)據(jù)從哪里來?運營式系統(tǒng)階段用戶原創(chuàng)內(nèi)容階段2感知式系統(tǒng)階段3?數(shù)據(jù)庫的出現(xiàn)使得數(shù)據(jù)管理的復(fù)雜度大大降低

,數(shù)據(jù)往往伴隨著一定的運營活動而產(chǎn)生并記錄在數(shù)據(jù)庫中的

,數(shù)據(jù)的產(chǎn)生方式是被動的?數(shù)據(jù)爆發(fā)產(chǎn)生于Web

2.0

時代,而Web

2.0

的最重要標(biāo)志就是用戶原創(chuàng)內(nèi)容?智能手機(jī)等移動設(shè)備加速內(nèi)容產(chǎn)生?數(shù)據(jù)產(chǎn)生方式是主動的?感知式系統(tǒng)的廣泛使用?人類社會數(shù)據(jù)量第三次大的飛躍最終導(dǎo)致了大數(shù)據(jù)的產(chǎn)生信息采集的類型交易數(shù)據(jù)數(shù)據(jù)抽取與集成工具,ETL主動抽取,源與目的都非常明確交互數(shù)據(jù)網(wǎng)絡(luò)爬蟲,數(shù)據(jù)收集程序主動爬取,源與目的不太明確傳感器數(shù)據(jù)傳感器傳送被動傳送TimeVolume結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)可被處理的非結(jié)構(gòu)化數(shù)據(jù)休眠數(shù)據(jù)大數(shù)據(jù)采集帶來的挑戰(zhàn)

網(wǎng)絡(luò)爬蟲數(shù)據(jù)的分布性:文檔散落在數(shù)以百萬計的不同服務(wù)器上,沒有預(yù)先定義的拓?fù)浣Y(jié)構(gòu)相連。不穩(wěn)定的數(shù)據(jù)高比例:許多文檔迅速地添加或刪除(e.g.deadlinks).大規(guī)模:網(wǎng)絡(luò)數(shù)據(jù)量的指數(shù)增長,由此引發(fā)了一系列難以處理的規(guī)模問題。無結(jié)構(gòu)和冗余信息:每個HTML頁面沒有統(tǒng)一的結(jié)構(gòu),許多網(wǎng)絡(luò)數(shù)據(jù)是重復(fù)的,將近30%的重復(fù)網(wǎng)頁.數(shù)據(jù)的質(zhì)量:許多內(nèi)容沒有經(jīng)過編輯處理,數(shù)據(jù)可能是錯誤的,無效的。錯誤來源有錄入錯誤,語法錯誤,OCR錯誤等。異構(gòu)數(shù)據(jù):多媒體數(shù)據(jù)(images,video,VRML),語言,字符集等.提綱大數(shù)據(jù)的由來及現(xiàn)狀大數(shù)據(jù)帶來的挑戰(zhàn):信息采集更多挑戰(zhàn):大數(shù)據(jù)的管理與分析大數(shù)據(jù)與云計算現(xiàn)行計算技術(shù)面臨的挑戰(zhàn)(1)在大數(shù)據(jù)面前,人力/人腦幾乎無能為力,迫切需要有效、高效的方法、技術(shù)和工具,現(xiàn)有的計算技術(shù)需要革新、甚至革命性的發(fā)展!傳統(tǒng)以計算為中心的數(shù)據(jù)管理和處理模式的局限,無法應(yīng)對“4V問題”數(shù)據(jù)僅是計算設(shè)備的輸入/輸出,靠提速擴(kuò)容適應(yīng)數(shù)據(jù)增長而大數(shù)據(jù)難以I/O,其爆炸式增長非單純提速擴(kuò)容可對付

數(shù)據(jù)價值有效

利用率不足5%價值未充分利用?

①平均日產(chǎn)數(shù)據(jù)20TB②平均年增

數(shù)據(jù)超50%數(shù)據(jù)負(fù)擔(dān)沉重數(shù)據(jù)處理?數(shù)據(jù)管理?數(shù)據(jù)分析?傳統(tǒng)DB技術(shù)在應(yīng)對大數(shù)據(jù)上的不足⑴DBMS網(wǎng)絡(luò)存儲:將存儲設(shè)備通過標(biāo)準(zhǔn)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)連接到一群計算機(jī)上,包括直連存儲、網(wǎng)絡(luò)附加存儲、存儲區(qū)域網(wǎng)絡(luò)等。如:OracleRAC、MySQLSharding集群、DB2Purescale⑵分布式數(shù)據(jù)庫代理:通過中間代理層來統(tǒng)一管理所有的數(shù)據(jù)源,后端數(shù)據(jù)庫集群對前端應(yīng)用程序透明。如:MySQLProxy、Amoeba⑶數(shù)據(jù)倉庫:面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。如:Teradata、Greenplum、OracleExadata共享磁盤或共享內(nèi)存的體系架構(gòu),使得依賴于scaleup方式的有限的可擴(kuò)展性…..……缺乏對半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的支持…………在處理大規(guī)模數(shù)據(jù)和執(zhí)行復(fù)雜的統(tǒng)計模型計算上的限制…………現(xiàn)行計算技術(shù)面臨的挑戰(zhàn)(2)例:從“scale-up”到“scale-out”傳統(tǒng)縱向擴(kuò)展的處理模式“scale-up”:依賴于專用站點的CPU/memory/storage/network更新(傳統(tǒng)并行模型),新型橫向擴(kuò)展的處理模式“scale-out”:依賴于增加分布式低成本計算與存儲節(jié)點現(xiàn)有商業(yè)并行數(shù)據(jù)庫產(chǎn)品很少可管理100+節(jié)點;但是Yahoo!的Hadoop集群系統(tǒng)有4000+節(jié)點;Facebook也達(dá)到2750+節(jié)點怎樣有效、高效地管理、處理、應(yīng)用大數(shù)據(jù),對計算技術(shù)帶來了一系列挑戰(zhàn)數(shù)據(jù)管理面臨的挑戰(zhàn)來自兩個方面不斷涌現(xiàn)的大數(shù)據(jù)云計算平臺的特點⑴數(shù)據(jù)的規(guī)模龐大,需要海量的存儲空間和強(qiáng)大的計算能力⑵數(shù)據(jù)源豐富,數(shù)據(jù)類型多樣⑶用戶群體大,需要高并發(fā)、低延遲、高吞吐量的訪問⑷無法預(yù)計的存儲需求,可動態(tài)伸縮(5)多租戶共享的,第三方托管(6)大規(guī)模數(shù)據(jù)的密集型計算,執(zhí)行更加復(fù)雜的分析挖掘任務(wù)⑴無共享的分布式系統(tǒng)架構(gòu)、橫向擴(kuò)展⑵數(shù)據(jù)被分片分散存放,自適應(yīng)的數(shù)據(jù)劃分方式和動態(tài)遷移⑶為高可用和容錯,同一數(shù)據(jù)分片保存了多個副本⑷廉價的商品化硬件,故障常態(tài)化⑸各種資源通過網(wǎng)絡(luò)以服務(wù)形式提交,按需分配Pay-as-you-go⑹MapReduce、BSP、Dryad等并行計算范式

數(shù)據(jù)挖掘面臨的挑戰(zhàn)數(shù)據(jù)源規(guī)模龐大、多數(shù)據(jù)源……分布式存儲、數(shù)據(jù)多樣性……某電信運營商數(shù)據(jù)挖掘?qū)嵗诰蛩惴ㄐ韪叨葏R總和集成數(shù)據(jù)……算法復(fù)雜度高、精確度低……數(shù)據(jù)倉庫規(guī)模1PB構(gòu)建客戶流失預(yù)警模型:10小時建模,只能投入幾十萬行數(shù)據(jù)做訓(xùn)練準(zhǔn)確度只有60%-70%節(jié)點數(shù)的增加不一定能提高數(shù)據(jù)挖掘的效率算法的簡單并行化不能有效處理海量數(shù)據(jù)!提綱大數(shù)據(jù)的由來及現(xiàn)狀大數(shù)據(jù)帶來的挑戰(zhàn):信息采集更多挑戰(zhàn):大數(shù)據(jù)的管理與分析大數(shù)據(jù)與云計算你身邊的“云”?群雄逐鹿:國外有微軟SkyDrive、蘋果iCloud,亞馬遜CloudDriver等網(wǎng)盤產(chǎn)品,國內(nèi)有百度云、新浪微盤、華為網(wǎng)盤、金山快盤、115網(wǎng)盤和360云盤等?不以空間大小論英雄:以100K/s的均速上傳,1T空間也需124天方可填滿,合計2976小時。而如若想占滿36T,估摸得熬上12年以上光景你身邊的“云”有道云筆記/video.html?auto=12011年6月28日網(wǎng)易旗下的有道推出的云筆記軟件,支持多種附件格式,擁有2G容量的初始免費存儲空間,能夠?qū)崟r增量式同步,并采用“三備份存儲”技術(shù),同時上線的還有網(wǎng)頁剪報功能。云電視、百度地圖、百度音樂、云殺毒、云端備份。。。。。還有木有?什么是云計算?云計算(cloudcomputing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說法。過去在圖中往往用云來表示電信網(wǎng),后來也用來表示互聯(lián)網(wǎng)和底層基礎(chǔ)設(shè)施的抽象。因此,云計算甚至可以讓你體驗每秒10萬億次的運算能力,擁有這么強(qiáng)大的計算能力可以模擬核爆炸、預(yù)測氣候變化和市場發(fā)展趨勢。用戶通過電腦、筆記本、手機(jī)等方式接入數(shù)據(jù)中心,按自己的需求進(jìn)行運算。對云計算的定義有多種說法。對于到底什么是云計算,至少可以找到100種解釋?,F(xiàn)階段廣為接受的是美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)定義:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲,應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。什么是云計算?云計算概念?通過整合、管理、調(diào)配分布在網(wǎng)絡(luò)各處的計算資源,通過互聯(lián)網(wǎng)以統(tǒng)一界面、同時向大量的用戶提供服務(wù)云計算特點超大規(guī)模計算、虛擬化、高可靠性和安全性、通用性、動態(tài)擴(kuò)展性、按需服務(wù)、降低成本云計算應(yīng)用場景Google個人云服務(wù)企業(yè)應(yīng)用實例:阿里Amazon云計算示意圖云計算特點高可靠性前所未有的計算能力數(shù)據(jù)多副本,計算節(jié)點同構(gòu)可互換等措施動態(tài)伸縮,滿足規(guī)模增長需要超大規(guī)模高可擴(kuò)展性極其廉價任意獲取相應(yīng)服務(wù)虛擬化通用性千變?nèi)f化,不針對特定應(yīng)用按需服務(wù)龐大的資源池,按需購買CloudFeatures云計算特點數(shù)據(jù)在云端:不怕丟失,不必備份,可以任意點的恢復(fù);軟件在云端:不必下載自動升級;無所不在的計算:在任何時間,任意地點,任何設(shè)備登錄后就可以進(jìn)行計算服務(wù);無限強(qiáng)大的計算:具有無限空間的,無限速度PCC/S云計算以硬件為中心以軟件為中心以服務(wù)為中心云計算的好處買設(shè)備開發(fā)系統(tǒng)互聯(lián)網(wǎng)/局域網(wǎng)支付設(shè)備和勞動力費用用戶單一買外部服務(wù)可擴(kuò)展,有彈性,動態(tài),多用戶所用即所付通過Internet使用IFaPs(IP,HTML,HTTP)傳統(tǒng)IT模式云計算實現(xiàn)模式人機(jī)界面商業(yè)模式技術(shù)模式云計算的好處云計算與傳統(tǒng)IT模式相比,具有相當(dāng)明顯的優(yōu)勢:

任何一臺可以上網(wǎng)的通訊設(shè)備包括手機(jī)、PDA、上網(wǎng)本均可

降低成本

全球購置計算機(jī)中,只有30%的計算能力被利用,甚至更低提高資源利用率

云端由成千上萬臺甚至更多服務(wù)器組成的集群為存儲和管理數(shù)據(jù)提供了幾乎無限大的空間和資源

用戶可以根據(jù)自己的需要或喜好定制相應(yīng)的服務(wù)、應(yīng)用及資源靈活定制動態(tài)遷移保證應(yīng)用和計算的正常進(jìn)行;在云計算服務(wù)器端提供了最可靠、最安全的數(shù)據(jù)存儲中心彈性計算和存儲能力高可靠性和安全性云計算的分類按服務(wù)類型分類云計算的分類按服務(wù)類型分類基礎(chǔ)設(shè)施云(InfrastructureCloud,IaaS)為用戶提供底層的、接近于直接操作硬件資源的服務(wù)接口。平臺云(PlatformCloud,PaaS)為用戶提供一個托管平臺,用戶可以將他們所開發(fā)和運營的應(yīng)用托管到云平臺中。應(yīng)用云(ApplicationCloud,SaaS)為用戶提供可以直接為其所用的應(yīng)用,這些應(yīng)用一般是基于瀏覽器的,針對某一特定功能。基礎(chǔ)設(shè)施即服務(wù)IaaS——InfrastructureasaSe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論