




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第9章大數據與云數據管理大數據云計算云數據管理有關大數據的兩個問題問題1:你知道什么是“大數據”嗎?如果你不知道,那么你很可能OUT了!問題2:你聽說過“大數據”嗎?如果你連“大數據”聽都沒聽過,那么你絕對OUT了!你認識這位老兄嗎?如果你連這位老兄都不認識,那你也太OUT了!斯諾登事件帶給我們的最大震動是什么?不在于他暴露了美國政府正在監(jiān)聽全世界這件事情。因為,這早已是公開的秘密,對“世界警察”而言,這沒有什么值得大驚小怪的!而在于他使我們了解到美國政府已經具備了獲取、存儲、管理、分析和使用“大數據”的超強能力。這使美國政府獲得了相對他國政府更明顯的優(yōu)勢!大數據為“世界警察”的“大拳頭”裝上了“大眼睛”、“大耳朵”和“大腦袋”!目前IT領域最引人關注的三個熱詞是什么?大數據云計算物聯(lián)網其他:移動互聯(lián)網,社交網,XXX2.0/3.0/…什么是大數據?來源:2008年9月《科學》(Science)雜志發(fā)表了一篇文章“BigData:ScienceinthePetabyteEra”,從此“大數據”這個詞開始被廣泛傳播。什么是大數據?沒有統(tǒng)一定義,因為“大”是一個相對“小”而言概念。與大數據(BigData)相類似的詞匯:LargeScale大規(guī)模,VeryLarge超大規(guī)模,Massive海量…什么是大數據?從歷史發(fā)展的視角看這幾個詞:VeryLarge表示GB級別的數據Massive表示TB級的數據BigData表示PB級別及其以上的數據顯然,爭論它們中哪一個更大沒有什么意義。什么是大數據?一個普遍接受的定義大數據是指無法在可容忍的時間內用傳統(tǒng)方法或工具對其進行抓取、管理和處理的數據集合。數據集組成非常巨大和復雜,以至于傳統(tǒng)數據庫管理工具處理起來面臨很多問題。獲取、存儲、檢索、共享、分析和可視化。數據量達到PB、EB或ZB級別。*
from{BigData}@wikipedia.難道這就是大數據?難道這就是大數據?大數據產生的背景數據量3個月翻一番通信速度6個月翻一番存儲容量9個月翻一番集成電路18個月翻一番現(xiàn)在網絡環(huán)境下每18個月產生的數據量相當于過去幾千年的數據量之和數據之多,數據量之大,前所未有大數據有多大?——以互聯(lián)網為例Facebook截止2012年4月,每日評論已達32億條;每天新上傳照片近3億張。每周新增圖片容量約60TB,圖片總量約2600億張,已超過20PB。平均每秒3500次寫操作,讀操作的峰值可以達到每秒百萬次。Amazon目前EC2有約450000臺服務器(存儲+處理)。*數據來自Facebook于2012年4月提交的監(jiān)管文件。**數據來源于亞馬遜2012年4月的官方介紹材料。大數據有多大?多,實在是多!繁,實在是繁!大,實在是大!Nodatalikemoredata!數據永遠也不嫌多!大數據從何而來?——機器存儲軟件、系統(tǒng)文件、基礎數據元數據(如索引)冗余、備份…處理原始數據的自動加工:壓縮、聚類、規(guī)則適用、可視化、智能衍生…傳播負載遷移、分布式共享(如P2P)…大數據從何而來?——人內容提供商新聞報道、時事評論、廣告宣傳…音頻、視頻、微視頻…職業(yè)撰稿人網絡作家、寫手、推手、水軍…普通大眾博文、圖片、音樂、視頻…SNS網絡傳播評論、轉發(fā)…大數據從何而來?——物理世界無所不在的感知數據傳感節(jié)點(壓力、溫度、濕度、聲光電…)無線寬頻信號采樣、太湖藍藻檢測、PM2.5…視頻監(jiān)控目前1路720P高清視頻攝像數據每小時視頻錄像3GB左右。按一個月保存時間要求計算,3GB/小時×24小時×30天×1路=2.16T。一個擁有500路高清視頻攝像,需要保存1個月的監(jiān)控系統(tǒng)所需的最少存儲容量是1PB。對地觀測資源三號衛(wèi)星在運行前兩個月的時間內,產生37TB的原始影像數據。這是后續(xù)互聯(lián)網地圖的基礎。天文物理、氣象、醫(yī)學等專業(yè)領域數據…大數據向何而去?服務如果不能提供服務,大數據就沒有意義。面向人、機、物的服務物理世界:需要足夠的采樣數據機器:需要數據具有關聯(lián)度,能夠從中分析出有用信息,非結構化
半結構化
結構化人:能夠直接使用數據的表現(xiàn)形式,進行生產和決策大數據為什么重要?2012年3月29日,奧巴馬政府宣布投資2億美元啟動“大數據研究和發(fā)展計劃”,美國政府已把“大數據”上升到了國家戰(zhàn)略的層面。中國政府和業(yè)界對“大數據”高度重視并在大力推進。據報道,今年兩會上已有委員提出將大數據列入國家發(fā)展戰(zhàn)略。20大數據的特征容量大1電子商務科學計算網絡生活每月交易21億筆,產生300TB交易日志信息
7億用戶、400億張照片,總容量超過1500TB新墨西哥州的天文望遠鏡每年產生80TB的圖像信息美國國會圖書館存檔信息量:約80TB生物信息第一個中國人的全基因組圖譜,1177億堿基對21大數據的特征增加快2許多數據是人造出來的!例子:北京至紐約的客機有千余個傳感器,一次飛機記錄的數據達數百T至P級。22大數據的特征非結構化3非結構化=沒有找到共性特征多層結構大數據的構成大數據的4V特性體量Volume多樣性Variety價值密度Value速度Velocity非結構化數據的超大規(guī)模和增長總數據量的80~90%比結構化數據增長快10倍到50倍是傳統(tǒng)數據倉庫的10倍到50倍大數據的異構和多樣性很多不同形式(文本、圖像、視頻、機器數據)無模式或者模式不明顯不連貫的語法或句義大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等)實時分析而非批量式分析數據輸入、處理與丟棄立竿見影而非事后見效Volume數據量PB是大數據層次的臨界點.KB->MB->GB->TB->PB->EB->ZB->YB->NB->DBValue價值挖掘大數據的價值類似沙里淘金,從海量數據中挖掘稀疏但珍貴的信息.價值密度低,是大數據的一個典型特征.Variety多樣性企業(yè)內部的經營交易信息,物聯(lián)網世界中商品,物流信息;互聯(lián)網世界中人與人交互信息,位置信息等是大數據的主要來源。能夠在不同的數據類型中,進行交叉分析的技術,是大數據的核心技術之一。語義分析技術,圖文轉換技術,模式識別技術,地理信息技術等,都會在大數據分析時獲得應用。Velocity速度1s是臨界點。對于大數據應用而言,必須要在1秒鐘內形成答案,否則處理結果就是過時和無效的。實時處理的要求,是區(qū)別大數據引用和傳統(tǒng)數據倉庫技術、BI技術的關鍵差別之一。臉譜(Facebook)數據中心微軟(Microsoft)數據中心蘋果(Apple)數據中心谷歌(Google)數據中心數據中心—看上去,規(guī)模龐大4大數據管理的基礎——數據中心30數據中心—走進去,結構復雜4大數據管理的基礎——數據中心數據庫與大數據GB/TB級高質量、較干凈強結構化Top-down重交易確定解數據庫vs大數據*傳統(tǒng)數據庫/數據倉庫PB級以上有噪聲、有冗余非結構化Bottom-up重交互滿意解大數據*摘自李德毅院士于2012年5月23日在云計算大會上的講話,略有修改“大數據”是數據增長
從量變到質變的里程碑從人的認知角度來看,在數據量比較小的情況下,我們基于典型的數據去思考。例如,我們可以設計一個數據模型來管理目前沒遇到但以后可能遇到的數據,或者設計一個精妙的算法正確高效地處理將來可能遇到的數據和各種情況。而大數據則顛覆了這一假定,目前的數據量已足夠大,足以包羅萬象,充分利用現(xiàn)有數據得出的全面而簡約的數據模型和算法足以應對我們可能遇到的各種情況。換言之,數據模型與算法設計的首要任務不再是人基于少量數據的思考,而是機器基于海量數據的分析歸類。從基于猜測假定的設計到基于事實和經驗的歸納總結,是人類認知過程的進步。這是一個革命性的進展,是大數據之所以激動人心的根本。大數據不僅僅是“大”多大?PB級比大更重要的是數據的復雜性,有時甚至大數據中的小數據如一條微博就具有顛覆性的價值大數據的應用不僅僅是精準營銷通過用戶行為分析實現(xiàn)精準營銷是大數據的典型應用,但是大數據在各行各業(yè)特別是公共服務領域具有廣闊的應用前景消費行業(yè)金融服務食品安全醫(yī)療衛(wèi)生軍事交通環(huán)保電子商務氣象軟件是驅動大數據的引擎和數據中心(DataCenter)一樣,軟件是大數據的驅動力。軟件改變世界!大數據生態(tài):軟件是引擎前瞻來看,隨著互聯(lián)網對網民的理解,網民對網絡的反作用,互聯(lián)網將變得越來越智能。它在滿足你需求的同時,也在創(chuàng)造新的需求。前者的代表是Google,后者的典型則是Facebook。谷歌的盈利在于所有的軟件應用都是在線的。用戶在免費使用這些產品的同時,把個人的行為、喜好等信息也免費的送給了Google。因此Google的產品線越豐富,他對用戶的理解就越深入,他的廣告就越精準。廣告的價值就越高。這是正向的循環(huán),谷歌好用的、免費得軟件產品,換取對用戶的理解;通過精準的廣告,找到生財之道。顛覆了微軟賣軟件拷貝賺錢的模式。成為互聯(lián)網的巨擘。互聯(lián)網越來越智能Google精確掌握用戶行為、獲取需求微博為新浪帶來巨大價值馬云的判斷來自于數據分析“2008年初,阿里巴巴平臺上整個買家詢盤數急劇下滑,歐美對中國采購在下滑。海關是賣了貨,出去以后再獲得數據;而我們提前半年時間從詢盤上推斷出世界貿易發(fā)生變化了。”馬云對未來的預測,是建立在對用戶行文分析的基礎上。通常而言,買家在采購商品前,會比較多家供應商的產品,反映到阿里巴巴網站統(tǒng)計數據中,就是查詢點擊的數量和購買點擊的數量會保持一個相對的數值,綜合各個維度的數據可建立用戶行為模型。因為數據樣本巨大,保證用戶行為模型的準確性。因此在這個案例中,詢盤數據的下降,自然導致買盤的下降。騰訊在天津投資建立亞洲最大的數據中心;百度也在投資建立大數據處理中心;新浪推出企業(yè)微博產品,提供精準的數據分析服務。更高一層數據層面整合企業(yè)內外部更高數據層面整合利用用戶”行為指紋”創(chuàng)造新商機用戶在線的每一次點擊,每一次評論,每一個視頻點播,就是大數據的典型來源?;ヂ?lián)網企業(yè)之所以取得令人矚目的成績,其核心的本質就是包括用戶網絡操作的大數據,進行記錄和分析,形成用戶“行為指紋”,從而洞悉用戶的潛在的、真實的需求,形成預判。這是傳統(tǒng)企業(yè)花費重金都難以企及的夢想。所有傳統(tǒng)的產品公司都只能淪為這種新型用戶平臺級公司的附庸。大數據應用中的陷阱
邦弗朗尼原理(Bonferroni’sPrinciple)邦弗朗尼原理:在數據隨機性假設的基礎上,計算所尋找的事件的發(fā)生的期望值,如果該期望值大于找到的真實事件的數目,則所找到的事件很可能是一種假象。即隨著數據規(guī)模的不斷增加,任何數據都會顯現(xiàn)出一些不同尋常的特征,這些特征看上去似乎非常重要,但實際上卻并不重要。42整體情報預警的故事設有一群恐怖分子會偶爾在酒店聚會策劃恐怖陰謀。想找出那些同一天在同一個酒店至少出現(xiàn)兩次的人群。43假設被監(jiān)控的人數:10億(109)被監(jiān)控的天數:1000days每個人去酒店的概率1%(1000天里住10天酒店)有10萬(105)家酒店,每家酒店可容納100人
每個人行為都是隨機的。通過數據挖掘能發(fā)現(xiàn)可疑行為嗎?44Calculations–(1)人員
p
和人員
q
同一天在同一個酒店出現(xiàn)的概率:1/100
1/100
10-5=10-9.人員p
和
q
在d1
和
d2
出現(xiàn)在同一個酒店的概率:10-9
10-9=10-18.1000天任意兩天的排列組合:5
105.patsomehotelqatsomehotelSamehotel45Calculations–(2)人員p
和
q
在任意兩天出現(xiàn)在同一個酒店的概率:5
105
10-18=5
10-13.可能的人數是10億,任意兩個人的排列組合是:5
1017.平均可疑的人員對的數目:5
1017
5
10-13=250,000.實際上他們是純隨機導致的巧合46結論假設真的有10對恐怖分子在同一個酒店出現(xiàn)兩次那么需要掃描250,010對候選人才能找出這10對恐怖分子這個方法好嗎?“大數據”是不能亂用的!大數據與云數據管理大數據云計算云數據管理
云計算(CloudComputing),2007年第3季度才誕生的新名詞,僅過了半年多,其受到關注程度就超過網格計算(GridComputing),而且關注度至今一直居高不下
云計算是一種商業(yè)計算模型。它將計算任務分布在大量計算機構成的資源池上,使各種應用系統(tǒng)能夠根據需要獲取計算力、存儲空間和信息服務。云計算到底是什么?云計算有什么特點?云計算起源和發(fā)展1961年斯坦福教授JohnMcCarthy提出計算資源可以成為一種重要的新型工業(yè)基礎。類似水、電、氣和通信。
1999年Salesforce成立,2001年發(fā)布在線CRM系統(tǒng)2001年GoogleCEOEricSchmidt在搜索引擎大會上首次提出”CloudComputing“概念。2003年Google逐步開始在內部使用云計算,2008年推出GoogleAppEngine云計算平臺2006年Amazon正式對外推出彈性計算服務(EC2)。。。各大全球知名廠商跟進(IBM,MicroSoft….)51什么是云計算?計算:對數值或信息進行處理并得到結果的過程,有時也指計算方式。
1+1=2flower.bmpflower.jpg云:由網絡連接起來的各種計算資源(包括計算設備和其上的軟件)云計算:運用由網絡連接起來的大量虛擬化的計算設備對信息進行處理并得到結果的一種計算方式。不是一種產品,也不是一種技術,而是一種產生和獲取計算能力的模式。52大型機時代1960年代1980年代2000年代1990年代微型機時代個人計算機變革將只在特定行業(yè)中應用的大型主機變成每個人都負擔得起的個人電腦,大幅度提高了個人生產效率和企業(yè)效率互聯(lián)網變革將數以億萬計的信息孤島匯集成龐大的信息網絡,極大的提高了人類溝通,共享和協(xié)作的效率,豐富了社交和娛樂生活互聯(lián)網時代云計算變革將IT基礎設施轉變?yōu)橄袼兔簹庖粯拥纳鐣没A設施超級數據中心成為IT資源和服務的提供者技術云計算時代時間云計算是繼個人計算機、互聯(lián)網變革之后的第三次IT革命云計算的由來云計算定義云計算(CloudComputing):是分布式處理(DistributedComputing)、并行處理(ParallelComputing)和網格計算(GridComputing)的發(fā)展,或者說是這些計算機科學概念的商業(yè)實現(xiàn)。是指基于互聯(lián)網的超級計算模式--即把存儲于個人電腦、移動電話和其他設備上的大量信息和處理器資源集中在一起,協(xié)同工作。在極大規(guī)模上可擴展的信息技術能力向外部客戶作為服務來提供的一種計算方式。使得計算資源如同用水、用電、用燃氣一樣40多億的移動電話一
2010年[數據來源:Nokia]個人電腦和筆記本電腦企業(yè)電腦和服務器PDA54從不同角度看云計算的內涵1.云計算是一種IT基礎設施交付和使用模式從原理看,云計算是將計算工作分布在大量的、分布式的計算機上,從而利用大量計算資源(包括硬件設備、軟件及網絡等IT基礎設施)完成所要求的計算任務。云計算環(huán)境下,與傳統(tǒng)的IT基礎設施交付和使用模式的主要區(qū)別:1.基礎設施建設運維方式不同:基礎設施所有權和運維責任2.交付和使用的便捷性不同:提供商交付方式和用戶使用方式55從不同角度看云計算的內涵2.云計算是一種信息服務的交付和使用模式從商業(yè)層面看,云計算提供的是而且僅是服務——可以統(tǒng)稱為“云服務”。從云計算服務商和云計算用戶間的關系看,服務商并未向用戶提供硬件、軟件等事物或具體產品,而是運用自己所掌握的IT資源幫助用戶完成計算任務,滿足用戶使用軟硬件設備或獲得信息的需要?;A設施作為服務(IaaS)平臺作為服務(PaaS)軟件作為服務(SaaS)服務器網絡存儲中間件協(xié)同合作業(yè)務流程CRM/ERP/HR行業(yè)應用數據中心Fabric共享的虛擬化的,動態(tài)部屬數據庫Web2.0應用運行環(huán)境Java運行環(huán)境開發(fā)工具云計算分類Computingon
DemandBlueCloud,PureScaleAppliicationSystem市場的例子IBM的例子Source:HagenWenzekCHQStrategy,2/09云計算分類操作系統(tǒng)+應用服務引擎應用系統(tǒng)基礎設施應用平臺應用軟件(IaaS)(PaaS)(SaaS)根據提供的服務類型,將云計算應用(服務)分為三類Infrastructureasa
Service以服務的形式提供虛擬硬件資源,如虛擬主機/存儲/網絡/安全等資源。用于無需購買服務器、網絡設備、存儲設備,只需通過互聯(lián)網租賃即可搭建自己的應用系統(tǒng)典型應用:AmazonWeb服務IDCPlatformasa
Service提供應用服務引擎,如互聯(lián)網應用編程接口/運行平臺等。用戶基于該應用服務引擎,可以構建該類應用。典型應用:GoogleAppEngine,IBM
PureScaleApplicationSystem,SAESoftwareasa
Service用戶通過標準的Web瀏覽器來使用Internet上的軟件。用戶不必購買軟件,只需按需租用軟件典型應用:Lotus
Live,S58從不同角度看云計算的內涵3.云計算是一種基于互聯(lián)網的新型計算模式從數值和信息處理的角度看,云計算是通過互聯(lián)網將計算任務分布到由大量計算機構成的資源池上,從而使用戶能夠根據需要獲取計算能力、存儲空和信息服務。云計算的四方面新特征:1.資源匯聚:計算資源匯聚在一起通過多租戶模式服務多個消費者2.快速彈性:計算能力能夠以某種自動方式快速而彈性地實現(xiàn)供應3.按需的自助服務:消費者能夠根據自己的需要獲取計算能力4.可控可計量:系統(tǒng)根據服務類型提供相應的計量方式59云計算服務對象:在各行各業(yè)、各種組織、各種產業(yè)拓展應用范圍云計算服務內容:從基礎架構、在線存儲、軟件服務擴展到各種應用領域云計算服務形式:更簡單易用、更安全、更智能的差異化服務從行業(yè)視角滿足中小企業(yè)、政府部門、科研教育、娛樂、商業(yè)企業(yè)的信息化需求成為互聯(lián)網企業(yè)的運營平臺和資源平臺成為人民群眾生活的必需品從產業(yè)領域視角成為物聯(lián)網信息存儲、分析的智能化平臺成為移動互聯(lián)網的基礎信息支撐平臺成為移動電子商務、移動支付的支持平臺逐步進入網絡通信基礎設施領域已有主要服務內容基礎設施即服務/IaaS軟件平臺即服務/PaaS軟件即服務/SaaS存儲即服務/DaaSXaaS一切皆服務,延伸到各種應用硬件即服務:終端設備成為服務發(fā)布形式消息即服務:消息中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024浙江寧波水產品批發(fā)市場有限公司招聘1人筆試參考題庫附帶答案詳解
- 2024浙江寧波奉化國有資本投資控股有限公司招聘面談說明筆試參考題庫附帶答案詳解
- 2024年六安霍邱縣金源生態(tài)環(huán)境產業(yè)投資開發(fā)有限公司招募2人筆試參考題庫附帶答案詳解
- 2024四川長虹空調有限公司招聘費用管理崗位測試筆試參考題庫附帶答案詳解
- 2024四川甘孜州新龍縣招聘新龍縣國資公司總經理及副總經理2人筆試參考題庫附帶答案詳解
- 2024年網絡人才市場分析試題及答案
- 低空經濟產業(yè)園的核心目標:培育低空經濟產業(yè)鏈條
- 低空經濟產業(yè)園發(fā)展實施路徑
- Module 5Unit 1教學設計 2023-2024學年外研版英語八年級下冊
- 江蘇省如皋市薛窯中學高中信息技術 7.2個人數字化信息資源管理教學實錄 教科版必修1
- 《愿望的實現(xiàn)》讀書分享課件
- 2024年安慶迎江區(qū)招聘社區(qū)工作人員考試真題
- 事故隱患內部報告獎勵制度
- (一統(tǒng))昆明市2025屆高三“三診一?!泵自\斷測試 政治試卷(含官方答案)
- 2025年上海市浦東新區(qū)高三語文一模作文題目解析及范文:一個人履行責任是否意味著放棄自由
- 2024年浙江省中考科學試卷
- 廣東省2024年中考數學試卷(含答案)
- JBT 11699-2013 高處作業(yè)吊籃安裝、拆卸、使用技術規(guī)程
- 2024年全國版圖知識競賽(小學組)考試題庫大全(含答案)
- 肌肉注射并發(fā)癥預防與處理
- 建設消防工程竣工驗收報告填寫范例
評論
0/150
提交評論