版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大趨勢
—BigData第一頁,共三十頁。*國內(nèi)大數(shù)據(jù)馬云對未來的預(yù)測,是建立在對用戶行文分析的基礎(chǔ)上。“2008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);而我們提前半年時間從詢盤上推斷出世界貿(mào)易發(fā)生變化了?!彬v訊在天津投資建立亞洲最大的數(shù)據(jù)中心;百度也在投資建立大數(shù)據(jù)處理中心;第二頁,共三十頁。*2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)研發(fā)計劃”,旨在提高和改進從海量和復(fù)雜數(shù)據(jù)中獲取知識的能力,加速美國在科學(xué)和工程領(lǐng)域發(fā)明的步伐,增強國家安全。這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署,由美國國家科學(xué)基金會、能源部等6個聯(lián)邦部門共同投資。美國的大數(shù)據(jù)戰(zhàn)略第三頁,共三十頁。*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應(yīng)用目錄第四頁,共三十頁。*facebook社交網(wǎng)絡(luò)…淘寶、ebuy電子商務(wù)…微博、Apps移動互聯(lián)…21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。互聯(lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)?!按髷?shù)據(jù)”的誕生:半個世紀(jì)以來,隨著計算機技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念*。如今,這個概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。大數(shù)據(jù)時代的背景第五頁,共三十頁。*GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個數(shù)字達到了1.8ZB。而有市場研究機構(gòu)預(yù)測:到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1PB
=2^50字節(jié)1EB
=2^60字節(jié)1ZB=2^70字節(jié)數(shù)據(jù)大爆炸第六頁,共三十頁。*大數(shù)據(jù)的4V特征體量Volume多樣性Variety價值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預(yù)測分析深度復(fù)雜分析(機器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效第七頁,共三十頁。*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應(yīng)用目錄第八頁,共三十頁。*1、密不可分的大數(shù)據(jù)與云計算商業(yè)模式驅(qū)動應(yīng)用需求驅(qū)動云計算本身也是大數(shù)據(jù)的一種業(yè)務(wù)模式大數(shù)據(jù)是落地的云云計算的模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲、訪問和計算。當(dāng)前云計算更偏重海量存儲和計算,以及提供的云服務(wù),運行云應(yīng)用,但是缺乏盤活數(shù)據(jù)資產(chǎn)的能力,挖掘價值性信息和預(yù)測性分析,為國家、企業(yè)、個人提供決策和服務(wù),是大數(shù)據(jù)核心議題,也是云計算的最終方向。第九頁,共三十頁。*2、大數(shù)據(jù)不僅僅是“大”多大?至少PB級比大更重要的是數(shù)據(jù)的復(fù)雜性,有時甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價值第十頁,共三十頁。*4、大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營銷通過用戶行為分析實現(xiàn)精準(zhǔn)營銷是大數(shù)據(jù)的典型應(yīng)用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務(wù)領(lǐng)域具有廣闊的應(yīng)用前景消費行業(yè)金融服務(wù)食品安全醫(yī)療衛(wèi)生軍事交通環(huán)保電子商務(wù)氣象第十一頁,共三十頁。*5、管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個重大問題,真正的問題是讓大數(shù)據(jù)更有意義目前大數(shù)據(jù)管理多從架構(gòu)和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲的橫向擴展,但對非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容理解仍缺乏實質(zhì)性的突破和進展,這是實現(xiàn)大數(shù)據(jù)資源化、知識化、普適化的核心非結(jié)構(gòu)化海量信息的智能化處理:自然語言理解、多媒體內(nèi)容理解、機器學(xué)習(xí)等第十二頁,共三十頁。*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應(yīng)用目錄第十三頁,共三十頁。*分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù)統(tǒng)計和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測:預(yù)測模型;機器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫;NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲;分布式文件系統(tǒng)等計算結(jié)果展現(xiàn):云計算;標(biāo)簽云;關(guān)系圖等存儲結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲按照非結(jié)構(gòu)化存儲解決方案:Hadoop(MapReduce技術(shù))流計算(twitter的storm和yahoo!的S4)一些相關(guān)技術(shù)第十四頁,共三十頁。*行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:IBM大數(shù)據(jù)提供的服務(wù)包括數(shù)據(jù)分析,文本分析,藍色云杉(混搭供電合作的網(wǎng)絡(luò)平臺);業(yè)務(wù)事件處理;IBMMashupCenter的計量,監(jiān)測,和商業(yè)化服務(wù)(MMMS)IBM的大數(shù)據(jù)產(chǎn)品組合中的最新系列產(chǎn)品的InfoSpherebigInsights,基于ApacheHadoop。該產(chǎn)品組合包括:打包的ApacheHadoop的軟件和服務(wù),代號是bigInsights核心,用于開始大數(shù)據(jù)分析軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡單、直觀的提取、批注相關(guān)信息為金融,風(fēng)險管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案微軟:2011年1月與惠普(具體而言是HP數(shù)據(jù)庫綜合應(yīng)用部門)合作目標(biāo)是開發(fā)了一系列能夠提升生產(chǎn)力和提高決策速度的設(shè)備。
EMC:EMC斬獲了紐交所和Nasdaq;大數(shù)據(jù)解決方案已包括40多個產(chǎn)品。Oracle:Oracle大數(shù)據(jù)機與OracleExalogic中間件云服務(wù)器、OracleExadata數(shù)據(jù)庫云服務(wù)器以及OracleExalytics商務(wù)智能云服務(wù)器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產(chǎn)品組合。大數(shù)據(jù)的應(yīng)用
——企業(yè)在投入第十五頁,共三十頁。*政府、金融、電信等行業(yè)投資建立大數(shù)據(jù)的處理分析手段,實現(xiàn)綜合治理、業(yè)務(wù)開拓等目標(biāo);應(yīng)用到制造等更多行業(yè)。更多行業(yè)的應(yīng)用第十六頁,共三十頁。*數(shù)據(jù)的再利用:由于在信息價值鏈中的特殊位置,有些公司可能會收集到大量的數(shù)據(jù),但他們并不急需使用也不擅長再次利用這些數(shù)據(jù)。例如,移動電話運營商手機用戶的位置信息來傳輸電話信號,這對以他們來說,數(shù)據(jù)只有狹窄的技術(shù)用途。但當(dāng)它被一些發(fā)布個性化位置廣告服務(wù)和促銷活動的公司再次利用時,則變得更有價值。大數(shù)據(jù)價值鏈的3大構(gòu)成:數(shù)據(jù)本身、技能與思維其中三者兼具的又谷歌公司,谷歌在剛開始收集數(shù)據(jù)的時候就已經(jīng)有多次使用數(shù)據(jù)的想法。比方說,它的街景采集車手機全球定位系統(tǒng)數(shù)據(jù)不光是為了創(chuàng)建谷歌地圖,也是為了制成全自動汽車以及谷歌眼鏡等與實景交匯的產(chǎn)品。未來,企業(yè)會依靠洞悉數(shù)據(jù)中的信息更加了解自己,也更加了解客戶?!洞髷?shù)據(jù)時代》傳統(tǒng)行業(yè)最終都會轉(zhuǎn)變?yōu)榇髷?shù)據(jù)行業(yè),無論是金融服務(wù)業(yè)、醫(yī)藥還是制造業(yè)。大數(shù)據(jù)的應(yīng)用
——未來,改變一切第十七頁,共三十頁。具體案例第十八頁,共三十頁。難點分析第十九頁,共三十頁。移動用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)第二十頁,共三十頁。什么是hadoop開源Apache項目,靈感來源于Google的 MapReduce白皮書和Google文件系(GFS), Yahoo完成了絕大部分初始設(shè)計和開發(fā)Hadoop核心組件包括:-分布式文件系統(tǒng)-Map/Reduce–分布式計算用Java編寫運行平臺:?Linux,MacOS/X,Solaris,Windows?普通的X86硬件平臺第二十一頁,共三十頁。為什么hadoop很重要非結(jié)構(gòu)化數(shù)據(jù)暴增:–估計未來5年,企業(yè)的數(shù)據(jù)將增長650%,其中80%都是非結(jié)構(gòu)化數(shù)據(jù)–比如FACEBOOK每天收集100TB的數(shù)據(jù),Twitter會有每天產(chǎn)生3500億的tweets非結(jié)構(gòu)化的數(shù)據(jù)同樣蘊藏巨大價值需要新方法利用所有數(shù)據(jù)進行業(yè)務(wù)分析–ApacheHadoop作為一個分析存儲大量數(shù)據(jù)的關(guān)鍵數(shù)據(jù)平臺出現(xiàn)第二十二頁,共三十頁。hadoop與大數(shù)據(jù)Hadoop是致力于“大數(shù)據(jù)”處理的最重要平臺之一–能夠輕松擴展到PB級別的數(shù)據(jù)存儲,處理規(guī)模–帶有高度容錯能力的并行處理架構(gòu)–基于普通的X86平臺硬件架構(gòu),硬件成本低廉–用內(nèi)置格式存儲/處理數(shù)據(jù)–基于開源項目,擁有當(dāng)量的代碼來源,并且傳統(tǒng)廠商也日益重視對其的支持,它已經(jīng)成為重要的并行處理架構(gòu)標(biāo)準(zhǔn)之一第二十三頁,共三十頁。英特爾企業(yè)級Hadoop堆棧第二十四頁,共三十頁。我現(xiàn)在做的工作——Nutch定義Nutch是一個開源的、Java實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。第二十五頁,共三十頁。nutch首頁第二十六頁,共三十頁。搜索引擎原理一、搜索引擎原理用戶用戶用戶檢索入口google百度結(jié)果排序網(wǎng)頁索引網(wǎng)頁分析網(wǎng)頁抓取互聯(lián)網(wǎng)搜索引擎技術(shù)框架圖第二十七頁,共三十頁。Nutch工作原理第二十八頁,共三十頁。
謝謝第二十九頁,共三十頁。內(nèi)容總結(jié)大趨勢。這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署,由美國國家科學(xué)基金會、能源部等6個聯(lián)邦部門共同投資。半個世紀(jì)以來,隨著計算機技術(shù)全面融入社
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《先秦文論范疇生成土壤和來源的考察》
- 2024年聊城考客運資格證
- 2024年銀川客運資格證應(yīng)用能力考試答案
- 2024年廣州客運從業(yè)資格證模擬考試題庫下載電子版
- 2024年太原客運車從業(yè)資格證考試內(nèi)容是什么
- 2024年河北客運車從業(yè)資格證考試內(nèi)容
- 2023屆新高考化學(xué)選考一輪總復(fù)習(xí)訓(xùn)練-階段過關(guān)檢測(四) 化學(xué)反應(yīng)原理
- 2023屆新高考化學(xué)選考一輪總復(fù)習(xí)學(xué)案-熱點19 常見氣體制備裝置的研究
- 《第1課 從百家爭鳴到獨尊儒術(shù)》(同步訓(xùn)練)高中歷史必修3-北師大版-2024-2025學(xué)年
- 2024年大客戶采購協(xié)議文本
- 雅魯藏布江大拐彎巨型水電站規(guī)劃方案
- 廣西基本醫(yī)療保險門診特殊慢性病申報表
- 城市經(jīng)濟學(xué)習(xí)題與答案
- 國開成本會計第14章綜合練習(xí)試題及答案
- 幼兒園大班科學(xué):《樹葉為什么會變黃》課件
- 1到50帶圈數(shù)字直接復(fù)制
- 鐵路工程施工組織設(shè)計(施工方案)編制分類
- 幼兒園中班數(shù)學(xué)《有趣的圖形》課件
- 《規(guī)劃每一天》教案2021
- 草莓創(chuàng)意主題實用框架模板ppt
- 山大口腔頜面外科學(xué)課件第5章 口腔種植外科-1概論、口腔種植的生物學(xué)基礎(chǔ)
評論
0/150
提交評論