大數(shù)據(jù)系列什么是大數(shù)據(jù)_第1頁(yè)
大數(shù)據(jù)系列什么是大數(shù)據(jù)_第2頁(yè)
大數(shù)據(jù)系列什么是大數(shù)據(jù)_第3頁(yè)
大數(shù)據(jù)系列什么是大數(shù)據(jù)_第4頁(yè)
大數(shù)據(jù)系列什么是大數(shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)時(shí)代大數(shù)據(jù)系列什么是大數(shù)據(jù)第1頁(yè)主講人:廖什么是大數(shù)據(jù)大數(shù)據(jù)系列什么是大數(shù)據(jù)第2頁(yè)廖老師告訴你,大數(shù)據(jù)就是大量數(shù)據(jù)。廖老師告訴你,大數(shù)據(jù)就是大量數(shù)據(jù)。大數(shù)據(jù)系列什么是大數(shù)據(jù)第3頁(yè)大數(shù)據(jù)很抽象,表示數(shù)據(jù)規(guī)模龐大。大數(shù)據(jù)泛指巨量數(shù)據(jù)集,因可從中挖掘出有價(jià)值信息而受到重視?!度A爾街日?qǐng)?bào)》將大數(shù)據(jù)時(shí)代、智能化生產(chǎn)、無(wú)線網(wǎng)絡(luò)革命稱為引領(lǐng)未來(lái)繁榮發(fā)展重大技術(shù)變革。當(dāng)前對(duì)大數(shù)據(jù)還未有一個(gè)公認(rèn)定義,不一樣定義基本上是從特征出發(fā),試圖給出大數(shù)據(jù)定義。什么是“大數(shù)據(jù)”?大數(shù)據(jù)很抽象,表示數(shù)據(jù)規(guī)模龐大。

大數(shù)據(jù)泛指巨量數(shù)據(jù)集,因可從中挖掘出有價(jià)值信息而受到重視。《華爾街日?qǐng)?bào)》將大數(shù)據(jù)時(shí)代、智能化生產(chǎn)、無(wú)線網(wǎng)絡(luò)革命稱為引領(lǐng)未來(lái)繁榮發(fā)展重大技術(shù)變革。當(dāng)前對(duì)大數(shù)據(jù)還未有一個(gè)公認(rèn)定義,不一樣定義基本上是從特征出發(fā),試圖給出大數(shù)據(jù)定義。大數(shù)據(jù)系列什么是大數(shù)據(jù)第4頁(yè)維基百科給出定義:大數(shù)據(jù)是指利用慣用軟件工具捕捉、管理和處理數(shù)據(jù)所耗時(shí)間超出可容忍時(shí)間數(shù)據(jù)集。大數(shù)據(jù)系列什么是大數(shù)據(jù)第5頁(yè)大數(shù)據(jù)有多大?大數(shù)據(jù)系列什么是大數(shù)據(jù)第6頁(yè)大數(shù)據(jù):信息爆炸時(shí)代產(chǎn)生海量數(shù)據(jù)大數(shù)據(jù)到底有多大?一天之中:互聯(lián)網(wǎng)產(chǎn)生全部?jī)?nèi)容能夠刻滿1.68億張DVD;發(fā)出郵件>2940億封(美國(guó)兩年紙質(zhì)信件數(shù)量);

小區(qū)帖子達(dá)200萬(wàn)個(gè)(《時(shí)代》雜志770年文字量);賣(mài)出手機(jī)37.8萬(wàn)臺(tái)(全球天天出生嬰兒37.1萬(wàn))……大數(shù)據(jù):信息爆炸時(shí)代產(chǎn)生海量數(shù)據(jù)大數(shù)據(jù)系列什么是大數(shù)據(jù)第7頁(yè)大數(shù)據(jù)到底有多大?一天之中:互聯(lián)網(wǎng)產(chǎn)生全部?jī)?nèi)容能夠刻滿1.68億張DVD;發(fā)出郵件>2940億封(美國(guó)兩年紙質(zhì)信件數(shù)量);小區(qū)帖子達(dá)200萬(wàn)個(gè)(《時(shí)代》雜志770年文字量);賣(mài)出手機(jī)37.8萬(wàn)臺(tái)(全球天天出生嬰兒37.1萬(wàn))……我國(guó)網(wǎng)民數(shù)量居世界之首,天天產(chǎn)生數(shù)據(jù)量也位于世界前列。淘寶網(wǎng)站單日數(shù)據(jù)產(chǎn)生量超出5萬(wàn)GB存放量4000萬(wàn)GBbaidu企業(yè)當(dāng)前數(shù)據(jù)總量10億GB存放網(wǎng)頁(yè)1萬(wàn)億頁(yè)天天大約要處理60億次搜索請(qǐng)求一個(gè)8Mbps攝像頭一小時(shí)能產(chǎn)生3.6GB

數(shù)據(jù)一個(gè)城市每個(gè)月產(chǎn)生數(shù)據(jù)達(dá)上千萬(wàn)GB醫(yī)院大數(shù)據(jù)系列什么是大數(shù)據(jù)第8頁(yè)一個(gè)病人CT影像數(shù)據(jù)量達(dá)幾十GB全國(guó)每年需保留數(shù)據(jù)達(dá)上百億GB大數(shù)據(jù)特征大數(shù)據(jù)系列什么是大數(shù)據(jù)第9頁(yè)數(shù)據(jù)量大(Volume)大數(shù)據(jù)起始計(jì)量單位最少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T)類型繁多(Variety)包含網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等價(jià)值密度低(Value)伴隨物聯(lián)網(wǎng)廣泛應(yīng)用,信息感知無(wú)處不在,信息海量,但價(jià)值密度較低速度快時(shí)效高(Velocity)處理速度快,時(shí)效性要求高,如雅安地震等?!按罅炕?Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”顯著特征,或者說(shuō),只有具備這些特點(diǎn)數(shù)據(jù),才是大數(shù)據(jù)?!按罅炕?Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value就是“大數(shù)據(jù)”顯著特征,或者說(shuō),只有具備這些特點(diǎn)數(shù)據(jù),才是大數(shù)據(jù)。大數(shù)據(jù)系列什么是大數(shù)據(jù)第10頁(yè)大數(shù)據(jù)不但僅是“大”比大更主要是數(shù)據(jù)復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中小數(shù)據(jù)如一條微博就含有顛覆性價(jià)值*大數(shù)據(jù)不但僅是“大”多大?最少PB級(jí)比大更主要是數(shù)據(jù)復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中小數(shù)據(jù)如一條微博就含有顛覆性價(jià)值大數(shù)據(jù)系列什么是大數(shù)據(jù)第11頁(yè)怎樣讓大數(shù)據(jù)更有意義是重點(diǎn);對(duì)非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容了解是實(shí)現(xiàn)大數(shù)據(jù)資源化、知識(shí)化、普適化關(guān)鍵非結(jié)構(gòu)化海量信息智能化處理:自然語(yǔ)言了解、多媒體內(nèi)容了解、機(jī)器學(xué)習(xí)等麻省理工學(xué)院數(shù)字商業(yè)中心首席科學(xué)家安德魯麥卡菲對(duì)北美33家上市企業(yè)高管進(jìn)行了結(jié)構(gòu)性訪談之后發(fā)覺(jué):利用大數(shù)據(jù)做決議那些行業(yè)領(lǐng)先企業(yè),比其競(jìng)爭(zhēng)對(duì)手在產(chǎn)能上高5%,利潤(rùn)上高6%。大數(shù)據(jù)系列什么是大數(shù)據(jù)第12頁(yè)但現(xiàn)有數(shù)據(jù),不夠聯(lián)沒(méi)有跨界大數(shù)據(jù)不是真正大數(shù)據(jù)但現(xiàn)有數(shù)據(jù),不夠聯(lián)大數(shù)據(jù)系列什么是大數(shù)據(jù)第13頁(yè)沒(méi)有跨界大數(shù)據(jù)不是真正大數(shù)據(jù)大數(shù)據(jù)系列什么是大數(shù)據(jù)第14頁(yè)軟件是大數(shù)據(jù)引擎大數(shù)據(jù)系列什么是大數(shù)據(jù)第15頁(yè)分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/B

test;top

N排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫(kù);NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存放;分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等存放結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存放不利于檢索、查詢和存放半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存放按照非結(jié)構(gòu)化存放處理方案:Hadoop(MapReduce技術(shù))流計(jì)算(twitterstorm和yahoo!S4)分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)

統(tǒng)計(jì)和分析:A/B

test;

top

N排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫(kù);NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存放;分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等存放結(jié)構(gòu)化數(shù)據(jù):

海量數(shù)據(jù)查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)

圖片、視頻、word、pdf、ppt等文件存放不利于檢索、查詢和存放半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存放按照非結(jié)構(gòu)化存放處理方案:Hadoop(Ma

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論