




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
12月大數(shù)據(jù)分
析主講人:第1頁
大數(shù)據(jù)綜述大數(shù)據(jù)特征大數(shù)據(jù)采集、存放技術(shù)大數(shù)據(jù)分析系統(tǒng)架構(gòu)
大數(shù)據(jù)建模分析方法
分析結(jié)果可視化展示技術(shù)目錄第2頁●伴隨當(dāng)代信息采集技術(shù)、物聯(lián)網(wǎng)、云計(jì)算、互聯(lián)網(wǎng)絡(luò)等信息技術(shù)以及新興服務(wù)產(chǎn)業(yè)快速發(fā)展,使得人類社會數(shù)據(jù)種類和規(guī)模(社會管理、生產(chǎn)生活、行業(yè)產(chǎn)業(yè)、文化教育、資源環(huán)境等)正以前所未有速度增加,數(shù)據(jù)從簡單處理對象開始轉(zhuǎn)變?yōu)橐粋€基礎(chǔ)性資源(原始數(shù)據(jù)和應(yīng)用數(shù)據(jù))?!瘛霸鯓痈雍玫毓芾砗屠么髷?shù)據(jù)”已經(jīng)成為普遍關(guān)注話題。大數(shù)據(jù)規(guī)模效應(yīng)給數(shù)據(jù)存放、管理以及數(shù)據(jù)分析帶來了極大技術(shù)挑戰(zhàn)和利用價值。●自《Nature》雜志發(fā)表大數(shù)據(jù)專輯以來,大數(shù)據(jù)概念和價值得到越來越多關(guān)注。年,美國和中國分別將大數(shù)據(jù)提升到國家戰(zhàn)略高度。
大
數(shù)
據(jù)
綜述第3頁衛(wèi)星監(jiān)測數(shù)據(jù)資源環(huán)境數(shù)據(jù)智慧城市數(shù)據(jù)
大
數(shù)
據(jù)
綜述第4頁視頻監(jiān)測氣象監(jiān)測-24個指標(biāo)土壤養(yǎng)分監(jiān)測-15個指標(biāo)土壤水分監(jiān)測-5個指標(biāo)生長監(jiān)測-16個指標(biāo)過程監(jiān)測數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)
大
數(shù)
據(jù)
綜述第5頁數(shù)據(jù)無處不在數(shù)據(jù)無時不有數(shù)據(jù)無物不生數(shù)據(jù)無人不感多源性異質(zhì)性多樣性增加性
伴隨傳感器、智能移動設(shè)備、互聯(lián)網(wǎng)等技術(shù)發(fā)展,數(shù)據(jù)展現(xiàn)爆炸式增加。
大
數(shù)
據(jù)
綜述第6頁自古以來,在科學(xué)研究上,先后歷經(jīng)了試驗(yàn)、理論和計(jì)算3種范式。當(dāng)數(shù)據(jù)量不停增加和累積到今天,傳統(tǒng)3種范式在科學(xué)研究,尤其是一些新研究領(lǐng)域已經(jīng)無法很好地發(fā)揮作用,需要有一個全新第4種范式來指導(dǎo)新形勢下科學(xué)研究?;谶@種考慮,圖靈獎取得者、著名數(shù)據(jù)庫教授JimGray博士提出了一個新數(shù)據(jù)探索型研究方式,被他自己稱之為科學(xué)研究“第4種范式”。
大
數(shù)
據(jù)
綜述科學(xué)研究方法第7頁科學(xué)范式時間方法論經(jīng)驗(yàn)上千年以前描述自然現(xiàn)象理論最近幾百年使用模型,歸納計(jì)算最近幾十年模擬(仿真)復(fù)雜現(xiàn)象數(shù)據(jù)探查(eScience)目前經(jīng)過儀器或模擬獲取數(shù)據(jù),基于軟件數(shù)據(jù)處理,計(jì)算機(jī)信息存放,數(shù)據(jù)科學(xué)分析科學(xué)發(fā)覺4種范式大數(shù)據(jù)發(fā)展對傳統(tǒng)數(shù)據(jù)處理技術(shù)體系提出了巨大挑戰(zhàn),需要我們在數(shù)據(jù)采集、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)等方面做全新技術(shù)升級。
大
數(shù)
據(jù)
綜述第8頁
大數(shù)據(jù)技術(shù)是一個經(jīng)典跨領(lǐng)域研究方向,在數(shù)據(jù)采集、存放、傳輸、管理、安全和分析等很多方面均面臨著技術(shù)變革和創(chuàng)新。數(shù)據(jù)復(fù)雜性計(jì)算復(fù)雜性系統(tǒng)復(fù)雜性數(shù)據(jù)處理技術(shù)與系統(tǒng)批量數(shù)據(jù)處理技術(shù)與系統(tǒng)流量數(shù)據(jù)處理技術(shù)與系統(tǒng)交互式數(shù)據(jù)處理技術(shù)與系統(tǒng)多媒體數(shù)據(jù)處理技術(shù)與系統(tǒng)
大
數(shù)
據(jù)
綜述大數(shù)據(jù)面臨挑戰(zhàn)第9頁大數(shù)據(jù)處理系統(tǒng)三大發(fā)展趨勢數(shù)據(jù)處理引擎專用化數(shù)據(jù)處理平臺多樣化數(shù)據(jù)計(jì)算實(shí)時化大數(shù)據(jù)分析支撐技術(shù)和應(yīng)用深度學(xué)習(xí)知識計(jì)算社會計(jì)算可視化經(jīng)典應(yīng)用場景等
大
數(shù)
據(jù)
綜述第10頁大數(shù)據(jù)分析關(guān)鍵技術(shù)框架1、大數(shù)據(jù)經(jīng)典處理模式—MapReduce
MapReduce是一個編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)并行運(yùn)算。Map(映射)和Reduce(歸約),以及它們主要思想,都是從函數(shù)式編程語言里借鑒。它極大地方便了編程人員在不會分布式并行編程情況下,將自己程序運(yùn)行在分布式系統(tǒng)上。
當(dāng)前軟件實(shí)現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新鍵值對,指定并發(fā)Reduce(歸約)函數(shù),用來確保全部映射鍵值對中每一個共享相同鍵組。
大
數(shù)
據(jù)
綜述第11頁
圖1MapReduce執(zhí)行流程圖
大
數(shù)
據(jù)
綜述第12頁
MapReduc模型首先將用戶原始數(shù)據(jù)源進(jìn)行分塊,然后分別交給不一樣Map任務(wù)區(qū)處理。Map任務(wù)從輸入中解析出鏈/值(Key/Value)對集合,然后對這些集合執(zhí)行用戶自行定義Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫入當(dāng)?shù)赜脖P。MapReduc任務(wù)從硬盤上讀取數(shù)據(jù)之后會依據(jù)Key值進(jìn)行排序,將含有相同Key值組織在一起,由用戶自定義MapReduc函數(shù)作用于這些排好序結(jié)果并輸出最終止果。從MapReduc處理過程能夠看出,MapReduc關(guān)鍵設(shè)計(jì)思想在于:1)將問題分而治之;2)把計(jì)算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計(jì)算,有效地防止數(shù)據(jù)傳輸過程中產(chǎn)生大量通信開銷。MapReduc模型簡單,且現(xiàn)實(shí)中很多問題都可用MapReduc模型來表示。
大
數(shù)
據(jù)
綜述原理和技術(shù)路線第13頁2、經(jīng)典大數(shù)據(jù)處理平臺—Hadoop
由Apache基金會所開發(fā)分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶能夠在不了解分布式底層細(xì)節(jié)情況下,開發(fā)分布式程序。充分利用集群優(yōu)勢進(jìn)行高速運(yùn)算和存放。Hadoop實(shí)現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS。HDFS有高容錯性特點(diǎn),而且設(shè)計(jì)用來布署在低廉硬件上,提供高吞吐量來訪問應(yīng)用程序數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)應(yīng)用程序。HDFS能夠流形式訪問文件系統(tǒng)中數(shù)據(jù)。Hadoop框架最關(guān)鍵設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量數(shù)據(jù)提供了存放,則MapReduce為海量數(shù)據(jù)提供了計(jì)算模式。Hadoop已經(jīng)發(fā)展成為包含文件系統(tǒng)、數(shù)據(jù)庫、數(shù)據(jù)處理等功效模塊在內(nèi)完整系統(tǒng),某種程度上能夠說已經(jīng)成為大數(shù)據(jù)處理工具實(shí)際上標(biāo)準(zhǔn)。
大
數(shù)
據(jù)
綜述第14頁圖3HadoopDB體系架構(gòu)(Google)
大
數(shù)
據(jù)
綜述第15頁3、大數(shù)據(jù)處理基本框架大數(shù)據(jù)處理經(jīng)典框架及流程
大
數(shù)
據(jù)
綜述第16頁大數(shù)據(jù)處理流程能夠定義為在適當(dāng)工具輔助下,對廣泛異構(gòu)數(shù)據(jù)源進(jìn)行抽取和集成,結(jié)果按照一定標(biāo)準(zhǔn)統(tǒng)一存放。利用適當(dāng)數(shù)據(jù)分析技術(shù)對存放數(shù)據(jù)進(jìn)行分析,從中提取有益知識并利用恰當(dāng)方式將結(jié)果展現(xiàn)給終端用戶??煞譃槿齻€主要步驟:數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋。1)數(shù)據(jù)抽取與集成:在大數(shù)據(jù)集合中提取出關(guān)系和實(shí)體,經(jīng)過關(guān)聯(lián)和聚合之后采取統(tǒng)一定義結(jié)構(gòu)來存放這些數(shù)據(jù),同時對數(shù)據(jù)進(jìn)行清洗,確保數(shù)據(jù)質(zhì)量及可信性。
現(xiàn)有數(shù)據(jù)抽取與集成方式能夠大致分為以下4種類型:基于物化或ETL方法引擎,基于聯(lián)邦數(shù)據(jù)庫或中間件方法引擎,基于數(shù)據(jù)流方法引擎,基于搜索引擎方法。
大
數(shù)
據(jù)
綜述第17頁2)數(shù)據(jù)分析:整個大數(shù)據(jù)處理流程關(guān)鍵。從異構(gòu)數(shù)據(jù)源抽取和集成數(shù)據(jù)組成了數(shù)據(jù)分析原始數(shù)據(jù),依據(jù)不一樣應(yīng)用需求能夠從這些數(shù)據(jù)中選擇全部或部分進(jìn)行分析。
面向經(jīng)典大數(shù)據(jù)分析領(lǐng)域,如推薦系統(tǒng)、商業(yè)智能、決議支持等,當(dāng)前數(shù)據(jù)分析技術(shù)主要有:挖掘建模分析(數(shù)據(jù)挖掘方法),智能建模分析(機(jī)器學(xué)習(xí)方法),統(tǒng)計(jì)分析等。3)數(shù)據(jù)解釋:將數(shù)據(jù)分析分析結(jié)果面向用戶進(jìn)行展示,如可視化方式,人機(jī)交互方式,分析圖表方式等。
大
數(shù)
據(jù)
綜述第18頁4、大數(shù)據(jù)時代面臨技術(shù)創(chuàng)新:大數(shù)據(jù)時代數(shù)據(jù)存在著以下幾個特點(diǎn):多源異構(gòu)、分布廣泛、動態(tài)增加、先有數(shù)據(jù)后有模式,正是這些與傳統(tǒng)數(shù)據(jù)管理迥然不一樣特點(diǎn),使得大數(shù)據(jù)時代數(shù)據(jù)管理面臨著新挑戰(zhàn)。(1)大數(shù)據(jù)集成:廣泛異構(gòu)性(數(shù)據(jù)類型從以結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)向結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三者融合),數(shù)據(jù)產(chǎn)生方式多樣性帶來數(shù)據(jù)源改變,數(shù)據(jù)存放方式改變,數(shù)據(jù)質(zhì)量改變。(2)大數(shù)據(jù)分析:數(shù)據(jù)處理實(shí)時性(在線、近線、離線),動態(tài)改變環(huán)境中索引設(shè)計(jì),先驗(yàn)知識缺乏。(3)大數(shù)據(jù)隱私問題(4)大數(shù)據(jù)能耗問題(5)大數(shù)據(jù)處理與硬件協(xié)同
大
數(shù)
據(jù)
綜述第19頁(6)大數(shù)據(jù)管理易用性:從數(shù)據(jù)集成到數(shù)據(jù)分析、直到最終數(shù)據(jù)解釋,易用性應(yīng)該貫通整個大數(shù)據(jù)流程。易用性挑戰(zhàn),突出表達(dá)在兩個方面:首先大數(shù)據(jù)時代數(shù)據(jù)量大,分析更復(fù)雜,得到結(jié)果形式愈加多樣化,其復(fù)雜程度已經(jīng)遠(yuǎn)遠(yuǎn)超出傳統(tǒng)關(guān)系數(shù)據(jù)庫;其次,大數(shù)據(jù)已經(jīng)廣泛滲透到人們生活各個方面,很多行業(yè)都開始有了大數(shù)據(jù)分析需求、利用。(7)可視化標(biāo)準(zhǔn):原位分析,用戶界面與交互設(shè)計(jì),大數(shù)據(jù)可視化,數(shù)據(jù)庫與存放,算法,數(shù)據(jù)移動、傳輸和網(wǎng)絡(luò)架構(gòu),不確定性量化,并行化,面向領(lǐng)域與開發(fā)庫、框架以及工具,社會,小區(qū)以及政府參加。(8)匹配標(biāo)準(zhǔn):(9)反饋標(biāo)準(zhǔn):
大
數(shù)
據(jù)
綜述第20頁5、元數(shù)據(jù)及元數(shù)據(jù)管理元數(shù)據(jù)是關(guān)于數(shù)據(jù)數(shù)據(jù),數(shù)據(jù)之間關(guān)聯(lián)關(guān)系以及數(shù)據(jù)本身一些屬性大都是靠元數(shù)據(jù)來表示??梢暬夹g(shù)離不開元數(shù)據(jù)支持,因?yàn)榧偃鐭o法準(zhǔn)確表征出數(shù)據(jù)之間關(guān)系,就無法對數(shù)據(jù)進(jìn)行可視化展示。數(shù)據(jù)起源技術(shù)更是離不開元數(shù)據(jù)管理技術(shù),因?yàn)閿?shù)據(jù)起源需要利用元數(shù)據(jù)來統(tǒng)計(jì)數(shù)據(jù)之間包含因果關(guān)系在內(nèi)各種復(fù)雜關(guān)系,并經(jīng)過這些信息來進(jìn)行相關(guān)推斷。怎樣在大規(guī)模存放系統(tǒng)中實(shí)現(xiàn)海量元數(shù)據(jù)高效管理將會對大數(shù)據(jù)易用性產(chǎn)生主要影響,海量元數(shù)據(jù)管理問題是需要尤其關(guān)注一個問題。
大
數(shù)
據(jù)
綜述第21頁6、信息融合利用計(jì)算機(jī)技術(shù)對按時序取得若干傳感器觀察信息在一定準(zhǔn)則下加以自動分析、綜合,以完成所需決議和預(yù)計(jì)任務(wù)而進(jìn)行信息處理過程。多傳感器系統(tǒng)是信息融合硬件基礎(chǔ),多源信息是融合加工對象,協(xié)調(diào)優(yōu)化和綜合處理是信息融合關(guān)鍵。需深入研究問題:數(shù)據(jù)融合系統(tǒng)功效模型、抽象層次、系統(tǒng)體系結(jié)構(gòu)、設(shè)計(jì)和性能評價等方面,還有待于從系統(tǒng)角度進(jìn)行探討。
大
數(shù)
據(jù)
綜述第22頁開發(fā)多傳感器數(shù)據(jù)融合系統(tǒng)MSF系統(tǒng)則需要一個形式框架,方便對MSF系統(tǒng)進(jìn)行形式化描述,對系統(tǒng)性質(zhì)進(jìn)行形式化表示和驗(yàn)證,從而提升系統(tǒng)結(jié)構(gòu)可靠性和系統(tǒng)行為可預(yù)測性。形式系統(tǒng)可表示為S=〈M,T〉;其中,M為模型,T為理論。數(shù)據(jù)融合可視為形式系統(tǒng)上運(yùn)算:1)能用形式語言來描述世界(系統(tǒng))、傳感過程;2)能用模型來表示數(shù)據(jù)、數(shù)據(jù)運(yùn)算和數(shù)據(jù)間關(guān)系,模型由域、常量、函數(shù)以及域中元素間關(guān)系組成;3)能用理論來表現(xiàn)關(guān)于世界和關(guān)于傳感器符號知識。一個形式語言、一個形式語言理論和一個模型共同組成一個形式系統(tǒng)。
大
數(shù)
據(jù)
綜述第23頁7、大數(shù)據(jù)處理流程整個大數(shù)據(jù)處理流程能夠定義為在適當(dāng)工具輔助下,對廣泛異構(gòu)數(shù)據(jù)源進(jìn)行抽取和集成,結(jié)果按照一定標(biāo)準(zhǔn)統(tǒng)一存放。利用適當(dāng)數(shù)據(jù)分析技術(shù)對存放數(shù)據(jù)進(jìn)行分析,從中提取有益知識并利用恰當(dāng)方式將結(jié)果展現(xiàn)給終端用戶。詳細(xì)來說能夠分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋。大數(shù)據(jù)價值完整表達(dá)需要各種技術(shù)協(xié)同,文件系統(tǒng)提供最底層存放能力支持。為了便于數(shù)據(jù)管理,需要在文件系統(tǒng)之上建立數(shù)據(jù)庫系統(tǒng)。經(jīng)過索引等構(gòu)建,對外提供高效數(shù)據(jù)查詢等慣用功效,最終經(jīng)過數(shù)據(jù)分析技術(shù)從數(shù)據(jù)庫中大數(shù)據(jù)提取出有益知識。
大
數(shù)
據(jù)
綜述第24頁8、數(shù)據(jù)抽取與集成對所需數(shù)據(jù)源數(shù)據(jù)進(jìn)行抽取和集成,從中提取出關(guān)系和實(shí)體,經(jīng)過關(guān)聯(lián)和聚合之后采取統(tǒng)一定義結(jié)構(gòu)來存放這些數(shù)據(jù)。從數(shù)據(jù)集成模型來看,現(xiàn)有數(shù)據(jù)抽取與集成方式能夠大致分為以下種類型:基于物化或方法引擎、基于聯(lián)邦數(shù)據(jù)庫或中間件方法引擎、基于數(shù)據(jù)流方法引擎及基于搜索引擎方法。
大
數(shù)
據(jù)
綜述第25頁9、數(shù)據(jù)分析
數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程關(guān)鍵,大數(shù)據(jù)價值產(chǎn)生于分析過程。從異構(gòu)數(shù)據(jù)源抽取和集成數(shù)據(jù)組成了數(shù)據(jù)分析原始數(shù)據(jù),依據(jù)不一樣應(yīng)用需求能夠從這些數(shù)據(jù)中選擇全部或部分進(jìn)行分析。傳統(tǒng)分析技術(shù)如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等在大數(shù)據(jù)時代需要作出調(diào)整,這些技術(shù)在大數(shù)據(jù)時代面臨著一些新挑戰(zhàn)。主要有:1)數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價值增加;2)大數(shù)據(jù)時代算法需要進(jìn)行調(diào)整;3)數(shù)據(jù)結(jié)果好壞衡量。
大
數(shù)
據(jù)
綜述第26頁10、數(shù)據(jù)解釋1)可視化技術(shù);2)人機(jī)交互技術(shù);3)數(shù)據(jù)起源技術(shù)。
在線(Online)毫秒-秒級;近線(Nearline)分-小時級;離線(Offline)天為基本單位。
大
數(shù)
據(jù)
綜述第27頁微軟大數(shù)據(jù)成功預(yù)測奧斯卡21項(xiàng)大獎,微軟紐約研究院經(jīng)濟(jì)學(xué)家大衛(wèi).羅斯柴爾德(DavidRothschild),經(jīng)過搜集賭博市場、好萊塢證券交易所、用戶自動生成信息等大量公開數(shù)據(jù)建立預(yù)測模型,利用大數(shù)據(jù)成功預(yù)測年第85屆24個奧斯卡金像獎項(xiàng)中19個。20Rothschild再次成功預(yù)測第86屆奧斯卡獎24個獎項(xiàng)中21個,并準(zhǔn)確預(yù)測出最正確電影、最正確導(dǎo)演、最正確男女主角、最正確男女配角等重頭獎項(xiàng)獲獎?wù)?,?zhǔn)確率為100%。11月奧巴馬大選連任成功也被歸功于大數(shù)據(jù),他競選團(tuán)體以前對民意進(jìn)行了大規(guī)模與深入數(shù)據(jù)挖掘。時代雜志更是斷言,依靠直覺與經(jīng)驗(yàn)進(jìn)行決議優(yōu)勢急劇下降,在政治領(lǐng)域,大數(shù)據(jù)時代已經(jīng)到來。奧巴馬大選連任成功
大
數(shù)
據(jù)
綜述第28頁電商大數(shù)據(jù)
伴隨大型電子商務(wù)平臺發(fā)展,以往分散經(jīng)濟(jì)數(shù)據(jù)開始聚合在像阿里巴巴、京東、亞馬遜這么巨頭手中,可以實(shí)時完成匯總、瞬間完成數(shù)據(jù)分析,這些電商數(shù)據(jù)成為了解社會、行業(yè)甚至細(xì)化到企業(yè)數(shù)據(jù)百寶庫。能夠分析出消費(fèi)者行為,進(jìn)行準(zhǔn)確推薦營銷,預(yù)測企業(yè)走勢或者行業(yè)興衰。給平臺管理者和商家、產(chǎn)家?guī)泶罅可虣C(jī)和利潤。數(shù)據(jù)新聞讓英國撤軍
10月23日《衛(wèi)報》利用維基解密數(shù)據(jù)做了一篇“數(shù)據(jù)新聞”。將伊拉克戰(zhàn)爭中全部人員傷亡情況均標(biāo)注于地圖之上。地圖上一個紅點(diǎn)便代表一次死傷事件,鼠標(biāo)點(diǎn)擊紅點(diǎn)后彈出窗口則有詳細(xì)說明:傷亡人數(shù)、時間,造成傷亡詳細(xì)原因。密布紅點(diǎn)多達(dá)39萬,格外觸目驚心。一經(jīng)刊出馬上引發(fā)朝野震動,推進(jìn)英國最終做出撤出駐伊拉克軍隊(duì)決定。
大
數(shù)
據(jù)
綜述第29頁Google成功預(yù)測冬季流感20,Google經(jīng)過分析5000萬條美國人最頻繁檢索詞匯,將之和美國疾病中心在到年間季節(jié)性流感傳輸時期數(shù)據(jù)進(jìn)行比較,并建立一個特定數(shù)學(xué)模型。最終谷歌成功預(yù)測了2009冬季流感傳輸,甚至能夠詳細(xì)到特定地域和州。大數(shù)據(jù)與喬布斯癌癥治療喬布斯是世界上第一個對本身全部DNA和腫瘤DNA進(jìn)行排序人。為此,他支付了高達(dá)幾十萬美元費(fèi)用。他得到不是樣本,而是包含整個基因數(shù)據(jù)文檔。醫(yī)生按照全部基因按需下藥,最終這種方式幫助喬布斯延長了好幾年生命。
大
數(shù)
據(jù)
綜述第30頁互聯(lián)網(wǎng)、傳感技術(shù)及其應(yīng)用迅猛發(fā)展產(chǎn)生了各種各樣海量數(shù)據(jù),它們存放和處理很多都是前所未研究;社會和生產(chǎn)性服務(wù)業(yè)(包含物質(zhì)、精神等方面)爆炸式發(fā)展產(chǎn)生了海量數(shù)據(jù);智慧城市,智能小區(qū)、交通、通信、物流、醫(yī)療、能源、信息化、機(jī)器人等應(yīng)用中產(chǎn)生了大量數(shù)據(jù)。大數(shù)據(jù)分析產(chǎn)生背景大數(shù)據(jù)特征和定義第31頁1.“大數(shù)據(jù)”名稱來自于未來學(xué)家托夫勒所著《第三次浪潮》1980年,著名未來學(xué)家托夫勒在其所著《第三次浪潮》中熱情地將“大數(shù)據(jù)”稱頌為“第三次浪潮華彩樂章”?!蹲匀弧冯s志在9月推出了名為“大數(shù)據(jù)”封面專欄。從年開始“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)技術(shù)行業(yè)中熱門詞匯。2.最早應(yīng)用“大數(shù)據(jù)”是麥肯錫企業(yè)(McKinsey)對“大數(shù)據(jù)”進(jìn)行搜集和分析構(gòu)想,來自于世界著名管理咨詢企業(yè)麥肯錫企業(yè)。麥肯錫企業(yè)看到了各種網(wǎng)絡(luò)平臺統(tǒng)計(jì)個人海量信息具備潛在商業(yè)價值,于是投入大量人力物力進(jìn)行調(diào)研。在206月公布了關(guān)于“大數(shù)據(jù)”匯報,該匯報對“大數(shù)據(jù)”影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進(jìn)行了詳盡分析。麥肯錫匯報得到了金融界高度重視,而后逐步受到了各行各業(yè)關(guān)注。大數(shù)據(jù)特征和定義第32頁3.“大數(shù)據(jù)”特點(diǎn)由舍恩伯格和庫克耶在編寫《大數(shù)據(jù)時代》中提出“大數(shù)據(jù)”4V特點(diǎn):Volume(數(shù)據(jù)量大)、Velocity(輸入和處理速度快)、Variety(數(shù)據(jù)多樣性)、Value(價值密度低)。這些特點(diǎn)得到了廣泛認(rèn)可,凡提到“大數(shù)據(jù)”特點(diǎn)文章,基本上采取了這4個特點(diǎn)。4.在云計(jì)算技術(shù)出現(xiàn)之后“大數(shù)據(jù)”才凸顯其真正價值自從有了云計(jì)算服務(wù)器,“大數(shù)據(jù)”才有了能夠運(yùn)行軌道,才能夠?qū)崿F(xiàn)其真正價值。有些人就形象地將各種“大數(shù)據(jù)”應(yīng)用比作一輛輛“汽車”,支撐起這些“汽車”運(yùn)行“高速公路”就是云計(jì)算。最著名實(shí)例就是Google搜索引擎。面對海量Web數(shù)據(jù),Google于首先提出云計(jì)算概念。支撐Google內(nèi)部各種“大數(shù)據(jù)”應(yīng)用,正是Google企業(yè)自行研發(fā)云計(jì)算服務(wù)器。維基百科對大數(shù)據(jù)定義:大數(shù)據(jù)是指利用慣用軟件工具捕捉、管理和處理數(shù)據(jù)所耗時間超出可容忍時間數(shù)據(jù)集。大數(shù)據(jù)特征和定義第33頁
任一概念或事物標(biāo)準(zhǔn)上都可用其含有特征來描述或定義。一旦研究對象用其屬性界定以后再開展各種設(shè)定目標(biāo)研究。一樣,“大數(shù)據(jù)”概念也可從其主要特征(屬性)描述或定義開始來對它研究。
大數(shù)據(jù)應(yīng)該含有“大”或“多”特征(屬性),但大數(shù)據(jù)不只是其包含數(shù)據(jù)量大而已。因?yàn)閮H僅數(shù)據(jù)量大問題,現(xiàn)有計(jì)算機(jī)軟硬件技術(shù)基本上都已可處理,無須新提概念。
那么,我們所要研究對象是什么?應(yīng)該稱作什么?它可能含有哪些主要特征?
大數(shù)據(jù)特征和定義第34頁1.數(shù)量大
大數(shù)據(jù)首要特征當(dāng)然應(yīng)該是“規(guī)模大”。何謂大,對于不一樣應(yīng)用問題可有不一樣衡量標(biāo)準(zhǔn),所以大小本身含有相對性,不能簡單用數(shù)量劃界來區(qū)分大小。
大數(shù)據(jù)可指大數(shù)據(jù)集合中包含數(shù)據(jù)多,也可指組成大數(shù)據(jù)網(wǎng)絡(luò)包含子數(shù)據(jù)個數(shù)多。應(yīng)該說,這些問題假如沒有時空限制,標(biāo)準(zhǔn)上都已能用現(xiàn)有軟硬件技術(shù)處理。
這種大數(shù)據(jù)特征普通用來指明該大數(shù)據(jù)是由很多很多子數(shù)據(jù)組成集合,現(xiàn)有各種數(shù)據(jù)庫中數(shù)據(jù)大多是這種數(shù)據(jù)。大數(shù)據(jù)特征和定義第35頁2、類型多
大數(shù)據(jù)能夠包含各種結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)類型很多,用現(xiàn)有DBMS等軟件技術(shù)難以描述和處理。這種大數(shù)據(jù)特征普通用來指明該大數(shù)據(jù)中包含各種數(shù)據(jù)類型很多,既可包含各種結(jié)構(gòu)化數(shù)據(jù)類型,又可包含各種非結(jié)構(gòu)化數(shù)據(jù)類型,乃至其它數(shù)據(jù)類型。大數(shù)據(jù)特征和定義第36頁3.維度高
描述數(shù)據(jù)屬性維數(shù)高,不但能夠多至成百上千(有限維),乃至無窮維(可數(shù)維、連續(xù)維),應(yīng)用時不得不先降維后才能深入處理。這種大數(shù)據(jù)特征(高維度)普通用來指明構(gòu)建大數(shù)據(jù)時能夠包含各種高維度子數(shù)據(jù)。尤其,能夠采取無窮維度數(shù)據(jù)。大數(shù)據(jù)特征和定義第37頁4、媒體多表征大數(shù)據(jù)媒體(或介質(zhì))眾多,包含文字、語言、音頻、圖像、視頻、以及各種不停涌現(xiàn)著新媒體等等。這種大數(shù)據(jù)特征(多媒體)普通用來指明構(gòu)建該類大數(shù)據(jù)媒體各種多樣,乃至包含剛在網(wǎng)上新出現(xiàn)各種新媒體。5.動態(tài)性和實(shí)時性
大數(shù)據(jù)結(jié)構(gòu)和內(nèi)容等都可動態(tài)改變,而且改變頻率高、速度快、范圍廣,數(shù)據(jù)形態(tài)含有極大動態(tài)性,處理需要極快實(shí)時性。大數(shù)據(jù)特征和定義第38頁6.多源性
組成大數(shù)據(jù)子數(shù)據(jù)起源空間分布廣、時間連續(xù)長、網(wǎng)點(diǎn)種類多、數(shù)據(jù)采集和存放等設(shè)備類型復(fù)雜繁多,從而造成采取標(biāo)準(zhǔn)不一、表述方式不一樣、以及數(shù)據(jù)語義解釋混亂等現(xiàn)象,它們都給大數(shù)據(jù)處理帶來很多困難。這種大數(shù)據(jù)特征(多源性)普通用來指明構(gòu)建大數(shù)據(jù)子數(shù)據(jù)數(shù)據(jù)來自很多地域、很多時間等等。大數(shù)據(jù)特征和定義第39頁7.不確定性
不確定性包含隨機(jī)性和含糊性等特征,能夠表達(dá)在數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、處理、以及所含子數(shù)據(jù)間關(guān)聯(lián)等多方面。大數(shù)據(jù)中能夠包含眾多含有不一樣概率分布隨機(jī)數(shù)和眾多含有不一樣定義域含糊數(shù)。數(shù)間關(guān)聯(lián)含糊不清、而且可能隨時隨機(jī)改變。8.復(fù)雜性一個大數(shù)據(jù)能夠又是另一些大數(shù)據(jù)(作為其子數(shù)據(jù))組成集合,或者由很多大數(shù)據(jù)互聯(lián)或超鏈接(包含遞歸鏈接)而成復(fù)雜網(wǎng)絡(luò)。另外,高維度數(shù)據(jù)各維之間各種關(guān)聯(lián)關(guān)系也是產(chǎn)生復(fù)雜性主要原因。大數(shù)據(jù)特征和定義第40頁9.強(qiáng)噪聲
大數(shù)據(jù)中,往往有用數(shù)據(jù)和大量無用數(shù)據(jù)混在一起,所以大數(shù)據(jù)處理一項(xiàng)必要工作就是“不停地清垃圾、除噪聲”。這個特征也可稱為數(shù)據(jù)“價值密度”低,大數(shù)據(jù)往往是有用數(shù)據(jù)一個“貧礦”。10.毒數(shù)據(jù)多
大數(shù)據(jù)中,可能存在大量有毒數(shù)據(jù)和有用數(shù)據(jù)混在一起。所以大數(shù)據(jù)處理一項(xiàng)必要工作就是“不停地去除可能毒數(shù)據(jù),包含各種病毒、木馬、蠕蟲、以及惡意程序等等”。大數(shù)據(jù)特征和定義第41頁11.可信性、安全性和實(shí)時性要求高
為了實(shí)現(xiàn)大數(shù)據(jù)高保密性和高安全性,往往在大數(shù)據(jù)處理過程中需要加入許多動態(tài)改變密碼密鑰加解密機(jī)制,以及軟件文檔驗(yàn)證/認(rèn)證等可信機(jī)制。而且含有嚴(yán)格解密實(shí)時性要求。其實(shí),在使用有限長度密碼時,沒有實(shí)時性要求就等于沒有保密性。大數(shù)據(jù)特征和定義第42頁12.社會性
大數(shù)據(jù)往往含有很強(qiáng)社會性,比如,對于互聯(lián)網(wǎng)語言,不一樣年紀(jì)、不一樣階層和不一樣地域人士往往會有各不相同了解和利用。所以,為了準(zhǔn)確地處理諸如互聯(lián)網(wǎng)上輿情大數(shù)據(jù),必須仔細(xì)考慮數(shù)據(jù)內(nèi)容了解中各種社會性原因。13.可執(zhí)行性
大數(shù)據(jù)除了包含作為處理對象“數(shù)據(jù)”之外,普通還可隨帶能夠處理對應(yīng)“數(shù)據(jù)”大量可執(zhí)行代碼(程序)。即每個大數(shù)據(jù)都可分為“數(shù)據(jù)”和“代碼”兩部分。所以能夠說一個含有大量數(shù)據(jù)程序也是一個大數(shù)據(jù)。比如面向?qū)ο髷?shù)據(jù)庫就可認(rèn)為含有這種可執(zhí)行性。又如空間飛行器在軌維護(hù)數(shù)據(jù)。大數(shù)據(jù)特征和定義第43頁1.
可視化分析(Analytic
Visualizations)
數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本要求??梢暬軌蛑庇^展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓用戶直觀看到結(jié)果。
2.
數(shù)據(jù)挖掘算法(Data
Mining
Algorithms)借助機(jī)器等工具,利用數(shù)據(jù)挖掘中集群、分割、孤立點(diǎn)分析及其它算法可深入數(shù)據(jù)內(nèi)部,挖掘有價值信息。3.
預(yù)測性分析能力(Predictive
Analytic
Capabilities)
數(shù)據(jù)挖掘能夠讓用戶更加好了解數(shù)據(jù),而預(yù)測性分析能夠讓用戶依據(jù)可視化分析和數(shù)據(jù)挖掘結(jié)果做出一些預(yù)測性判斷。4.
語義引擎(Semantic
Engines)
非結(jié)構(gòu)化數(shù)據(jù)多樣性帶來了數(shù)據(jù)分析新挑戰(zhàn),需要一系列工具去解析、提取、分析數(shù)據(jù)。語義引擎設(shè)計(jì)成能夠從“文檔”中智能提取信息。5.
數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量(Data
Management
and
Master
DataQuality
)
經(jīng)過標(biāo)準(zhǔn)化流程和工具對數(shù)據(jù)進(jìn)行處理,確保高質(zhì)量分析結(jié)果。大數(shù)據(jù)分析五個基本方面大數(shù)據(jù)特征和定義第44頁1.數(shù)據(jù)精準(zhǔn)獲取技術(shù)
可穿戴式信息獲取技術(shù)可植入、可嵌入式數(shù)據(jù)獲取技術(shù)微型移動信息獲取技術(shù)生物傳感、微納米傳感器、便攜式傳感器等新型設(shè)備。大數(shù)據(jù)獲取第45頁2.數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)領(lǐng)域數(shù)據(jù)標(biāo)準(zhǔn)化變得極為迫切,信息采集、傳輸、存放、匯交標(biāo)準(zhǔn)規(guī)范亟需大量出臺,產(chǎn)業(yè)(行業(yè))基準(zhǔn)數(shù)據(jù)庫亟需建立。大數(shù)據(jù)數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)體系框架傳輸速率編碼標(biāo)準(zhǔn)傳輸方式傳輸冗余……匯交方法匯交內(nèi)容匯交分類匯交范圍……采集規(guī)范傳輸標(biāo)準(zhǔn)存放標(biāo)準(zhǔn)匯交標(biāo)準(zhǔn)采集內(nèi)容采集方式采集時間采集地點(diǎn)……存放格式存放方式存放安全數(shù)據(jù)結(jié)構(gòu)……基準(zhǔn)數(shù)據(jù)庫數(shù)據(jù)增值關(guān)鍵在于整合,但整合前提是數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一。大數(shù)據(jù)整合處理第46頁建模技術(shù):農(nóng)作物生長與產(chǎn)量形成機(jī)理建模;農(nóng)產(chǎn)品消費(fèi)行為與消費(fèi)量改變動態(tài)建模;基于多代理系統(tǒng)進(jìn)行農(nóng)業(yè)智能仿真模擬;關(guān)聯(lián)分析:教授會商系統(tǒng)結(jié)合;教授智慧動態(tài)引入;仿真模擬智能化和自適應(yīng);3.大數(shù)據(jù)分析處理技術(shù)(以農(nóng)業(yè)為例)仿真過程介入;仿真結(jié)果反饋;生產(chǎn)與市場決議流程優(yōu)化。大數(shù)據(jù)分析和解釋第47頁大數(shù)據(jù)分析和解釋第48頁5.大數(shù)據(jù)+超級計(jì)算種子基因數(shù)據(jù)+環(huán)境因子數(shù)據(jù)+遺傳模型+超級計(jì)算經(jīng)過計(jì)算機(jī)動態(tài)模擬種子生產(chǎn)過程、產(chǎn)量形成過程……大數(shù)據(jù)處理第49頁6.大數(shù)據(jù)交互式可視化技術(shù)農(nóng)信采監(jiān)測數(shù)據(jù)可視化
大數(shù)據(jù)背景下,在交互式數(shù)據(jù)可視化技術(shù)支撐下,經(jīng)過對高頻變產(chǎn)品市場數(shù)據(jù)處理,實(shí)現(xiàn)多品種、多地域、多類型產(chǎn)品市場變動內(nèi)在機(jī)理、波動周期、市場走勢可視化展現(xiàn)。大數(shù)據(jù)分析和解釋第50頁地質(zhì)數(shù)據(jù)分析結(jié)果可視化大數(shù)據(jù)分析和解釋第51頁盆地勘測數(shù)據(jù)可視化大數(shù)據(jù)分析和解釋第52頁預(yù)測結(jié)果數(shù)據(jù)可視化大數(shù)據(jù)分析和解釋第53頁大數(shù)據(jù)建模分析是大數(shù)據(jù)應(yīng)用和產(chǎn)生價值關(guān)鍵!定量數(shù)據(jù)分析模型定性數(shù)據(jù)推理分析模型定量與定性信息混合處理模型構(gòu)建分析模型所對應(yīng)數(shù)據(jù)結(jié)構(gòu)具備可擴(kuò)展、可裁剪和交互定制能力,可實(shí)現(xiàn)時間同時處理。大數(shù)據(jù)分析模型:①
基于統(tǒng)計(jì)分析方法多元回歸分析模型相關(guān)性(原因)分析模型差異性分析模型馬爾科夫時序數(shù)據(jù)處理模型等7.大數(shù)據(jù)建模分析技術(shù)大數(shù)據(jù)建模分析第54頁②
采取數(shù)據(jù)挖掘方法動態(tài)分類和聚類算法關(guān)聯(lián)分析模型序列模式挖掘算法異常情況(現(xiàn)象)發(fā)覺和分析算法③
基于智能建模方法,基于動態(tài)神經(jīng)網(wǎng)絡(luò)仿真系統(tǒng)支持向量機(jī)動態(tài)貝葉斯網(wǎng)絡(luò)可生長決議樹等分析模型6.大數(shù)據(jù)建模分析技術(shù)大數(shù)據(jù)建模分析第55頁④
針對建模要素數(shù)據(jù)可能為定量、定性或半定量情況,基于含糊集理論、云變換理論、粗糙集等方法,研究建立可進(jìn)行定量與定性數(shù)據(jù)屬性相轉(zhuǎn)換和融合綜合處理方法和模型;⑤
針對多層次、多階段分析問題,建立集成份析模型和決議主題導(dǎo)向分析模型鏈,實(shí)現(xiàn)對決議問題協(xié)同分析和過程支持。6.大數(shù)據(jù)建模分析技術(shù)大數(shù)據(jù)建模分析第56頁
大數(shù)據(jù)環(huán)境下,決議與預(yù)測方法向“數(shù)據(jù)+模型+分析”模式發(fā)生著深刻轉(zhuǎn)變,展現(xiàn)出高頻實(shí)時、深度定制化、全周期沉醉式交互、跨組織數(shù)據(jù)整合、多主體決議等特征。
大數(shù)據(jù)含有海量、多源、異構(gòu)特征、實(shí)時處理、決議要素數(shù)據(jù)分布式采集和存放等特點(diǎn),迫切需要研究建立專門針對大數(shù)據(jù)分析模型、算法和工具。
研究智能化數(shù)據(jù)處理方法,以適應(yīng)從處理結(jié)構(gòu)化數(shù)據(jù)向處理更多非結(jié)構(gòu)化數(shù)據(jù)、從處理單一數(shù)據(jù)集向迭代增加數(shù)據(jù)集、從批處理向流處理轉(zhuǎn)變;
研究面向管理主題和決議要素,愈加趨于自適應(yīng)和自識別數(shù)據(jù)算法,以滿足大數(shù)據(jù)智能化、實(shí)時性處理要求;6.大數(shù)據(jù)建模分析技術(shù)大數(shù)據(jù)建模分析第57頁
研究“跨域關(guān)聯(lián)”技術(shù),經(jīng)過大數(shù)據(jù)與云計(jì)算結(jié)合,不一樣領(lǐng)域數(shù)據(jù)集跨域關(guān)聯(lián)有利于發(fā)掘產(chǎn)品各個步驟痕跡,從凌亂紛繁數(shù)據(jù)背后找到產(chǎn)品生產(chǎn)、流通和消費(fèi)軌跡,把“大數(shù)據(jù)”變成“小數(shù)據(jù)”,形成反應(yīng)事物本質(zhì)規(guī)律“最小數(shù)據(jù)集”。
在模型與算法構(gòu)建中,應(yīng)充分考慮決議原因多元、數(shù)據(jù)增加、規(guī)模大、靜態(tài)與動態(tài)數(shù)據(jù)結(jié)合、定量與定性信息相混合等特征,分析模型結(jié)構(gòu)和信息處理機(jī)制應(yīng)具備可擴(kuò)展性,其結(jié)構(gòu)參數(shù)和性質(zhì)參數(shù)應(yīng)具備自適應(yīng)優(yōu)化調(diào)整能力。6.大數(shù)據(jù)建模分析技術(shù)大數(shù)據(jù)建模分析第58頁7.基于深度學(xué)習(xí)模型大數(shù)據(jù)分析技術(shù)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域一個新研究方向,近年來在圖像分析、語音識別、計(jì)算機(jī)視覺等多類應(yīng)用中取得突破性進(jìn)展,其動機(jī)在于建立模型模擬人類大腦神經(jīng)連接結(jié)構(gòu),在處理圖像、聲音和文本這些信號時,經(jīng)過多個變換階段分層對數(shù)據(jù)特征進(jìn)行描述,進(jìn)而給出數(shù)據(jù)解釋。以圖像數(shù)據(jù)為例,靈長類視覺系統(tǒng)中對這類信號處理依次為:首先檢測邊緣初始形狀,然后再逐步形成更復(fù)雜視覺形狀。一樣地,深度學(xué)習(xí)經(jīng)過組合低層特征形成愈加抽象高層表示屬性類別或特征,給出數(shù)據(jù)分層特征表示。第59頁深度學(xué)習(xí)概念最早由多倫多大學(xué)G.E.Hinton等于提出,指基于樣本數(shù)據(jù)經(jīng)過一定訓(xùn)練方法得到包含多個層級深度網(wǎng)絡(luò)結(jié)構(gòu)機(jī)器學(xué)習(xí)過程。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隨機(jī)初始化網(wǎng)絡(luò)中權(quán)值,造成網(wǎng)絡(luò)很輕易收斂到局部最小值,為處理這一問題,Hinton提出使用無監(jiān)督預(yù)訓(xùn)練方法優(yōu)化網(wǎng)絡(luò)權(quán)值初值,再進(jìn)行權(quán)值微調(diào)方法,拉開了深度學(xué)習(xí)序幕。深度學(xué)習(xí)所得到深度網(wǎng)絡(luò)結(jié)構(gòu)包含大量單一元素(神經(jīng)元),每個神經(jīng)元與大量其它神經(jīng)元相連接,神經(jīng)元間連接強(qiáng)度(權(quán)值)在學(xué)習(xí)過程中修改并決定網(wǎng)絡(luò)功效。經(jīng)過深度學(xué)習(xí)得到深度網(wǎng)絡(luò)結(jié)構(gòu)符合神經(jīng)網(wǎng)絡(luò)特征,所以深度網(wǎng)絡(luò)就是深層次神經(jīng)網(wǎng)絡(luò),即深度神經(jīng)網(wǎng)絡(luò)。7.基于深度學(xué)習(xí)模型大數(shù)據(jù)分析技術(shù)第60頁深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型7.基于深度學(xué)習(xí)模型大數(shù)據(jù)分析技術(shù)第61頁6月,《紐約時報》披露了GoogleBrain項(xiàng)目,吸引了公眾廣泛關(guān)注。這個項(xiàng)目是由著名斯坦福大學(xué)機(jī)器學(xué)習(xí)教授AndrewNg和在大規(guī)模計(jì)算機(jī)系統(tǒng)方面世界頂尖教授JeffDean共同主導(dǎo),用16000個CPUCore并行計(jì)算平臺訓(xùn)練一個稱為“深度神經(jīng)網(wǎng)絡(luò)”(DNN,DeepNeuralNetworks)機(jī)器學(xué)習(xí)模型(內(nèi)部共有10億個節(jié)點(diǎn)。在語音識別和圖像識別等領(lǐng)域取得了巨大成功。11月,微軟在中國天津一次活動上公開演示了一個全自動同聲傳譯系統(tǒng),講演者用英文演講,后臺計(jì)算機(jī)一氣呵成自動完成語音識別、英中機(jī)器翻譯和漢字語音合成,效果非常流暢。據(jù)報道,后面支撐關(guān)鍵技術(shù)也是DNN,或者深度學(xué)習(xí)(DL,DeepLearning)。7.基于深度學(xué)習(xí)模型大數(shù)據(jù)分析技術(shù)第62頁大數(shù)據(jù)存放技術(shù)大數(shù)據(jù)含有多源性、異構(gòu)性、規(guī)模性、動態(tài)增加性等特征,使得傳統(tǒng)基于關(guān)系數(shù)據(jù)庫存放技術(shù)已不能滿足大數(shù)據(jù)存放要求,對數(shù)據(jù)存放提出了更高要求:對性能要求檢索,數(shù)據(jù)資源共享等需求,要求存放設(shè)備高性能。對容量要求觀察數(shù)據(jù)、企業(yè)管理運(yùn)行數(shù)據(jù)、中間計(jì)算結(jié)果數(shù)據(jù)、媒體數(shù)據(jù)、歷史數(shù)據(jù)等。對數(shù)據(jù)資源有效管理要求合理計(jì)算機(jī)數(shù)據(jù)管理軟件、管理策略、硬件設(shè)施等。對數(shù)據(jù)資源保護(hù)要求防止人為誤操作、設(shè)備損壞、災(zāi)害發(fā)生時丟失等。第63頁大數(shù)據(jù)存放技術(shù)大數(shù)據(jù)存放關(guān)鍵技術(shù)
數(shù)據(jù)可經(jīng)過許多方式來存放、獲取、處理和分析。每個大數(shù)據(jù)起源都有不一樣特征,包含數(shù)據(jù)頻率、量、速度、類型和真實(shí)性。處理并存放大數(shù)據(jù)時,會包括到更多維度,比如治理、安全性和策略。為了簡化各種大數(shù)據(jù)類型復(fù)雜性,可依據(jù)各種參數(shù)對大數(shù)據(jù)進(jìn)行分類,以設(shè)計(jì)存放模式和選擇存放設(shè)備。依據(jù)大數(shù)據(jù)類型對業(yè)務(wù)問題進(jìn)行分類業(yè)務(wù)問題可分類為不一樣大數(shù)據(jù)問題類型。將業(yè)務(wù)問題映射到它大數(shù)據(jù)類型。
下表列出了常見業(yè)務(wù)問題并為每個問題分配了一個大數(shù)據(jù)類型。第64頁業(yè)務(wù)問題大數(shù)據(jù)問題描述公用事業(yè):預(yù)測功耗機(jī)器生成數(shù)據(jù)公用事業(yè)企業(yè)推出了智慧儀表,按每小時或更短間隔定時測量水、天然氣和電力消耗。這些智慧儀表生成了需要分析大量間隔數(shù)據(jù)。公用事業(yè)企業(yè)還運(yùn)行著昂貴而又復(fù)雜大型系統(tǒng)來發(fā)電。每個電網(wǎng)包含監(jiān)視電壓、電流、頻率和其它主要操作特征復(fù)雜傳感器。要提升操作效率,企業(yè)必須監(jiān)視傳感器所傳送數(shù)據(jù)。大數(shù)據(jù)處理方案能夠使用智慧儀表分析發(fā)電(供給)和電力消耗(需求)數(shù)據(jù)。電信:客戶流失分析Web和社交數(shù)據(jù)交易數(shù)據(jù)電信運(yùn)行商需要構(gòu)建詳細(xì)客戶流失模型(包含社交媒體和交易數(shù)據(jù),以跟上競爭形勢。流失模型值取決于客戶屬性質(zhì)量(客戶主數(shù)據(jù),比如生日、性別、位置和收入)和客戶社交行為。實(shí)現(xiàn)預(yù)測分析戰(zhàn)略電信提供商可經(jīng)過分析用戶呼叫模式來管理和預(yù)測流失。市場營銷:情緒分析Web和社交數(shù)據(jù)營銷部門使用Twitter源來執(zhí)行情緒分析,方便確定用戶對企業(yè)及其產(chǎn)品或服務(wù)評價,尤其是在一個新產(chǎn)品或版本公布之后??蛻羟榫w必須與客戶概要數(shù)據(jù)相集成,才能得到有意義結(jié)果。依據(jù)客戶人口統(tǒng)計(jì)特征,客戶反饋可能有所不一樣??蛻舴?wù):呼叫監(jiān)視人類生成數(shù)據(jù)IT部門正在依靠大數(shù)據(jù)處理方案來分析應(yīng)用程序日志,方便獲取可提升系統(tǒng)性能洞察。來自各種應(yīng)用程序供給商日志文件含有不一樣格式;必須將它們標(biāo)準(zhǔn)化,然后IT部門才能使用它們。零售:基于面部識別和社交媒體個性化消息Web和社交數(shù)據(jù)生物識別零售商可結(jié)合使用面部識別技術(shù)和來自社交媒體照片,依據(jù)購置行為和位置向客戶提供個性化營銷信息。此功效對零售商忠誠度計(jì)劃含有很大影響,但它含有嚴(yán)格隱私限制。零售商需要在實(shí)現(xiàn)這些應(yīng)用程序之前進(jìn)行適當(dāng)隱私披露。零售和營銷:移動數(shù)據(jù)和基于位置目標(biāo)機(jī)器生成數(shù)據(jù)交易數(shù)據(jù)零售商可依據(jù)位置數(shù)據(jù)為客戶提供特定促銷活動和優(yōu)惠券。處理方案通常意在在用戶進(jìn)入一個店鋪時檢測用戶位置,或者經(jīng)過GPS檢測用戶位置。位置數(shù)據(jù)與來自社交網(wǎng)絡(luò)客戶偏好數(shù)據(jù)相結(jié)合,使零售商能夠依據(jù)購置歷史統(tǒng)計(jì)針對性地開展在線和店內(nèi)營銷活動。通知是經(jīng)過移動應(yīng)用程序、SMS和電子郵件提供。FSS、醫(yī)療保?。浩墼p檢測機(jī)器生成數(shù)據(jù)交易數(shù)據(jù)人類生成數(shù)據(jù)欺詐管理可預(yù)測給定交易或客戶帳戶碰到欺詐可能性。處理方案可實(shí)時分析事務(wù),生成提議馬上執(zhí)行方法,這對阻止第三方欺詐、第一方欺詐和對帳戶特權(quán)蓄意濫用至關(guān)主要。處理方案通常意在檢測和阻止多個行業(yè)眾多欺詐和風(fēng)險類型,其中包含:信用卡和借記卡欺詐存款帳戶欺詐技術(shù)欺詐壞賬醫(yī)療欺詐醫(yī)療補(bǔ)助計(jì)劃和醫(yī)療保險欺詐財產(chǎn)和災(zāi)害保險欺詐工傷賠償欺詐保險欺詐電信欺詐第65頁按類型對大數(shù)據(jù)問題分類
輕易分析出每種數(shù)據(jù)特征。這些特征可幫助我們了解怎樣獲取數(shù)據(jù),怎樣將它處理為適當(dāng)格式,以及新數(shù)據(jù)出現(xiàn)頻率。來自不一樣起源數(shù)據(jù)含有不一樣特征;比如,社交媒體數(shù)據(jù)包含不停傳入視頻、圖像和非結(jié)構(gòu)化文本(比如博客文章),依據(jù)這些常見特征來評定數(shù)據(jù)。內(nèi)容格式數(shù)據(jù)類型(比如,交易數(shù)據(jù)、歷史數(shù)據(jù)或主數(shù)據(jù))將提供該數(shù)據(jù)頻率意圖:數(shù)據(jù)需要怎樣處理(比如對數(shù)據(jù)暫時查詢)處理是否必須實(shí)時、近實(shí)時還是按批次執(zhí)行。大數(shù)據(jù)存放技術(shù)第66頁用大數(shù)據(jù)類型對大數(shù)據(jù)特征進(jìn)行分類
按特定方向分析大數(shù)據(jù)特征會有所幫助,比如以下特征:數(shù)據(jù)怎樣搜集、分析和處理。對數(shù)據(jù)進(jìn)行分類后,就能夠?qū)⑺c適當(dāng)大數(shù)據(jù)模式匹配:分析類型—對數(shù)據(jù)執(zhí)行實(shí)時分析還是批量分析。請仔細(xì)考慮分析類型選擇,因?yàn)檫@會影響一些相關(guān)產(chǎn)品、工具、硬件、數(shù)據(jù)源和預(yù)期數(shù)據(jù)頻率其它決議。一些用例可能需要混合使用兩種類型:欺詐檢測:分析必須實(shí)時或近實(shí)時地完成。針對戰(zhàn)略性業(yè)務(wù)決議趨勢分析:分析可采取批量模式。處理方法—要應(yīng)用來處理數(shù)據(jù)技術(shù)類型(比如預(yù)測、分析、暫時查詢和匯報)。業(yè)務(wù)需求確定了適當(dāng)處理方法??山Y(jié)合使用各種技術(shù)。處理方法選擇,有利于識別要在大數(shù)據(jù)處理方案中使用適當(dāng)工具和技術(shù)。大數(shù)據(jù)存放技術(shù)第67頁數(shù)據(jù)頻率和大小—預(yù)計(jì)有多少數(shù)據(jù)和數(shù)據(jù)抵達(dá)頻率多高。知道頻率和大小,有利于確定存放機(jī)制、存放格式和所需預(yù)處理工具。數(shù)據(jù)頻率和大小依賴于數(shù)據(jù)源:按需分析,與社交媒體數(shù)據(jù)一樣實(shí)時、連續(xù)提供(天氣數(shù)據(jù)、交易數(shù)據(jù))時序(基于時間數(shù)據(jù))數(shù)據(jù)類型—要處理數(shù)據(jù)類型—交易、歷史、主數(shù)據(jù)等。知道數(shù)據(jù)類型,有利于將數(shù)據(jù)隔離在存放中。內(nèi)容格式(傳入數(shù)據(jù)格式)結(jié)構(gòu)化(比如RDMBS)、非結(jié)構(gòu)化(比如音頻、視頻和圖像)或半結(jié)構(gòu)化。格式確定了需要怎樣處理傳入數(shù)據(jù),這是選擇工具、技術(shù)以及從業(yè)務(wù)角度定義處理方案關(guān)鍵。大數(shù)據(jù)存放技術(shù)第68頁數(shù)據(jù)源—數(shù)據(jù)起源(生成數(shù)據(jù)地方),比如Web和社交媒體、機(jī)器生成、人類生成等。識
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年P(guān)VDF項(xiàng)目深度研究分析報告
- 2025-2030年中國合金線項(xiàng)目投資可行性研究分析報告
- 中國塑料制品尼龍行業(yè)市場前景預(yù)測及投資價值評估分析報告
- 2025-2030年中國棉絨混紡紗行業(yè)深度研究分析報告
- 2025-2030年中國特種玻璃鉛芯項(xiàng)目投資可行性研究分析報告
- 2024-2030全球電動助殘?jiān)O(shè)備行業(yè)調(diào)研及趨勢分析報告
- 2025-2030年中國手編絨線行業(yè)深度研究分析報告
- 2024年全球及中國家用智能LED燈泡行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年多媒體軟件項(xiàng)目建設(shè)總綱及方案
- 兒童護(hù)理質(zhì)量管理與持續(xù)改進(jìn)方案
- 航空器自動駕駛
- 《公路橋涵施工技術(shù)規(guī)范》JTG-T3650-2020培訓(xùn)
- 2024年大學(xué)試題(教育學(xué))-課程與教學(xué)論考試近5年真題集錦(頻考類試題)帶答案
- 四年級數(shù)學(xué)下冊簡便運(yùn)算100題及答案
- 緊密型醫(yī)療衛(wèi)生共同體慢性病雙向轉(zhuǎn)診流程圖
- DB34T 1591-2012 茶樹凍害氣象指標(biāo)
- 盤盤轉(zhuǎn)轉(zhuǎn)制作國風(fēng)標(biāo)簽(課件)六年級下冊勞動
- 02S515排水檢查井圖集
- 項(xiàng)目班子組成資歷情況
- 《工程勘察設(shè)計(jì)收費(fèi)標(biāo)準(zhǔn)》(2002年修訂本)-工程設(shè)計(jì)收費(fèi)標(biāo)準(zhǔn)2002修訂版
- 2024山東能源集團(tuán)中級人才庫選拔(高頻重點(diǎn)提升專題訓(xùn)練)共500題附帶答案詳解
評論
0/150
提交評論