匯報(bào)1-大數(shù)據(jù)研究現(xiàn)狀探討42_第1頁(yè)
匯報(bào)1-大數(shù)據(jù)研究現(xiàn)狀探討42_第2頁(yè)
匯報(bào)1-大數(shù)據(jù)研究現(xiàn)狀探討42_第3頁(yè)
匯報(bào)1-大數(shù)據(jù)研究現(xiàn)狀探討42_第4頁(yè)
匯報(bào)1-大數(shù)據(jù)研究現(xiàn)狀探討42_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1/42基于云平臺(tái)(云數(shù)據(jù))?大數(shù)據(jù)描述理論、處理與分析架構(gòu)、應(yīng)用領(lǐng)域?

大數(shù)據(jù)研究現(xiàn)狀探討沈來(lái)信2013年12月20日2/42大數(shù)據(jù)是是數(shù)據(jù)庫(kù)庫(kù)的自然然延伸?忘不掉ACID,舍不得得Relation,忽視實(shí)實(shí)際應(yīng)用用潛意識(shí)地地奉行““一招鮮鮮”(OneSizeFitsAll)結(jié)構(gòu)化+半結(jié)構(gòu)化化/非結(jié)構(gòu)化化數(shù)據(jù)((二八原則則)管理和處處理需求求--落實(shí)“OneSizeFitsaBunch””--查詢/檢檢索/統(tǒng)計(jì)/挖挖掘--離線/在在線/即即時(shí)/連連續(xù)--本地/遠(yuǎn)遠(yuǎn)程/“云”?可回溯的的可視化化分析--事務(wù)型與與分析型型--多領(lǐng)域應(yīng)應(yīng)用(教教育、醫(yī)醫(yī)療、交交通……)大數(shù)據(jù)常常用的處處理框架架流處理((直接處處理)和和批處理理(先存存儲(chǔ)后處處理)流處理:數(shù)據(jù)持續(xù)續(xù)到達(dá),,速度快快,規(guī)模模巨大,,不永久久存儲(chǔ),,數(shù)據(jù)不不斷變化化--》難以掌握握全貌;;代表的開(kāi)開(kāi)源系統(tǒng)統(tǒng):Twitter的storm、Yahoo的S4、Linkedin的kafka批處理:MapReduce1)將問(wèn)題分分而治之之2)把計(jì)算算推到數(shù)數(shù)據(jù)而不不是把數(shù)數(shù)據(jù)推到到計(jì)算,,避免數(shù)數(shù)據(jù)傳輸輸過(guò)程中中產(chǎn)生的的大量通通信開(kāi)銷銷3/425/420-大數(shù)據(jù)與與云計(jì)算算、云平平臺(tái)Hadoop(數(shù)據(jù)密密集型分分布式應(yīng)應(yīng)用,Apache)--分布式數(shù)數(shù)據(jù)處理理MapReduce(并行計(jì)算算框架)--分布式文文件系統(tǒng)統(tǒng)HDFS(google的DFS基礎(chǔ)上))--分布式數(shù)數(shù)據(jù)庫(kù)Hbase(Nosql,列,BigTable)--數(shù)據(jù)倉(cāng)庫(kù)庫(kù)工具Hive(Facebook)--分布式鎖鎖Zookeeper(Facebook)--大數(shù)據(jù)分分析平臺(tái)臺(tái)Pig(提供多多種接口口)--管理工具具Ambari(監(jiān)控、部署、、管理)--Sqoop:在集群與與傳統(tǒng)數(shù)數(shù)據(jù)庫(kù)間間的數(shù)據(jù)據(jù)傳遞00分分布式式集群Hadoop6/4201并并行計(jì)計(jì)算框架架Mapreduce7/4202分分布式式文件系系統(tǒng)HDFS8/4203分分布式式NoSql列列數(shù)據(jù)庫(kù)庫(kù)Hbase04數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)Hive05腳腳本語(yǔ)言言PigGoogle后Hadoop時(shí)代的新新三駕馬馬車Dremel:web數(shù)據(jù)級(jí)別別的交互互式數(shù)據(jù)據(jù)分析系系統(tǒng)列存儲(chǔ)、、多層次次查詢樹(shù)樹(shù),毫秒秒級(jí)海量量數(shù)據(jù)分分析Caffeine:為Google網(wǎng)絡(luò)搜索索引擎提提供支持持,能夠夠更迅速速的添加加新的鏈鏈接到自自身大規(guī)規(guī)模的網(wǎng)網(wǎng)站索引引系統(tǒng)中中,丟棄棄MapReduce轉(zhuǎn)而將索索引放置置在分布布式數(shù)據(jù)據(jù)庫(kù)BigTable上Pregel:主要繪繪制大量量網(wǎng)上信信息之間間關(guān)系的的“圖形形數(shù)據(jù)庫(kù)庫(kù)”13/421-Brighthouse:AnAnalyticDataWarehouseforad--hocQueriesPVLDB’08DominikSlezak,,Infobright,,inc..,PolandAnAnalyticDataWarehouseforAd--hocQueriesColumn--orienteddatawarehousewithautomaticallytuned(基于列列的自調(diào)調(diào)整數(shù)據(jù)據(jù)倉(cāng)庫(kù)))Datamanagement:DP、DPN、KN粗集Roughset++粒度計(jì)算算GranularComputing知識(shí)網(wǎng)格格KnowledgeGrid優(yōu)化與執(zhí)執(zhí)行OptimizationandExecution14/42DP(DataPack))、DPN(DataPackNode)、KN(KnowledgeNode)15/42行存儲(chǔ)、、列存儲(chǔ)儲(chǔ)比較數(shù)據(jù)塊((DataPacks)知識(shí)網(wǎng)格格(KonwledgeGrid)18/42知識(shí)網(wǎng)格格(KonwledgeGrid)19/422-Starfish:ASelf--tuningSystemforbigdataanalyticsCIDR’11-HerodotosHerodotou,,DukeUniversityTimelyandcost--effectiveanalytics(及時(shí),,效益))ASelf--tuningsystem(自調(diào)整整)BasedonHadoop(基于Hadoop)ExtensibleMapReduceexecutionengine(可擴(kuò)展展)Pluggabledistributedstorageengines(插拔式式)MAD(吸引力力Magnetism\靈活A(yù)gility\深度Depth)20/423希爾伯特特技術(shù)HilberttechnologyHilberttechnologyOrganizing&Analyzing;Large&Media;Patented;Costeffective;Search;Clustering&Categorization;DataConsolidation;DataQualityUltraHigh-Speed;SmartProcesses;Ad-hocFlexibility;Scale&ConsolidateSpeed;Flexibility;Smartness;Scalability25/4227/424-Extreme-PointSymmetricModeDecompositionMethodforDataAnalysis極點(diǎn)對(duì)稱稱模態(tài)分分解方法法;在HHT基礎(chǔ)上四點(diǎn)創(chuàng)新新:-使用更多多個(gè)內(nèi)插插值曲線線去實(shí)現(xiàn)現(xiàn)篩選過(guò)過(guò)程(1,2,,3…)-最后的剩剩余作為為最優(yōu)曲曲線,擁?yè)碛幸欢ǘ〝?shù)目的的極值點(diǎn)點(diǎn),而不不是帶有有自多一一個(gè)極值值點(diǎn)的一一般趨勢(shì)勢(shì)-使用極值值點(diǎn)對(duì)稱稱取代包包絡(luò)線對(duì)對(duì)稱-使用基于于數(shù)據(jù)的的直接插插值方法法去計(jì)算算瞬時(shí)頻頻率和振振幅-確定一個(gè)個(gè)優(yōu)化全全局平均均曲線時(shí)時(shí),使用用的自適適應(yīng)方法法,比一一般的最最小二乘乘法和平平均運(yùn)行行方法要要好;-確定瞬時(shí)時(shí)頻率和和振幅,,用的是是直接的的方法,,比希爾爾伯特譜譜更好-這些將提提高自適適應(yīng)的數(shù)數(shù)據(jù)分析析,可用用在大氣氣和海洋洋科學(xué)、、信息學(xué)學(xué)、經(jīng)濟(jì)濟(jì)學(xué)、生生態(tài)學(xué)、、醫(yī)藥、、地震等等領(lǐng)域4.1-經(jīng)驗(yàn)?zāi)B(tài)態(tài)分解EMD(EmpiricalModeDecomposition):EMD方法在理理論上可可以應(yīng)用用于任何何類型的的時(shí)間序序列(信信號(hào))的的分解該方法的的關(guān)鍵是是它能使使復(fù)雜信信號(hào)分解解為有限限個(gè)本征征模函數(shù)數(shù)(IntrinsicModeFunction,簡(jiǎn)稱IMF),所分分解出來(lái)來(lái)的各IMF分量包含含了原信信號(hào)的不不同時(shí)間間尺度的的局部特特征信號(hào)號(hào)。EMD分解方法法是基于于以下假假設(shè)條件件:(1)數(shù)據(jù)至至少有兩兩個(gè)極值值,一個(gè)個(gè)最大值值和一個(gè)個(gè)最小值值;(2)數(shù)據(jù)的的局部時(shí)時(shí)域特性性是由極極值點(diǎn)間間的時(shí)間間尺度唯唯一確定定;(3)如果數(shù)數(shù)據(jù)沒(méi)有有極值點(diǎn)點(diǎn)但有拐拐點(diǎn),則則可以通通過(guò)對(duì)數(shù)數(shù)據(jù)微分分一次或或多次求求得極值值,然后后再通過(guò)過(guò)積分來(lái)來(lái)獲得分分解結(jié)果果。經(jīng)驗(yàn)?zāi)B(tài)態(tài)分解的的基本思思想:將將一個(gè)頻頻率不規(guī)規(guī)則的波波化為多多個(gè)單一一頻率的的波+殘波的形形式。原原波形=∑IMFs++余波。4.2-篩選過(guò)程程(Sifting)這種方法法的本質(zhì)質(zhì)是通過(guò)過(guò)數(shù)據(jù)的的特征時(shí)間間尺度來(lái)獲得本征波動(dòng)動(dòng)模式,然后分解數(shù)據(jù)據(jù)。這種分分解過(guò)程程可以形形象地稱稱之為“篩選(sifting)”過(guò)程。分解過(guò)程程是:-找出原數(shù)數(shù)據(jù)序列列X(t)所有的的極大值值點(diǎn)并用用三次樣樣條插值值函數(shù)擬擬合形成成原數(shù)據(jù)據(jù)的上包絡(luò)線線;-同樣,找找出所有有的極小小值點(diǎn),,并將所所有的極極小值點(diǎn)點(diǎn)通過(guò)三三次樣條條插值函函數(shù)擬合合形成數(shù)數(shù)據(jù)的下包絡(luò)線線-上包絡(luò)線線和下包包絡(luò)線的的均值記記作ml,將原數(shù)數(shù)據(jù)序列列X(t)減去該該平均包包絡(luò)ml,得到一一個(gè)新的數(shù)據(jù)據(jù)序列hl:X(t))-ml=hl由原數(shù)據(jù)據(jù)減去包包絡(luò)平均均后的新新數(shù)據(jù),,若還存存在負(fù)的局部部極大值值和正的的局部極極小值,說(shuō)明這這還不是是一個(gè)本本征模函函數(shù),需需要繼續(xù)續(xù)進(jìn)行“篩選”。4.3-EMD實(shí)例—金融1例如滬指指的IMF如下圖所所僅僅示示意的最最后4個(gè)低頻IMF函數(shù)序列列:上圖中的的IMF1----IMF3疊合起來(lái)來(lái),就基基本可以以重構(gòu)出出滬指的的走勢(shì)::基本與與股指一一致,類類似與一一根均線線。4.4-EMD實(shí)例—金融2從上面的的分解到到重構(gòu)的的過(guò)程看看:其實(shí)實(shí)就是個(gè)個(gè)減法到到加法的的過(guò)程,,減法求異異,剝離出頻頻率(周周期)大大致相同同的IMF,而加法求同同,回到到原波形形。余波其其實(shí)是個(gè)個(gè)趨勢(shì)線線,即頻頻率極低低(周期期很長(zhǎng)))的波,,可以看看成是個(gè)個(gè)基底,,其它IMF都建筑在在它之上上。4.4-EMD實(shí)例—金融3有意思的的是,篩篩選出的的本征模模函數(shù)IMF(包括余余波)可可以代表表實(shí)在的的物理意意義,即即其震動(dòng)動(dòng)模式必必然地對(duì)對(duì)應(yīng)有物物理成因因。而在在股指分分解出的的IMF則應(yīng)該對(duì)對(duì)應(yīng)宏觀觀經(jīng)濟(jì)成成因。比比如第一幅圖圖中的IMF2就與CPI或PPI走勢(shì)幾乎乎一致,且周期也一一致;而IMF1則與平滑滑后季度度GDP增長(zhǎng)率基基本一致致,也與與發(fā)電量量或工業(yè)業(yè)增加值值的大趨趨勢(shì)大體體一致。也就是說(shuō)說(shuō),這種種新穎的的技術(shù)分分析也得得出:股指是反反映宏觀觀基本面面的。我國(guó)的的CPI這10幾年來(lái)一一直遵循循大概42個(gè)月的循循環(huán)規(guī)律律,可以以用一個(gè)個(gè)正弦波波形象之之。而IMF則是幾個(gè)個(gè)正弦波波的復(fù)合合結(jié)果。浮動(dòng)頻率率法僅是是找出信信號(hào)序列列中的實(shí)實(shí)際頻率率,而IMF是既找出出浮動(dòng)頻頻率也找找出包括括不同振振幅的復(fù)復(fù)雜信號(hào)號(hào)序列中中的震動(dòng)動(dòng)模態(tài)序序列。IMF更接近實(shí)實(shí)際的時(shí)時(shí)間序列列。嘗試試把二者者結(jié)合起起來(lái)是個(gè)個(gè)可能的的路徑。。PerformanceofESMD_IPerformanceofESMD_varianceratiov一些想法法與困惑惑Hadoop++Brighthouse?Dremel++Caffeine?云計(jì)算與與大數(shù)據(jù)據(jù)如何結(jié)結(jié)合?網(wǎng)網(wǎng)格計(jì)算算與大數(shù)數(shù)據(jù)?大數(shù)據(jù)OLAP方案?大大數(shù)據(jù)OLTP方案?大數(shù)據(jù)到到底是什什么?如如何表述述與建模模?大數(shù)據(jù)的的理論基基礎(chǔ)?大大數(shù)據(jù)可可計(jì)算的的基礎(chǔ)理理論?重要擴(kuò)展展與證明明“大數(shù)數(shù)據(jù)的正正確性””與應(yīng)用用的“出出錯(cuò)根源源”能量、綠綠色計(jì)算算、安全全?領(lǐng)域應(yīng)用用與大數(shù)數(shù)據(jù)的計(jì)計(jì)算理論論希爾伯特特空間--勒貝格測(cè)測(cè)度--優(yōu)美圖--標(biāo)號(hào)--大數(shù)據(jù)WSN測(cè)測(cè)量+大大數(shù)據(jù)++領(lǐng)域應(yīng)應(yīng)用?國(guó)家基金金面上項(xiàng)目/國(guó)家基金金重點(diǎn)項(xiàng)目/國(guó)家基金金重大項(xiàng)目國(guó)家基金金超級(jí)大大項(xiàng)目國(guó)家基金金委主任任楊衛(wèi)半半年來(lái)的的足跡::-3月12日卸任浙浙大校長(zhǎng)長(zhǎng)任基金金委主任任;-5月

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論