![大數(shù)據(jù)思維與決策-范文慧課件_第1頁(yè)](http://file4.renrendoc.com/view/9700182b260b21cb292978ea80a28637/9700182b260b21cb292978ea80a286371.gif)
![大數(shù)據(jù)思維與決策-范文慧課件_第2頁(yè)](http://file4.renrendoc.com/view/9700182b260b21cb292978ea80a28637/9700182b260b21cb292978ea80a286372.gif)
![大數(shù)據(jù)思維與決策-范文慧課件_第3頁(yè)](http://file4.renrendoc.com/view/9700182b260b21cb292978ea80a28637/9700182b260b21cb292978ea80a286373.gif)
![大數(shù)據(jù)思維與決策-范文慧課件_第4頁(yè)](http://file4.renrendoc.com/view/9700182b260b21cb292978ea80a28637/9700182b260b21cb292978ea80a286374.gif)
![大數(shù)據(jù)思維與決策-范文慧課件_第5頁(yè)](http://file4.renrendoc.com/view/9700182b260b21cb292978ea80a28637/9700182b260b21cb292978ea80a286375.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2016.04.27范文慧清華大學(xué)自動(dòng)化系大數(shù)據(jù)思維與決策2016.04.27范文慧清華大學(xué)自動(dòng)化系大數(shù)據(jù)思維與決策個(gè)人簡(jiǎn)介清華大學(xué)自動(dòng)化系教授/博導(dǎo)中國(guó)仿真學(xué)會(huì)副理事長(zhǎng)中國(guó)仿真學(xué)會(huì)組織工作委員會(huì)主任委員中國(guó)仿真學(xué)會(huì)復(fù)雜系統(tǒng)建模與仿真專(zhuān)業(yè)委員會(huì)主任委員中國(guó)仿真學(xué)會(huì)仿真技術(shù)應(yīng)用專(zhuān)業(yè)委員會(huì)副主任委員中國(guó)仿真學(xué)會(huì)仿真科普與教育工作委員會(huì)副主任委員中國(guó)自動(dòng)化學(xué)會(huì)系統(tǒng)仿真專(zhuān)業(yè)委員會(huì)副主任委員北京市復(fù)雜產(chǎn)品先進(jìn)制造系統(tǒng)工程技術(shù)研究中心專(zhuān)家委委員中國(guó)標(biāo)準(zhǔn)化研究院科學(xué)技術(shù)專(zhuān)家委委員中國(guó)智慧城市發(fā)展研究中心西北分中心(克拉瑪依)特邀研究員聯(lián)系方式:地址:北京市海淀區(qū)清華大學(xué)中央主樓601室郵編:100084
電話/p>
機(jī)13201272959傳真/p>
Email:fanwenhui@個(gè)人簡(jiǎn)介清華大學(xué)自動(dòng)化系教授/博導(dǎo)聯(lián)系方式:提綱一、大數(shù)據(jù)時(shí)代二、大數(shù)據(jù)內(nèi)涵三、大數(shù)據(jù)思維四、大數(shù)據(jù)技術(shù)五、結(jié)束語(yǔ)提綱一、大數(shù)據(jù)時(shí)代大數(shù)據(jù)訂外賣(mài)披薩的案例一、大數(shù)據(jù)時(shí)代請(qǐng)看視頻01-3分鐘4大數(shù)據(jù)訂外賣(mài)披薩的案例一、大數(shù)據(jù)時(shí)代請(qǐng)看視頻01-3分鐘41、數(shù)據(jù)定義一、大數(shù)據(jù)時(shí)代5宇宙構(gòu)成的元素:物質(zhì)、能量、信息1、數(shù)據(jù)定義一、大數(shù)據(jù)時(shí)代5宇宙構(gòu)成的元素:物質(zhì)、能量、信息2、信息革命一、大數(shù)據(jù)時(shí)代62、信息革命一、大數(shù)據(jù)時(shí)代63、能源革命一、大數(shù)據(jù)時(shí)代7杰里米·里夫金新的通信技術(shù)(ICT)和新的能源系統(tǒng)結(jié)合將再次出現(xiàn)——互聯(lián)網(wǎng)技術(shù)和可再生能源融合美國(guó)華盛頓特區(qū)經(jīng)濟(jì)趨勢(shì)基金會(huì)總裁,享有國(guó)際聲譽(yù)的社會(huì)批評(píng)家和暢銷(xiāo)書(shū)作家3、能源革命一、大數(shù)據(jù)時(shí)代7杰里米·里夫金新的通信技術(shù)(IC一、大數(shù)據(jù)時(shí)代4、數(shù)據(jù)爆炸(1)8一、大數(shù)據(jù)時(shí)代4、數(shù)據(jù)爆炸(1)8一、大數(shù)據(jù)時(shí)代94、數(shù)據(jù)爆炸(2)一、大數(shù)據(jù)時(shí)代94、數(shù)據(jù)爆炸(2)最早提出“大數(shù)據(jù)時(shí)代”到來(lái)的是麥肯錫:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。
《紐約時(shí)報(bào)》2012年2月的一篇專(zhuān)欄中稱“大數(shù)據(jù)時(shí)代”已經(jīng)降臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中決策將日益基于數(shù)據(jù)和分析而作出而并非基于經(jīng)驗(yàn)和直覺(jué)。一、大數(shù)據(jù)時(shí)代5、大數(shù)據(jù)時(shí)代(1)2012年3月奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展倡議”擬投資2億美元啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”以期在科學(xué)研究、環(huán)境、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破。2012年5月聯(lián)合國(guó)發(fā)表《大數(shù)據(jù)促發(fā)展挑戰(zhàn)與機(jī)遇》政務(wù)白皮書(shū),指出大數(shù)據(jù)對(duì)于世界各國(guó)是一個(gè)歷史機(jī)遇,探討如何利用包括社交網(wǎng)絡(luò)在內(nèi)的大數(shù)據(jù)資源造福人類(lèi)。10最早提出“大數(shù)據(jù)時(shí)代”到來(lái)的是麥肯錫:“數(shù)據(jù),2014年10月29日,國(guó)務(wù)院常務(wù)會(huì)議特別強(qiáng)調(diào)了要擴(kuò)大移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等信息消費(fèi),提升寬帶速度,支持網(wǎng)購(gòu)發(fā)展和農(nóng)村電商配送。加快健康醫(yī)療、企業(yè)監(jiān)管等大數(shù)據(jù)應(yīng)用。2015年的《政府工作報(bào)告》也強(qiáng)調(diào),要制定“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃,推動(dòng)移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等與現(xiàn)代制造業(yè)結(jié)合,促進(jìn)電子商務(wù)、工業(yè)互聯(lián)網(wǎng)和互聯(lián)網(wǎng)金融健康發(fā)展。一、大數(shù)據(jù)時(shí)代5、大數(shù)據(jù)時(shí)代(2)112014年10月29日,國(guó)務(wù)院常務(wù)會(huì)議特別強(qiáng)調(diào)了要擴(kuò)大移動(dòng)互如果一個(gè)個(gè)人拒絕大數(shù)據(jù)時(shí)代,可能會(huì)失去生命;如果一個(gè)國(guó)家拒絕大數(shù)據(jù)時(shí)代,可能會(huì)失去這個(gè)國(guó)家的未來(lái)!一、大數(shù)據(jù)時(shí)代6、小結(jié)12無(wú)論你知道與不知道,無(wú)論你接受與不接受大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨!如果一個(gè)個(gè)人拒絕大數(shù)據(jù)時(shí)代,可能會(huì)失去生命;一、大數(shù)1、大數(shù)據(jù)的定義二、什么是大數(shù)據(jù)麥肯錫全球研究所:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合。Gartner定義:是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)1Byte=8bit進(jìn)率1024(2的10次方)計(jì)算Mega[兆]
M.10^03Giga
[吉]
G.10^06Tera
[太]
T.10^09Peta
[拍]
P.10^12Exa
[艾]
E.10^15Zetta[澤]
Z.10^18Yotta[堯]
Y.10^21進(jìn)制單位全稱及譯音131、大數(shù)據(jù)的定義二、什么是大數(shù)據(jù)麥肯錫全球研究所:一種規(guī)模大?涂子沛《數(shù)據(jù)之巔》《大數(shù)據(jù)》2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)Volume大量14?涂子沛《數(shù)據(jù)之巔》《大數(shù)據(jù)》2、大數(shù)據(jù)的特征二、什么是大數(shù)Velocity高速6000萬(wàn)用戶登錄/天20億次頁(yè)面訪問(wèn)/天每天1.2億次網(wǎng)站訪問(wèn)響應(yīng)時(shí)間小于100毫秒由于輸入速度加快,所以要求輸出速度也要加快大數(shù)據(jù)的驚人不止是在數(shù)量上,同時(shí)數(shù)據(jù)還是巨量具有動(dòng)態(tài)分析價(jià)值的數(shù)據(jù)。訪問(wèn)響應(yīng)時(shí)間的加快,數(shù)據(jù)庫(kù)讀寫(xiě)速度的加快,對(duì)電商企業(yè)來(lái)說(shuō)就等于多成交。對(duì)于很多情況下,動(dòng)態(tài)的數(shù)據(jù)價(jià)值遠(yuǎn)大于靜態(tài)數(shù)據(jù),比如氣象預(yù)測(cè),災(zāi)難預(yù)測(cè),快銷(xiāo)行業(yè)等。2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)15Velocity6000萬(wàn)用戶登錄/天大數(shù)據(jù)的驚人不止2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)162、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)16Veracity真實(shí)數(shù)據(jù)的重要性就在于對(duì)決策的支持;數(shù)據(jù)的真實(shí)性和質(zhì)量才是獲得真知和思路最重要的因素,是制定成功決策最堅(jiān)實(shí)的基礎(chǔ);準(zhǔn)確源自于對(duì)全部數(shù)據(jù)的處理分析;大數(shù)據(jù)的核心思想之一。2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)17Veracity數(shù)據(jù)的重要性就在于對(duì)決策的支持;2、大數(shù)據(jù)大數(shù)據(jù)能做一個(gè)預(yù)言家谷歌和推特都曾用大數(shù)據(jù),提前7天到一個(gè)月,在2009年準(zhǔn)確預(yù)測(cè)當(dāng)年的流感趨勢(shì)一小時(shí)的視頻,在不間斷的監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅只有一兩秒大數(shù)據(jù)分析猶如“大海撈針”Value價(jià)值2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)18大數(shù)據(jù)能做一個(gè)預(yù)言家Value2、大數(shù)據(jù)的特征二、什么是大2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)5V規(guī)模性(Volume)價(jià)值性(Value)真實(shí)性(Veracity)高速性(Velocity)多樣性(Variety)192、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)5V規(guī)模性(Volume)價(jià)3、大數(shù)據(jù)的應(yīng)用(1)二、什么是大數(shù)據(jù)203、大數(shù)據(jù)的應(yīng)用(1)二、什么是大數(shù)據(jù)2021丹麥風(fēng)輪機(jī)制造商維斯塔斯,在世界上最大的超級(jí)計(jì)算機(jī)上部署IBM大數(shù)據(jù)解決方案,通過(guò)分析包括PB量級(jí)氣象報(bào)告、潮汐相位、地理空間、衛(wèi)星圖像等結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)優(yōu)化風(fēng)力渦輪機(jī)布局,有效提高風(fēng)力渦輪機(jī)的性能,為客戶提供精確和優(yōu)化的風(fēng)力渦輪機(jī)配置方案;幫助客戶降低每千瓦時(shí)的成本;提高客戶投資回報(bào)估計(jì)的準(zhǔn)確度;將業(yè)務(wù)用戶請(qǐng)求的響應(yīng)時(shí)間從幾星期縮短到幾小時(shí)。3、大數(shù)據(jù)的應(yīng)用(2)二、什么是大數(shù)據(jù)電力大數(shù)據(jù)21丹麥風(fēng)輪機(jī)制造商維斯塔斯,在世界上最大的22數(shù)據(jù)即能量(Energy):電力大數(shù)據(jù)使用過(guò)程中不斷精煉而增值數(shù)據(jù)即交互(Exchange):電力數(shù)據(jù)同行業(yè)外數(shù)據(jù)的交互融合數(shù)據(jù)即共情(Empathy):挖掘和滿足電力用戶,建立情感聯(lián)系,提供電力服務(wù)3、大數(shù)據(jù)的應(yīng)用(3)二、什么是大數(shù)據(jù)22數(shù)據(jù)即能量(Energy):電力大數(shù)據(jù)使用過(guò)程中不斷精煉3、大數(shù)據(jù)的應(yīng)用(3)二、什么是大數(shù)據(jù)23電力大數(shù)據(jù)3、大數(shù)據(jù)的應(yīng)用(3)二、什么是大數(shù)據(jù)23電力大數(shù)據(jù)5、大數(shù)據(jù)的好處二、什么是大數(shù)據(jù)請(qǐng)看視頻03-15分鐘24肯尼斯·庫(kù)克耶給我們展現(xiàn)了由大數(shù)據(jù)給機(jī)器學(xué)習(xí)和人類(lèi)知識(shí)帶來(lái)的翻天覆地的變化。我們可以從我們能收集的信息中來(lái)了解這個(gè)世界以及人類(lèi)在這個(gè)世界中所處的地位。大數(shù)據(jù)即將改變我們的生活、工作和思考方式,可以幫助我們管理事業(yè)、過(guò)想要的充滿希望幸福和健康的生活5、大數(shù)據(jù)的好處二、什么是大數(shù)據(jù)請(qǐng)看視頻03-15分鐘24大數(shù)據(jù)核心是預(yù)測(cè)什么大數(shù)據(jù)思維三、大數(shù)據(jù)思維大數(shù)據(jù)思維,是指一種意識(shí),認(rèn)為公開(kāi)的數(shù)據(jù)一旦處理得當(dāng)就能為千百萬(wàn)人急需解決的問(wèn)題提供答案。25大數(shù)據(jù)核心什么大數(shù)據(jù)思維三、大數(shù)據(jù)思維大數(shù)據(jù)思維,是指一種意1、不是隨機(jī)樣本,而是全體數(shù)據(jù)三、大數(shù)據(jù)思維?《大數(shù)據(jù)時(shí)代》26小數(shù)據(jù)的隨機(jī)采樣,統(tǒng)計(jì)學(xué)用盡可能少的數(shù)據(jù)來(lái)證實(shí)盡可能重大的發(fā)現(xiàn);統(tǒng)計(jì)學(xué)本身存在許多固有的缺陷。全數(shù)據(jù)模式,樣本=總體數(shù)據(jù)深度探討,抽樣幾乎無(wú)法;用所有數(shù)據(jù),抽樣會(huì)淹沒(méi)掉的信息;所有數(shù)據(jù)的方法,非隨機(jī)分析法。1、不是隨機(jī)樣本,而是全體數(shù)據(jù)三、大數(shù)據(jù)思維?《大數(shù)據(jù)時(shí)代》諾貝爾獎(jiǎng)自1901年創(chuàng)辦至2016年共110屆的諾貝爾數(shù)據(jù),排除48次空缺或無(wú)生辰資料及23個(gè)機(jī)構(gòu)獲獎(jiǎng)外,提供了877份科學(xué)家的案例,統(tǒng)計(jì)如下:三、大數(shù)據(jù)思維大數(shù)據(jù)諾貝爾獎(jiǎng)案例27諾貝爾獎(jiǎng)自1901年創(chuàng)辦至2016年共110屆的諾貝爾數(shù)據(jù),三、大數(shù)據(jù)思維大數(shù)據(jù)諾貝爾獎(jiǎng)案例諾貝爾獎(jiǎng)大數(shù)據(jù)告訴你:最聰明的星座是誰(shuí)?28三、大數(shù)據(jù)思維大數(shù)據(jù)諾貝爾獎(jiǎng)案例諾貝爾獎(jiǎng)大數(shù)據(jù)告訴你:最聰明
騰訊科技訊2月8日,猴年除夕紅包:紅包收發(fā)總量:微信80.8億個(gè);QQ:42億個(gè),雙雙創(chuàng)下歷史新高。微信:共有4.2億人收發(fā)紅包,QQ:在“刷一刷”搶紅包中吸引3.08億人。微信,廣東人發(fā)送的紅包最多,收到的也最多;除夕當(dāng)天,有人收到5279個(gè)紅包,也有人發(fā)出79193個(gè)紅包?!澳甓茸钪靛X(qián)”的紅包照片,共收到597個(gè)紅包;來(lái)自河南的29歲女性用戶,為了看照片共發(fā)出了219個(gè)紅包,當(dāng)日最多。三、大數(shù)據(jù)思維大數(shù)據(jù)紅包案例29騰訊科技訊2月8日,猴年除夕紅包:三、大數(shù)據(jù)思維允許不精確“小數(shù)據(jù)”最基本、最重要的是減少錯(cuò)誤,保證質(zhì)量;大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效數(shù)據(jù)多比少好,更多數(shù)據(jù)比算法系統(tǒng)更智能還要重要;2、不是精確性,而是混雜性三、大數(shù)據(jù)思維
谷歌翻譯好不是因?yàn)樗鼡碛幸粋€(gè)更好的算法機(jī)制,利用成千上萬(wàn)數(shù)據(jù),它接受了有錯(cuò)誤的數(shù)據(jù)。?《大數(shù)據(jù)時(shí)代》30紛繁的數(shù)據(jù)越多越好大數(shù)據(jù)用概率說(shuō)話,要學(xué)會(huì)擁抱混亂。掌握了大量新型數(shù)據(jù)時(shí),精確性就不那么重要;錯(cuò)誤并不是大數(shù)據(jù)固有的特性,而是現(xiàn)實(shí)問(wèn)題。允許不精確2、不是精確性,而是混雜性三、大數(shù)據(jù)思維大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)三、大數(shù)據(jù)思維小數(shù)據(jù)專(zhuān)家(直覺(jué)與經(jīng)驗(yàn)):羅伯特·帕克使用傳統(tǒng)的“品咂并吐掉”的方法。葡萄酒在裝瓶之前盛放在橡木桶里發(fā)酵18-24個(gè)月,評(píng)酒家在4個(gè)月后才能第一次品嘗,很難得出酒品質(zhì)的準(zhǔn)確信息。大數(shù)據(jù)專(zhuān)家:奧利·阿什菲爾特在品酒師第一次嘗酒的數(shù)月之前,是在賣(mài)出的數(shù)年之前,葡萄收獲時(shí)就能預(yù)測(cè)出葡萄酒的未來(lái)品質(zhì)。奧利預(yù)測(cè):1989年法國(guó)波爾多酒(僅僅在木桶放了3個(gè)月)將成為“世紀(jì)佳釀”;如果1961年評(píng)級(jí)為100,那么1989年將會(huì)達(dá)到149;“1989年能夠賣(mài)出35年中所生產(chǎn)的葡萄酒的最高價(jià)”事實(shí)證明,奧利是對(duì)的。?《大數(shù)據(jù)思維與實(shí)踐》31正確的觀點(diǎn)不一定總是受歡迎的!大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)三、大數(shù)據(jù)思維小數(shù)據(jù)專(zhuān)家(直覺(jué)與經(jīng)驗(yàn))大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)遭到譏諷和鄙視:“這個(gè)公式顯然是可笑的,我們無(wú)法重視它”“介入極端和滑稽可笑之間”“一個(gè)徹頭徹尾的騙子”“其實(shí)是在用尼安德特人的思維來(lái)看待葡萄酒,這是非?;闹嚿踔练浅?尚Φ摹薄叭绻?qǐng)我去他家喝酒,我會(huì)感到惡心”“就像某些影評(píng)一樣,根據(jù)演員和導(dǎo)演來(lái)告訴你電影有多好,實(shí)際上卻從來(lái)沒(méi)有看過(guò)那部電影”“愚蠢可笑”“既憤怒又恐懼,他確實(shí)讓人感到恐慌?!碑?dāng)他在酒行演講時(shí),后面噓聲一片三、大數(shù)據(jù)思維?《大數(shù)據(jù)思維與實(shí)踐》32大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)遭到譏諷和鄙視:三、大數(shù)據(jù)思維?《大數(shù)大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)根據(jù)1952年~1980年期間6家波爾多名莊(白馬、拉圖、拉菲、愛(ài)士圖爾、蒙特羅斯、碧尚女爵)10個(gè)年份的60款葡萄酒在1990年~1999年期間的倫敦市場(chǎng)拍賣(mài)價(jià)格曲線,推導(dǎo)出一條葡萄酒價(jià)格公式:
超級(jí)大數(shù)據(jù)分析的崛起,并不意味著直覺(jué)判斷的消亡,也不是說(shuō)工作中累計(jì)的經(jīng)驗(yàn)不重要。最優(yōu)秀、最聰明的人對(duì)于運(yùn)用統(tǒng)計(jì)與直覺(jué)都游刃有余。葡萄酒價(jià)格被解釋變量=0.0240AGE(酒齡)+0.608TEMP(葡萄生長(zhǎng)期平均氣溫)-0.0038RAIN(8月至9月的降水量)+0.00115WRAIN(上年10月至本年3月的降水量)三、大數(shù)據(jù)思維?《大數(shù)據(jù)思維與實(shí)踐》33大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)根據(jù)1952年~1980年期間6家波爾“是什么”而不是“為什么”相關(guān)關(guān)系核心是量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系相關(guān)關(guān)系通過(guò)識(shí)別有用的關(guān)聯(lián)物來(lái)幫助我們分析一個(gè)現(xiàn)象,捕捉現(xiàn)在和預(yù)測(cè)未來(lái);而不是揭示其內(nèi)部的運(yùn)作機(jī)制相關(guān)關(guān)系幫助更好地了解這個(gè)世界3、不是因果關(guān)系,而是相關(guān)關(guān)系三、大數(shù)據(jù)思維?《大數(shù)據(jù)時(shí)代》34人類(lèi)通過(guò)因果關(guān)系與相關(guān)關(guān)系分析而了解世界在小數(shù)據(jù)中,相關(guān)關(guān)系也是有用的“是什么”而不是“為什么”3、不是因果關(guān)系,而是大數(shù)據(jù)折扣零售商與懷孕預(yù)測(cè)案例三、大數(shù)據(jù)思維美國(guó)折扣零售商塔吉特與懷孕預(yù)測(cè)?《大數(shù)據(jù)時(shí)代》35大數(shù)據(jù)折扣零售商與懷孕預(yù)測(cè)案例三、大數(shù)據(jù)思維美國(guó)折扣零售商塔大數(shù)據(jù)流感傳播預(yù)測(cè)案例5000萬(wàn)條美國(guó)人最頻繁檢索的詞條4.5億個(gè)不同的數(shù)學(xué)模型與實(shí)際流感病例對(duì)比后,軟件發(fā)現(xiàn)45條檢索詞條的組合用于一個(gè)特定的數(shù)學(xué)模型后,預(yù)測(cè)與官方數(shù)據(jù)的相關(guān)性高達(dá)97%唯一關(guān)注:特定檢索詞條的使用頻率與流感在時(shí)間和空間上的傳播之間的聯(lián)系。?大數(shù)據(jù)時(shí)代-一場(chǎng)生活、工作與思維的大變革36小數(shù)據(jù)專(zhuān)家(直覺(jué)與經(jīng)驗(yàn))專(zhuān)家:流感爆發(fā)一兩周之后才可以做到。大數(shù)據(jù)專(zhuān)家:谷歌公司在2009年甲型H1N1流感爆發(fā)的幾周前,預(yù)測(cè)流感是從哪里傳播出來(lái)的,判斷非常及時(shí)。三、大數(shù)據(jù)思維大數(shù)據(jù)流感傳播預(yù)測(cè)案例5000萬(wàn)條美國(guó)人最頻繁檢索的詞條?大數(shù)據(jù)與機(jī)票價(jià)格預(yù)測(cè)建立在12000個(gè)價(jià)格樣本基礎(chǔ)之上,而這些數(shù)據(jù)都是從一個(gè)旅游網(wǎng)站上爬取過(guò)來(lái)的到2012年為止,用了將近十萬(wàn)億條價(jià)格記錄來(lái)幫助預(yù)測(cè)美國(guó)國(guó)內(nèi)航班的票價(jià),準(zhǔn)確度已經(jīng)高達(dá)75%,平均每張機(jī)票可節(jié)省50美元不需要去解開(kāi)機(jī)票價(jià)格差異的奧秘,只推測(cè)會(huì)發(fā)生什么,未來(lái)時(shí)間內(nèi)上漲還是下降世界就是一系列的大數(shù)據(jù)問(wèn)題,而且他認(rèn)為自己有能力解決這些問(wèn)題37小數(shù)據(jù)專(zhuān)家(直覺(jué)與經(jīng)驗(yàn)):無(wú)法完成大數(shù)據(jù)專(zhuān)家:埃齊奧尼,2003年創(chuàng)立機(jī)票價(jià)格預(yù)測(cè)系統(tǒng)Farecast,微軟公司以1.1億美元收購(gòu)三、大數(shù)據(jù)思維大數(shù)據(jù)與機(jī)票價(jià)格預(yù)測(cè)建立在12000個(gè)價(jià)格樣本基礎(chǔ)之上,4、小結(jié)三、大數(shù)據(jù)思維大數(shù)據(jù)的精髓在于三個(gè)思維轉(zhuǎn)變(認(rèn)識(shí)世界與改造世界的方法)第一個(gè)轉(zhuǎn)變:分析樣本=>分析全集第二個(gè)轉(zhuǎn)變:追求精確=>接受混雜第三個(gè)轉(zhuǎn)變:尋找因果=>探求相關(guān)?《大數(shù)據(jù)時(shí)代》384、小結(jié)三、大數(shù)據(jù)思維大數(shù)據(jù)的精髓在于三個(gè)思維轉(zhuǎn)變第一個(gè)轉(zhuǎn)變39ETL(Extract-Transform-Load)數(shù)據(jù)眾包CrowdSouring結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)數(shù)據(jù)倉(cāng)庫(kù)云計(jì)算和云存儲(chǔ)實(shí)時(shí)流處理MapReduceR語(yǔ)言關(guān)聯(lián)規(guī)則分析分類(lèi)聚類(lèi)遺傳算法神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型模式識(shí)別時(shí)間序列分析回歸分析系統(tǒng)仿真機(jī)器學(xué)習(xí)社會(huì)網(wǎng)絡(luò)分析標(biāo)簽云TagCloud聚類(lèi)圖Clustergram空間信息流Spatialinformationflow熱圖(Heatmap)四、大數(shù)據(jù)技術(shù)1、大數(shù)據(jù)技術(shù)39ETL結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)MapReduce40四、大數(shù)據(jù)技術(shù)2、大數(shù)據(jù)工具40四、大數(shù)據(jù)技術(shù)2、大數(shù)據(jù)工具41四、大數(shù)據(jù)技術(shù)2、大數(shù)據(jù)工具41四、大數(shù)據(jù)技術(shù)2、大數(shù)據(jù)工具AutoGrid——由前斯坦福大學(xué)智能電網(wǎng)研究室負(fù)責(zé)人AmitNarayan創(chuàng)辦的服務(wù)于電力、能源行業(yè)的大數(shù)據(jù)公司。通過(guò)建立能源數(shù)據(jù)平臺(tái),收集并處理其客戶接入智能電網(wǎng)的智能儀表等設(shè)備的數(shù)據(jù),面向其客戶或合作方提供需求響應(yīng)優(yōu)化及管理系統(tǒng),實(shí)現(xiàn)實(shí)時(shí)資源預(yù)測(cè)、資源優(yōu)化、自動(dòng)需求響應(yīng)、客戶通知引擎和事后分析等功能。單個(gè)DROMS集群每天可以產(chǎn)生數(shù)以億計(jì)的能源消費(fèi)的預(yù)測(cè)數(shù)據(jù)。42四、大數(shù)據(jù)技術(shù)3、能源大數(shù)據(jù)軟件平臺(tái)AutoGrid——由前斯坦福大學(xué)智能電網(wǎng)研究室負(fù)責(zé)人AmiOpower——Opower公司是于2007年創(chuàng)辦的一家家庭能源數(shù)據(jù)分析公司。Opower與電力公司合作,搶占家庭消費(fèi)者“入口”,獲取家庭消費(fèi)者的能源使用數(shù)據(jù),進(jìn)行消費(fèi)者用電行為分析,并為其提供節(jié)能減耗的方案,推動(dòng)節(jié)能的互聯(lián)網(wǎng)應(yīng)用。433、能源大數(shù)據(jù)軟件平臺(tái)四、大數(shù)據(jù)技術(shù)Opower——Opower公司是于2007年創(chuàng)辦的一家家庭法國(guó)電力公司(EDF)基于大數(shù)據(jù)的分析預(yù)測(cè):目前全法已經(jīng)安裝3500萬(wàn)智能電表,電表產(chǎn)生的數(shù)據(jù)量將在5-10年內(nèi)達(dá)到PB級(jí)。智能電表采集的主要是個(gè)體家庭的用電負(fù)荷數(shù)據(jù)。以每個(gè)電表每10分鐘抄表1次計(jì)算,3500萬(wàn)智能電表每年產(chǎn)生1.8萬(wàn)億次抄表記錄和600TB壓縮前數(shù)據(jù);3500萬(wàn)智能電表每天產(chǎn)生5億次抄表記錄和大約2TB的抄表數(shù)據(jù)。這些電表數(shù)據(jù),結(jié)合氣象數(shù)據(jù)、用電合同信息及電網(wǎng)數(shù)據(jù),構(gòu)成了法國(guó)電力的大數(shù)據(jù),用于生成用戶用電負(fù)荷曲線及其關(guān)聯(lián)數(shù)據(jù)。443、能源大數(shù)據(jù)軟件平臺(tái)四、大數(shù)據(jù)技術(shù)法國(guó)電力公司(EDF)基于大數(shù)據(jù)的分析預(yù)測(cè):C3IoTPlatformPoweringData:電網(wǎng)實(shí)時(shí)監(jiān)測(cè)和即時(shí)數(shù)據(jù)分析453、能源大數(shù)據(jù)軟件平臺(tái)四、大數(shù)據(jù)技術(shù)Acompleteplatform-as-a-servicesolutionthatenablestherapiddesign,development,deployment,andoperationofenterprise-scalesoftwareapplicationsWithanelasticcloud,distributed-computingarchitecturecapableofhandlingdatasetsgrowingbyhundredsofTerabytesperdayandmillionsofMessagespersecond,theplatformhas70millionsmartdevicesandsensorsundermanagementatmorethan20productiondeploymentsworldwideC3IoTPlatformPoweringData:數(shù)據(jù)就像一個(gè)神奇的鉆石礦,當(dāng)它的首要價(jià)值被發(fā)掘后仍能不斷給予。它的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。一旦世界被數(shù)據(jù)化,只有想不到的,沒(méi)有信息做不到的數(shù)據(jù)“無(wú)所不有”五、結(jié)束語(yǔ)我的思考46數(shù)據(jù)就像一個(gè)神奇的鉆石礦,當(dāng)它的首要價(jià)值被發(fā)掘后仍能不斷給予數(shù)據(jù)“無(wú)所不說(shuō)”第一個(gè)轉(zhuǎn)變:分析樣本=>分析全集;不拒絕樣本第二個(gè)轉(zhuǎn)變:追求精確=>接受混雜;不丟棄精確第三個(gè)轉(zhuǎn)變:尋找因果=>探求相關(guān);不否定因果五、結(jié)束語(yǔ)我的思考47像望遠(yuǎn)鏡,讓我們能夠感受宇宙;像顯微鏡,讓我們能夠觀測(cè)微生物;正在改變我們的生活以及理解世界的方式!大數(shù)據(jù)數(shù)據(jù)“無(wú)所不說(shuō)”第一個(gè)轉(zhuǎn)變:分析樣本=>分析全集;不拒絕樣本未來(lái)(有人說(shuō)):所有的公司都是大數(shù)據(jù)公司:所有產(chǎn)業(yè)要么數(shù)字化、要么不存在五、結(jié)束語(yǔ)我的思考數(shù)據(jù)“無(wú)所不在”數(shù)據(jù)奧妙只為謙遜、愿意聆聽(tīng)且掌握聆聽(tīng)手段的人所知!48未來(lái)(有人說(shuō)):所有的公司都是大數(shù)據(jù)公司:所有產(chǎn)業(yè)要么數(shù)字化行業(yè)和技術(shù)專(zhuān)家的光芒都會(huì)因?yàn)榻y(tǒng)計(jì)學(xué)家和數(shù)據(jù)分析家的出現(xiàn)而變暗
統(tǒng)計(jì)和數(shù)據(jù)分析家不受舊觀念的影響,能夠聆聽(tīng)數(shù)據(jù)發(fā)出的聲音
行業(yè)和技術(shù)專(zhuān)家是不會(huì)真正消亡的,只是他們的主導(dǎo)地位會(huì)發(fā)生改變數(shù)據(jù)“無(wú)所不專(zhuān)”五、結(jié)束語(yǔ)我的思考專(zhuān)家的消亡與數(shù)據(jù)科學(xué)家的崛起!49行業(yè)和技術(shù)專(zhuān)家的光芒都會(huì)因?yàn)榻y(tǒng)計(jì)學(xué)家和數(shù)據(jù)分五、結(jié)束語(yǔ)我的思考第一范式:產(chǎn)生于幾千年前,以自然現(xiàn)象的觀察和實(shí)驗(yàn)為依據(jù)的研究,稱為實(shí)驗(yàn)范式第二范式:產(chǎn)生于幾百年前,以建模和歸納為基礎(chǔ)的理論科學(xué)和分析范式,稱為理論范式第三范式:產(chǎn)生于幾十年前,是以復(fù)雜現(xiàn)象仿真為基礎(chǔ)的計(jì)算科學(xué)范式,稱為計(jì)算范式第四范式:今天以大數(shù)據(jù)為對(duì)象,用大數(shù)據(jù)方法分析數(shù)據(jù),稱為數(shù)據(jù)范式發(fā)展第三范式,并與第四范式的融合數(shù)據(jù)“無(wú)所不能”50五、結(jié)束語(yǔ)我的思考第一范式:產(chǎn)生于幾千年前,以自然現(xiàn)象的觀察如果真有什么關(guān)于最重要的科學(xué)問(wèn)題,我想就是這個(gè)世界是善良的還是邪惡的;如果一個(gè)科學(xué)家相信這個(gè)世界是邪惡的,他將終其一生去發(fā)明武器、創(chuàng)造壁壘,創(chuàng)造傷害人的東西,創(chuàng)造墻壁,把人隔得越來(lái)越遠(yuǎn);
如果一個(gè)科學(xué)家相信這個(gè)世界是善良的,他就會(huì)終其一生去發(fā)明聯(lián)系,創(chuàng)造鏈接,發(fā)明能把人連得越來(lái)越緊密的事情。我的思考數(shù)據(jù)“無(wú)所不愛(ài)”51我們應(yīng)該相信未來(lái)是善良的,用大數(shù)據(jù)帶著善意去創(chuàng)造可能,去嘗試更多,去體驗(yàn)精彩五、結(jié)束語(yǔ)如果真有什么關(guān)于最重要的科學(xué)問(wèn)題,我想就是謝謝!請(qǐng)批評(píng)指正!謝謝!請(qǐng)批評(píng)指正!演講完畢,謝謝觀看!演講完畢,謝謝觀看!2016.04.27范文慧清華大學(xué)自動(dòng)化系大數(shù)據(jù)思維與決策2016.04.27范文慧清華大學(xué)自動(dòng)化系大數(shù)據(jù)思維與決策個(gè)人簡(jiǎn)介清華大學(xué)自動(dòng)化系教授/博導(dǎo)中國(guó)仿真學(xué)會(huì)副理事長(zhǎng)中國(guó)仿真學(xué)會(huì)組織工作委員會(huì)主任委員中國(guó)仿真學(xué)會(huì)復(fù)雜系統(tǒng)建模與仿真專(zhuān)業(yè)委員會(huì)主任委員中國(guó)仿真學(xué)會(huì)仿真技術(shù)應(yīng)用專(zhuān)業(yè)委員會(huì)副主任委員中國(guó)仿真學(xué)會(huì)仿真科普與教育工作委員會(huì)副主任委員中國(guó)自動(dòng)化學(xué)會(huì)系統(tǒng)仿真專(zhuān)業(yè)委員會(huì)副主任委員北京市復(fù)雜產(chǎn)品先進(jìn)制造系統(tǒng)工程技術(shù)研究中心專(zhuān)家委委員中國(guó)標(biāo)準(zhǔn)化研究院科學(xué)技術(shù)專(zhuān)家委委員中國(guó)智慧城市發(fā)展研究中心西北分中心(克拉瑪依)特邀研究員聯(lián)系方式:地址:北京市海淀區(qū)清華大學(xué)中央主樓601室郵編:100084
電話/p>
機(jī)13201272959傳真/p>
Email:fanwenhui@個(gè)人簡(jiǎn)介清華大學(xué)自動(dòng)化系教授/博導(dǎo)聯(lián)系方式:提綱一、大數(shù)據(jù)時(shí)代二、大數(shù)據(jù)內(nèi)涵三、大數(shù)據(jù)思維四、大數(shù)據(jù)技術(shù)五、結(jié)束語(yǔ)提綱一、大數(shù)據(jù)時(shí)代大數(shù)據(jù)訂外賣(mài)披薩的案例一、大數(shù)據(jù)時(shí)代請(qǐng)看視頻01-3分鐘57大數(shù)據(jù)訂外賣(mài)披薩的案例一、大數(shù)據(jù)時(shí)代請(qǐng)看視頻01-3分鐘41、數(shù)據(jù)定義一、大數(shù)據(jù)時(shí)代58宇宙構(gòu)成的元素:物質(zhì)、能量、信息1、數(shù)據(jù)定義一、大數(shù)據(jù)時(shí)代5宇宙構(gòu)成的元素:物質(zhì)、能量、信息2、信息革命一、大數(shù)據(jù)時(shí)代592、信息革命一、大數(shù)據(jù)時(shí)代63、能源革命一、大數(shù)據(jù)時(shí)代60杰里米·里夫金新的通信技術(shù)(ICT)和新的能源系統(tǒng)結(jié)合將再次出現(xiàn)——互聯(lián)網(wǎng)技術(shù)和可再生能源融合美國(guó)華盛頓特區(qū)經(jīng)濟(jì)趨勢(shì)基金會(huì)總裁,享有國(guó)際聲譽(yù)的社會(huì)批評(píng)家和暢銷(xiāo)書(shū)作家3、能源革命一、大數(shù)據(jù)時(shí)代7杰里米·里夫金新的通信技術(shù)(IC一、大數(shù)據(jù)時(shí)代4、數(shù)據(jù)爆炸(1)61一、大數(shù)據(jù)時(shí)代4、數(shù)據(jù)爆炸(1)8一、大數(shù)據(jù)時(shí)代624、數(shù)據(jù)爆炸(2)一、大數(shù)據(jù)時(shí)代94、數(shù)據(jù)爆炸(2)最早提出“大數(shù)據(jù)時(shí)代”到來(lái)的是麥肯錫:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。
《紐約時(shí)報(bào)》2012年2月的一篇專(zhuān)欄中稱“大數(shù)據(jù)時(shí)代”已經(jīng)降臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中決策將日益基于數(shù)據(jù)和分析而作出而并非基于經(jīng)驗(yàn)和直覺(jué)。一、大數(shù)據(jù)時(shí)代5、大數(shù)據(jù)時(shí)代(1)2012年3月奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展倡議”擬投資2億美元啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”以期在科學(xué)研究、環(huán)境、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破。2012年5月聯(lián)合國(guó)發(fā)表《大數(shù)據(jù)促發(fā)展挑戰(zhàn)與機(jī)遇》政務(wù)白皮書(shū),指出大數(shù)據(jù)對(duì)于世界各國(guó)是一個(gè)歷史機(jī)遇,探討如何利用包括社交網(wǎng)絡(luò)在內(nèi)的大數(shù)據(jù)資源造福人類(lèi)。63最早提出“大數(shù)據(jù)時(shí)代”到來(lái)的是麥肯錫:“數(shù)據(jù),2014年10月29日,國(guó)務(wù)院常務(wù)會(huì)議特別強(qiáng)調(diào)了要擴(kuò)大移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等信息消費(fèi),提升寬帶速度,支持網(wǎng)購(gòu)發(fā)展和農(nóng)村電商配送。加快健康醫(yī)療、企業(yè)監(jiān)管等大數(shù)據(jù)應(yīng)用。2015年的《政府工作報(bào)告》也強(qiáng)調(diào),要制定“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃,推動(dòng)移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等與現(xiàn)代制造業(yè)結(jié)合,促進(jìn)電子商務(wù)、工業(yè)互聯(lián)網(wǎng)和互聯(lián)網(wǎng)金融健康發(fā)展。一、大數(shù)據(jù)時(shí)代5、大數(shù)據(jù)時(shí)代(2)642014年10月29日,國(guó)務(wù)院常務(wù)會(huì)議特別強(qiáng)調(diào)了要擴(kuò)大移動(dòng)互如果一個(gè)個(gè)人拒絕大數(shù)據(jù)時(shí)代,可能會(huì)失去生命;如果一個(gè)國(guó)家拒絕大數(shù)據(jù)時(shí)代,可能會(huì)失去這個(gè)國(guó)家的未來(lái)!一、大數(shù)據(jù)時(shí)代6、小結(jié)65無(wú)論你知道與不知道,無(wú)論你接受與不接受大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨!如果一個(gè)個(gè)人拒絕大數(shù)據(jù)時(shí)代,可能會(huì)失去生命;一、大數(shù)1、大數(shù)據(jù)的定義二、什么是大數(shù)據(jù)麥肯錫全球研究所:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合。Gartner定義:是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)1Byte=8bit進(jìn)率1024(2的10次方)計(jì)算Mega[兆]
M.10^03Giga
[吉]
G.10^06Tera
[太]
T.10^09Peta
[拍]
P.10^12Exa
[艾]
E.10^15Zetta[澤]
Z.10^18Yotta[堯]
Y.10^21進(jìn)制單位全稱及譯音661、大數(shù)據(jù)的定義二、什么是大數(shù)據(jù)麥肯錫全球研究所:一種規(guī)模大?涂子沛《數(shù)據(jù)之巔》《大數(shù)據(jù)》2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)Volume大量67?涂子沛《數(shù)據(jù)之巔》《大數(shù)據(jù)》2、大數(shù)據(jù)的特征二、什么是大數(shù)Velocity高速6000萬(wàn)用戶登錄/天20億次頁(yè)面訪問(wèn)/天每天1.2億次網(wǎng)站訪問(wèn)響應(yīng)時(shí)間小于100毫秒由于輸入速度加快,所以要求輸出速度也要加快大數(shù)據(jù)的驚人不止是在數(shù)量上,同時(shí)數(shù)據(jù)還是巨量具有動(dòng)態(tài)分析價(jià)值的數(shù)據(jù)。訪問(wèn)響應(yīng)時(shí)間的加快,數(shù)據(jù)庫(kù)讀寫(xiě)速度的加快,對(duì)電商企業(yè)來(lái)說(shuō)就等于多成交。對(duì)于很多情況下,動(dòng)態(tài)的數(shù)據(jù)價(jià)值遠(yuǎn)大于靜態(tài)數(shù)據(jù),比如氣象預(yù)測(cè),災(zāi)難預(yù)測(cè),快銷(xiāo)行業(yè)等。2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)68Velocity6000萬(wàn)用戶登錄/天大數(shù)據(jù)的驚人不止2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)692、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)16Veracity真實(shí)數(shù)據(jù)的重要性就在于對(duì)決策的支持;數(shù)據(jù)的真實(shí)性和質(zhì)量才是獲得真知和思路最重要的因素,是制定成功決策最堅(jiān)實(shí)的基礎(chǔ);準(zhǔn)確源自于對(duì)全部數(shù)據(jù)的處理分析;大數(shù)據(jù)的核心思想之一。2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)70Veracity數(shù)據(jù)的重要性就在于對(duì)決策的支持;2、大數(shù)據(jù)大數(shù)據(jù)能做一個(gè)預(yù)言家谷歌和推特都曾用大數(shù)據(jù),提前7天到一個(gè)月,在2009年準(zhǔn)確預(yù)測(cè)當(dāng)年的流感趨勢(shì)一小時(shí)的視頻,在不間斷的監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅只有一兩秒大數(shù)據(jù)分析猶如“大海撈針”Value價(jià)值2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)71大數(shù)據(jù)能做一個(gè)預(yù)言家Value2、大數(shù)據(jù)的特征二、什么是大2、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)5V規(guī)模性(Volume)價(jià)值性(Value)真實(shí)性(Veracity)高速性(Velocity)多樣性(Variety)722、大數(shù)據(jù)的特征二、什么是大數(shù)據(jù)5V規(guī)模性(Volume)價(jià)3、大數(shù)據(jù)的應(yīng)用(1)二、什么是大數(shù)據(jù)733、大數(shù)據(jù)的應(yīng)用(1)二、什么是大數(shù)據(jù)2074丹麥風(fēng)輪機(jī)制造商維斯塔斯,在世界上最大的超級(jí)計(jì)算機(jī)上部署IBM大數(shù)據(jù)解決方案,通過(guò)分析包括PB量級(jí)氣象報(bào)告、潮汐相位、地理空間、衛(wèi)星圖像等結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)優(yōu)化風(fēng)力渦輪機(jī)布局,有效提高風(fēng)力渦輪機(jī)的性能,為客戶提供精確和優(yōu)化的風(fēng)力渦輪機(jī)配置方案;幫助客戶降低每千瓦時(shí)的成本;提高客戶投資回報(bào)估計(jì)的準(zhǔn)確度;將業(yè)務(wù)用戶請(qǐng)求的響應(yīng)時(shí)間從幾星期縮短到幾小時(shí)。3、大數(shù)據(jù)的應(yīng)用(2)二、什么是大數(shù)據(jù)電力大數(shù)據(jù)21丹麥風(fēng)輪機(jī)制造商維斯塔斯,在世界上最大的75數(shù)據(jù)即能量(Energy):電力大數(shù)據(jù)使用過(guò)程中不斷精煉而增值數(shù)據(jù)即交互(Exchange):電力數(shù)據(jù)同行業(yè)外數(shù)據(jù)的交互融合數(shù)據(jù)即共情(Empathy):挖掘和滿足電力用戶,建立情感聯(lián)系,提供電力服務(wù)3、大數(shù)據(jù)的應(yīng)用(3)二、什么是大數(shù)據(jù)22數(shù)據(jù)即能量(Energy):電力大數(shù)據(jù)使用過(guò)程中不斷精煉3、大數(shù)據(jù)的應(yīng)用(3)二、什么是大數(shù)據(jù)76電力大數(shù)據(jù)3、大數(shù)據(jù)的應(yīng)用(3)二、什么是大數(shù)據(jù)23電力大數(shù)據(jù)5、大數(shù)據(jù)的好處二、什么是大數(shù)據(jù)請(qǐng)看視頻03-15分鐘77肯尼斯·庫(kù)克耶給我們展現(xiàn)了由大數(shù)據(jù)給機(jī)器學(xué)習(xí)和人類(lèi)知識(shí)帶來(lái)的翻天覆地的變化。我們可以從我們能收集的信息中來(lái)了解這個(gè)世界以及人類(lèi)在這個(gè)世界中所處的地位。大數(shù)據(jù)即將改變我們的生活、工作和思考方式,可以幫助我們管理事業(yè)、過(guò)想要的充滿希望幸福和健康的生活5、大數(shù)據(jù)的好處二、什么是大數(shù)據(jù)請(qǐng)看視頻03-15分鐘24大數(shù)據(jù)核心是預(yù)測(cè)什么大數(shù)據(jù)思維三、大數(shù)據(jù)思維大數(shù)據(jù)思維,是指一種意識(shí),認(rèn)為公開(kāi)的數(shù)據(jù)一旦處理得當(dāng)就能為千百萬(wàn)人急需解決的問(wèn)題提供答案。78大數(shù)據(jù)核心什么大數(shù)據(jù)思維三、大數(shù)據(jù)思維大數(shù)據(jù)思維,是指一種意1、不是隨機(jī)樣本,而是全體數(shù)據(jù)三、大數(shù)據(jù)思維?《大數(shù)據(jù)時(shí)代》79小數(shù)據(jù)的隨機(jī)采樣,統(tǒng)計(jì)學(xué)用盡可能少的數(shù)據(jù)來(lái)證實(shí)盡可能重大的發(fā)現(xiàn);統(tǒng)計(jì)學(xué)本身存在許多固有的缺陷。全數(shù)據(jù)模式,樣本=總體數(shù)據(jù)深度探討,抽樣幾乎無(wú)法;用所有數(shù)據(jù),抽樣會(huì)淹沒(méi)掉的信息;所有數(shù)據(jù)的方法,非隨機(jī)分析法。1、不是隨機(jī)樣本,而是全體數(shù)據(jù)三、大數(shù)據(jù)思維?《大數(shù)據(jù)時(shí)代》諾貝爾獎(jiǎng)自1901年創(chuàng)辦至2016年共110屆的諾貝爾數(shù)據(jù),排除48次空缺或無(wú)生辰資料及23個(gè)機(jī)構(gòu)獲獎(jiǎng)外,提供了877份科學(xué)家的案例,統(tǒng)計(jì)如下:三、大數(shù)據(jù)思維大數(shù)據(jù)諾貝爾獎(jiǎng)案例80諾貝爾獎(jiǎng)自1901年創(chuàng)辦至2016年共110屆的諾貝爾數(shù)據(jù),三、大數(shù)據(jù)思維大數(shù)據(jù)諾貝爾獎(jiǎng)案例諾貝爾獎(jiǎng)大數(shù)據(jù)告訴你:最聰明的星座是誰(shuí)?81三、大數(shù)據(jù)思維大數(shù)據(jù)諾貝爾獎(jiǎng)案例諾貝爾獎(jiǎng)大數(shù)據(jù)告訴你:最聰明
騰訊科技訊2月8日,猴年除夕紅包:紅包收發(fā)總量:微信80.8億個(gè);QQ:42億個(gè),雙雙創(chuàng)下歷史新高。微信:共有4.2億人收發(fā)紅包,QQ:在“刷一刷”搶紅包中吸引3.08億人。微信,廣東人發(fā)送的紅包最多,收到的也最多;除夕當(dāng)天,有人收到5279個(gè)紅包,也有人發(fā)出79193個(gè)紅包?!澳甓茸钪靛X(qián)”的紅包照片,共收到597個(gè)紅包;來(lái)自河南的29歲女性用戶,為了看照片共發(fā)出了219個(gè)紅包,當(dāng)日最多。三、大數(shù)據(jù)思維大數(shù)據(jù)紅包案例82騰訊科技訊2月8日,猴年除夕紅包:三、大數(shù)據(jù)思維允許不精確“小數(shù)據(jù)”最基本、最重要的是減少錯(cuò)誤,保證質(zhì)量;大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效數(shù)據(jù)多比少好,更多數(shù)據(jù)比算法系統(tǒng)更智能還要重要;2、不是精確性,而是混雜性三、大數(shù)據(jù)思維
谷歌翻譯好不是因?yàn)樗鼡碛幸粋€(gè)更好的算法機(jī)制,利用成千上萬(wàn)數(shù)據(jù),它接受了有錯(cuò)誤的數(shù)據(jù)。?《大數(shù)據(jù)時(shí)代》83紛繁的數(shù)據(jù)越多越好大數(shù)據(jù)用概率說(shuō)話,要學(xué)會(huì)擁抱混亂。掌握了大量新型數(shù)據(jù)時(shí),精確性就不那么重要;錯(cuò)誤并不是大數(shù)據(jù)固有的特性,而是現(xiàn)實(shí)問(wèn)題。允許不精確2、不是精確性,而是混雜性三、大數(shù)據(jù)思維大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)三、大數(shù)據(jù)思維小數(shù)據(jù)專(zhuān)家(直覺(jué)與經(jīng)驗(yàn)):羅伯特·帕克使用傳統(tǒng)的“品咂并吐掉”的方法。葡萄酒在裝瓶之前盛放在橡木桶里發(fā)酵18-24個(gè)月,評(píng)酒家在4個(gè)月后才能第一次品嘗,很難得出酒品質(zhì)的準(zhǔn)確信息。大數(shù)據(jù)專(zhuān)家:奧利·阿什菲爾特在品酒師第一次嘗酒的數(shù)月之前,是在賣(mài)出的數(shù)年之前,葡萄收獲時(shí)就能預(yù)測(cè)出葡萄酒的未來(lái)品質(zhì)。奧利預(yù)測(cè):1989年法國(guó)波爾多酒(僅僅在木桶放了3個(gè)月)將成為“世紀(jì)佳釀”;如果1961年評(píng)級(jí)為100,那么1989年將會(huì)達(dá)到149;“1989年能夠賣(mài)出35年中所生產(chǎn)的葡萄酒的最高價(jià)”事實(shí)證明,奧利是對(duì)的。?《大數(shù)據(jù)思維與實(shí)踐》84正確的觀點(diǎn)不一定總是受歡迎的!大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)三、大數(shù)據(jù)思維小數(shù)據(jù)專(zhuān)家(直覺(jué)與經(jīng)驗(yàn))大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)遭到譏諷和鄙視:“這個(gè)公式顯然是可笑的,我們無(wú)法重視它”“介入極端和滑稽可笑之間”“一個(gè)徹頭徹尾的騙子”“其實(shí)是在用尼安德特人的思維來(lái)看待葡萄酒,這是非常荒謬甚至非??尚Φ摹薄叭绻?qǐng)我去他家喝酒,我會(huì)感到惡心”“就像某些影評(píng)一樣,根據(jù)演員和導(dǎo)演來(lái)告訴你電影有多好,實(shí)際上卻從來(lái)沒(méi)有看過(guò)那部電影”“愚蠢可笑”“既憤怒又恐懼,他確實(shí)讓人感到恐慌?!碑?dāng)他在酒行演講時(shí),后面噓聲一片三、大數(shù)據(jù)思維?《大數(shù)據(jù)思維與實(shí)踐》85大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)遭到譏諷和鄙視:三、大數(shù)據(jù)思維?《大數(shù)大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)根據(jù)1952年~1980年期間6家波爾多名莊(白馬、拉圖、拉菲、愛(ài)士圖爾、蒙特羅斯、碧尚女爵)10個(gè)年份的60款葡萄酒在1990年~1999年期間的倫敦市場(chǎng)拍賣(mài)價(jià)格曲線,推導(dǎo)出一條葡萄酒價(jià)格公式:
超級(jí)大數(shù)據(jù)分析的崛起,并不意味著直覺(jué)判斷的消亡,也不是說(shuō)工作中累計(jì)的經(jīng)驗(yàn)不重要。最優(yōu)秀、最聰明的人對(duì)于運(yùn)用統(tǒng)計(jì)與直覺(jué)都游刃有余。葡萄酒價(jià)格被解釋變量=0.0240AGE(酒齡)+0.608TEMP(葡萄生長(zhǎng)期平均氣溫)-0.0038RAIN(8月至9月的降水量)+0.00115WRAIN(上年10月至本年3月的降水量)三、大數(shù)據(jù)思維?《大數(shù)據(jù)思維與實(shí)踐》86大數(shù)據(jù)與葡萄酒品質(zhì)預(yù)測(cè)根據(jù)1952年~1980年期間6家波爾“是什么”而不是“為什么”相關(guān)關(guān)系核心是量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系相關(guān)關(guān)系通過(guò)識(shí)別有用的關(guān)聯(lián)物來(lái)幫助我們分析一個(gè)現(xiàn)象,捕捉現(xiàn)在和預(yù)測(cè)未來(lái);而不是揭示其內(nèi)部的運(yùn)作機(jī)制相關(guān)關(guān)系幫助更好地了解這個(gè)世界3、不是因果關(guān)系,而是相關(guān)關(guān)系三、大數(shù)據(jù)思維?《大數(shù)據(jù)時(shí)代》87人類(lèi)通過(guò)因果關(guān)系與相關(guān)關(guān)系分析而了解世界在小數(shù)據(jù)中,相關(guān)關(guān)系也是有用的“是什么”而不是“為什么”3、不是因果關(guān)系,而是大數(shù)據(jù)折扣零售商與懷孕預(yù)測(cè)案例三、大數(shù)據(jù)思維美國(guó)折扣零售商塔吉特與懷孕預(yù)測(cè)?《大數(shù)據(jù)時(shí)代》88大數(shù)據(jù)折扣零售商與懷孕預(yù)測(cè)案例三、大數(shù)據(jù)思維美國(guó)折扣零售商塔大數(shù)據(jù)流感傳播預(yù)測(cè)案例5000萬(wàn)條美國(guó)人最頻繁檢索的詞條4.5億個(gè)不同的數(shù)學(xué)模型與實(shí)際流感病例對(duì)比后,軟件發(fā)現(xiàn)45條檢索詞條的組合用于一個(gè)特定的數(shù)學(xué)模型后,預(yù)測(cè)與官方數(shù)據(jù)的相關(guān)性高達(dá)97%唯一關(guān)注:特定檢索詞條的使用頻率與流感在時(shí)間和空間上的傳播之間的聯(lián)系。?大數(shù)據(jù)時(shí)代-一場(chǎng)生活、工作與思維的大變革89小數(shù)據(jù)專(zhuān)家(直覺(jué)與經(jīng)驗(yàn))專(zhuān)家:流感爆發(fā)一兩周之后才可以做到。大數(shù)據(jù)專(zhuān)家:谷歌公司在2009年甲型H1N1流感爆發(fā)的幾周前,預(yù)測(cè)流感是從哪里傳播出來(lái)的,判斷非常及時(shí)。三、大數(shù)據(jù)思維大數(shù)據(jù)流感傳播預(yù)測(cè)案例5000萬(wàn)條美國(guó)人最頻繁檢索的詞條?大數(shù)據(jù)與機(jī)票價(jià)格預(yù)測(cè)建立在12000個(gè)價(jià)格樣本基礎(chǔ)之上,而這些數(shù)據(jù)都是從一個(gè)旅游網(wǎng)站上爬取過(guò)來(lái)的到2012年為止,用了將近十萬(wàn)億條價(jià)格記錄來(lái)幫助預(yù)測(cè)美國(guó)國(guó)內(nèi)航班的票價(jià),準(zhǔn)確度已經(jīng)高達(dá)75%,平均每張機(jī)票可節(jié)省50美元不需要去解開(kāi)機(jī)票價(jià)格差異的奧秘,只推測(cè)會(huì)發(fā)生什么,未來(lái)時(shí)間內(nèi)上漲還是下降世界就是一系列的大數(shù)據(jù)問(wèn)題,而且他認(rèn)為自己有能力解決這些問(wèn)題90小數(shù)據(jù)專(zhuān)家(直覺(jué)與經(jīng)驗(yàn)):無(wú)法完成大數(shù)據(jù)專(zhuān)家:埃齊奧尼,2003年創(chuàng)立機(jī)票價(jià)格預(yù)測(cè)系統(tǒng)Farecast,微軟公司以1.1億美元收購(gòu)三、大數(shù)據(jù)思維大數(shù)據(jù)與機(jī)票價(jià)格預(yù)測(cè)建立在12000個(gè)價(jià)格樣本基礎(chǔ)之上,4、小結(jié)三、大數(shù)據(jù)思維大數(shù)據(jù)的精髓在于三個(gè)思維轉(zhuǎn)變(認(rèn)識(shí)世界與改造世界的方法)第一個(gè)轉(zhuǎn)變:分析樣本=>分析全集第二個(gè)轉(zhuǎn)變:追求精確=>接受混雜第三個(gè)轉(zhuǎn)變:尋找因果=>探求相關(guān)?《大數(shù)據(jù)時(shí)代》914、小結(jié)三、大數(shù)據(jù)思維大數(shù)據(jù)的精髓在于三個(gè)思維轉(zhuǎn)變第一個(gè)轉(zhuǎn)變92ETL(Extract-Transform-Load)數(shù)據(jù)眾包CrowdSouring結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)數(shù)據(jù)倉(cāng)庫(kù)云計(jì)算和云存儲(chǔ)實(shí)時(shí)流處理MapReduceR語(yǔ)言關(guān)聯(lián)規(guī)則分析分類(lèi)聚類(lèi)遺傳算法神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型模式識(shí)別時(shí)間序列分析回歸分析系統(tǒng)仿真機(jī)器學(xué)習(xí)社會(huì)網(wǎng)絡(luò)分析標(biāo)簽云TagCloud聚類(lèi)圖Clustergram空間信息流Spatialinformationflow熱圖(Heatmap)四、大數(shù)據(jù)技術(shù)1、大數(shù)據(jù)技術(shù)39ETL結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)MapReduce93四、大數(shù)據(jù)技術(shù)2、大數(shù)據(jù)工具40四、大數(shù)據(jù)技術(shù)2、大數(shù)據(jù)工具94四、大數(shù)據(jù)技術(shù)2、大數(shù)據(jù)工具41四、大數(shù)據(jù)技術(shù)2、大數(shù)據(jù)工具AutoGrid——由前斯坦福大學(xué)智能電網(wǎng)研究室負(fù)責(zé)人AmitNarayan創(chuàng)辦的服務(wù)于電力、能源行業(yè)的大數(shù)據(jù)公司。通過(guò)建立能源數(shù)據(jù)平臺(tái),收集并處理其客戶接入智能電網(wǎng)的智能儀表等設(shè)備的數(shù)據(jù),面向其客戶或合作方提供需求響應(yīng)優(yōu)化及管理系統(tǒng),實(shí)現(xiàn)實(shí)時(shí)資源預(yù)測(cè)、資源優(yōu)化、自動(dòng)需求響應(yīng)、客戶通知引擎和事后分析等功能。單個(gè)DROMS集群每天可以產(chǎn)生數(shù)以億計(jì)的能源消費(fèi)的預(yù)測(cè)數(shù)據(jù)。95四、大數(shù)據(jù)技術(shù)3、能源大數(shù)據(jù)軟件平臺(tái)AutoGrid——由前斯坦福大學(xué)智能電網(wǎng)研究室負(fù)責(zé)人AmiOpower——Opower公司是于2007年創(chuàng)辦的一家家庭能源數(shù)據(jù)分析公司。Opower與電力公司合作,搶占家庭消費(fèi)者“入口”,獲取家庭消費(fèi)者的能源使用數(shù)據(jù),進(jìn)行消費(fèi)者用電行為分析,并為其提供節(jié)能減耗的方案,推動(dòng)節(jié)能的互聯(lián)網(wǎng)應(yīng)用。963、能源大數(shù)據(jù)軟件平臺(tái)四、大數(shù)據(jù)技術(shù)Opower——Opower公司是于2007年創(chuàng)辦的一家家庭法國(guó)電力公司(EDF)基于大數(shù)據(jù)的分析預(yù)測(cè):目前全法已經(jīng)安裝3500萬(wàn)智能電表,電表產(chǎn)生的數(shù)據(jù)量將在5-10年內(nèi)達(dá)到PB級(jí)。智能電表采集的主要是個(gè)體家庭的用電負(fù)荷數(shù)據(jù)。以每個(gè)電表每10分鐘抄表1次計(jì)算,3500萬(wàn)智能電表每年產(chǎn)生1.8萬(wàn)億次抄表記錄和600TB壓縮前數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度大型活動(dòng)臨時(shí)花草租賃合同
- 人才引進(jìn)居間合同范本
- 2025年度海上旅游船責(zé)任承擔(dān)合同
- 別墅綠化養(yǎng)護(hù)合同范本
- 出境旅游組團(tuán)合同范本
- 學(xué)生課桌凳采購(gòu)合同范本
- 房地產(chǎn)公司合作開(kāi)發(fā)合同
- 冷卻塔保養(yǎng)維護(hù)合同范本
- 三方資金監(jiān)管協(xié)議書(shū)范本
- 個(gè)人合作合同范例 樣子
- 2025年湖南工業(yè)職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 智能RPA財(cái)務(wù)機(jī)器人開(kāi)發(fā)教程-基于來(lái)也UiBot 課件 第1章-機(jī)器人流程自動(dòng)化概述
- 2024-2025學(xué)年天津市河?xùn)|區(qū)高一上學(xué)期期末質(zhì)量檢測(cè)數(shù)學(xué)試卷(含答案)
- 信永中和筆試題庫(kù)及答案
- 甲流乙流培訓(xùn)課件
- 《視網(wǎng)膜靜脈阻塞》課件
- 2025《省建設(shè)工程檔案移交合同書(shū)(責(zé)任書(shū))》
- 春季安全教育培訓(xùn)課件
- 《大學(xué)英語(yǔ)1》期末考試試卷及答案(專(zhuān)科)
- 《石油鉆井基本知識(shí)》課件
- 《ZN真空斷路器》課件
評(píng)論
0/150
提交評(píng)論