大數(shù)據(jù)時代-課件_第1頁
大數(shù)據(jù)時代-課件_第2頁
大數(shù)據(jù)時代-課件_第3頁
大數(shù)據(jù)時代-課件_第4頁
大數(shù)據(jù)時代-課件_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)時代千帆環(huán)保大數(shù)據(jù)時代千帆環(huán)保大數(shù)據(jù)時代-生活、工作與思維的重大變革《大數(shù)據(jù)時代》是國外大數(shù)據(jù)研究的先河之作,本書作者維克托·邁爾·舍恩伯格被譽為“大數(shù)據(jù)商業(yè)應用第一人”,有在牛津大學、哈佛大學、耶魯大學、新加坡國立大學等多個互聯(lián)網(wǎng)研究重鎮(zhèn)任教的經(jīng)歷,早在2010年就在《經(jīng)濟學人》上發(fā)布了長達14頁對大數(shù)據(jù)應用的前瞻性研究。維克托·邁爾·舍恩伯格在書中前瞻性地指出,大數(shù)據(jù)帶來的信息風暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型,并用三個部分講述了大數(shù)據(jù)時代的思維變革、商業(yè)變革和管理變革。千帆環(huán)保大數(shù)據(jù)時代-生活、工作與思維的重大變革《大數(shù)據(jù)時代》是國外大2維克托邁爾-舍恩伯格(ViktorMayer-Sch?nberger)他是十余年潛心研究數(shù)據(jù)科學的技術權威,他是最早洞見大數(shù)據(jù)時代發(fā)展趨勢的數(shù)據(jù)科學家之一,也是最受人尊敬的權威發(fā)言人之一。他曾先后任教于世界最著名的幾大互聯(lián)網(wǎng)研究學府。現(xiàn)任牛津大學網(wǎng)絡學院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授,曾任哈佛大學肯尼迪學院信息監(jiān)管科研項目負責人,哈佛國家電子商務研究中心網(wǎng)絡監(jiān)管項目負責人;曾任新加坡國立大學李光耀學院信息與創(chuàng)新策略研究中心主任。并擔任耶魯大學、芝加哥大學、弗吉尼亞大學、圣地亞哥大學、維也納大學的客座教授。他的學術成果斐然,有一百多篇論文公開發(fā)表在《科學》《自然》等著名學術期刊上,他同時也是哈佛大學出版社、麻省理工出版社、通信政策期刊、美國社會學期刊等多家出版機構(gòu)的特約評論員。他是備受眾多世界知名企業(yè)信賴的信息權威與顧問。他的咨詢客戶包括微軟、惠普和IBM等全球頂級企業(yè);而他自己早在1986年與1995年就擔任兩家軟件公司的總裁兼CEO,由他的公司開發(fā)的病毒通用程序,成為當時奧地利最暢銷的軟件產(chǎn)品。1991年躋身奧地利軟件企業(yè)家前5名之列,2000年被評為奧地利薩爾斯堡州的年度人物。千帆環(huán)保維克托邁爾-舍恩伯格(ViktorMayer-Sch?n3大數(shù)據(jù)--引言最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。”“大數(shù)據(jù)”在物理學、生物學、環(huán)境生態(tài)學等領域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因為近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關注。千帆環(huán)保大數(shù)據(jù)--引言最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司4大數(shù)據(jù)大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法。大數(shù)據(jù)的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。數(shù)據(jù)又并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。對于“大數(shù)據(jù)”(Bigdata)研究機構(gòu)Gartner給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。千帆環(huán)保大數(shù)據(jù)大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及5大數(shù)據(jù)從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業(yè)的潛力。大數(shù)據(jù)可分成大數(shù)據(jù)技術、大數(shù)據(jù)工程、大數(shù)據(jù)科學和大數(shù)據(jù)應用等領域。目前人們談論最多的是大數(shù)據(jù)技術和大數(shù)據(jù)應用。工程和科學問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設運營管理的系統(tǒng)工程;大數(shù)據(jù)科學關注大數(shù)據(jù)網(wǎng)絡發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關系。大數(shù)據(jù)的4個“V”,或者說特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業(yè)價值高。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質(zhì)的不同。互聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。千帆環(huán)保大數(shù)據(jù)從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術。簡言之,從6數(shù)據(jù)的換算關系最小的基本單位是Byte,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進率1024(2的十次方)來計算:1Byte=8bit

1KB=1,024Bytes

1MB=1,024KB=1,048,576Bytes

1GB=1,024MB=1,048,576KB

1TB=1,024GB=1,048,576MB1PB=1,024TB=1,048,576GB1EB=1,024PB=1,048,576TB1ZB=1,024EB=1,048,576PB1YB=1,024ZB=1,048,576EB1BB=1,024YB=1,048,576ZB1NB=1,024BB=1,048,576YB1DB=1,024NB=1,048,576BB千帆環(huán)保數(shù)據(jù)的換算關系最小的基本單位是Byte,按順序給出所有單7大數(shù)據(jù)產(chǎn)生的的變革大數(shù)據(jù),變革公共衛(wèi)生2009年H1N1流行病毒背景下谷歌通過檢測檢索詞條,處理了4.5億個不同的數(shù)據(jù)模型,通過預測并與2007年、2008年美國疾控中心記錄的實際流感病例進行對比后,確定了45條檢索詞條組合,并將其用于一個特定的數(shù)學模型后,預測的結(jié)果與官方數(shù)據(jù)的相關系數(shù)高達97%。按照傳統(tǒng)的信息返回流程,通告新流感病毒病例將有一到兩周的延遲。對于飛速傳播的疾病,信息滯后兩周是致命的。而谷歌運用大數(shù)據(jù)技術,以前所未有的方式,通過海量數(shù)據(jù)分析得出流感所傳播的范圍,為世界預測流感提供了一種更快捷的預測工具。大數(shù)據(jù),變革商業(yè)Farecast公司是一個成功的典型范例。該公司由奧倫·埃齊奧尼創(chuàng)辦,利用機票的銷售數(shù)據(jù)來預測未來的機票價格,旨在幫助用戶在購買機票方面做出預測,并對機票價格走勢預測的可信度標示出來供消費者查考。Farecast系統(tǒng)利用近十萬億條價格記錄預測的準確度達75%,使得使用Farecast票價預測工具購買機票的旅客,平均每張機票節(jié)約50美元。大數(shù)據(jù),變革思維由于我們進入了一個前所未有的信息化時代,人們擁有了如此多的數(shù)據(jù),才提供給我們利用大數(shù)據(jù)的分析處理手段,創(chuàng)造新的價值。也許有人以為我們大數(shù)據(jù)時代的還未來臨。其實大數(shù)據(jù)技術早已滲透到我們中間,它被應用在垃圾郵件的過濾,新浪微博技術平臺,谷歌翻譯以及輸入文字的自動糾錯等。大數(shù)據(jù),開啟重大的時代轉(zhuǎn)型千帆環(huán)保大數(shù)據(jù)產(chǎn)生的的變革大數(shù)據(jù),變革公共衛(wèi)生千帆環(huán)保8大數(shù)據(jù)的核心大數(shù)據(jù)的核心就是預測。它通常被視為人工智能的一部分,或者更確切地說,被視為一種學習機器。但這種定義是有誤導性的。大數(shù)據(jù)不是要教機器像人一樣思考。相反,它是把數(shù)學算法運用到海量的數(shù)據(jù)上來預測事情發(fā)生的可能性。不久的將來,世界許多現(xiàn)在單純依靠人類判斷力的領域都會被計算機系統(tǒng)所改變,甚至替代。計算機系統(tǒng)可以發(fā)揮作用的領域遠不止駕駛和交友,還有更多更復雜的任務。別忘了,亞馬遜可以幫我們推薦喜歡看的書,谷歌可以關聯(lián)網(wǎng)站的排序,F(xiàn)acebook可以知道我們的喜好,而Linkedin可以猜出我們認識誰。(個性化排序和個性化推薦)同樣的技術還可以運用到疾病診斷、推薦治療措施,甚至識別潛在犯罪分子上。千帆環(huán)保大數(shù)據(jù)的核心大數(shù)據(jù)的核心就是預測。千帆環(huán)保9大數(shù)據(jù),大挑戰(zhàn)大數(shù)據(jù)的精髓在于我們分析信息時的三個轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會的方法。第一個轉(zhuǎn)變是:在大數(shù)據(jù)時代,我們可以分析更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關的所有數(shù)據(jù),而不再依賴于隨機采樣。第二個轉(zhuǎn)變是:研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度。第三個轉(zhuǎn)變因前兩個轉(zhuǎn)變而促成,即我們不再熱衷于尋找因果關系。千帆環(huán)保大數(shù)據(jù),大挑戰(zhàn)大數(shù)據(jù)的精髓在于我們分析信息時的三個轉(zhuǎn)變,這些10大數(shù)據(jù)時代的思維變革更多不是隨機樣本,而全整體數(shù)據(jù)?!皹颖?整體”隨機取樣是小數(shù)據(jù)時代用最少的數(shù)據(jù)獲取最大價值的做法。采樣分析的精確性隨著采樣隨機性的增加而大幅度提高,但與樣本數(shù)量的增加關系不大。樣本選擇的隨機性比樣本數(shù)量更重要。大數(shù)據(jù)是指不用隨機分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。蘋果公司的總裁史蒂夫·喬布斯在與癌癥斗爭的過程中采用了不同的方式,成為世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用,這是23andme報價的幾百倍之多。所以他得到的不是一個只有一系列標記的樣本,他得到了包括整個基因密碼的數(shù)據(jù)文檔。對于一個普通的癌癥患者,醫(yī)生只能期望他的 DNA排列同實驗中使用的樣本足夠相似。但是,喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用藥。喬布斯曾開玩笑說“我要么是第一個通過這種方式戰(zhàn)勝癌癥的人,要么就是最后一個因為這種方式死于癌癥的人”。雖然最后難免死于癌癥但這種獲得所有數(shù)據(jù)而不是僅樣本的方法將他的生命延長了幾年。千帆環(huán)保大數(shù)據(jù)時代的思維變革更多不是隨機樣本,而全整體數(shù)據(jù)。“樣本=11大數(shù)據(jù)時代的思維變革更雜不是精確性,而是混雜性。隨著數(shù)據(jù)使用的越來越多,其得出的結(jié)果并不一定能越來越精確,畢竟數(shù)據(jù)不能保證百分之百的正確,特別是大數(shù)據(jù)時代各種結(jié)構(gòu)化與非結(jié)構(gòu)化類型的數(shù)據(jù)聚集在一起難免導致結(jié)果的不太精確。大數(shù)據(jù)時代要求我們重新審視精確性的優(yōu)劣。谷歌翻譯之所以優(yōu)于IBM的Candide系統(tǒng)并不是因為它擁有更好的算法機制。和微軟的班科和布里爾一樣,谷歌翻譯增加了各種各樣的數(shù)據(jù),并且接受了有錯誤的數(shù)據(jù)。千帆環(huán)保大數(shù)據(jù)時代的思維變革更雜不是精確性,而是混雜性。千帆環(huán)保12大數(shù)據(jù)時代的思維變革更好不是因果關系,而是相關關系。在大數(shù)據(jù)時代往往知道是什么要比知道為什么來的更實在。知道人們?yōu)槭裁磳@些信息感興趣可能是有用的,但這個問題目前并不是很重要。但是,知道“是什么”可以創(chuàng)造點擊率,這種洞察力足以足以重塑很多行業(yè)。林登的亞馬遜推薦系統(tǒng)的成功,證實了大數(shù)據(jù)在分析相關性方面的優(yōu)勢以及在銷售中獲得的成功。通過給我們找一個現(xiàn)象的良好的關聯(lián)物,相關關系可以幫助我們捕捉現(xiàn)在和預測未來。沃爾瑪也是充分利用并挖掘各類數(shù)據(jù)信息的先鋒和代表,從以前廣為人事的啤酒和尿布的案例,以及有關蛋撻和颶風天氣的案例,都說明了掌握了相關關系對于其策略的幫助。建立在相關關系分析法基礎上的預測是大數(shù)據(jù)的核心。Aviva保險公司利用幾百種生活方式的數(shù)據(jù),如愛好、長瀏覽網(wǎng)頁等間接的預測出哪些人更可能患高血壓、糖尿病和抑郁癥。UPS國家快遞公司通過使用預測性分析檢測其全美6萬輛車隊,進行防御性的修理,節(jié)約巨大得的成本。這些都充分顯示了大數(shù)據(jù)在預測方面的優(yōu)勢。千帆環(huán)保大數(shù)據(jù)時代的思維變革更好不是因果關系,而是相關關系。千帆環(huán)保13大數(shù)據(jù)時代的商業(yè)變革數(shù)據(jù)化一切皆可“量化”大數(shù)據(jù)發(fā)展的核心動力來源于人類測量、記錄和分析世界的渴望。信息技術變革隨處可見,但是如今的信息技術變革的重點在于技術上,而不是信息本身?,F(xiàn)在是時候開始關注信息本身了。莫里利用大量的人力去分析多年保存的航海記錄,他從這些大量的數(shù)據(jù)中獲取到新的利用價值。繪制的圖表幫助商人節(jié)約一大筆錢,使年輕的海員們間接獲取了成千上萬名經(jīng)驗豐富的航海家的指導。日本先進工業(yè)技術研究所越水重臣教授通過安裝壓力傳感器將人屁股特征數(shù)據(jù)化,進而形成對乘客身份的特征識別。這項技術為汽車防盜系統(tǒng)提供了方案。D公司,致力于為顧客預測商品的價格,通過收集處理海量的價格信息,預測準確率高達77%,幫助顧客在購買一個產(chǎn)品時節(jié)約了大約100美元。MasterCardd.Advisor部門通過分析來自210個國家的15億信用卡用戶的650億條交易記錄,分析得出商業(yè)發(fā)展和客戶消費趨勢,如通過分析發(fā)現(xiàn)如果一個人下午四點左右給汽車加油的話,他很可能在接下來的一個小時內(nèi)去購物或者去餐館吃飯,且在這一小時里大約花費35到40美元。商家正可以利用這個分析結(jié)果,在加油的小票背面附加上附近商店的優(yōu)惠券。千帆環(huán)保大數(shù)據(jù)時代的商業(yè)變革數(shù)據(jù)化一切皆可“量化”千帆環(huán)保14大數(shù)據(jù)時代的商業(yè)變革價值“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新特瑪捷等公司利用“先到先得”原則提供演唱會門票網(wǎng)上預訂服務時,作弊軟件會偷偷跑到真實排隊的人前將票全部買下。針對這一情況路易斯·馮·安提出了解決想法:即在注冊過程中現(xiàn)實一些波浪、識別難度低的字母,人能夠在幾秒鐘內(nèi)識別并輸入正確文本信息,但電腦可能被難倒。馮·安將他的這一創(chuàng)作稱為驗證碼。不同與物質(zhì)性的東西,數(shù)據(jù)的價值不會隨著他的使用而減少,而是可以不斷地被處理。數(shù)據(jù)創(chuàng)新1:數(shù)據(jù)的再利用(典例:搜索關鍵詞、推薦消費)數(shù)據(jù)創(chuàng)新2:重組數(shù)據(jù)(典例:手機是否增加致癌率)數(shù)據(jù)創(chuàng)新3:可擴展數(shù)據(jù)(典例:谷歌街景與GPS數(shù)據(jù)采集)數(shù)據(jù)創(chuàng)新4:數(shù)據(jù)的折舊值(典例:亞馬遜推薦)數(shù)據(jù)創(chuàng)新5:數(shù)據(jù)廢氣(典例:微軟與谷歌的拼寫檢查)數(shù)據(jù)創(chuàng)新6:開放數(shù)據(jù)(典例:政府公開信息)千帆環(huán)保大數(shù)據(jù)時代的商業(yè)變革價值“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新千15大數(shù)據(jù)時代的商業(yè)變革角色定位數(shù)據(jù)、技術與思維的三足鼎立根據(jù)所提供價值的不同來源,分別出現(xiàn)了三種大數(shù)據(jù)公司。這三種來源是指:數(shù)據(jù)本身、技能與思維。第一種是基于數(shù)據(jù)本身的公司。這些公司擁有大量數(shù)據(jù)或者至少可以收集到大量數(shù)據(jù),卻不一定有從數(shù)據(jù)中提取價值或者用數(shù)據(jù)催生創(chuàng)新思想的技能。典型為Twitter,他有海量數(shù)據(jù),但他的數(shù)據(jù)都是通過兩個獨立的公司授權給別人使用的。第二種是基于技能的公司。它們通常是咨詢公司、技術供應商或者分析公司。它們掌握了專業(yè)技能但并不一定擁有數(shù)據(jù)或者提出數(shù)據(jù)創(chuàng)性用途的才能。比如說,沃爾瑪和Pop-Tarts這兩個零售商就是借助天睿公司的分析來獲得營銷點子,天睿就是一家大數(shù)據(jù)分析公司。第三種是基于思維的公司。皮特.華登,Jetpac的聯(lián)合創(chuàng)始人,就是通過想法獲得價值的一個例子,他通過用戶分享到網(wǎng)上的旅行照片來為人們推薦下一次旅行目的地。對于某些公司來說,數(shù)據(jù)和技能并不是成功的關鍵。挖掘數(shù)據(jù)的新價值的創(chuàng)新思維才是這些公司脫穎而出的優(yōu)勢所在。千帆環(huán)保大數(shù)據(jù)時代的商業(yè)變革角色定位數(shù)據(jù)、技術與思維的三足鼎立千帆16大數(shù)據(jù)時代的管理變革風險讓數(shù)據(jù)主宰一切的隱憂我們時時刻刻都暴露在“第三只眼”下:亞馬遜監(jiān)視著我們的購物習慣、谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習慣,而微博似乎什么都知道,不進切聽了我們心目中的“TA”,還有我們的社交關系網(wǎng)。我們的隱私被二次利用了,匿名化不再可行。出現(xiàn)這種無效性則是由兩個因素引起的:一是我們收集的數(shù)據(jù)越來越多,二是我們會結(jié)合越來越多不同來源的數(shù)據(jù)。預測與懲罰,不是因為“所做”,而是因為“將做”。越來越多的美國城市的假釋委員正使用數(shù)據(jù)分析來決定是釋放還是繼續(xù)監(jiān)禁某人。(電影《少數(shù)派報告》)數(shù)據(jù)獨裁:過于依賴數(shù)據(jù),而數(shù)據(jù)遠遠沒有我們所想的那么可靠。我們盲目信任數(shù)據(jù)的力量和潛能而忽略它的局限性。(下級人員出于升官等想法會謊報數(shù)據(jù))有時候卓越的才華并不依賴于數(shù)據(jù)。記者問及喬布斯推出蘋果ipad之前做了多少社會調(diào)查時,他那個著名回答是這樣的:“沒有!消費者沒有義務去了解自己想要什么?!鼻Хh(huán)保大數(shù)據(jù)時代的管理變革風險讓數(shù)據(jù)主宰一切的隱憂千帆環(huán)保17大數(shù)據(jù)時代的管理變革掌握責任與自由并舉的信息管理管理變革1:個人隱私保護,從個人許可到讓數(shù)據(jù)使用者承擔責任。管理變革2:個人動因VS預測分析。人們可以并應該為他們的行為而非傾向負責。管理變革3:擊碎黑盒子,大數(shù)據(jù)算法師的崛起。(類似計算機安全和隱私顧問)管理變革4:反數(shù)據(jù)壟斷大亨。千帆環(huán)保大數(shù)據(jù)時代的管理變革掌握責任與自由并舉的信息管理千帆環(huán)保18結(jié)語大數(shù)據(jù)時代是信息化社會發(fā)展必然趨勢,我們只有緊緊跟隨時代發(fā)展的潮流,在技術上、制度上、價值觀念上做出迅速調(diào)整并牢牢跟進,才能在接下來新一輪的國際競爭中擺脫受制于人的弱勢境地,才能把握發(fā)展的方向,沖破與西方國家的差距。對于一個國家如此,對于一個企業(yè)亦是如此。在如此快速的到來的大數(shù)據(jù)時代,我們還有很多知識需要學習,許多思維需要轉(zhuǎn)變,許多技術需要研究。公司的規(guī)劃中,也需充分考慮到大數(shù)據(jù)對于公司的未來發(fā)展所帶來的機遇和挑戰(zhàn)。對于掌握大量數(shù)據(jù)的公司,需要考慮有多少數(shù)字化的數(shù)據(jù),又有哪些可以通過大數(shù)據(jù)的分析處理而帶來有價值的用途?比如國內(nèi)目前的社交網(wǎng)站,購物網(wǎng)站等都掌握了用戶的大量的數(shù)據(jù)信息。在大數(shù)據(jù)時代制勝的良藥也許是創(chuàng)新的點子,也許可以利用外部的數(shù)據(jù),通過多維化、多層面的分析給其他企業(yè)或個人帶來價值。千帆環(huán)保結(jié)語大數(shù)據(jù)時代是信息化社會發(fā)展必然趨勢,我們只有緊緊19ThankYou!ThankYou!大數(shù)據(jù)時代千帆環(huán)保大數(shù)據(jù)時代千帆環(huán)保大數(shù)據(jù)時代-生活、工作與思維的重大變革《大數(shù)據(jù)時代》是國外大數(shù)據(jù)研究的先河之作,本書作者維克托·邁爾·舍恩伯格被譽為“大數(shù)據(jù)商業(yè)應用第一人”,有在牛津大學、哈佛大學、耶魯大學、新加坡國立大學等多個互聯(lián)網(wǎng)研究重鎮(zhèn)任教的經(jīng)歷,早在2010年就在《經(jīng)濟學人》上發(fā)布了長達14頁對大數(shù)據(jù)應用的前瞻性研究。維克托·邁爾·舍恩伯格在書中前瞻性地指出,大數(shù)據(jù)帶來的信息風暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型,并用三個部分講述了大數(shù)據(jù)時代的思維變革、商業(yè)變革和管理變革。千帆環(huán)保大數(shù)據(jù)時代-生活、工作與思維的重大變革《大數(shù)據(jù)時代》是國外大22維克托邁爾-舍恩伯格(ViktorMayer-Sch?nberger)他是十余年潛心研究數(shù)據(jù)科學的技術權威,他是最早洞見大數(shù)據(jù)時代發(fā)展趨勢的數(shù)據(jù)科學家之一,也是最受人尊敬的權威發(fā)言人之一。他曾先后任教于世界最著名的幾大互聯(lián)網(wǎng)研究學府?,F(xiàn)任牛津大學網(wǎng)絡學院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授,曾任哈佛大學肯尼迪學院信息監(jiān)管科研項目負責人,哈佛國家電子商務研究中心網(wǎng)絡監(jiān)管項目負責人;曾任新加坡國立大學李光耀學院信息與創(chuàng)新策略研究中心主任。并擔任耶魯大學、芝加哥大學、弗吉尼亞大學、圣地亞哥大學、維也納大學的客座教授。他的學術成果斐然,有一百多篇論文公開發(fā)表在《科學》《自然》等著名學術期刊上,他同時也是哈佛大學出版社、麻省理工出版社、通信政策期刊、美國社會學期刊等多家出版機構(gòu)的特約評論員。他是備受眾多世界知名企業(yè)信賴的信息權威與顧問。他的咨詢客戶包括微軟、惠普和IBM等全球頂級企業(yè);而他自己早在1986年與1995年就擔任兩家軟件公司的總裁兼CEO,由他的公司開發(fā)的病毒通用程序,成為當時奧地利最暢銷的軟件產(chǎn)品。1991年躋身奧地利軟件企業(yè)家前5名之列,2000年被評為奧地利薩爾斯堡州的年度人物。千帆環(huán)保維克托邁爾-舍恩伯格(ViktorMayer-Sch?n23大數(shù)據(jù)--引言最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來?!薄按髷?shù)據(jù)”在物理學、生物學、環(huán)境生態(tài)學等領域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因為近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關注。千帆環(huán)保大數(shù)據(jù)--引言最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司24大數(shù)據(jù)大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法。大數(shù)據(jù)的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。數(shù)據(jù)又并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。對于“大數(shù)據(jù)”(Bigdata)研究機構(gòu)Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。千帆環(huán)保大數(shù)據(jù)大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及25大數(shù)據(jù)從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業(yè)的潛力。大數(shù)據(jù)可分成大數(shù)據(jù)技術、大數(shù)據(jù)工程、大數(shù)據(jù)科學和大數(shù)據(jù)應用等領域。目前人們談論最多的是大數(shù)據(jù)技術和大數(shù)據(jù)應用。工程和科學問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設運營管理的系統(tǒng)工程;大數(shù)據(jù)科學關注大數(shù)據(jù)網(wǎng)絡發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關系。大數(shù)據(jù)的4個“V”,或者說特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業(yè)價值高。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質(zhì)的不同?;ヂ?lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。千帆環(huán)保大數(shù)據(jù)從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術。簡言之,從26數(shù)據(jù)的換算關系最小的基本單位是Byte,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進率1024(2的十次方)來計算:1Byte=8bit

1KB=1,024Bytes

1MB=1,024KB=1,048,576Bytes

1GB=1,024MB=1,048,576KB

1TB=1,024GB=1,048,576MB1PB=1,024TB=1,048,576GB1EB=1,024PB=1,048,576TB1ZB=1,024EB=1,048,576PB1YB=1,024ZB=1,048,576EB1BB=1,024YB=1,048,576ZB1NB=1,024BB=1,048,576YB1DB=1,024NB=1,048,576BB千帆環(huán)保數(shù)據(jù)的換算關系最小的基本單位是Byte,按順序給出所有單27大數(shù)據(jù)產(chǎn)生的的變革大數(shù)據(jù),變革公共衛(wèi)生2009年H1N1流行病毒背景下谷歌通過檢測檢索詞條,處理了4.5億個不同的數(shù)據(jù)模型,通過預測并與2007年、2008年美國疾控中心記錄的實際流感病例進行對比后,確定了45條檢索詞條組合,并將其用于一個特定的數(shù)學模型后,預測的結(jié)果與官方數(shù)據(jù)的相關系數(shù)高達97%。按照傳統(tǒng)的信息返回流程,通告新流感病毒病例將有一到兩周的延遲。對于飛速傳播的疾病,信息滯后兩周是致命的。而谷歌運用大數(shù)據(jù)技術,以前所未有的方式,通過海量數(shù)據(jù)分析得出流感所傳播的范圍,為世界預測流感提供了一種更快捷的預測工具。大數(shù)據(jù),變革商業(yè)Farecast公司是一個成功的典型范例。該公司由奧倫·埃齊奧尼創(chuàng)辦,利用機票的銷售數(shù)據(jù)來預測未來的機票價格,旨在幫助用戶在購買機票方面做出預測,并對機票價格走勢預測的可信度標示出來供消費者查考。Farecast系統(tǒng)利用近十萬億條價格記錄預測的準確度達75%,使得使用Farecast票價預測工具購買機票的旅客,平均每張機票節(jié)約50美元。大數(shù)據(jù),變革思維由于我們進入了一個前所未有的信息化時代,人們擁有了如此多的數(shù)據(jù),才提供給我們利用大數(shù)據(jù)的分析處理手段,創(chuàng)造新的價值。也許有人以為我們大數(shù)據(jù)時代的還未來臨。其實大數(shù)據(jù)技術早已滲透到我們中間,它被應用在垃圾郵件的過濾,新浪微博技術平臺,谷歌翻譯以及輸入文字的自動糾錯等。大數(shù)據(jù),開啟重大的時代轉(zhuǎn)型千帆環(huán)保大數(shù)據(jù)產(chǎn)生的的變革大數(shù)據(jù),變革公共衛(wèi)生千帆環(huán)保28大數(shù)據(jù)的核心大數(shù)據(jù)的核心就是預測。它通常被視為人工智能的一部分,或者更確切地說,被視為一種學習機器。但這種定義是有誤導性的。大數(shù)據(jù)不是要教機器像人一樣思考。相反,它是把數(shù)學算法運用到海量的數(shù)據(jù)上來預測事情發(fā)生的可能性。不久的將來,世界許多現(xiàn)在單純依靠人類判斷力的領域都會被計算機系統(tǒng)所改變,甚至替代。計算機系統(tǒng)可以發(fā)揮作用的領域遠不止駕駛和交友,還有更多更復雜的任務。別忘了,亞馬遜可以幫我們推薦喜歡看的書,谷歌可以關聯(lián)網(wǎng)站的排序,F(xiàn)acebook可以知道我們的喜好,而Linkedin可以猜出我們認識誰。(個性化排序和個性化推薦)同樣的技術還可以運用到疾病診斷、推薦治療措施,甚至識別潛在犯罪分子上。千帆環(huán)保大數(shù)據(jù)的核心大數(shù)據(jù)的核心就是預測。千帆環(huán)保29大數(shù)據(jù),大挑戰(zhàn)大數(shù)據(jù)的精髓在于我們分析信息時的三個轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會的方法。第一個轉(zhuǎn)變是:在大數(shù)據(jù)時代,我們可以分析更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關的所有數(shù)據(jù),而不再依賴于隨機采樣。第二個轉(zhuǎn)變是:研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度。第三個轉(zhuǎn)變因前兩個轉(zhuǎn)變而促成,即我們不再熱衷于尋找因果關系。千帆環(huán)保大數(shù)據(jù),大挑戰(zhàn)大數(shù)據(jù)的精髓在于我們分析信息時的三個轉(zhuǎn)變,這些30大數(shù)據(jù)時代的思維變革更多不是隨機樣本,而全整體數(shù)據(jù)。“樣本=整體”隨機取樣是小數(shù)據(jù)時代用最少的數(shù)據(jù)獲取最大價值的做法。采樣分析的精確性隨著采樣隨機性的增加而大幅度提高,但與樣本數(shù)量的增加關系不大。樣本選擇的隨機性比樣本數(shù)量更重要。大數(shù)據(jù)是指不用隨機分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。蘋果公司的總裁史蒂夫·喬布斯在與癌癥斗爭的過程中采用了不同的方式,成為世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用,這是23andme報價的幾百倍之多。所以他得到的不是一個只有一系列標記的樣本,他得到了包括整個基因密碼的數(shù)據(jù)文檔。對于一個普通的癌癥患者,醫(yī)生只能期望他的 DNA排列同實驗中使用的樣本足夠相似。但是,喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用藥。喬布斯曾開玩笑說“我要么是第一個通過這種方式戰(zhàn)勝癌癥的人,要么就是最后一個因為這種方式死于癌癥的人”。雖然最后難免死于癌癥但這種獲得所有數(shù)據(jù)而不是僅樣本的方法將他的生命延長了幾年。千帆環(huán)保大數(shù)據(jù)時代的思維變革更多不是隨機樣本,而全整體數(shù)據(jù)。“樣本=31大數(shù)據(jù)時代的思維變革更雜不是精確性,而是混雜性。隨著數(shù)據(jù)使用的越來越多,其得出的結(jié)果并不一定能越來越精確,畢竟數(shù)據(jù)不能保證百分之百的正確,特別是大數(shù)據(jù)時代各種結(jié)構(gòu)化與非結(jié)構(gòu)化類型的數(shù)據(jù)聚集在一起難免導致結(jié)果的不太精確。大數(shù)據(jù)時代要求我們重新審視精確性的優(yōu)劣。谷歌翻譯之所以優(yōu)于IBM的Candide系統(tǒng)并不是因為它擁有更好的算法機制。和微軟的班科和布里爾一樣,谷歌翻譯增加了各種各樣的數(shù)據(jù),并且接受了有錯誤的數(shù)據(jù)。千帆環(huán)保大數(shù)據(jù)時代的思維變革更雜不是精確性,而是混雜性。千帆環(huán)保32大數(shù)據(jù)時代的思維變革更好不是因果關系,而是相關關系。在大數(shù)據(jù)時代往往知道是什么要比知道為什么來的更實在。知道人們?yōu)槭裁磳@些信息感興趣可能是有用的,但這個問題目前并不是很重要。但是,知道“是什么”可以創(chuàng)造點擊率,這種洞察力足以足以重塑很多行業(yè)。林登的亞馬遜推薦系統(tǒng)的成功,證實了大數(shù)據(jù)在分析相關性方面的優(yōu)勢以及在銷售中獲得的成功。通過給我們找一個現(xiàn)象的良好的關聯(lián)物,相關關系可以幫助我們捕捉現(xiàn)在和預測未來。沃爾瑪也是充分利用并挖掘各類數(shù)據(jù)信息的先鋒和代表,從以前廣為人事的啤酒和尿布的案例,以及有關蛋撻和颶風天氣的案例,都說明了掌握了相關關系對于其策略的幫助。建立在相關關系分析法基礎上的預測是大數(shù)據(jù)的核心。Aviva保險公司利用幾百種生活方式的數(shù)據(jù),如愛好、長瀏覽網(wǎng)頁等間接的預測出哪些人更可能患高血壓、糖尿病和抑郁癥。UPS國家快遞公司通過使用預測性分析檢測其全美6萬輛車隊,進行防御性的修理,節(jié)約巨大得的成本。這些都充分顯示了大數(shù)據(jù)在預測方面的優(yōu)勢。千帆環(huán)保大數(shù)據(jù)時代的思維變革更好不是因果關系,而是相關關系。千帆環(huán)保33大數(shù)據(jù)時代的商業(yè)變革數(shù)據(jù)化一切皆可“量化”大數(shù)據(jù)發(fā)展的核心動力來源于人類測量、記錄和分析世界的渴望。信息技術變革隨處可見,但是如今的信息技術變革的重點在于技術上,而不是信息本身。現(xiàn)在是時候開始關注信息本身了。莫里利用大量的人力去分析多年保存的航海記錄,他從這些大量的數(shù)據(jù)中獲取到新的利用價值。繪制的圖表幫助商人節(jié)約一大筆錢,使年輕的海員們間接獲取了成千上萬名經(jīng)驗豐富的航海家的指導。日本先進工業(yè)技術研究所越水重臣教授通過安裝壓力傳感器將人屁股特征數(shù)據(jù)化,進而形成對乘客身份的特征識別。這項技術為汽車防盜系統(tǒng)提供了方案。D公司,致力于為顧客預測商品的價格,通過收集處理海量的價格信息,預測準確率高達77%,幫助顧客在購買一個產(chǎn)品時節(jié)約了大約100美元。MasterCardd.Advisor部門通過分析來自210個國家的15億信用卡用戶的650億條交易記錄,分析得出商業(yè)發(fā)展和客戶消費趨勢,如通過分析發(fā)現(xiàn)如果一個人下午四點左右給汽車加油的話,他很可能在接下來的一個小時內(nèi)去購物或者去餐館吃飯,且在這一小時里大約花費35到40美元。商家正可以利用這個分析結(jié)果,在加油的小票背面附加上附近商店的優(yōu)惠券。千帆環(huán)保大數(shù)據(jù)時代的商業(yè)變革數(shù)據(jù)化一切皆可“量化”千帆環(huán)保34大數(shù)據(jù)時代的商業(yè)變革價值“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新特瑪捷等公司利用“先到先得”原則提供演唱會門票網(wǎng)上預訂服務時,作弊軟件會偷偷跑到真實排隊的人前將票全部買下。針對這一情況路易斯·馮·安提出了解決想法:即在注冊過程中現(xiàn)實一些波浪、識別難度低的字母,人能夠在幾秒鐘內(nèi)識別并輸入正確文本信息,但電腦可能被難倒。馮·安將他的這一創(chuàng)作稱為驗證碼。不同與物質(zhì)性的東西,數(shù)據(jù)的價值不會隨著他的使用而減少,而是可以不斷地被處理。數(shù)據(jù)創(chuàng)新1:數(shù)據(jù)的再利用(典例:搜索關鍵詞、推薦消費)數(shù)據(jù)創(chuàng)新2:重組數(shù)據(jù)(典例:手機是否增加致癌率)數(shù)據(jù)創(chuàng)新3:可擴展數(shù)據(jù)(典例:谷歌街景與GPS數(shù)據(jù)采集)數(shù)據(jù)創(chuàng)新4:數(shù)據(jù)的折舊值(典例:亞馬遜推薦)數(shù)據(jù)創(chuàng)新5:數(shù)據(jù)廢氣(典例:微軟與谷歌的拼寫檢查)數(shù)據(jù)創(chuàng)新6:開放數(shù)據(jù)(典例:政府公開信息)千帆環(huán)保大數(shù)據(jù)時代的商業(yè)變革價值“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新千35大數(shù)據(jù)時代的商業(yè)變革角色定位數(shù)據(jù)、技術與思維的三足鼎立根據(jù)所提供價值的不同來源

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論