大數(shù)據(jù)的機(jī)會(huì)與挑戰(zhàn)_第1頁(yè)
大數(shù)據(jù)的機(jī)會(huì)與挑戰(zhàn)_第2頁(yè)
大數(shù)據(jù)的機(jī)會(huì)與挑戰(zhàn)_第3頁(yè)
大數(shù)據(jù)的機(jī)會(huì)與挑戰(zhàn)_第4頁(yè)
大數(shù)據(jù)的機(jī)會(huì)與挑戰(zhàn)_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)的機(jī)會(huì)與挑戰(zhàn)我們活在大數(shù)據(jù)的世界,數(shù)據(jù)的數(shù)量與多樣化的程度,每日都以前所未有的規(guī)模撲向人類(lèi)。無(wú)論你是不是在相關(guān)產(chǎn)業(yè)工作,都不可能逃離被大數(shù)據(jù)圍攻的現(xiàn)實(shí)。自哈佛大學(xué)電腦科學(xué)系畢業(yè)、Cambridge Semantics共同創(chuàng)辦人 Lee Feigenbaum撰寫(xiě)的 Turnning Big Data into Smart Data 一文,告訴我們橫亙企業(yè)眼前的大數(shù)據(jù)挑戰(zhàn)。讓我們先來(lái)看看,大數(shù)據(jù)到底有多大?每天全球每一個(gè)人聚沙成塔,累積的新數(shù)據(jù)達(dá)到艾位元組(至達(dá)到皆位元組( zettabytes ),端賴(lài)統(tǒng)計(jì)的來(lái)源)。exabytes)(甚至今一半以上(有些報(bào)告甚至指出高達(dá)90%)的數(shù)據(jù)資料

2、是在過(guò)去12 個(gè)月產(chǎn)生的。人們創(chuàng)造數(shù)據(jù)的速度每一個(gè)月都以雙倍速度成長(zhǎng)。除了嚇人以外,光有這些大數(shù)據(jù),其實(shí)沒(méi)有什么意義,唯有人類(lèi)能夠從中發(fā)掘價(jià)值,大數(shù)據(jù)才產(chǎn)生意義。所幸,已有很多應(yīng)用實(shí)例,讓大數(shù)據(jù)發(fā)出應(yīng)有的光芒,也讓我們看到各行各業(yè)有無(wú)窮盡的機(jī)會(huì),等待數(shù)據(jù)科學(xué)家的探勘。在大數(shù)據(jù)還沒(méi)變成人人瑯瑯上口的流行詞匯之前, 小說(shuō)改變而成的電影 魔球描述美國(guó)大聯(lián)盟運(yùn)動(dòng)家隊(duì)點(diǎn)石成金在缺乏明星球員的狀況下殺出血路的真實(shí)故事,早已讓人津津樂(lè)道,而它正是數(shù)據(jù)分析的絕佳體現(xiàn)。醫(yī)療與制藥產(chǎn)業(yè)紛紛投入大筆經(jīng)費(fèi),研發(fā)客制化的個(gè)人醫(yī)學(xué),透過(guò)分析病人的特徵與基因組成,給予個(gè)別病人量身定做的診斷與療法,實(shí)驗(yàn)室與臨床都需要大量且多

3、樣化的數(shù)據(jù)整合。智能手機(jī)、運(yùn)動(dòng)手環(huán)甚至後來(lái)的智慧型手表,我們分分秒秒都在量化自我,健身的程度、攝取的營(yíng)養(yǎng)、身心狀況、行為趨向全部都被巨細(xì)靡遺的記錄下來(lái)。大型銀行與隸屬政府的金融部門(mén)對(duì)資料長(zhǎng)(chief data officer,CDO)與數(shù)據(jù)科學(xué)家需求若渴,他們要能全盤(pán)考量組織職能,針對(duì)數(shù)據(jù)的蒐集、分析與應(yīng)用做出策略性的思維。無(wú)論地方政府或中央政府,都正流行資料透明化,如英美政府皆建立網(wǎng)站揭示公開(kāi)資料。人們自發(fā)性要求政府公布更多資料的行動(dòng)也如火如荼,例如美國(guó)的DATA Act。大數(shù)據(jù)在美國(guó)總統(tǒng)大選中扮演了很關(guān)鍵的角色,幫助候選人清晰的辨識(shí)出搖擺不定的選民。Target 、Walmart 等零售

4、商巨擘已經(jīng)透徹分析顧客的資料好幾年,早就能夠在家人與朋友察覺(jué)之前,搶先一步知道某個(gè)消費(fèi)者懷孕的消息。智能恒溫器 Nest Thermostat 、智能監(jiān)控 Quirky 、利用使用者 GPS 群眾外包塞車(chē)情況的 Waze,都是基於數(shù)據(jù)蒐集與預(yù)測(cè)成就物聯(lián)網(wǎng)生活的新創(chuàng)公司,他們都已獲得 GE、Google 等大企業(yè)投入鉅資甚至并購(gòu),企盼能從大數(shù)據(jù)中挖掘巨量?jī)r(jià)值。盡管有這么多成功的案例,對(duì)很多企業(yè)來(lái)說(shuō),大數(shù)據(jù)仍像一座無(wú)法翻越的山嶺,難以將數(shù)據(jù)完美的融入決策過(guò)程。通常公司在運(yùn)用大數(shù)據(jù)時(shí),會(huì)遇到下列五個(gè)挑戰(zhàn):挑戰(zhàn) 1 :我們不知道答案,甚至連問(wèn)題是什么都很模糊大數(shù)據(jù)時(shí)代的其中一個(gè)關(guān)鍵特徵是,我們很難知道

5、我們需要的答案,有時(shí)甚至連想要解決的問(wèn)題都很模糊。有一部分原因是,大數(shù)據(jù)的價(jià)值在於模式( pattern )與相關(guān)性( relationship ),但這些過(guò)去隱藏在大量資料中的模式與相關(guān)性,經(jīng)常都是意外發(fā)現(xiàn)的。我們不能期待專(zhuān)家為每一行資料都特制MapReduce(Google 提出的軟體架構(gòu),用於大規(guī)模數(shù)據(jù)的并行運(yùn)算),其他大數(shù)據(jù)分析框架也一樣有很高的進(jìn)入壁壘,阻礙簡(jiǎn)單的資料探索與分析。擁有深度分析、數(shù)學(xué)、統(tǒng)計(jì)與程式技能的數(shù)據(jù)科學(xué)家,無(wú)疑是現(xiàn)階段最炙手可熱的人才,不過(guò)人才養(yǎng)成的速度遠(yuǎn)遠(yuǎn)不及市場(chǎng)需求。挑戰(zhàn) 2 :非結(jié)構(gòu)化的數(shù)據(jù)難以采集就現(xiàn)實(shí)面來(lái)說(shuō),大數(shù)據(jù)其實(shí)就等於非結(jié)構(gòu)化的數(shù)據(jù),也就是從文本分

6、析到未經(jīng)梳理的文字、聲音與影片導(dǎo)出的數(shù)據(jù)。這些文本分析景觀,有著幾乎堆積成山的問(wèn)題,讓我們難以利用非結(jié)構(gòu)化的數(shù)據(jù)幫助日常的企業(yè)營(yíng)運(yùn)決策。這些問(wèn)題包括:不同的內(nèi)容需要運(yùn)用不同的工具:客戶(hù)回響與產(chǎn)業(yè)分析各有不同的語(yǔ)言分析工具,如果使用一般的分析軟體,可能就會(huì)犧牲精準(zhǔn)度。不同的時(shí)機(jī)需要運(yùn)用不同的文本分析技術(shù):自文本中萃取企業(yè)內(nèi)部資訊,跟分析社群媒體情緒波動(dòng)是完全不同的挑戰(zhàn)。文本分析的結(jié)果不可預(yù)測(cè):挖掘大量網(wǎng)頁(yè)、電子信箱中的信件、以及其他文件,通常能夠顯示過(guò)去未知的關(guān)聯(lián)性。只是,即使大數(shù)據(jù)的貯存,讓我們能夠更便利的捕捉難以控制的數(shù)據(jù),不過(guò)後續(xù)的分析,光有大數(shù)據(jù)的存在是沒(méi)有多少幫助的。挑戰(zhàn) 3 :大數(shù)據(jù)

7、難以重復(fù)利用一般而言,數(shù)據(jù)的搜集、貯存、使用,都是針對(duì)單一目的,像是投資銀行搜集 10-K 文件(美國(guó)上市公司年度報(bào)表),協(xié)助買(mǎi)方從事權(quán)益分析,生技公司在資料庫(kù)中儲(chǔ)存臨床實(shí)驗(yàn)的結(jié)果,向 FDA(美國(guó)食品藥品監(jiān)督管理局)提交報(bào)告,電商從制造商擷取庫(kù)存滋料庫(kù),與他們自己的網(wǎng)站內(nèi)容管理系統(tǒng)整合在一起。這些數(shù)據(jù)既然只為特定目的服務(wù),自然很難再被利用到其他使用情境上。因此,風(fēng)險(xiǎn)管理人員無(wú)法從 10-K 文件的分析獲取與自己職務(wù)相關(guān)的資訊,生技公司的資深科學(xué)家沒(méi)辦法自臨床數(shù)據(jù)滋料庫(kù)預(yù)測(cè)早期藥物的成功機(jī)率,電商從業(yè)者也沒(méi)辦法重復(fù)利用庫(kù)存資料庫(kù),辨識(shí)不同商品的戰(zhàn)略性差距。挑戰(zhàn) 4 :大數(shù)據(jù)只是故事的一小部分從

8、前幾項(xiàng)挑戰(zhàn)看下來(lái),想要促成一家真正由數(shù)據(jù)驅(qū)動(dòng)、且由數(shù)據(jù)決策的公司,光有大數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不足的。大數(shù)據(jù)得跟傳統(tǒng)的企業(yè)資料來(lái)源(如交易與營(yíng)運(yùn)資料庫(kù)或ERP 儲(chǔ)存系統(tǒng)),或者云端SaaS 應(yīng)用(如 Salesforce的 CRM 資料)、無(wú)數(shù)的影子IT (shadow IT )數(shù)據(jù)來(lái)源(包括試算表、簡(jiǎn)報(bào)、文件、SharePoint ),整合的工作極端昂貴而且曠日費(fèi)時(shí),但是如果不做,那也甭想利用大數(shù)據(jù)解決企業(yè)的問(wèn)題了。挑戰(zhàn) 5 :大數(shù)據(jù)的準(zhǔn)備階段成本極高大數(shù)據(jù)時(shí)代的普遍心態(tài)與工具,總是鼓舞著我們蒐集愈多數(shù)據(jù)愈好。不過(guò)數(shù)據(jù)要有價(jià)值,在準(zhǔn)備的階段就需考量整合、散布與利用。大數(shù)據(jù)的準(zhǔn)備可能代表三種情況:發(fā)現(xiàn):在大量的數(shù)據(jù)儲(chǔ)存中辨識(shí)正確的數(shù)據(jù)記錄去蕪存菁:評(píng)估與改善數(shù)據(jù)的品質(zhì)、可靠度與精確度組合( alignment ):將數(shù)據(jù)概要與個(gè)人記錄以常態(tài)的模式聯(lián)系起來(lái),以利整合與分析。普遍來(lái)說(shuō),

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論