版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)分析與決策姜昱汐 (大連交通大學(xué)經(jīng)濟(jì)管理學(xué)院經(jīng)濟(jì)學(xué)教研室)一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/10/82數(shù)據(jù)管理技術(shù)發(fā)展歷史數(shù)據(jù)管理技術(shù)歷經(jīng)人工管理、文件管理、數(shù)據(jù)庫(kù)管理等時(shí)代,大數(shù)據(jù)技術(shù)的出現(xiàn)使該領(lǐng)域進(jìn)入了一個(gè)新的發(fā)展階段- 3 - 194619511956196119701974197919912001200320082011第一臺(tái)計(jì)算機(jī)ENIAC面世磁帶+卡片人工管理磁盤被發(fā)明,進(jìn)入文件管理時(shí)代網(wǎng)絡(luò)型SQLE-RGE公司發(fā)明第一個(gè)網(wǎng)絡(luò)模型數(shù)據(jù)庫(kù),但僅限于GE自己的主機(jī)1960年代,IT系統(tǒng)規(guī)模和復(fù)雜度變
2、大,數(shù)據(jù)與應(yīng)用分離的需求開始產(chǎn)生,數(shù)據(jù)庫(kù)技術(shù)開始萌芽并蓬勃發(fā)展,并在1990年后逐步統(tǒng)一到以關(guān)系型數(shù)據(jù)庫(kù)為主導(dǎo)IBM E.F.Dodd提出關(guān)系模型SQL語(yǔ)言被發(fā)明關(guān)系型數(shù)據(jù)庫(kù)ORACLE發(fā)布第一個(gè)商用SQL關(guān)系數(shù)據(jù)庫(kù),后續(xù)快速發(fā)展數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)開始涌現(xiàn),關(guān)系數(shù)據(jù)庫(kù)開始全面普及且平臺(tái)無(wú)關(guān),進(jìn)入成熟期2001年后,互聯(lián)網(wǎng)迅速發(fā)展,數(shù)據(jù)量成倍遞增,量變引起質(zhì)變,開始對(duì)數(shù)據(jù)管理技術(shù)提出全新的要求1946年,電腦誕生,數(shù)據(jù)與應(yīng)用緊密捆綁在文件中,彼此不分Hadoop成為Apache頂級(jí)項(xiàng)目,重點(diǎn)支持海量數(shù)據(jù)分布式管理和分布式計(jì)算GFS谷歌發(fā)表論文介紹分布式計(jì)算大數(shù)據(jù)發(fā)展背景全球信息化發(fā)展已步入大數(shù)據(jù)時(shí)
3、代150億個(gè)設(shè)備連接到互聯(lián)網(wǎng)全球每秒鐘發(fā)送 290萬(wàn)封電子郵件每天有 2.88 萬(wàn)小時(shí)視頻上傳到Y(jié)outubeFacebook 每日評(píng)論達(dá)32億條,每天上傳照片近3億張,每月處理數(shù)據(jù)總量約130萬(wàn)TB2011年全球產(chǎn)生數(shù)據(jù)量1.8ZB,預(yù)計(jì)2020年將增長(zhǎng)到35ZB大數(shù)據(jù)正迅速成為最值得關(guān)注的IT領(lǐng)域之一2011年5月,EMC World 2011大會(huì)主題“云計(jì)算相遇大數(shù)據(jù)”,EMC 除了一直倡導(dǎo)的云計(jì)算外,還拋出大數(shù)據(jù)(Big Data)概念2011年6月底,IBM、麥肯錫等眾多國(guó)外機(jī)構(gòu)發(fā)布大數(shù)據(jù)相關(guān)研究報(bào)告,予以積極跟進(jìn)2011 年10 月,Gartner 認(rèn)為2012 年十大戰(zhàn)略技術(shù)將包
4、括大數(shù)據(jù)2011 年11 月底,IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心) 將大數(shù)據(jù)放入2012 年信息通信產(chǎn)業(yè)十大預(yù)測(cè)之一- 4 - IDC全球數(shù)據(jù)量預(yù)測(cè)( 1ZB = 1百萬(wàn)PB = 10億TB)Google網(wǎng)站 Big data關(guān)鍵詞搜索及新聞引用量什么是大數(shù)據(jù)123大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征大數(shù)據(jù)的產(chǎn)生、增長(zhǎng)2022/10/85大數(shù)據(jù)時(shí)代的爆炸增長(zhǎng)想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006 年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011 年,這個(gè)數(shù)字達(dá)到了1.8ZB。而有市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè):到2020 年,整個(gè)世界的數(shù)據(jù)總量將
5、會(huì)增長(zhǎng)44 倍,達(dá)到35.2ZB(1ZB=10 億TB)!1GB = 230字節(jié)1TB = 240字節(jié)1PB = 250字節(jié)1EB = 260字節(jié)1ZB = 270字節(jié)2022/10/87大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說(shuō),只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。VolumeVelocityValueVariety2022/10/88大數(shù)據(jù)的構(gòu)成大數(shù)據(jù) = 海量數(shù)據(jù) + 復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過(guò)關(guān)系數(shù)據(jù)
6、庫(kù)進(jìn)行管理和訪問(wèn)的靜態(tài)、歷史數(shù)據(jù)。通過(guò)這些數(shù)據(jù),我們能了解過(guò)去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、微博、微信及其他來(lái)源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過(guò)管理文件傳輸協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來(lái)會(huì)發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的Apache Hadoop。2022/10/8102022/10/811大數(shù)據(jù)的市場(chǎng)潛力利用GPS
7、數(shù)據(jù)了解交通狀況2012年3月29日奧巴馬政府公布了”大數(shù)據(jù)研發(fā)計(jì)劃”。該計(jì)劃的目標(biāo)是改進(jìn)現(xiàn)有人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識(shí)的能力,從而加速美國(guó)在科學(xué)與工程領(lǐng)域發(fā)明的步伐,增強(qiáng)國(guó)家安全,轉(zhuǎn)變現(xiàn)有的教學(xué)和學(xué)習(xí)方式?!按髷?shù)據(jù)戰(zhàn)略”上升為美國(guó)最高國(guó)策對(duì)數(shù)據(jù)占有和控制,做為在陸權(quán)、海權(quán)、空權(quán)之外的另一種國(guó)家核心能力。大數(shù)據(jù)的浪潮大數(shù)據(jù)與喬布斯的癌癥治療沃爾瑪?shù)钠【婆c紙尿布沃爾瑪?shù)皳榕c颶風(fēng)用品的關(guān)系谷歌流感預(yù)測(cè)大數(shù)據(jù)的商業(yè)價(jià)值行業(yè)數(shù)據(jù)處理方式價(jià)值銀行/金融貸款、保險(xiǎn)、發(fā)卡等多業(yè)務(wù)數(shù)據(jù)集成分析,市場(chǎng)評(píng)估新產(chǎn)品風(fēng)險(xiǎn)評(píng)估股票等投資組合趨勢(shì)分析增加市場(chǎng)份額提升客戶忠誠(chéng)度提高整體收入降低金融風(fēng)險(xiǎn)醫(yī)療共享電子病歷
8、及醫(yī)療記錄,幫助快速診斷穿戴式設(shè)備遠(yuǎn)程醫(yī)療改善診療質(zhì)量加快診療速度互聯(lián)網(wǎng)在線廣告投放商品評(píng)分、排名社交網(wǎng)絡(luò)自動(dòng)匹配搜索結(jié)果優(yōu)化提升網(wǎng)絡(luò)用戶忠誠(chéng)度改善社交網(wǎng)絡(luò)體驗(yàn)向目標(biāo)用戶提供有針對(duì)性的商品與服務(wù)政府/公共事業(yè)智能城市信息網(wǎng)絡(luò)集成天氣、地理、水電煤氣等公共數(shù)據(jù)收集、研究公共安全信息集中處理、智能分析更好地對(duì)外提供公共服務(wù)輿情分析準(zhǔn)確預(yù)判安全威脅媒體/娛樂(lè)收視率統(tǒng)計(jì)熱點(diǎn)信息統(tǒng)計(jì)、分析創(chuàng)造更多聯(lián)合、交叉銷售商機(jī)準(zhǔn)確評(píng)估廣告效用零售基于用戶位置信息的準(zhǔn)確促銷社交網(wǎng)絡(luò)購(gòu)買行為分析促進(jìn)客戶購(gòu)買熱情順應(yīng)客戶購(gòu)買行為習(xí)慣一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例三、大數(shù)據(jù)的可靠性四、大數(shù)據(jù)與貝
9、葉斯方法報(bào)告內(nèi)容2022/10/815二、大數(shù)據(jù)分析Analytic Visualizations(可視化分析)Data Mining Algorithms(數(shù)據(jù)挖掘算法)Predictive Analytic Capabilities(預(yù)測(cè)性分析能力)Semantic Engines(語(yǔ)義引擎)Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)二、大數(shù)據(jù)分析-可視化分析Analytic Visualizations(可視化分析) 不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說(shuō)話,
10、讓觀眾聽到結(jié)果。 二、大數(shù)據(jù)分析-數(shù)據(jù)挖掘算法Data Mining Algorithms(數(shù)據(jù)挖掘算法) 可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。二、大數(shù)據(jù)分析-預(yù)測(cè)性分析能力Predictive Analytic Capabilities(預(yù)測(cè)性分析能力) 數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。二、大數(shù)據(jù)分析-語(yǔ)義引擎Semantic Engines(語(yǔ)義引擎) 我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)
11、了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。二、大數(shù)據(jù)分析-數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理 Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過(guò)標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/10/824全球每年約10%15%的人群會(huì)患上流感,受感染人群約5000萬(wàn)人,死亡人數(shù)約50萬(wàn)。這可不是個(gè)小數(shù)字。如果我們能夠盡早提前預(yù)測(cè)到流感即將爆發(fā),無(wú)疑將使全球公眾都將受益:政
12、府和醫(yī)療機(jī)構(gòu)提前拿出應(yīng)對(duì)措施,就能挽救大量生命。2008年,谷歌推出了其著名的流感趨勢(shì)網(wǎng)站(/flutrends)。該網(wǎng)站假定的前提是:如果用戶患上了流感,則他們會(huì)搜索更多同流感相關(guān)的信息。如此一來(lái),如果對(duì)任何一個(gè)國(guó)家或地區(qū)有關(guān)流感的搜索量進(jìn)行統(tǒng)計(jì),就能較好推斷出某個(gè)國(guó)家或地區(qū)是否正爆發(fā)流感。2009年,谷歌在甲型H1N1流感爆發(fā)之前,用“谷歌流感趨勢(shì)”(GFT)模型成功預(yù)測(cè)了流感在美國(guó)境內(nèi)的傳播。谷歌的相應(yīng)數(shù)據(jù),同美國(guó)疾病控制與預(yù)防中心(CDC)等政府機(jī)構(gòu)所統(tǒng)計(jì)的數(shù)據(jù)非常接近(97%)。在某些情況下,谷歌甚至能夠比CDC提前一周預(yù)測(cè)出哪些地區(qū)將爆發(fā)流感。2022/10/825全球每星期會(huì)有數(shù)
13、以百萬(wàn)計(jì)的用戶在網(wǎng)上搜索健康信息。正如您所預(yù)料的那樣,在流感季節(jié),與流感有關(guān)的搜索會(huì)明顯增多;到了過(guò)敏季節(jié),與過(guò)敏有關(guān)的搜索會(huì)顯著上升;而到了夏季,與曬傷有關(guān)的搜索又會(huì)大幅增加。某些搜索字詞非常有助于了解流感疫情。Google 流感趨勢(shì)會(huì)根據(jù)匯總的 Google 搜索數(shù)據(jù),近乎實(shí)時(shí)地對(duì)全球當(dāng)前的流感疫情進(jìn)行估測(cè)。搜索流感相關(guān)主題的人數(shù)與實(shí)際患有流感癥狀的人數(shù)之間存在著密切的關(guān)系。當(dāng)然,并非每個(gè)搜索“流感”的人都真的患有流感,但將與流感有關(guān)的搜索查詢匯總到一起時(shí),便可以找到一種模式。將統(tǒng)計(jì)的查詢數(shù)量與傳統(tǒng)流感監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)進(jìn)行了對(duì)比,結(jié)果發(fā)現(xiàn)許多搜索查詢?cè)诹鞲屑竟?jié)確實(shí)會(huì)明顯增多。通過(guò)對(duì)這些搜索查
14、詢的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),便可以估測(cè)出世界上不同國(guó)家和地區(qū)的流感傳播情況。Detecting influenza epidemics using search engine query data, Nature 457, 1012-1014 (19 February 2009) 三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/10/827日本國(guó)內(nèi)有一個(gè)網(wǎng)站,你只要打開這個(gè)網(wǎng)站用自己的 Twitter 賬號(hào)登錄,就可以在短時(shí)間內(nèi)通過(guò)數(shù)萬(wàn)條 Twitter 找出可能感冒的人,并通過(guò)過(guò)去的感冒情況和今日的感冒情況進(jìn)行分析(以及統(tǒng)計(jì)目前發(fā)燒以及嗓子痛的患者數(shù)量),另外該程序還會(huì)結(jié)合氣溫和濕度的變化來(lái)預(yù)測(cè) 將來(lái)
15、感冒的流行情況,并制作一個(gè)“易感冒日歷”。目前,此類服務(wù)正在日本陸續(xù)展開。通過(guò)這個(gè)服務(wù)器的分析,大家就能夠知道在自己身邊到底有多少人有感冒的癥狀,并提前做好預(yù)防準(zhǔn)備。日本國(guó)立感染癥研究所將會(huì)把全國(guó)約5000 個(gè)醫(yī)療診所的流感患者進(jìn)行統(tǒng)計(jì)并發(fā)布數(shù)據(jù)。經(jīng)過(guò)對(duì)比,研究所得出的實(shí)際統(tǒng)計(jì)數(shù)字和網(wǎng)站上預(yù)測(cè)的結(jié)果基本是一致的,那么為什么大數(shù)據(jù)的結(jié)果會(huì)很準(zhǔn)呢?首先是因?yàn)橥ㄟ^(guò)網(wǎng)絡(luò)信息分析的技術(shù)有所進(jìn)步,已經(jīng)可以通過(guò)各種各樣的留言自動(dòng)搜索到相關(guān)的數(shù)據(jù),并自動(dòng)分類。就像 Google 現(xiàn)在所使用的技術(shù),就是利用服務(wù)器分析與流感關(guān)系十分密切的十幾個(gè)單詞進(jìn)行統(tǒng)計(jì)。另一個(gè)就是大數(shù)據(jù)所特有的功能。在流感最嚴(yán)重的時(shí)候,每天會(huì)
16、有成千上萬(wàn)條 Tweets 發(fā)布,即便有一些誤差,但通過(guò)數(shù)據(jù)分析也能分析出數(shù)據(jù)的精準(zhǔn)度。以往,公共機(jī)構(gòu)在發(fā)布流感情報(bào)的時(shí)候至少要延遲一周,在有些偏遠(yuǎn)地區(qū)的立桿信息也并不確切,而現(xiàn)在,通過(guò)網(wǎng)絡(luò)能夠有效彌補(bǔ)這些缺憾。三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/10/828亞馬遜“預(yù)測(cè)式發(fā)貨”的新專利,可以通過(guò)對(duì)用戶數(shù)據(jù)的分析,在他們還沒(méi)有下單前,提前發(fā)出包裹。這項(xiàng)技術(shù)可以縮短發(fā)貨時(shí)間,從而降低消費(fèi)者前往實(shí)體店的沖動(dòng)。(因?yàn)樵谙聠蔚绞斋@之間的時(shí)間延遲可能會(huì)降低人們的購(gòu)物意愿,導(dǎo)致他們放棄網(wǎng)上購(gòu)物)亞馬遜根據(jù)之前的訂單和其他因素,預(yù)測(cè)用戶的購(gòu)物習(xí)慣,從而在他們實(shí)際下單前就將包裹發(fā)出。根據(jù)該專利文件,雖
17、然包裹會(huì)提前從亞馬遜發(fā)出,但在用戶正式下單前,這些包裹會(huì)暫存在快遞公司的轉(zhuǎn)運(yùn)中心或者卡車?yán)?。亞馬遜為了決定要運(yùn)送那些貨物,可能會(huì)參考以前的訂單、商品搜索記錄、愿望清單、購(gòu)物車、甚至包括用戶的鼠標(biāo)在某件商品上停留的時(shí)間。三、大數(shù)據(jù)應(yīng)用的典型案例-亞馬遜“預(yù)測(cè)式發(fā)貨”2022/10/8292012年11月奧巴馬大選連任成功的勝利果實(shí)也被歸功于大數(shù)據(jù),因?yàn)樗母?jìng)選團(tuán)隊(duì)對(duì)選民的行為、支持偏向進(jìn)行了數(shù)據(jù)搜集,并進(jìn)行了大規(guī)模與深入的數(shù)據(jù)挖掘。在這次大選中,奧巴馬競(jìng)選陣營(yíng)的高級(jí)助理們決定將參考得到的數(shù)據(jù)分析結(jié)果來(lái)制定下一步的競(jìng)選方案,從而獲得選民的支持。三、大數(shù)據(jù)應(yīng)用的典型案例-奧巴馬選舉三、大數(shù)據(jù)應(yīng)用的典
18、型案例-“老鼠倉(cāng)”2022/10/830早在2009年,上交所曾經(jīng)利用“大數(shù)據(jù)”設(shè)置“捕鼠器”的設(shè)想,設(shè)定一定的指標(biāo)預(yù)警,當(dāng)相關(guān)指標(biāo)達(dá)到某個(gè)預(yù)警點(diǎn)時(shí),監(jiān)控系統(tǒng)會(huì)自動(dòng)報(bào)警。深交所“大數(shù)據(jù)”監(jiān)控系統(tǒng),設(shè)置200多個(gè)指標(biāo)用于監(jiān)控估計(jì),一旦出現(xiàn)股價(jià)偏離大盤的走勢(shì),將利用大數(shù)據(jù)查探異動(dòng)背后的機(jī)構(gòu)或投資人。馬樂(lè)案,監(jiān)管系統(tǒng)發(fā)現(xiàn)有三個(gè)賬戶的交易特點(diǎn)和當(dāng)時(shí)的博時(shí)精選基金高度重合,從交易記錄上可以看到,持股時(shí)間最長(zhǎng)不過(guò)一兩個(gè)月,大多是三四天、四五天。三、大數(shù)據(jù)應(yīng)用的典型案例-阿里“水文模型”2022/10/831阿里“水文模型”是按照小微企業(yè)類型、級(jí)別等分別統(tǒng)計(jì)一個(gè)阿里系客戶的相關(guān)“水文數(shù)據(jù)”庫(kù)。如過(guò)往每到一個(gè)
19、時(shí)點(diǎn),該店鋪銷售會(huì)進(jìn)入旺季,銷售額就會(huì)增長(zhǎng),同時(shí)沒(méi)到這個(gè)時(shí)段,該客戶對(duì)外投放的額度就會(huì)上升,結(jié)合這些水文數(shù)據(jù),系統(tǒng)可以判斷出該店鋪的融資需求;結(jié)合該店鋪以往資金支出數(shù)據(jù)及同類店鋪資金支用數(shù)據(jù),可以判斷出該店鋪的資金需求額度。三、大數(shù)據(jù)應(yīng)用的典型案例-啤酒與尿布2022/10/832全球零售業(yè)巨頭沃爾瑪在對(duì)消費(fèi)者購(gòu)物行為分析時(shí)發(fā)現(xiàn),男性顧客在購(gòu)買嬰兒尿片時(shí),常常會(huì)順便搭配幾瓶啤酒來(lái)犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒(méi)想到這個(gè)舉措居然使尿布和啤酒的銷量都大幅增加了。如今,“啤酒尿布”的數(shù)據(jù)分析成果早已成了大數(shù)據(jù)技術(shù)應(yīng)用的經(jīng)典案例,被人津津樂(lè)道。三、大數(shù)據(jù)應(yīng)用的典型案例-數(shù)據(jù)新
20、聞讓英國(guó)撤軍2022/10/8332010年10月23日衛(wèi)報(bào)利用維基解密的數(shù)據(jù)做了一篇“數(shù)據(jù)新聞”。將伊拉克戰(zhàn)爭(zhēng)中所有的人員傷亡情況均標(biāo)注于地圖之上。地圖上一個(gè)紅點(diǎn)便代表一次死傷事件,鼠標(biāo)點(diǎn)擊紅點(diǎn)后彈出的窗口則有詳細(xì)的說(shuō)明:傷亡人數(shù)、時(shí)間,造成傷亡的具體原因。密布的紅點(diǎn)多達(dá)39萬(wàn),顯得格外觸目驚心。一經(jīng)刊出立即引起朝野震動(dòng),推動(dòng)英國(guó)最終做出撤出駐伊拉克軍隊(duì)的決定。三、大數(shù)據(jù)應(yīng)用的典型案例-喬布斯癌癥治療2022/10/834喬布斯是世界上第一個(gè)對(duì)自身所有DNA和腫瘤DNA進(jìn)行排序的人。為此,他支付了高達(dá)幾十萬(wàn)美元的費(fèi)用。他得到的不是樣本,而是包括整個(gè)基因的數(shù)據(jù)文檔。醫(yī)生按照所有基因按需下藥,最
21、終這種方式幫助喬布斯延長(zhǎng)了好幾年的生命。三、大數(shù)據(jù)應(yīng)用的典型案例 -微軟大數(shù)據(jù)成功預(yù)測(cè)奧斯卡21項(xiàng)大獎(jiǎng)2022/10/8352013年,微軟紐約研究院的經(jīng)濟(jì)學(xué)家大衛(wèi)羅斯柴爾德(David Rothschild)利用大數(shù)據(jù)成功預(yù)測(cè)24個(gè)奧斯卡獎(jiǎng)項(xiàng)中的19個(gè),成為人們津津樂(lè)道的話題。2014年羅斯柴爾德再接再厲,成功預(yù)測(cè)第86屆奧斯卡金像獎(jiǎng)?lì)C獎(jiǎng)典禮24個(gè)獎(jiǎng)項(xiàng)中的21個(gè),繼續(xù)向人們展示現(xiàn)代科技的神奇魔力。一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/10/836四、大數(shù)據(jù)的可靠性2022/10/837大數(shù)據(jù)思維的相關(guān)關(guān)系可以替代因
22、果關(guān)系嗎?大數(shù)據(jù)思維下可以直接用調(diào)研結(jié)果來(lái)指導(dǎo)實(shí)踐嗎?四、大數(shù)據(jù)的可靠性-谷歌流感預(yù)測(cè)2022/10/838在2011-2013年的三年間,谷歌流感模型的預(yù)測(cè)出現(xiàn)嚴(yán)重偏差:一直在高估流感的事態(tài)。其中最嚴(yán)重的偏差出現(xiàn)在2013年1月,谷歌產(chǎn)品估計(jì)的結(jié)果是CDC匯總實(shí)際結(jié)果的2倍。四、大數(shù)據(jù)分析的可靠性-谷歌流感預(yù)測(cè)2022/10/839谷歌的目的是估算禽流感在整個(gè)美國(guó)的發(fā)病率。數(shù)據(jù)來(lái)源是自用戶使用搜索引擎的檢索記錄,即谷歌用搜索關(guān)鍵字的網(wǎng)民行為來(lái)預(yù)測(cè)整個(gè)國(guó)家人們患病的可能性。Q1:有禽流感癥狀的人都會(huì)使用google搜索關(guān)鍵字嗎?Q2:用google搜索關(guān)鍵字的人都有禽流感癥狀嗎?四、大數(shù)據(jù)的可
23、靠性-谷歌流感預(yù)測(cè)2022/10/840谷歌模型失敗原因谷歌模型是基于關(guān)鍵字和發(fā)病率的關(guān)系來(lái)進(jìn)行預(yù)測(cè)。大數(shù)據(jù)思維重視相關(guān)性(A和B同時(shí)發(fā)生),卻忽略了因果關(guān)系(A導(dǎo)致B發(fā)生)的分析。隨著流感的發(fā)展,媒體不斷增加對(duì)流感的報(bào)道,引來(lái)越來(lái)越多人的重視,也就有相應(yīng)一部分人會(huì)通過(guò)google來(lái)搜索流感關(guān)鍵詞,但是這些人并不一定得了流感。1A導(dǎo)致B2B導(dǎo)致A3C導(dǎo)致A和B4A和B互為因果5小樣本引起的巧合A和B的關(guān)系四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/10/8412004年,我國(guó)某知名電視機(jī)生產(chǎn)公司因?yàn)橐淮问袌?chǎng)調(diào)查的結(jié)果,解雇了市場(chǎng)調(diào)研部的大量員工四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工
24、2022/10/842為調(diào)查該企業(yè)電視機(jī)品牌的市場(chǎng)占有率,該公司排除市場(chǎng)研究部的兩組員工,調(diào)查消費(fèi)者會(huì)選擇的電視機(jī)品牌。Q:為什么同樣的抽樣方法結(jié)果差異這么大?愿意購(gòu)買不愿購(gòu)買A組36%64%B組16%84%四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/10/843Q:為什么同樣的抽樣方法結(jié)果差異這么大?原因:1 A組調(diào)查員在詢問(wèn)過(guò)程中均戴著有該公司logo的領(lǐng)帶2 在問(wèn)題的選項(xiàng)中,該公司的名字排在眾多品牌的第一位四、大數(shù)據(jù)的可靠性2022/10/844“大數(shù)據(jù),大偏差”科學(xué)的技術(shù)誠(chéng)實(shí)的態(tài)度嚴(yán)密的操作一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與
25、貝葉斯方法報(bào)告內(nèi)容2022/10/845 假設(shè)擲出一枚硬幣,正面朝上的概率是50%,如果連續(xù)99次投擲硬幣都是正面朝上落地,那么下一次投擲硬幣正面朝上落地的概率是多少? 這是Taleb在黑天鵝一書中給出的一個(gè)假想的問(wèn)題。在Taleb的書中,受過(guò)正統(tǒng)教育的約翰博士給出了教科書教給我們的標(biāo)準(zhǔn)回答,下一次投擲硬幣正面朝上落地的概率仍然為50%,因?yàn)橄乱淮斡矌懦蚺c之前投擲的結(jié)果無(wú)關(guān)。而教育背景沒(méi)有那么光鮮的胖托尼則認(rèn)為下一次投擲硬幣正面朝上的概率為99%。孰對(duì)孰錯(cuò)?每個(gè)人都不妨給出自己的判斷。 而如果一定要為自己的答案下一萬(wàn)塊錢的賭注的話,可能我就會(huì)和Taleb一樣,更傾向于和不是那么教條的胖托尼保
26、持一致,即更傾向于相信下一次硬幣正面朝上的幾率為99%,更傾向于相信我之前的有關(guān)正面朝上落地的概率是50%的假設(shè)是錯(cuò)誤的。五、大數(shù)據(jù)與貝葉斯方法 近幾年“大數(shù)據(jù)”成為熱詞后,諸如“貝葉斯算法”這樣的統(tǒng)計(jì)學(xué)名詞也隨之在IT領(lǐng)域熱起來(lái)。所謂的貝葉斯方法源于托馬斯貝葉斯(Thomas Bayes)生前為解決一個(gè)“逆概”問(wèn)題寫的一篇文章。在貝葉斯寫這篇文章之前,人們已經(jīng)能夠計(jì)算“正向概率”,如“假設(shè)袋子里面有N個(gè)白球,M個(gè)黑球,你伸手進(jìn)去摸一把,摸出黑球的概率是多大”。而一個(gè)自然而然的問(wèn)題是反過(guò)來(lái):“如果我們事先并不知道袋子里面黑白球的比例,而是閉著眼睛摸出一個(gè)(或好幾個(gè))球,觀察這些取出來(lái)的球的顏色
27、之后,那么我們可以就此對(duì)袋子里面的黑白球的比例作出什么樣的推測(cè)呢?”。這個(gè)問(wèn)題,就是所謂的逆概問(wèn)題。 五、大數(shù)據(jù)與貝葉斯方法 實(shí)際上,貝葉斯當(dāng)時(shí)的論文只是對(duì)這個(gè)問(wèn)題的一個(gè)直接的求解嘗試,并不清楚他當(dāng)時(shí)是不是已經(jīng)意識(shí)到這里面包含著的深刻思想。然而后來(lái),貝葉斯方法席卷了概率論,并將應(yīng)用延伸到各個(gè)問(wèn)題領(lǐng)域,所有需要作出概率預(yù)測(cè)的地方都可以見到貝葉斯方法的影子,特別地,貝葉斯是機(jī)器學(xué)習(xí)的核心方法之一。這背后的深刻原因在于,現(xiàn)實(shí)世界本身就是不確定的,人類的觀察能力是有局限性的,我們?nèi)粘K^察到的只是事物表面上的結(jié)果,沿用剛才那個(gè)袋子里面取球的比方,我們往往只能知道從里面取出來(lái)的球是什么顏色,而并不能直接
28、看到袋子里面實(shí)際的情況。這個(gè)時(shí)候,我們就需要做一個(gè)猜測(cè),所謂猜測(cè),當(dāng)然就是不確定的,但也絕對(duì)不是兩眼一抹黑瞎蒙。五、大數(shù)據(jù)與貝葉斯方法 雖然,人們?cè)谡劥髷?shù)據(jù)時(shí)往往都會(huì)談及利用Hadoop等新興技術(shù)對(duì)海量數(shù)據(jù)處理等技術(shù)問(wèn)題,也會(huì)談及Facebook、Google等公司所處理的PB級(jí)別數(shù)據(jù)的問(wèn)題。但是,大數(shù)據(jù)的核心問(wèn)題在于預(yù)測(cè)。電子商務(wù)網(wǎng)站通過(guò)數(shù)據(jù)預(yù)測(cè)顧客是否會(huì)購(gòu)買推薦的產(chǎn)品;信貸公司通過(guò)數(shù)據(jù)預(yù)測(cè)借款人是否會(huì)違約;執(zhí)法部門用大數(shù)據(jù)預(yù)測(cè)特定地點(diǎn)發(fā)生犯罪的可能性;交通部門利用數(shù)據(jù)預(yù)測(cè)交通流量。但是,預(yù)測(cè)不是大數(shù)據(jù)時(shí)代才有的新問(wèn)題,它是人類本能的一部分。五、大數(shù)據(jù)與貝葉斯方法 但是,與科學(xué)研究中以求真為
29、目的的構(gòu)建模型不同,大數(shù)據(jù)時(shí)代的模型構(gòu)建將更加以務(wù)實(shí)為目的,即遵循統(tǒng)計(jì)學(xué)家George E. P. Box的觀點(diǎn)“本質(zhì)而言,所有模型都是錯(cuò)誤的,只是有些模型更有用”。大數(shù)據(jù)時(shí)代的很多模型都是為了指導(dǎo)商業(yè)決策而設(shè)的,而商業(yè)決策通常會(huì)影響決策者的利益。所以,一個(gè)模型是否正確不是最重要的,重要的是決策者對(duì)這個(gè)模型有多大的把握,決策者能否從這個(gè)模型中獲利。所以,大數(shù)據(jù)時(shí)代中最為關(guān)鍵的應(yīng)該是基于數(shù)據(jù)的模型能否說(shuō)服決策者據(jù)此進(jìn)行決策,并且?guī)椭鷽Q策者改善決策賺取相應(yīng)的利潤(rùn)。五、大數(shù)據(jù)與貝葉斯方法 艾賽亞柏林(Isaish Berlin)曾經(jīng)援引古希臘詩(shī)人的殘簡(jiǎn)“狐貍多知而刺猬有一大知”將知識(shí)分子分為狐貍和刺
30、猬兩類。刺猬用一個(gè)宏大的概念解釋所有現(xiàn)象,如約翰博士一般;狐貍知道很多事情,用多元化的甚至相互矛盾的視角看待問(wèn)題,狐貍也愿意包容新的證據(jù)以使得自己的模型與之相適應(yīng),如胖托尼一般。Tetlock等人的研究表明,在現(xiàn)實(shí)的預(yù)測(cè)中,狐貍的表現(xiàn)要優(yōu)于刺猬。在大數(shù)據(jù)時(shí)代,人們能夠接觸越來(lái)越多的信息,這些信息能否修訂決策者已有的觀念,對(duì)決策者的決策產(chǎn)生影響,這是大數(shù)據(jù)能否發(fā)揮價(jià)值的關(guān)鍵所在。五、大數(shù)據(jù)與貝葉斯方法 很多人都知道亞當(dāng)斯密(Adam Smith)在國(guó)富論中所描述的市場(chǎng)中的“看不見的手”。在市場(chǎng)中,沒(méi)有人掌握有關(guān)生產(chǎn)和消費(fèi)的全局信息,但是人們通過(guò)市場(chǎng)交易對(duì)供需的行為作出反應(yīng),從而逐步更新價(jià)格,進(jìn)而達(dá)到平衡。 Thomas Bayes與亞當(dāng)斯密同時(shí)代且同在蘇格蘭接受教育,他的貝葉斯定理(Bayesians Theorem)也和亞當(dāng)斯密的“看不見的手”有相通之處。貝葉斯理論允許每個(gè)人擁有有關(guān)世界的先驗(yàn)的信念,胖托尼也許最初認(rèn)為硬幣正面朝上的概率是50%,而當(dāng)他看到了連續(xù)99次的硬幣正面朝上落地,則他不斷利用數(shù)據(jù)修改其信念。五、大數(shù)據(jù)與貝葉斯方法 英國(guó)哲學(xué)家艾賽亞柏林,把一句古希臘諺語(yǔ)“狐貍多技巧,刺猬僅一招”發(fā)揮成關(guān)于兩種類型的思想家之差異的深刻比喻:一類是追求一元論的思想家,他們力圖找出唯一絕對(duì)的真理,并將它應(yīng)用于萬(wàn)事萬(wàn)物,恰如刺猬遇到危險(xiǎn)總是使用相同的招數(shù)豎起滿
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 引調(diào)水工程深埋隧洞圍巖變形、支護(hù)壓力、護(hù)盾摩阻力、塌落深度和塌落體積計(jì)算方法
- 2024版二手房屋買賣協(xié)議3篇
- 二零二五年度智能空調(diào)設(shè)備集成系統(tǒng)采購(gòu)合同2篇
- 二零二五年度生態(tài)農(nóng)業(yè)合伙協(xié)議書模板3篇
- 二零二五年度汽車零部件回收利用運(yùn)輸合同樣本3篇
- 2024淘寶平臺(tái)大數(shù)據(jù)分析與精準(zhǔn)營(yíng)銷合同2篇
- 多元化可再生能源整合策略
- 體育賽事中的門票分配策略
- 食品加工安全衛(wèi)生管理規(guī)定
- 波蘭專利委托書
- 絨毛下血腫保胎方案
- 五年級(jí)上冊(cè)脫式計(jì)算練習(xí)300題及答案
- 2024年福建寧德城市建設(shè)投資開發(fā)公司招聘筆試參考題庫(kù)含答案解析
- DB51∕T 3118-2023 職業(yè)健康檢查質(zhì)量控制規(guī)范
- 幼兒園中班區(qū)域材料投放記錄表
- 成人糖尿病食養(yǎng)指南2023年版
- 《教師職業(yè)道德與政策法規(guī)》考試復(fù)習(xí)題庫(kù)(含答案)
- 2023年電氣其自動(dòng)化高級(jí)工程師年度總結(jié)及下年規(guī)劃
- 公司費(fèi)用預(yù)算表格模板(詳細(xì)版)
- 詩(shī)詞若干首唐宋明朝詩(shī)人詠四川
- 華為經(jīng)營(yíng)管理-華為市場(chǎng)營(yíng)銷體系(6版)
評(píng)論
0/150
提交評(píng)論