版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數(shù)據(jù)改變未來 繼續(xù)教育考試94分課程前言 我們今天就聊聊一個比較熱門的話題大數(shù)據(jù)。這個詞啊Big data或者叫大數(shù)據(jù),在中國現(xiàn)在真是非常非常的熱。有人說它可能是一個泡沫,有人說它可能會改變世界,那么它到底會是什么樣子呢?說它是泡沫的一般認為是這樣子,就是說我們到目前為止,我們還沒有看到,說這個大數(shù)據(jù)給我們產(chǎn)生多少的GDP,好象很多人也沒有發(fā)現(xiàn),就是說它跟我們人類生活到底有多大的相關性,因為親身生活沒有體驗到這一點,那么是否真是這樣子的話,我們不妨來看看什么是大數(shù)據(jù)?它真正的可怕之處在哪里?以及有了大數(shù)據(jù)我們的未來社會未來生活會是什么樣子的?一、未來是數(shù)據(jù)為王的時代 在過去的五十年里,人類整
2、個的發(fā)展根本的這個動力從科技的角度來講,就是一個摩爾定律,什么意思呢?就是在1965年的時候,英特網(wǎng)公司后來的創(chuàng)始人摩爾先生,他提出來在今后的十幾年里,半導體處理器的性能,比如說容量、計算速度和復雜程度每18個月左右可以翻一番。他也沒有預想到這件事一直發(fā)生了五十年。以至于人整個人類發(fā)生了天翻地覆的變化。可以這么講,我們過去的整個的社會的科技進步工業(yè)進步以及這個GDP的提升都是靠這個摩爾定律,如果我們把這個摩爾定律帶來的電信化從過去五十年中拿去,我們會發(fā)現(xiàn)我們可能GDP不但沒有增加,而且還在減少。那么這是過去五十年的情況。 在今后二十年它又會往哪兒走呢?在未來的二十年里,什么決定世界經(jīng)濟發(fā)展的方
3、向?我認為如果說過去五十年是摩爾定律的時代,未來二十年就是數(shù)據(jù)為王的時代。 大數(shù)據(jù)會帶來機器智能,也就是說讓我們的計算機變得非常聰明,以至于它超過我們人類的智能。為什么這么說呢?我們剛才講了,計算機的發(fā)展速度本身是一個指數(shù)增長,而我們人的智能的發(fā)展速度是一個線性增長,甚至還會稍微慢一點,那么一定在某一個時間點,它會重合。 今天可能就是這個重合的時間點,那可能你又會問了,為什么正好在這個時間點上,我們會有這么多的數(shù)據(jù)?一個是互聯(lián)網(wǎng)的收集和積累,再有一個就是今天各種傳感器,各種智能設備,各種監(jiān)控設備,它們無時無刻地不在為我們提供大量的數(shù)據(jù)。而在我們過去,因為存儲量計算量不夠的時候,我們把這些數(shù)據(jù)都
4、拋棄掉了,不是說這些數(shù)據(jù)在過去不存在現(xiàn)在存在,只是說我們現(xiàn)在因為半導體事業(yè)的發(fā)展,我們有能力,有可能來存儲和處理這樣一些數(shù)據(jù)。 在講這個機器智能以前,我們就首先要說說,什么是機器智能?我們都知道1946年人類第一臺電子計算機誕生了,名字叫做ENIAC誕生。那臺計算機其實計算速度只有一秒鐘五千次,大概是你的手機計算速度差不多可能幾十萬分之一,那么計算機誕生后不久,人類其實就開始考慮,說既然這個計算機計算速度能這么快,它能不能產(chǎn)生一些智能? 所以五十年代初的時候,計算機老祖宗阿蘭圖靈就提出了一個叫圖靈測試的概念。什么意思呢?就是說在屏幕后面,我放一臺機器放一個人,然后我們談一個問題,比如說天為什么
5、是藍色的?計算機給一個,人給一個,給出的答案讓我來判斷,說哪一個計算機給的?哪個是人給的?如果我判斷不出來,哪個答案是計算機給的或者是人給的,已經(jīng)能夠把這兩個答案要混淆起來了,我就認為機器和人一樣的智能。人類為這個目標做了20年,這20年的發(fā)展非常不順利,到了1970年基本上計算機還做不了任何具有智能的事情。為什么會產(chǎn)生這樣的問題呢?或者說這20年研究為什么會走彎路呢?主要是我們完全地按照人的方式去理解機器,沒有完全按機器的方式理解人。 舉一個例子,預測美國總統(tǒng)選舉結果這么一個例子,比較著名的大家可能聽說過蓋洛普這樣一個預測公司,那么它實際上是用一些傳統(tǒng)的抽樣的統(tǒng)計方法做一些預測,有時靈,有時
6、不靈。即使正確的時候,基本上誤差兩到三個百分點,在全國范圍預測能準,但是你知道競選是一個州一個州這么算選票,它不是一人一票制。 所以它從來沒有做到過美國50個州全部做對的,到了2012年,有一個毛頭小伙子,這個人從來以前沒有名,也不是什么了不得的科學家,他就做了一件事兒,他就在互聯(lián)網(wǎng)上比如社交網(wǎng)絡上,比如臉書上推特上,地方的報紙上大家的BBS上等等。凡是他能找到信息的地方,他就把信息都搜集起來,然后他做一次2012年美國總統(tǒng)選舉結果的預測,50個州,他全部預測對了。這件事在過去是不敢想象的,從這里頭你可以看出當這個數(shù)據(jù)完備了以后是非??膳碌?。二、大數(shù)據(jù)是一種思維方式 大家不知道有沒有注意到這個
7、名字大數(shù)據(jù)Big data。為什么不叫l(wèi)arge data?其實在英語里,它并不是說一開始隨機的選這么一個詞Big data就這么叫了,在英語里這個Big和Large雖然都是大的意思,但是有一個比較細微的差別,Big這個大是相對抽象一點的一個概念。Big Small大和小是這樣子。那Large是體量大,比如我這張桌子很大,我說Large table。大數(shù)據(jù)所以更重要用big data,實際上它是指一種思維方式,一種抽象的概念。 它不僅僅是講著我們數(shù)據(jù)的體量大。 那么既然說到它是一個思維方式,是什么樣的思維方式呢?我給大家再舉一個例子。你從中學開始到大學,你的老師就會教你說這個因果邏輯這個關系非
8、常重要,為什么呢?因為沒有了這個因果邏輯,我們這個推理就進行不下去了。過去說知其然一定要知其所以然。剛才我們就講了那個美國總統(tǒng)競選預測的這件事兒,它實際上就告訴了你一個結果,你問他為什么是這樣子?是哪個州的人喜歡某個候選人哪句話嗎?不是,他說不出這原因。但是它就給了個結果。這就是現(xiàn)在說先有了結論,然后你可能反過來推這些其中的原因。 這是一個完全不同的思維方式。所以叫大數(shù)據(jù),是指全新的這么一個思維方式。在2002年到2004年左右的時候,我在一家計算機公司做搜索,那么當時因為數(shù)據(jù)量變得很大,我們就觀察了很多特點,你比如說你搜索了一個關健詞,我們就說鳳凰衛(wèi)視大數(shù)據(jù),這樣一個關健詞。用戶老不點擊第一
9、條結果,老點擊第三條結果,這里頭就有一個原因,肯定你第一條結果做得不好,第三條結果可能更好。那么你的思維方式是什么樣的? 你是否接受說把第一條結果,我直接就搬到第一條去,按我們過去老師教我們的,這個因果關系你是不能這么做的,因為你不能跳過這個推理的過程來做這件事兒,但是大數(shù)據(jù)的思維告訴你這件事兒是可以做的。但是當我們的腦筋轉換成這樣的一種思路的時候,我們實際上就是一個開始具有某種大數(shù)據(jù)的思維,這時候也就是我們在變相的承認,計算機在有一些方面其實比我們因為有數(shù)據(jù)的作用做的更好。三、大數(shù)據(jù)對傳統(tǒng)行業(yè)的幫助 我想說,為什么說大數(shù)據(jù)這個事這么重要?大數(shù)據(jù)加上機器智能,它可以把我們以前所有的行業(yè),全部的
10、改造的一遍,或者我換一句話說,就是說所有未來公司,都是某種程度上的大數(shù)據(jù)公司,我們不妨看兩個傳統(tǒng)行業(yè)的例子。 第一個呢是關于一個意大利一個品牌服裝公司的例子,大家知道可能如果你們去一些專賣店,你就會發(fā)現(xiàn)它把某一個衣裳,唉,有的放在前面,有的放在后面,這里頭可能有一些道理,但是你有說不出什么道理。我和他們這些公司的銷售人員做過一些了解,事實上像它們這些大牌的公司,在北京開一家這種專賣店,就是一比一的模型差不多要做三個,才能確定這個店里頭的結構怎么布置。哪件衣裳放前頭?哪件衣裳放后邊更好? 即使如此,這完全靠過去營銷人員的經(jīng)驗,也很難檢測說,到底這樣放合適不合適。有些衣裳放前面,它就是賣不出去,沒
11、人知道什么原因。那么這家品牌服裝,它做了一件很簡單的事情。它就把這個衣裳的背后就是我們放防偷盜墨水那個地方放一個小芯片,如果誰拿了這個衣裳,到試衣間試衣服以后,試衣間再放一個傳感器,能記錄你什么時候進去的,在那里頭試了多長時間這個衣裳,然后它就通過這個數(shù)據(jù),就可以提高銷售。 為什么呢?因為假設哪件衣裳又放在一個顯眼的位置,如果大家不拿進試衣間去試,說明它在設計上肯定這個第一眼看上去就一定有什么一些什么問題。但是呢,如果很多衣裳,經(jīng)常的拿到試衣間里去試,最后沒人買,那可能在這個細節(jié)上有一些什么需要改進地方,這樣它通過這么一件簡單的事情,就能提高銷售。這是一個非常傳統(tǒng)的行業(yè)。 再另外的一個故事呢,
12、也是非常得有意思。在一家百貨店,雇了一個學統(tǒng)計學的碩士,也不是什么一個非常大的科學家,就是一個學統(tǒng)計學的碩士。百貨店每天有很多交易的數(shù)據(jù),以前也不知道怎么辦,后來就有了這個移動互聯(lián)網(wǎng)以后,這個百貨店就跟這個顧客講說以前要給你打一張發(fā)票,你呢有時候也就扔掉了,有些時候你為了保存發(fā)票也麻煩,要不然你給我一個手機號碼或給我一個郵箱,我給你發(fā)過去,我寄過去,那很多人就這么登記上了,在這個以前,你到百貨店買東西,沒人知道是誰買的。 那么,自從他把這個手機和發(fā)表聯(lián)起以來以后,他就知道哪個人什么時候買了什么東西,然后這個碩士生他就做了些統(tǒng)計,就發(fā)現(xiàn)這個懷孕的婦女在不同的階段買的這個產(chǎn)品它其實有一些共性,這就
13、是從大數(shù)據(jù)分析得到的。比如說一開始懷胎的時候要買比較胖的衣裳,然后后來以后要買寶寶服,要買尿褲、奶嘴等等這樣,就基本上所有人都是走這么一個過程。然后呢,他就提前給這些客戶發(fā)優(yōu)惠券,這樣銷售就很有針對性,而且效果不錯。我不知道大家有多少人,你們在每天用淘寶用微信支付,其實你相信不相信他們的主人,他們的公司可能比你更知道,下一單交易你會發(fā)生在哪里。四、用大數(shù)據(jù)解決智能問題 計算機到底現(xiàn)在能不能回答問題?你說有了大數(shù)據(jù),計算機就有智能了。那到底是不是這樣子呢?我們就看剛才那個例子,就是說要回答天為什么是藍色的這樣一個例子,這個是我自己本人做的一個項目,這個問題實際上很多大學,很多科學家花了很長的時間
14、,其實一直也做不出來,計算機回答簡單的問題,比如說我們鳳凰衛(wèi)視是哪一年成立的?它的總部在哪兒?這樣一些問題,就是說關于具體的一些事實的問題。那這個比較容易。那么難的問題有兩種。一種是為什么的問題。一種是怎么做的問題。要回答為什么的問題就要回到我剛才講說,原來我們中學和大學的老師教你就是叫做因果邏輯,你要回答為什么,你要一些基本的科學知識,然后根據(jù)一個個因果關系推導出答案,這是我們過被訓練出來這樣一個思維方式。 我剛才又講,計算機來解決這個問題和人是不一樣的。那么計算機解決這個問題的話呢,其實我們把它看成一個大數(shù)據(jù)的問題,很容易做一個測試,你就輸入中文天為什么是藍色的?你在某一個搜索引擎上你就搜
15、索一下子,然后你把那些廣告、視頻等等這些插入的結果刪去,保存十條自然搜索結果,然后你把這十個網(wǎng)頁打開,80%的問題,你就能找到你所需要的答案。但是如果你不看這十個網(wǎng)頁內容,你只看這十條結果摘要,只有20%到30%的情況,你能找到這個問題答案。這就是過去機器智能和人的智能的大概一個差異。隨著計算機處理能力越來越強,這個數(shù)據(jù)越來越完備。 我們所要做的一件事是什么事兒呢?我們不是根據(jù)物理性的原理,不是根據(jù)邏輯推理來回答天為什么是藍色的。我們是把所有可能有這個答案的網(wǎng)頁給找著,然后再分析每一句話,看看哪一句話像是這問題的答案,再把這些像是答案的話,重新的組合,重新的交換次序,構成一個段落作為一個回答,
16、然后我們把它送給用戶做評測,我們就讓他比較說,你覺得這個答案是否滿意,那么對于80%的問題,用戶說他們覺得這個答案都非常好,也就是說,在80%左右的問題上,這個計算機和人在這個復雜問題上,他們具有了同等智能。所以這就是用大數(shù)據(jù)解決智能問題的一個方法。 那我們再講一個具體的例子,就是這個無人駕駛汽車,你可以把它當做一個機器人,說起來這也是一個非常有意思的事情。在2004年的時候,一些經(jīng)濟學家,他們當時就在考慮說,由于計算機變得越來越聰明,有一些問題人原來做的現(xiàn)在都被機器給拿去做了,人看來是變得好像好多工作會越來越丟掉,哪些事兒是人能做機器不能做的呢?他們想來想去就想了開車,為什么想這個呢? 因為
17、有兩個原因:一個原因是我們本能地會覺得說這開車是一件蠻難的事,不信你們考車的時候有多少人是好幾次才考過的,這個人要眼觀六路,耳聽八方。然后腦和手腳還要比較協(xié)調。2004年在美國還進行了一次無人駕駛汽車的拉力賽,第一名也跑了大概只有十幾公里就掛掉了,剩下來的車呢不是提前撞了就是拋錨了,而且開車的速度比爬可能要會稍微快一點,還沒有我們騎自行車快,就是這樣的一個狀態(tài)。 所以呢,經(jīng)濟學家信心滿滿覺得說可能這件事情是機器做不到的,但是就到了2010年,紐約時報的一個報道。那么他就說這個無人駕駛汽車已經(jīng)在公路上也包括大街小巷也包括高速公路上跑了大概十幾萬公里快二十萬,沒有出現(xiàn)一次交通事故,當然出現(xiàn)了一次是
18、后面人撞到它了,不是它撞了別人,因為我們人有時候看到黃燈,本能的是要加速。而那個無人駕駛車,它不懂得違反交通規(guī)則,所以它就停在那了。 為什么做到這一點呢?其實可能大家知道,就是互聯(lián)網(wǎng)公司,各個公司。中國的也好,美國的也好。它們都在做一件事,就是我們叫做掃街也好,把這地圖做街景項目也好,無人駕駛汽車這個事,其實是這個街景項目的一個延伸。它能去的地方,是一定它掃過街的地方,它把全世界能夠車走到的地方,全掃一遍,這就具備了數(shù)據(jù)的完備性。那么然后呢,它把這個數(shù)據(jù)上傳,雖然它有幾十個傳感器在那不斷的探測路況,其實它到了某一個點的時候,在前面有沒有活動,在某個時間點,然后從什么方向去,路堵還是不堵等等這些
19、情況,平均的時速是多少,它一清二楚。五、大數(shù)據(jù)重塑未來世界 大家可能已經(jīng)聽說了中國廣東,越來越多的工業(yè)機器人取代我們人在生產(chǎn)線上工作。甚至中國也出現(xiàn)了第一個完全由機器人操控的一個工廠??梢赃@么講,就是說凡是這種簡單,看上去要重復的工作,在未來的時代一定是機器做了比我們人更好。這一點是一個趨勢,我們想擋可能也擋不住。那么可能還會有一些朋友講說,沒關系,我做的是一些高大上的一些工作,比如說我是當醫(yī)生的,我是當律師的,那么這些情況會是怎么樣。 我們就看具體的一個例子,就是講講醫(yī)生的情況。在美國的醫(yī)生中,最高大上的醫(yī)生是放射科的醫(yī)生,這是被認為是一個專科的醫(yī)生。這個放射科醫(yī)生,過去是怎么訓練出來的呢?
20、美國是不能直接上醫(yī)學院的,你一定要本科畢業(yè),四年以后,你申請醫(yī)學院,如果你非常有幸能夠被醫(yī)學院錄取了,你大概再花四年的時間,你能得到醫(yī)學博士。你可以想想啊,就是兩個人,假設說你們原來是大學同班同學,他畢業(yè)有工作了,你上了醫(yī)學院,四年以后呢,他工作像我們在中國發(fā)展這么快,可能已經(jīng)小有成就了。 另外一個人呢,他剛剛的從醫(yī)學院走出來,然后呢,接下來要做兩年的住院醫(yī),這時做完住院醫(yī)了,你還不能當放射科醫(yī)生,因為這算是技能要求非常高的一個??漆t(yī)生,那么怎么辦呢?還需要兩到四年的??频倪@個實習,這時年齡你可以算出來有多大了吧?但是呢,有一點你可能很自豪,當你整個這一套流程走完的時候,你可以告訴你的同學,你
21、說最近我拿到了我的第一份工作,不過年薪是五十萬美元。這是今天的放射科醫(yī)生。未來的放射科醫(yī)生是什么了?就是一個計算機,一個自動做影像識別的一個軟件。 那么在很多領域,比如說在癌細胞的識別方面,計算機已經(jīng)做的比我們有經(jīng)驗的放射科醫(yī)生做得還好。而且更重要的是,它做東西非常的穩(wěn)定,你比如人今天早上起的稍微晚一點,開車超速,被警察抓下來,罰了一點錢,你這一天就不高興,你這一天整個水平就會大大受影響,那么機器是沒有問題的。所以即使在像這樣高大上的職業(yè)里,可能我們人類要慢慢的被機器取代。 未來的這個社會里,到底是人控制社會,還是機器控制著社會呢?我的觀點是這樣子,就是說利用大數(shù)據(jù)利用機器智能來為人類服務,這
22、樣一些人,說得不好聽的在操控世界,說的好聽他是在為我們進一步的造福,那我們就看幾個正面的例子,這個攻克癌癥這件事情,在過去的大概一個多世紀里,一直是人類的一個夢想,但是人類一直做不到這個事情。我們一直想發(fā)明一種萬能藥,就像發(fā)明青霉素來治療肺結核一樣萬能藥,但是這事沒有發(fā)現(xiàn),什么一個原因呢? 這個癌細胞它自己本身是在不斷的變化的,這我們知道癌細胞本身是正常細胞這么復制,復制錯了一個結果。關于癌癥的故事都是差不多這么一個過程,就是說有某一個患者用某一種藥物,控制得蠻好的,一直都很穩(wěn)定,突然有一天他突然開始復發(fā)了,然后就一發(fā)而不可收拾。什么原因呢?就是這個細胞變了,你原來是針對舊的癌細胞,它變成一個
23、新的了。你這藥就不管用了,那么有沒有辦法能夠解決這個問題呢?是有的。 假設對于某一個具體的患者,能夠有一個專門的團隊,就專門圍繞他來研制某一種抗癌藥,然后他這癌細胞一變,這個團隊就跟著他,而且研制速度要很快哦,就來研制這個抗癌藥,這種方法他一定就能把這癌治好,只要我們研藥的速度比變化要快,這就可以了。這件事情是能做到的,但是成本是多少呢?差不多每一個患者是十億美元。當然我一說這個,大家會跟我講,你說了也白說。 這是不可能有人能夠支付得起的,那么如果我們用大數(shù)據(jù)的方法,把各種各樣了病例全部的收集起來,把基因的圖譜能夠解剖的很清楚,把他們共性找到,然后針對某一個人專門研制一種抗癌藥,這種時候,大概
24、我們成本能做到多少呢?每個人5000美元,這樣就是已經(jīng)可以每個人負擔得起的,所以可以說用這個機器智能還有這大數(shù)據(jù),可以給我們人類帶來福祉。剛才我講了,當數(shù)據(jù)量足夠大的時候,我們能找到很多共性、很多特點。然后我們能找到一個很有用的規(guī)律。大數(shù)據(jù)還有一個特點就是說,可以把我們的世界發(fā)生的每一件小事,非常精密的來定位出來,來確定下來。 看到一個真實的一個案例,美國有一個創(chuàng)業(yè)者,他就要找一個創(chuàng)業(yè)題目,為了找這個創(chuàng)業(yè)題目,他走訪了120多個酒吧,然后他發(fā)現(xiàn)一個現(xiàn)象,這個酒吧里了酒差不多四分之一大概有23%給偷喝掉了,什么意思呢?就是假設我是酒吧的酒保,主持人是我的朋友,然后來了以后,我認識她,我說沒關系,今天沒人知道,我給你倒一杯酒,不要錢了,她
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024高中語文精讀課文二第5課1達爾文:興趣與恒心是科學發(fā)現(xiàn)的動力一課堂練習含解析新人教版選修中外傳記蚜
- 2024高考化學一輪復習第8章物質在水溶液中的行為第27講鹽類水解精練含解析
- 小學衛(wèi)生檢查內容及標準
- 地面標高定位線
- 第18課《我的白鴿》導學案
- 二零二五年社會福利機構護理人員職業(yè)發(fā)展與福利保障合同3篇
- 一年級家長培訓會電子教案
- 執(zhí)業(yè)醫(yī)師考試心得
- 黑豬養(yǎng)殖發(fā)展前景分析
- 2024年浙江國際海運職業(yè)技術學院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- 六年級語文下冊14文言文二則《學弈》課件
- 2024年內蒙古中考語文試卷五套合卷附答案
- 垃圾分類亭合同協(xié)議書
- 物權轉移協(xié)議
- 高三高考地理一輪課時練習:洋流(單選題)
- 2024年餐飲類“食品安全及質量管理員”知識考試題庫(附含答案)
- 三年級上冊寒假每日一練
- (正式版)SHT 3115-2024 石油化工管式爐輕質澆注料襯里工程技術規(guī)范
- 超聲引導下心包穿刺置管術
- 無人機駕駛員航空知識手冊培訓教材(多旋翼)
- 員工年度工作計劃范文
評論
0/150
提交評論