




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
可修改歡送下載精品Word可修改歡送下載精品Word可修改歡送下載精品Word大數(shù)據(jù)大數(shù)據(jù)的概念大數(shù)據(jù)(BigData)是指“無(wú)法用現(xiàn)有的軟件工具提取、存儲(chǔ)、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合。網(wǎng)絡(luò)上每一筆搜索,網(wǎng)站上每一筆交易、每一筆輸入都是數(shù)據(jù),通過(guò)計(jì)算機(jī)做篩選、整理、分析,所得出的結(jié)果可不僅僅只得到簡(jiǎn)單、客觀的結(jié)論,更能用于幫助企業(yè)經(jīng)營(yíng)決策,搜集起來(lái)的數(shù)據(jù)還可以被規(guī)劃,引導(dǎo)開(kāi)發(fā)更大的消費(fèi)力量。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別?銀行做數(shù)據(jù)業(yè)務(wù)做了十多年,那么大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的倉(cāng)庫(kù)有哪些差異?實(shí)際上就是群體和個(gè)體的差異?;ヂ?lián)網(wǎng)數(shù)據(jù)完全瞄向個(gè)體,數(shù)據(jù)結(jié)構(gòu)也是精準(zhǔn)于個(gè)體,而傳統(tǒng)的數(shù)據(jù)面向經(jīng)營(yíng)指標(biāo)、面向群體。宏觀意義上來(lái)看,假設(shè)小明去了一百次書(shū)店,以前要答復(fù)的問(wèn)題是他第一百零一次買(mǎi)不買(mǎi)書(shū),即業(yè)績(jī)和經(jīng)營(yíng)指標(biāo)的問(wèn)題;而現(xiàn)在,互聯(lián)網(wǎng)關(guān)心的是什么?最關(guān)心的是他第一百零一次買(mǎi)什么書(shū),需要將什么樣的內(nèi)容推薦給他。這不是一個(gè)概率問(wèn)題,而是一個(gè)模糊的程度問(wèn)題。要量化這個(gè)程度,我們一定要基于個(gè)體,而不是基于群體的共性描述。傳統(tǒng)定義上,更多關(guān)注的是一類人群,用同一類規(guī)那么制訂套餐給他們;而在互聯(lián)網(wǎng)時(shí)代,要把每個(gè)人都精準(zhǔn)刻畫(huà)出來(lái),進(jìn)行精準(zhǔn)匹配。有電商說(shuō)他們要做到一百萬(wàn)用戶要有一百萬(wàn)個(gè)商店,特別是在移動(dòng)的小屏幕上,三次點(diǎn)擊以后就會(huì)損失一個(gè)客戶。所以差異化絕對(duì)不可能是對(duì)群體共性的描述,而完全是對(duì)個(gè)體差異的刻畫(huà)。關(guān)于大數(shù)據(jù)的深度分析,很重要內(nèi)容就是個(gè)性化的信息推薦。個(gè)性化的信息推薦不僅僅是基于用戶的相似性這么簡(jiǎn)單的東西,還有大量比擬深入的復(fù)雜模型。比方說(shuō),就用戶看資訊而言,我們?cè)趺礃尤ヅ袛嘁粋€(gè)用戶點(diǎn)開(kāi)一條八卦資訊后,是繼續(xù)深挖八卦到死,還是轉(zhuǎn)而瀏覽另外一個(gè)新聞。同樣,有的用戶登陸淘寶只是逛逛而已,有些用戶那么是很明確地想要買(mǎi)一些東西,這就需要對(duì)用戶的意圖進(jìn)行預(yù)測(cè),這里面涉及到一些比擬難的機(jī)器學(xué)習(xí)技術(shù)。我們現(xiàn)在生活的是信息化的世界,未來(lái)會(huì)走向個(gè)性化。在這一點(diǎn)上有一個(gè)例子,耐克制作了一款鞋子,在這個(gè)鞋子里裝上了傳感器,然后穿上這個(gè)鞋子的人,你一天大概走多少路,而且你走路的狀態(tài)比方著力點(diǎn)等相關(guān)情況的數(shù)據(jù)都會(huì)通過(guò)傳感器傳到耐克公司,耐克公司就會(huì)根據(jù)這些數(shù)據(jù)來(lái)給你量身定做鞋子。這樣,未來(lái)的銷售模式將會(huì)是個(gè)性化的。大數(shù)據(jù)的典型特征〔3V〕“大數(shù)據(jù)〞這個(gè)詞,光從字面來(lái)看,可能會(huì)讓人覺(jué)得只是容量非常大的數(shù)據(jù)集合而已。但是,容量只不過(guò)是大數(shù)據(jù)特征的一個(gè)方面,如果只拘泥于數(shù)據(jù)量的話,就無(wú)法深入理解當(dāng)前圍繞大數(shù)據(jù)所進(jìn)行的討論。因?yàn)椤坝矛F(xiàn)有的一般技術(shù)難以管理〞這樣的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個(gè)因素所造成的。大數(shù)據(jù)的特征,可以用三個(gè)V開(kāi)頭的關(guān)鍵詞來(lái)描述?!?〕
Volume〔容量〕看到大數(shù)據(jù)這個(gè)詞,大多數(shù)人的第一印象恐怕就是Volume,也就是數(shù)據(jù)量吧。從剛剛我們講到的大數(shù)據(jù)的定義來(lái)看,也就是指用現(xiàn)有技術(shù)無(wú)法管理的數(shù)據(jù)量,從現(xiàn)狀來(lái)看,根本上是指從幾十TB到幾PB這樣的數(shù)量級(jí)。當(dāng)然,隨著技術(shù)的進(jìn)步,這個(gè)數(shù)值也會(huì)不斷變化。例如,在5年以后,也許只有幾EB數(shù)量級(jí)的數(shù)據(jù)量才能夠稱得上是大數(shù)據(jù)了。
截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說(shuō)過(guò)的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤(pán)的容量為T(mén)B量級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí)。〔2〕
Variety〔多樣性〕除了傳統(tǒng)的銷售、庫(kù)存等數(shù)據(jù),現(xiàn)在企業(yè)所采集和分析的數(shù)據(jù)還包括像網(wǎng)站日志數(shù)據(jù)、呼叫中心通話記錄、Twitter和Facebook等社交媒體中的文本數(shù)據(jù)、智能中內(nèi)置的GPS〔全球定位系統(tǒng)〕所產(chǎn)生的位置信息、時(shí)刻生成的傳感器數(shù)據(jù),甚至還有圖片和視頻,數(shù)據(jù)的種類和幾年前相比已經(jīng)有了大幅度的增加。其中,近年來(lái)爆發(fā)式增長(zhǎng)的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻等,用企業(yè)中主流的關(guān)系型HYPERLINK數(shù)據(jù)庫(kù)是很難存儲(chǔ)的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。當(dāng)然,在這些種類的數(shù)據(jù)中,也有一些是過(guò)去就一直存在并保存下來(lái)的。然而,和過(guò)去不同的是,這些大數(shù)據(jù)并非只是存儲(chǔ)起來(lái)就夠了,還需要對(duì)其進(jìn)行分析,并從中獲得有用的信息。以美國(guó)企業(yè)為代表的眾多企業(yè)正在致力于這方面的研究。監(jiān)控?cái)z像機(jī)的視頻數(shù)據(jù)正是其中之一。近年來(lái),超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控?cái)z像機(jī),目的是為了防止盜竊和幫助抓捕盜竊嫌犯,但最近也出現(xiàn)了使用監(jiān)控?cái)z像機(jī)的視頻數(shù)據(jù)來(lái)分析顧客購(gòu)置行為的案例。例如,美國(guó)大型折扣店FamilyDollarStores,以及高級(jí)文具制造商萬(wàn)寶龍〔Montblanc〕,都開(kāi)始嘗試?yán)帽O(jiān)控?cái)z像頭對(duì)顧客在店內(nèi)的行為進(jìn)行分析。以萬(wàn)寶龍為例,它們過(guò)去都是憑經(jīng)驗(yàn)和直覺(jué)來(lái)決定商品陳列的布局,但通過(guò)分析監(jiān)控?cái)z像機(jī)的數(shù)據(jù),將最想賣出去的商品移動(dòng)到最容易吸引顧客目光的位置,使得銷售額提高了20%。此外,美國(guó)移動(dòng)運(yùn)營(yíng)商T-Mobile也在其全美1000家店中安裝了帶視頻分析功能的監(jiān)控?cái)z像機(jī),可以統(tǒng)計(jì)來(lái)店人數(shù),還可以追蹤顧客在店內(nèi)的行動(dòng)路線、在展臺(tái)前停留的時(shí)間,甚至是試用了哪一款、試用了多長(zhǎng)時(shí)間等,對(duì)顧客在店內(nèi)的購(gòu)置行為進(jìn)行分析。〔3〕
Velocity〔速度〕數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個(gè)重要特征。例如,整個(gè)日本的便利店在24小時(shí)內(nèi)產(chǎn)生的POS〔PointOfSales〕數(shù)據(jù),電商網(wǎng)站中由用戶訪問(wèn)所產(chǎn)生的網(wǎng)站點(diǎn)擊流數(shù)據(jù),頂峰時(shí)高達(dá)每秒7000條的Twitter推文,日本全國(guó)公路上安裝的交通堵塞探測(cè)傳感器和路面狀況傳感器〔可檢測(cè)結(jié)冰、積雪等路面狀態(tài)〕等,每天都在產(chǎn)生著龐大的數(shù)據(jù)。廣義的大數(shù)據(jù)剛剛我們講解了大數(shù)據(jù)的定義,即"用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合",并且用三個(gè)V對(duì)大數(shù)據(jù)的特征進(jìn)行了描述。但是,僅憑這個(gè)定義還無(wú)法解釋當(dāng)前大數(shù)據(jù)的火爆局面,因?yàn)檫@個(gè)定義的著眼點(diǎn)僅僅在于數(shù)據(jù)的性質(zhì)上。這個(gè)定義我們把它視為狹義上的定義,而我們需要在廣義層面上為大數(shù)據(jù)下一個(gè)定義:這個(gè)狹義的定義所說(shuō)的具備3V特征的數(shù)據(jù)就相當(dāng)于是賓語(yǔ),那么我們還需要主語(yǔ)和謂語(yǔ)。謂語(yǔ)就是“存儲(chǔ)、分析、處理〞這些數(shù)據(jù),〔而用什么方法來(lái)進(jìn)行分析處理,是機(jī)器學(xué)習(xí)還是統(tǒng)計(jì)分析或者其它什么,這些可以看做是方式狀語(yǔ)〕,主語(yǔ)那就是誰(shuí),誰(shuí)來(lái)處理這些數(shù)據(jù)。這個(gè)誰(shuí)就是指的“數(shù)據(jù)科學(xué)家〞目前在歐美是十分緊俏的,他們通過(guò)分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)這就是大數(shù)據(jù)的廣義定義,它是一個(gè)綜合性的概念。大數(shù)據(jù)應(yīng)用案例穿孔卡片與美國(guó)人口普查美國(guó)在1880年進(jìn)行的人口普查,耗時(shí)8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過(guò)時(shí)的。1890年進(jìn)行的人口普查,預(yù)計(jì)要花費(fèi)13年的時(shí)間來(lái)匯總數(shù)據(jù)。而法律規(guī)定必須在十年內(nèi)完成,即使不考慮這種情況違反了憲法規(guī)定,它也是很荒唐的。然而,因?yàn)槎愂辗謹(jǐn)偤蛧?guó)會(huì)代表人數(shù)確定都是建立在人口的根底上的,所以必須要得到正確的數(shù)據(jù),而且必須是及時(shí)的數(shù)據(jù)。后來(lái),美國(guó)人口普查局就和當(dāng)時(shí)的美國(guó)創(chuàng)造家赫爾曼-霍爾瑞斯〔HermanHollerith〕簽訂了一個(gè)協(xié)議,用他的穿孔卡片制表機(jī)來(lái)完成1890年的人口普查。經(jīng)過(guò)大量的努力,霍爾瑞斯成功地在1年時(shí)間內(nèi)完成了人口普查。這簡(jiǎn)直就是一個(gè)奇跡,當(dāng)時(shí)在這個(gè)工程上霍爾瑞斯并沒(méi)賺多少錢(qián),后來(lái)他成立了一個(gè)公司,向其他國(guó)家賣他的產(chǎn)品,老了以后他把公司賣給了他的一個(gè)主管,成了成立IBM的三家公司之一。但是,將穿孔卡片作為收集處理大數(shù)據(jù)的方法依然過(guò)于昂貴。畢竟,每個(gè)美國(guó)人都必須填一張可制成穿孔卡片的表格,然后再進(jìn)行統(tǒng)計(jì)。這還是非常麻煩的。70萬(wàn)家企業(yè)聯(lián)網(wǎng)“直報(bào)〞統(tǒng)計(jì)數(shù)據(jù)我們知道國(guó)家統(tǒng)計(jì)局每年都要編寫(xiě)的?中國(guó)統(tǒng)計(jì)年鑒?。和美國(guó)一樣,以前我們國(guó)家統(tǒng)計(jì)數(shù)據(jù),是層層上報(bào),人工統(tǒng)計(jì),比方,國(guó)家進(jìn)行人口普查,是縣級(jí)——市級(jí)——省級(jí)——國(guó)家這樣層層上報(bào)人口數(shù)據(jù),這樣得到的數(shù)據(jù)往往滯后,很不準(zhǔn)確。從2022年2月18日開(kāi)始,全國(guó)70萬(wàn)家"三上"企業(yè)和房地產(chǎn)開(kāi)發(fā)經(jīng)營(yíng)企業(yè)在統(tǒng)一的數(shù)據(jù)采集和處理平臺(tái)上,通過(guò)互聯(lián)網(wǎng)直接向國(guó)家數(shù)據(jù)中心或國(guó)家認(rèn)定的省級(jí)數(shù)據(jù)中心報(bào)送統(tǒng)計(jì)數(shù)據(jù)。這樣就保證了數(shù)據(jù)的準(zhǔn)確性,及時(shí)性。2022年11月19日下午,阿里巴巴、百度、中國(guó)聯(lián)通等11家涉足大數(shù)據(jù)的領(lǐng)軍企業(yè)代表與國(guó)家統(tǒng)計(jì)局簽署關(guān)于大數(shù)據(jù)的戰(zhàn)略合作協(xié)議,共同探討和推進(jìn)大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用。戰(zhàn)略合作內(nèi)容,主要是共同研究探討建立大數(shù)據(jù)應(yīng)用的統(tǒng)計(jì)標(biāo)準(zhǔn),包括指標(biāo)定義、口徑、范圍、分類等;確定利用企業(yè)數(shù)據(jù)完善、補(bǔ)充政府統(tǒng)計(jì)數(shù)據(jù)的內(nèi)容、形式及實(shí)施步驟,包括數(shù)據(jù)采集、處理、分析、挖掘、發(fā)布等。在此根底上,合作雙方將建立戰(zhàn)略合作關(guān)系。政府統(tǒng)計(jì)部門(mén)收集的數(shù)據(jù)來(lái)源更廣更多,有各個(gè)部門(mén)的行政記錄,有電商企業(yè)的數(shù)據(jù),有包括搜索記錄、社交記錄和媒體等互聯(lián)網(wǎng)數(shù)據(jù)。電子政務(wù):通過(guò)政府信息化,大數(shù)據(jù)能夠提高政府決策的科學(xué)性和精準(zhǔn)性,提高政府預(yù)測(cè)預(yù)警能力以及應(yīng)急響應(yīng)能力,節(jié)約決策的本錢(qián)。以財(cái)政部門(mén)為例,基于云計(jì)算、大數(shù)據(jù)技術(shù),財(cái)政部門(mén)可以按需掌握各個(gè)部門(mén)的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行分析,做出的決策可以更準(zhǔn)確、更高效。另外,也可以依據(jù)數(shù)據(jù)推動(dòng)財(cái)政創(chuàng)新,使財(cái)政工作更有效率、更加開(kāi)放、更加透明。麻省理工與通貨緊縮預(yù)測(cè)軟件“10億價(jià)格工程〞〔TheBillionPricesProject,BBP〕提供了一個(gè)有趣的例子。美國(guó)勞工統(tǒng)計(jì)局的人員每個(gè)月都要公布消費(fèi)物價(jià)指數(shù)〔CPI〕,這是用來(lái)測(cè)試通貨膨脹率的。這些數(shù)據(jù)對(duì)投資者和商家都非常重要。在決定是否增減銀行利率的時(shí)候,美聯(lián)儲(chǔ)也會(huì)考慮消費(fèi)指數(shù)。一旦發(fā)生通貨膨脹,工人工資也會(huì)增加。聯(lián)邦政府在支付社會(huì)福利和債券利息的款項(xiàng)時(shí),這項(xiàng)指數(shù)也是他們參考的依據(jù)。聯(lián)邦政府為了得到這些數(shù)據(jù),會(huì)雇用很多人向全美90個(gè)城市的商店、辦公室打、發(fā)甚至登門(mén)拜訪。他們反響回來(lái)的各種各樣的價(jià)格信息達(dá)80000種,包括土豆的價(jià)格、出租車的票價(jià)等。政府采集這些數(shù)據(jù)每年大概需要花費(fèi)兩億五千萬(wàn)美元。這些數(shù)據(jù)是精確的也是有序的,但是這個(gè)采集結(jié)果的公布會(huì)有幾周的滯后。2021年的經(jīng)濟(jì)危機(jī)說(shuō)明,這個(gè)滯后是致命的。政策決策者為了更好地應(yīng)對(duì)變化,需要及時(shí)了解通貨膨脹率,但如果以傳統(tǒng)的依賴采樣和追求精確的方式進(jìn)行數(shù)據(jù)收集,政府就不可能及時(shí)獲得數(shù)據(jù)了。麻省理工學(xué)院〔MIT〕的兩位經(jīng)濟(jì)學(xué)家,阿爾貝托·卡瓦略〔AlbertoCavell〕和羅伯托·里哥本〔ObertoRigobon〕就對(duì)此提出了一個(gè)大數(shù)據(jù)方案,那就是接受更混亂的數(shù)據(jù)。通過(guò)一個(gè)軟件在互聯(lián)網(wǎng)上收集信息,他們每天可以收集到50萬(wàn)種商品的價(jià)格。收集到的數(shù)據(jù)很混亂,也不是所有數(shù)據(jù)都能輕易進(jìn)行比擬。但是把大數(shù)據(jù)和好的分析法相結(jié)合,這個(gè)工程在2021年9月雷曼兄弟破產(chǎn)之后馬上就發(fā)現(xiàn)了通貨緊縮趨勢(shì),然而那些依賴官方數(shù)據(jù)的人直到11月份才知道這個(gè)情況。沃爾瑪沃爾瑪零售巨頭是最早在零售業(yè)運(yùn)用大數(shù)據(jù)的,因而改變了整個(gè)行業(yè)。沃爾瑪通過(guò)大數(shù)據(jù)提前預(yù)知顧客明天會(huì)做什么,并提前準(zhǔn)備。這就是人習(xí)慣性的力量通過(guò)大數(shù)據(jù)總結(jié)匯總分析出的。沃爾瑪有一個(gè)經(jīng)典的案例,那就是:啤酒和尿布的例子,這個(gè)例子大家都知道,現(xiàn)在看看沃爾瑪另外兩個(gè)例子:請(qǐng)把蛋撻與颶風(fēng)用品擺在一起依據(jù)是注意到2004年沃爾瑪對(duì)歷史交易記錄這個(gè)龐大數(shù)據(jù)庫(kù)進(jìn)行觀察,這個(gè)數(shù)據(jù)庫(kù)記錄的不僅包括每一個(gè)顧客的購(gòu)物清單以及消費(fèi)額,還包括購(gòu)物籃中的物品,具體購(gòu)置時(shí)間,甚至購(gòu)置當(dāng)日的天氣。通過(guò)大數(shù)據(jù),沃爾瑪注意到,每當(dāng)季節(jié)性颶風(fēng)來(lái)臨之前,不僅手電筒銷量增加,而且美式早餐含糖零食蛋撻銷量也增加了,因此每當(dāng)季節(jié)性颶風(fēng)來(lái)臨時(shí),按前面擺放在一起,以方便行色匆匆的顧客,從而增加銷量。東海岸——中海岸——西海岸在美國(guó),東海岸與中海岸時(shí)差兩小時(shí),東海岸的沃爾瑪超市早上開(kāi)門(mén)營(yíng)業(yè)兩小時(shí)之后,這時(shí)候中海岸才開(kāi)始營(yíng)業(yè),沃爾瑪就會(huì)把東海岸當(dāng)天這兩小時(shí)的營(yíng)業(yè)情況、相關(guān)數(shù)據(jù)傳給中海岸,中海岸就會(huì)根據(jù)這個(gè)數(shù)據(jù)知道了這天人們的購(gòu)置喜好,決定貨品怎么擺放,哪些貨物擺放在一起會(huì)比擬好,然后等中海岸的沃爾瑪營(yíng)業(yè)兩小時(shí)之后,西海岸才到早上,才開(kāi)始營(yíng)業(yè),同樣,把東海岸和中海岸的營(yíng)業(yè)數(shù)據(jù)傳到西海岸。這種方式給沃爾瑪帶來(lái)了很大的利潤(rùn)。美國(guó)折扣零售商塔吉特與懷孕預(yù)測(cè)大數(shù)據(jù)運(yùn)用的極致,非美國(guó)折扣零售商塔吉特莫屬了。?紐約時(shí)報(bào)?曾報(bào)道過(guò)塔吉特公司怎樣在不被清楚告知的情況下預(yù)測(cè)出一個(gè)女性的懷孕情況。很多人都不知道,對(duì)于零售商來(lái)說(shuō),知道一個(gè)顧客是否懷孕非常重要。因?yàn)檫@是一對(duì)夫妻改變消費(fèi)觀念的開(kāi)始,也是一對(duì)夫妻生命的分水嶺。他們會(huì)開(kāi)始光臨以前不會(huì)去的商店,漸漸對(duì)新的品牌建立忠誠(chéng)。
塔吉特的分析團(tuán)隊(duì)首先查看了簽署嬰兒禮物登記簿的女性的消費(fèi)記錄。他們注意到,登記簿上的婦女會(huì)在懷孕大概第三個(gè)月的時(shí)候買(mǎi)很多無(wú)香乳液。幾個(gè)月之后,她們會(huì)買(mǎi)一些營(yíng)養(yǎng)品,比方鎂、鈣、鋅。公司最終找出了大概20多種關(guān)聯(lián)物,這些關(guān)聯(lián)物可以給顧客進(jìn)行“懷孕趨勢(shì)〞評(píng)分。這些數(shù)據(jù)甚至使得零售商能夠比擬準(zhǔn)確地預(yù)測(cè)預(yù)產(chǎn)期,這樣就能夠在孕期的每個(gè)階段給客戶寄送相應(yīng)的優(yōu)惠券。杜西格在?習(xí)慣的力量?〔ThePowerofHabit〕一書(shū)中講到了接下來(lái)發(fā)生的事情。一天,一個(gè)男人沖進(jìn)了一家位于明尼阿波利斯市郊的塔吉特商店,要求經(jīng)理出來(lái)見(jiàn)他。他氣憤地說(shuō):“我女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優(yōu)惠券,你們是在鼓勵(lì)她懷孕嗎?〞而當(dāng)幾天后,經(jīng)理打向這個(gè)男人致歉時(shí),這個(gè)男人的語(yǔ)氣變得平和起來(lái)。他說(shuō):“我跟我的女兒談過(guò)了,她的預(yù)產(chǎn)期是8月份,是我完全沒(méi)有意識(shí)到這個(gè)事情的發(fā)生,應(yīng)該說(shuō)抱歉的人是我。〞在社會(huì)環(huán)境下尋找關(guān)聯(lián)物只是大數(shù)據(jù)分析法采取的一種方式。同樣有用的一種方法是,通過(guò)找出新種類數(shù)據(jù)之間的相互聯(lián)系來(lái)解決日常需要。比方說(shuō),一種稱為預(yù)測(cè)分析法的方法就被廣泛地應(yīng)用于商業(yè)領(lǐng)域,它可以預(yù)測(cè)事件的發(fā)生。這可以指一個(gè)能發(fā)現(xiàn)可能的流行歌曲的算法系統(tǒng)——音樂(lè)界廣泛采用這種方法來(lái)確保它們看好的歌曲真的會(huì)流行;也可以指那些用來(lái)防止機(jī)器失效和建筑倒塌的方法。現(xiàn)在,在機(jī)器、發(fā)動(dòng)機(jī)和橋梁等根底設(shè)施上放置傳感器變得越來(lái)越平常了,這些傳感器被用來(lái)記錄散發(fā)的熱量、振幅、承壓和發(fā)出的聲音等。一個(gè)東西要出故障,不會(huì)是瞬間的,而是慢慢地出問(wèn)題的。通過(guò)收集所有的數(shù)據(jù),我們可以預(yù)先捕捉到事物要出故障的信號(hào),比方說(shuō)發(fā)動(dòng)機(jī)的嗡嗡聲、引擎過(guò)熱都說(shuō)明它們可能要出故障了。系統(tǒng)把這些異常情況與正常情況進(jìn)行比照,就會(huì)知道什么地方出了毛病。通過(guò)盡早地發(fā)現(xiàn)異常,系統(tǒng)可以提醒我們?cè)诠收现案鼡Q零件或者修復(fù)問(wèn)題。通過(guò)找出一個(gè)關(guān)聯(lián)物并監(jiān)控它,我們就能預(yù)測(cè)未來(lái)。Hitwise,通過(guò)流量判斷消費(fèi)者喜好數(shù)據(jù)創(chuàng)新再利用的一個(gè)典型例子是搜索關(guān)鍵詞。消費(fèi)者和搜索引擎之間的瞬時(shí)交互形成了一個(gè)網(wǎng)站和廣告的列表,實(shí)現(xiàn)了那一刻的特定功能。乍看起來(lái),這些信息在實(shí)現(xiàn)了根本用途之后似乎變得一文不值。但是,以往的查詢也可以變得非常有價(jià)值。有的公司,如數(shù)據(jù)代理益百利旗下的網(wǎng)頁(yè)流量測(cè)量公司Hitwise,讓客戶采集搜索流量來(lái)揭示消費(fèi)者的喜好。通過(guò)Hitwise營(yíng)銷人員可以了解到粉紅色是否會(huì)成為今夏的潮流色,或者黑色是否會(huì)回歸潮流。谷歌整理了一個(gè)版本的搜索詞分析,公開(kāi)供人們查詢,并與西班牙第二大銀行BBVA合作推出了實(shí)時(shí)經(jīng)濟(jì)指標(biāo)以及旅游部門(mén)的業(yè)務(wù)預(yù)報(bào)效勞,這些指標(biāo)都是基于搜索數(shù)據(jù)得到的。英國(guó)央行通過(guò)搜索查詢房地產(chǎn)的相關(guān)信息,更好地了解到了住房?jī)r(jià)格的升降情況。物聯(lián)網(wǎng)物聯(lián)網(wǎng)物聯(lián)網(wǎng)〔InternetofThings,縮寫(xiě)IOT〕是一個(gè)基于互聯(lián)網(wǎng)、傳統(tǒng)電信網(wǎng)等信息承載體,讓所有能夠被獨(dú)立尋址的普通物理對(duì)象實(shí)現(xiàn)互聯(lián)互通的網(wǎng)絡(luò)。在物聯(lián)網(wǎng)上,每個(gè)人都可以應(yīng)用電子標(biāo)簽將真實(shí)的物體上網(wǎng)聯(lián)結(jié),在物聯(lián)網(wǎng)上都可以查找出它們的具體位置。通過(guò)物聯(lián)網(wǎng)可以用中心計(jì)算機(jī)對(duì)機(jī)器、設(shè)備、人員進(jìn)行集中管理、控制,也可以對(duì)家庭設(shè)備、汽車進(jìn)行遙控,以及搜尋位置、防止物品被盜等各種應(yīng)用。物聯(lián)網(wǎng)將現(xiàn)實(shí)世界數(shù)字化,應(yīng)用范圍十分廣泛。物聯(lián)網(wǎng)的應(yīng)用領(lǐng)域主要包括以下幾個(gè)方面:運(yùn)輸和物流領(lǐng)域、健康醫(yī)療領(lǐng)域、智能環(huán)境〔家庭、辦公、工廠〕領(lǐng)域、個(gè)人和社會(huì)領(lǐng)域等,具有十分廣闊的市場(chǎng)和應(yīng)用前景。RFID技術(shù)RFID是RadioFrequencyIdentification的縮寫(xiě),即射頻識(shí)別,俗稱電子標(biāo)簽。RFID射頻識(shí)別是一種非接觸式的自動(dòng)識(shí)別技術(shù),它通過(guò)射頻信號(hào)自動(dòng)識(shí)別目標(biāo)對(duì)象并獲取相關(guān)數(shù)據(jù),識(shí)別工作無(wú)須人工干預(yù),可工作于各種惡劣環(huán)境。RFID技術(shù)可識(shí)別高速運(yùn)動(dòng)物體并可同時(shí)識(shí)別多個(gè)標(biāo)簽,操作快捷方便。RFID是一種簡(jiǎn)單的無(wú)線系統(tǒng),只有兩個(gè)根本器件,該系統(tǒng)用于控制、檢測(cè)和跟蹤物體。系統(tǒng)由一個(gè)詢問(wèn)器(或閱讀器)和很多應(yīng)答器(或標(biāo)簽)組成。適應(yīng)領(lǐng)域:物流和供給管理、生產(chǎn)制造和裝配、航空行李處理、郵件、快運(yùn)包裹處理、文檔追蹤、圖書(shū)館管理動(dòng)物身份標(biāo)識(shí)、運(yùn)動(dòng)計(jì)時(shí)、門(mén)禁控制、電子門(mén)票、道路自動(dòng)收費(fèi).從大型遠(yuǎn)距離UHF標(biāo)簽到細(xì)小的UHF標(biāo)簽??梢詾榭蛻糇龆ㄖ苹a(chǎn),滿足各種要求。RFID技術(shù)在超市和圖書(shū)館中的應(yīng)用。車聯(lián)網(wǎng)說(shuō)到物聯(lián)網(wǎng)不可遺漏的當(dāng)然是車聯(lián)網(wǎng),早在2022年的北京國(guó)際汽車展覽會(huì)期間,中國(guó)移動(dòng)就展示了基于TD-LTE的4G車聯(lián)網(wǎng)概念產(chǎn)品,而現(xiàn)階段,在4G時(shí)代全面到來(lái)的背景下,車聯(lián)網(wǎng)的開(kāi)展愈發(fā)迅猛。不僅僅巨頭Google一直在深耕車聯(lián)網(wǎng),我國(guó)自主車企當(dāng)中也有廠商在積極跟進(jìn),最早試水車聯(lián)網(wǎng)技術(shù)的是上汽集團(tuán),一直走在外鄉(xiāng)開(kāi)發(fā)車聯(lián)網(wǎng)的前列,其inkaNet系統(tǒng)被廣泛搭載在榮威350、榮威550、W5以及MG5等多款車型上。目前幾乎所有的整車企業(yè)都在車聯(lián)網(wǎng)技術(shù)方面進(jìn)行了大量的投入。未來(lái)車聯(lián)網(wǎng)技術(shù)將重新定義汽車DNA。借助無(wú)線通訊,城市內(nèi)車與車之間,車與建筑之間,車與人之間都將建立更加智能緊密的互聯(lián)。通過(guò)裝載在車輛上的電子標(biāo)簽通過(guò)無(wú)線射頻等識(shí)別技術(shù),實(shí)現(xiàn)在信息網(wǎng)絡(luò)平臺(tái)上對(duì)所有車輛的屬性信息和靜、動(dòng)態(tài)信息進(jìn)行提取和有效利用,并根據(jù)不同的功能需求對(duì)所有車輛的運(yùn)行狀態(tài)進(jìn)行有效的監(jiān)管和提供綜合效勞。并且將電視、電腦、都可以和汽車?yán)锏钠聊贿B接在一起,駕駛過(guò)程中娛樂(lè)化的程度大大加強(qiáng)。無(wú)人駕駛無(wú)人駕駛被人認(rèn)為是車聯(lián)網(wǎng)的終極目標(biāo),無(wú)人駕駛車依賴的技術(shù)很多,比方導(dǎo)航、雷達(dá)、龐大數(shù)據(jù)計(jì)算等,要實(shí)現(xiàn)這些技術(shù)需要和物聯(lián)網(wǎng)緊密結(jié)合起來(lái)。盡管車聯(lián)網(wǎng)不過(guò)是近幾年才興起的事情,而物聯(lián)網(wǎng)技術(shù)的成熟那么極大的推動(dòng)了車聯(lián)網(wǎng)的進(jìn)展。車聯(lián)網(wǎng)技術(shù)是實(shí)現(xiàn)無(wú)人駕駛技術(shù)和智能化交通的第一步,而在無(wú)人駕駛技術(shù)普及的第一階段,車聯(lián)網(wǎng)技術(shù)將迎來(lái)爆發(fā)期。自動(dòng)泊車系統(tǒng)在我印象中小時(shí)候經(jīng)常能聽(tīng)到從某輛車上傳出“倒車請(qǐng)注意〞的聲音,后來(lái)想想覺(jué)得當(dāng)時(shí)技術(shù)不興旺沒(méi)有到達(dá)幫助駕駛的水平,只能通過(guò)提示車后的行人注意平安。過(guò)了沒(méi)幾年什么倒車?yán)走_(dá)、倒車影像以及帶有循跡功能的倒車系統(tǒng)全面鋪開(kāi),無(wú)論是對(duì)人還是對(duì)物駕駛者都可以更平安的控制車輛。而我今天要說(shuō)的是自動(dòng)泊車系統(tǒng),顧名思義駕駛者雙手可以離開(kāi)方向盤(pán),在車輛停好之前要做的只是等待。一般情況下自動(dòng)泊車系統(tǒng)主要由兩局部組成:控制單元和位于前后保險(xiǎn)杠以及兩側(cè)的超聲波雷達(dá)探頭。按動(dòng)自動(dòng)泊車輔助系統(tǒng)激活按鈕之后,雷達(dá)探頭可在車輛行駛時(shí)對(duì)車輛兩側(cè)進(jìn)行掃描,低時(shí)速〔一般為30km/h〕及側(cè)向距離1.5米左右之內(nèi)均能成功完成車位掃描。但根本上當(dāng)車位旁出現(xiàn)樹(shù)木,路燈桿等柱狀物時(shí),為防止雷達(dá)偵測(cè)出現(xiàn)誤差而發(fā)生碰撞風(fēng)險(xiǎn),此時(shí)系統(tǒng)將不被激活。控制單元對(duì)雷達(dá)反響的信息進(jìn)行分析,從而估算出車位是否足以容納車輛停放。當(dāng)車位長(zhǎng)度大于車輛長(zhǎng)度1.4米以上或更高時(shí),控制單元會(huì)通過(guò)行車電腦顯示屏發(fā)出準(zhǔn)予停車的提示。駕駛者只需要撥動(dòng)轉(zhuǎn)向燈開(kāi)關(guān),告訴系統(tǒng)靠道路哪一側(cè)停車即可。自動(dòng)泊車系統(tǒng)隨后將通過(guò)助力轉(zhuǎn)向系統(tǒng)對(duì)車輛行駛方向進(jìn)行干預(yù),并以控制單元規(guī)劃好的路徑將車輛停入車位。目前,群眾汽車旗下產(chǎn)品如途觀,邁騰和CC均搭載2.0版本的自動(dòng)泊車系統(tǒng)。這套系統(tǒng)除可以幫助車輛以倒庫(kù)的方式停入車位,也可以實(shí)現(xiàn)側(cè)方停車。而諸如途安上的以及其它一些品牌的系統(tǒng)那么只能實(shí)現(xiàn)側(cè)方停車。多效地理定位于UPS的最正確行車路徑如今,GPS已經(jīng)只是眾多定位系統(tǒng)中的一種了。中國(guó)和歐洲也正在研發(fā)新的衛(wèi)星定位系統(tǒng)來(lái)與之抗衡。這些新系統(tǒng)通過(guò)對(duì)電塔和無(wú)線路由器的信號(hào)強(qiáng)度進(jìn)行三角測(cè)量來(lái)定位地理位置,從而彌補(bǔ)了GPS無(wú)法在室內(nèi)和高樓之間進(jìn)行定位的缺陷,這也是谷歌、蘋(píng)果和微軟需要自己研發(fā)地理定位系統(tǒng)來(lái)輔助GPS的原因。谷歌的街景車〔StreetViewCars〕邊拍照邊收集無(wú)線路由器信息;iPhone本身就是一個(gè)“移動(dòng)間諜〞,一直在用戶不知情的情況下收集位置和無(wú)線數(shù)據(jù)然后傳回蘋(píng)果公司;當(dāng)然,谷歌的安卓和微軟的操作系統(tǒng)也在收集這一類數(shù)據(jù)。除了人以外,我們也可以跟蹤事物的地理位置信息。隨著汽車裝上了無(wú)線傳感器,地理位置信息的數(shù)據(jù)化深刻變革了保險(xiǎn)的概念。這些數(shù)據(jù)提供了關(guān)于時(shí)間、地點(diǎn)和實(shí)際行駛路程的詳細(xì)信息,使保險(xiǎn)公司能更好地為車險(xiǎn)定價(jià)。在英國(guó),車主可以根據(jù)他的實(shí)際駕駛地點(diǎn)和時(shí)間購(gòu)置汽車保險(xiǎn),而不是只能根據(jù)他的年齡、性別和履歷來(lái)購(gòu)置年險(xiǎn)。這種保險(xiǎn)定價(jià)法鼓勵(lì)投保人產(chǎn)生更好的行為習(xí)慣。同時(shí),這改變了保險(xiǎn)的根底,從考慮一個(gè)群體的平均風(fēng)險(xiǎn)轉(zhuǎn)變?yōu)閭€(gè)性化的分析。通過(guò)汽車定位每個(gè)人的地理方位也改變了一些固定資產(chǎn)投入的模式,比方說(shuō)公路和其他根底設(shè)施可以讓使用這些資源的司機(jī)和其他人分擔(dān)一局部投入。當(dāng)然,在實(shí)現(xiàn)對(duì)所有人和事以數(shù)據(jù)形式保持持續(xù)定位之前,這顯然還無(wú)法實(shí)現(xiàn),但這是我們的開(kāi)展方向。UPS快遞多效地利用了地理定位數(shù)據(jù)。為了使總部能在車輛出現(xiàn)晚點(diǎn)的時(shí)候跟蹤到車輛的位置和預(yù)防引擎故障,它的貨車上裝有傳感器、無(wú)線適配器和GPS。同時(shí),這些設(shè)備也方便了公司監(jiān)督管理員工并優(yōu)化行車線路。就像莫里的圖表是基于過(guò)去的航海經(jīng)驗(yàn)一樣,UPS為貨車定制的最正確行車路徑一定程度上也是根據(jù)過(guò)去的行車經(jīng)驗(yàn)總結(jié)而來(lái)的。UPS的過(guò)程管理總監(jiān)杰克·萊維斯〔JackLevis〕認(rèn)為這個(gè)分析工程效果顯著。2022年,UPS的駕駛員們少跑了近4828萬(wàn)公里的路程,節(jié)省了300萬(wàn)加侖的燃料并且減少了3萬(wàn)公噸的二氧化碳排放量。系統(tǒng)也設(shè)計(jì)了盡量少左轉(zhuǎn)的路線,因?yàn)樽筠D(zhuǎn)要求貨車在交叉路口穿過(guò)去,所以更容易出事故。而且,貨車往往需要等待一會(huì)兒才能左轉(zhuǎn),也會(huì)更耗油,因此,減少左轉(zhuǎn)使得行車的平安性和效率都得到了大幅提升。UPS與汽車修理預(yù)測(cè)UPS國(guó)際快遞公司從2000年就開(kāi)始使用預(yù)測(cè)性分析來(lái)監(jiān)測(cè)自己全美60000輛車規(guī)模的車隊(duì),這樣就能及時(shí)地進(jìn)行防御性的修理。如果車在路上拋錨損失會(huì)非常大,因?yàn)槟菢泳托枰倥梢惠v車,會(huì)造成延誤和再裝載的負(fù)擔(dān),并消耗大量的人力物力,所以以前UPS每?jī)扇昃蜁?huì)對(duì)車輛的零件進(jìn)行定時(shí)更換。但這種方法不太有效,因?yàn)橛械牧慵](méi)有什么毛病就被換掉了。通過(guò)監(jiān)測(cè)車輛的各個(gè)部位,UPS如今只需要更換需要更換的零件,從而節(jié)省了好幾百萬(wàn)美元。有一次,監(jiān)測(cè)系統(tǒng)甚至幫助UPS發(fā)現(xiàn)了一個(gè)新車的一個(gè)零件有問(wèn)題,因此免除了可能會(huì)造成的困擾。無(wú)獨(dú)有偶,橋梁和建筑物上也被安裝了傳感器來(lái)監(jiān)測(cè)磨損程度。大型化工廠和提煉廠也安裝了傳感器,因?yàn)橐坏┰O(shè)備的某一個(gè)零件有問(wèn)題,就只有在更換了零件之后生產(chǎn)才能繼續(xù)進(jìn)行。收集和分析數(shù)據(jù)的花費(fèi)比出現(xiàn)停產(chǎn)的損失小得多。預(yù)測(cè)性分析并不能解釋故障可能會(huì)發(fā)生的原因,只會(huì)告訴你存在什么問(wèn)題,也就說(shuō)它并不能告訴你引擎過(guò)熱是因?yàn)槭裁矗p的風(fēng)扇皮帶?沒(méi)擰緊的螺帽?沒(méi)有答案。日本先進(jìn)工業(yè)技術(shù)研究院的坐姿研究與汽車防盜系統(tǒng)很少有人會(huì)認(rèn)為一個(gè)人的坐姿能表現(xiàn)什么信息,但是它真的可以。當(dāng)一個(gè)人坐著的時(shí)候,他的身形、姿勢(shì)和重量分布都可以量化和數(shù)據(jù)化。日本先進(jìn)工業(yè)技術(shù)研究所的教授和他的團(tuán)隊(duì)通過(guò)在汽車座椅下安裝360個(gè)壓力傳感器以測(cè)量人對(duì)椅子施加壓力的方式,把人體坐姿特征轉(zhuǎn)化成了數(shù)據(jù)。這個(gè)系統(tǒng)能根據(jù)人體對(duì)座位的壓力差異識(shí)別出乘坐者的身份,準(zhǔn)確率高達(dá)98%。這個(gè)研究并不愚蠢。這項(xiàng)技術(shù)可以作為汽車防盜系統(tǒng)安裝在汽車上。有了這個(gè)系統(tǒng)之后,汽車就能識(shí)別出駕駛者是不是車主;如果不是,系統(tǒng)就會(huì)要求司機(jī)輸入密碼;如果司機(jī)無(wú)法準(zhǔn)確輸入密碼,汽車就會(huì)自動(dòng)熄火。這一技術(shù)還可聚集事故發(fā)生前駕車者的姿勢(shì)變化數(shù)據(jù),分析坐姿與行駛平安的關(guān)系,在司機(jī)疲勞駕駛時(shí)發(fā)出警示或自動(dòng)剎車。同時(shí),這個(gè)系統(tǒng)不但可以發(fā)現(xiàn)車輛被盜,還可以通過(guò)收集到的數(shù)據(jù)識(shí)別出盜賊的身份。谷歌與甲型H1N1流感2021年出現(xiàn)的甲型H1N1流感結(jié)合了導(dǎo)致禽流感和豬流感的病毒的特點(diǎn),在短短幾周之內(nèi)迅速傳播開(kāi)來(lái)。當(dāng)時(shí)沒(méi)有研發(fā)出對(duì)抗這種新型流感病毒的疫苗。公共衛(wèi)生專家能做的只是減慢它傳播的速度。但要做到這一點(diǎn),他們必須先知道這種流感出現(xiàn)在哪里。美國(guó),和所有其他國(guó)家一樣,都要求醫(yī)生在發(fā)現(xiàn)新型流感病例時(shí)告知疾病控制與預(yù)防中心〔CDC〕。但由于人們可能患病多日實(shí)在受不了了才會(huì)去醫(yī)院,同時(shí)這個(gè)信息傳達(dá)回疾控中心也需要時(shí)間,因此,通告新流感病例時(shí)往往會(huì)有一兩周的延遲。而且,疾控中心每周只進(jìn)行一次數(shù)據(jù)匯總。然而,對(duì)于一種飛速傳播的疾病,信息滯后兩周的后果將是致命的。這種滯后導(dǎo)致公共衛(wèi)生機(jī)構(gòu)在疫情爆發(fā)的關(guān)鍵時(shí)期反而無(wú)所適從。在甲型H1N1流感爆發(fā)的幾周前,互聯(lián)網(wǎng)巨頭谷歌公司的工程師們?cè)?自然?雜志上發(fā)表了一篇引人注目的論文。它令公共衛(wèi)生官員們和計(jì)算機(jī)科學(xué)家們感到震驚。谷歌通過(guò)觀察人們?cè)诰W(wǎng)上的搜索記錄來(lái)預(yù)測(cè)冬季流感的傳播:不僅是全美范圍的傳播,而且可以具體到特定的地區(qū)和州。而這種方法以前一直是被忽略的。谷歌保存了多年來(lái)所有的搜索記錄,而且每天都會(huì)收到來(lái)自全球超過(guò)30億條的搜索指令,如此龐大的數(shù)據(jù)資源足以支撐和幫助它完成這項(xiàng)工作。發(fā)現(xiàn)能夠通過(guò)人們?cè)诰W(wǎng)上檢索的詞條區(qū)分出其是否感染了流感后,谷歌公司把5000萬(wàn)條美國(guó)人最頻繁檢索的詞條和美國(guó)疾控中心在2003年至2021年間季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行了比擬。他們?cè)O(shè)立的系統(tǒng)唯一關(guān)注的就是特定檢索詞條的頻繁使用與流感在時(shí)間和空間上的傳播之間的聯(lián)系。谷歌公司為了測(cè)試這些檢索詞條,總共處理了4.5億個(gè)不同的數(shù)字模型。在將得出的預(yù)測(cè)與2007年、2021年美國(guó)疾控中心記錄的實(shí)際流感病例進(jìn)行比照后,谷歌公司發(fā)現(xiàn),他們的軟件發(fā)現(xiàn)了45條檢索詞條的組合,一旦將它們用于一個(gè)數(shù)學(xué)模型,他們的預(yù)測(cè)與官方數(shù)據(jù)的相關(guān)性高達(dá)97%。和疾控中心一樣,他們也能判斷出流感是從哪里傳播出來(lái)的,而且他們的判斷非常及時(shí),不會(huì)像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。所以,2021年甲型H1N1流感爆發(fā)的時(shí)候,與習(xí)慣性滯后的官方數(shù)據(jù)相比,谷歌成為了一個(gè)更有效、更及時(shí)的指示標(biāo)。大數(shù)據(jù)預(yù)測(cè)早產(chǎn)兒病情安大概理工大學(xué)的卡羅琳·麥格雷戈〔CarolynMcGregor〕博士和一支研究隊(duì)伍與IBM一起和很多醫(yī)院合作,用一個(gè)軟件來(lái)監(jiān)測(cè)處理即時(shí)的病人信息,然后把它用于早產(chǎn)兒的病情診斷。系統(tǒng)會(huì)監(jiān)控16個(gè)不同地方的數(shù)據(jù),比方心率、呼吸、體溫、血壓和血氧含量,這些數(shù)據(jù)可以到達(dá)每秒鐘1260個(gè)數(shù)據(jù)點(diǎn)之多。在明顯感染病癥出現(xiàn)的24小時(shí)之前,系統(tǒng)就能監(jiān)測(cè)到早產(chǎn)兒細(xì)微的身體變化發(fā)出的感染信號(hào)。麥格雷戈博士說(shuō):“你無(wú)法用肉眼看到,但計(jì)算機(jī)可以看到。〞這個(gè)系統(tǒng)依賴的是相關(guān)關(guān)系,而不是因果關(guān)系。它告訴你的是會(huì)發(fā)生什么,而不是為什么發(fā)生。這正是這個(gè)系統(tǒng)的價(jià)值!提早知道病情,醫(yī)生就能夠提早治療,也能更早地知道某種療法是否有效,這一切都有利于病人的康復(fù)。驚人的是,麥格雷戈博士的大數(shù)據(jù)分析法能發(fā)現(xiàn)一些與醫(yī)生的傳統(tǒng)看法相違背的相關(guān)關(guān)系。比方說(shuō)她發(fā)現(xiàn),穩(wěn)定的生命體征說(shuō)明病人發(fā)生了嚴(yán)重的感染。這很奇怪,因?yàn)獒t(yī)生一般認(rèn)為惡化的疼痛才是全面感染的征兆。你可以想象,以前醫(yī)生都是下班的時(shí)候看看嬰兒床旁邊的記錄本,覺(jué)得病情穩(wěn)定了,也就下班回家了。只有半夜護(hù)士的緊急才讓他們知道大事不好了,他們的直覺(jué)犯了大錯(cuò)誤。數(shù)據(jù)說(shuō)明,早產(chǎn)兒的穩(wěn)定不但不是病情好轉(zhuǎn)的標(biāo)志,反而是暴風(fēng)雨前的寧?kù)o,就像是身體要它的器官做好抵抗困難的準(zhǔn)備。但是我們也不太確定,我們不知道具體原因,只是看到了相關(guān)關(guān)系。這需要海量的數(shù)據(jù)并且找出隱含的相關(guān)性才能發(fā)現(xiàn)。但是,大數(shù)據(jù)挽救了很多生命,這是毫無(wú)疑問(wèn)的。醫(yī)療方面比擬有意思的是醫(yī)療方面的大數(shù)據(jù),其中講得比擬多的是“量化自我〞,它是通過(guò)一種非干預(yù)的手段,把一些所謂的醫(yī)療傳感器放到我們的身邊,比方我們戴一個(gè)腕表、一枚戒指、一個(gè)耳塞、一副眼鏡等,通過(guò)這些設(shè)備我們可以了解自己的心跳、血壓情況,甚至包括我們體表的健康狀況,從而對(duì)一些大病〔如癲癇等〕進(jìn)行早期預(yù)測(cè)。同樣,如果我們給一個(gè)小孩子使用小兒床墊,通過(guò)這個(gè)床墊上的壓力與濕度傳感器分析,我們可以很早地判斷這個(gè)小孩子有沒(méi)有比擬嚴(yán)重的打鼾或者睡姿不正確等問(wèn)題。因?yàn)閲?yán)重的打鼾容易造成小孩在三、四歲的時(shí)候智力發(fā)育低于同齡人,現(xiàn)在通過(guò)這個(gè)床墊的傳感器分析就可以及早地發(fā)現(xiàn)并加以治療。針對(duì)慢性病人、老年人同樣也有一些類似的輔助工具。在健康方面,比方利用移動(dòng)終端的,加上APP軟件,外載的手表,就可以實(shí)時(shí)監(jiān)測(cè)自己的心跳、呼吸,醫(yī)生通過(guò)這些數(shù)據(jù)就可以了解你的健康狀況。大衛(wèi)介紹說(shuō)。美國(guó)Fitbit公司近期就推出了一款免費(fèi)的蘋(píng)果應(yīng)用,用戶可用于記錄食物和液體攝入量,從而跟蹤其活動(dòng)水平和營(yíng)養(yǎng)攝入情況,通過(guò)分析這些數(shù)據(jù)可以很好的控制體重。在線教育現(xiàn)在在線教育逐漸流行起來(lái),如著名的在線教育公司Coursera,已經(jīng)和普林斯頓、伯克利、賓夕法尼亞大學(xué)等30多所大學(xué)合作,在互聯(lián)網(wǎng)上免費(fèi)開(kāi)放大學(xué)課程。也就是說(shuō),如今這些學(xué)校的一些課程,可以實(shí)現(xiàn)全球幾十萬(wàn)人同步學(xué)習(xí)。分布在世界各地的學(xué)習(xí)者不僅可以在同一時(shí)間實(shí)時(shí)聽(tīng)取同一位老師的授課,還和在校生一樣,做同樣的作業(yè)、接受同樣的評(píng)分和考試。一些學(xué)校,甚至開(kāi)始投資建設(shè)自己的智能網(wǎng)絡(luò)學(xué)習(xí)平臺(tái),2021年5月,哈佛大學(xué)與麻省理工學(xué)院就宣布,將投入6000萬(wàn)美元建設(shè)一個(gè)智能學(xué)習(xí)平臺(tái),并向全世界免費(fèi)開(kāi)放。不難想象,這種智能化學(xué)習(xí)平臺(tái)將會(huì)帶來(lái)的革命性影響。學(xué)校,曾經(jīng)是最重要的教育資源,好的學(xué)校更是稀缺性的資源。由于這種智能型學(xué)習(xí)平臺(tái)的普及,在不遠(yuǎn)的將來(lái),名校將人人可上,也就是說(shuō),對(duì)中國(guó)這種教育資源還相對(duì)匱乏的國(guó)家來(lái)說(shuō),如果應(yīng)對(duì)得當(dāng),資源匱乏的問(wèn)題可以很快得到緩解。這種智能網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的崛起,在美國(guó)引起了廣泛的關(guān)注和劇烈的討論。其中的原因,是因?yàn)檫@個(gè)平臺(tái)已經(jīng)不是一個(gè)鏡頭、一段錄像那么簡(jiǎn)單,而是能提供“行為評(píng)價(jià)和誘導(dǎo)〞的智能平臺(tái)。例如,通過(guò)記錄鼠標(biāo)的點(diǎn)擊,計(jì)算機(jī)能夠記錄你在一張幻燈片上停留的時(shí)間,判別你在答錯(cuò)一道題之后有沒(méi)有回頭復(fù)習(xí),統(tǒng)計(jì)你在網(wǎng)上提問(wèn)的次數(shù)、參與討論的多少,發(fā)現(xiàn)不同的人對(duì)不同的知識(shí)點(diǎn)的不同反響,從而總結(jié)出哪些知識(shí)點(diǎn)需要重復(fù)或強(qiáng)調(diào),哪種陳述方式或?qū)W習(xí)工具最有效等等規(guī)律。再根據(jù)這些規(guī)律和分析,對(duì)學(xué)習(xí)者的學(xué)習(xí)行為進(jìn)行自動(dòng)的提示、誘導(dǎo)和評(píng)價(jià),以彌補(bǔ)沒(méi)有老師面對(duì)面交流指導(dǎo)的缺乏。Udacity、Coursera和EDX等在線教育課程通過(guò)跟蹤學(xué)生的Web交互來(lái)尋找最正確的教學(xué)方法。班級(jí)人數(shù)成千上萬(wàn),產(chǎn)生的數(shù)據(jù)也十分驚人。教授們現(xiàn)在可以看到,如果大局部學(xué)生需要再看一遍課程內(nèi)容,就可能說(shuō)明某些地方他們還不太清楚。在斯坦福大學(xué)教授安德魯?恩格〔AndrewNg〕講授的Coursera機(jī)器學(xué)習(xí)課堂上,他注意到約有2000名學(xué)生課外作業(yè)的答案是錯(cuò)誤的,但錯(cuò)誤答案居然是相同的。顯然,他們都犯了相同的錯(cuò)誤,那么是什么呢?隨著一點(diǎn)點(diǎn)的調(diào)查,他終于弄清楚了,他們把一個(gè)算法里的兩個(gè)代數(shù)方程弄反了。所以如果現(xiàn)在還有其他學(xué)生犯同樣錯(cuò)誤的話,系統(tǒng)不會(huì)簡(jiǎn)單地告訴他們做錯(cuò)了,而是會(huì)提示他們?nèi)z查算法。這個(gè)系統(tǒng)也應(yīng)用了大數(shù)據(jù),通過(guò)分析學(xué)生看過(guò)的每個(gè)論壇帖子以及他們是否正確完成課外作業(yè),來(lái)預(yù)測(cè)看過(guò)某個(gè)帖子之后的學(xué)生正確作答的概率,并由此來(lái)確定哪些論壇帖子最適合學(xué)生閱讀。這些都是過(guò)去很難得知的,現(xiàn)在卻永遠(yuǎn)地改變了教學(xué)方式。在線教育效勞Knewton是大數(shù)據(jù)應(yīng)用于教育行業(yè)的典型,通過(guò)數(shù)據(jù)分析區(qū)分出每個(gè)學(xué)生的優(yōu)缺點(diǎn),從而給學(xué)生有效的指導(dǎo)。大衛(wèi)告訴記者,美國(guó)最大的公立大學(xué)亞利桑那州公立大學(xué)曾運(yùn)用這一系統(tǒng)來(lái)提高學(xué)生的數(shù)學(xué)水平,全校2000名學(xué)生使用該系統(tǒng)兩學(xué)期之后,該大學(xué)的輟學(xué)率下降了56%,畢業(yè)率從64%升高到75%。購(gòu)置飛機(jī)票大數(shù)據(jù)不僅改變了公共衛(wèi)生領(lǐng)域,整個(gè)商業(yè)領(lǐng)域都因?yàn)榇髷?shù)據(jù)而重新洗牌。購(gòu)置飛機(jī)票就是一個(gè)很好的例子。2003年,奧倫-埃齊奧尼〔OrenEtzioni〕準(zhǔn)備乘飛機(jī)去參加弟弟的婚禮。他知道飛機(jī)票越早預(yù)訂越廉價(jià),于是他提前幾個(gè)月,就在網(wǎng)上預(yù)訂了機(jī)票。在飛機(jī)上,埃齊奧尼得知?jiǎng)e的很多乘客買(mǎi)的機(jī)票都比他的廉價(jià)。對(duì)大多數(shù)人來(lái)說(shuō),這種被敲竹杠的感覺(jué)也許會(huì)隨著他們走下飛機(jī)而消失。然而,奧倫是有名的計(jì)算機(jī)專家,飛機(jī)著陸之后,奧倫下定決心要幫助人們開(kāi)發(fā)一個(gè)系統(tǒng),用來(lái)推測(cè)當(dāng)前網(wǎng)頁(yè)上的機(jī)票價(jià)格是否合理。埃齊奧尼表示,他不需要去解開(kāi)機(jī)票價(jià)格差異的奧秘。他要做的僅僅是預(yù)測(cè)當(dāng)前的機(jī)票價(jià)格在未來(lái)一段時(shí)間內(nèi)會(huì)上漲還是下降。這個(gè)想法是可行的,但操作起來(lái)并不是那么簡(jiǎn)單。這個(gè)系統(tǒng)需要分析所有特定航線機(jī)票的銷售價(jià)格并確定票價(jià)與提前購(gòu)置天數(shù)的關(guān)系。如果一張機(jī)票的平均價(jià)格呈下降趨勢(shì),系統(tǒng)就會(huì)幫助用戶做出稍后再購(gòu)票的明智選擇。反過(guò)來(lái),如果一張機(jī)票的平均價(jià)格呈上漲趨勢(shì),系統(tǒng)就會(huì)提醒用戶立刻購(gòu)置該機(jī)票。換言之,這是埃齊奧尼針對(duì)9000米高空開(kāi)發(fā)的一個(gè)加強(qiáng)版的信息預(yù)測(cè)系統(tǒng)。這確實(shí)是一個(gè)浩大的計(jì)算機(jī)科學(xué)工程。不過(guò),這個(gè)工程是可行的。于是,埃齊奧尼開(kāi)始著手啟動(dòng)這個(gè)工程。埃齊奧尼創(chuàng)立了一個(gè)預(yù)測(cè)系統(tǒng),它幫助虛擬的乘客節(jié)省了很多錢(qián)。這個(gè)預(yù)測(cè)系統(tǒng)建立在41天內(nèi)價(jià)格波動(dòng)產(chǎn)生的12000個(gè)價(jià)格樣本根底之上,而這些信息都是從一個(gè)旅游網(wǎng)站上搜集來(lái)的。這個(gè)預(yù)測(cè)系統(tǒng)并不能說(shuō)明原因,只能推測(cè)會(huì)發(fā)生什么。也就是說(shuō),它不知道是哪些因素導(dǎo)致了機(jī)票價(jià)格的波動(dòng)。機(jī)票降價(jià)是因?yàn)楹芏鄾](méi)賣掉的座位、季節(jié)性原因,還是所謂的周六晚上不出門(mén),它都不知道。這個(gè)系統(tǒng)只知道利用其他航班的數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)機(jī)票價(jià)格的走勢(shì)?!百I(mǎi)還是不買(mǎi),這是一個(gè)問(wèn)題。〞埃齊奧尼沉思著。他給這個(gè)研究工程取了一個(gè)非常貼切的名字,叫“哈姆雷特〞。這項(xiàng)技術(shù)還能應(yīng)用到其他領(lǐng)域,比方賓館預(yù)訂、二手車購(gòu)置等。只要這些領(lǐng)域內(nèi)的產(chǎn)品差異不大,同時(shí)存在大幅度的價(jià)格差和大量可運(yùn)用的數(shù)據(jù),就都可以應(yīng)用這項(xiàng)技術(shù)。航班延誤之候機(jī)經(jīng)濟(jì)學(xué)近年來(lái),因航班延誤產(chǎn)生的機(jī)場(chǎng)糾紛一度在中國(guó)成為一個(gè)熱點(diǎn)話題。美國(guó)航班也有延誤,但卻幾乎沒(méi)有“罷乘〞、“霸機(jī)〞、沖擊機(jī)場(chǎng)的事件。美國(guó)建立了一個(gè)統(tǒng)一的數(shù)據(jù)開(kāi)放門(mén)戶網(wǎng)站——Data.Gov。Data.Gov上線以后,美國(guó)交通部開(kāi)放了全美航班起飛、到達(dá)、延誤的數(shù)據(jù),有程序員利用這些數(shù)據(jù)開(kāi)發(fā)了一個(gè)航班延誤時(shí)間的分析系統(tǒng)〔Flyontime.us〕。以波士頓至紐約的航線為例〔起飛:Boston,LoganInternational;到達(dá):NewYork,KennedyInternational〕,在系統(tǒng)的主頁(yè)上,輸入機(jī)場(chǎng)名稱,點(diǎn)擊之后,用戶可以看到不同天氣、不同日期、不同時(shí)段、不同航空公司、不同航班等各種條件下飛機(jī)是否準(zhǔn)時(shí)以及平均延誤時(shí)間的數(shù)據(jù)明細(xì)。該系統(tǒng)向全社會(huì)免費(fèi)開(kāi)放,任何人都可以通過(guò)它查詢分析全國(guó)各次航班的延誤率及機(jī)場(chǎng)等候時(shí)間。這個(gè)系統(tǒng)可以幫助消費(fèi)者找到表現(xiàn)最正確,最符合自己需要的航班。這個(gè)系統(tǒng)上線之后,由于其簡(jiǎn)單、實(shí)用,獲得了全美多個(gè)新聞報(bào)刊的報(bào)道和關(guān)注,成為很多人乘機(jī)、候機(jī)的行動(dòng)指南。The-Numbers與電影票房預(yù)測(cè)比方說(shuō),The-Numbers在好萊塢電影上映之前,就能利用海量數(shù)據(jù)和特定算法預(yù)測(cè)出一部電影的票房,而這些信息就可以為電影制片人所用。該公司擁有一個(gè)包括了過(guò)去幾十年美國(guó)所有商業(yè)電影大約3000萬(wàn)條記錄的數(shù)據(jù)庫(kù);數(shù)據(jù)庫(kù)里有所有關(guān)于預(yù)算、電影流派、拍攝、陣容、獲得獎(jiǎng)項(xiàng)和收入等數(shù)據(jù)。電影的收入是指在北美和全球的票房、海外版權(quán)銷售收入、影碟銷售收入以及租金等。公司創(chuàng)始人兼總裁布魯斯·納什〔BruceNash〕說(shuō),我們公司開(kāi)發(fā)了一個(gè)網(wǎng)絡(luò)系統(tǒng),其中有100萬(wàn)條類似“A編劇曾與B導(dǎo)演合作過(guò),C導(dǎo)演曾與D演員合作過(guò)〞這樣的聯(lián)系信息。該公司通過(guò)找出這樣復(fù)雜的相關(guān)關(guān)系來(lái)預(yù)測(cè)電影的收入。借助于這個(gè)預(yù)測(cè),電影制片人可以向工作室或投資人募資。The-Numbers甚至可以告訴客戶改變哪些選擇可以增收或者降低風(fēng)險(xiǎn)。一次,它的分析發(fā)現(xiàn)有一部電影要是啟用獲得過(guò)奧斯卡提名的、身價(jià)在500萬(wàn)美元左右的某位一線演員做男一號(hào)的話,更有可能票房大賣。還有一次,納什告訴IMAX工作室,一部航海紀(jì)錄片需要把預(yù)算從1200萬(wàn)美元減少至800萬(wàn)才能贏利。納什開(kāi)玩笑地說(shuō):“這可樂(lè)壞了制片人,但是導(dǎo)演就不快樂(lè)了。〞從是否出品一部電影到簽下哪個(gè)三壘手,公司的決策過(guò)程已經(jīng)有了本質(zhì)且明顯的改變。麻省理工學(xué)院商學(xué)院教授埃里克·布倫喬爾森〔ErikBrynjolfsson〕和他的同事一起進(jìn)行了一項(xiàng)研究,發(fā)現(xiàn)決策依賴數(shù)據(jù)的公司的運(yùn)營(yíng)情況比不重視數(shù)據(jù)的公司出色很多——這些公司的生產(chǎn)率比不使用數(shù)據(jù)進(jìn)行決策的公司高6%。這是一個(gè)重要的競(jìng)爭(zhēng)力,雖然隨著大數(shù)據(jù)手段被越來(lái)越多的公司采用,這種競(jìng)爭(zhēng)力會(huì)慢慢削弱。FICO,“我們知道你明天會(huì)做什么〞一個(gè)人的信用常被用來(lái)預(yù)測(cè)他/她的個(gè)人行為。美國(guó)個(gè)人消費(fèi)信用評(píng)估公司,也被稱為FICO,在20世紀(jì)50年代創(chuàng)造了信用分。2022年,F(xiàn)ICO提出了“遵從醫(yī)囑評(píng)分〞——它分析一系列的變量來(lái)確定這個(gè)人是否會(huì)按時(shí)吃藥,包括一些看起來(lái)有點(diǎn)怪異的變量。比方說(shuō),一個(gè)人在某地居住了多久,這個(gè)人結(jié)婚了沒(méi)有,他多久換一個(gè)工作以及他是否有私家車。這個(gè)評(píng)分會(huì)幫助醫(yī)療機(jī)構(gòu)節(jié)省開(kāi)支,因?yàn)樗鼈儠?huì)知道哪些人需要得到它們的用藥提醒。有私家車和使用抗生素并沒(méi)有因果關(guān)系,這只是一種相關(guān)關(guān)系。但是這就足夠激發(fā)FICO的首席執(zhí)行官揚(yáng)言,“我們知道你明天會(huì)做什么。〞這是他在2022年的投資人大會(huì)上說(shuō)的。另一個(gè)征信機(jī)構(gòu),益百利〔Experian〕有一種效勞,可以根據(jù)個(gè)人的信用卡交易記錄預(yù)測(cè)個(gè)人的收入情況。通過(guò)分析公司擁有的信用卡歷史記錄數(shù)據(jù)庫(kù)和美國(guó)國(guó)稅局的匿名稅收數(shù)據(jù),益百利能夠得出評(píng)分結(jié)果。相關(guān)關(guān)系的運(yùn)用更加廣泛了。中英人壽保險(xiǎn)〔Aviva〕是一家大型保險(xiǎn)公司,他們想利用信用報(bào)告和顧客市場(chǎng)分析數(shù)據(jù)來(lái)作為局部申請(qǐng)人的血液和尿液分析的關(guān)聯(lián)物。這些分析結(jié)果被用來(lái)找出更有可能患高血壓、糖尿病和抑郁癥的人。其中用來(lái)分析的數(shù)據(jù)包括好幾百種生活方式的數(shù)據(jù),比方愛(ài)好、常瀏覽的網(wǎng)站、??吹墓?jié)目、收入估計(jì)等。通過(guò)利用相關(guān)關(guān)系,保險(xiǎn)公司可以在每人身上節(jié)省125美元,然而這個(gè)純數(shù)據(jù)分析法只需要花費(fèi)5美元。有些人可能會(huì)覺(jué)得這種方法聽(tīng)起來(lái)很恐怖,這些公司似乎可以利用任何網(wǎng)絡(luò)上的信息。這會(huì)讓人們下次登陸極限運(yùn)動(dòng)網(wǎng)站和坐到電視機(jī)前觀看幽默情景劇前三思而后行,因?yàn)椴幌胍虼酥Ц陡嗟谋kU(xiǎn)費(fèi)用。讓我們?cè)诮佑|任何信息的時(shí)候〔同時(shí)也產(chǎn)生可能被分析的數(shù)據(jù)〕都膽戰(zhàn)心驚是一件非常糟糕的事情。但另一方面,這個(gè)系統(tǒng)有助于更多的人得到保險(xiǎn),這對(duì)于社會(huì)和保險(xiǎn)公司都是有好處的。VISA&MasterCard與商戶推薦相對(duì)地,像VISA和MasterCard這樣的信用卡發(fā)行商和其他大銀行就站在了信息價(jià)值鏈最好的位置上。通過(guò)為小銀行和商家提供效勞,它們能夠從自己的效勞網(wǎng)獲取更多的交易信息和顧客的消費(fèi)信息。它們的商業(yè)模式從單純的處理支付行為轉(zhuǎn)變成了收集數(shù)據(jù)。接下來(lái)的問(wèn)題就是,如何使用收集到的數(shù)據(jù)。就像ITA一樣,MasterCard也可以把這些數(shù)據(jù)授權(quán)給第三方使用,但是它更傾向于自己分析、挖掘數(shù)據(jù)的價(jià)值。一個(gè)稱為MasterCardAdvisors的部門(mén)收集和分析了來(lái)自210個(gè)國(guó)家的15億信用卡用戶的650億條交易記錄,用來(lái)預(yù)測(cè)商業(yè)開(kāi)展和客戶的消費(fèi)趨勢(shì)。然后,它把這些分析結(jié)果賣給其他公司。它發(fā)現(xiàn),如果一個(gè)人在下午四點(diǎn)左右給汽車加油的話,他很可能在接下來(lái)的一個(gè)小時(shí)內(nèi)要去購(gòu)物或者去餐館吃飯,而這一個(gè)小時(shí)的花費(fèi)大概在35~50美元之間。商家可能正需要這樣的信息,因?yàn)檫@樣它們就能在這個(gè)時(shí)間段的加油小票反面附上加油站附近商店的優(yōu)惠券。處于這個(gè)數(shù)據(jù)鏈的中心,MasterCard占據(jù)了收集數(shù)據(jù)和挖掘數(shù)據(jù)價(jià)值的黃金位置。我們可以想象,未來(lái)的信用卡公司不會(huì)再對(duì)交易收取傭金,而是免費(fèi)提供支付效勞。作為回報(bào),它們會(huì)獲得更多的數(shù)據(jù),而對(duì)這些數(shù)據(jù)進(jìn)行復(fù)雜的分析之后,它們又可以賣掉分析結(jié)果以取得利潤(rùn)。Xoom與跨境匯款異常交易報(bào)警Xoom是一個(gè)專門(mén)從事跨境匯款業(yè)務(wù)的公司,它得到了很多擁有大數(shù)據(jù)的大公司的支持。它會(huì)分析一筆交易的所有相關(guān)數(shù)據(jù),一旦發(fā)現(xiàn)用“發(fā)現(xiàn)卡〞從新澤西州匯款的交易比平常多的話,系統(tǒng)就會(huì)報(bào)警。Xoom公司的首席執(zhí)行官約翰-孔澤〔JohnKunze〕解釋說(shuō):“這個(gè)系統(tǒng)關(guān)注的是不應(yīng)該出現(xiàn)的情況。〞單獨(dú)來(lái)看,每筆交易都是合法的,但是事實(shí)證明這是一個(gè)犯罪集團(tuán)在試圖詐騙。而發(fā)現(xiàn)異常的唯一方法就是,重新檢查所有的數(shù)據(jù),找出樣本分析法錯(cuò)過(guò)的信息。無(wú)所不包的谷歌翻譯系統(tǒng)2006年,谷歌公司也開(kāi)始涉足機(jī)器翻譯。這被當(dāng)作實(shí)現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源〞這個(gè)目標(biāo)的一個(gè)步驟。谷歌翻譯開(kāi)始利用一個(gè)更大更繁雜的數(shù)據(jù)庫(kù),也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語(yǔ)言之間的文本翻譯。谷歌翻譯系統(tǒng)為了訓(xùn)練計(jì)算機(jī),會(huì)吸收它能找到的所有翻譯。它會(huì)從各種各樣語(yǔ)言的公司網(wǎng)站上去尋找聯(lián)合國(guó)和歐洲委員會(huì)這些國(guó)際組織發(fā)布的官方文件和報(bào)告的譯本。它甚至?xí)账僮x工程中的書(shū)籍翻譯。谷歌翻譯部的負(fù)責(zé)人弗朗茲-奧齊〔FranzOch〕是機(jī)器翻譯界的權(quán)威,他指出,“谷歌的翻譯系統(tǒng)不會(huì)像Candide一樣只是仔細(xì)地翻譯300萬(wàn)句話,它會(huì)掌握用不同語(yǔ)言翻譯的質(zhì)量參差不齊的數(shù)十億頁(yè)的文檔。〞不考慮翻譯質(zhì)量的話,上萬(wàn)億的語(yǔ)料庫(kù)就相當(dāng)于950億句英語(yǔ)。盡管其輸入源很混亂,但較其他翻譯系統(tǒng)而言,谷歌的翻譯質(zhì)量相對(duì)而言還是最好的,而且可翻譯的內(nèi)容更多。到2022年年中,谷歌數(shù)據(jù)庫(kù)涵蓋了60多種語(yǔ)言,甚至能夠接受14種語(yǔ)言的語(yǔ)音輸入,并有很流利的對(duì)等翻譯。之所以能做到這些,是因?yàn)樗鼘⒄Z(yǔ)言視為能夠判別可能性的數(shù)據(jù),而不是語(yǔ)言本身。如果要將印度語(yǔ)譯成加泰羅尼亞語(yǔ),谷歌就會(huì)把英語(yǔ)作為中介語(yǔ)言。因?yàn)樵诜g的時(shí)候它能適當(dāng)增減詞匯,所以谷歌的翻譯比其他系統(tǒng)的翻譯靈活很多。谷歌的翻譯之所以更好并不是因?yàn)樗鼡碛幸粋€(gè)更好的算法機(jī)制。和微軟的班科和布里爾一樣,這是因?yàn)楣雀璺g增加了很多各種各樣的數(shù)據(jù)。從谷歌的例子來(lái)看,它之所以能比IBM的Candide系統(tǒng)多利用成千上萬(wàn)的數(shù)據(jù),是因?yàn)樗邮芰擞绣e(cuò)誤的數(shù)據(jù)。2006年,谷歌發(fā)布的上萬(wàn)億的語(yǔ)料庫(kù),就是來(lái)自于互聯(lián)網(wǎng)的一些廢棄內(nèi)容。這就是“訓(xùn)練集〞,可以正確地推算出英語(yǔ)詞匯搭配在一起的可能性?!皬哪撤N意義上,谷歌的語(yǔ)料庫(kù)是有很多缺乏的。因?yàn)楣雀枵Z(yǔ)料庫(kù)的內(nèi)容來(lái)自于未經(jīng)過(guò)濾的網(wǎng)頁(yè)內(nèi)容,所以會(huì)包含一些不完整的句子、拼寫(xiě)錯(cuò)誤、語(yǔ)法錯(cuò)誤以及其他各種錯(cuò)誤。況且,它也沒(méi)有詳細(xì)的人工糾錯(cuò)后的注解。但是,谷歌語(yǔ)料庫(kù)是其他語(yǔ)料庫(kù)的好幾百萬(wàn)倍大,這樣的優(yōu)勢(shì)完全壓倒了缺點(diǎn)。〞微軟與谷歌的拼寫(xiě)檢查在過(guò)去的20多年中,微軟為其Word軟件開(kāi)發(fā)出了一個(gè)強(qiáng)大的拼寫(xiě)檢查程序,通過(guò)與頻繁更新的字典正確拼寫(xiě)相比擬來(lái)對(duì)用戶鍵入的字符流進(jìn)行判斷。字典囊括了所有詞匯,系統(tǒng)將拼寫(xiě)相似但字典中沒(méi)有的詞匯判斷為拼寫(xiě)錯(cuò)誤,并對(duì)其進(jìn)行糾正。由于需要不斷編譯和更新字典,微軟Word的拼寫(xiě)檢查僅適用于最常用的語(yǔ)言,且每年需要花費(fèi)數(shù)百萬(wàn)美元的創(chuàng)立和維護(hù)費(fèi)用?,F(xiàn)在再來(lái)看看谷歌是怎么做的吧。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)業(yè)調(diào)研合同范本
- 單位安裝鍋爐合同范例
- 廠車出租合同范本
- 《誠(chéng)信是金》說(shuō)課稿
- 農(nóng)藥肥料賒銷合同范本
- 《禮儀》幼兒園中班教案
- 醫(yī)院合作注射合同范本
- 合伙出資貿(mào)易合同范本
- 農(nóng)村扭轉(zhuǎn)土地合同范本
- 專升本培訓(xùn)協(xié)議合同范例
- 《多樣的中國(guó)民間美術(shù)》課件 2024-2025學(xué)年人美版(2024)初中美術(shù)七年級(jí)下冊(cè)
- 家政講師培訓(xùn)課件
- 2025年中國(guó)春節(jié)檔市場(chǎng)報(bào)告-拓普數(shù)據(jù)-
- 2025年山西省太原市衛(wèi)健委直屬單位招聘522人歷年高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 勞務(wù)合同協(xié)議書(shū)書(shū)
- 白城2025年吉林大安市事業(yè)單位面向上半年應(yīng)征入伍高校畢業(yè)生招聘5人筆試歷年參考題庫(kù)附帶答案詳解
- 全球人工智能產(chǎn)業(yè)發(fā)展現(xiàn)狀和趨勢(shì)
- 2025年內(nèi)蒙古化工職業(yè)學(xué)院高職單招職業(yè)技能測(cè)試近5年常考版參考題庫(kù)含答案解析
- 民法典解讀之婚姻家庭編
- 2025年菏澤醫(yī)學(xué)專科學(xué)校高職單招數(shù)學(xué)歷年(2016-2024)頻考點(diǎn)試題含答案解析
- GB/T 44679-2024叉車禁用與報(bào)廢技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論