版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
來自大數(shù)據(jù)的反思
需要讀懂的10個小故事
2015-07-2909:46:08來源:CIO時代網(wǎng)
中國大數(shù)據(jù)2011年以來,大數(shù)據(jù)旋風以“迅雷不及掩耳之勢”席卷中國大數(shù)據(jù)已然成為繼云計算、物聯(lián)網(wǎng)之后新一輪的技術(shù)變革熱潮。谷歌趨勢(GoogleTrends)顯示的有關大數(shù)據(jù)熱度的趨勢大數(shù)據(jù)分析:面向過去,發(fā)現(xiàn)潛藏在數(shù)據(jù)表面之下的歷史規(guī)律或模式數(shù)據(jù)是與物質(zhì)、能源一樣重要的戰(zhàn)略資源。中國工程院李國杰院士更是把大數(shù)據(jù)提升到戰(zhàn)略的高度單身狗傷不起,相親還要看大數(shù)據(jù)
2015-09-1712:21:09來源:新周刊
本文刊發(fā)于《新周刊》第450期(2015.9.1)
2013年4月28日,武漢大學舉行博士相親會200多名男女研究生參加了活動。全國《第六次人口普查數(shù)據(jù)》顯示,70后男性有1195.9萬人處于非婚狀態(tài),同年齡段非婚女性也有582萬人,男女性別比例高達206:100。嚴峻的“脫光”形勢,刺激著各家父母催婚的號角。又一次敗退于相親飯局,又一次將對方拉黑或被對方拉黑,深感效率低下之際,你會不會想要一份指南,按圖索驥?還真有。零點指標數(shù)據(jù)、世紀佳緣、百合網(wǎng)等,先后推出相關婚戀調(diào)查報告,地域成為其中重要參考指標。全國相親指南圖四川妹子最受歡迎;廣東男光棍數(shù)量最多,卻也是全國男性脫單率第一名,第二、三名是上海、北京;黑龍江男性在擇偶時更聽父母的話;吉林女性擇偶時更聽父母的話;全國相親指南圖重慶青年在戀愛對象選擇上最有主見;寧夏“妻管嚴”的男人最多;河南“怕老公”的女人最多;陜西女婿受到丈母娘疼愛的指數(shù)最高;四川、遼寧、貴州女婿受丈母娘疼愛指數(shù)最低;安徽婆媳關系最和諧;貴州、福建、云南的婆媳關系最不和諧。零點指標數(shù)據(jù)顯示,54.5%的男性和57.7%的女性在選擇伴侶時都傾向于本省份的老鄉(xiāng)。兔子也吃窩邊草:一樣的方言、共同的風俗、相似的生活環(huán)境與童年回憶,都增進了交流效率。地域上,四川妹子成為男同胞最想娶的外省姑娘。不僅多才,天府之國更多美女。氣候溫潤,紫外線不強,嗜辣的生活習慣利于新陳代謝,妹子皮膚白皙可人,一白遮三丑。地域上,四川妹子成為男同胞最想娶的外省姑娘。享受生活的慢節(jié)奏能讓姑娘們有更多時間充實和打扮自己。人俏嘴巧,還做得一手好川菜,川妹子當然是“出得廳堂下得廚房”的首選。女性相親市場最受歡迎前三甲:北京爺們、溫柔上海男人和務實廣東男。女性最想嫁的,北京、上海和廣東喜奪前三甲。北京男人喜歡自稱“爺們”。熱情、幽默、好面子、講義氣是他們的特征。脫光成功率全國排行榜上,北京爺們喜奪亞軍。許多女人認為,北京男人能侃,一起生活不會無聊能說會道也是一門本事。女性相親市場最受歡迎前三甲:北京爺們、溫柔上海男人和務實廣東男。勝出北京爺們的是溫柔上海男人。上海男人的好形象仍深入人心——文質(zhì)彬彬、尊重女性、體貼周到、承擔家務、價值觀是家庭第一,女人們都愿意被他們捧在手心里。女性相親市場最受歡迎前三甲:北京爺們、溫柔上海男人和務實廣東男。龍應臺曾經(jīng)贊美:“上海男人竟然如此可愛:他可以買菜燒飯拖地而不覺得自己低下,他可以洗女人的衣服而不覺得自己卑賤,他可以輕聲細語地和女人說話而不覺得自己少了男子氣概,女性相親市場最受歡迎前三甲:北京爺們、溫柔上海男人和務實廣東男。他可以讓女人逞強而不覺得自己懦弱,他可以欣賞妻子成功而不覺得自己就是失敗。上海的男人不需要像黑猩猩一樣砰砰捶打自己的胸膛、展露自己的毛發(fā)來證明自己男性的價值?!迸韵嘤H市場最受歡迎前三甲:北京爺們、溫柔上海男人和務實廣東男。令人意外的是,脫單率冠軍是廣東地區(qū)——這同時也是男光棍數(shù)量最多的省份。廣東男性頭腦靈活、富于冒險,不談空頭理論,人人忙著賺錢,具備一定的經(jīng)濟實力,而這正是維持戀愛婚姻的必要因素之一。女性相親市場最受歡迎前三甲:北京爺們、溫柔上海男人和務實廣東男。另外,作為南方男人,廣東男人同樣有上海男人的溫和細膩,做事不溫不火,給別人留有余地,深得女性贊賞。女性相親市場最受歡迎前三甲:北京爺們、溫柔上海男人和務實廣東男。經(jīng)濟發(fā)展是硬道理,在相親版圖上,地理位置偏遠、經(jīng)濟欠發(fā)達的新疆、西藏、貴州、廣西等省份,被選為理想伴侶的比例就低得多了。中國講究“父母之命,媒妁之言”,即便今天,父母們?nèi)詴o子女提出諸多擇偶條件和考察標準。85.4%的單身人士認為自己對另一半的要求符合父母期待,其中,經(jīng)濟條件是共同考慮的重要因素。近三成單身人士表示因父母的干涉而感情失敗。聽媽媽的話,東北父母影響相親市場東北地區(qū)相親市場受父母因素影響最大。當父母與子女對婚姻產(chǎn)生意見分歧時,39%的吉林女性和18%的黑龍江男性都會選擇聽從父母的建議。而南方的重慶青年在戀愛對象選擇上最有主見。從戀愛步入婚姻,每個家庭在柴米油鹽的瑣事碰撞中建立了自己的相處模式。全國超六成夫妻推崇平等互待,16.7%的家庭是“妻管嚴”模式,剩下6.6%的家庭則以丈夫為中心。“妻管嚴”寧夏最多,
河南女人普遍“怕老公”在全國“怕老婆”排行榜上,寧夏老公以29.6%的比例勇奪榜首,浙江以29%緊隨其后。上海老公反而屈居第七。俗話說“怕老婆會發(fā)達”?!捌薰車馈睂幭淖疃?,
河南女人普遍“怕老公”不過,長時間的“怕”會讓丈夫感到身心疲憊,建議在婚姻之初就建立平等的相處模式,互敬互愛才是長遠之計?!捌薰車馈睂幭淖疃啵?/p>
河南女人普遍“怕老公”老公地位最高的是河南家庭。19.1%河南女性承認自己“怕老公”,也是31省中唯一一個“怕老公”比例高于“怕老婆”比例的省份。故事01:
大數(shù)據(jù)預測得準嗎?
從前,有一頭不在風口長大的豬。自打出生以來,就在豬圈這個世外桃源里美滿地生活著每天都有人時不時地扔進來一些好吃的東西,小豬覺得日子愜意極了!高興任性時,可在豬圈泥堆里打滾耍潑。憂傷時,可趴在豬圈的護欄上,看夕陽西下,春去秋來,歲月不爭?!柏i”生如此,夫復何求?根據(jù)過往數(shù)百天的大數(shù)據(jù)分析,小豬預測,未來的日子會一直這樣“波瀾不驚”地過下去,直到它從小豬長成肥豬……在春節(jié)前的一個下午,一次血腥的殺戮改變了豬的信念:尼瑪大數(shù)據(jù)都是騙人的啊……慘叫嘎然而止。從前,有一頭不在風口長大的豬。自打出生以來,就在豬圈這個世外桃源里美滿地生活著每天都有人時不時地扔進來一些好吃的東西,小豬覺得日子愜意極了!高興任性時,可在豬圈泥堆里打滾耍潑。憂傷時,可趴在豬圈的護欄上,看夕陽西下,春去秋來,歲月不爭?!柏i”生如此,夫復何求?針對大數(shù)據(jù)分析,無非有兩個方面的作用:(1)面向過去,發(fā)現(xiàn)潛藏在數(shù)據(jù)表面之下的歷史規(guī)律或模式,稱之為描述性分析(DescriptiveAnalysis);(2)面向未來,對未來趨勢進行預測,稱之為預測性分析(PredictiveAnalysis)。把大數(shù)據(jù)分析的范圍從“已知”拓展到“未知”,從“過去”走向“將來”,這是大數(shù)據(jù)真正的生命力和“靈魂”所在。那頭“悲催”的豬,之所以發(fā)出“大數(shù)據(jù)都是騙人的啊”吶喊,是因為它的得出了一個錯誤的“歷史規(guī)律”:根據(jù)以往的數(shù)據(jù)預測未來,它每天都會過著“飯來張口”的豬一般的生活。但是沒想到,會發(fā)生“黑天鵝事件”——春節(jié)的殺豬事件。黑天鵝事件(BlackSwanEvent)通常是指,難以預測的但影響甚大的事件,一旦發(fā)生,便會引起整個局面連鎖負面反應甚至顛覆。舍恩伯格教授在《大數(shù)據(jù)時代》的一個核心觀點就是大數(shù)據(jù)即全數(shù)據(jù)(即n=All,這里n為數(shù)據(jù)的大?。?,其旨在收集和分析與某事物相關的“全部”數(shù)據(jù),而非僅分析“部分”數(shù)據(jù)。那頭小豬,僅僅著眼于分析它“從小到肥”成長數(shù)據(jù)——局部小數(shù)據(jù),而忽略了“從肥到?jīng)]”的歷史數(shù)據(jù)。數(shù)據(jù)不全,結(jié)論自然會偏,預測就會不準。數(shù)據(jù)不全,不僅坑爹,還坑命?。栴}來了,大數(shù)據(jù)等于全數(shù)據(jù)(即n=All),能輕易做到嗎?故事02:
“n=All”只是一個幻覺
波士頓手機應用——“顛簸的街道”利用內(nèi)置的加速度傳感器,檢查出街道上的坑洼之處在路面平穩(wěn)的地方,傳感器加速度值小,而在坑坑洼洼的地方,傳感器加速度值就大。熱心的波士頓市民們,下載并使用后,開著車、帶著手機,他們就是一名義務的、兼職的市政工人,這樣就可以輕易做到“全民皆市政”。市政廳全職的工作人員就無需親自巡查道路,而是打開電腦,就能一目了然的看到哪些道路損壞嚴重,哪里需要維修。波士頓市政府也因此驕傲地宣布,“大數(shù)據(jù),為這座城市提供了實時的信息,它幫助我們解決問題,并提供了長期的投資計劃”。著名期刊《連線》:這是眾包(Crowdsourcing)改善政府功能的典范之作。眾包(Crowdsourcing)是《連線》雜志記者JeffHowe于2006年發(fā)明的一個專業(yè)術(shù)語,用來描述一種新的商業(yè)模式。它以自由自愿的形式外包給非特定的大眾網(wǎng)絡的做法。眾包利用眾多志愿員工的創(chuàng)意和能力——這些志愿員工具備完成任務的技能,愿意利用業(yè)余時間工作,滿足于對其服務收取小額報酬,或者暫時并無報酬,僅僅滿足于未來獲得更多報酬的前景。然而,從一開始,“顛簸的街道”的產(chǎn)品設計就是有偏的(bias),因為使用這款App的對象,“不經(jīng)意間”要滿足3個條件:(1)年齡結(jié)構(gòu)趨近年輕,因為中老年人愛玩智能手機的相對較少;(2)使用App的人,還得有一部車。雖然有輛車在美國不算事,但畢竟不是每個人都有;(3)有錢,還得有閑。前面兩個條件這還不夠,使用者還得有“閑心”,想著開車時打開“這個App。很多年輕人安裝的應用程序數(shù)量可能兩位數(shù)以上,除了較為常用的社交軟件如Facebook或Twitter記得外,還有什么公益軟件“重要地”一開車就記得打開?“顛簸的街道”的理念在于,它可以提供“n=All(所有)”個坑洼地點信息,但這里的“n=All(所有)”也僅僅是滿足上述3個條件的用戶記錄數(shù)據(jù),而非“所有坑洼點”的數(shù)據(jù)上述3個條件,每個條件其實都過濾了一批樣本,“n=All”注定是不成立的。在一些貧民窟,可能因為使用手機的、開車的、有閑心的App用戶偏少,即使有些路面有較多坑洼點,也未必能檢測出來。用“n=All”來定義大數(shù)據(jù)集合如果真能這樣,那么就無需采樣了,也不再有采樣偏差的問題,因為采樣已經(jīng)包含了所有數(shù)據(jù)。不要簡單地假定自己掌握了所有有關的數(shù)據(jù):“N=All(所有)”常常僅僅是對數(shù)據(jù)的一種假設,而不是現(xiàn)實?,F(xiàn)實數(shù)據(jù)是含有系統(tǒng)偏差的,通常需要人們仔細考量,才有可能找到并糾正這些系統(tǒng)偏差。大數(shù)據(jù),看起來包羅萬象,但“n=All”往往不過是一個頗有誘惑力的假象而已?!皀=All”夢想很豐滿,但現(xiàn)實很骨感!問題是,即使具備全數(shù)據(jù),就能輕易找到隱藏于數(shù)據(jù)背后的有價值信息嗎?故事03:
大數(shù)據(jù)的研究方法可笑嗎晚上,一醉漢在路燈下不停地轉(zhuǎn)來轉(zhuǎn)去,警察就問他在找什么。醉漢說,我的鑰匙丟了。于是,警察幫他一起找,結(jié)果路燈周圍找了幾遍都沒找到。于是警察就問,你確信你的鑰匙是丟到這兒嗎?醉漢說,不確信啊,我壓根就不知道我的鑰匙丟到哪兒。警察怒從心中來,問,那你到這里來找什么?醉漢振振有辭:因為只有這里有光線??!在面臨復雜問題時,我們的思維方式也常同這個醉漢所差無幾,同樣也是先在自己熟悉的范圍和領域內(nèi)尋找答案,哪怕這個答案和自己的領域“相隔萬里”!數(shù)據(jù)那么大,價值密度那么低,你也可以去分析,但從何分析起?首先想到的方法和工具,難道不是當下你最熟悉的?而你最熟悉的,就能確保它就是最好的嗎?在醉漢例子里,浩瀚的黑夜就是如同全數(shù)據(jù),“鑰匙”就好比是大數(shù)據(jù)分析中我們要找到的價值目標,“路燈”就好比我們要達到這個目標的測量“標尺”,如果這個標尺的導向有問題,順著這個標尺導引,想要找到心儀的“鑰匙”,是非常困難的!在我們癡迷于某項自己熟悉的特定測量標尺之前,一定要提前審視一下,這個測量標尺是否適合幫助我們找到那把“鑰匙”,如果不能,趕快換一盞“街燈”吧!在醉漢例子里,浩瀚的黑夜就是如同全數(shù)據(jù),“鑰匙”就好比是大數(shù)據(jù)分析中我們要找到的價值目標,“路燈”就好比我們要達到這個目標的測量“標尺”,如果這個標尺的導向有問題,順著這個標尺導引,想要找到心儀的“鑰匙”,是非常困難的!在我們癡迷于某項自己熟悉的特定測量標尺之前,一定要提前審視一下,這個測量標尺是否適合幫助我們找到那把“鑰匙”,如果不能,趕快換一盞“街燈”吧!如果在黑暗中丟失的鑰匙,是大數(shù)據(jù)中的價值,那這個價值也太稀疏了吧。故事04:
大數(shù)據(jù)的價值鑒于大數(shù)據(jù)信息密度低,大數(shù)據(jù)是貧礦,投入產(chǎn)出比不見得好。大數(shù)據(jù)價值挖掘的風險還在于,會有很多的“誤報”發(fā)現(xiàn)在數(shù)據(jù)的大干草垛中,發(fā)現(xiàn)有意義的“針”,其困難在于“很多干草看起來也像針”Thetroublewithseekingameaningfulneedleinmassivehaystacksofdataisthat“manybitsofstrawlooklikeneedles李國杰院士《園中有金》有父子二人,居山村,營果園。父病后,子不勤耕作,園漸荒蕪。一日,父病危,謂子曰:園中有金。子翻地尋金,無所得,甚悵然。是年秋,園中葡萄、蘋果之屬皆大豐收。子始悟父言之理。人們總是期望,能從大數(shù)據(jù)中挖掘出意想不到的“大價值”。實際上,大數(shù)據(jù)的價值,主要體現(xiàn)在它的驅(qū)動效應上,大數(shù)據(jù)對經(jīng)濟的貢獻,并不完全反映在大數(shù)據(jù)公司的直接收入上,應考慮對其他行業(yè)效率和質(zhì)量提高的貢獻。大數(shù)據(jù)是典型的通用技術(shù),理解通用技術(shù)的價值,要懂得采用“蜜蜂模型”:蜜蜂的最大效益,并非是自己釀造的蜂蜜,而是蜜蜂傳粉對農(nóng)林業(yè)的貢獻——你能說秋天的累累碩果,沒有蜜蜂的一份功勞?《園中有金》中兒子翻地的價值,不僅在于翻到園中的金子,更是在于翻地之后,促進了秋天果園的豐收。醉漢黑暗中尋找的鑰匙,亦非最終的價值,通過鑰匙打開的門才是。對于大數(shù)據(jù)研究而言,一旦數(shù)據(jù)收集、存儲、分析、傳輸?shù)饶芰μ岣吡耍词箾]有發(fā)現(xiàn)什么普適的規(guī)律或令人完全想不到的新知識,也極大推動了諸如計算機軟硬件、數(shù)據(jù)分析等行業(yè)的發(fā)展,大數(shù)據(jù)的價值也已逐步體現(xiàn)。我們不必天天期盼奇跡出現(xiàn),多做一些“樸實無華”的事,實際的進步就會體現(xiàn)在扎扎實實的努力之中。一些媒體總喜歡宣傳一些抓人眼球的大數(shù)據(jù)成功案例。但從事大數(shù)據(jù)行業(yè)的人士,應保持清醒的頭腦:無華是常態(tài),精彩是無華的質(zhì)變。如果把“大數(shù)據(jù)”比作農(nóng)夫父子院后的那片土地,那么土地面積越大,會不會能挖掘出的“金子”就越多呢?答案還真不是,下面來說說大數(shù)據(jù)的大小之爭。故事05:
大小之爭
“大”數(shù)據(jù)一定勝過小抽樣嗎?1936年,蘭登與羅斯福競選下屆總統(tǒng)頗有聲望的雜志《文學文摘》承擔了選情預測的任務《文學文摘》曾在1920年、1924年、1928年、1932年連續(xù)4屆美國總統(tǒng)大選中,成功地預測總統(tǒng)寶座的歸屬。再次雄赳赳、氣昂昂地照辦老辦法——民意調(diào)查,范圍拓展得更廣。數(shù)據(jù)集合越大,預測結(jié)果越準確。計劃寄出1000萬份調(diào)查問卷,覆蓋當時四分之一的選民。最終在兩個多月內(nèi)收到了驚人的240萬份回執(zhí),在統(tǒng)計完成以后,《文學文摘》宣布,蘭登將會以55比41的優(yōu)勢擊敗羅斯福贏得大選另外4%的選民則會零散地投給第三候選人。真實的選舉結(jié)果與《文學文摘》的預測大相徑庭:羅斯福以61比37的壓倒性優(yōu)勢獲勝。讓《文學文摘》臉上掛不住的是,新民意調(diào)查的開創(chuàng)者喬治·蓋洛普,僅僅通過一場規(guī)模小得多的問卷——一個3000人的問卷調(diào)查,得出了準確得多的預測結(jié)果:羅斯福將穩(wěn)操勝券。蓋洛普的3000人“小”抽樣,居然挑翻了《文學文摘》240萬的“大”調(diào)查,實在讓專家學者和社會大眾跌破眼鏡。從數(shù)據(jù)體積大小的角度來看,“大”并不能決定一切。民意調(diào)查是基于對投票人的大范圍采樣。這意味著調(diào)查者需要處理兩個難題:樣本誤差和樣本偏差。在過去的200多年里,統(tǒng)計學家們總結(jié)出了認知數(shù)據(jù)過程存在的種種陷阱(如樣本偏差和樣本誤差)。如今數(shù)據(jù)的規(guī)模更大了,采集的成本也更低了,“大數(shù)據(jù)”中依然存在大量的“小數(shù)據(jù)”問題,大數(shù)據(jù)采集同樣會犯小數(shù)據(jù)采集一樣的統(tǒng)計偏差。我們不能掩耳盜鈴,假裝這些陷阱都已經(jīng)被填平了,事實上,它們還都在,甚至問題更加突出。蓋洛普成功的法寶在于,科學地抽樣,保證抽樣的隨機性,沒有盲目的擴大調(diào)查面積,而是根據(jù)選民的分別特征,根據(jù)職業(yè)、年齡、膚色等在3000人的比重,再確定電話訪問、郵件訪問和街頭調(diào)查等各種方式所在比例。由于樣本抽樣得當,就可以做到“以小見大”、“一葉知秋”。《文學文摘》的失敗在于,取樣存在嚴重偏差,調(diào)查對象主要鎖定為它自己的訂戶。雖然問卷調(diào)查數(shù)量不少,但訂戶多集中在中上階層,樣本從一開始就是有偏差的(samplebias)因此,推斷的結(jié)果不準,就不足為奇了。而且蘭登的支持者似乎更樂于寄回問卷結(jié)果,這使得調(diào)查的錯誤更進了一步。這兩種偏差的結(jié)合,注定了《讀者文摘》調(diào)查的失敗。類比一下《文學文摘》的調(diào)查模式中國春運來臨時,在火車上調(diào)查,問乘客是不是買到票了即使你調(diào)查1000萬人,這可是大數(shù)據(jù)啊結(jié)論毫無意外地是都買到了但這個結(jié)果無論如何都是不科學的因為樣本的選取是有偏的。采樣也是有缺點的,如果采樣沒有滿足隨機性,即使百分之幾的偏差,就可能導致“黑天鵝事件”因此,在全數(shù)據(jù)集存在的前提下,全數(shù)據(jù)當然是首選。一般來說:全數(shù)據(jù)>好采樣數(shù)據(jù)>不均勻的大量數(shù)據(jù)。采樣也是有缺點的,如果采樣沒有滿足隨機性,即使百分之幾的偏差,就可能導致“黑天鵝事件”因此,在全數(shù)據(jù)集存在的前提下,全數(shù)據(jù)當然是首選。一般來說:全數(shù)據(jù)>好采樣數(shù)據(jù)>不均勻的大量數(shù)據(jù)。大數(shù)據(jù)分析技術(shù)運用得當,能極大地提升人們對事物的洞察力但技術(shù)和人誰在決策中起更大作用?故事06:
數(shù)據(jù)流PK球探,誰更重要?美國職業(yè)棒球隊教練們挑選心儀的球員依據(jù)球員的“擊球率”(其值等于安打數(shù)/打數(shù)),奧克蘭“運動家球隊”的總經(jīng)理比利.比恩采用“上壘率”指標來挑選球員。數(shù)量化分析和預測對棒球運動的貢獻長期以來,美國職業(yè)棒球隊教練們挑選心儀的球員依據(jù)球員的“擊球率”(其值等于安打數(shù)/打數(shù)),但是,奧克蘭“運動家球隊”的總經(jīng)理比利.比恩采用“上壘率”指標來挑選球員。運用了數(shù)據(jù)量化分析取代了球探。大數(shù)據(jù)時代兩個流派,技術(shù)主導派:
“萬物皆數(shù)”,要么數(shù)字化,要么死亡技術(shù)在決策中占有舉足輕重地作用。技術(shù)為輔派:技術(shù)僅僅是為人服務的,
屬于為人所用的眾多工具的一種,
不可夸大其作用。技術(shù)為輔派球探對運動員定性指標,如競爭性、抗壓力、意志力,勤奮程度等的衡量,是少數(shù)結(jié)構(gòu)化數(shù)據(jù)(如上壘率等)指標無法量化刻畫的。技術(shù)為輔派運動家棒球隊雖然在數(shù)據(jù)分析的指導下,獲得了震驚業(yè)界的好成績,然而他們并沒有取得季后賽的勝利,也沒有奪取世界冠軍。這說明,數(shù)據(jù)分析雖重要,但人的作用更重要!事實上,在運用這些數(shù)據(jù)量化工具的同時,比恩也增加了球探的費用,“軍功章里”有數(shù)據(jù)分析的一半,也有球探的一半。為了讓讀者相信數(shù)據(jù)分析的能力,灌輸一些“心靈雞湯(或稱洗腦)”,是少不了的,哪怕它是假的。故事07:
經(jīng)典故事是偽造的,你知道嗎?關于零售帝國沃爾瑪?shù)墓适乱淮卫械臄?shù)據(jù)分析之后,研究人員突然發(fā)現(xiàn):跟尿布一起搭配購買最多的商品,竟是啤酒!關于零售帝國沃爾瑪?shù)墓适乱淮卫械臄?shù)據(jù)分析之后,研究人員突然發(fā)現(xiàn):跟尿布一起搭配購買最多的商品,竟是啤酒!尿布和啤酒,聽起來風馬牛不相及,但這是對歷史數(shù)據(jù)進行挖掘的結(jié)果,反映的是數(shù)據(jù)層面的規(guī)律。這種關系令人費解,但經(jīng)過跟蹤調(diào)查,研究人員發(fā)現(xiàn),一些年輕的爸爸常到超市去購買嬰兒尿布,有30%~40%的新爸爸,會順便買點啤酒犒勞自己。隨后,沃爾瑪對啤酒和尿布進行了捆綁銷售,不出意料,銷售量雙雙增加。這個案例,出自于涂子沛先生的所著的大數(shù)據(jù)暢銷書《數(shù)據(jù)之巔》要情節(jié)有情節(jié),要數(shù)據(jù)有數(shù)據(jù),誓言旦旦,不容你置疑。但是,這個故事雖經(jīng)典,但是讓你意想不到的是:1.案例是編造的2.相關性并非什么大事這個案例,出自于涂子沛先生的所著的大數(shù)據(jù)暢銷書《數(shù)據(jù)之巔》要情節(jié)有情節(jié),要數(shù)據(jù)有數(shù)據(jù),誓言旦旦,不容你置疑。但是,這個故事雖經(jīng)典,但是讓你意想不到的是:1.案例是編造的2.相關性并非什么大事這個案例,用來解釋“關聯(lián)規(guī)則(AssociationRule)”要求大家多研究“相關性”,少研究因果關系!事實的真相是:這是Teradata公司一位經(jīng)理編出來的“故事”,目的是讓數(shù)據(jù)分析看起來更有力,更有趣,而在歷史上從沒有發(fā)生過。實踐是檢驗真理的唯一標準。如果這個故事是真的,按理說,應該給超級市場以無限啟發(fā)才對,可實際上,不管是中國還是在美國,在超市里面觀察一下,就會發(fā)現(xiàn),根本沒有類似的物品擺放,相近的都很少。但公平地講,這個故事對數(shù)據(jù)挖掘的普及意義重大,僅從教育意義上看,仍不失為一個好故事。即便真的有這個案例,也不說明數(shù)據(jù)分析出來的“相關性”,有什么特別的神奇之處。早在2008年,《連線》主編在“理論的終結(jié):數(shù)據(jù)洪流讓科學方法依然過時(EndofTheory:theDataDelugeMakestheScientificMethodObsolete)”
中率先提出:在PB時代,我們可以說,有相關性足夠了(Petabytesallowustosay:"Correlationisenough)"。
舍恩伯格教授的《大數(shù)據(jù)時代》核心觀點之一就是:趾高氣揚的因果關系光芒不再,卑微的相關關系將被“翻身做主人”,知道“是什么”就夠了,沒必要知道“為什么”。“要相關,不要因果”的觀點,并不受學術(shù)界待見?!胺艞墝σ蚬P系的追求,是人類的墮落”。李國杰院士認為:在大數(shù)據(jù)中,看起來毫不相關的兩件事同時或相繼出現(xiàn)的現(xiàn)象比比皆是,相關性本身并沒有多大價值,關鍵是找對了“相關性”背后的理由,才是新知識或新發(fā)現(xiàn)。大數(shù)據(jù)分析更為核心的功能在于預測。對未來進行籌劃,大到產(chǎn)業(yè)的布局,小到流感的預警。但是對未來的預測,能準嗎?故事08:
谷歌流感預測是如何失效的?2009年2月,谷歌公司的工程師們在國際著名期刊《自然》發(fā)表:《利用搜索引擎查詢數(shù)據(jù)檢測禽流感流行趨勢》,并設計了流感預測系統(tǒng)GFT(GoogleFluTrends)訪問網(wǎng)址為:/flutrends/GFT預測H1N1流感的原理非常樸素:如果某個區(qū)域某時間段,有大量的有關流感的搜索指令,那么,就可能存在一種潛在的關聯(lián):在這個地區(qū),就有很大可能性存在對應的流感人群,相關部門就值得發(fā)布流感預警信息。GFT監(jiān)測并預測流感趨勢的過程僅需一天,有時甚至可縮短至數(shù)個小時。相比而言,美國疾病控制與預防中心同樣也能利用采集來的流感數(shù)據(jù),發(fā)布預警信息。但流感預測結(jié)果,通常需要滯后兩周左右才能得以發(fā)布。對于一種飛速傳播的疾?。ㄈ缜萘鞲械龋?,疫情預警滯后發(fā)布,后果可能是致命的。GFT一度被認為是大數(shù)據(jù)預測未來的經(jīng)典案例,給很多人打開了一扇未來的窗口。據(jù)此,大數(shù)據(jù)布道者們給出了4個令自己滿意的結(jié)論1.由于所有數(shù)據(jù)點都被捕捉到,故傳統(tǒng)的抽樣統(tǒng)計的方法完全可以被淘汰。換句話說,做到了“n=All”;2.無需再尋找現(xiàn)象背后的原因,只需要知道某兩者之間的統(tǒng)計相關性就夠用了。針對這案例,只需知道“大量有關流感的搜索指令”和“流感疫情”之間存在相關性就夠了。3.不再需要統(tǒng)計學模型,只要有大量的數(shù)據(jù)就能完成分析目的,印證了《連線》主編ChrisAnderson提出的“理論終結(jié)”的論調(diào)。4.大數(shù)據(jù)分析可得到驚人準確的結(jié)果。GFT的預測結(jié)果和CDC公布的真實結(jié)果相關度高達96%。谷歌工程師們開發(fā)的GFT,可謂轟動一時,但好景不長論文發(fā)表4年后,2013年2月13日,《自然》發(fā)文指出:在最近(2012年12月)的一次流感爆發(fā)中谷歌流感趨勢不起作用了。GFT預測顯示某次的流感爆發(fā)非常嚴重,然而疾控中心(CDC)在匯總各地數(shù)據(jù)以后,發(fā)現(xiàn)谷歌的預測結(jié)果比實際情況要夸大了幾乎一倍。問題的根源在于,谷歌工程師并不知道搜索關鍵詞和流感傳播之間到底有什么關聯(lián),也沒有試圖去搞清楚關聯(lián)背后的原因,只是在數(shù)據(jù)中找到了一些統(tǒng)計特征——相關性。這種做法在大數(shù)據(jù)分析中很常見。為了提高GFT的預測準確性,谷歌工程師們不斷地微調(diào)預測算法,但GFT每一次算法微調(diào),都是為了修補之前的測不準,但每次修補又都造成了另外的誤差。谷歌疫情之所以會誤報,還因為大數(shù)據(jù)分析中存在“預測即干涉”的問題。在量子世界中,測量粒子位置,必然會影響粒子的速度。媒體熱炒的“大數(shù)據(jù)”世界中,類似于“測不準原理”,即存在“預測即干涉”悖論?!邦A測即干涉”悖論和“菜農(nóng)種菜”的現(xiàn)象“曲藝同工”之處當年的大白菜賣價不錯(歷史數(shù)據(jù)),預計明年的賣價也不錯(預測),于是眾多菜農(nóng)在這個預測的指導下,第二年都去種大白菜(采取行動),結(jié)果是,菜多價賤傷農(nóng)(預測失?。?。GFT預測失準在很大程度上是因為,一旦GFT提到了有疫情,立刻會有媒體報道,就會引發(fā)更多相關信息搜索,反過來強化了GFT對疫情的判定。這樣下去,算法無論怎么修補,都無法改變其愈發(fā)不準確的命運。大數(shù)據(jù)的分析是很復雜的,但由于大數(shù)據(jù)的收集過程,很難保證能像傳統(tǒng)“小數(shù)據(jù)”那樣縝密,難免會出現(xiàn)失準的情況。問題的根源,是“大數(shù)據(jù)傲慢(BigDataHubris)”?!按髷?shù)據(jù)傲慢(BigDataHubris)”還體現(xiàn)在,存在一種錯誤的思維方式,即誤認為大數(shù)據(jù)模式分析出的“統(tǒng)計學相關性”,可以直接取代事物之間真實的因果和聯(lián)系,從而過度應用這種技術(shù)。這就對那些過度推崇“要相關,不要因果”人群,提出了很及時的警告。畢竟,在某個時間很多人搜索“流感”,不一定代表流感真的暴發(fā),完成有可能只是上映了一場關于流感的電影或流行了一個有關流感的段子。“個性化”服務,最有前途的商業(yè)模式需要了解顧客的“個性化信息”如果顧客許可使用,那么這是貼心的。如果沒有許可呢?下面這個有關商品個性化推薦的故事,體現(xiàn)出來的是數(shù)據(jù)分析的智慧,還是愚蠢呢?故事09:
“大數(shù)據(jù)”智慧,還是愚蠢?一位男性顧客怒氣沖沖地來到一家折扣連鎖店Target,向經(jīng)理投訴,因為該店竟然給他還在讀高中的女兒,郵寄嬰兒服裝和孕婦服裝的優(yōu)惠券。但隨后,這位父親與女兒進一步溝通發(fā)現(xiàn),自己女兒真的已經(jīng)懷孕了。于是致電Target道歉,說他誤解商店了,女兒的預產(chǎn)期是8月份。一家零售商是如何比一位女孩的親生父親更早得知其懷孕消息的呢?這里就需要用到“關聯(lián)規(guī)則+預測推薦”技術(shù)。事實上,每位顧客初次到Target刷卡消費時,都會自動獲得一個唯一顧客識別編號(ID)。以后,顧客再次光臨Target消費時,計算機系統(tǒng)就會自動記錄顧客購買的商品、時間等信息。再加上從其它管道取得的統(tǒng)計資料,Target便能形成一個龐大數(shù)據(jù)庫,運用于分析顧客的喜好與需求。有了數(shù)據(jù)特別是“大”容量的數(shù)據(jù),后面的問題就簡單了。Target的數(shù)據(jù)分析師,開發(fā)了很多預測模型,其中懷孕預測模型就是其中的一個。Target通過分析這位女孩的購買記錄——無味濕紙巾和補鎂藥品,就預測到了這為女顧客可能懷孕了而懷孕了,未來就有可能需要購置嬰兒服裝和孕婦服裝,多么貼心的商店啊。但是需要我們注意的是:1.這是“大”數(shù)據(jù)的傲慢,而非聰慧。2.這并非大數(shù)據(jù)的案例。3.更重要的是,這個神奇的數(shù)據(jù)預測故事
被人為地灌入了很多“心靈雞湯”。1.這是“大”數(shù)據(jù)的傲慢,而非聰慧。由于故事極其具戲劇性——親生爸爸居然比不上一臺電腦更了解自己的女兒,因此,這故事往往被用來作為“數(shù)據(jù)比人更了解人”的證明并在當下,被用來論證大數(shù)據(jù)的功力。大數(shù)據(jù)的無所不能的“傲慢”,躍然紙上。1.這是“大”數(shù)據(jù)的傲慢,而非聰慧。這案例并不能說明,數(shù)據(jù)比人更“聰慧”,更了解人,恰好相反,這證明計算機是“愚蠢的”:還在讀高中的女兒,顯然想保護自己的隱私,并不想父親知道,但“愚蠢的”計算機卻自作主張,把孕婦優(yōu)惠卷寄寄到了她家里,結(jié)果被爸爸逮個正著。1.這是“大”數(shù)據(jù)的傲慢,而非聰慧。這正是(大)數(shù)據(jù)的另一種傲慢——好像有了(大)數(shù)據(jù),就可以“君臨天下”,對顧客的理解就可做到出神入化,對顧客的隱私就可以肆無忌憚。2.這并非大數(shù)據(jù)的案例。實際上這個例子并不屬于大數(shù)據(jù)的案例,它不需要太強的計算能力,甚至用一臺普通的電腦就能實施類似的關聯(lián)規(guī)則分析。很多有關大數(shù)據(jù)的圖書和文章都把這個案例當作大數(shù)據(jù)的案例來講,其實是不恰當?shù)摹?.這并非大數(shù)據(jù)的案例。大數(shù)據(jù)一般要具備典型的4個V特征,Target收集的消費數(shù)據(jù)屬于典型的結(jié)構(gòu)化數(shù)據(jù),即使數(shù)量再大,也僅滿足4V特征之一Volume(體積大)。但是,“數(shù)據(jù)大”不等于“大數(shù)據(jù)”。如果光拼體積“大”,那么早在20年前,天文、物理和生物信息學的數(shù)據(jù),也夠得上是“大數(shù)據(jù)”了。3.被人為地灌入了很多“心靈雞湯”。數(shù)據(jù)挖掘界的數(shù)據(jù)分析師、咨詢師們有時候同樣也需要“心靈雞湯”,勵志自己,忽悠客戶。很多人在看到這個故事時,都誤認為Target的預測算法是非??煽康摹獛缀趺總€收到嬰兒連體服和濕紙巾優(yōu)惠券的人,都是孕婦3.被人為地灌入了很多“心靈雞湯”。但這是不可能的!更為實際的情況是,孕婦之所以能收到這些購物券,是因為Target給非常多客戶都郵寄了這種購物券。在眾多客戶中,碰巧有那么一位高中女生“不太可能但卻又真地”懷孕了碰巧那位父親發(fā)現(xiàn)并投訴了,碰巧那位父親發(fā)現(xiàn)自己錯了并道歉了,這么多巧合,“無巧不成書”。因為極具有故事性,所以大家都愛聽。3.被人為地灌入了很多“心靈雞湯”。各位讀者在相信Target這類讀心術(shù)般的故事之前,首先應該先想想,這類商家的預測命中率到底有多高。這里并不說,數(shù)據(jù)分析一無是處,相反,數(shù)據(jù)分析極具商業(yè)價值,即使能夠把“直郵”的準確度提高一點點,哪怕是1%,對商家而言,都將是有利可圖的。但能賺錢并不意味著這種工具無所不能、永遠正確。3.被人為地灌入了很多“心靈雞湯”。各位讀者在相信Target這類讀心術(shù)般的故事之前,首先應該先想想,這類商家的預測命中率到底有多高。這里并不說,數(shù)據(jù)分析一無是處,相反,數(shù)據(jù)分析極具商業(yè)價值,即使能夠把“直郵”的準確度提高一點點,哪怕是1%,對商家而言,都將是有利可圖的。但能賺錢并不意味著這種工具無所不能、永遠正確。商家能夠提供個性化服務,確實很貼心但倘若在利益的驅(qū)使下,商家對顧客個性化信息運用不當或越界,就會給顧客帶來不能承受的隱私之痛。故事10:
大數(shù)據(jù)的隱私之痛Uber優(yōu)步,著名的打車軟件服務公司,乘客可以通過發(fā)送短信或是使用移動應用程序來預約車輛利用移動應用程序時還可以追蹤車輛的位置曾在官網(wǎng)上發(fā)布一篇題為“榮耀之旅”的博客?!拔抑?,我們不是你們生命中唯一的愛人,我們也知道,你們會在別的什么地方尋找愛情Uber稱作的“榮耀之旅(RoG)”——實際上就是所謂的一夜情(one-nightstand)代名詞。Uber利用數(shù)據(jù)分析技術(shù),專門篩選出那些在晚上10點到凌晨4點之間的用車服務,并且這些客戶會在四到六小時之后(這段時間足夠完成一場快速的RoG),在距離上一次下車地點大約1/10英里(約160米)以內(nèi)的地方再次叫車。根據(jù)對這些數(shù)據(jù)的分析,Uber推斷出那些發(fā)生一夜情的時間和地點,并將這些地點在紐約(NYC)、舊金山(SF)、波士頓(Boston)以及其他美國城市的地圖上進行標注,得出一夜情頻繁的高發(fā)區(qū)。數(shù)據(jù)分析發(fā)現(xiàn),波士頓位于美國“一夜情”之首,而紐約人則顯得比較保守,“一夜情”的比率僅為波士頓的1/5在時間節(jié)點上,一夜情“發(fā)作”的高頻發(fā)段是在周五和周六晚上,如果你的另一半在這個時間點上說自己工作忙要加班,你就要“悠著點”相信。當然,Uber此處雖多為開玩笑之舉,但也確實嚴重侵犯了用戶的隱私,在遭到了很多用戶及媒體的抗議之后,Uber迅速刪除了這篇博客,但在這個數(shù)字時代,一旦上網(wǎng),“侯門一入深似?!保ぱo痕夢難成”。感興趣的讀者仍可訪問互聯(lián)網(wǎng)文檔收錄網(wǎng)站/,找到這篇文章。不可否認的是,大數(shù)據(jù)時代的到來,為我們的學習、生活帶來諸多便利。但是,收之桑榆,失之東隅。任何事情都有兩面性。目前,人的行為(諸如購物、乘車、甚至游戲等)已經(jīng)被數(shù)字化了,隱私已經(jīng)無處可藏!不論是美國斯諾登“棱鏡門”監(jiān)聽項目的曝光,還是層出不窮的諸如Uber等公司企業(yè)泄露客戶資料事件,都向我們發(fā)出大數(shù)據(jù)時代下個人隱私保護的預警??植赖拇髷?shù)據(jù)某比薩店的電話鈴響了,客服人員拿起電話。客服:XXX比薩店。您好,請問有什么需要我為您服務?顧客:你好,我想要一份......客服:先生,煩請先把您的會員卡號告訴我。顧客:16846146***??头宏愊壬?!您是住在泉州路一號12樓1205室,您家電話是2646****,您公司電話是4666****,您的手機是1391234****。請問您想用哪一個電話付費?顧客:你為什么知道我所有的電話號碼?客服:陳先生,因為我們聯(lián)機到CRM系統(tǒng)。顧客:我想要一個海鮮比薩......客服:陳先生,海鮮比薩不適合您。顧客:為什么?客服:根據(jù)您的醫(yī)療記錄,你的血壓和膽固醇都偏高。顧客:那你們有什么可以推薦的?客服:您可以試試我們的低脂健康比薩。顧客:你怎么知道我會喜歡吃這種的?客服:您上周一在中央圖書館借了一本《低脂健康食譜》顧客:好。那我要一個家庭特大號比薩,要付多少錢?客服:99元,這個足夠您一家六口吃了。但您母親應該少吃,她上個月剛剛做了心臟搭橋手術(shù),還處在恢復期。顧客:那可以刷卡嗎?客服:陳先生,對不起。請您付現(xiàn)款,因為您的信用卡已經(jīng)刷爆了,您現(xiàn)在還欠銀行4807元,而且還不包括房貸利息。顧客:那我先去附近的提款機提款。客服:陳先生,根據(jù)您的記錄,您已超過今日提款限額。顧客:算了,你們直接把比薩送我家吧,家里有現(xiàn)金。你們多久會送到?
客服:大約30分鐘。如果您不想等,可以自己騎車來。顧客:為什么?客服:根據(jù)我們CRM全球定位系統(tǒng)的車輛行駛自動跟蹤系統(tǒng)記錄。您登記有一輛車號為SB-748的摩托車,而目前您正在解放路東段華聯(lián)商場右側(cè)騎著這輛摩托車。支付寶是如何用大數(shù)據(jù)憋死偽基站騙子的
2015-06-1618:13:28本文摘自:網(wǎng)優(yōu)雇傭軍
小偷用偽基站發(fā)送釣魚短信費盡心機偷了用戶的支付寶密碼結(jié)果卻死活拿不走里面的錢這看得見吃不著的感受該有多心塞呀!但,就是有這么憋屈的小偷。廣州用戶黃XX6月7日接到一條10086的短信(小偷通過偽基站發(fā)送的釣魚短信)他點擊了短信中的鏈接依據(jù)指示先后輸入了自己的身份證信息和銀行卡信息同時,手機中了木馬病毒小偷登陸了黃某的支付寶并修改了密碼隨后小偷進入淘寶下單購買一臺4600多元的iphone手機就在小偷得意之時他發(fā)現(xiàn)自己就是不能支付成功而且很快這個支付寶賬戶被限權(quán)無法進行任何支付行為!小偷明明拿到密碼卻為何無法動黃某支付寶里的錢?原來,支付寶有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江師范大學《氣壓與液壓傳動》2023-2024學年第一學期期末試卷
- 產(chǎn)學研協(xié)同育人機制心得體會發(fā)言
- 長春信息技術(shù)職業(yè)學院《商務計劃》2023-2024學年第一學期期末試卷
- 使用開源軟件減少軟件許可費
- 產(chǎn)品功能技術(shù)演講模板
- 保險市場應對策略模板
- 業(yè)務操作-2020年房地產(chǎn)經(jīng)紀人《房地產(chǎn)經(jīng)紀業(yè)務操作》真題匯編
- 社團參與與高中生活模板
- 農(nóng)科技講座模板
- 二零二五版養(yǎng)老機構(gòu)設施改造及智能化升級合同3篇
- 做好八件事快樂過寒假-2024-2025學年上學期中學寒假家長會課件-2024-2025學年高中主題班會課件
- 【課件】寒假是用來超越的!課件 2024-2025學年高中上學期寒假學習和生活指導班會
- 2024-2025學年北師大版數(shù)學七年級上冊期末練習卷
- 2025年山東兗礦集團公司招聘筆試參考題庫含答案解析
- 燃氣有限公司工程部管理制度匯編
- 2024年中國干粉涂料市場調(diào)查研究報告
- (自考)經(jīng)濟學原理中級(政經(jīng))課件 第二章 商品和貨幣
- ×××老舊小區(qū)改造工程施工組織設計(全面)
- 科創(chuàng)板知識題庫試題及答案
- GB/T 3324-2024木家具通用技術(shù)條件
- 《材料合成與制備技術(shù)》課程教學大綱(材料化學專業(yè))
評論
0/150
提交評論