淺談醫(yī)學大數(shù)據25.docx_第1頁
淺談醫(yī)學大數(shù)據25.docx_第2頁
淺談醫(yī)學大數(shù)據25.docx_第3頁
淺談醫(yī)學大數(shù)據25.docx_第4頁
淺談醫(yī)學大數(shù)據25.docx_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

淺談醫(yī)學大數(shù)據陳遵秋和陳漪伊夫婦是美籍華人,現(xiàn)在美國定居。其二人是目前研究醫(yī)療大數(shù)據及生物樣本大數(shù)據真正的專家。現(xiàn)將兩位的文章進行公開發(fā)表,與大家一起探討?,F(xiàn)在無論國內外均出現(xiàn)了移動醫(yī)療熱,所有的創(chuàng)業(yè)團隊和投資公司均把商業(yè)模式指向了最后的醫(yī)療大數(shù)據分析。但是可以很負責任的說,90% 以上的人都不知道醫(yī)療大數(shù)據分析是什么東西,因此這是一篇掃盲貼,但是僅供專業(yè)人士。文中分析了醫(yī)療大數(shù)據、它的維度、方法和成本,以及需要的專業(yè)人才。本文無論是對創(chuàng)業(yè)團隊還是投資機構都是非常有指導意義的。大數(shù)據定義及其特征大數(shù)據顧名思義就是數(shù)量極其龐大的數(shù)據資料。從上世紀 80 年代開始,每隔 40 個月世界上儲存的人均科技信息量就會翻倍 (Hibert & Lopez, 2011)。2012 年,每天會有 2.5EB 量的數(shù)據產生 (Andrew & Erik, 2012)?,F(xiàn)在,2014 年,每天會有 2.3ZB 量的數(shù)據產生 (IBM, 2015)。這是一個什么概念? 現(xiàn)在一般我們電腦的硬盤大小都以 GB,或者 TB 為單位了。1GB 的容量可以儲存約 5.4 億的漢字,或者 170 張普通數(shù)碼相機拍攝的高精度照片,或者 300-350 首長度為 5-6 分鐘的 MP3 歌曲。 那 GB 和 TB, EB,ZB 的關系又是怎樣?1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一臺 1TB 硬盤容量的電腦,那 1ZB 就是大致等于 10 億臺電腦的容量, 遠遠超出了我們一般的想象。早期,IBM 定義了大數(shù)據的特性有 3 個:大量性( Volume), 多樣性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后來又有學者把價值(Value)加到大數(shù)據的特性里。隨著時間的推移和人們思考的進一步完善,又有三個大數(shù)據的特性被提出: 易變性(Variability),準確性 (Veracity) 和復雜性 (Complexity)。作者認為價值本質上是數(shù)據被分析后體現(xiàn)出來的有用信息知識的程度,和其他幾個特性有根本區(qū)別。其他幾個特性可以說是數(shù)據工作者具體實踐中面臨的挑戰(zhàn),而價值則是征服這些挑戰(zhàn)后獲得的回報。大數(shù)據的6個特性描述如下:大量性:一般在大數(shù)據里,單個文件大量性的級別至少為幾十,幾百 GB 以上,一調查 (Russom, 2013) 顯示相當多的機構擁有的數(shù)據總量在 10 到 99TB 之間。用我們傳統(tǒng)的數(shù)據庫軟件,1GB 已經可以儲存千萬條有著幾百個變量的數(shù)據記錄了。多樣性:泛指數(shù)據類型及其來源的多樣化 (Troester, 2012),進一步可以把數(shù)據結構歸納為結構化 (structured),半結構化 (semi-structured),和非結構化 (unstructured) (SAS, 2014) ??焖傩裕悍从吃跀?shù)據的快速產生及數(shù)據變更的頻率上。比如一份哈佛商學院的研究報告稱在 2012 年時,谷歌每天就需要要處理 20PB 的數(shù)據 (Harvard Business Review, 2012)。易變性:伴隨數(shù)據快速性的特征,數(shù)據流還呈現(xiàn)一種波動的特征。不穩(wěn)定的數(shù)據流會隨著日,季節(jié),特定事件的觸發(fā)出現(xiàn)周期性峰值 (Troester, 2012)。準確性:又稱為數(shù)據保證 (data assurance)。不同方式,渠道收集到的數(shù)據在質量上會有很大差異。數(shù)據分析和輸出結果的錯誤程度和可信度在很大程度上取決于收集到的數(shù)據質量的高低 (W.Raghupathi & Raghupathi, 2014)。所謂“垃圾進,垃圾出”。沒有數(shù)據保證,大數(shù)據分析就毫無意義。復雜性:復雜性體現(xiàn)在數(shù)據的管理和操作上。IT 時代,隨著數(shù)據來源及數(shù)據量的爆發(fā),各種不同渠道數(shù)據的大量涌現(xiàn),數(shù)據的管理和操作已經變得原來越復雜。如何抽取,轉換,加載,連接,關聯(lián)以把握數(shù)據內蘊的有用信息已經變得越來越有挑戰(zhàn)性。醫(yī)療大數(shù)據的爆發(fā)早期,大部分醫(yī)療相關數(shù)據是紙張化的形式存在,而非電子數(shù)據化存儲, 比如官方的醫(yī)藥記錄,收費記錄,護士醫(yī)生手寫的病例記錄,處方藥記錄,X 光片記錄,磁共振成像(MRI)記錄,CT 影像記錄等等。隨著強大的數(shù)據存儲,計算平臺,及移動互聯(lián)網的發(fā)展,現(xiàn)在的趨勢是醫(yī)療數(shù)據的大量爆發(fā)及快速的電子數(shù)字化。以上提到的醫(yī)療數(shù)據都在不同程度上向數(shù)字化轉化。有報告顯示,2011 年,單單美國的醫(yī)療健康系統(tǒng)數(shù)據量就達到了 150EB。照目前的增長速度, ZB(約 1021GB)和 YB(約 1021GB) 的級別也會很快達到 (IHTT, 2013)。Kaiser Permanente,一個在加州發(fā)展起來的醫(yī)療健康網絡系統(tǒng), 就有 9 百萬的會員,被認為擁有 26.5 到 44PB 的電子健康記錄 (IHTT, 2013)。IT 時代涌現(xiàn)的還有各種網絡社交媒體數(shù)據,比如曾經 Google 用來預測流感的數(shù)據?;驍?shù)據也是非常龐大的存在,一次全面的基因測序,產生的個人數(shù)據則達到 300GB (Leah, 2014)。公開發(fā)布的基因 DNA 微陣列達到 50 萬之多,每一陣列包含數(shù)萬的分子表達值。在生物醫(yī)藥方面,功能性磁共振影像的數(shù)據量也達到了數(shù)萬 TB 級別,每一幅影像包含有 5 萬像素值 (Fan, Han, & Liu, 2014)。此外,各種健身,健康可穿戴設備的出現(xiàn),使得血壓、心率、體重,血糖,心電圖(EKG)等的監(jiān)測都變?yōu)楝F(xiàn)實和可能,信息的獲取和分析的速度已經從原來的按“天”計算,發(fā)展到了按“小時”,按“秒”計算。比如,一家名為 Blue Spark 的科技公司已經生產出能 24 小時實時監(jiān)測體溫的新型溫度計貼片 temptraq。這種數(shù)據的擴展速度和覆蓋范圍是前所未有的,數(shù)據的格式也五花八門,可能是無格式文件(flat file),CSV,關系表,ASCII/ 純文本文件等等。同時,數(shù)據的來源也紛繁復雜,可能來自不同的地區(qū),不同的醫(yī)療機構,不同的軟件應用。不可否認,一旦理順了多格式,多源頭,呈爆炸性成長的大數(shù)據的整合和分析,醫(yī)療大數(shù)據將對提高醫(yī)療質量,強化患者安全,降低風險,降低醫(yī)療成本等方面發(fā)揮無與倫比的巨大作用。醫(yī)療大數(shù)據的優(yōu)勢和應用場景有效的整合和利用數(shù)字化的醫(yī)療大數(shù)據對個體醫(yī)生,康寶中心,大型醫(yī)院,和醫(yī)療研究機構都有著顯著的好處。潛在的利益包括 (W.Raghupathi & Raghupathi, 2014):1)更多更準確的數(shù)據使得疾病能在早期被監(jiān)測到,從而使治療更容易和有效。2)通過對特定個體或人群的健康管理,快速有效地監(jiān)測保健詐騙。3)基于大量的歷史數(shù)據,預測和估計特定疾病或人群的某些未來趨勢,比如:預測特定病人的住院時間,哪些病人會選擇非急需性手術, 哪些病人不會從手術治療中受益,哪些病人會更容易出現(xiàn)并發(fā)癥,等等。麥肯錫估計,單單就美國而言,醫(yī)療大數(shù)據的利用可以為醫(yī)療開支節(jié)省出 3 千億美元一年。醫(yī)療大數(shù)據的利用可以從以下幾方面減少浪費和提高效率 (Manyika, 以及其他人, 2011):臨床操作: 相對更有效的醫(yī)學研究,發(fā)展出臨床相關性更強和成本效益更高的方法用來診斷和治療病人。研究和發(fā)展:在藥品和醫(yī)療器械方面,建立更低磨損度,更精簡,更快速,更有針對性的研發(fā)產品線。統(tǒng)計工具和算法方面,提高臨床試驗設計和患者的招募,使得治療方法可以更好地匹配個體患者的病癥,從而降低臨床試驗失敗的可能和加快新的治療方法推向市場。分析臨床試驗和病人的病歷,以確定后續(xù)的跡象,并在產品進入市場前發(fā)現(xiàn)病人對藥物醫(yī)療方法的不良反應。公共衛(wèi)生:分析疾病模式和追蹤疾病暴發(fā)及傳播方式途徑,提高公共衛(wèi)生監(jiān)測和反應速度。更快更準確地研制靶向疫苗,例如:開發(fā)每年的流感疫苗。此外,醫(yī)療大數(shù)據的分析還有利于以下幾方面的發(fā)展 (W.Raghupathi & Raghupathi, 2014):循證醫(yī)學:結合和分析各種結構化和非結構化數(shù)據,電子病歷,財務和運營數(shù)據,臨床資料和基因組數(shù)據用以尋找與病癥信息相匹配的治療,預測疾病的高?;颊呋蛱峁└喔咝У尼t(yī)療服務。基因組分析:更有效和低成本的執(zhí)行基因測序,使基因組分析成為正規(guī)醫(yī)療保健決策的必要信息并納入病人病歷記錄。提前裁定欺詐分析:快速分析大量的索賠請求,降低欺詐成功率,減少浪費和濫用。設備/遠程監(jiān)控:從住院和家庭醫(yī)療裝置采集和分析實時大容量的快速移動數(shù)據,用于安全監(jiān)控和不良反應的預測。病人的個人資料分析:全面分析病人個人信息(例如,分割和預測模型)從中找到能從特定健保措施中獲益的個人。例如,某些疾病的高?;颊撸ㄈ缣悄虿。┛梢詮念A防措施中受益。這些人如果擁有足夠的時間提前有針對性的預防病情,那么大多數(shù)的危害可以降到最低程度,甚至可以完全消除。然而,根據一份針對美國和加拿大 333 家醫(yī)療機構及 10 家其他機構的調查 (IHTT, 2013),2013 年,醫(yī)療機構累積的數(shù)據量比 2011 年多出了 85%, 但 77% 的醫(yī)療健康行政人員對自己機構在數(shù)據管理方面的能力評價為“C”。此外,僅有 34% 報告他們能從電子健康記錄(EHR)中獲取數(shù)據用來幫助病人,而有 43% 報告他們不能收集到足夠多的數(shù)據來幫助病人。由此可見,在北美的醫(yī)療系統(tǒng)中,醫(yī)療大數(shù)據的管理使用準備工作還有一大段路要走。中國也是處在起步階段。數(shù)據分析框架(傳統(tǒng)數(shù)據分析框架,大數(shù)據分析框架)醫(yī)療大數(shù)據有著前面第一節(jié)提到的所有特征。在醫(yī)療大數(shù)據帶來各種優(yōu)勢的同時,大數(shù)據隨之帶來的各種特性使得傳統(tǒng)的數(shù)據處理和數(shù)據分析方法及軟件捉襟見肘,問題多多。在大數(shù)據時代出現(xiàn)之前,受限于數(shù)據量的可獲得性和計算能力的有限性,傳統(tǒng)的數(shù)據管理和分析采用著不同的思路和流程。傳統(tǒng)上,對于問題的研究建立在假設的基礎上進行驗證,進而研究事物的相關因果性,希望能回答“為什么”。而在大數(shù)據時代,海量數(shù)據的涌現(xiàn)提供了從不同角度更細致更全面觀察研究數(shù)據的可能,從而打開了人們的好奇心,探索欲望,人們想知道到數(shù)據告訴了我什么,而不僅僅是我的猜想是否被數(shù)據驗證了。人們越來越多地用大數(shù)據挖掘各種感興趣的關聯(lián),非關聯(lián)等相關性,然后再進一步比較,分析,歸納,研究(“為什么”變成一個選項而不是唯一終極目標)。大數(shù)據與傳統(tǒng)數(shù)據思路上的不同導致了分析流程的不同,如圖一所示:圖一面對海量的數(shù)據和不同的分析思路,大數(shù)據的管理和分析與傳統(tǒng)數(shù)據分析的差異日益加大?;卮鹛囟▎栴}的單一預設結構化數(shù)據庫明顯不能完全勝任處理大數(shù)據的海量及混雜等問題。數(shù)據的混雜多樣性具體可以從一些調查數(shù)據中表現(xiàn)出來。SAS 的一份調查報告顯示機構內的非結構化數(shù)據最多可以占到總數(shù)據量的 85%,而這些非數(shù)字,非結構化的數(shù)據卻必須被量化分析和用到決策分析中 (Troester, 2012)。另一份 2013 年進行的 SAS 調查報告顯示在 461 個提供完整反饋信息的機構中只有 26% 的機構表示他們所擁有的大數(shù)據是結構化的 (Russom, 2013)。 此外,在機構中,分析的數(shù)據一般不會只有一個單一的來源。Alteryx 的調查報告顯示在 200 家被調查的機構中只有 6% 的機構表示他們的數(shù)據是只有一個來源,最為普遍的情況是 5-10 個來源, 具體分布如圖二 (Alteryx, 2014)。調查中還顯示 90% 的被調查樣本表示有數(shù)據整合問題,37% 表示需要等其他小組提供數(shù)據,30% 表示不能得到他們想要的數(shù)據,一般估計是一個數(shù)據分析師的 60% 到 80% 的時間是花在數(shù)據處理準備階段上的 (Alteryx, 2014)。圖二由此可見有效的數(shù)據管理,數(shù)據庫建立及數(shù)據分析流程的重要性。傳統(tǒng)的數(shù)據管理的過程包括抽?。‥xtraction),轉換(Transformation)和載入(load)。通過 ETL,可以賦予數(shù)據一種合適恰當?shù)慕Y構用于特定的分析發(fā)現(xiàn)。具體數(shù)據準備分析流程如圖三所示:1)抽取單個或多個來源的數(shù)據 。2)凈化,格式化,標準化,聚合,添加,或遵循其他特定的數(shù)據處理規(guī)則。3)載入處理完的數(shù)據到特定的數(shù)據庫或儲存為特定的文件格式。4)采用各種方法進行數(shù)據分析。圖三ETL 的中心內容仍舊適用于大數(shù)據,但由于大數(shù)據的大量性和多樣性對數(shù)據庫和數(shù)據管理及處理方法的要求越來越高,也越來越復雜,這樣線性處理整個數(shù)據變得相當耗費人力,物力,和時間。此外,大數(shù)據的快速性,易變性也使得把數(shù)據儲存在單一的中央數(shù)據庫變的不太可行。 在這種情況下,最流行的思路是把數(shù)據分割處理,也就是把數(shù)據儲存到多個儲存節(jié)點(比如網絡數(shù)據庫),在每個節(jié)點單獨處理數(shù)據(甚至處理完就接著進行初步分析, 但處理的程度依客戶具體問題而調整),然后再匯總整合到一起,提供給單個或多個數(shù)據庫,接著根據需要選擇合適的分析方法獲取有用結果。ETL 貫穿于整個大數(shù)據管理分析的流程中。圖四演示了大致的大數(shù)據管理分析流程及一些大數(shù)據處理分析平臺工具的名字。圖四SAS的數(shù)據倉庫研究院(TDWI)針對現(xiàn)今存在的大數(shù)據處理分析平臺工具進行了一項調查以幫助人們在選擇軟硬件進行大數(shù)據分析時能做出更好的決策。針對大數(shù)據技術,特點,和使用者操作,調查提供了三個選擇:1)現(xiàn)在使用中,并且會繼續(xù)使用。2)會在三年中開始使用。3)沒有計劃使用。圖五左側顯示了對于各種大數(shù)據分析平臺工具,被調查人員的回復比例。圖五的右側顯示了平臺工具可能的潛在成長和對采用此工具做出承諾的被調查人員比例。圖五根據潛在成長和承諾的綜合考量,此調查還進一步把大數(shù)據分析平臺, 工具分成 4 組:第一組為適度的承諾,中度到強的成長潛力;第二組為中度至強有力的承諾,適度增長潛力;第三組為弱到中度的承諾,適度增長潛力;第四組為中度至強有力的承諾,弱增長潛力。圖六顯示了這些組別的內容分布。限于篇幅,本文不詳細介紹所列的每一平臺工具的具體內容,感興趣的讀者可以參考文獻獲取更詳細的介紹。圖六圖五和圖六都顯示了最流行的平臺和數(shù)據處理方式為開源免費的 Hadoop 和 MapReduce。伴隨著他們的潛在成長和承諾程度,可以預見,Hadoop 和 MapReduce 正在并會繼續(xù)推動和促進大數(shù)據的處理和應用。在此,我們簡單介紹一下 Hadoop 和 MapReduce 的概念。Hadoop 是一種基于 Java 的分散式數(shù)據處理框架。它可以提供對儲存在多個硬件設備上的數(shù)據進行高吞吐率的讀寫。更重要的是,它對大數(shù)據具有高容錯性 和對并行應用程序的高可用性。Hadoop 框架結構由若干名字節(jié)點(NameNode)和數(shù)據節(jié)點(DataNode)組成。一份數(shù)以萬計,百萬計的大數(shù)據文件會被分割成更小的文件信息塊儲存在多個數(shù)據節(jié)點里,可以是任何計算機硬件設備。有關這些文件的數(shù)據屬性資料信息稱作 metadata 則被存儲在名字節(jié)點里(NameNode). NameNode 主要管理文件系統(tǒng)的命名空間和客戶端對文件的訪問操作記錄。Hadoop 的框架結構如圖七:圖七當訪問和操作數(shù)據文件時,客戶端會聯(lián)系名字節(jié)點提取文件信息塊的屬性信息比如位置,文件名等。然后根據這些屬性信息,客戶端直接從相應的數(shù)據節(jié)點同時讀取數(shù)據塊。Hadoop 本身具有冗余和復制功能,保證在單個硬件儲存設備出現(xiàn)故障時數(shù)據仍舊能被恢復而沒有任何損失,比如每個數(shù)據節(jié)點默認擁有 3 個備份之類。此外,在有新數(shù)據節(jié)點添加到框架中時,Hadoop 還可以自動平衡每個數(shù)據節(jié)點的數(shù)據載有量。同樣,名字節(jié)點也可以擁有冗余和復制功能,用于在單個儲存數(shù)據屬性信息的名字節(jié)點出現(xiàn)故障時可以恢復相應的數(shù)據屬性信息。MapReduce 則是一種可以用來并行處理大數(shù)據的編程模型。同一程序在 Hadoop 的框架下可以用各種不同的語言(Java,Ruby,Python 等)按 MapReduce 的編程模型進行編寫和運行。其關鍵就在于三個詞: map,reduce, 和并行處理。我們通過一個例子來理解 MapReduce 的大致工作原理。比如我們有一 30 個字的字符串“開落花纏落花繞纏開繞笑瓜夜村村舍舍瓜夜藤繞下下藤繞嬉嬉笑娃娃”,任務是計算每個字出現(xiàn)的次數(shù)。最簡單的方法是按序讀取每一個字建立標識索引并計算出現(xiàn)的次數(shù)值存入內存,如果是新字,值為 1,如果是出現(xiàn)過的字則次數(shù)值累加上去。此種方式是按串行的方式進行的,所花的時間會隨著字符串的長度和復雜度程線性增長。當字符串是以萬計百萬計時,比如基因組數(shù)據,所花的時間將是相當驚人的。 并行處理則能節(jié)約相當多的時間。我們先把原文件分割到幾個小文件塊,然后對每個小文件塊進行字的標識索引和附加數(shù)值(這兒不進行累計,只是簡單的單次點數(shù)),然后再排序重組把相同字放在一起,然后我們再用縮減法計算出字及其相應的出現(xiàn)次數(shù)值。圖八顯示了具體的例子步驟:圖八大數(shù)據特性對統(tǒng)計應用上的際遇和沖擊大數(shù)據的獨特性對傳統(tǒng)的統(tǒng)計方法發(fā)出了挑戰(zhàn),刺激著新的,適用于大數(shù)據分析的統(tǒng)計方法的發(fā)展。本文提到的一些際遇和問題,一部分是作者自己的觀點,一部分摘自其他文章( (Fan, Han, & Liu, 2014) (Wang & Wang, 2014)。相較于統(tǒng)計文章的專業(yè)寫作手法,作者試圖用更淺顯易懂的說法來介紹這些問題,讓一般的讀者對此也能有一定的了解并對此產生興趣。傳統(tǒng)數(shù)據一般來說是樣本量遠遠大于感興趣的因素,比如一數(shù)據有200條記錄關于個人是否有心血管病,可能相關因素為性別,年齡,血壓。這兒只有4個因素,但樣本量為200(2004)。而大數(shù)據則擁有海量的樣本及相當多的因素。還是用心血管的例子,現(xiàn)在比如我們有了幾萬條記錄的樣本量,但同時也擁有了上百個的因素,各種以前沒法收集的因素都收集了,像運動與否,運動量如何,運動類型,飲食習慣,飲食內容,喝酒與否,喝什么酒,喝酒習慣次數(shù)等等。這使統(tǒng)計中對數(shù)據的研究應用得到了新的際遇同時也面臨了新的挑戰(zhàn)。數(shù)據異質性(heterogeneity)數(shù)據異質性,可以簡單理解成一個大樣本數(shù)據里有很多小樣本,每個小樣本有著不同的數(shù)據特征,比如小樣本的平均值有高有低,離散程度有密有疏,就好象海洋中有著不同溫度,不同密度的各種洋流一樣。我們不能簡單的只在大樣本的層面進行統(tǒng)計分析,這樣得出的結果如果被用于對小樣本或樣本中的個體的估計或預測時就會出現(xiàn)偏差,因為每個小樣本可能有著一些它自己獨特的特征。在數(shù)據樣本小的時候,里面的小樣本相應的就更小。 這種情況下小樣本里的數(shù)據記錄可能只有一,兩個,它們只能被當作異常值處理,無法分析。而在大數(shù)據里,這種具有獨特特征的數(shù)據記錄收集出現(xiàn)多了,就擁有了被統(tǒng)計分析的條件,從而使我們更好地探究特定因素的關聯(lián)性,理解這些數(shù)據異質性。比如有些只在特定人群里發(fā)生的極其罕見的疾病,大數(shù)據使我們得以研究發(fā)病原因,發(fā)病風險因素;理解為什么有些治療方法對某些人群有利,而同樣的方法對另一人群卻有害,等等。同樣,由于海量樣本和巨多的因素存在于大數(shù)據里,信息的復雜度也會增加不少,受復雜度的影響,可能導致統(tǒng)計上的過度擬合(overfitting)。過度擬合就是指我們建立了一個復雜的統(tǒng)計模型,它能很好的描述現(xiàn)有數(shù)據的情況,但當我們想把這模型應用到預測新數(shù)據時,它的表現(xiàn)卻相當差。比如圖九所示:圖九圖九左邊上的曲線是我們針對藍點(當作現(xiàn)有數(shù)據)做出的模型,基本上能很好的描述藍點的分布及曲線和藍點的吻合度較高。用這曲線去描述黃點(當作新數(shù)據),吻合度也還不錯。圖九右邊的曲線則完全通過了每一藍點,吻合度極高,完全描述了藍點的復雜特性。然而,它在描述黃點時,吻合度就差多了,偏差就比左邊的曲線大不少。簡單來說,數(shù)據越復雜,需要考慮的因素越多,建立普遍有效的統(tǒng)計模型的難度就越大。偏差識別(Bias accumulation)分析數(shù)據時,我們需要估計或測試很多參數(shù)用以建立可靠的統(tǒng)計數(shù)據模型。期間不可避免會產生偏差,這些估計中產生的偏差積累,很大程度上受著數(shù)據量大小及參數(shù)多寡的影響。 在一般小數(shù)據時,這問題可以并不顯著。但在大數(shù)據的情況下,這問題就變的相當值得注意。 我們用一簡化的例子來說明這個問題。假設我們有兩組數(shù)據A和B,A組數(shù)據收集估算時沒有偏差,所有樣本數(shù)值都為1000。B組數(shù)據,實際所有樣本數(shù)值也是1000,但存在偏差,而且偏差隨收集樣本量的增加呈指數(shù)式成長(為了說明情況,偏差指數(shù)式成長是一個很極端的例子)。每增加一個記錄,偏差增長公式為:這樣B組第一個記錄包含偏差為1.001=1.0011. B組第一個值為1000 1.001=1001. B組第二個記錄包含偏差為1.002001=1.0012. B組第一個值為1000 1.002001=1002.001. B組第十個值為1000 1.01004512=1010.045.這樣如果是小數(shù)據n=10, A組數(shù)據其實和B組數(shù)據比起來相差是不大的。B組內的每一個數(shù)字增加的偏差不足以引起注意,如果2%以內的偏差都可以接受的話。然而當我們收集了1萬個數(shù)據記錄后,情況就發(fā)生了很大的變化。我們來看最后10個數(shù)據相差情況已經相當相當大了。A組數(shù)據和B組數(shù)據,在擁有海量的數(shù)據樣本的情況下,相差已是十萬八千里了。圖十顯示了偏差隨樣本量增加的變化情況。在樣本數(shù)量為4236左右,偏差的增加還不明顯。一過4236,偏差則出現(xiàn)了驚人的增長。圖十所以依此為判斷的話,我們可以說在數(shù)據樣本量4000左右,A組和B組比較,差別可能不大。但數(shù)據樣本量大于4000以后,A組和B組比較,可能就會相當不一樣了。這個例子充分說明了大數(shù)據相比較小數(shù)據而言對數(shù)據偏差更容易進行識別,從而發(fā)現(xiàn)數(shù)據收集過程中的問題并加以改善。虛假相關(spurious correlation)虛假相關,我們用一個例子來加以解釋說明。這兒還是以前面提到過的心血管數(shù)據為例?,F(xiàn)在只收集了200個記錄,但每條記錄都有100個各方各面因素的信息。這樣,我們想看是否這100個因素和“是否有心血管病”相關。如此,我們進行兩兩檢驗測試: 是否有心血管病和因素一進行檢驗,是否有心血管病和因素二進行檢驗是否有心血管病和因素一百進行檢驗。每一個檢驗測試結果只會出現(xiàn)兩種情況:統(tǒng)計學上有意義和統(tǒng)計學上無意義。統(tǒng)計學上有意義,簡單來說就是認為心血管病和該因素有關。統(tǒng)計學上無意義就是認為心血管病和該因素無關。 在此過程中,你可能發(fā)現(xiàn),大約會有5次在統(tǒng)計學上被認為與心血管病相關的因素,實際上從常識和現(xiàn)實來判斷是沒有任何關聯(lián)的,也就是說統(tǒng)計學上有意義是錯誤的。這就是虛假相關。為了讓我們能知其然也知其所以然,這兒要解釋一下“統(tǒng)計學上有意義”究竟是怎么界定的 。一般做檢驗測試時,我們會界定一個值,叫做第一類統(tǒng)計錯誤率。這個錯誤率通常被設定為5%,也就是說每100次檢驗測試,我們允許有5次在統(tǒng)計學上實際無意義的被錯誤判斷為統(tǒng)計學上有意義(如果不允許統(tǒng)計錯誤率的存在,那就是100%的正確率,也就是說沒有不確定性的存在。如果有這樣的數(shù)據,就不需要做任何統(tǒng)計上的假設檢驗了)。也就是說,如果實際不存在相關性,我們允許100次假設檢驗中出現(xiàn)5次錯誤相關。這就是以上例子中出現(xiàn)虛假相關的原因。 在面對龐大的海量數(shù)據和超多維度的因素時,當同時對一個數(shù)據進行許多檢驗測試時,不可避免會出現(xiàn)虛假相關。如何處理這個問題,統(tǒng)計學上還在做著進一步的研究。無意義顯著性(meaningless significance)還有一種情況我們稱為無意義的顯著性 (Lin, Lucas, & Shmueli, 2013)。當我們做兩組數(shù)據的分析比較時,如果A組,B組各只有1000個數(shù)據記錄,我們測試兩組數(shù)據的平均值是否一樣,結果告訴我們統(tǒng)計學上無意義。也就是說,這兩組數(shù)據的平均值無統(tǒng)計學上的差異。但當數(shù)據記錄達到上萬上百萬時,測試的結果告訴我們統(tǒng)計學上是有意義的了。這又是怎么回事?我們回到源頭上去看,為什么要做兩組數(shù)據的統(tǒng)計分析比較?不可以就算出兩組的平均值,比一比他們是否相同嗎?當然不可以,因為我們真正希望分析比較的結果是能夠反映100%總體數(shù)量數(shù)據的客觀現(xiàn)象。單純孤立的比較兩組各1000個記錄的平均值,就是比大小,比出來的結論不能推廣到100%總體數(shù)量數(shù)據的客觀現(xiàn)象上。但這兩組數(shù)據等同于100%總體數(shù)量數(shù)據嗎? 當然不是,就算是海量的大數(shù)據也并不能100%等同于總體數(shù)量數(shù)據。這樣我們分析總結出的這兩組數(shù)據的一些統(tǒng)計指標就會和總體數(shù)量數(shù)據的統(tǒng)計指標有一定的偏差。這個偏差一般有一個下限和上限,我們稱為置信區(qū)間。真實的總體數(shù)量數(shù)據的統(tǒng)計指標就落在樣本數(shù)據統(tǒng)計指標的左邊或右邊的一定范圍內(置信區(qū)間)。好了,我們實際要看的是A組總體數(shù)量數(shù)據和B組總體數(shù)量數(shù)據在平均值上是否一樣,換種說法就是A組總體數(shù)量數(shù)據平均值減B組總體數(shù)量數(shù)據平均值是否等于零: 。現(xiàn)在我們只有A組樣本數(shù)量數(shù)據平均值和B組樣本數(shù)量數(shù)據平均值,表達符號就是和。要看的就是A組樣本數(shù)量數(shù)據平均值減B組樣本數(shù)量數(shù)據平均值的差值是否等于0: 但我們已經知道由于樣本均分差的存在,樣本平均值相減的差值不一定是零,而且這個差值有一定的置信區(qū)間。那么我們實際上更精確的說是看0是否落在樣本差值的置信區(qū)間內(置信區(qū)間的上限和下限和上面提到的第一統(tǒng)計錯誤率是相一致的,有一個5%的概念在里面,這兒就不詳細介紹了。反正是否落在置信區(qū)間里否也可以用來判斷統(tǒng)計學上是有意義還是沒有意義)。落在里面我們就說是統(tǒng)計學上是沒有意義的也就是兩組數(shù)據的平均值是一樣。不落在里面我們就說是統(tǒng)計學上是有意義的也就是兩組數(shù)據的平均值不一樣。如圖十一所示:圖十一那為什么在樣本數(shù)據量為1000和 上萬上百萬的情況下結果會不一樣。這兒我們進一步要講的就是樣本數(shù)量和置信區(qū)間之間的關系了。隨著樣本數(shù)量的增加,樣本差值會和真實的總體數(shù)據差值接近(不一定就是0哦),同時不確定性會減小,置信區(qū)間會縮短,其實就是估計的差值越來越精準了。這種情況下,就算樣本差值是非常接近0的一個數(shù)(就是說我們都覺得兩組數(shù)據的平均值是一樣的了),但是由于置信區(qū)間的縮小,0仍舊會落在置信區(qū)間的外面(如圖十一,下部分2所示)。這樣一來,結果就會是統(tǒng)計學上是有意義的:兩組數(shù)據的平均值是不一樣的。現(xiàn)有的統(tǒng)計方法運用在大數(shù)據時會帶來這樣的一種錯誤信息。這是因為現(xiàn)有的傳統(tǒng)統(tǒng)計方法是針對小數(shù)據的,在被提出的時候,還沒有面對過或想到數(shù)據量可以如此龐大。如何解決如何改進由于這樣的數(shù)據特性帶來的問題,我們還在研究的路上。羊群效應(herding effect)大數(shù)據時代,我們的社會已經在越來越多的把個人的觀點數(shù)字化,匯總化,并依賴于此做出決策(比如根據收集到的評分來進行產品或服務的推薦)。這一現(xiàn)象在醫(yī)療界也漸漸的變的普遍起來。好多輔助醫(yī)療應用軟件在移動平臺上都會有使用者的評分,人們會根據評分來選擇是否使用一下。某些醫(yī)療網絡平臺推出的服務,比如網絡問診,使用者也可以對提供服務的醫(yī)療人員進行滿意度的評分,進而影響他人決定是否選擇此醫(yī)療人員來進行問診咨詢。利用這種“眾人的智慧”的一個關鍵要求是個人意見的獨立性。然而,在現(xiàn)實的世界中,匯總收集的集體意見卻很少是由互不相干的獨立的個體意見所組成的。最近的實驗研究證明先前已經存在的收集到的意見會歪曲隨后個人的決策還有對質量及價值的認知。凸顯出了一個根本的差異既: 我們從集體意見感知到的價值和產品本身固有的價值之間的差異。產生這種差異的原因在于“羊群效應” 。羊群效應簡單的描述就是個體的從眾跟風心理和行為。羊群是一種很散亂的組織,平時在一起也是盲目地左沖右撞,但一旦有一只頭羊動起來,其他的羊也會不假思索地一哄而上,全然不顧前 面可能有狼或者不遠處有更好的草。因此,“羊群效應”就是比喻一種從眾效應,很容易導致盲從,而盲從往往會陷入認知偏差,決策偏差。IBM Watson 研究中心 (Wang & Wang, 2014)使用大規(guī)??v向的客戶評分數(shù)據集(亞馬遜的)并建立統(tǒng)計模型演示了評分和意見的產生不是獨立,均勻的過程,而是創(chuàng)建了一個環(huán)境進而影響以后評分或意見的產生。體現(xiàn)在這種社會化的客戶評分系統(tǒng)中的“羊群效應”具體表現(xiàn)為:高評分傾向于產生新的高評分同時抑制低評分的產生。接下來的問題就是:什么是真實的符合產品真正質量的評分如果我們能把“羊群效應”給剔除出去的話? 應用IBM Wats

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論