已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第3 l 卷第1 期 2 0 1 4 年1 月 統(tǒng)計研究 S t a t i s t i c a lR e s e a r c h V 0 1 3 1 N o 1 J a n 2 0 1 4 大數(shù)據(jù)時代統(tǒng)計學(xué)面臨的機遇與挑戰(zhàn) 耿直 內(nèi)容提要 大數(shù)據(jù)給統(tǒng)計學(xué)帶來了機遇 挑戰(zhàn)和緊迫感 本文描述大數(shù)據(jù)的環(huán)境 利用大數(shù)據(jù)的目的和大數(shù)據(jù) 帶來的變革 介紹國內(nèi)外有關(guān)大數(shù)據(jù)的研究動向 探討大數(shù)據(jù)包含的信息 大數(shù)據(jù)的預(yù)處理 抽樣和分析方法 關(guān)鍵詞 大數(shù)據(jù) 抽樣 數(shù)據(jù)分析方法論 中圖分類號 C 8 2 9 2文獻標識碼 A文章編號 1 0 0 2 4 5 6 5 2 0 1 4 0 1 0 0 0 5 0 5 O p p o r t u n i t i e sa n dC h a l l e n g e si nt h eA g eo fB i gD a t af o rS t a t i s t i c s G e n gZ h i A b s t r a c t B i gd a t ab r i n g so p p o r t u n i t y c h a l l e n g e sa n du r g e n c yf o rs t a t i s t i c s T h i sp a p e rd e s c r i b e st h ee n v i r o n m e n t so f b i gd a t a t h eg o a lo fb i gd a t aa n dt h er e v o l u t i o nb yb i gd a t a A n di ta l s oi n t r o d u c e st h er e s e a r c ht r e n d sf o rb i gd a t aa th o m e a n da b r o a d T h ei n f o r m a t i o n p r e p r o c e s s s a m p l i n ga n da n a l y s i so fb i gd a t ah a v eb e e nd i s c u s s e d K e yw o r d s B i gD a t a S a m p l i n g M e t h o d o l o g yo fD a t aA n a l y s i s 一 引言 在人類利用觀察認知自然的方法論發(fā)展的歷程 中 最初神學(xué) 哲學(xué)和科學(xué)合為一體 巫術(shù) 占星術(shù)和 宗教是哲學(xué)和科學(xué)的前身 人類舊石器期用神學(xué)解 釋自然 根據(jù)蛙鳴預(yù)測下雨 用巫術(shù)和占星術(shù)祈禱 預(yù)測和干預(yù)自然 中國古代利用陰陽太極圖和八卦 圖作為思辨模型 分析和解釋自然和人文社會的現(xiàn) 象 古希臘文明孕育了演繹邏輯 歸納邏輯 文藝 復(fù)興前后哲學(xué)家提出觀察和試驗的方法 培根 F B a c o n 1 6 2 0 新工具 提出通過觀察實驗 運用三 表法 存在與具有表 差異表 程度表 穆勒 JS M i l l 1 8 4 3 邏輯體系 提出歸納四法 求同法 求異 法 共變法 剩余法 在統(tǒng)計方法論的發(fā)展中 貝葉 斯 TB a y e s 1 7 6 4 提出逆概率方法 利用觀察結(jié)果 推斷事件的概率 高爾頓 FG a h o n 1 8 8 6 將變量 間的相關(guān)關(guān)系進行了形式化 提出了相關(guān)系數(shù) 進一 步在相關(guān)性的基礎(chǔ)上提出了回歸預(yù)測的方法 皮爾 遜 KP e r s o n 1 9 0 0 提出了擬合優(yōu)度檢驗的方法 使 得人們能夠利用概率度量觀測現(xiàn)象與科學(xué)假說的擬 合程度 在此后的一個多世紀中統(tǒng)計方法有了突飛 猛進的發(fā)展 被廣泛地應(yīng)用到自然科學(xué) 經(jīng)濟金融和 人文社會科學(xué)的各個領(lǐng)域 在人類利用觀察探索自 然和社會規(guī)律的歷程中 從遠古時代的觀察加臆想 古希臘時代的觀察加理性推理 文藝復(fù)興時代的試 驗加理性推理 直到現(xiàn)代的抽樣加統(tǒng)計模型 當今時代 二方面人們在主動地獲取數(shù)據(jù) 各 個科學(xué)領(lǐng)域都在大量地獲取數(shù)據(jù) 自然科學(xué)領(lǐng)域收 集著從宏觀的天文數(shù)據(jù)到微觀的基因數(shù)據(jù) 經(jīng)濟 金 融和人文社會科學(xué)收集著大量的觀察和調(diào)查數(shù)據(jù) 一些人們在通宵達旦地制造和收集數(shù)據(jù) 他們相信 這些數(shù)據(jù)會對別人有用 也有一些人們脫離了實驗 室 僅依靠網(wǎng)絡(luò)數(shù)據(jù)從事研究 另一方面人們在被 動地囤積數(shù)據(jù) 隨著計算機互聯(lián)網(wǎng) 搜索引擎 電子 商務(wù) 多種傳感器和多媒體技術(shù)的發(fā)展和廣泛使用 各種形式的數(shù)據(jù)如江河流水般地涌來 當今數(shù)據(jù)的 獲取和規(guī)模發(fā)生了根本的變化 統(tǒng)計學(xué)面臨著新的 機遇和挑戰(zhàn) 需要在方法論上有所突破 本文在第二部分描述大數(shù)據(jù)的形式和環(huán)境 以 及利用大數(shù)據(jù)的目的 第三部分描述大數(shù)據(jù)帶來的 變革 第四部分介紹國內(nèi)外有關(guān)大數(shù)據(jù)的研究動向 第五部分探討大數(shù)據(jù)的信息問題 第六部分介紹大 本文獲國家自然科學(xué)基金項目 因果推斷的統(tǒng)計方法 批 準號1 1 1 7 1 3 6 5 和 生物統(tǒng)計 批準號1 1 3 3 1 0 1 1 的資助 本文為第十七次全國統(tǒng)計科學(xué)討論會特邀論文 萬方數(shù)據(jù) 6 統(tǒng)計研究2 0 1 4 年1 月 數(shù)據(jù)需要的預(yù)處理 抽樣和分析方法 特別地介紹了 網(wǎng)絡(luò)圖模型對大數(shù)據(jù)分析的潛在用途 最后一部分 是結(jié)束語 討論大數(shù)據(jù)給統(tǒng)計學(xué)帶來了機遇 挑戰(zhàn)和 緊迫感 二 大數(shù)據(jù)及其目的 狹義地講 大數(shù)據(jù)是一個大樣本和高維變量的 數(shù)據(jù)集合 針對樣本大的問題 統(tǒng)計學(xué)可以采用抽 樣減少樣本量 達到需要的精度 關(guān)于維數(shù)高的問 題 需要變量選擇 降維 壓縮 分解 但認知高維小 樣本存在本質(zhì)的困難 廣義地講 大數(shù)據(jù)涵蓋多學(xué) 科領(lǐng)域 多源 混合的數(shù)據(jù) 自然科學(xué) 人文社會 經(jīng) 濟學(xué) 通訊 網(wǎng)絡(luò) 商業(yè)和娛樂等各領(lǐng)域的數(shù)據(jù)集相 互重疊連成了一片數(shù)據(jù)的海洋 各學(xué)科之間數(shù)據(jù)融 合和貫通 學(xué)科的邊界已重疊和模糊 大數(shù)據(jù)涉及 各種數(shù)據(jù)類型 包括文本與語言 錄像與圖像 時空 網(wǎng)絡(luò)與圖形 我認為當代的大數(shù)據(jù)不僅數(shù)據(jù)量大 還包括多種類型數(shù)據(jù)和大量數(shù)據(jù)項目集的覆蓋 重疊 大部分傳統(tǒng)的統(tǒng)計方法只適合分析單個計算機 存儲的數(shù)據(jù) 而目前大數(shù)據(jù)的環(huán)境包括了舊o 1 數(shù)據(jù)流環(huán)境 數(shù)據(jù)快速不斷涌來 現(xiàn)有存儲 設(shè)備和計算能力難以應(yīng)付這種洪水般的數(shù)據(jù)流 2 磁盤存儲環(huán)境 數(shù)據(jù)已不能完全存儲在內(nèi)存 中 需要硬盤存儲 3 分布存儲環(huán)境 數(shù)據(jù)分布存儲在多個計算 機中 4 多線條環(huán)境 數(shù)據(jù)存儲在一個計算機中 多 個處理器共享內(nèi)存 大數(shù)據(jù)的目的是將數(shù)據(jù)轉(zhuǎn)化為知識 B i gD a t a t oK n o w l e d g e B D 2 K 探索數(shù)據(jù)的產(chǎn)生機制 進行 預(yù)測和制定政策舊 6 7 把信息轉(zhuǎn)變?yōu)橛杏玫闹R 還需漫長的時間 J 預(yù)測 不同于 制定政策 一個兒童的鞋子越大 可以預(yù)測他掌握的詞匯量越 多 但是 制定政策強制他穿大鞋子并不能提高他的 詞匯量 進一步 大數(shù)據(jù)有記錄保存自然與社會現(xiàn)狀的 作用 現(xiàn)在有些人收集著大量數(shù)據(jù) 盡管他們還不 清楚如何分析這些數(shù)據(jù) 但是他們相信需要保存現(xiàn) 今社會和經(jīng)濟高速發(fā)展的過程 期待著今后分析和 解釋這段歷史 還有些人將百歲老人的血液和其他 各種生物標本等存放在冰箱里 他們認為當今的技 術(shù)還不足以測試和分析這些資源 期待著今后更先 進的測試技術(shù) 大數(shù)據(jù)就如同自然和社會的血液那 樣記錄著社會的現(xiàn)狀和發(fā)展過程 1 7 世紀望遠鏡和顯微鏡的發(fā)明使人類看到了 以前從來沒有看到過的宇宙空間和微生物 擴大了 人類對自然的認識 大數(shù)據(jù)就像 望眼鏡 和 顯微 鏡 那樣 使得人們能夠通過數(shù)據(jù)觀察分析豐富的 自然 經(jīng)濟 社會的現(xiàn)象 借助互聯(lián)網(wǎng)數(shù)據(jù) 可以及 時了解疾病疫情 科學(xué)動態(tài) 社會動態(tài) 谷歌借助頻 繁檢索詞條能及時判斷流感從哪傳播 哪些人可能 感染了流感MJ 大數(shù)據(jù)將形成自然和人文社會的 歷史長河 不但能用于探索當代的科學(xué)問題 將來可 以用于研究人們食用轉(zhuǎn)基因食品對子孫后代的影響 等追蹤研究問題 為未來留下現(xiàn)今的歷史資料 三 大數(shù)據(jù)帶來的變革 大數(shù)據(jù)給我們的時代帶來了變革 目前 人們 習(xí)慣于根據(jù) 研究問題 來驅(qū)動 收集數(shù)據(jù) 今后 大數(shù)據(jù)到處可得 人們將會用 數(shù)據(jù) 驅(qū)動 研究問 題 就像我們出遠門前常常查詢目的地的天氣 交通和賓館那樣 未來人們在研究和決策前將會通 過查詢數(shù)據(jù)做決定 目前已經(jīng)有科學(xué)家開始使用軟 件搜索和匯總已發(fā)表論文中的成果 古希臘文明時 代哲學(xué)家是百科全書式的人物 文藝復(fù)興以來學(xué)科 的分裂和細化產(chǎn)生了單一學(xué)科的專家 大數(shù)據(jù)時 代 將可能再次出現(xiàn)百科全書式的人物 大數(shù)據(jù)將 減弱專家在各個領(lǐng)域的影響 甚至導(dǎo)致專家的消 亡 1 例如目前已經(jīng)有很多統(tǒng)計學(xué)家 物理學(xué)家和 計算機專家憑著他們對數(shù)據(jù)的敏銳和處理能力進入 了生命科學(xué)領(lǐng)域 假若我們有了成千上萬本中文書 和它們的阿拉伯語譯本 即使我們不懂阿拉伯語 我 們也能采用匹配文本的方法將中文翻譯成阿拉伯 語 谷歌機器翻譯團隊并不會說他們翻譯出的語 言 大數(shù)據(jù)中包含有各種不同目的的數(shù)據(jù)集 綜 合利用它們可以做出原來目的之外的意外成果 例 如 將醫(yī)院病歷數(shù)據(jù)與信用卡消費數(shù)據(jù)結(jié)合 我們能 發(fā)現(xiàn)食品與健康的相關(guān)關(guān)系 指導(dǎo)人們進行健康飲 食 假若再加上手機和G P S 等數(shù)據(jù) 還能隨時對人 們進行體檢 指導(dǎo)健身 減少猝死 幫助醫(yī)生診斷疾 病等 應(yīng)用大數(shù)據(jù)可以設(shè)想的用途不計其數(shù) 四 大數(shù)據(jù)的研究動向 美國科學(xué)院全國研究理事會的 大數(shù)據(jù)分析委 萬方數(shù)據(jù) 第3 1 卷第1 期耿直 大數(shù)據(jù)時代統(tǒng)計學(xué)面臨的機遇與挑戰(zhàn) 7 員會舊1 提出了大數(shù)據(jù)的挑戰(zhàn)問題 處理高度分布的 數(shù)據(jù)資源 追蹤數(shù)據(jù)的來源 核實數(shù)據(jù) 處理樣本偏 倚和異質(zhì)性 處理不同格式和結(jié)構(gòu)的數(shù)據(jù) 開發(fā)并行 和分布式算法 數(shù)據(jù)的完整性 安全性 一體化和共 享 開發(fā)大數(shù)據(jù)的可視化方法和可擴展算法 處理實 時分析和決策制定 美國國家衛(wèi)生研究院 N I H 1 提出將數(shù)據(jù)轉(zhuǎn)換為知識 B D 2 K 的使命 設(shè)立生物 醫(yī)學(xué)大數(shù)據(jù)研究中心基金 在我國 科技部組織召開了兩次香山會議 2 0 1 2 年5 月 大數(shù)據(jù)科學(xué)與工程 2 0 1 3 年5 月 數(shù)據(jù)科 學(xué)與大數(shù)據(jù)的科學(xué)原理及發(fā)展前景 設(shè)立了大數(shù) 據(jù)的 9 7 3 專項研究計劃 國家自然科學(xué)基金委 2 0 1 3 年3 月組織了雙清論壇 大數(shù)據(jù)技術(shù)與應(yīng)用中 的挑戰(zhàn)性科學(xué)問題 國家自然科學(xué)基金委的數(shù)理 學(xué)部 信息學(xué)部 管理學(xué)部都計劃設(shè)立大數(shù)據(jù)的重大 項目和重點項目群 國家社科基金計劃設(shè)立大數(shù)據(jù) 的重大項目 另外 業(yè)界 咨詢公司和投資商都在尋 找大數(shù)據(jù)的機會 大數(shù)據(jù)分析的方法研究超出了單一學(xué)科領(lǐng)域 需多學(xué)科聯(lián)合 統(tǒng)計學(xué)家需要關(guān)注計算機資源和實 時決策 計算機學(xué)家需要了解統(tǒng)計推斷和算法的復(fù) 雜性 另外 利用大數(shù)據(jù)還需要相關(guān)領(lǐng)域?qū)<业膶?業(yè)知識 五 大數(shù)據(jù)的信息和問題 大數(shù)據(jù)是多源異質(zhì)的 覆蓋不同范圍的數(shù)據(jù) 為了融合各種數(shù)據(jù) 需要對數(shù)據(jù)來源 數(shù)據(jù)的獲取方 式和數(shù)據(jù)描述進行形式化 以支撐數(shù)據(jù)分析 大數(shù) 據(jù)來自多種渠道 存在抽樣偏倚 隨機的和非隨機的 誤差 無意的和有意的錯誤 數(shù)據(jù)收集的準則與數(shù) 據(jù)分析和決策的準則不相符合 有些數(shù)據(jù)不是原始 數(shù)據(jù) 而是推斷的結(jié)果 如填補的缺失數(shù)據(jù) 數(shù)據(jù) 的循環(huán)使用導(dǎo)致偏差和噪音被放大 數(shù)據(jù)量大不一 定有用的信息多 大量的含偏差數(shù)據(jù)甚至?xí)茐男?息 應(yīng)意識到分析大數(shù)據(jù)也許會得到虛假知識 而 自己卻不知情 在大數(shù)據(jù)環(huán)境下 收集數(shù)據(jù)的人也 許不清楚未來使用數(shù)據(jù)的人要做什么 使用數(shù)據(jù)建 模的人也許不清楚數(shù)據(jù)是如何得到的 使用模型的 人也許不知道模型是從什么數(shù)據(jù)得出來的 因此 難免人們會根據(jù)自己的意圖過分地解釋模型 超出 了原始數(shù)據(jù)所包含的信息范圍 獲取的數(shù)據(jù)也可能存在選擇偏倚 如醫(yī)院就診的 病人和使用互聯(lián)網(wǎng)的人不能代表研究總體 大數(shù)據(jù) 難免存在不響應(yīng)和缺失數(shù)據(jù) 有些數(shù)據(jù)是隨機缺失 的 非隨機缺失的 因為敏感問題或隱私問題而缺失 的 不同研究收集不同的 有重疊變量的數(shù)據(jù)集 例 如 經(jīng)濟 保險 社會 醫(yī)學(xué) 生物 化學(xué)等研究的問題 不同 收集數(shù)據(jù)的變量集合不同 x Y z x Y U V 等 但是它們也許有共同感興趣的變量交集 另外 來自觀察的數(shù)據(jù)和來自試驗的數(shù)據(jù)具有 不同的信息 不同信息導(dǎo)致不同的認知范圍 數(shù)據(jù) 本身含有的信息是有邊界的 決定了數(shù)據(jù)分析解釋 的范圍 模型只是數(shù)據(jù)信息的精練 不能向外延展 數(shù)據(jù)的信息 利用模型進行超出數(shù)據(jù)信息之外的推 斷 需要額外的假定 而這些假定不能被數(shù)據(jù)證偽 六 大數(shù)據(jù)的處理 抽樣與分析 一 數(shù)據(jù)的預(yù)處理 大數(shù)據(jù)的預(yù)處理包括數(shù)據(jù)清洗 不完全數(shù)據(jù)填 補 數(shù)據(jù)糾偏與矯正 利用隨機抽樣數(shù)據(jù)矯正雜亂 的 非標準的數(shù)據(jù)源 統(tǒng)計機構(gòu)的數(shù)據(jù)是經(jīng)過嚴格 抽樣設(shè)計獲取的 具有總體的代表性和系統(tǒng)誤差小 的優(yōu)勢 但是數(shù)據(jù)獲取和更新的周期長 盡管調(diào)查項 目有代表性 但難以無所不包 而互聯(lián)網(wǎng)數(shù)據(jù)的獲 取速度快 量大 項目繁細 但是難以避免數(shù)據(jù)獲取 的偏倚性 將統(tǒng)計機構(gòu)的數(shù)據(jù)作為金標準和框架對 互聯(lián)網(wǎng)數(shù)據(jù)進行矯正 將互聯(lián)網(wǎng)數(shù)據(jù)作為補充資源 對統(tǒng)計機構(gòu)的數(shù)據(jù)進行實時更新 也許是解決問題 的一個思路 研究利用多源數(shù)據(jù)的重疊關(guān)系整合多 數(shù)據(jù)庫資源的方法 多種專題 p a n e l s 的數(shù)據(jù)可以 相互聯(lián)合 實現(xiàn)單一專題數(shù)據(jù)不能完成的目標 二 大數(shù)據(jù)環(huán)境的抽樣 大數(shù)據(jù)的抽樣方法有待研究 1 樣本 不必 使用所有 數(shù)據(jù) 不管鍋有多大 只要充分攪勻 品 嘗一小勺就知道其滋味 針對大數(shù)據(jù)流環(huán)境 需要 探索從源源不斷的數(shù)據(jù)流中抽取足以滿足統(tǒng)計目的 和精度的樣本 需要研究新的適應(yīng)性 序貫性和動 態(tài)的抽樣方法 根據(jù)已獲得的樣本逐步調(diào)整感興趣 的調(diào)查項目和抽樣對象 使得最近頻繁出現(xiàn)的 熱 門 數(shù)據(jù) 也是感興趣的數(shù)據(jù)進入樣本 建立數(shù)據(jù) 流的緩沖區(qū) 記錄新發(fā)生數(shù)據(jù)的頻數(shù) 動態(tài)調(diào)整不在 樣本中的數(shù)據(jù)進入樣本的概率 對于罕見案例 如 果采用簡單隨機抽樣將會抽到很少的案例和過多的 非案例數(shù)據(jù) 需要研究大數(shù)據(jù)的案例抽樣方法 萬方數(shù)據(jù) 8 統(tǒng)計研究 2 0 1 4 年1 月 C a s e b a s e ds a m p l i n g 探索基于事件的抽樣方法 E v e n t b a s e ds a m p l i n g 設(shè)置信號強度門檻值 僅 抽樣超過門檻值的數(shù)據(jù) 利用其他各種抽樣技術(shù) 例如 捕獲一再捕獲 不等概率抽樣 將注意力放到 總體中難以觀測到的部分 在大數(shù)據(jù)環(huán)境中采用非 隨機抽樣方法 如滾雪球方法 從種子開始逐步擴大 樣本 研究對社會關(guān)系網(wǎng)絡(luò)和圖的抽樣方法 從隨 機種子出發(fā) 不斷加入新種子 了解網(wǎng)絡(luò)性質(zhì)和結(jié) 構(gòu) 需要研究發(fā)現(xiàn)稀疏信號的方法和壓縮感知方 法 成組檢測是發(fā)現(xiàn)稀疏信號的一個特別方法 例 如美國1 9 4 3 年對新兵驗血檢查梅毒感染時 由于梅 毒是罕見疾病 采用了將一組人群的血液混合在一 起進行檢測的高效快捷方法 三 大數(shù)據(jù)的分析與整合 針對大數(shù)據(jù)的高維問題 需要研究降維和分解 的方法 探討壓縮大數(shù)據(jù)的方法 直接對壓縮的數(shù) 據(jù)核進行傳輸 運算和操作 除了常規(guī)的統(tǒng)計分析 方法 包括高維矩陣 降維方法 變量選擇之外 需要 研究大數(shù)據(jù)的實時分析 數(shù)據(jù)流算法 d a t as t r e a m c o m p u t i n g 不用保存數(shù)據(jù) 僅掃描一遍數(shù)據(jù)的數(shù) 據(jù)流算法 考慮計算機內(nèi)存和外存的數(shù)據(jù)傳送問題 分布數(shù)據(jù)和并行計算的方法 如何無信息損失或無 統(tǒng)計信息損失地分解大數(shù)據(jù)集 獨立并行地在分布 計算機環(huán)境進行推斷 各個計算機的中間計算結(jié)果 能相互聯(lián)系溝通 構(gòu)造全局統(tǒng)計結(jié)果 研究多個數(shù) 據(jù)資源的融合算法 研究利用數(shù)據(jù)流尋找模型變化 時間點的動態(tài)變化模型 針對多種不同數(shù)據(jù)庫的環(huán)境 利用關(guān)系數(shù)據(jù)庫 技術(shù) 根據(jù)關(guān)鍵字 例如 身份證 將很多小數(shù)據(jù)庫 連接成一個大數(shù)據(jù)庫 另一方面 能無信息損失地 將大數(shù)據(jù)庫拆分為多個小數(shù)據(jù)庫 組合多數(shù)據(jù)庫的 不同數(shù)據(jù)集合 可以做出有創(chuàng)意的東西 丹麥有一 個手機用戶的數(shù)據(jù)庫 共3 5 8 4 0 3 人 另一個記錄了 癌癥患者的數(shù)據(jù)庫 有1 0 7 2 9 名中樞神經(jīng)系統(tǒng)患者 的信息 將兩個數(shù)據(jù)庫結(jié)合 研究手機與癌癥之間 的關(guān)系 發(fā)現(xiàn)使用手機和癌癥之間不存在任何關(guān) 系 其結(jié)果發(fā)表在2 0 1 1 年的 英國醫(yī)學(xué)雜志 1 在大數(shù)據(jù)環(huán)境 很多數(shù)據(jù)集不再有標識個體的 關(guān)鍵字 傳統(tǒng)的關(guān)系數(shù)據(jù)庫連接方法不再適用 需要 探討利用數(shù)據(jù)庫之間的重疊項目來結(jié)合不同的數(shù)據(jù) 庫 利用變量間的條件獨立性整合多個不同變量集 的數(shù)據(jù)為一個完整變量集的大數(shù)據(jù)庫的方法 探索 不必經(jīng)過整合多數(shù)據(jù)庫 直接利用局部數(shù)據(jù)進行推 斷和各推斷結(jié)果傳播的方法 另一方面 利用統(tǒng)計 性質(zhì)無信息損失地分解和壓縮大數(shù)據(jù) 在多源和多專題的數(shù)據(jù)庫環(huán)境 各個數(shù)據(jù)集的 獲取條件不同 項目不同又有所重疊 在這種情況 下 一種分析方法是分別利用各個數(shù)據(jù)集得到各自 的統(tǒng)計結(jié)論 然后整合來自這些數(shù)據(jù)集的統(tǒng)計結(jié)論 如薈萃分析方法 我們曾提出 中間變量悖論 指 出統(tǒng)計結(jié)論不具備傳遞性 1 例如 變量A 對變量 B 有正作用 并且變量B 對變量C 有正作用 但是 可能變量A 對變量C 有負作用 為了避免 中間變 量悖論 的現(xiàn)象發(fā)生 可以先整合數(shù)據(jù) 再利用整合 的數(shù)據(jù)進行推斷 我們提出了判斷已有的各種條件 數(shù)據(jù)集是否能識別所有變量聯(lián)合分布的算法 例如 有5 個數(shù)據(jù)庫 包含的變量的模式為 D E F I A B C G A D G I B C D E I F B I A C D G c I D E 一個字母表示一個變量 D E l F 表示在給定變量F 條件下獲得的變量D 和E 的 數(shù)據(jù) 根據(jù)我們的算法可以判斷由這些條件數(shù)據(jù)庫 可以識別和估計所有變量 A B C D E F G 的聯(lián) 合分布 四 網(wǎng)絡(luò)圖模型 網(wǎng)絡(luò)圖模型用圖的結(jié)構(gòu)描述高維變量之間的相 互關(guān)系 包括無向圖概率模型 貝葉斯網(wǎng)絡(luò) 因果網(wǎng) 絡(luò)等舊J 網(wǎng)絡(luò)圖模型是處理和分析高維大數(shù)據(jù)和 多源數(shù)據(jù)庫的有效工具 目前已經(jīng)有豐富的圖模型 的軟件系統(tǒng) 例如M S B N B NT o o l b o x W i n B U G S H u g i n T e t r a d M I M C o C o 等 無向圖模型利用有 或無一條無方向邊來描述變量之間的關(guān)聯(lián)關(guān)系和條 件獨立性 可以將高維變量的統(tǒng)計推斷問題 例如 參數(shù)估計和假設(shè)檢驗 分解為低維變量的統(tǒng)計推斷 問題 貝葉斯網(wǎng)絡(luò)是一個有向無環(huán)圖 用于計算大 網(wǎng)絡(luò)中信息的收集和傳播 在一個由眾多變量作為 結(jié)點的大網(wǎng)絡(luò)中 當收集到一部分變量的信息后 不 用計算高維聯(lián)合概率 而是采用網(wǎng)絡(luò)傳播信息流的 方法有效地計算目標變量的后驗概率 P e a r l 2 0 1 1 年圖靈獎獲得者 提出因果網(wǎng)絡(luò) 采用有向圖刻畫 變量間的因果關(guān)系 利用數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu) 發(fā)現(xiàn)產(chǎn) 生數(shù)據(jù)的機制和因果關(guān)系網(wǎng)絡(luò) 網(wǎng)絡(luò)圖模型可以用于分解大數(shù)據(jù)集合 處理多 源數(shù)據(jù)庫 利用局部數(shù)據(jù) 進行并行計算 網(wǎng)絡(luò)圖模 型還可以引入隱變量簡化復(fù)雜的關(guān)聯(lián)關(guān)系 利用關(guān) 萬方數(shù)據(jù) 第3 1 卷第1 期耿直 大數(shù)據(jù)時代統(tǒng)計學(xué)面臨的機遇與挑戰(zhàn) 9 聯(lián)網(wǎng)絡(luò)圖進行基于關(guān)聯(lián)關(guān)系的預(yù)測 例如 樸素貝葉 斯分類器和貝葉斯網(wǎng)絡(luò)分類器 利用因果網(wǎng)絡(luò)圖可 以進行基于因果關(guān)系的預(yù)測和政策制定 我們提出 盲人摸象 方法 利用多個不完全數(shù) 據(jù)庫學(xué)習(xí)整體網(wǎng)絡(luò)結(jié)構(gòu)的算法 o 1 1 首先分別利 用各個數(shù)據(jù)庫學(xué)習(xí)各自的局部網(wǎng)絡(luò)結(jié)構(gòu) 然后將這 些局部結(jié)構(gòu)相互交流配合 最終整合一個全局的網(wǎng) 絡(luò)結(jié)構(gòu) 當因果關(guān)系不能完全根據(jù)數(shù)據(jù)確定時 我 們提出采用主動學(xué)習(xí)的方法 抓住主要變量進行干 預(yù)試驗 確定整個網(wǎng)絡(luò)的因果關(guān)系 達到 壹引起 綱 萬目皆張 的作用 我們提出利用因果關(guān)系 制定干預(yù)政策的 尋根問題 順謄摸瓜 的方 法 這個方法不必構(gòu)造高維變量的完整因果網(wǎng) 絡(luò) 而是從一個目標結(jié)點出發(fā) 逐步進行局部變量選 擇和局部網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí) 最終確定并能區(qū)分該目標 節(jié)點的原因與結(jié)果 七 結(jié)束語 一個新生事物的出現(xiàn)將必定導(dǎo)致傳統(tǒng)觀念和技 術(shù)的革命 數(shù)碼照相機的出現(xiàn)導(dǎo)致傳統(tǒng)相片膠卷和 影像業(yè)的已近消亡 如果大數(shù)據(jù)包含了所有父親和 兒子的身高數(shù)據(jù) 只要計算給定的父親身高下所有 兒子的平均身高就可以預(yù)測其兒子身高了 模型不 再重要 當年統(tǒng)計學(xué)最得意的回歸預(yù)測方法將被淘 汰 大數(shù)據(jù)的到來將對傳統(tǒng)的統(tǒng)計方法進行考驗 統(tǒng)計學(xué)會不會象科學(xué)哲學(xué)那樣 只佩戴著歷史的光 環(huán) 而不再主導(dǎo)和引領(lǐng)人們分析和利用大數(shù)據(jù)資源 現(xiàn)在其他學(xué)科和行業(yè)涌人大數(shù)據(jù)的熱潮 如果統(tǒng)計 學(xué)不抓緊參與的話 將面臨著被邊緣化的危險 現(xiàn)今統(tǒng)計學(xué)的目標是通過獲取數(shù)據(jù)和分析數(shù)據(jù) 發(fā)現(xiàn)真理 總體的參數(shù)和性質(zhì) 統(tǒng)計方法和理論對 數(shù)據(jù)有過高的要求 而大數(shù)據(jù)充滿了各種隨機的 非隨機的誤差和偏倚 不能滿足這些苛刻的要求 按照波普的科學(xué)劃界準則 只要我們能從大數(shù)據(jù)中 提煉出具有可證偽的結(jié)論 那么這個結(jié)論還是科學(xué) 的 可以用于知識積累 這些可證偽的大數(shù)據(jù)結(jié)論 可作為進一步科學(xué)研究的假說 以數(shù)據(jù)驅(qū)動研究 我們在看到大數(shù)據(jù)給統(tǒng)計學(xué)帶來了機遇的同 時 也應(yīng)該看到現(xiàn)在的統(tǒng)計方法普遍只適用于全部 數(shù)據(jù)放在單個計算機內(nèi)存的環(huán)境 分布式大數(shù)據(jù)和 數(shù)據(jù)流的環(huán)境給統(tǒng)計學(xué)帶來了挑戰(zhàn) 統(tǒng)計學(xué)家不應(yīng) 該固守傳統(tǒng)數(shù)據(jù)的環(huán)境 必須積極學(xué)習(xí)新生事物 適 應(yīng)新的大數(shù)據(jù)環(huán)境 擴展統(tǒng)計學(xué)的應(yīng)用領(lǐng)域 創(chuàng)造出 迎合大數(shù)據(jù)的新統(tǒng)計方法 機遇 與 挑戰(zhàn) 并存 參考文獻 1 C h e nH G e n gZ J i aJ C r i t e r i af o rs u r r o g a t ee n dp o i n t s J J R o y a lS t a t i s tS o cS e r 2 0 0 7 B6 9 9 1 9 9 3 2 2 C o m m i t t e eo nt h eA n a l y s i so fM a s s i v eD a t ae ta 1 2 0 1 3 F r o n t i e r si n M a s s i v eD a t aA n a l y s i s J N a t i o n a lA c a d e m i e sP r e s s W a s h i n g t o n h t t p w w w n a p e d u e a t a l o g p h p r e c o r d i d 1 8 3 7 4 3 D e n gK G e n gz L i uJ A s s o c i a t i o nP a t t e r nD i s c o v e r yv i aT h e m e D i c t i o n a r yM o d e l s J T oa p p e a ri nJR o y a lS t a t i s tS o cB 2 0 1 3 4 H eY G e n gZ A c t i v el e a r n i n go fc a u s a ln e t w o r k sw i t hi n t e r v e n t i o n e x p e r i m e n t s a n d o p t i m a ld e s i g n s J JM a c h i n eL e a r n i n g R e s e a r c h 2 0 0 8 9 2 5 2 3 2 5 4 7 5 J i aJ G e n gz W a n gM I d e n t i f i a b i l i t ya n de s t i m a t i o no f p r o b a b i l i t i e sf r o mm u l t i p l ed a t a b a s e sw i t hi n c o m p l e t ed a t aa n d s a m p l i n gs e l e c t i o n J L e c t u r eN o t e si nC o m p u t e rS c i e n c e s 2 0 0 6 4 1 0 9 7 9 2 7 9 8 6 維克托 邁爾一舍恩伯格 肯尼思 庫克耶 大數(shù)據(jù)時代一生活 工作與思維的大變革 M 盛楊燕 周濤譯 杭州 浙江人民出 版社 7 N I HB i gD a t at oK n o w l e d g e 2 0 1 3 h t t p b d 2 k n i h g o v i n d e x h t m l s t h a s h Y u 5 H x j c M d p b s 8 P e a r lJ C a u s a l i t y2 e dC a m b r i d g eU n i v e r s i t yP r e s s 2 0 0 9 9 納特 西
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度高新技術(shù)企業(yè)貸款擔(dān)保合同期限規(guī)范
- 2024年農(nóng)業(yè)現(xiàn)代化除草工程合同書3篇
- 2024年現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)基地建設(shè)合同
- 2025餐飲合同分紅協(xié)議書
- 2024全新房地產(chǎn)評估咨詢勞動合同范本3篇
- 2024年度物業(yè)項目全生命周期管理合同樣本3篇
- 2024年珠寶行業(yè)保值回購合同3篇
- 2025常用版工廠勞動合同樣式
- 2024年甲乙雙方商務(wù)車租賃合同(含維修責(zé)任)
- 2024年度食品代加工與品牌孵化合作協(xié)議3篇
- DPtech-FW1000系列防火墻系統(tǒng)操作手冊
- 2024-2030年中國婦科凝膠行業(yè)市場發(fā)展分析及前景趨勢與投資研究報告
- 《海上漁業(yè)養(yǎng)殖設(shè)施指南》2024
- 【發(fā)動機曲軸數(shù)控加工工藝過程卡片的設(shè)計7800字(論文)】
- 店鋪(初級)營銷師認證考試題庫附有答案
- 飛機儀電與飛控系統(tǒng)原理智慧樹知到期末考試答案章節(jié)答案2024年中國人民解放軍海軍航空大學(xué)
- 口腔潰瘍的表觀遺傳調(diào)控與治療靶點
- 醫(yī)院護理培訓(xùn)課件:《安全注射》
- 礦山開采合股協(xié)議書
- 11304+《管理案例分析》紙考2023.12
- 《勇敢面對挫折和困難》參考課件
評論
0/150
提交評論