




已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀
統(tǒng)計面臨的挑戰(zhàn).pdf.pdf 免費下載
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1 統(tǒng)計面臨的挑戰(zhàn)統(tǒng)計面臨的挑戰(zhàn) 吳喜之 2 科學與統(tǒng)計科學與統(tǒng)計 3 統(tǒng)計的地位統(tǒng)計的地位 統(tǒng)計在人類生活的各個方面所起 的 統(tǒng)計在人類生活的各個方面所起 的重大作用重大作用無可置疑無可置疑 當然 當然 很多人不知道這一點很多人不知道這一點 還有一個問題 什么是真正的統(tǒng) 計 還有一個問題 什么是真正的統(tǒng) 計 4 統(tǒng)計的地位統(tǒng)計的地位 在美國統(tǒng)計早已經(jīng)取代計算機 成為 在美國統(tǒng)計早已經(jīng)取代計算機 成為最容易最容易找工作的專業(yè)找工作的專業(yè) 美國普通公眾對統(tǒng)計有著美國普通公眾對統(tǒng)計有著過分過分的 崇拜 的 崇拜 而中國數(shù)學類學生赴美留學的而中國數(shù)學類學生赴美留學的首 選專業(yè) 首 選專業(yè)也是統(tǒng)計也是統(tǒng)計 在美國 大量學物理 計算機 電子等專業(yè)的人 在美國 大量學物理 計算機 電子等專業(yè)的人改行學統(tǒng)計改行學統(tǒng)計 5 那么 什么是統(tǒng)計呢 那么 什么是統(tǒng)計呢 6 STATISTICS the science of collecting analyzing presenting and interpreting data 7 統(tǒng)計統(tǒng)計 統(tǒng)計方法就是科學的方法 統(tǒng)計方法就是科學的方法 什么是科學和科學的方法呢 什么是科學和科學的方法呢 面對需要 收集數(shù)據(jù) 根據(jù)數(shù) 據(jù)建立模型 利用模型做預測或 得到其它結論 模型則根據(jù)新的 信息進行更新 面對需要 收集數(shù)據(jù) 根據(jù)數(shù) 據(jù)建立模型 利用模型做預測或 得到其它結論 模型則根據(jù)新的 信息進行更新 8 科學的方法科學的方法 對世界的認識源于獲得的信息或數(shù)據(jù)信息或數(shù)據(jù) 總結信息時會形成模型模型 假說或理論 模型會指導指導進一步的探索 直到 遇到這些模型無法無法解釋的現(xiàn)象 這就 導致對這些模型的更新和替代 這就是科學的方法 用科學方法進行 的探索才叫科學 用科學方法進行 的探索才叫科學 9 例 天文學例 天文學 公元2世紀托勒玫宇宙地心說 1543年哥白尼闡明了日心說 開普勒發(fā)現(xiàn)行星運動原理 伽利略把 望遠鏡用于天文觀測 牛頓又建立了 運動和萬有引力定律 賴特在1750年 提出宇宙是由眾多星系構成 18世紀 末 赫歇爾首先進行了巡天觀測 奠 定了現(xiàn)代恒星天文學的基礎 10 例例 牛頓 愛因斯坦牛頓 愛因斯坦 牛頓建立了運動定律和萬有引力定律 可解釋 相當大部分人們周圍所觀測到的現(xiàn)象 后來在亞原子尺度上 在行星觀測中出現(xiàn)牛頓 的慣性定律或萬有引力定律無法解釋的現(xiàn)象 這就導致了愛因斯坦狹義和廣義相對論的產(chǎn)生 又出現(xiàn)和相對論矛盾的現(xiàn)象 將會促進對相對 論的修正 11 科學方法的步驟科學方法的步驟 科學方法是科學方法是目前已知的目前已知的篩去謊言和錯覺的最好 方式 科學方法的步驟可做如下大致的描述 篩去謊言和錯覺的最好 方式 科學方法的步驟可做如下大致的描述 1 觀測宇宙的某些方面 觀測宇宙的某些方面 2 發(fā)明或提出可以解釋這些觀測的假說或假設 它必須和觀測結果是相容的 發(fā)明或提出可以解釋這些觀測的假說或假設 它必須和觀測結果是相容的 3 利用該假說進行預測 利用該假說進行預測 4 用實驗來檢驗這些預測用實驗來檢驗這些預測 證偽 證偽 或者做進一 步觀測并根據(jù)結果修正假說 或者做進一 步觀測并根據(jù)結果修正假說 5 重復第重復第3 4步直到在理論和實驗或觀測中沒有 矛盾為止 步直到在理論和實驗或觀測中沒有 矛盾為止 12 理論理論 能夠說明很多現(xiàn)象的假說可稱為理論 但任何理論都不能達到絕對的真理 科學理論都應該是可證偽的 falsifiable 應該 存在某種實驗或可能的發(fā)現(xiàn)可能證明理論是不 對的 科學是在證偽中發(fā)展的 基于不能重復觀測或重復實驗的現(xiàn)象而產(chǎn) 生的許多說法 都不是科學 最多是信仰 神的存在是無法證偽的 宗教不是科學 而是 信仰 13 科學是靠證據(jù)說話科學是靠證據(jù)說話 理論適用與否靠實驗或觀測 不能靠辯論 古希臘的偉大哲學家亞里士多德用各種理由 辯論說男人和女人的牙齒數(shù)目不同 基于含糊不清或者不適當?shù)那疤岬倪壿嬐评?是沒有多大意義的 14 科學研究必需是毫無偏見的 科學的結論應該科學的結論應該獨立于研究人員的文 化背景 社會背景 種族 習慣 宗 教和政治信仰等因素 獨立于研究人員的文 化背景 社會背景 種族 習慣 宗 教和政治信仰等因素 15 科學領域的造假科學領域的造假 存在制造假的研究結果的現(xiàn)象 但除非造假者的結論沒有多大 意義 總是會被人發(fā)現(xiàn)的 除非造假者的結論沒有多大 意義 總是會被人發(fā)現(xiàn)的 如1989美國猶他大學的彭斯 和英國南安普敦大學的弗萊什 曼冷核聚變冷核聚變以及韓國科學家黃 禹錫克隆胚胎干細胞的例子 黃 禹錫克隆胚胎干細胞的例子 16 權力 宗教和意識形態(tài)對科學造成嚴重干擾權力 宗教和意識形態(tài)對科學造成嚴重干擾 擁護哥白尼的 天體運行論 的布魯諾被羅馬教廷以 異端分子和異端分子的老師 的罪名 于1600年2月 17日被燒死在羅馬鮮花廣場 加利略由支持日心說于1633年被羅馬天主教廷判決 軟禁 他在軟禁中度過余生 結果使得地中海地區(qū) 的科學傳統(tǒng)完全停止了 17 權力 宗教和意識形態(tài)科學造成嚴重干擾權力 宗教和意識形態(tài)科學造成嚴重干擾 在1930 60年代 蘇聯(lián)的全蘇列寧農(nóng)業(yè)科學 院院長李森科把孟德爾和摩爾根遺傳學斥為 資產(chǎn)階級的異端邪說 并在斯大林的支持下 對蘇聯(lián)的研究基因的學者實行人身迫害 此 事也對中國遺傳學界產(chǎn)生了惡劣影響 18 統(tǒng)計學是所有學科的工具統(tǒng)計學是所有學科的工具 統(tǒng)計學方法是科學的方法統(tǒng)計學方法是科學的方法 19 統(tǒng)計應該是一門科學統(tǒng)計應該是一門科學 由于歷史和國情 在很長一段時期中 這里所說的 統(tǒng)計學在蘇聯(lián)和在我國被官方認為是資本主義的 同時我國一些與 由于歷史和國情 在很長一段時期中 這里所說的 統(tǒng)計學在蘇聯(lián)和在我國被官方認為是資本主義的 同時我國一些與 官方觀點官方觀點 不一致的統(tǒng)計學家受到 持續(xù)的批判 比如中國人民大學留美教授戴世光 不一致的統(tǒng)計學家受到 持續(xù)的批判 比如中國人民大學留美教授戴世光 20 統(tǒng)計的應用統(tǒng)計的應用 統(tǒng)計學與各個學科的數(shù)據(jù)都打交道 統(tǒng)計學實際上已經(jīng) 應用于所有領域 作為例子 它們包括 統(tǒng)計學與各個學科的數(shù)據(jù)都打交道 統(tǒng)計學實際上已經(jīng) 應用于所有領域 作為例子 它們包括 精算 農(nóng)業(yè) 動物學 人類學 考古學 審計學 晶體學 人口統(tǒng)計 學 牙醫(yī)學 生態(tài)學 經(jīng)濟計量學 教育學 選舉預測 和策劃 工程 流行病學 金融 水產(chǎn)漁業(yè)研究 遺傳 學 地理學 地質學 歷史研究 人類遺傳學 水文 學 工業(yè) 法律 語言學 文學 勞動力計劃 管理科 學 市場營銷學 醫(yī)學診斷 氣象學 軍事科學 核材 料安全管理 眼科學 制藥學 物理學 政治學 心理 學 心理物理學 質量控制 宗教研究 社會學 調查 抽樣 分類學 氣象改善 遙感 搏采 精算 農(nóng)業(yè) 動物學 人類學 考古學 審計學 晶體學 人口統(tǒng)計 學 牙醫(yī)學 生態(tài)學 經(jīng)濟計量學 教育學 選舉預測 和策劃 工程 流行病學 金融 水產(chǎn)漁業(yè)研究 遺傳 學 地理學 地質學 歷史研究 人類遺傳學 水文 學 工業(yè) 法律 語言學 文學 勞動力計劃 管理科 學 市場營銷學 醫(yī)學診斷 氣象學 軍事科學 核材 料安全管理 眼科學 制藥學 物理學 政治學 心理 學 心理物理學 質量控制 宗教研究 社會學 調查 抽樣 分類學 氣象改善 遙感 搏采 等等 等等 21 當今 當今 任何領域任何領域的研究結果 如果沒有 根據(jù)數(shù)據(jù)所作出的結論 很難被認可的 的研究結果 如果沒有 根據(jù)數(shù)據(jù)所作出的結論 很難被認可的 22 中國統(tǒng)計中的偽科學中國統(tǒng)計中的偽科學 中國統(tǒng)計過去 現(xiàn)在 分為 統(tǒng) 計學 中國統(tǒng)計過去 現(xiàn)在 分為 統(tǒng) 計學 文科的 列寧主義 統(tǒng) 計 即現(xiàn)在所謂 文科的 列寧主義 統(tǒng) 計 即現(xiàn)在所謂 社會經(jīng)濟統(tǒng)計 學 社會經(jīng)濟統(tǒng)計 學 和 數(shù)理統(tǒng)計 國際意義 上的統(tǒng)計 和 數(shù)理統(tǒng)計 國際意義 上的統(tǒng)計 23 由于國情 國人對統(tǒng)計的尊重遠遠 不如任何其他國家的人 可能北朝 鮮除外 往往誤解統(tǒng)計學 由于國情 國人對統(tǒng)計的尊重遠遠 不如任何其他國家的人 可能北朝 鮮除外 往往誤解統(tǒng)計學 根據(jù)前蘇聯(lián)傳統(tǒng) 國內一些學者把 統(tǒng)計稱為是經(jīng)濟學科的一部分 根據(jù)前蘇聯(lián)傳統(tǒng) 國內一些學者把 統(tǒng)計稱為是經(jīng)濟學科的一部分 這種經(jīng)濟學中的蘇聯(lián)式統(tǒng)計學的數(shù) 學水平低于小學數(shù)學水平 這種經(jīng)濟學中的蘇聯(lián)式統(tǒng)計學的數(shù) 學水平低于小學數(shù)學水平 與現(xiàn)代經(jīng)濟學所需的大量的統(tǒng)計和 數(shù)學形成鮮明對照 與現(xiàn)代經(jīng)濟學所需的大量的統(tǒng)計和 數(shù)學形成鮮明對照 24 前蘇聯(lián)式的 統(tǒng)計學 目前即使在俄國也無人 問津 前蘇聯(lián)式的 統(tǒng)計學 目前即使在俄國也無人 問津 但其八股形式在中國仍 然流行 而且存在于在 官方的統(tǒng)一考試中 但其八股形式在中國仍 然流行 而且存在于在 官方的統(tǒng)一考試中 25 什么是什么是有用有用的統(tǒng)計 的統(tǒng)計 有用 有用 在市場經(jīng)濟下找得到工作在市場經(jīng)濟下找得到工作 26 數(shù)學的重要性數(shù)學的重要性 真正嚴格的邏輯真正嚴格的邏輯僅存在于數(shù)學之中 只能夠從學習數(shù)學中獲得 僅存在于數(shù)學之中 只能夠從學習數(shù)學中獲得 數(shù)學的邏輯服務于現(xiàn)代理性社會的所 有方面 數(shù)學的邏輯服務于現(xiàn)代理性社會的所 有方面 27 統(tǒng)計和數(shù)學的思維方式差異統(tǒng)計和數(shù)學的思維方式差異 數(shù)學思維是以演繹為主數(shù)學思維是以演繹為主 統(tǒng)計思維是以歸納為主 兼有演繹 統(tǒng)計思維是以歸納為主 兼有演繹 28 統(tǒng)計主要需要統(tǒng)計主要需要 數(shù)學 數(shù)學 計算機及研究對 象領域的知識 計算機及研究對 象領域的知識 加上想象力 通常的邏 輯推理和常識判斷的能 力 加上想象力 通常的邏 輯推理和常識判斷的能 力 29 統(tǒng)計面對的挑戰(zhàn)統(tǒng)計面對的挑戰(zhàn) 30 統(tǒng)計所研究的對象中的許 多關系 很難被諸如物理 定律那樣的理論明確描 述 被認為具有某種隨機 性 類似于黑匣子 統(tǒng)計所研究的對象中的許 多關系 很難被諸如物理 定律那樣的理論明確描 述 被認為具有某種隨機 性 類似于黑匣子 31 一般來說統(tǒng)計數(shù)據(jù)分析有兩個目的 一個是能夠由輸入數(shù)據(jù)x來預測y 而另一個為解釋這個聯(lián)系輸入變量和輸出 變量的 自然 部分 即所謂的 黑匣子 自然自然yx 記輸入的數(shù)據(jù)為x 而輸出為y 那么根據(jù)x產(chǎn)生 出y的過程則可以用如下圖形描述 32 eo Breiman January 27 1928 July 7 2005 was a distinguished statistician at the niversity of California Berkeley He was the recipient of numerous honors and wards and was a member of the United States National Academy of Science 33 按照Breiman 2001 1 的說法 統(tǒng)計有兩個文 化 一個是數(shù)據(jù)建模數(shù)據(jù)建模文化 data modeling culture 它在黑匣子中假定一個隨機產(chǎn)生數(shù) 據(jù)的模型 最典型的包括線性回歸模型 logistic回歸模型和Cox模型等等 這里對模型是否適當采用諸如擬合優(yōu)度檢驗和 殘差分析等方法來確定 而模型通常為下面的 函數(shù)形式 響應變量 f 預測變量 參數(shù) 隨機噪聲 或 Y f X 34 而Breiman所說的另一種為算法建模算法建模 文化 algorithmic modeling culture 它也是找一個函數(shù)f x 來預測y 只不過這里的函數(shù)不局限于一些明確 表達的數(shù)學公式 而是一個算法 這里主要關心的是預測 而黑匣子到 底是什么 能夠解釋就解釋 但并不 強求 35 典型的算法包含決策樹 關聯(lián)規(guī)則 隨機森林 支持向量機等等 這里對模型是否適當 則采用預測精 度來衡量 Breiman認為 專注于數(shù)據(jù)模型會產(chǎn) 生無關的理論以及有問題的結論 使 得統(tǒng)計學家遠離適當?shù)乃惴P?不 去研究嶄新的實際問題 36 多數(shù)專業(yè)統(tǒng)計學家屬于數(shù)學出身 他們認為 數(shù)理統(tǒng)計學只是從數(shù)量表現(xiàn)的 層面上來分析問題 完全不觸及問題的專 業(yè)內涵 在這個意義上 數(shù)理統(tǒng)計方法是一個中 立性的工具 這 中立 的含義是 它既不 在任何問題上有何主張 也不維護任何利 益或在任何學科中堅持任何學理 作為一個工具 誰都可以使用 如果誰不 同意這種方法 可以不使用 1 37 對于統(tǒng)計方法或統(tǒng)計模型本身的這種 在各學科中的 中立性 是普遍同意的 但是 任何統(tǒng)計方法的發(fā)展 任何模 型的建立都有其應用背景 統(tǒng)計學家的研究 就其本質來說 是 不可能獨立于這些領域的具體目標 除非他們所做的工作是統(tǒng)計推斷中間 的一個局部數(shù)學環(huán)節(jié)的演繹式推導 38 按照Breiman 數(shù)據(jù)建模文化包含了 目前統(tǒng)計課程所涉及的大部份統(tǒng)計模 型 建立這些模型需要一些在實際中不一 定能夠滿足的數(shù)學假定 在模型選擇 對結果的解釋和預測等 方面有很多不明確或不清楚的地方 這些模型的使用對于非統(tǒng)計領域的人 員來說并不方便 39 而算法建模文化 則針對實際課題的 問題 選擇一些方法 利用計算機來 根據(jù)訓練樣本建模 人們用對測試樣本的預測精度來判斷 這些模型是否適用 由于沒有多少中間的人為干預 Breiman覺得 這種文化是其他領域 的工作者容易掌握的 40 第一 統(tǒng)計學的方法都是在應用的推動下產(chǎn)生 的 如果沒有應用 它們不會出現(xiàn) 其次 如果以應用為目的而產(chǎn)生的統(tǒng)計方法不能 滿足應用的要求 再漂亮的數(shù)學表達也不能保證 其存在 第三 統(tǒng)計中的數(shù)學本身不能形成一個完整的邏 輯體系 貝葉斯統(tǒng)計可能被認為是例外 其中 有大量的人為或主觀因素在起作用 這是不符合 純粹數(shù)學的本質的 如果脫離應用背景而把統(tǒng)計作為純粹數(shù) 學的一部分 統(tǒng)計學沒有存在的必要 如果脫離應用背景而把統(tǒng)計作為純粹數(shù) 學的一部分 統(tǒng)計學沒有存在的必要 41 統(tǒng)計應用最初是由政府的需要而產(chǎn)生 的 但目前統(tǒng)計的方法和理論基礎是 由一批數(shù)學家奠定的 很多人認為統(tǒng)計學是 數(shù)學的一個分支 這當然不僅涉及統(tǒng)計和數(shù)學的定義 而且涉及統(tǒng)計的性質和應用背景 統(tǒng)計從數(shù)學繼承了什么 統(tǒng)計從數(shù)學繼承了什么 42 由于統(tǒng)計發(fā)展歷史中的數(shù)學背景 上個世 紀中期基本定型的數(shù)理統(tǒng)計教科書充滿了 數(shù)學味極強的定義 引理 定理 推論 以及貫串其中的純粹數(shù)學推導和證明 數(shù)學是一個 是非明確 的理想世界 它自我 形成嚴格的封閉邏輯體系 只要邏輯正 確 數(shù)學研究最多得不出結果 但不會犯 錯誤 這也是以演繹為主的數(shù)學魅力之所在 數(shù) 學教科書沒有負面的內容 數(shù)學的邏輯完 全是客觀的 43 但以歸納為主要思維方式的統(tǒng)計是描述現(xiàn) 實世界的 是為各領域服務的 統(tǒng)計需要建立各種數(shù)學模型來近似現(xiàn)實世 界 但任何數(shù)學模型都不可能精確地描述 現(xiàn)實世界或自然 正如沒有科學理論能夠 等于真理一樣 數(shù)學是不能證偽的 而統(tǒng)計和其他科學的 理論一樣 必須是可以證偽的 44 基本上由數(shù)學老師教授的數(shù)理統(tǒng)計課程多 是按照純粹數(shù)學的模式設計的 對于背后的基于數(shù)據(jù)的統(tǒng)計思想介紹得不 很充分 也不強調這些充滿假定的數(shù)學模 型都是對現(xiàn)實世界的不同程度的簡化 很 少教科書指出違背這些假定的后果 幾乎沒有人告訴學生 所有統(tǒng)計教科書中 對數(shù)據(jù) 或其總體 的數(shù)學假定都是無法 用數(shù)據(jù)驗證的 數(shù)學化的統(tǒng)計教科書極少提到統(tǒng)計應用中 一系列決策的主觀性和任意性 45 所有模型都僅僅是對現(xiàn)實世界的某種近似 模型存在的一個必要條件是它們必須能夠 被人們解出來 無論是近似的 或者是精 確的 任何可得到的結論由于模型的近似性而必 然是近似的 而這些結果到底和現(xiàn)實世界有多么近似 可能永遠不清楚 傳統(tǒng)的數(shù)據(jù)建模在應用中所遇到的問題傳統(tǒng)的數(shù)據(jù)建模在應用中所遇到的問題 46 衡量模型是否合適或者統(tǒng)計結果是否合理 的傳統(tǒng)方法包括各種擬合優(yōu)度檢驗 準 則 以及殘差分析等等 當然還采用無偏 性等大樣本或總體概念 正如Efron 2001 1 指出的 二十世紀的統(tǒng) 計可標以 100年的無偏性 大多數(shù)我們的 統(tǒng)計理論和實踐是圍著無偏或幾乎無偏估 計 特別是MLES 和基于這樣估計的檢驗 轉的 47 然而 要使用這些判別方法 必須對模型和產(chǎn)生 數(shù)據(jù)的總體做出一些假定 諸如模型的數(shù)學形式 誤差的結構和分布的假定 這些假定是基于經(jīng)驗 數(shù)據(jù)的特征 或數(shù)學上的方便 然而 Bickel et al 2001 2 表明除非備選假設有 明確的方向 擬合優(yōu)度檢驗的效率很低 而殘差分析也是不可靠的 它在變量數(shù)目多的時 候無法揭示欠缺的擬合 不同的殘差分析方法會 導致不同的結論 48 雖然擬合優(yōu)度檢驗和殘差分析可能會誤 導 但是正如Breiman 2001 3 所說 近年來在JASA發(fā)表的關于數(shù)據(jù)的應用文章 連這些方法也很少利用 似乎和獨創(chuàng)性的統(tǒng)計模型相比 模型擬合 好壞是次要的 只欣賞模型本身 而忽略實際應用背景是 危險的 當結論僅僅描述模型的機制而不 反映模型應該反映的現(xiàn)實世界時 結論必 然是錯誤的 49 Mostelling Tukey 1977 4 在討論回歸的 謬誤時說 整個按部就班的回歸領域充滿 著智力的 統(tǒng)計的 計算的和主題的困難 很難想象我們面對著從包含未知的物理 化學 生物或社會機制的復雜系統(tǒng)中產(chǎn)生 的未受控制的觀測數(shù)據(jù)背后的機制能夠被 一些統(tǒng)計學家主觀選擇的參數(shù)模型來充分 解釋 而從這樣模型得到的結論不能由擬 合優(yōu)度檢驗和殘差分析來證實 50 傳統(tǒng)統(tǒng)計方法的另一個問題是數(shù)據(jù)建模的 結果的多重性 也就是說 若干模型都顯 著 但它們對現(xiàn)實世界有不同的描述 這些不同 但又都 顯著 的模型對黑匣子的 解釋各異 Mountain Hsiao 1989 1 表明 很難構 造一個能夠包含所有競爭模型的復雜模型 而且 鑒于利用有限的樣本所建立的依賴 于漸近理論的各種檢驗的合法性和效率 所導致的結論是靠不住的 51 和傳統(tǒng)的所謂數(shù)據(jù)建模文化不同 Breiman所定義的算法建模文化則多數(shù) 由沒有傳統(tǒng)統(tǒng)計背景的研究人員所發(fā) 展 早在1980年代 算法建模在心理計量 學 社會科學 醫(yī)學中就有不同程度 的應用 但最有影響的是80年代中期 出現(xiàn)的神經(jīng)網(wǎng)絡和決策樹 算法建模算法建模 52 這些方法的目的是提高預測的精度 最初的研究人員由年輕的計算機科學 家 物理學家 工程師和少數(shù)統(tǒng)計學 家 他們在數(shù)據(jù)模型無法使用的復雜預測 問題上試驗他們的新的方法 這些問題包括語言識別 圖象識別 非線性時間序列預測 筆跡識別 以 及金融市場的預測 53 算法建模的勢力迅速擴展 并且產(chǎn)生了數(shù) 千篇文章 最初的算法建模的研究人員多數(shù)沒有傳統(tǒng) 統(tǒng)計訓練 或者不受傳統(tǒng)統(tǒng)計的約束 現(xiàn) 在也有一些著名的統(tǒng)計學家加入了他們的 行列 他們的問題除了傳統(tǒng)統(tǒng)計無法用武的領 域 比如處理由遙感衛(wèi)星 互聯(lián)網(wǎng) 光學 和射電天文望遠鏡 基因研究等產(chǎn)生的海 量數(shù)據(jù)之外 也進入了傳統(tǒng)的數(shù)據(jù)建模的 領地 54 目前的算法建模方法對于模型的評價主要 是預測精度 比如利用試驗數(shù)據(jù)集來對訓 練數(shù)據(jù)集所建立的模型進行交叉驗證 他們的方法也逐步改進 比如支持向量機 就比早期的神經(jīng)網(wǎng)絡更有效 助推法 boosting 或其改進型進行分類和回歸的 方法也在不斷改進 這些方法許多在機器學習 人工智能或數(shù) 據(jù)挖掘等各種名稱下產(chǎn)生和發(fā)展 55 算法建模和傳統(tǒng)統(tǒng)計不僅僅區(qū)別于前面所 說的著重于預測精度和適用于海量數(shù)據(jù) 它還有其他一些優(yōu)點 比如在基因數(shù)據(jù)中 變量個數(shù)可以達到 4682個 而樣本量僅有81個 參見Dudoit et al 2000 1 這樣巨大的變量和觀測值數(shù)目的比例是傳 統(tǒng)統(tǒng)計不可想象的 比如 Diaconis Efron 1983 2 年曾經(jīng)說過 統(tǒng)計經(jīng)驗表 明 基于19個變量和僅僅155個數(shù)據(jù)點來擬 合模型是不明智的 56 它不僅不畏懼巨大的維數(shù) 而且認為變量 越多 包含的信息越多 實際上 有大量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生鮮魚類供貨合同協(xié)議
- 理賠車輛拍賣合同協(xié)議
- 生產(chǎn)合同三方協(xié)議范本
- 2025至2030年中國粉末燒結濾器數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國磁翻柱液位計帶遠傳裝置數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國硅灰石針狀粉數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國電動管子切割坡口機數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國涂料帶鋼數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國材料管理系統(tǒng)數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國投影機智能保護器數(shù)據(jù)監(jiān)測研究報告
- 人工智能語言與倫理學習通課后章節(jié)答案期末考試題庫2023年
- 第七講 社會主義現(xiàn)代化建設的教育科技人才戰(zhàn)略PPT習概論2023優(yōu)化版教學課件
- 銅陵恒達新材料科技有限公司《年產(chǎn)5萬噸鋁錠和5萬噸鋁棒項目(重新報批)》
- 焊接工序首件檢驗記錄表
- 南昌大學論文格式樣板
- “四會”教學基本概述
- 義務教育語文課程標準(2022)測試題帶答案(20套)
- 05G359-3 懸掛運輸設備軌道(適用于一般混凝土梁)
- 《紅樓夢》人名課件完整版
- 工藝美術設計師理論知識考核試題及答案
- 研發(fā)技術人員工時統(tǒng)計表 模板
評論
0/150
提交評論