統(tǒng)計思維和哲學運用_第1頁
統(tǒng)計思維和哲學運用_第2頁
統(tǒng)計思維和哲學運用_第3頁
統(tǒng)計思維和哲學運用_第4頁
統(tǒng)計思維和哲學運用_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、統(tǒng)計思維和哲學運用一. 統(tǒng)計的定義 英國大百科全書:“data science”,關于數(shù)據(jù)的科學。 與數(shù)據(jù)有關的學科有許多。 會計與統(tǒng)計: 會計側重微觀,是精密的,一角一分都要對上; 統(tǒng)計側重宏觀,誤差是統(tǒng)計特征。統(tǒng)計和數(shù)學數(shù)學:演繹思維由一般到具體 大前提 海爾空調(diào)質量都是好的, 小前提 我買的空調(diào)是海爾牌的, 結論 我買的空調(diào)質量是好的。特征:前提正確,推理正確,結論必定正確。統(tǒng)計:基本是歸納思維由具體到一般 形式如: 他買的空調(diào)是海爾牌,質量好; 你買的空調(diào)是海爾牌,質量好; 我買的空調(diào)是海爾牌,質量也好; 所以海爾牌空調(diào)質量都是好的。 有誤差,結論有風險,但結論如果正確則提供新鮮信息。

2、二. 統(tǒng)計與哲學基本觀點偶然與必然。任何事情既是偶然又是必然,偶然包含在必然之中?;貧w模型回歸模型是偶然和必然結合的體現(xiàn)。量變到質變。量變到一定的“度”就轉為質變。假設檢驗:用統(tǒng)計量 t 與 比較,作出是否拒絕原假設的決策,這里的 就是“度”(臨界值)。 個別與一般 以出生率為例,每個產(chǎn)婦生下的嬰兒或男或女,但男嬰女嬰性別比約為107:100,這是世界各國普遍的統(tǒng)計規(guī)律,具有一般性?,F(xiàn)象與本質美國人愛運動,表現(xiàn)為:數(shù)據(jù)特征窮人喜歡籃球較窮的人喜歡保齡球收入中等的人喜歡橄欖球收入中等偏上的人喜歡棒球高收入人喜歡網(wǎng)球大款喜歡高爾夫球本質:收入越高,喜歡的球越小數(shù)據(jù)特征統(tǒng)計學中充滿辯證法既是不確定的

3、,又是可靠的;既是模糊的,又是清晰的;從偶然中探詢必然;從現(xiàn)象中探詢本質(規(guī)律);是科學,又是藝術。三. 數(shù)據(jù)功能泰坦尼克號相關數(shù)據(jù)(全船共2208 人)The Titanic Data CountCol %Row %DSA143896.5168.5166192.0631.492099C523.4947.71577.9452.2910914907182208CountCol %Row %DSF1268.4626.8134447.9173.19470M136491.5478.4837452.0921.52173814907182208CountCol %Row %DS11228.1937.542

4、0328.2762.46325216711.2158.6011816.4341.40285352835.4474.7917824.7925.21706Crew67345.1775.4521930.5024.5589214907182208DeVeauxGender By SurvivedClass By SurvivedAge By SurvivedSurvival by genderCountCol %死活女1268.4634447.91470男136491.5437452.0921.52173814907182208 c2 Test Odd Ratio Test按性別劃分Tree mode

5、lData = $案例: 1. 誰首先打長途電話? 2. 誰是商家感興趣的客戶?(會員卡)StatisticsInformation About State 強國需知十三數(shù) -商鞅 (390 B.C.) 我們每天產(chǎn)生大量的數(shù)據(jù),用不好就變成數(shù)據(jù)垃圾 Descriptor Data Set Size in Bytes Storage Mode 很小 102一頁紙 小 104幾頁紙 中等 106幾張軟盤 大 108硬盤 巨大 1010幾個硬盤 超巨大 1012磁帶存儲架(Robotic Magnetic Tape Storage Silos) 海量數(shù)據(jù) 1015 數(shù)據(jù)存儲室我們面臨海量數(shù)據(jù)的挑戰(zhàn)

6、數(shù)據(jù)挖掘數(shù)據(jù) 數(shù)據(jù)搜集 數(shù)據(jù)準備 數(shù)據(jù)質量挖掘 數(shù)據(jù)偵測 數(shù)據(jù)描述 數(shù)據(jù)分析數(shù)據(jù)挖掘成為當前一個熱門的話題四. 關于抽樣 樣本和總體 調(diào)查的是樣本,目標卻是總體。 什么樣的樣本可以代表總體? 這是好的樣本嗎?全球性調(diào)查報告:中國人均性伴侶數(shù)全球排第一 “近日,2004年杜蕾斯全球性調(diào)查報告向社會發(fā)布。引人注目的是報告中顯示中國人的平均性伴侶數(shù)最多,為193人,遠遠高于全球的平均數(shù)105人;而中國人平均每年性生活的頻率卻只有90次,排全球倒數(shù)第7位,低于全球平均水平103次。同時,報告還顯示中國首次接受性教育的年齡為137歲,最接近世界平均水平,然而卻只有22的調(diào)查對象認為青少年性教育由家人或監(jiān)

7、護人完成?!辟Y料來源:北京晨報,2004年11月25日矛盾:為什么性伴侶最多,性頻率卻不高?首次接受性教育的年齡走低,卻不是由家長來完成性教育任務?中國青年報社會調(diào)查中心通過民意中國網(wǎng),對3032人進行了一項調(diào)查,調(diào)查顯示:91.2%的人認為目前青少年性教育缺失,其中53.7%的人認為“嚴重缺失”,調(diào)查稱青少年性教育缺失學校責任最大 。資料來源:中國青年報,2010年8月3日問題在于,樣本是怎樣產(chǎn)生的?去年中國91%民眾受到尊重對待 6月末,蓋洛普在北京將最近4年在中國的民調(diào)成績單公布于眾,其中最主要的一項民調(diào)結果顯示,2009年中國民眾認為受到尊重對待的比例為91%,比2008年提升了兩個百

8、分點,高于87%這一全球平均比例。資料來源:中國經(jīng)濟周刊 ,2010年08月03日但是,這一“好成績”不僅沒有得到廣泛的認同,反而招來不少質疑。有媒體稱,這跟現(xiàn)實感覺不符,有“被代表的嫌疑”。還有分析人士把這份調(diào)查結果看作是蓋洛普拋出的“橄欖枝”,是“政府公關”。 美國總統(tǒng)競選預測: 民主黨候選人 共和黨候選人 實際1968 漢佛萊(50%) 尼克松(50%) 尼(50.3%)1972 尼克松(62%) 尼(61.8%)1976 卡特(52%) 卡(53.6%)1980 里根(52%) 里(52.6%)1984 里根(56%) 里(53.1%) 布什(52%) 布(50.1%) 2000 戈爾

9、(45%) 小布什(51%) 小布什(51.7%) 2004 克里(49%) 小布什(49%) 小布什(51.9%)2008 奧巴馬(55%) 麥凱恩(44%) 奧巴馬(53%)該預測的挑戰(zhàn)在于:不告訴無法告訴成功的案例好樣本是可以抽出的,但要花氣力。1. 概率抽樣和非概率抽樣概率抽樣是嚴格意義上的抽樣特征:隨機原則 單元入樣概率已知 可以計算抽樣誤差應用場合:用樣本推斷總體,描述性研究 非概率抽樣 抽選樣本時不是依據(jù)隨機原則 幾種有代表性的非概率抽樣方式 重點調(diào)查: 有意選樣: (個案研究) 方便選樣:如攔截式調(diào)查,柜臺調(diào)查等 自填式樣本:如網(wǎng)上調(diào)查 非概率抽樣特點: 簡單、方便、快捷、成本

10、低,抽樣技術要求不高,但不能用于對總體目標量的估計,特別是不能對調(diào)查的精度進行評估。目前問題: 把非概率抽樣數(shù)據(jù)當概率抽樣數(shù)據(jù)使用。抽樣框總體的延伸,目標總體和抽樣總體.目標總體:要研究的總體抽樣總體:產(chǎn)生樣本的總體抽樣總體的具體體現(xiàn)抽樣框,是抽取樣本,計算樣本單位入樣概率的依據(jù)。良好抽樣框的標志:一對一聯(lián)接 “隨機”和“隨便”的區(qū)別 隨機要有程序實現(xiàn)。 3. 抽樣誤差與非抽樣誤差 抽樣誤差:抽樣隨機性帶來的,無法避免 可以計算 可以控制 計算抽樣誤差的水平(誤差計算正確)可以體現(xiàn)設計人員的專 業(yè)水準。非抽樣誤差:什么是非抽樣誤差主要體現(xiàn)在三個方面: 抽樣框誤差 無回答誤差(回答誤差),無回答

11、誤差更具一般性的理由 計量誤差非抽樣誤差特點:難以測度,成因復雜非抽樣誤差的控制可以體現(xiàn)調(diào)查方的執(zhí)行能力完美的調(diào)查是科學和藝術的結合科學體現(xiàn)在對抽樣誤差的把握藝術體現(xiàn)在對非抽樣誤差的掌控目前我國很多抽樣調(diào)查項目,科學性不足,藝術性欠缺。誤差的計算與控制是我們面臨的嚴重挑戰(zhàn)4. 平衡的藝術精度與費用之關系精度100%95%60%20%40% .費用5. 關于權數(shù)用樣本做統(tǒng)計推斷是觀察結果和樣本單元權數(shù)的結合。樣本單元權數(shù)是入樣概率的倒數(shù),它反映了樣本代表背后群體的規(guī)模。規(guī)范的數(shù)據(jù)處理程序是,首先找到初始權數(shù),然后結合調(diào)查情況對初始權數(shù)進行調(diào)整,比較重要的有缺失數(shù)據(jù)的調(diào)整,樣本結構的調(diào)整。目前問題

12、:數(shù)據(jù)處理中不考慮權數(shù)和權數(shù)調(diào)整。五.統(tǒng)計研究的特征確定選題并提出假說,設計調(diào)查方法,搜集資料,分析和檢驗,解釋結果或假說。案例一:人口密度和人的行為的關系研究假說:人口密度過高可能產(chǎn)生負效應,引發(fā)犯罪和精神病理論依據(jù):馬爾薩斯人口論,其論點有“人口過剩是貧困的主要原因”,“過剩人口會造成社會病態(tài)”,實證依據(jù):老鼠實驗,需研究的問題:這類現(xiàn)象在人類中是否存在?難點:對人類無法使用象老鼠那樣進行自相殘殺的實驗組A:采用實驗問卷法,具體做法是1. 確定房間面積,招聘應試人員2. 設計調(diào)查問卷,反映受訪者心態(tài)變化,如是否喜歡新增加的陌生人,是否容忍活動區(qū)域的減小3. 剛開始是一人一間房,以后逐次增加

13、,每增加新人,就回答一次問題4. 實驗結果發(fā)現(xiàn),高密度人群增加了人與人之間相互厭惡的傾向組B:文檔調(diào)查,具體做法是1.按人口密度將分析區(qū)域劃出若干塊(實驗區(qū)域為芝加哥市)2.查閱“芝加哥地方公眾記事錄”,里面有人口密度,犯罪率,精神病患者人數(shù)等寶貴資料存在的問題,表象上看,人口密度和犯罪數(shù)量相關。但人口密度和犯罪數(shù)量又與另外變量,如職業(yè)、種族、教育、收入等要素相關,人口密度高的地方犯罪率高,但人口密度高的地方居住者的教育水平、收入水平偏低,黑人比例高,職業(yè)差。是職業(yè)、文化程度、收入水平影響犯罪率?還是人口密度影響犯罪率?案例二 壞血病的原因調(diào)查17世紀初,英國海軍患壞血病背景:海上帝國,壞血病

14、的威脅,國防部進行研究懷疑:維生素攝入量少實驗方法:四艘軍艦離港,一艘有橙汁供應,三艘沒有結果:有橙汁供應水手身體狀況良好,沒有橙汁供應水手開始成批生病結論:缺乏維生素攝入是導致產(chǎn)生疾病的原因如何完善上述實驗?問題一:患病原因可能是那三艘船上有導致生病的物質問題二:上有橙汁船的人可能就喜歡喝橙汁問題三:上船之前水手身體狀況一樣嗎?實驗法關鍵:分為實驗組和對照組 兩組其他情況相同,只有檢測因素(是否喝橙汁)不同。實驗者在哪個組應隨機產(chǎn)生。 實驗應采用“雙盲”原則。如實驗一種新藥療效,受試者不知道自己是在服藥還是服替代品,醫(yī)生也不應知道受試者的分組情況。 社會調(diào)查中很難嚴格控制其他因素,如想知道飲料顏色對銷量是否有影響,如何設計實驗就是一個挑戰(zhàn)。案例三. 軟件陷阱盲目使用統(tǒng)計軟件的陷阱,抽樣方法與分析方法不對應。例:欲分析家庭有線電視與購買個人電腦是否相互獨立,隨機抽取了500個家庭,調(diào)查結果如下表所示: 個人電腦 有 無 合計 有 119 188 307 無 88 105 193 合計 207 293 500有線電視運用傳統(tǒng)的卡方檢驗,設原假設 :擁有個人電腦與擁有有線電視相互獨立。經(jīng)計算 。因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論