統(tǒng)計(jì)分析和prism軟件使用201512_第1頁
統(tǒng)計(jì)分析和prism軟件使用201512_第2頁
統(tǒng)計(jì)分析和prism軟件使用201512_第3頁
統(tǒng)計(jì)分析和prism軟件使用201512_第4頁
統(tǒng)計(jì)分析和prism軟件使用201512_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計(jì)基礎(chǔ)和統(tǒng)計(jì)基礎(chǔ)和prism軟件使用軟件使用仝鑫 魏健2015-12目錄目錄線性回歸和prism軟件應(yīng)用t檢驗(yàn)、F檢驗(yàn)(方差分析)和prism軟件應(yīng)用假設(shè)檢驗(yàn)(參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn))統(tǒng)計(jì)學(xué)基礎(chǔ)知識The Gaussian Distribution The Gaussian function describing this shape is defined as follows:where m represents the populationmean and s the standard deviation.Few biological distributions, if any, real

2、ly follow the Gaussian distribution一、統(tǒng)計(jì)學(xué)基礎(chǔ)知識The Central Limit TheoremIf your samples are large enough, the distribution of means will follow a Gaussian distribution even if the population is not Gaussian.N=10 or so is generally enough一、統(tǒng)計(jì)量(Descriptive Statistics:column statistics in prism)Measures o

3、f LocationA typical or central value that best describes the data(central tendency).Mean(平均值)Median(中數(shù))Mode(眾數(shù))Geometric mean(幾何均數(shù))Measures of DispersionDescribe spread (variation) of the data around that central value.Range(范圍)Variance(方差)Standard Deviation(標(biāo)準(zhǔn)偏差)Standard Error(樣本間標(biāo)準(zhǔn)誤=SD/n Coefficie

4、nt of variation(變異系數(shù))Confidence Interval(置信區(qū)間)No single parameter can fully describe distribution of data in the sample. Moststatistics software will provide a comprehensive table describing the distribution.Measures of Location: MeanMeanMore commonly referred to as “the average”.It is the sum of th

5、e data points divided by the number of data points.Migration AssayCell #Distance travelled(Microns)14922731324245786807628399200M=76.78 microns = 77 micronsM 492713224 788062 392009Measures of Dispersion: VarianceVariance Defined as the average of the square distance of each value from the mean.To c

6、alculate variance, it is first necessaryto calculate the mean score then measurethe amount that each score deviates fromthe mean. The formula for calculating variance is:1)(22NMXSMeasures of Dispersion:Standard DeviationStandard DeviationThe most common and useful measure of dispersion.Tells you how

7、 tightly each sample is clustered around the mean. When the samples are tightly bunched together, the Gaussian curve is narrow and the standard deviation is small.When the samples are spread apart, the Gaussian curve is flat and the standard deviation is large. The formula to calculate standard devi

8、ation is:SD = square root of the variance.標(biāo)準(zhǔn)偏差(SD) 和標(biāo)準(zhǔn)誤( SEM)Standard deviation refers to the amount you expect an individual measurement to vary from the average.標(biāo)準(zhǔn)差(standard deviation)衡量的是樣本值對樣本平均值的離散程度,反應(yīng)個(gè)體間變異的大小,是量度數(shù)據(jù)精密度的指標(biāo)。Standard error of the mean is how much you expect a value averaged from

9、several measurements to vary from the true mean. 標(biāo)準(zhǔn)誤(standard error)衡量的是樣本平均值對總體平均值的離散程度,反映抽樣誤差的大小,是量度結(jié)果精密度的指標(biāo)。Should we show standard deviation or standard error?Use Standard Deviation If the scatter is caused by biological variability and you want to show that variability. For example: You aliquot

10、 10 plates each with a different cell line and measure integrin expression of each.Use standard error If the variability is caused by experimental imprecision and you want to show the precision of the calculated mean. Then show the 95% confidence interval of the mean. For example: You aliquot 10 pla

11、tes of the same cell line and measure integrin expression of each.Precision of the Mean在統(tǒng)計(jì)學(xué)中,樣本的置信區(qū)間(Confidence intervals)是對這個(gè)樣本的總體某參數(shù)的區(qū)間估計(jì)。展現(xiàn)的是這個(gè)參數(shù)的真實(shí)值有一定概率落在測量結(jié)果的周圍的程度?!耙欢ǜ怕省保悍Q為置信水平。當(dāng)求取90% 置信區(qū)間時(shí) Z=1.645 當(dāng)求取95% 置信區(qū)間時(shí) Z=1.96當(dāng)求取99% 置信區(qū)間時(shí) Z=2.576The formula for calculating CI:CI = X (SEM x Z)X is the

12、sample mean and Z is the critical value for the normal distribution.For the 95% CI, Z=1.96.For our data set:95% CI=77 (19x1.96)=77 32CI 95%=45-109This means that theres a 95% chance that the CI you calculated contains the population mean.CI: A Practical ExampleData set AData set B8090855290308844796

13、892778855856288758688Data set AData set BMean86.164.1SD4.119.3SEM1.36.1Low 95% CI83.250.3High 95% CI89.077.9Between these two data sets, which mean do you think best reflects the population mean and why?Interpret CI of a meanSD/SEM/95% CI error barsSDSEM95% CI二、The Null Hypothesis(假設(shè)檢定) Appears in t

14、he form Ho: m1 = m2Where; Ho = null hypothesism1 = mean of population 1m2 = mean of population 2 An alternate form is Ho: m1-m2=0 The null hypothesis is presumed true until statistical evidence in the form of a hypothesis test proves otherwise.(非此即彼)非此即彼)檢驗(yàn)統(tǒng)計(jì)量檢驗(yàn)統(tǒng)計(jì)量 用于假設(shè)檢驗(yàn)問題的統(tǒng)計(jì)量稱為用于假設(shè)檢驗(yàn)問題的統(tǒng)計(jì)量稱為檢驗(yàn)統(tǒng)計(jì)量檢

15、驗(yàn)統(tǒng)計(jì)量。 與參數(shù)估計(jì)相同,需要考慮:與參數(shù)估計(jì)相同,需要考慮: 總體是否正態(tài)分布;總體是否正態(tài)分布; 大樣本還是小樣本;大樣本還是小樣本; 總體方差已知還是總體方差已知還是未知。未知。假設(shè)檢驗(yàn)的一些基本概念假設(shè)檢驗(yàn)的一些基本概念假設(shè)檢驗(yàn)的一些基本概念the difference you observed from sampling true difference of population. All you can do is calculate probabilities(P value:0,1). Before thinking about P values, you should:1)

16、 Assess the science. 2) Review the assumptions of the analysis you chose P values(Small P and big P see page 35 and 37)顯著性水平顯著性水平(threshold significance level)用樣本推斷用樣本推斷H0是否正確,必有犯錯(cuò)誤的可能。是否正確,必有犯錯(cuò)誤的可能。 原假設(shè)原假設(shè)H0正確,而被我們拒絕,犯這種錯(cuò)誤的概率或風(fēng)險(xiǎn)用正確,而被我們拒絕,犯這種錯(cuò)誤的概率或風(fēng)險(xiǎn)用 表示。表示。把把 稱為假設(shè)檢驗(yàn)中的稱為假設(shè)檢驗(yàn)中的顯著性水平顯著性水平, 即決策中的風(fēng)險(xiǎn)。即決

17、策中的風(fēng)險(xiǎn)。例:0.05時(shí)的接受域和拒絕域接受域接受域:原假設(shè)為真時(shí)允許范圍內(nèi)的變動(dòng),應(yīng)該:原假設(shè)為真時(shí)允許范圍內(nèi)的變動(dòng),應(yīng)該接受原假設(shè)。接受原假設(shè)。拒絕域拒絕域:當(dāng)原假設(shè)為真時(shí)只有很小的概率出現(xiàn),因而當(dāng)統(tǒng)計(jì)量的結(jié)果落入這一區(qū)域:當(dāng)原假設(shè)為真時(shí)只有很小的概率出現(xiàn),因而當(dāng)統(tǒng)計(jì)量的結(jié)果落入這一區(qū)域便應(yīng)便應(yīng)拒絕原假設(shè)拒絕原假設(shè),這一區(qū)域便稱作拒絕域。,這一區(qū)域便稱作拒絕域。 假設(shè)檢驗(yàn)的一些基本概念假設(shè)檢驗(yàn)的一些基本概念雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)假設(shè)檢驗(yàn)根據(jù)實(shí)際的需要可以分為假設(shè)檢驗(yàn)根據(jù)實(shí)際的需要可以分為 :雙側(cè)檢驗(yàn)(雙尾)雙側(cè)檢驗(yàn)(雙尾): 指只強(qiáng)調(diào)差異而不強(qiáng)調(diào)方向性的檢驗(yàn)。指只強(qiáng)調(diào)差異而

18、不強(qiáng)調(diào)方向性的檢驗(yàn)。單側(cè)檢驗(yàn)(單尾)單側(cè)檢驗(yàn)(單尾):強(qiáng)調(diào)某一方向性的檢驗(yàn)。:強(qiáng)調(diào)某一方向性的檢驗(yàn)。 左側(cè)檢驗(yàn)左側(cè)檢驗(yàn) 右側(cè)檢驗(yàn)右側(cè)檢驗(yàn)大還是小比是否有差異,不關(guān)心,只關(guān)注0101011010:mmmmmmmmHHmmmmmmmm1110011010:HHHH假設(shè)檢驗(yàn)中的單側(cè)檢驗(yàn)示意圖 拒絕域 拒絕域 (a)右側(cè)檢驗(yàn) (b)左側(cè)檢驗(yàn)假設(shè)檢驗(yàn)的一些基本概念假設(shè)檢驗(yàn)的一些基本概念假設(shè)檢驗(yàn)中的兩類錯(cuò)誤假設(shè)檢驗(yàn)中的兩類錯(cuò)誤 假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)是依據(jù)樣本提供的信息進(jìn)行推斷的是依據(jù)樣本提供的信息進(jìn)行推斷的,即由部分來推即由部分來推斷總體斷總體,因而假設(shè)檢驗(yàn)不可能絕對準(zhǔn)確因而假設(shè)檢驗(yàn)不可能絕對準(zhǔn)確,是可能犯錯(cuò)

19、誤的。是可能犯錯(cuò)誤的。 兩類錯(cuò)誤:兩類錯(cuò)誤: 錯(cuò)誤錯(cuò)誤(I型錯(cuò)誤型錯(cuò)誤): H0為真時(shí)卻被拒絕為真時(shí)卻被拒絕,棄真錯(cuò)誤棄真錯(cuò)誤; 錯(cuò)誤錯(cuò)誤(II型錯(cuò)誤型錯(cuò)誤): H0為假時(shí)卻被接受為假時(shí)卻被接受,取偽錯(cuò)誤。取偽錯(cuò)誤。 假設(shè)檢驗(yàn)中各種可能結(jié)果的概率:假設(shè)檢驗(yàn)中各種可能結(jié)果的概率: 接受接受H0 ,拒絕拒絕H1 拒絕拒絕H0,接受接受H1 H0為真為真 1 (正確決策正確決策) (棄真錯(cuò)誤棄真錯(cuò)誤) H0為偽為偽 (取偽錯(cuò)誤取偽錯(cuò)誤) 1- (正確決策正確決策)X(1) 與與 是兩個(gè)前提下的概率。即是兩個(gè)前提下的概率。即 是拒絕原假設(shè)是拒絕原假設(shè)H0時(shí)犯錯(cuò)時(shí)犯錯(cuò)誤的概率,這時(shí)前提是誤的概率,這時(shí)前

20、提是H0為真;為真; 是接受原假設(shè)是接受原假設(shè)H0時(shí)時(shí)犯錯(cuò)犯錯(cuò)誤的概率,這時(shí)前提是誤的概率,這時(shí)前提是H0為偽。所以為偽。所以 不等于不等于1。(2)對于固定的對于固定的n, 與與 一般情況下不能同時(shí)減小。對于固定一般情況下不能同時(shí)減小。對于固定的的n, 越小越小, Z /2越大越大,從而接受假設(shè)區(qū)間從而接受假設(shè)區(qū)間(-Z /2, Z /2)越大越大,H0就越容易被接受就越容易被接受,從而從而“取偽取偽”的概率的概率 就越大就越大; 反之亦然反之亦然。即樣本容量一定時(shí),。即樣本容量一定時(shí),“棄真棄真”概率概率 和和“取偽取偽”概率概率 不不能同時(shí)減少,一個(gè)減少,另一個(gè)就增大。能同時(shí)減少,一個(gè)減

21、少,另一個(gè)就增大。與 (3)要想減少要想減少 與與 ,一個(gè)方法就是要增大樣本容量一個(gè)方法就是要增大樣本容量n。與概率從而減少了兩種錯(cuò)誤的變小,則分布就瘦長,變小,就會(huì)中,在樣本平均數(shù)的分布若增大mnnnNXn22),(與Statistical Power(統(tǒng)計(jì)功效)Hypothesis TestingObserve PhenomenonPropose HypothesisDesign StudyCollect and Analyze DataInterpret ResultsDraw ConclusionsvvvStatistics are an importantPart of the st

22、udy designNonparametric tests and parametric tests(參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn))ANOVA, t tests, and many statistical tests :sampled data from populations that follow a Gaussian bell-shaped distribution.many kinds of biological data follow a bell-shaped distribution that is approximately Gaussian.a Gaussian distributi

23、on :Normality test(正態(tài)性檢驗(yàn)):Normality tests can help you decide when to use nonparametric tests, but the decision should not be an automatic one.examine the frequency distribution or the cumulative frequency distribution.使用服從使用服從T分布的統(tǒng)計(jì)量檢驗(yàn)正態(tài)總分布的統(tǒng)計(jì)量檢驗(yàn)正態(tài)總體平均值的方法。體平均值的方法。是定量資料分析中最常用的假設(shè)檢驗(yàn)是定量資料分析中最常用的假設(shè)檢驗(yàn)方法

24、方法t檢驗(yàn)和prism軟件應(yīng)用三、t檢驗(yàn)、F檢驗(yàn)(方差分析)和prism軟件應(yīng)用t檢驗(yàn)類型1 1、樣本均數(shù)與已知某總體均數(shù)、樣本均數(shù)與已知某總體均數(shù)比較的比較的t t檢驗(yàn)檢驗(yàn) use the column statistics analysis2 2、配對設(shè)計(jì)(、配對設(shè)計(jì)(paired design)均數(shù)比較的均數(shù)比較的t t檢驗(yàn)檢驗(yàn)?zāi)康模和茢鄡蓚€(gè)未知總體均數(shù)1與2是否有差別,用配對設(shè)計(jì)。3 3、兩個(gè)獨(dú)立樣本(、兩個(gè)獨(dú)立樣本(unpaired design)均數(shù)比較的)均數(shù)比較的t t檢驗(yàn)檢驗(yàn)?zāi)康模和茢鄡蓚€(gè)未知總體的均數(shù)1與2是否有差別,用成組設(shè)計(jì)。 適用于樣本均數(shù)與已知總體均數(shù)0的比較,其比

25、較目的是檢驗(yàn)樣本均數(shù)所代表的總體均數(shù)是否與已知總體均數(shù)0有差別。 已知總體均數(shù)0一般為標(biāo)準(zhǔn)值、理論值或經(jīng)大量觀察得到的較穩(wěn)定的指標(biāo)值。 單樣t檢驗(yàn)的應(yīng)用條件是總體標(biāo)準(zhǔn)未知的小樣本資料( 如n50),且服從正態(tài)分布。 一、樣本均數(shù)與已知某總體均數(shù)的比較(單樣本t檢驗(yàn))二、配對設(shè)計(jì)均數(shù)比較的t檢驗(yàn)(配對t檢驗(yàn))配對設(shè)計(jì)處理分配方式主要有三種情況:兩個(gè)同質(zhì)受試對象分別接受兩種處理,如把同窩、同性別和體重相近的動(dòng)物配成一對,或把同性別和年齡相近的相同病情病人配成一對;同一受試對象或同一標(biāo)本的兩個(gè)部分,隨機(jī)分配接受兩種不同處理;自身對比(self-contrast)。即將同一受試對象處理(實(shí)驗(yàn)或治療)前

26、后的結(jié)果進(jìn)行比較,如對高血壓患者治療前后、運(yùn)動(dòng)員體育運(yùn)動(dòng)前后的某一生理指標(biāo)進(jìn)行比較。 案例1 6L1 Tm1t ratioTesting if pairs follow a Gaussian distribution獨(dú)立樣本:又稱非配對樣本或成組樣本。是指一組數(shù)據(jù)與另一組數(shù)據(jù)沒有任何關(guān)系,也就是說,兩樣本資料是相互獨(dú)立的。u兩組的樣本容量盡可能相同,可以提高檢驗(yàn)的精確度。u其均數(shù)差異顯著性的t檢驗(yàn),又分為兩總體方差相等(方差齊性)和方差不等兩種檢驗(yàn)方法(Levenes Test for equality of variance)。u若兩總體方差不等,即方差不齊,可采用t檢驗(yàn),或進(jìn)行變量變換,或

27、用秩和檢驗(yàn)方法處理。 三、兩個(gè)獨(dú)立樣本均數(shù)比較的t檢驗(yàn)(兩獨(dú)立樣本的t檢驗(yàn))案例2 6L1rs和16L1rs Tm1nonparametric testChoosing when to use a nonparametric test is not straightforward The Mann-Whitney test Wilcoxon matched pairs test -unpaired data總結(jié)應(yīng)用條件:t 檢驗(yàn):1. 小樣本(n50)計(jì)量資料 2.樣本來自正態(tài)分布總體 3.總體標(biāo)準(zhǔn)差未知 4.兩樣本均數(shù)比較時(shí),要求兩樣本相 應(yīng)的總體方差相等(方差齊性)2022-1-15 把所

28、有觀察值之間的變異分解為幾個(gè)部分。即把描寫觀察值之間的變異的離均差平方和分解為某些因素的離均差平方和及隨機(jī)抽樣誤差的離均差平方和,進(jìn)而計(jì)算其相應(yīng)的均方差,構(gòu)成F統(tǒng)計(jì)量。 分類: 單因素方差分析:因素只有一個(gè),這個(gè)因素的水平2。多因素(2)方差分析:因素2,各因素的水平2方差分析(ANOVA,F(xiàn)檢驗(yàn))和prism軟件應(yīng)用 在試驗(yàn)中所考慮的因素只有一個(gè)時(shí),稱為單因素實(shí)驗(yàn)。 它是最簡單的一種,它適用于只研究一個(gè)試驗(yàn)因素的資料,目的在于正確判斷該試驗(yàn)因素各處理的相對效果(各水平的優(yōu)劣)1.各樣本是相互獨(dú)立的隨機(jī)樣本;各樣本是相互獨(dú)立的隨機(jī)樣本;2.各樣本數(shù)據(jù)均服從正態(tài)分布;各樣本數(shù)據(jù)均服從正態(tài)分布;3.相互比較的各樣本的總體方差相等,相互比較的各樣本的總體方差相等, 即方差齊性即方差齊性(homogeneity of variance)。單因素方差分析(one way ANOVA) ordinary one-way ANOVA Repeated measures one-way ANOVA Non parameters :Kruskal-Wallis test; Fredmans test案例3NaCl濃度對6L1rs顆粒影響

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論