統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記_第1頁
統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記_第2頁
統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記_第3頁
統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記_第4頁
統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章導(dǎo)論一、統(tǒng)計(jì)及其應(yīng)用領(lǐng)域統(tǒng)計(jì)學(xué)(statistics):是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)。數(shù)據(jù)分析所用的方法可分為描述統(tǒng)計(jì)方法和推斷統(tǒng)計(jì)方法。按統(tǒng)計(jì)方法分:描述統(tǒng)計(jì)(descriptivestatistics)研究的是數(shù)據(jù)收集、處理、分析、匯總、圖表描述、概括與分析等統(tǒng)計(jì)方法。推斷統(tǒng)計(jì)(inferentialstatistics)研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計(jì)方法。按統(tǒng)計(jì)方法研究與應(yīng)用分:理論統(tǒng)計(jì)學(xué)、應(yīng)用統(tǒng)計(jì)學(xué)。統(tǒng)計(jì)學(xué)的主要特點(diǎn):數(shù)量性、社會(huì)性、總體性。統(tǒng)計(jì)的應(yīng)用領(lǐng)域:1、企業(yè)發(fā)展戰(zhàn)略2、產(chǎn)品質(zhì)量管理6、人力資源管理按計(jì)量層次分類:分類數(shù)據(jù)(categoricaldata)是只能歸于某一類別的非數(shù)字型數(shù)據(jù)。順序數(shù)據(jù)(rankdata)是只能歸于某一有序類別的非數(shù)字型數(shù)據(jù)。數(shù)值型數(shù)據(jù)(metricdata)是按數(shù)字尺度測(cè)量的觀察值,其結(jié)果表現(xiàn)為具體的數(shù)值。定性數(shù)據(jù)(qualitativedata)即品質(zhì)數(shù)據(jù),分類數(shù)據(jù)和順序數(shù)據(jù)。定量數(shù)據(jù)(quantitativedata)即數(shù)量數(shù)據(jù),數(shù)值型數(shù)據(jù)。按收集方法分類:觀測(cè)數(shù)據(jù)(observationaldata)是通過調(diào)查(調(diào)查數(shù)據(jù))或觀測(cè)而收集到的數(shù)據(jù)?!旧鐣?huì)現(xiàn)象】實(shí)驗(yàn)數(shù)據(jù)(experimentaldata)是在實(shí)驗(yàn)中控制實(shí)驗(yàn)對(duì)象而收集到的數(shù)據(jù)?!咀匀滑F(xiàn)象】按時(shí)間狀況分類:截面數(shù)據(jù)(cross-sectionaldata)是在相同或近似相同的時(shí)間點(diǎn)上收集的數(shù)據(jù),這類數(shù)據(jù)通常是在不同的空間上獲得的,用于描述現(xiàn)象在某一時(shí)刻的變化情況。時(shí)間序列數(shù)據(jù)(timeseriesdata)是在不同時(shí)間收集到的數(shù)據(jù),這類數(shù)據(jù)是按時(shí)間順序收集到的,用于描述現(xiàn)象隨時(shí)間變化的情況。三、統(tǒng)計(jì)中的幾個(gè)基本概念總體(population):包含所研究的全部個(gè)體(數(shù)據(jù))的集合??傮w通常由所研究的一些個(gè)體組成,組成總體的每個(gè)元素稱為個(gè)體。根據(jù)總體包含的單位數(shù)目是否可數(shù)分:有限總體:總體的范圍能夠確定,而且元素的數(shù)目是有限可數(shù)的。(抽取一個(gè)單位后,總體元素就會(huì)減少一個(gè),前一次抽樣會(huì)影響第二次抽樣的結(jié)果。)無限總體:總體所包括的元素是無限的、不可數(shù)的。(每次抽取一個(gè)單位,并不影響下一次的抽樣結(jié)果。)【抽樣中每次抽取是否獨(dú)立?!繕颖?sample):從總體中抽取一部分元素的集合。樣本量(samplesize):構(gòu)成樣本元素的數(shù)目。抽樣的目的是根據(jù)樣本提供的信息推斷總體的特征,根據(jù)樣本統(tǒng)計(jì)量去估計(jì)總體參數(shù)。參數(shù)(parameter):用來描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值。(總體平均數(shù)μ、總體標(biāo)準(zhǔn)差σ、總體比例π等。)統(tǒng)計(jì)量(statistic):用來描述樣本特征的概括性數(shù)字度量,是根據(jù)樣本數(shù)據(jù)計(jì)算出來的一個(gè)量,是樣本的函數(shù)。(樣本平均數(shù)x-bar、樣本標(biāo)準(zhǔn)差s、樣本比例p等。)變量(variable):說明現(xiàn)象某種特征的概念,其特點(diǎn)是從一次觀察到下一次觀察結(jié)果會(huì)呈現(xiàn)出差別或變化。(變量的具體取值稱為變量值。)1、分類變量(categoricalvariable)是說明事物類別的一個(gè)名稱,其取值是分類數(shù)據(jù)。3、數(shù)值型變量(metricvariable連續(xù)型變量(continuousvariable)是可以在一個(gè)或多個(gè)區(qū)間中取任何值的變量,第二章數(shù)據(jù)的收集對(duì)二手資料評(píng)估需考慮:資料是誰搜集的?為什么目的而搜集?數(shù)據(jù)是怎樣搜集的?什么時(shí)候搜概率抽樣(probabilitysampling):也4、系統(tǒng)抽樣(systematicsampling)將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)優(yōu)點(diǎn):操作簡(jiǎn)單,若有輔助信息,對(duì)總體內(nèi)的單位進(jìn)行有組織的排列,可以非概率抽樣(non-probabilitysampling):是相對(duì)于研究人員根據(jù)經(jīng)驗(yàn)、判斷和對(duì)研究對(duì)象的了解,有目的地選擇一些單位作為樣本,實(shí)施時(shí)根首先將總體中的所有單位按一定的標(biāo)志(變量)分為若干類,然后在每個(gè)類中采用方便抽樣或判可以按單一變量控制,也可以按交叉變量控制(保證樣本的分布更為均勻)。對(duì)照組(controlgroup):每個(gè)單位不接收實(shí)驗(yàn)組成員所接受的某種特別的處理?!倦p盲法】對(duì)照組和實(shí)驗(yàn)組是匹配的。實(shí)驗(yàn)中的若干問題:實(shí)驗(yàn)中的統(tǒng)計(jì)作用:1、確定實(shí)驗(yàn)所需要的單位的個(gè)數(shù),以保證實(shí)驗(yàn)可以達(dá)到統(tǒng)計(jì)顯著的結(jié)果。2、將統(tǒng)計(jì)思想融入實(shí)驗(yàn)設(shè)計(jì),使實(shí)驗(yàn)設(shè)計(jì)符合統(tǒng)計(jì)分析的標(biāo)準(zhǔn)。3、提供盡可能有效的同時(shí)研究幾個(gè)變量影響的方法。什么是好的實(shí)驗(yàn)?一方面是內(nèi)部的有效性,即實(shí)驗(yàn)測(cè)量的準(zhǔn)確性;另一方面是外部的有效性,外部的有效性決定是否可以將實(shí)驗(yàn)中發(fā)現(xiàn)的因果關(guān)系進(jìn)行推廣,即能否將結(jié)果推廣到實(shí)驗(yàn)環(huán)境以外的情況。實(shí)驗(yàn)數(shù)據(jù)可以作為研究者判斷假設(shè)的依據(jù)。數(shù)據(jù)的誤差:指通過調(diào)查搜集到的數(shù)據(jù)與研究對(duì)象真實(shí)結(jié)果之間的差異。抽樣誤差(samplingerror):由抽樣的隨機(jī)性引起的樣本與總體真值之間的誤差。抽樣誤差描述的是所有樣本可能的結(jié)果與總體真值之間的平均差異。影響抽樣誤差大小的因素:1、樣本量的大小。樣本量越大,抽樣誤差越?。粯颖玖看蟮降扔诳傮w單位時(shí),抽樣調(diào)查變?yōu)槠詹?,抽樣誤差為零??傮w的變異性越大,即各單位之間的差異越大,抽樣誤差也就越大,因?yàn)榭赡艹榈教貏e大或特別小的樣本單位,從而使樣本結(jié)果偏大或偏小;反之總體的變異性越小,各單位之間越相似,抽樣誤差也就越小;如果所有的單位完全一樣,調(diào)查一個(gè)就可以精確無誤的推斷總體,抽樣誤差就不存在。非抽樣誤差(non-samplingerror):相對(duì)于抽樣誤差而言,是除抽樣誤差之外的,由于其他原因引起的樣本觀察結(jié)果與總體真值之間的差異。非抽樣誤差的類型:1、抽樣框誤差4、調(diào)查員誤差抽樣誤差是由抽樣的隨機(jī)性帶來的,只要采用概率抽樣,抽樣誤差就不可避免,但抽樣誤差是可樣本量和抽樣誤差的關(guān)系:一旦誤差確定下來,就可以采用相應(yīng)的措施進(jìn)行控制,進(jìn)行控制的一個(gè)主要方法是改變樣本量,要求的抽樣誤差越小,所需要的樣本量就越大。第三章數(shù)據(jù)的圖表展示一、數(shù)據(jù)的預(yù)處理數(shù)據(jù)的預(yù)處理:在對(duì)數(shù)據(jù)分類或分組之前所做的必要處理,內(nèi)容包括數(shù)據(jù)的審核、篩選、排序等。對(duì)于通過調(diào)查取得的原始數(shù),主要從完整性和準(zhǔn)確性兩個(gè)方面去審核。完整性審核:主要是檢查應(yīng)調(diào)查的單位或個(gè)體是否有遺漏,所有的調(diào)查項(xiàng)目是否填寫齊全等。準(zhǔn)確性審核:主要是檢查數(shù)據(jù)是否有錯(cuò)誤,是否存在異常值等。對(duì)于二手?jǐn)?shù)據(jù),應(yīng)著重審核數(shù)據(jù)的適用性和時(shí)效性。B、數(shù)據(jù)篩選(datafilter):根據(jù)需要找出符合特定條件的某類數(shù)據(jù)。C、數(shù)據(jù)排序:按一定順序?qū)?shù)據(jù)排列,以便研究者通過瀏覽數(shù)據(jù)發(fā)現(xiàn)一些明顯的特征或趨勢(shì),找到解決問題的線索。排序還有助于對(duì)數(shù)據(jù)檢查糾錯(cuò),以及為重新歸類或分組提供方便。分類數(shù)據(jù)——字母型數(shù)據(jù)[升序、降序]漢字型數(shù)據(jù)[按漢字首位拼音字母排列、按姓氏筆畫排序](交替運(yùn)用不同方式排序,在漢字型數(shù)據(jù)的檢查糾錯(cuò)過程中十分有用。)數(shù)值型數(shù)據(jù)[遞增、遞減]順序統(tǒng)計(jì)量(orderstatistics):排序后的數(shù)據(jù)。二、品質(zhì)數(shù)據(jù)的整理與展示A、分類數(shù)據(jù)的整理與圖示頻數(shù)(frequency):落在某一特定類別或組中的數(shù)據(jù)個(gè)數(shù)。頻數(shù)分布(frequencydistribution):把各類別及落在其中的相應(yīng)頻數(shù)全部列出,并用表格的形式列聯(lián)表(contingencytable):由兩個(gè)或兩個(gè)以上的變量交叉分類的頻數(shù)分布表。交叉表(crosstable):二維的列聯(lián)表(兩個(gè)變量交叉分類)。對(duì)于定型數(shù)據(jù)除了用頻數(shù)分布表進(jìn)行描述外,還可用比例、百分比、比率等統(tǒng)計(jì)計(jì)量來描述。比例(proportion):也稱構(gòu)成比,它是一個(gè)樣本或總體中各個(gè)部分的數(shù)據(jù)與全部數(shù)據(jù)之比,通常用于反應(yīng)樣本或總體的構(gòu)成或結(jié)構(gòu)。百分比(percentage):將比例乘以100得到的數(shù)值,用%表示。比率(ratio):樣本或總體中不同類別數(shù)據(jù)之間的比值,由于比率不是部分與整體之間的對(duì)比關(guān)系,因此比值可能大于1。分類數(shù)據(jù)的圖示——條形圖(barchart):用寬度相同的條形的高度或長(zhǎng)短來表示數(shù)據(jù)多少的圖形,縱置時(shí)稱也為柱形圖(columnchart),此外,又分為簡(jiǎn)單條形圖、復(fù)式條形圖等。帕累托圖(paretochart):按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的條形圖,左側(cè)縱軸給出計(jì)數(shù)值(count),即頻數(shù),右側(cè)的縱軸給出累積百分比(cumulativepercent)。餅圖(piechart):用圓形及園內(nèi)扇形的角度來表示數(shù)值大小的圖形,它主要用于表示一個(gè)樣本或總體中各組成部分的數(shù)據(jù)占全部數(shù)據(jù)的比例,對(duì)于研究結(jié)構(gòu)性問題十分有用。環(huán)形圖(doughnutchart):把餅圖疊在一起,挖取中間部分即可。B、順序數(shù)據(jù)的整理與圖示累積頻數(shù)(cumulativefrequencies):將各有序類別或組的頻數(shù)逐級(jí)累加起來得到的頻數(shù)。累積方法—向上累積:從類別順序的開始一方向類別順序的最后一方累加頻數(shù);數(shù)值型分組數(shù)據(jù)則是從變量值小的一方向變量值大的一方累加頻數(shù)。向下累積:從類別順序最后的一方向類別順序開始的一方累加頻數(shù);數(shù)值型分組數(shù)據(jù)則是從變量值大的一方向變量值小的一方累加頻數(shù)。累積頻率或累積百分比(cumulativepercentages):將各有序類別或組的百分比逐級(jí)累加起來,也有向上累積和向下累積兩種方法。累積頻數(shù)分布或頻率圖。三、數(shù)值型數(shù)據(jù)的整理與展示數(shù)據(jù)分組:根據(jù)統(tǒng)計(jì)研究的需要,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)分成不同的組別。分組數(shù)據(jù)(groupeddata):根據(jù)統(tǒng)計(jì)研究的需要,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)分成不同的組別,分組數(shù)據(jù)分組的方法—1)按照一個(gè)標(biāo)志進(jìn)行的分組是簡(jiǎn)單分組,按照多個(gè)標(biāo)志進(jìn)行的分組是復(fù)合分組。2)單變量值分組:把每一個(gè)變量值作為一組;適用于變量值較少的離散型變量。3)組距分組:將全部變量值一次劃分為若干區(qū)間,將一個(gè)區(qū)間的變量值作為一組;適用于變量值較多或連續(xù)型變量。在組距(classwidth)分組中,一個(gè)組的最小值稱為下限(lowerlimit),最大值稱upperlimit),并遵循不重不漏的原則;組距相等稱為等距分組,組距不等稱為不等距分組。組中值(classmidpoint):每一組中下限值與上限值中間的值,即組中值=(下限值+上限值)÷2,反映各組數(shù)據(jù)的一般水平。(必要假定條件:各組數(shù)據(jù)在本組內(nèi)呈均勻分布或在組中值兩側(cè)呈對(duì)稱分布。)B、數(shù)值型數(shù)據(jù)的圖示a、分組數(shù)據(jù):直方圖顯示分組數(shù)據(jù)頻數(shù)分布特征的圖形有直方圖、折線圖和曲線圖等。直方圖(histogram):用矩形的寬度和高度(即面積)來表示頻數(shù)分布的。b、未分組數(shù)據(jù):莖葉圖和箱線圖莖葉圖(stem-and-leafdisplay):反應(yīng)原始數(shù)據(jù)分布的圖形,首先把一個(gè)數(shù)字分成兩部分,通常是以該組數(shù)據(jù)的高位數(shù)值作為樹莖,而且葉上只保留該數(shù)值的最后一個(gè)數(shù)字。通過莖葉圖,可以看出數(shù)據(jù)分布的形狀及數(shù)據(jù)的離散狀況,比如,分布是否對(duì)稱,數(shù)據(jù)是否集中,是否有離群點(diǎn)等。箱線圖(boxplot):由一組數(shù)據(jù)的最大值(maximum)、最小值(minimum)、中位數(shù)(median)、兩個(gè)四分位數(shù)(quartiles)這五個(gè)特征值繪制而成,它主要用于反映原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。箱線圖的繪制方法:先找出一組數(shù)據(jù)的最大值、最小值、中位數(shù)、兩個(gè)四分位數(shù);然后連接兩個(gè)四分位數(shù)畫出箱子;再將最大值和最小值與箱子相連接,中位數(shù)在箱子中間。箱線圖的分布類型有:對(duì)稱分布、左偏分布、右偏分布、U形分布。c、時(shí)間序列數(shù)據(jù):線圖時(shí)間序列數(shù)據(jù):在不同時(shí)間上獲得的數(shù)值型數(shù)據(jù)。線圖(lineplot):主要用于反映現(xiàn)象隨時(shí)間變化的特征。d、多變量數(shù)據(jù)的圖示散點(diǎn)圖(scatterdiagram):用二維坐標(biāo)展示兩個(gè)變量之間關(guān)系的一種圖形,由坐標(biāo)及其散點(diǎn)形成的二維數(shù)據(jù)圖。氣泡圖(bubblechart):用于展示三個(gè)變量之間的關(guān)系,將一個(gè)變量放在橫軸,另一個(gè)變量放在縱軸,第三個(gè)變量用氣泡大小來表示。雷達(dá)圖(radarchart):顯示多個(gè)變量的常用圖示方法,也稱為蜘蛛圖(spiderchart),在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時(shí)十分有用。雷達(dá)圖的具體做法:先畫一個(gè)圓,然后將圓P等分,得到P個(gè)點(diǎn),另這P個(gè)點(diǎn)分別對(duì)應(yīng)P個(gè)變量,再將這P個(gè)點(diǎn)與圓心連線,得到P個(gè)輻射狀的半徑,這P個(gè)半徑分別作為P個(gè)變量的坐標(biāo)軸,每個(gè)變量值的大小由半徑上的點(diǎn)到圓心的距離表示,再將同一樣本的值在P個(gè)坐標(biāo)上的點(diǎn)連線。A、鑒別圖形優(yōu)劣的準(zhǔn)則一張好的圖形應(yīng)具有以下基本特征:1、顯示數(shù)據(jù);2、讓讀者把注意力集中在圖形的內(nèi)容上,而不是制作圖形的程序上;4、強(qiáng)調(diào)數(shù)據(jù)之間的比較;5、服務(wù)于一個(gè)明確的目的;6、有對(duì)圖形的統(tǒng)計(jì)描述和文字說明。鑒別圖形優(yōu)劣的準(zhǔn)則:1、一張好圖應(yīng)當(dāng)精心設(shè)計(jì),有助于洞察問題的實(shí)質(zhì);2、一張好圖應(yīng)當(dāng)使復(fù)雜的觀點(diǎn)得到簡(jiǎn)明、確切、高效的闡述;3、一張好圖應(yīng)當(dāng)能在最短的時(shí)間內(nèi)以最少的筆墨給讀者提供最大量的信息;4、一張好圖應(yīng)當(dāng)是多維的;5、一張好圖應(yīng)當(dāng)表述數(shù)據(jù)的真實(shí)情況。B、統(tǒng)計(jì)表的設(shè)計(jì)統(tǒng)計(jì)表一般有四個(gè)主要部分組成,即表頭(包括表號(hào)、總標(biāo)題和表中數(shù)據(jù)的單位等)、行標(biāo)題、列標(biāo)題和數(shù)據(jù)資料,此外,必要時(shí)可以在統(tǒng)計(jì)報(bào)表的下方加上表外附加(包括數(shù)據(jù)來源、變量的注釋和必要的說明等)。第四章數(shù)據(jù)的概括性度量一、集中趨勢(shì)的度量集中趨勢(shì)(centraltendency):指一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點(diǎn)的A、分類數(shù)據(jù):眾數(shù)眾數(shù)(mode):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,用M?表示;主要用于測(cè)度分類數(shù)據(jù)的集中趨勢(shì),也適用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù);在數(shù)據(jù)量較大的情況下,眾數(shù)才有意義。眾數(shù)是一個(gè)位置代表值,它不受數(shù)據(jù)中極端值的影響,是具有明顯集中趨勢(shì)點(diǎn)的數(shù)值,是一組數(shù)據(jù)分布的最高峰點(diǎn)所對(duì)應(yīng)的數(shù)值;眾數(shù)可能不存在,也可能有兩個(gè)(雙眾數(shù))或多個(gè)眾數(shù)。B、順序數(shù)據(jù):中位數(shù)和分位數(shù)中位數(shù)(median):一組數(shù)據(jù)排序后處于中間位置上的變量值,用Me表示;主要用于測(cè)度順序數(shù)據(jù)的集中趨勢(shì),也適用于數(shù)值型數(shù)據(jù),但不適用于分類數(shù)據(jù);它是一個(gè)位置代表值,不受數(shù)據(jù)中極端值的中位數(shù)位置的確定公式:中位數(shù)位置=(n+1)/2,n為數(shù)據(jù)個(gè)數(shù)。四分位數(shù)(quartile):也稱四分位點(diǎn),是一組數(shù)據(jù)排序后處于25%和75%位置上的值。設(shè)下四分位數(shù)為QL,上四分位數(shù)為Qu,Q位置。四分位數(shù)還有其他三種計(jì)算1、一種較為準(zhǔn)確的算法是按下列公式確定位置:02、以中位數(shù)為中心,從兩端再計(jì)算出中位數(shù),確定位置的公式為:表示中位數(shù)的位置取整。類似還有十分位數(shù)(decile)和百分位數(shù)(percentile)等。C、數(shù)值型數(shù)據(jù):平均數(shù)均值(mean):也稱為平均數(shù),是一組數(shù)據(jù)相加后除以數(shù)據(jù)的個(gè)數(shù)得到的結(jié)果,是集中趨勢(shì)的最主要測(cè)度值,主要適用于數(shù)值型數(shù)據(jù),不適用于分類數(shù)據(jù)和順序數(shù)據(jù);反映事物必然性的數(shù)量特征。簡(jiǎn)單平均數(shù)(samplemean):根據(jù)未經(jīng)分組數(shù)據(jù)計(jì)算的平均數(shù),即加權(quán)平均數(shù)(weightedmean):根據(jù)分組數(shù)據(jù)計(jì)算的平均數(shù),1D、眾數(shù)、中位數(shù)和平均數(shù)之間的關(guān)系如果數(shù)據(jù)的分布是對(duì)稱的,眾數(shù)=中位數(shù)=平均數(shù);如果數(shù)據(jù)是左偏分布,說明數(shù)據(jù)存在極小值,必然拉動(dòng)平均值向極小值一方靠,平均值<中位數(shù)<如果數(shù)據(jù)是右偏分布,說明數(shù)據(jù)存在極大值,必然拉動(dòng)平均值向極大值一方靠,眾數(shù)<中位數(shù)<E、眾數(shù)、中位數(shù)和平均數(shù)的特點(diǎn)與應(yīng)用場(chǎng)合眾數(shù)是一組數(shù)據(jù)分布的峰值,不受極端值的影響。其缺點(diǎn)是具有不唯一性,一組數(shù)據(jù)可能有一個(gè)眾數(shù),也可能有兩個(gè)或多個(gè)眾數(shù),也可能沒有眾數(shù)。眾數(shù)只有在數(shù)據(jù)較多的時(shí)才有意義,當(dāng)數(shù)據(jù)量較少時(shí),不宜使用眾數(shù)。眾數(shù)主要適合作為分類數(shù)據(jù)的集中趨勢(shì)測(cè)度值。中位數(shù)是一組數(shù)據(jù)中間位置上的代表值,不受數(shù)據(jù)極端值的影響。當(dāng)一組數(shù)據(jù)的分布偏斜程度較大時(shí),使用中位數(shù)也許是一個(gè)好的選擇。中位數(shù)主要適合作為順序數(shù)據(jù)的集中趨勢(shì)測(cè)度值。平均數(shù)是針對(duì)數(shù)值型數(shù)據(jù)計(jì)算的,而且利用了全部數(shù)據(jù)信息,它是實(shí)際應(yīng)用中最廣泛的集中趨勢(shì)測(cè)度值。當(dāng)數(shù)據(jù)是對(duì)稱分布或接近對(duì)稱分布時(shí),3個(gè)代表值相等或接近相等,這時(shí)則應(yīng)選擇平均數(shù)作為集中趨勢(shì)的代表值。但平均數(shù)的主要缺點(diǎn)是易受數(shù)據(jù)極端值影響,對(duì)于偏態(tài)分布的數(shù)據(jù),平均數(shù)的代表性較差。因此,當(dāng)數(shù)據(jù)為偏態(tài)分布,特別是偏斜程度較大時(shí),可以考慮選擇中位數(shù)或眾數(shù)。離散程度:反映的是各變量值遠(yuǎn)離其中心值的程度。A、分類數(shù)據(jù):異眾比率異眾比率(variationratio):指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例,用V表示,即,∑f為變量值的總頻數(shù),fm為眾數(shù)組的頻數(shù);用于衡量眾數(shù)對(duì)一組數(shù)據(jù)的代表程度,主要適用于測(cè)度分類數(shù)據(jù)的離散程度,也適用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)。異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差;異眾比率越小,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性越好。B、順序數(shù)據(jù):四分位差位數(shù)與下四分位數(shù)之差,用Qa表示,即Qa=Qu-四分位差反映了中間50%數(shù)據(jù)的離散程度,其數(shù)據(jù)越小,說明中間的數(shù)據(jù)越集中;其數(shù)據(jù)越大,說明中間的數(shù)據(jù)越分散;四分位差不受極值影響。C、數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差(反映數(shù)據(jù)離散程度的絕對(duì)值)極差(range):也稱全距,一組數(shù)據(jù)的最大值與最小值之差,用R表示,即R=max(x;)-min(xi);容易受極值的影響,不能反映出中間數(shù)據(jù)的分散狀況,不能準(zhǔn)確的描述數(shù)據(jù)的分散程度。平均差(meandeviation):也稱平均絕對(duì)離差(meanabsolutedeviation),是各變量值與其平均數(shù)離差絕對(duì)值的平均數(shù),用Ma表示,即根據(jù)未分組數(shù)據(jù)計(jì)算,根據(jù)分組數(shù)據(jù)計(jì)算o平均差以平均數(shù)為中心,反映了每個(gè)數(shù)據(jù)與平均數(shù)的平均差異程度,能全面準(zhǔn)確地反映一組數(shù)據(jù)的離散狀況;平均差越大,說明數(shù)據(jù)的離散程度越大;反之,則說明數(shù)據(jù)的離散程度越小。方差(variance):各變量值與其平均數(shù)離差平方的平均數(shù),即未分組數(shù)據(jù)-,分組o標(biāo)準(zhǔn)差(standarddeviation):方差的平方根,未分組數(shù)據(jù)-,分組數(shù)據(jù)—S=樣本方差是用樣本數(shù)據(jù)個(gè)數(shù)減1后除離差平方和。自由度(degreeoffreedom):樣本數(shù)據(jù)個(gè)數(shù)減1即n-1?!鞠鄬?duì)位置的度量】:標(biāo)準(zhǔn)分?jǐn)?shù)(standardscore):變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的值,也稱標(biāo)準(zhǔn)化值或z分?jǐn)?shù),,給出了一組數(shù)據(jù)中各數(shù)值的相對(duì)位置。標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0,標(biāo)準(zhǔn)差為1的特性。經(jīng)驗(yàn)法則—當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí),經(jīng)驗(yàn)法則表明:1、約有68%的數(shù)據(jù)在平均數(shù)±1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi);2、約有95%的數(shù)據(jù)在平均數(shù)±2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi);3、約有99%的數(shù)據(jù)在平均數(shù)±3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。離群點(diǎn)(outlier):在平均數(shù)±3個(gè)標(biāo)準(zhǔn)差的范圍之外的數(shù)據(jù)。切比雪夫不等式(Chebyshev'sinequality):對(duì)任何分布形狀的數(shù)據(jù)都適用,它提供的是“下界”,也就是“所占比例至少是多少”。對(duì)于任意分布形狀的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有(1-1/k2)的數(shù)據(jù)落在±k個(gè)標(biāo)準(zhǔn)差之內(nèi)(其中k是大于1的任意值,但不一定是整數(shù)),對(duì)于k=2、3、4,該不等式的含義是:1、至少有75%的數(shù)據(jù)在平均數(shù)±2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi);2、至少有89%的數(shù)據(jù)在平均數(shù)±3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi);3、至少有94%的數(shù)據(jù)在平均數(shù)±4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。D、相對(duì)離散程度:離散系數(shù)離散系數(shù)(coefficientofvariation):也稱為變異系數(shù),是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比,即;它是測(cè)度數(shù)據(jù)離散程度的相對(duì)統(tǒng)計(jì)量,主要用于比較不同樣本數(shù)據(jù)的離散程度。離散系數(shù)越大,說明數(shù)據(jù)的離散程度也大;離散系數(shù)越小,說明數(shù)據(jù)的離散程度也小。A、偏態(tài)及其測(cè)量偏態(tài)(skewness):對(duì)數(shù)據(jù)分布對(duì)稱性的測(cè)度,測(cè)度偏態(tài)的統(tǒng)計(jì)量是偏態(tài)系數(shù)(coefficientof1、未分組的原,s3是樣本標(biāo)準(zhǔn)差的三次方。如果一組數(shù)據(jù)的分布是對(duì)稱的,則偏態(tài)系數(shù)等于0;如果偏態(tài)系數(shù)明顯不等于0,表明分布是非若偏態(tài)系數(shù)大于1或小于-1,稱為高度偏態(tài)分布;若偏態(tài)系數(shù)在0.5~1或-1~-0.5之間,稱為中等偏態(tài)分布;偏態(tài)系數(shù)越接近0,偏斜程度就越低。表示負(fù)離差值較大,可判斷為負(fù)偏或左偏;SK的數(shù)值越大,表示偏斜的程度越大。B、峰態(tài)及其測(cè)量峰態(tài)(kurtosis):對(duì)數(shù)據(jù)分布平峰或尖峰程度的測(cè)度,測(cè)度峰態(tài)的統(tǒng)計(jì)量是峰態(tài)系數(shù)(coefficientofkurtosis),記作K。如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,則峰態(tài)系數(shù)等于0;如果峰態(tài)系數(shù)明顯不等于0,表明分布比正態(tài)分布更平或更尖,通常稱為平峰分布或尖峰分布。由于正態(tài)分布的峰態(tài)系數(shù)為0,當(dāng)K>0時(shí)為尖峰分布,數(shù)據(jù)的分布更集中;當(dāng)K<0時(shí)為扁平分布,數(shù)據(jù)的分布越分散。第五章概率與概率分布一、隨機(jī)事件及其概率試驗(yàn):在同一組條件下,對(duì)某物或現(xiàn)象所進(jìn)行的觀察或?qū)嶒?yàn)。事件:觀察或試驗(yàn)的結(jié)果。隨機(jī)事件(randomevent):也叫偶然事件,簡(jiǎn)稱“事件”,記作A、B、C等?;臼录?elementaryevent):又叫簡(jiǎn)單事件,即一個(gè)不能分解成兩個(gè)或更多個(gè)事件的事件。在一次試驗(yàn)中,只能觀察到一個(gè)且僅有一個(gè)簡(jiǎn)單事件。樣本空間:又叫基本空間,一個(gè)試驗(yàn)中所有的簡(jiǎn)單事件的全體,記為Q。事件A的概率(probability):描述的是事件A在試驗(yàn)中出現(xiàn)的可能性大小的一種度量,可能性數(shù)值1、結(jié)果有限,即基本空間中只含有限個(gè)元素;2、各個(gè)結(jié)果出現(xiàn)的可能性被認(rèn)為是相同的。具有這種特點(diǎn)的隨機(jī)試驗(yàn)稱為古典概型或等可能概型。計(jì)算古典概型概率的方法稱為概率的古典定義或古典概率。局限性:隨機(jī)試驗(yàn)只有有限個(gè)可能結(jié)果的范圍,B、概率的統(tǒng)計(jì)定義:在相同條件下隨機(jī)試驗(yàn)n次,某事件A出現(xiàn)m次(m≤n),則比值m/n稱為事件A發(fā)生的頻率。隨n的增大,該頻率圍繞某一常數(shù)P上下波動(dòng),且波動(dòng)的幅度逐漸減小,趨于穩(wěn)定,這個(gè)頻率的穩(wěn)定值即為該事件的概率,記為P(A)=m/n=p。C、概率的主觀定義:主觀概率:對(duì)一些無法重復(fù)的試驗(yàn),只能根據(jù)以往的經(jīng)驗(yàn),人為確定這個(gè)事件的概率;定義是,一個(gè)決策者根據(jù)本人掌握的信息對(duì)某事件發(fā)生可能性的判斷。二、概率的性質(zhì)與運(yùn)算法則A、概率的基本性質(zhì)(概率的公理化定義)1、對(duì)任一隨機(jī)事件A,有0≤P(A)≤12、必然事件的概率為1,而不可能事件的概率為0,即P(Q)=1,P(φ)=03、若A與B互斥,則P(AUB)=P(A)+P(B)由此可推廣到多個(gè)兩兩互斥的隨機(jī)事件,即B、概率的加法法則1、兩個(gè)互斥事件之和的概率,等于兩個(gè)事件概率之和;設(shè)A和B為兩個(gè)互斥事件,則AUA`=Q,則A與A`互斥,P(Q)=1AUAP(A)或P(A)=1-P(A')。2、對(duì)于任意兩個(gè)隨機(jī)事件,它們和的概率為兩個(gè)事件分別的概率之和減去兩事件相交的概率,C、條件概率與獨(dú)立事件1.條件概率(conditionalprobability):當(dāng)某一事件B已經(jīng)發(fā)生時(shí),求事件A發(fā)生的概率,稱這種概率為事件B發(fā)生條件下事件A發(fā)生的條件概率,記為P(A|B),一般來說,P(A|B)≠P(A)。,□(口)>0;也可為P(AB)=P(B)P(A|B)或P(AB)=P(A)P(B|A)。一般認(rèn)為,兩個(gè)事件中不論哪一個(gè)事件發(fā)生與否并不影響另一事件發(fā)生的概率,則稱這兩個(gè)事件相依事件:一個(gè)事件發(fā)生與否會(huì)影響另一個(gè)事件的發(fā)生?;コ馐录欢ㄊ窍嗷ヒ蕾?不獨(dú)立)的,但相互依賴的事件不一定是互斥的;不互斥事件可能是獨(dú)立的,也可能是不獨(dú)立的,然而獨(dú)立事件不可能是互斥的。D、全概率公式及貝葉斯公式2、貝葉斯公式(逆概率公式):0貝葉斯公式是在觀察到事件B已發(fā)生的條件下,尋找導(dǎo)致A發(fā)生的每個(gè)原因Ai的概率;P(Ai)稱為稱為原因Ai的后驗(yàn)概率(posteriorprobability)。三、離散型隨機(jī)變量及其分布概率函數(shù)(probabilityfunction):在同一組條件下,如果每次試驗(yàn)可能出現(xiàn)這樣或那樣的結(jié)果,并且把所有的結(jié)果都能列舉出來,即把X的所有可能值x1,x2,…,xn都列舉出來,而X的x1,x2,…xn可能值,具有確定概率P(x1),P(x2),…P(xn),其中P(xi)=P(X=xi),稱為概率函數(shù),則X稱為P(X)兩種類型的隨機(jī)變量:1、0—1分布:離散型隨機(jī)變量X只可能取0和1兩個(gè)值,概率分布為=P(X=1)=p,P(X=0)=1-p=q或rectangulardistributiD(X)=E[X-E(X)]2=Z21[x;-E(X)]2pi=E(x2)-若X的取值比較集中,則方差較小;若X的取值比較分散,則方差較C、二項(xiàng)分布和泊松分布出現(xiàn)“成功”的概率p和“失敗”的概率q對(duì)每一次試驗(yàn)是相同的,且p+q=1;試驗(yàn)是相互獨(dú)立的;試當(dāng)n=1時(shí),二項(xiàng)分布化為P{X=x}=p^q1-x,x=0、1,即0-1分布。超幾何分布:設(shè)有N件產(chǎn)品,其中有M件次品,現(xiàn)從中任取n件(n≤N),則在這n件中所含的次品件數(shù)X是一個(gè)隨機(jī)變量,,其中m為任取n件中次品的件數(shù)。2、泊松分布(Poissondistribution):用來描述在一定時(shí)間范圍內(nèi)或指在指定的面積或體積泊松分布的期望值和方差分別為:E(X)=λ,D(X)=λ。在n重貝努里試驗(yàn)中,當(dāng)成功的概率很小(即p→0),試驗(yàn)次數(shù)很大時(shí),二項(xiàng)分布可能近似等于且且2)曲線f(x)相對(duì)于x=μ對(duì)稱,并在x=μ處達(dá)到最大值,3)曲線的陡緩程度由σ決定,σ越大,曲線越平緩;σ越小,曲線越陡峭。4)當(dāng)x趨于無窮時(shí),曲線以x軸為其漸近線。1)概率密度:2)分布函數(shù):將一般正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布:設(shè)X~N(μ,a2),4、正態(tài)分布在質(zhì)量管理中的應(yīng)用1)3σ原則下,質(zhì)量標(biāo)準(zhǔn)的合格率為99.73%,即P(μ-3σ<X<μ+3σ)=φ(3)-φ(-32)6σ的質(zhì)量水準(zhǔn)意味著產(chǎn)品合格率達(dá)到99.9999998%,即P(μ-6σ<X<μ+6σ)=φ(6)-φ(-6)=0.999任何流程在實(shí)際運(yùn)行中都會(huì)產(chǎn)生偏離目標(biāo)值或者期望值的情況,這種偏移稱為漂移。5、二項(xiàng)分布的正態(tài)近似第六章統(tǒng)計(jì)量及其抽樣分布一、統(tǒng)計(jì)量次序統(tǒng)計(jì):由小到大排序x1,x2,…xn,x1和xn分別為最小和最大次序統(tǒng)計(jì)量。Rn=Xn-X1樣本極差,反映樣本觀測(cè)值的離散程度。充分統(tǒng)計(jì)量:統(tǒng)計(jì)量加工過程中一點(diǎn)信息都不損失的統(tǒng)計(jì)量?!境S媒y(tǒng)計(jì)量】:樣本均值、樣本方差、樣本變異系數(shù)、樣本k階矩、樣本k階中心矩、樣本偏度、樣抽樣分布(samplingdistribution):在總體分布X的分布類型已知時(shí),若對(duì)任意自然數(shù)n,都能導(dǎo)出統(tǒng)計(jì)量T=T(x1,x2,…xn)的分布的數(shù)學(xué)表達(dá)式,則稱為精確的抽樣分布。漸進(jìn)分布:統(tǒng)計(jì)量T(x1,x2,…xn)的極限分布。隨機(jī)模擬獲得的近似分布三、由正態(tài)分布導(dǎo)出的幾個(gè)重要分布B、t分布C、F分布四、樣本均值的分布與中心極限定理X的期望值與總體均值相同,而方差縮小為總體方差的1/n,說明當(dāng)用樣本均值去估計(jì)總體均值時(shí),平均來說沒有偏差(無偏性),當(dāng)n越來越大時(shí),X的散布程度越來越小,即用X估計(jì)μ越來越準(zhǔn)確。設(shè)總體均值為μ、方差為σ2(有限),則總有B、中心極限定理(centrallimittheorem):設(shè)從均值為μ、方差為a2(有限)的任意一個(gè)總體中抽取樣本量為n的樣本,當(dāng)充分大時(shí),樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分五、樣本比例的抽樣分布樣本大小為n的樣本中具有某一特征的個(gè)體數(shù)為X,樣本比例(來估計(jì)總體比例π)。p服從均值為π、方差為的正態(tài)分布, E(X?-X2)=E(X1)-E(X2)=μ?-μ?,七、關(guān)于樣本方差的分布1、樣本方差的分布(n-1)S2/σ2~x2(n-1),x2(n-1)稱為自是第一自由度(分子自由度)為n?-1,第二自由度(分母自由度)為n?-1的F分布。第七章參數(shù)估計(jì)一、參數(shù)估計(jì)的基本原理參數(shù)估計(jì)(parameterestimation):用樣本統(tǒng)計(jì)量去估計(jì)總體的參數(shù)。估計(jì)量(estimator):用于估計(jì)總體參數(shù)的隨機(jī)變量,參數(shù)用θ表示,估計(jì)量0用表示。估計(jì)值(estimatedvalue):估計(jì)參數(shù)時(shí)計(jì)算出來的統(tǒng)計(jì)量的具體值。點(diǎn)估計(jì)(pointestimate):用樣本的估計(jì)量的某個(gè)取值直接作為總體參數(shù)的估計(jì)值。雖然在重復(fù)抽樣條件下,點(diǎn)估計(jì)的均值可望等于總體真值,但由于樣本是隨機(jī)的,抽出一個(gè)具體的樣本得到的估計(jì)值很可能不同于總體真值;一個(gè)點(diǎn)估計(jì)量的可靠性是由它的抽樣標(biāo)準(zhǔn)誤差來衡量的,這表明一個(gè)具體的點(diǎn)估計(jì)值無法給出估計(jì)的可靠性的度量。區(qū)間估計(jì)(intervalestimate):在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)的一個(gè)區(qū)間范圍,該區(qū)間由樣本統(tǒng)計(jì)量加減估計(jì)誤差而得到。根據(jù)樣本統(tǒng)計(jì)量的抽樣分布能夠?qū)颖窘y(tǒng)計(jì)量與總體參數(shù)的接近程度給出一個(gè)概率度量。置信區(qū)間(confidenceinterval):由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間,其中區(qū)間的最小值為置信下限,最大值為置信上限。置信水平(confidencelevel):將構(gòu)造置信區(qū)間的步驟重復(fù)很多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例,也稱置信度或置信系數(shù)(confidencecoefficient),表示為1-α(a是事先確定的一個(gè)概率值,也稱風(fēng)險(xiǎn)值,是總體參數(shù)未在區(qū)間內(nèi)的概率)。【常用的置信水平值有99%,95%,90%,相應(yīng)的α為0.01,0.05,0.10】樣本量給定時(shí),置信區(qū)間的寬度隨著置信系數(shù)的增大而增大,區(qū)間比較寬時(shí),才會(huì)使這一區(qū)間有更大的可能性包含參數(shù)的真值;當(dāng)置信水平固定時(shí),置信區(qū)間的寬度隨樣本量的增大而減小,即較大樣本所提供的有關(guān)總體的信息比較小的樣本多。A、評(píng)價(jià)估計(jì)量的標(biāo)準(zhǔn)為θ的無偏估計(jì)量。有效性(efficiency):指對(duì)同一總體參數(shù)的兩個(gè)無偏估計(jì)量,有更小標(biāo)準(zhǔn)差的估計(jì)量更有效,即在無偏估計(jì)的條件下,估計(jì)量的方差越小,估計(jì)越有效。一致性(consistency):隨著樣本量的增大,估計(jì)量的值越來越接近被估計(jì)的總體參數(shù),即一個(gè)大樣本的給出的估計(jì)量要比一個(gè)小樣本給出的估計(jì)量更接近總體參數(shù)。二、一個(gè)總體參數(shù)的區(qū)間估計(jì)A、總體均值的區(qū)間估計(jì)1、正態(tài)總體、方差已知,或非正態(tài)總體、大樣本總體均值的抽樣分布為正態(tài)分布,數(shù)學(xué)期望為總體均值μ,方差為σ2/n。樣本均值標(biāo)準(zhǔn)化后的隨機(jī)變量服從標(biāo)準(zhǔn)正態(tài)分布,總體均值的置信區(qū)間由兩部分組成:點(diǎn)估計(jì)值和描述估計(jì)精度的±值(土值即估計(jì)誤差)。2、正態(tài)總體、方差未知、小樣本樣本均值標(biāo)準(zhǔn)化后的隨機(jī)變量服從自由度為n-1的t分布,總體均值μ在1-α置信水平下的置信區(qū)間為:又±,是自由度為n-1時(shí),t分布中右側(cè)面積B、總體比例的區(qū)間估計(jì)樣本比例p的數(shù)學(xué)期望為E(p)=π,方差o樣本比例標(biāo)準(zhǔn)化后的隨機(jī)變量服從標(biāo)準(zhǔn)正態(tài)分布,即C、總體方差的區(qū)間估計(jì)三、兩個(gè)總體參數(shù)的區(qū)間估計(jì)A、兩個(gè)總體均值之差的區(qū)間估計(jì)1)大樣本的估計(jì)獨(dú)立樣本(independentsample):如果兩個(gè)樣本是從兩個(gè)總體中獨(dú)立抽取的,即一個(gè)樣本中的元素與另一個(gè)樣本中的元素相互獨(dú)立,稱為獨(dú)立樣本。兩個(gè)總體均值之差(x?-Xx?)的抽樣分布服從期望值為(μ1-μ2)、方差為的正態(tài)分布。2)小樣本的估計(jì)(1)假定條件:a、兩個(gè)總體都服從正態(tài)分布。b、兩個(gè)隨機(jī)樣本獨(dú)立地分別抽自兩個(gè)總體。兩個(gè)樣本均值之差標(biāo)準(zhǔn)化后的隨機(jī)變量服從自由度為(n?+n?-2)的t分布,即t=兩個(gè)總體均值之差在1-α置信水平下的置信區(qū)間為:(3)兩個(gè)總體方差未知且不相等,即σ1≠砼。兩個(gè)樣本均值之差標(biāo)準(zhǔn)化后的隨機(jī)變量服從自由度為v的t分布。兩個(gè)總體均值之差在1-α置信水平下的置信區(qū)間為:匹配樣本(matchedsample):即一個(gè)樣本中的數(shù)據(jù)與另一個(gè)樣本中的數(shù)據(jù)相對(duì)應(yīng)。1)大樣本2)小樣本24.68取25,24.32也取25等等。2、估計(jì)總體比例時(shí)樣本量的確定(確定樣本容量)第八章假設(shè)檢驗(yàn)總體參數(shù)的方法,總體參數(shù)μ在估計(jì)前是未知A、假設(shè)問題的提出假設(shè)(hypothesis):對(duì)總體參數(shù)的的數(shù)值所作的一種陳述,總體參數(shù)包括總體均值、比例、方差等(分析之前必需陳述)。原假設(shè)(nullhypothesis):待檢驗(yàn)的假設(shè),又稱“0假設(shè)”,用H?表示(研究者想收集證據(jù)予以反對(duì)的假設(shè))。中做出選擇,這個(gè)假設(shè)與原假設(shè)對(duì)立的假設(shè),也稱“研究假設(shè)”,表示為H?(研究者想收集證據(jù)予以支持的假設(shè)總是有不等號(hào))。C、假設(shè)檢驗(yàn)中的兩類錯(cuò)誤1、第一類錯(cuò)誤α錯(cuò)誤(棄真錯(cuò)誤):原假設(shè)為真時(shí)拒絕原假設(shè)。第一類錯(cuò)誤的概率為a;原假設(shè)為真時(shí)接受原假設(shè),概率為1-α。2、第二類錯(cuò)誤β錯(cuò)誤(取偽錯(cuò)誤):原假設(shè)為假時(shí)接受原假設(shè)。第二類錯(cuò)誤的概率為β;原假設(shè)為假時(shí)拒絕原假設(shè),概率為1-β。D、假設(shè)檢驗(yàn)的流程在參數(shù)的假設(shè)檢驗(yàn)中,如同在參數(shù)估計(jì)中一樣,要借助樣本統(tǒng)計(jì)量進(jìn)行統(tǒng)計(jì)推斷,這個(gè)統(tǒng)計(jì)量稱小概率原理是指發(fā)生概率很小的隨機(jī)事件在一次試驗(yàn)中是幾乎不可能發(fā)生的。1、計(jì)算檢驗(yàn)的統(tǒng)計(jì)量總體σ已知,且樣本量大,采用z統(tǒng)計(jì)量:P值(P-value):當(dāng)原假設(shè)為真時(shí)所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的頻率。1、P值的大小取決于三個(gè)因素:1)樣本數(shù)據(jù)與原假設(shè)之間的差異。2)樣本量。3)被假設(shè)參數(shù)的總體分布。2、雙側(cè)檢驗(yàn)和單側(cè)檢驗(yàn)1)雙側(cè)檢驗(yàn):原假設(shè)的命題為μ=μo形式的檢驗(yàn)。兩個(gè)拒絕域,兩個(gè)臨界值,每個(gè)拒絕域的面積為a/2。μ>Ho或μ<μo中有一個(gè)成立,就可以拒絕原假設(shè)。2)左單側(cè)檢驗(yàn):下限檢驗(yàn)所考察的數(shù)值越大越好3)右單側(cè)檢驗(yàn):上限檢驗(yàn)所考察的數(shù)值越小越好二、一個(gè)總體參數(shù)的檢驗(yàn)A、檢驗(yàn)統(tǒng)計(jì)量的確定z統(tǒng)計(jì)量和t統(tǒng)計(jì)量常用于均值和比例的檢驗(yàn);x2統(tǒng)計(jì)量用于方差的檢驗(yàn)。2、樣本量小1)總體標(biāo)準(zhǔn)差σ已知:z統(tǒng)計(jì)量2)總體標(biāo)準(zhǔn)差σ未知:t統(tǒng)計(jì)量:,自由度為n-1。B、總體均值的檢驗(yàn)顯著性水平(significantlevel):當(dāng)原假設(shè)正確時(shí)卻被拒絕的概率或風(fēng)險(xiǎn),即犯棄真錯(cuò)誤的概率,α=0.05或α=0.01,表明當(dāng)做出接受原假設(shè)的決定時(shí),其正確的概率為95%或99%。a、已知均值的檢驗(yàn)(P值的計(jì)算與應(yīng)用):第1步:進(jìn)入Excel表格界面,選擇【插入】下拉菜單;第2步:選擇【函數(shù)】點(diǎn)擊;第3步:在函數(shù)分類中點(diǎn)擊“統(tǒng)計(jì)”,在函數(shù)名的菜單下選擇字符“NORMSDIST”,然后確定;第4步:將Z的絕對(duì)值錄入,得到的函數(shù)值,若P值遠(yuǎn)遠(yuǎn)小于a,故拒絕Ho。2、樣本量小b、σ未知:t統(tǒng)計(jì)量=未知小樣本均值的檢驗(yàn)(P值的計(jì)算與應(yīng)用):第1步:進(jìn)入Excel表格界面,選擇【插入】下拉菜單;第2步:選擇【函數(shù)】;第3步:在函數(shù)分類中點(diǎn)擊“統(tǒng)計(jì)”,然后,在函數(shù)名的菜單中選擇字符“TDIST”,確定;第4步:在彈出的X欄中,錄入計(jì)算出的t值,在自由度(Deg-freedom)欄中,錄入自由度值,在Tails欄中錄入2,表明是雙側(cè)檢驗(yàn),如果是單測(cè)檢驗(yàn)則在該欄內(nèi)錄入1;得出P值C、總體比例的檢驗(yàn)z統(tǒng)計(jì)量、大樣本量:D、總體方差的檢驗(yàn)量分布曲線的一邊。三、兩個(gè)總體參數(shù)的檢驗(yàn)A、檢驗(yàn)統(tǒng)計(jì)量的確定1、均值之差的檢驗(yàn)B、兩個(gè)總體均值之差的檢驗(yàn)1、吐、喹已知::aa標(biāo)準(zhǔn)差為,檢驗(yàn)統(tǒng)計(jì)量:,自由度為檢驗(yàn)統(tǒng)計(jì)量:標(biāo)準(zhǔn)差為,服從f的t分布,檢驗(yàn)統(tǒng)計(jì)量:3、兩個(gè)總體均值之差的檢驗(yàn)—用Excel進(jìn)行檢驗(yàn):第1步:選擇【工具】下拉菜單;第2步:選擇【數(shù)據(jù)分析】選項(xiàng);第3步:在分析工具中選擇【t檢驗(yàn),雙樣本異方差假設(shè)】;第4步:當(dāng)出現(xiàn)對(duì)話框時(shí):在【變量1的區(qū)域】方框內(nèi)輸入數(shù)據(jù)區(qū)域A1:A15;在【變量2的區(qū)域】方框內(nèi)輸入數(shù)據(jù)區(qū)域B1:B20;在【假設(shè)平均差】的方框內(nèi)輸入0;在【輸出選項(xiàng)】中選擇輸出區(qū)域;選擇【確定】。C、兩個(gè)總體比例之差的檢驗(yàn)1、檢驗(yàn)總體比例相等的假設(shè)頻數(shù)與觀察頻數(shù)是否有顯著差異,從而達(dá)到對(duì)分類變量進(jìn)行分析的目的。第1步:將觀察值輸入一列,將期望值輸入一列;第2步:選擇【輸入】下拉菜單;第3步:選擇【函數(shù)】選項(xiàng);第4步:在函數(shù)分類中點(diǎn)擊“統(tǒng)計(jì)”,然后,在函數(shù)名稱中選“CHITEST”,確定;第5步:在對(duì)話框【Actual-range】中輸三、列聯(lián)分析:獨(dú)立性檢驗(yàn)A、列聯(lián)表(contingencytable):由兩個(gè)以上的變量進(jìn)行交叉分類的頻數(shù)分布表。B、獨(dú)立性檢驗(yàn):分析列聯(lián)表中行變量和列變量是否相互獨(dú)立。計(jì)算任何一個(gè)單元中頻數(shù)的期望值:采用自由度=(行數(shù)-1)(列數(shù)-1)=(R-1)(C-1)四、列聯(lián)表中的相關(guān)測(cè)量列聯(lián)表中的變量通常是類別變量。品質(zhì)相關(guān):對(duì)品質(zhì)數(shù)據(jù)(分類和順序數(shù)據(jù))之間相關(guān)程度的測(cè)度??傤l數(shù),即樣本量。B、列聯(lián)相關(guān)系數(shù)(coefficientofcontingency):(大于2×2列聯(lián)表)又稱列聯(lián)系數(shù),簡(jiǎn)稱c系數(shù),當(dāng)列聯(lián)表中的兩個(gè)變量相互獨(dú)立時(shí),系數(shù)c=0;c系數(shù)的特點(diǎn)是,其可能最大值依賴于列聯(lián)表的行數(shù)和列數(shù),且隨著R和C增大而增大。當(dāng)兩個(gè)變量相互獨(dú)立時(shí),V=0;當(dāng)兩個(gè)變量完全相關(guān)時(shí),V=1;如果列聯(lián)表中有一維為2,即min[(R-在對(duì)不同列聯(lián)表變量之間的相關(guān)程度進(jìn)行比較時(shí),不同列聯(lián)表中的行與行、列與列的個(gè)數(shù)要相同,并且采用同一種系數(shù)。五、列聯(lián)分析中應(yīng)注意的問題A、條件百分表的方向(按自變量的方向計(jì)算)B、x2分布的期望值準(zhǔn)則1、關(guān)于小單元的頻數(shù)準(zhǔn)則:1)如果只有兩個(gè)單元,每個(gè)單元的期望頻數(shù)必須是5或5以上。第十章方差分析一、方差分析引論1、方差分析及其有關(guān)術(shù)語方差分析(analysisofvariance,ANOVA):通過對(duì)數(shù)據(jù)誤差來源的分析檢驗(yàn)各總體的均值是否相等來判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著影響。因素(factor):即因子,所要檢驗(yàn)的對(duì)象。水平(treatment):又稱處理,即因素的不同表現(xiàn)。觀測(cè)值:每個(gè)因子水平下得到的樣本數(shù)據(jù)。單因素方差分析:只有一個(gè)因素的方差分析,涉及分類型自變量和數(shù)值型自變量?jī)蓚€(gè)變量。雙因素方差分析:涉及兩個(gè)分類的自變量2、方差分析的基本思想和原理1)圖形描述2)誤差分解組內(nèi)誤差:由于抽樣的隨機(jī)性所造成的隨機(jī)誤差,即來自水平內(nèi)部的數(shù)據(jù)誤差,反映一個(gè)樣本內(nèi)部數(shù)據(jù)的離散程度,只含有隨機(jī)誤差。組間誤差:來自不同水平之間的數(shù)據(jù)誤差,是隨機(jī)誤差和系統(tǒng)誤差的總和,反映不同樣本之間數(shù)據(jù)的隨機(jī)誤差:因素的同一水平(總體)下,樣本各觀察值之間的差異,由樣本本身形成的。系統(tǒng)誤差:因素的不同水平(不同總體)之間觀察值的差異,由于行業(yè)本身的系統(tǒng)性因素所造成的。方差分析中,數(shù)據(jù)的誤差用平方和(sumofsquares)表示的。總平方和(sumofsquaresfortotal,SST):反應(yīng)全部數(shù)據(jù)誤差大小的平方和,反應(yīng)全部觀測(cè)值的離散狀況。組內(nèi)平方和(sumofsquaresforfactorA,SSE):反應(yīng)組內(nèi)誤差大小的平方和,也稱誤差平方和或殘差平方和,反映每個(gè)樣本內(nèi)各觀測(cè)值的離散狀況。組間平方和(sumofsquaresforerror,SSA):反應(yīng)組間誤差大小的平方和,也稱因素平方和,反映樣本均值之間的差異。3)誤差分析均方(MS):即方差,組間誤差與組內(nèi)誤差經(jīng)過平均后的數(shù)值。若原假設(shè)成立,組間誤差中只包含隨機(jī)誤差,組間均方與組內(nèi)均方的數(shù)值就應(yīng)該很接近,它們的比值就會(huì)接近1;若原假設(shè)不成立,組間誤差中即包含隨機(jī)誤差,又包含系統(tǒng)誤差,組間均方會(huì)大于組內(nèi)均方,它們之間的比值就會(huì)大于1。當(dāng)這個(gè)比值大到某種程度時(shí),就可以說不同水平之間存在著顯著差異,即自變量對(duì)因變量有影響。判斷行業(yè)對(duì)投訴次數(shù)是否有顯著影響,也就是檢驗(yàn)被投訴次數(shù)的差異主要是由于什么原因所引起的。如果這種差異主要是系統(tǒng)誤差,說明不同行業(yè)對(duì)投訴次數(shù)有顯著影響。3、方差分析中的基本假定1)每個(gè)總體都應(yīng)服從正態(tài)分布。對(duì)于因素的每一個(gè)水平,其觀察值是來自服從正態(tài)分布總體的簡(jiǎn)單隨機(jī)樣本。2)各個(gè)總體的方差必須相同各組觀察數(shù)據(jù)是從具有相同方差的總體中抽取的。3)觀察值是獨(dú)立的比如,每個(gè)行業(yè)被投訴的次數(shù)與其他行業(yè)被投訴的次數(shù)獨(dú)立。在上述假定條件下,判斷行業(yè)對(duì)投訴次數(shù)是否有顯著影響,實(shí)際上也就是檢驗(yàn)具有同方差的4個(gè)正態(tài)總體的均值是否相等。如果4個(gè)總體的均值相等,可以期望4個(gè)樣本的均值也會(huì)很接近,4個(gè)樣本的均值越接近,推斷4個(gè)總體均值相等的證據(jù)也就越充分,樣本均值越不同,推斷總體均值不同的證如果原假設(shè)成立,即Ho:μ1=μ2=μ3=μ4(4個(gè)行業(yè)被投訴次數(shù)的均值都相等),則意味著每個(gè)樣本都來自均值為μ、方差為a2的同一正態(tài)總體。來自正態(tài)總體的一個(gè)簡(jiǎn)單隨機(jī)樣本的樣本均值x服從均值為μ、方差為σ2/n的正態(tài)分布。若備擇假設(shè)成立,即H?:μ1、μ?、μ3、μ4不全相等(至少有一個(gè)總體的均值是不同的),則4個(gè)樣本分別來自均值不同的4個(gè)正態(tài)總體,因此有4個(gè)不同的抽樣分布。否相等,需要提出如下假設(shè):Ho:μ1=μ?=…=μk自變量對(duì)因變量沒有顯著影響單因素方差分析(one-wayanalysisofvariance):當(dāng)方差分析中只涉及一個(gè)分類型自變量,研究的是一個(gè)分類型自變量對(duì)一個(gè)數(shù)值型因變量的影響。A、分析步驟:1、提出假設(shè)2、構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量(1)計(jì)算各樣本的均值:(2)計(jì)算全部觀測(cè)值的總均值:全部觀測(cè)值的總和除以觀測(cè)值的總個(gè)數(shù),o(3)計(jì)算各誤差平方和:a、計(jì)算總平方和:d、三個(gè)平方和的關(guān)系:SSA是對(duì)隨機(jī)誤差和系統(tǒng)誤差大小的度量,它反映了自變量對(duì)因變量的影響,也稱為自變量效應(yīng)或因子效應(yīng);SSE對(duì)隨機(jī)誤差大小的度量,它反映了除自變量對(duì)因變量的影響之外,其他因素對(duì)因變量的總影響,也稱為殘差變量,它所引起的誤差也稱為殘差效應(yīng);SST是對(duì)全部數(shù)據(jù)總誤差程度的度量,它反映自變量和殘差變量的共同影響,等于自變量效應(yīng)+殘差效應(yīng)。(4)計(jì)算統(tǒng)計(jì)量各誤差平方和的大小與觀測(cè)值的多少有關(guān),為消除觀測(cè)值多少對(duì)誤差平方和大小的影響,需要將其平均,也就是用各平方和除以它們所對(duì)應(yīng)的自由度,這就是均方(meansquare),也稱為方差。a、三個(gè)平方和對(duì)應(yīng)的自由度分別是:SSA的自由度為k-1,其中k為因素水平(總體)的個(gè)數(shù);組間方差:SSA的均方,記為MSA,計(jì)算公式為0組內(nèi)方差:SSE的均方,記為MSE,計(jì)算公式為比值差異不會(huì)太大;如果組間方差顯著大于組內(nèi)方差,說明各水平(總體)之間的差異不僅僅有隨機(jī)判斷因素水平是否對(duì)觀測(cè)值有顯著影響,實(shí)際上也就是比較組間方差與組內(nèi)方差之間差異的大小。將統(tǒng)計(jì)量的值F與給定的顯著性水平α的臨界值Fa進(jìn)行比較,從而作出對(duì)原假設(shè)H?的決策。若F>Fa,則拒絕原假設(shè)Ho,表明均值之間的差異是顯著的,所檢驗(yàn)的因素對(duì)觀測(cè)值有顯著影響;若F<Fa,則不拒絕原假設(shè)Ho,沒有證據(jù)表明均值之間的差異是顯著的,不能認(rèn)為所檢驗(yàn)的因素對(duì)觀測(cè)值有顯著影響。5、用Excel進(jìn)行方差分析第1步:選擇【工具】下拉菜單,并選擇【數(shù)據(jù)分析】選項(xiàng);第2步:在分析工具中選擇【單因素方差分析】,然后選擇【確定】;第3步:當(dāng)對(duì)話框出現(xiàn)時(shí):在【輸入?yún)^(qū)域】方框內(nèi)鍵入數(shù)據(jù)單元格區(qū)域;在【a】方框內(nèi)鍵入0.05(可根據(jù)需要確定);在【輸出選項(xiàng)】中選擇輸出區(qū)域;B、關(guān)系強(qiáng)度的測(cè)量只要組間平方和SSA不等于0,就表明兩個(gè)變量之間有關(guān)系(只是是否顯著的問題);當(dāng)組間平方和比組內(nèi)平方和SSE大,而且大到一定程度時(shí),就意味著兩個(gè)變量之間的關(guān)系顯著,大得越多,表明它們之間的關(guān)系就越強(qiáng);反之,就意味著兩個(gè)變量之間的關(guān)系不顯著,小得越多,表明它們之間的關(guān)變量間關(guān)系的強(qiáng)度用自變量平方和SSA占總平方和SST的比例大小來反映,即,其平方根R就可以用來測(cè)量?jī)蓚€(gè)變量之間的關(guān)系強(qiáng)度。C、方差分析中的多重比較多重比較方法(multiplecomparisonprocedures):通過對(duì)總體均值之間的配對(duì)比較來進(jìn)一步檢驗(yàn)到底哪些均值之間存在差異。最小顯著差異方法(leastsignificantdifference,LSD):對(duì)檢驗(yàn)兩個(gè)總體均值是否相等的t檢驗(yàn)方法的總體方差估計(jì)加以修正(用MSE來代替)而得到的。3、計(jì);三、雙因素方差分析雙因素方差分析(two-wayanalysisofvariance):方差分析中涉及兩個(gè)分類型自變量。無交互作用(interaction)或無重復(fù)雙因素方差分析(Two-factorwithoutreplication):如果兩個(gè)因素對(duì)試驗(yàn)結(jié)果的影響是相互獨(dú)立的,分別判斷行因素和列因素對(duì)試驗(yàn)數(shù)據(jù)的影響。有交互作用或可重復(fù)雙因素方差分析(Two-factorwithreplication):如果除了行因素和列因素對(duì)試驗(yàn)數(shù)據(jù)的單獨(dú)影響外,兩個(gè)因素的搭配還會(huì)對(duì)結(jié)果產(chǎn)生一種新的影響。A、無交互作用的雙因素方差分析1、數(shù)據(jù)結(jié)構(gòu)1)提出假設(shè)對(duì)行因素提出的假設(shè)為:對(duì)列因素提出的假設(shè)為:2)構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量b、分解后的等式右邊的第一項(xiàng)是行因素所產(chǎn)生的誤差平方和:c、第二項(xiàng)是列因素所產(chǎn)生的誤差平方和:d、第三項(xiàng)是除行因素和列因素之外的剩余因素所產(chǎn)生的誤差項(xiàng)平方和,即隨機(jī)誤差項(xiàng)平方和:SSE=Z(=1ZY=1(xij-x-x,+)2f、三個(gè)平方和的自由度分別是:總平方和SST的自由度為kr-1;行因素平方和SSR的自由度為k-1;列因素平方和SSC的自由度為r-1;行因素的均方,記為MSR,計(jì)算公式為o列因素的均方,記為MSC,計(jì)算公式為隨機(jī)誤差項(xiàng)的均方,記為MSE,計(jì)算公式為h、計(jì)算檢驗(yàn)統(tǒng)計(jì)量F檢驗(yàn)行因素的統(tǒng)計(jì)量:檢驗(yàn)列因素的統(tǒng)計(jì)量:3)統(tǒng)計(jì)決策將Fa、FR、Fc進(jìn)行比較,作出對(duì)原假設(shè)Ho的決策。若Fg>Fa,拒絕原假設(shè)Ho,表明均值μ;之間的差異是顯著的,即所檢驗(yàn)的行因素對(duì)觀測(cè)值有若Fc>Fa,拒絕原假設(shè)Ho,表明均值之間有顯著差異,即所檢驗(yàn)的列因素對(duì)觀測(cè)值有顯著影3、關(guān)系強(qiáng)度的測(cè)量行平方和SSR度量了自變量對(duì)因變量的影響效應(yīng),列平方和SSC度量了自變量對(duì)因變量的影響效應(yīng),這兩個(gè)平方和加在一起則度量了兩個(gè)自變量對(duì)因變量的聯(lián)合效應(yīng),聯(lián)合效應(yīng)與總平方和的比值定義為,其平方根R反映了這兩個(gè)自變量合起來與因變量之間的關(guān)系強(qiáng)度。B、有交互作用的雙因素分析1、設(shè):xiju為對(duì)應(yīng)于行因素的第i個(gè)水平和列因素的第j個(gè)水平的第1行的觀測(cè)值;x.為行因素的第i個(gè)水平的樣本均值;x?為列因素的第j個(gè)水平的樣本均值;x.j對(duì)應(yīng)于行因素的第i個(gè)水平和列因素的第j個(gè)水平組合的樣本均值;為全部n個(gè)觀察值的總均值。交互作用平方和:SSRC=mZK?Z/=1(X-x-x+)22、可重復(fù)雙因素分析Excel檢驗(yàn)步驟:第1步:選擇【工具】下拉菜單,并選擇【數(shù)據(jù)分析】選項(xiàng);第2步:在分析工具中選擇【方差分析:可重復(fù)雙因素分析】,然后選擇【確定】;第3步:當(dāng)對(duì)話框出現(xiàn)時(shí):在【輸入?yún)^(qū)域】方框內(nèi)鍵入數(shù)據(jù)區(qū)域A1:C11;在【α】方框內(nèi)鍵入0.05(可根據(jù)需要確定);在【每一樣本的行數(shù)】方框內(nèi)鍵入重復(fù)試驗(yàn)次數(shù)5;在【輸出區(qū)域】中選擇輸出區(qū)域(這里選新工作表組);第十一章一元線性回歸一、變量間關(guān)系的度量設(shè)有兩個(gè)變量x和y,變量y隨變量x一起變化,并完全依賴于x,當(dāng)變量x取某個(gè)數(shù)時(shí),y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量。函數(shù)關(guān)系是一一對(duì)應(yīng)的確定關(guān)系。相關(guān)關(guān)系(correlation):變量之間存在的不確定的數(shù)量關(guān)系。B、相關(guān)關(guān)系的描述與測(cè)度相關(guān)分析就是對(duì)兩個(gè)變量之間線性關(guān)系的描述與度量,要解決的問題包括:a、變量之間是否存在關(guān)系?b、如果存在關(guān)系,它們之間是什么樣的關(guān)系?c、變量之間的關(guān)系強(qiáng)度如何?d、樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系?為解決這些問題,在進(jìn)行相關(guān)分析時(shí),對(duì)總體有以下兩個(gè)主要假定:a、兩個(gè)變量之間是線性關(guān)系。b、兩個(gè)變量都是隨機(jī)變量。1、散點(diǎn)圖(scatterdiagram):由坐標(biāo)集散點(diǎn)形成的二維數(shù)據(jù)圖。散點(diǎn)圖是描述變量之間關(guān)系的一種直觀方法,從中可以大體看出變量之間的關(guān)系形態(tài)及關(guān)系強(qiáng)度。線性相關(guān):變量之間的關(guān)系近似接近于一條直完全相關(guān):一個(gè)變量的取值完全依賴于另一個(gè)變量,各觀測(cè)點(diǎn)落在另一條直線上。正相關(guān):兩個(gè)變量的變動(dòng)方向相同,一個(gè)變量的數(shù)值增加(減少),另一個(gè)變量的數(shù)值也隨之增加(減負(fù)相關(guān):兩個(gè)變量的變動(dòng)方向相反,一個(gè)變量的數(shù)值增加(減少),另一個(gè)變量的數(shù)值隨之減少(增e、非線性相關(guān):變量之間的關(guān)系近似接近于一條曲線,又稱曲線相關(guān)。f、不相關(guān):兩個(gè)觀測(cè)點(diǎn)很分散,無任何規(guī)律。2、相關(guān)系數(shù)(correlationcoefficient):根據(jù)樣本數(shù)據(jù)計(jì)算的度量變量之間線性關(guān)系強(qiáng)度的一個(gè)總體相關(guān)系數(shù):相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,記為p。樣本相關(guān)系數(shù):根據(jù)樣本數(shù)據(jù)計(jì)算的,又稱為線性相關(guān)系數(shù)(linearPearson相關(guān)系數(shù)(Pearson'scorrelationcoefficient),簡(jiǎn)稱為相關(guān)系數(shù),記為r,r=1)相關(guān)系數(shù)的性質(zhì)越趨于1表示關(guān)系越強(qiáng);Ir|越趨于0表示關(guān)系越弱)。性質(zhì)2:r具有對(duì)稱性。即x與y之間的相關(guān)系數(shù)和y與x之間的相關(guān)系數(shù)相等,即rxy=Yyx。性質(zhì)3:r數(shù)值大小與x和y原點(diǎn)及尺度無關(guān),即改變x和y的數(shù)據(jù)原點(diǎn)及計(jì)量尺度,并不改變r(jià)的數(shù)性質(zhì)4:r僅僅是x與y之間線性關(guān)系的一個(gè)度量,它不能用于描述非線性關(guān)系。這意味著,r=0只表示兩個(gè)變量之間不存在線性相關(guān)關(guān)系,并不說明變量之間沒有任何關(guān)系,它們之間可能存在非線性相關(guān)關(guān)系(變量之間的非線性相關(guān)程度較大時(shí),可能會(huì)導(dǎo)致r=0)。性質(zhì)5:r雖然是兩個(gè)變量之間線性關(guān)系的一個(gè)度量,卻不一定意味著x與y一定有因果關(guān)系。2)相關(guān)系數(shù)的經(jīng)驗(yàn)解釋:Irl≥0.8時(shí),可視為兩個(gè)變量之間高度相關(guān);0.5≤|rl<0.8時(shí),可視為中度相關(guān);Irl<0.3時(shí),說明兩個(gè)變量之間的相關(guān)程度極弱,可視為不相關(guān)。注:上述解釋必須建立在對(duì)相關(guān)系數(shù)的顯著性進(jìn)行檢驗(yàn)的基礎(chǔ)之上。C、相關(guān)系數(shù)的顯著性檢驗(yàn)1、r的抽樣分布當(dāng)p為較大的正值時(shí),r呈現(xiàn)左偏分布;當(dāng)p為較大負(fù)值時(shí),r呈現(xiàn)右偏分部;只有當(dāng)p接近于0,而樣本量n很大時(shí),r是接近正態(tài)分布的隨機(jī)變量。2、r的顯著性檢驗(yàn)采用R.A.Fisher提出的t檢驗(yàn),既可用于小樣本,也可用于大樣本。檢驗(yàn)的步驟為:2)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:3)進(jìn)行決策:根據(jù)給定的顯著水平α和自由度df=n-2查t分布表,得出ta/z(n-2)的臨界值;若|t|>ta/2,則拒絕原假設(shè)Ho,表明總體的兩個(gè)變量之間存在顯著的A、回歸分析(Regression)主要解決的問題:1)從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式。2)對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些是不顯著的。3)利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來預(yù)測(cè)或估計(jì)另一個(gè)特定變量的取值,并給出這種預(yù)測(cè)或估計(jì)的可靠程度。B、一元線性回歸模型因變量(dependentvariable):被預(yù)測(cè)或被解釋的變量,用y表示。自變量(independentvariable):用來預(yù)測(cè)或用來解釋因變量的一個(gè)或多個(gè)變量,用x表示。一元回歸:當(dāng)回歸中只涉及一個(gè)自變量的回歸;若因變量y與自變量x之間為線性關(guān)系時(shí)稱為一元線性1、回歸模型(regressionmodel):描述因變量y如何依賴于自變量x和誤差項(xiàng)E的方程;一元線性回歸模型可表示為y=βo+β?x+ε。1)因變量x與自變量y之間具有線性關(guān)系。2)在重復(fù)抽樣中,自變量x的取值是固定的,即假定x是非隨機(jī)的。3)誤差項(xiàng)E是一個(gè)期望值為0的隨機(jī)變量,即E(E)=0。對(duì)于一個(gè)給定的x值,y的期望值為E(y)=βo+β1x。這實(shí)際上等于假定模型的形式為一條直線。4)對(duì)于所有的x值,E的方差α2都相同。這意味著對(duì)于一個(gè)特定的x值,y的方差也都等于σ2。5)誤差項(xiàng)E是一個(gè)服從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立,即ε~N(0,α2)。獨(dú)立性意味著對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的E與其他x值所對(duì)應(yīng)的E不相關(guān);對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的y值與其他x所對(duì)應(yīng)的y值也不相關(guān)。2、回歸方程(regressionequation):描述y的平均值或期望值如何依賴于x的方程;一元線性回歸方程的形式為E(y)=βo+β?x。C、參數(shù)的最小二乘估計(jì)最小平方法(methodofleastsquares):也稱最小二乘法,通過使因變量的觀測(cè)值y;與估計(jì)值眾之1、最小二乘法擬合的直線的性質(zhì):1)根據(jù)最小二乘法得到的回歸直線能使離差平方和達(dá)到最小,雖然并不能保證它就是擬合數(shù)據(jù)2、用Excel進(jìn)行回歸分析第1步:選擇【工具】下拉菜單,并選擇【數(shù)據(jù)分析】選項(xiàng);第2步:在分析工具中選擇【回歸】,選擇【確定】;第3步:當(dāng)對(duì)話框出現(xiàn)時(shí):在【Y值輸入?yún)^(qū)域】方框內(nèi)輸入數(shù)據(jù)區(qū)域A2:A26;在【X值輸入?yún)^(qū)域】方框內(nèi)輸入數(shù)據(jù)區(qū)域B2:B26;在【置信度】選項(xiàng)中給出所需的數(shù)值(使用隱含值95%);在【輸出選項(xiàng)】中選擇輸出區(qū)域(選新工作表組);在【殘差】分析選項(xiàng)中選擇所需的選項(xiàng);單擊【確定】。D、回歸直線的擬合優(yōu)度擬合優(yōu)度(goodnessoffit):回歸直線與各觀測(cè)點(diǎn)的接近程度。1、變差:因變量y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來源于兩個(gè)方面:1)由于自變量x的取值不同造成的;2)除x以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響。對(duì)一個(gè)具體的觀測(cè)值來說,變差的大小可以用實(shí)際觀測(cè)值y與其均值y之差(y-y)來表示??偲椒胶?SST,totalsumofsquares):n次觀測(cè)值的總變差可以用離差平方和來表示,SST=每個(gè)觀測(cè)點(diǎn)的離差都可以分解為:y-y=(y-y)+(0-y);將兩邊平方,并對(duì)所有n個(gè)點(diǎn)求和:Z(yi-y2=2(y-y)2+2(y-)2+2Z(y-y;)(Z(t-Yi(O-y)=0,因此,Z(yi-y2=2(yi-yi2+200?-y2?;貧w平方和(SSR,sumofsquaresofregression):2(Y-y)2反映了y的總變差中由于x與y之間的線性關(guān)系引起的y的變化部分,它是可以由回歸直線來解釋的yi變差部分??偲椒胶?回歸平方和+殘差平方和判定系數(shù)(coefficientofdetermination):回歸平方和占總平方和的比例(SSR/SST越大,直線擬合越好,各觀測(cè)點(diǎn)越靠近直線),是對(duì)估計(jì)的回歸方程擬合優(yōu)度的度量;oR2的取值范圍為[0,1],R2越接近1,回歸直線的擬合程度就越好,反之越差。線性關(guān)系來解釋,或者說,在不良貸款取值的變動(dòng)中,有71.16%是由貸款余額所決定的。也就是說,越準(zhǔn)確;若各觀測(cè)點(diǎn)全部落在直線上,則Se=0,用自變量來預(yù)測(cè)因變量是沒有誤差的(也說明了回歸直線的擬合優(yōu)度)。1、線性關(guān)系的檢驗(yàn):檢驗(yàn)自變量與因變量之間的線性關(guān)系是2)計(jì)算檢驗(yàn)統(tǒng)計(jì)量F:3)作出決策:2)計(jì)算檢驗(yàn)統(tǒng)計(jì)量t:3)作出決策:建立的模型是否合適?或者說,這個(gè)擬合的模型有多“好”?要回答這些問題,可以從以下幾個(gè)1)所估計(jì)的回歸系數(shù)圖的符號(hào)是否與理論或事先預(yù)期相一致。2)如果理論上認(rèn)為x與y之間的關(guān)系不僅是正的,而且是統(tǒng)計(jì)上顯著的,那么所建立的回歸方程3)回歸模型在多大程度上解釋了因變量y取值的差異?可以用判定系數(shù)R2來回答這一問題。4)考察關(guān)于誤差項(xiàng)E的正態(tài)性假定是否成立(要求誤差項(xiàng)E服從正態(tài)分布)。檢驗(yàn)正態(tài)性的簡(jiǎn) 對(duì)于給定的xo,E(yo)在1-a置信水平下的置信區(qū)間為石±;,預(yù)測(cè)區(qū)間比置信區(qū)間要寬一些。2、殘差圖(residualplot):表示殘差的圖形,用于1)關(guān)于x的殘差圖2)關(guān)于y的殘差圖3)標(biāo)準(zhǔn)化殘差圖1)滿意的模式2)非常數(shù)方差3)模型形式不合適第十二章多元線性回歸model):一個(gè)因變量與兩個(gè)及兩個(gè)以上自變量的回歸,描述1)誤差項(xiàng)E是一個(gè)期望值為0的隨機(jī)變量,即E(ε)=0。3)誤差項(xiàng)E是一個(gè)服從正態(tài)分布的隨機(jī)變量,即ε~N(0,a2),且相互獨(dú)立。xk之間的關(guān)系,多元線性回歸方程的形式為E(y)=βo+βxxx1、多重判定系數(shù)(multiplecoefficientofdetermination):是多元回歸中的回歸平方和占總平方和的比例,它是度量多元回歸方程擬合程度的一個(gè)統(tǒng)計(jì)量,反映了在因變量y的變差中被估計(jì)的多調(diào)整的多重判定系數(shù)(adjustedmultiplecoefficientofdetermination):為了避免增加自變量而高估R2,用樣本量n和自變量的個(gè)數(shù)k去調(diào)整R2,記為1)提出假設(shè)3)作出統(tǒng)計(jì)決策:確定顯著性水平α,并根據(jù)分子自由度=k和分母自由度=n-k-1查F分布表得Fa。2)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量t:3)作出統(tǒng)計(jì)決策:1)變量之間高度相關(guān)時(shí),可能會(huì)使回歸的結(jié)果造成混亂,甚至?xí)逊治鲆肫缤尽?)可能對(duì)參數(shù)估計(jì)值的正負(fù)號(hào)產(chǎn)生影響,特別是β的正負(fù)號(hào)有可能同預(yù)期的正負(fù)號(hào)相反。1)模型中各對(duì)自變量之間顯著相關(guān)。2)當(dāng)模型的線性關(guān)系檢驗(yàn)(F檢驗(yàn))顯著時(shí),幾乎所有回歸系數(shù)βi的t檢驗(yàn)卻不顯著。3)回歸系數(shù)的正負(fù)號(hào)與預(yù)期的相反。容忍度等于1減去該自變量為因變量而其他k的判定系數(shù),即1-R2。容忍度越小,多重共線性越嚴(yán)重。通常認(rèn)為容忍度小于0.1時(shí),存在1)將一個(gè)或多個(gè)相關(guān)的自變量從模型中剔除,使保留的自變量盡可能不相關(guān)。2)如果要在模型中保留所有的自變量,則應(yīng):b、對(duì)因變量y值的推斷(估計(jì)或預(yù)測(cè))限定在自變量樣本值的范圍內(nèi)。的自變量不合適。著的,則說明有必要將這個(gè)自變量引入回歸模型,否則,就沒有個(gè)去掉一個(gè)自變量的模型(這些模型中每一個(gè)都有的k-1個(gè)自變量),使模型的SSE值減小最少的自變量被挑選出來并從模型中剔除??疾靝-1個(gè)再去掉一個(gè)自變量的模型(這些模型中在每一個(gè)都有k-2個(gè)的自變量),使模型的SSE值減小最少的自變量被挑選出來并從模型中剔除。如此反復(fù)進(jìn)行,一直將了一個(gè)自變量后,前面增加的某個(gè)自變量對(duì)模型的第十三章時(shí)間序列分析和預(yù)測(cè)波動(dòng)趨勢(shì)(trend,T):時(shí)間序列在長(zhǎng)期內(nèi)呈現(xiàn)出來的某cyclityCyclicalfluctuatmultiplicativemodelYtTtStC增長(zhǎng)率(growthrate):也稱增長(zhǎng)速度,報(bào)告期觀察值與基期觀察值之比減1,用百分比表示。1)由于對(duì)比的基期不同,增長(zhǎng)率可以分為環(huán)比增長(zhǎng)率和定基增長(zhǎng)率。2)由于計(jì)算方法的不同,有一般增長(zhǎng)率、平均增長(zhǎng)率、年度化增長(zhǎng)率。環(huán)比增長(zhǎng)率:報(bào)告期觀察值與前一期觀察值之比減1,說明現(xiàn)象在整個(gè)觀察期內(nèi)總的增長(zhǎng)變化程度。平均增長(zhǎng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論