統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記_第1頁
統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記_第2頁
統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記_第3頁
統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記_第4頁
統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章導(dǎo)論一、統(tǒng)計(jì)及其應(yīng)用領(lǐng)域統(tǒng)計(jì)學(xué)(statistics):是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)。數(shù)據(jù)分析所用的方法可分為描述統(tǒng)計(jì)方法和推斷統(tǒng)計(jì)方法。按統(tǒng)計(jì)方法分:描述統(tǒng)計(jì)(descriptivestatistics)研究的是數(shù)據(jù)收集、處理、分析、匯總、圖表描述、概括與分析等統(tǒng)計(jì)方法。推斷統(tǒng)計(jì)(inferentialstatistics)研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計(jì)方法。按統(tǒng)計(jì)方法研究與應(yīng)用分:理論統(tǒng)計(jì)學(xué)、應(yīng)用統(tǒng)計(jì)學(xué)。統(tǒng)計(jì)學(xué)的主要特點(diǎn):數(shù)量性、社會性、總體性。統(tǒng)計(jì)的應(yīng)用領(lǐng)域:1、企業(yè)發(fā)展戰(zhàn)略2、產(chǎn)品質(zhì)量管理3、市場研究4、財(cái)務(wù)分析5、經(jīng)濟(jì)預(yù)測6、人力資源管理二、統(tǒng)計(jì)數(shù)據(jù)的類型按計(jì)量層次分類:分類數(shù)據(jù)(categoricaldata)是只能歸于某一類別的非數(shù)字型數(shù)據(jù)。順序數(shù)據(jù)(rankdata)是只能歸于某一有序類別的非數(shù)字型數(shù)據(jù)。數(shù)值型數(shù)據(jù)(metricdata)是按數(shù)字尺度測量的觀察值,其結(jié)果表現(xiàn)為具體的數(shù)值。定性數(shù)據(jù)(qualitativedata)即品質(zhì)數(shù)據(jù),分類數(shù)據(jù)和順序數(shù)據(jù)。定量數(shù)據(jù)(quantitativedata)即數(shù)量數(shù)據(jù),數(shù)值型數(shù)據(jù)。按收集方法分類:觀測數(shù)據(jù)(observationaldata)是通過調(diào)查(調(diào)查數(shù)據(jù))或觀測而收集到的數(shù)據(jù)?!旧鐣F(xiàn)象】實(shí)驗(yàn)數(shù)據(jù)(experimentaldata)是在實(shí)驗(yàn)中控制實(shí)驗(yàn)對象而收集到的數(shù)據(jù)?!咀匀滑F(xiàn)象】按時間狀況分類:截面數(shù)據(jù)(cross-sectionaldata)是在相同或近似相同的時間點(diǎn)上收集的數(shù)據(jù),這類數(shù)據(jù)通常是在不同的空間上獲得的,用于描述現(xiàn)象在某一時刻的變化情況。時間序列數(shù)據(jù)(timeseriesdata)是在不同時間收集到的數(shù)據(jù),這類數(shù)據(jù)是按時間順序收集到的,用于描述現(xiàn)象隨時間變化的情況。三、統(tǒng)計(jì)中的幾個基本概念總體(population):包含所研究的全部個體(數(shù)據(jù))的集合??傮w通常由所研究的一些個體組成,組成總體的每個元素稱為個體。根據(jù)總體包含的單位數(shù)目是否可數(shù)分:有限總體:總體的范圍能夠確定,而且元素的數(shù)目是有限可數(shù)的。(抽取一個單位后,總體元素就會減少一個,前一次抽樣會影響第二次抽樣的結(jié)果。)無限總體:總體所包括的元素是無限的、不可數(shù)的。(每次抽取一個單位,并不影響下一次的抽樣結(jié)果。)【抽樣中每次抽取是否獨(dú)立。】樣本(sample):從總體中抽取一部分元素的集合。樣本量(samplesize):構(gòu)成樣本元素的數(shù)目。抽樣的目的是根據(jù)樣本提供的信息推斷總體的特征,根據(jù)樣本統(tǒng)計(jì)量去估計(jì)總體參數(shù)。參數(shù)(parameter):用來描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值。(總體平均數(shù)μ、總體標(biāo)準(zhǔn)差σ、總體比例π等。)統(tǒng)計(jì)量(statistic):用來描述樣本特征的概括性數(shù)字度量,是根據(jù)樣本數(shù)據(jù)計(jì)算出來的一個量,是樣本的函數(shù)。(樣本平均數(shù)x-bar、樣本標(biāo)準(zhǔn)差s、樣本比例p等。)變量(variable):說明現(xiàn)象某種特征的概念,其特點(diǎn)是從一次觀察到下一次觀察結(jié)果會呈現(xiàn)出差別或變化。(變量的具體取值稱為變量值。)1、分類變量(categoricalvariable)是說明事物類別的一個名稱,其取值是分類數(shù)據(jù)。2、順序變量(rankvariable)是說明事物有序類別的一個名稱,其取值是順序數(shù)據(jù)。3、數(shù)值型變量(metricvariable)是說明事物數(shù)字特征的一個名稱,其取值是數(shù)值型數(shù)據(jù)。數(shù)值型變量根據(jù)其取值不同分:離散型變量(discretevariable)是只能取可數(shù)值的變量,只能取有限個值,且取值都以整位數(shù)斷開,可以一一列舉。連續(xù)型變量(continuousvariable)是可以在一個或多個區(qū)間中取任何值的變量,其取值是連續(xù)不斷的,不能一一列舉。其他分類:隨機(jī)變量和非隨機(jī)變量、經(jīng)驗(yàn)變量(empiricalvariable)、理論變量(theoreticalvariable)。第二章數(shù)據(jù)的收集一、數(shù)據(jù)的來源數(shù)據(jù)的間接來源,即二手資料,搜集方便、數(shù)據(jù)采集快、采集成本低,但局限性很大,針對性不夠。對二手資料評估需考慮:資料是誰搜集的?為什么目的而搜集?數(shù)據(jù)是怎樣搜集的?什么時候搜集的?數(shù)據(jù)的直接來源。二、調(diào)查數(shù)據(jù)什么是好的樣本?一是針對研究問題而言的,二是具有最好的性能價格比,即針對調(diào)查費(fèi)用與估計(jì)精度的關(guān)系而言的。使用抽樣采集數(shù)據(jù)的具體方式:概率抽樣和非概率抽樣概率抽樣(probabilitysampling):也稱隨機(jī)抽樣,是指遵循隨機(jī)原則進(jìn)行的抽樣,總體中每個單位都有一定的機(jī)會被選入樣本。隨機(jī)原則:在抽取樣本時排除主觀上有意識的抽取調(diào)查單位,是每一個單位都有一定的機(jī)會被抽中。特點(diǎn):1、抽樣時是按一定的概率以隨機(jī)原則抽取樣本。2、每個單位被抽中的概率是已知的,或是可以計(jì)算出來的。3、當(dāng)用樣本對總體目標(biāo)量進(jìn)行估計(jì)時,要考慮到每個樣本單位被抽中的概率。概率抽樣方式:1、簡單隨機(jī)抽樣(simplerandomsampling)就是從包括總體N個單位的抽樣框(samplingframe)中隨機(jī)地、一個個的抽取n個單位作為樣本,每個單位的入樣概率上相等的。特點(diǎn):簡單、直觀、計(jì)量方便。局限性:a、要求將包含所有總體單位的名單作為抽樣框,當(dāng)N很大時,構(gòu)造這樣的抽樣框并不容易。b、抽出的單位很分散,給實(shí)施調(diào)查增加了困難。c、沒有利用其它輔助信息以提高估計(jì)的效率。2、分層抽樣(stratifiedsampling)是將抽樣單位按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨(dú)立、隨機(jī)地抽取樣本。優(yōu)點(diǎn):a、保證了樣本中包含有各種特征的抽樣單位,樣本結(jié)構(gòu)與總體結(jié)構(gòu)比較相近,有效地提高估計(jì)的精度。b、在一定條件下為組織實(shí)施調(diào)查提供了方便。c、既可以對總體參數(shù)進(jìn)行估計(jì),也可以對各層的目標(biāo)量進(jìn)行估計(jì)。3、整群抽樣(clustersampling)即將總體中若干個單位合并為組,這樣的組稱為群,抽樣時直接抽取群,然后對中選群中的所有單位全部實(shí)施調(diào)查。特點(diǎn):a、簡化了編制抽樣框的工作量。b、調(diào)查地點(diǎn)相對集中,節(jié)省調(diào)查費(fèi)用,方便調(diào)查實(shí)施。弱點(diǎn):估計(jì)的精度較差,要得到與簡單隨機(jī)抽樣相同的精度,需要增加基本調(diào)查單位。4、系統(tǒng)抽樣(systematicsampling)將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)定的范圍內(nèi)隨機(jī)地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其他樣本單位。優(yōu)點(diǎn):操作簡單,若有輔助信息,對總體內(nèi)的單位進(jìn)行有組織的排列,可以有效地提高估計(jì)的精度。缺點(diǎn):對估計(jì)量方差的估計(jì)比較困難。5、多階段抽樣(multi-stagesampling)首先抽取群,然后再進(jìn)一步抽樣,從選中的群中抽取若干個單位進(jìn)行調(diào)查,即二階段抽樣,群是初級抽樣單位,第二階段抽取的是最終抽樣單位。優(yōu)點(diǎn):a、保證樣本相對集中,節(jié)約調(diào)查費(fèi)用。b、不需要包含所有底階段抽樣單位的抽樣框。c、由于實(shí)行了再抽樣,使調(diào)查單位在更廣的范圍內(nèi)展開。非概率抽樣(non-probabilitysampling):是相對于概率抽樣而言的,指抽取樣本時不是依據(jù)隨機(jī)原則,二是根據(jù)研究目的對數(shù)據(jù)的要求,采用某種方式從總體中抽取部分單位對其實(shí)施調(diào)查。非概率抽樣的類型:1、方便抽樣調(diào)查過程中由調(diào)查員依據(jù)方便原則,自行確定入抽樣本的單位。最大特點(diǎn)是容易實(shí)施,調(diào)查成本低;弱點(diǎn)是樣本單位的確定帶有隨意性。2、判斷抽樣研究人員根據(jù)經(jīng)驗(yàn)、判斷和對研究對象的了解,有目的地選擇一些單位作為樣本,實(shí)施時根據(jù)不同的目的有重點(diǎn)抽樣、典型抽樣、代表抽樣等方式。優(yōu)點(diǎn)是成本較低,容易操作;弱點(diǎn)是主觀性強(qiáng),樣本選擇的好壞取決于調(diào)研者的判斷、經(jīng)驗(yàn)、專業(yè)程度和創(chuàng)造性,且調(diào)查結(jié)果不能用于對總體有關(guān)參數(shù)進(jìn)行估計(jì)。3、自愿抽樣被調(diào)查者自愿參加,成為樣本中的一份子,向調(diào)查人員提供有關(guān)信息,可反映某類人群的一般看法。4、滾雪球抽樣往往用于對稀少群體的調(diào)查,適合對特定群體進(jìn)行研究的資料搜集。優(yōu)點(diǎn)是容易找到那些屬于特定群體的被調(diào)查者,調(diào)查的成本也比較低。5、配額抽樣首先將總體中的所有單位按一定的標(biāo)志(變量)分為若干類,然后在每個類中采用方便抽樣或判斷抽樣的方式選取樣本單位。可以按單一變量控制,也可以按交叉變量控制(保證樣本的分布更為均勻)。搜集數(shù)據(jù)的基本方法:1、自填式弱點(diǎn)是問卷的回收率比較低,不適合結(jié)構(gòu)復(fù)雜的問卷。2、面訪式弱點(diǎn)是調(diào)查的成本較高,在對調(diào)查過程的質(zhì)量控制方面有一定難度。3、電話式特點(diǎn)是速度快,能夠在很短的時間內(nèi)完成調(diào)查。4、觀察式數(shù)據(jù)搜集方法的選擇:1、抽樣框中的有關(guān)信息。2、目標(biāo)總體的特征。3、調(diào)查問題的內(nèi)容。4、有形輔助物的使用。5、實(shí)施調(diào)查的資源。6、管理與控制。7、質(zhì)量要求。三、實(shí)驗(yàn)數(shù)據(jù)實(shí)驗(yàn)組(experimentgroup):指隨機(jī)抽選的實(shí)驗(yàn)對象的子集,每個單位接受某種特別的處理。對照組(controlgroup):每個單位不接收實(shí)驗(yàn)組成員所接受的某種特別的處理?!倦p盲法】對照組和實(shí)驗(yàn)組是匹配的。實(shí)驗(yàn)中的若干問題:1、人的意愿。2、心理問題。3、道德問題。實(shí)驗(yàn)中的統(tǒng)計(jì)作用:1、確定實(shí)驗(yàn)所需要的單位的個數(shù),以保證實(shí)驗(yàn)可以達(dá)到統(tǒng)計(jì)顯著的結(jié)果。2、將統(tǒng)計(jì)思想融入實(shí)驗(yàn)設(shè)計(jì),使實(shí)驗(yàn)設(shè)計(jì)符合統(tǒng)計(jì)分析的標(biāo)準(zhǔn)。3、提供盡可能有效的同時研究幾個變量影響的方法。什么是好的實(shí)驗(yàn)?一方面是內(nèi)部的有效性,即實(shí)驗(yàn)測量的準(zhǔn)確性;另一方面是外部的有效性,外部的有效性決定是否可以將實(shí)驗(yàn)中發(fā)現(xiàn)的因果關(guān)系進(jìn)行推廣,即能否將結(jié)果推廣到實(shí)驗(yàn)環(huán)境以外的情況。實(shí)驗(yàn)數(shù)據(jù)可以作為研究者判斷假設(shè)的依據(jù)。四、數(shù)據(jù)的誤差數(shù)據(jù)的誤差:指通過調(diào)查搜集到的數(shù)據(jù)與研究對象真實(shí)結(jié)果之間的差異。抽樣誤差(samplingerror):由抽樣的隨機(jī)性引起的樣本與總體真值之間的誤差。抽樣誤差描述的是所有樣本可能的結(jié)果與總體真值之間的平均差異。影響抽樣誤差大小的因素:1、樣本量的大小。樣本量越大,抽樣誤差越小;樣本量大到等于總體單位時,抽樣調(diào)查變?yōu)槠詹?,抽樣誤差為零。2、總體的變異性??傮w的變異性越大,即各單位之間的差異越大,抽樣誤差也就越大,因?yàn)榭赡艹榈教貏e大或特別小的樣本單位,從而使樣本結(jié)果偏大或偏??;反之總體的變異性越小,各單位之間越相似,抽樣誤差也就越小;如果所有的單位完全一樣,調(diào)查一個就可以精確無誤的推斷總體,抽樣誤差就不存在。非抽樣誤差(non-samplingerror):相對于抽樣誤差而言,是除抽樣誤差之外的,由于其他原因引起的樣本觀察結(jié)果與總體真值之間的差異。非抽樣誤差的類型:1、抽樣框誤差2、回答誤差(a、理解誤差b、記憶誤差c、有意識誤差)3、無回答誤差4、調(diào)查員誤差5、測量誤差誤差的控制:抽樣誤差是由抽樣的隨機(jī)性帶來的,只要采用概率抽樣,抽樣誤差就不可避免,但抽樣誤差是可以計(jì)算的。樣本量和抽樣誤差的關(guān)系:一旦誤差確定下來,就可以采用相應(yīng)的措施進(jìn)行控制,進(jìn)行控制的一個主要方法是改變樣本量,要求的抽樣誤差越小,所需要的樣本量就越大。第三章數(shù)據(jù)的圖表展示一、數(shù)據(jù)的預(yù)處理數(shù)據(jù)的預(yù)處理:在對數(shù)據(jù)分類或分組之前所做的必要處理,內(nèi)容包括數(shù)據(jù)的審核、篩選、排序等。A、數(shù)據(jù)審核:檢查數(shù)據(jù)中是否有錯誤。對于通過調(diào)查取得的原始數(shù),主要從完整性和準(zhǔn)確性兩個方面去審核。完整性審核:主要是檢查應(yīng)調(diào)查的單位或個體是否有遺漏,所有的調(diào)查項(xiàng)目是否填寫齊全等。準(zhǔn)確性審核:主要是檢查數(shù)據(jù)是否有錯誤,是否存在異常值等。對于二手?jǐn)?shù)據(jù),應(yīng)著重審核數(shù)據(jù)的適用性和時效性。B、數(shù)據(jù)篩選(datafilter):根據(jù)需要找出符合特定條件的某類數(shù)據(jù)。C、數(shù)據(jù)排序:按一定順序?qū)?shù)據(jù)排列,以便研究者通過瀏覽數(shù)據(jù)發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索。排序還有助于對數(shù)據(jù)檢查糾錯,以及為重新歸類或分組提供方便。分類數(shù)據(jù)——字母型數(shù)據(jù)[升序、降序]漢字型數(shù)據(jù)[按漢字首位拼音字母排列、按姓氏筆畫排序](交替運(yùn)用不同方式排序,在漢字型數(shù)據(jù)的檢查糾錯過程中十分有用。)數(shù)值型數(shù)據(jù)[遞增、遞減]順序統(tǒng)計(jì)量(orderstatistics):排序后的數(shù)據(jù)。D、數(shù)據(jù)透視表(pivottable)二、品質(zhì)數(shù)據(jù)的整理與展示A、分類數(shù)據(jù)的整理與圖示頻數(shù)(frequency):落在某一特定類別或組中的數(shù)據(jù)個數(shù)。頻數(shù)分布(frequencydistribution):把各類別及落在其中的相應(yīng)頻數(shù)全部列出,并用表格的形式表現(xiàn)出來。列聯(lián)表(contingencytable):由兩個或兩個以上的變量交叉分類的頻數(shù)分布表。交叉表(crosstable):二維的列聯(lián)表(兩個變量交叉分類)。對于定型數(shù)據(jù)除了用頻數(shù)分布表進(jìn)行描述外,還可用比例、百分比、比率等統(tǒng)計(jì)計(jì)量來描述。比例(proportion):也稱構(gòu)成比,它是一個樣本或總體中各個部分的數(shù)據(jù)與全部數(shù)據(jù)之比,通常用于反應(yīng)樣本或總體的構(gòu)成或結(jié)構(gòu)。百分比(percentage):將比例乘以100得到的數(shù)值,用%表示。比率(ratio):樣本或總體中不同類別數(shù)據(jù)之間的比值,由于比率不是部分與整體之間的對比關(guān)系,因此比值可能大于1。分類數(shù)據(jù)的圖示——條形圖(barchart):用寬度相同的條形的高度或長短來表示數(shù)據(jù)多少的圖形,縱置時稱也為柱形圖(columnchart),此外,又分為簡單條形圖、復(fù)式條形圖等。帕累托圖(paretochart):按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的條形圖,左側(cè)縱軸給出計(jì)數(shù)值(count),即頻數(shù),右側(cè)的縱軸給出累積百分比(cumulativepercent)。餅圖(piechart):用圓形及園內(nèi)扇形的角度來表示數(shù)值大小的圖形,它主要用于表示一個樣本或總體中各組成部分的數(shù)據(jù)占全部數(shù)據(jù)的比例,對于研究結(jié)構(gòu)性問題十分有用。環(huán)形圖(doughnutchart):把餅圖疊在一起,挖取中間部分即可。B、順序數(shù)據(jù)的整理與圖示累積頻數(shù)(cumulativefrequencies):將各有序類別或組的頻數(shù)逐級累加起來得到的頻數(shù)。累積方法—向上累積:從類別順序的開始一方向類別順序的最后一方累加頻數(shù);數(shù)值型分組數(shù)據(jù)則是從變量值小的一方向變量值大的一方累加頻數(shù)。向下累積:從類別順序最后的一方向類別順序開始的一方累加頻數(shù);數(shù)值型分組數(shù)據(jù)則是從變量值大的一方向變量值小的一方累加頻數(shù)。累積頻率或累積百分比(cumulativepercentages):將各有序類別或組的百分比逐級累加起來,也有向上累積和向下累積兩種方法。累積頻數(shù)分布或頻率圖。三、數(shù)值型數(shù)據(jù)的整理與展示A、數(shù)據(jù)分組數(shù)據(jù)分組:根據(jù)統(tǒng)計(jì)研究的需要,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)分成不同的組別。分組數(shù)據(jù)(groupeddata):根據(jù)統(tǒng)計(jì)研究的需要,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)分成不同的組別,分組后的數(shù)據(jù)。數(shù)據(jù)分組的方法—1)按照一個標(biāo)志進(jìn)行的分組是簡單分組,按照多個標(biāo)志進(jìn)行的分組是復(fù)合分組。2)單變量值分組:把每一個變量值作為一組;適用于變量值較少的離散型變量。3)組距分組:將全部變量值一次劃分為若干區(qū)間,將一個區(qū)間的變量值作為一組;適用于變量值較多或連續(xù)型變量。在組距(classwidth)分組中,一個組的最小值稱為下限(lowerlimit),最大值稱為上限(upperlimit),并遵循不重不漏的原則;組距相等稱為等距分組,組距不等稱為不等距分組。組中值(classmidpoint):每一組中下限值與上限值中間的值,即組中值=(下限值+上限值)÷2,反映各組數(shù)據(jù)的一般水平。(必要假定條件:各組數(shù)據(jù)在本組內(nèi)呈均勻分布或在組中值兩側(cè)呈對稱分布。)B、數(shù)值型數(shù)據(jù)的圖示a、分組數(shù)據(jù):直方圖顯示分組數(shù)據(jù)頻數(shù)分布特征的圖形有直方圖、折線圖和曲線圖等。直方圖(histogram):用矩形的寬度和高度(即面積)來表示頻數(shù)分布的。b、未分組數(shù)據(jù):莖葉圖和箱線圖莖葉圖(stem-and-leafdisplay):反應(yīng)原始數(shù)據(jù)分布的圖形,首先把一個數(shù)字分成兩部分,通常是以該組數(shù)據(jù)的高位數(shù)值作為樹莖,而且葉上只保留該數(shù)值的最后一個數(shù)字。通過莖葉圖,可以看出數(shù)據(jù)分布的形狀及數(shù)據(jù)的離散狀況,比如,分布是否對稱,數(shù)據(jù)是否集中,是否有離群點(diǎn)等。箱線圖(boxplot):由一組數(shù)據(jù)的最大值(maximum)、最小值(minimum)、中位數(shù)(median)、兩個四分位數(shù)(quartiles)這五個特征值繪制而成,它主要用于反映原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。箱線圖的繪制方法:先找出一組數(shù)據(jù)的最大值、最小值、中位數(shù)、兩個四分位數(shù);然后連接兩個四分位數(shù)畫出箱子;再將最大值和最小值與箱子相連接,中位數(shù)在箱子中間。箱線圖的分布類型有:對稱分布、左偏分布、右偏分布、U形分布。c、時間序列數(shù)據(jù):線圖時間序列數(shù)據(jù):在不同時間上獲得的數(shù)值型數(shù)據(jù)。線圖(lineplot):主要用于反映現(xiàn)象隨時間變化的特征。d、多變量數(shù)據(jù)的圖示散點(diǎn)圖(scatterdiagram):用二維坐標(biāo)展示兩個變量之間關(guān)系的一種圖形,由坐標(biāo)及其散點(diǎn)形成的二維數(shù)據(jù)圖。氣泡圖(bubblechart):用于展示三個變量之間的關(guān)系,將一個變量放在橫軸,另一個變量放在縱軸,第三個變量用氣泡大小來表示。雷達(dá)圖(radarchart):顯示多個變量的常用圖示方法,也稱為蜘蛛圖(spiderchart),在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時十分有用。雷達(dá)圖的具體做法:先畫一個圓,然后將圓P等分,得到P個點(diǎn),另這P個點(diǎn)分別對應(yīng)P個變量,再將這P個點(diǎn)與圓心連線,得到P個輻射狀的半徑,這P個半徑分別作為P個變量的坐標(biāo)軸,每個變量值的大小由半徑上的點(diǎn)到圓心的距離表示,再將同一樣本的值在P個坐標(biāo)上的點(diǎn)連線。四、合理使用圖表A、鑒別圖形優(yōu)劣的準(zhǔn)則圖優(yōu)性(graphicalexcellency)一張好的圖形應(yīng)具有以下基本特征:1、顯示數(shù)據(jù);2、讓讀者把注意力集中在圖形的內(nèi)容上,而不是制作圖形的程序上;3、避免歪曲;4、強(qiáng)調(diào)數(shù)據(jù)之間的比較;5、服務(wù)于一個明確的目的;6、有對圖形的統(tǒng)計(jì)描述和文字說明。鑒別圖形優(yōu)劣的準(zhǔn)則:1、一張好圖應(yīng)當(dāng)精心設(shè)計(jì),有助于洞察問題的實(shí)質(zhì);2、一張好圖應(yīng)當(dāng)使復(fù)雜的觀點(diǎn)得到簡明、確切、高效的闡述;3、一張好圖應(yīng)當(dāng)能在最短的時間內(nèi)以最少的筆墨給讀者提供最大量的信息;4、一張好圖應(yīng)當(dāng)是多維的;5、一張好圖應(yīng)當(dāng)表述數(shù)據(jù)的真實(shí)情況。B、統(tǒng)計(jì)表的設(shè)計(jì)統(tǒng)計(jì)表一般有四個主要部分組成,即表頭(包括表號、總標(biāo)題和表中數(shù)據(jù)的單位等)、行標(biāo)題、列標(biāo)題和數(shù)據(jù)資料,此外,必要時可以在統(tǒng)計(jì)報(bào)表的下方加上表外附加(包括數(shù)據(jù)來源、變量的注釋和必要的說明等)。注:標(biāo)題內(nèi)容應(yīng)滿足3W要求,即時間(when)、地點(diǎn)(where)以及何種數(shù)據(jù)(what)。第四章數(shù)據(jù)的概括性度量一、集中趨勢的度量集中趨勢(centraltendency):指一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。A、分類數(shù)據(jù):眾數(shù)眾數(shù)(mode):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,用M0眾數(shù)是一個位置代表值,它不受數(shù)據(jù)中極端值的影響,是具有明顯集中趨勢點(diǎn)的數(shù)值,是一組數(shù)據(jù)分布的最高峰點(diǎn)所對應(yīng)的數(shù)值;眾數(shù)可能不存在,也可能有兩個(雙眾數(shù))或多個眾數(shù)。B、順序數(shù)據(jù):中位數(shù)和分位數(shù)中位數(shù)(median):一組數(shù)據(jù)排序后處于中間位置上的變量值,用Me表示;主要用于測度順序數(shù)據(jù)的集中趨勢,也適用于數(shù)值型數(shù)據(jù),但不適用于分類數(shù)據(jù);它是一個位置代表值,不受數(shù)據(jù)中極端值的影響中位數(shù)位置的確定公式:中位數(shù)位置=(n+1)/2,n為數(shù)據(jù)個數(shù)。中位數(shù)為:M四分位數(shù)(quartile):也稱四分位點(diǎn),是一組數(shù)據(jù)排序后處于25%和75%位置上的值。設(shè)下四分位數(shù)為QL,上四分位數(shù)為QU,1、一種較為準(zhǔn)確的算法是按下列公式確定位置:Q2、以中位數(shù)為中心,從兩端再計(jì)算出中位數(shù),確定位置的公式為:Q位置3、Excel給出的四分位數(shù)位置的確定方法為:Q類似還有十分位數(shù)(decile)和百分位數(shù)(percentile)等。C、數(shù)值型數(shù)據(jù):平均數(shù)均值(mean):也稱為平均數(shù),是一組數(shù)據(jù)相加后除以數(shù)據(jù)的個數(shù)得到的結(jié)果,是集中趨勢的最主要測度值,主要適用于數(shù)值型數(shù)據(jù),不適用于分類數(shù)據(jù)和順序數(shù)據(jù);反映事物必然性的數(shù)量特征。簡單平均數(shù)(samplemean):根據(jù)未經(jīng)分組數(shù)據(jù)計(jì)算的平均數(shù),即x=加權(quán)平均數(shù)(weightedmean):根據(jù)分組數(shù)據(jù)計(jì)算的平均數(shù),即x=幾何平均數(shù)(geometricmean):n個變量值乘積的n次方根,用G表示,即G=D、眾數(shù)、中位數(shù)和平均數(shù)之間的關(guān)系如果數(shù)據(jù)的分布是對稱的,眾數(shù)=中位數(shù)=平均數(shù);如果數(shù)據(jù)是左偏分布,說明數(shù)據(jù)存在極小值,必然拉動平均值向極小值一方靠,平均值<中位數(shù)<眾數(shù);如果數(shù)據(jù)是右偏分布,說明數(shù)據(jù)存在極大值,必然拉動平均值向極大值一方靠,眾數(shù)<中位數(shù)<平均值。E、眾數(shù)、中位數(shù)和平均數(shù)的特點(diǎn)與應(yīng)用場合眾數(shù)是一組數(shù)據(jù)分布的峰值,不受極端值的影響。其缺點(diǎn)是具有不唯一性,一組數(shù)據(jù)可能有一個眾數(shù),也可能有兩個或多個眾數(shù),也可能沒有眾數(shù)。眾數(shù)只有在數(shù)據(jù)較多的時才有意義,當(dāng)數(shù)據(jù)量較少時,不宜使用眾數(shù)。眾數(shù)主要適合作為分類數(shù)據(jù)的集中趨勢測度值。中位數(shù)是一組數(shù)據(jù)中間位置上的代表值,不受數(shù)據(jù)極端值的影響。當(dāng)一組數(shù)據(jù)的分布偏斜程度較大時,使用中位數(shù)也許是一個好的選擇。中位數(shù)主要適合作為順序數(shù)據(jù)的集中趨勢測度值。平均數(shù)是針對數(shù)值型數(shù)據(jù)計(jì)算的,而且利用了全部數(shù)據(jù)信息,它是實(shí)際應(yīng)用中最廣泛的集中趨勢測度值。當(dāng)數(shù)據(jù)是對稱分布或接近對稱分布時,3個代表值相等或接近相等,這時則應(yīng)選擇平均數(shù)作為集中趨勢的代表值。但平均數(shù)的主要缺點(diǎn)是易受數(shù)據(jù)極端值影響,對于偏態(tài)分布的數(shù)據(jù),平均數(shù)的代表性較差。因此,當(dāng)數(shù)據(jù)為偏態(tài)分布,特別是偏斜程度較大時,可以考慮選擇中位數(shù)或眾數(shù)。二、離散程度的度量離散程度:反映的是各變量值遠(yuǎn)離其中心值的程度。A、分類數(shù)據(jù):異眾比率異眾比率(variationratio):指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例,用Vr表示,即Vr異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差;異眾比率越小,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性越好。B、順序數(shù)據(jù):四分位差四分位差(quartiledeviation):也稱為內(nèi)距或四分間距(inter-quartilerange),是上四分位數(shù)與下四分位數(shù)之差,用Qd表示,即Q四分位差反映了中間50%數(shù)據(jù)的離散程度,其數(shù)據(jù)越小,說明中間的數(shù)據(jù)越集中;其數(shù)據(jù)越大,說明中間的數(shù)據(jù)越分散;四分位差不受極值影響。C、數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差(反映數(shù)據(jù)離散程度的絕對值)極差(range):也稱全距,一組數(shù)據(jù)的最大值與最小值之差,用R表示,即R=max(xi)平均差(meandeviation):也稱平均絕對離差(meanabsolutedeviation),是各變量值與其平均數(shù)離差絕對值的平均數(shù),用Md表示,即根據(jù)未分組數(shù)據(jù)計(jì)算—Md=平均差以平均數(shù)為中心,反映了每個數(shù)據(jù)與平均數(shù)的平均差異程度,能全面準(zhǔn)確地反映一組數(shù)據(jù)的離散狀況;平均差越大,說明數(shù)據(jù)的離散程度越大;反之,則說明數(shù)據(jù)的離散程度越小。方差(variance):各變量值與其平均數(shù)離差平方的平均數(shù),即未分組數(shù)據(jù)—s2=i=1標(biāo)準(zhǔn)差(standarddeviation):方差的平方根,未分組數(shù)據(jù)—s=i=1n(樣本方差是用樣本數(shù)據(jù)個數(shù)減1后除離差平方和。自由度(degreeoffreedom):樣本數(shù)據(jù)個數(shù)減1即n-1?!鞠鄬ξ恢玫亩攘俊浚簶?biāo)準(zhǔn)分?jǐn)?shù)(standardscore):變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的值,也稱標(biāo)準(zhǔn)化值或z分?jǐn)?shù),即zi標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0,標(biāo)準(zhǔn)差為1的特性。經(jīng)驗(yàn)法則—當(dāng)一組數(shù)據(jù)對稱分布時,經(jīng)驗(yàn)法則表明:1、約有68%的數(shù)據(jù)在平均數(shù)±1個標(biāo)準(zhǔn)差的范圍之內(nèi);2、約有95%的數(shù)據(jù)在平均數(shù)±2個標(biāo)準(zhǔn)差的范圍之內(nèi);3、約有99%的數(shù)據(jù)在平均數(shù)±3個標(biāo)準(zhǔn)差的范圍之內(nèi)。離群點(diǎn)(outlier):在平均數(shù)±3個標(biāo)準(zhǔn)差的范圍之外的數(shù)據(jù)。切比雪夫不等式(Chebyshev’sinequality):對任何分布形狀的數(shù)據(jù)都適用,它提供的是“下界”,也就是“所占比例至少是多少”。對于任意分布形狀的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有(1-1/k2)的數(shù)據(jù)落在±1、至少有75%的數(shù)據(jù)在平均數(shù)±2個標(biāo)準(zhǔn)差的范圍之內(nèi);2、至少有89%的數(shù)據(jù)在平均數(shù)±3個標(biāo)準(zhǔn)差的范圍之內(nèi);3、至少有94%的數(shù)據(jù)在平均數(shù)±4個標(biāo)準(zhǔn)差的范圍之內(nèi)。D、相對離散程度:離散系數(shù)離散系數(shù)(coefficientofvariation):也稱為變異系數(shù),是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比,即vs離散系數(shù)越大,說明數(shù)據(jù)的離散程度也大;離散系數(shù)越小,說明數(shù)據(jù)的離散程度也小。三、偏態(tài)與峰度的測量A、偏態(tài)及其測量偏態(tài)(skewness):對數(shù)據(jù)分布對稱性的測度,測度偏態(tài)的統(tǒng)計(jì)量是偏態(tài)系數(shù)(coefficientofskewness),記作SK。1、未分組的原始數(shù)據(jù):SK2、分組數(shù)據(jù):SK=如果一組數(shù)據(jù)的分布是對稱的,則偏態(tài)系數(shù)等于0;如果偏態(tài)系數(shù)明顯不等于0,表明分布是非對稱的。若偏態(tài)系數(shù)大于1或小于-1,稱為高度偏態(tài)分布;若偏態(tài)系數(shù)在0.5~1或-1~-0.5之間,稱為中等偏態(tài)分布;偏態(tài)系數(shù)越接近0,偏斜程度就越低。分布對稱時,SK=0;當(dāng)SK為正值時,表示正離差值較大,可判斷為正偏或右偏;當(dāng)SK為負(fù)值時,表示負(fù)離差值較大,可判斷為負(fù)偏或左偏;SK的數(shù)值越大,表示偏斜的程度越大。B、峰態(tài)及其測量峰態(tài)(kurtosis):對數(shù)據(jù)分布平峰或尖峰程度的測度,測度峰態(tài)的統(tǒng)計(jì)量是峰態(tài)系數(shù)(coefficientofkurtosis),記作K。1、未分組數(shù)據(jù):K2、分組數(shù)據(jù):K=如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,則峰態(tài)系數(shù)等于0;如果峰態(tài)系數(shù)明顯不等于0,表明分布比正態(tài)分布更平或更尖,通常稱為平峰分布或尖峰分布。由于正態(tài)分布的峰態(tài)系數(shù)為0,當(dāng)K>0時為尖峰分布,數(shù)據(jù)的分布更集中;當(dāng)K<0時為扁平分布,數(shù)據(jù)的分布越分散。第五章概率與概率分布一、隨機(jī)事件及其概率試驗(yàn):在同一組條件下,對某物或現(xiàn)象所進(jìn)行的觀察或?qū)嶒?yàn)。事件:觀察或試驗(yàn)的結(jié)果。隨機(jī)事件(randomevent):也叫偶然事件,簡稱“事件”,記作A、B、C等。必然事件(certainevent):Ω不可能事件(impossibleevent):Φ基本事件(elementaryevent):又叫簡單事件,即一個不能分解成兩個或更多個事件的事件。在一次試驗(yàn)中,只能觀察到一個且僅有一個簡單事件。樣本空間:又叫基本空間,一個試驗(yàn)中所有的簡單事件的全體,記為Ω。事件A的概率(probability):描述的是事件A在試驗(yàn)中出現(xiàn)的可能性大小的一種度量,可能性數(shù)值記為P(A)。A、概率的古典定義:1、結(jié)果有限,即基本空間中只含有限個元素;2、各個結(jié)果出現(xiàn)的可能性被認(rèn)為是相同的。具有這種特點(diǎn)的隨機(jī)試驗(yàn)稱為古典概型或等可能概型。計(jì)算古典概型概率的方法稱為概率的古典定義或古典概率。P局限性:隨機(jī)試驗(yàn)只有有限個可能結(jié)果的范圍,B、概率的統(tǒng)計(jì)定義:在相同條件下隨機(jī)試驗(yàn)n次,某事件A出現(xiàn)m次(m≤n),則比值m/n稱為事件A發(fā)生的頻率。隨n的增大,該頻率圍繞某一常數(shù)P上下波動,且波動的幅度逐漸減小,趨于穩(wěn)定,這個頻率的穩(wěn)定值即為該事件的概率,記為P(A)=m/n=p。C、概率的主觀定義:主觀概率:對一些無法重復(fù)的試驗(yàn),只能根據(jù)以往的經(jīng)驗(yàn),人為確定這個事件的概率;定義是,一個決策者根據(jù)本人掌握的信息對某事件發(fā)生可能性的判斷。二、概率的性質(zhì)與運(yùn)算法則A、概率的基本性質(zhì)(概率的公理化定義)1、對任一隨機(jī)事件A,有0≤P(A)≤12、必然事件的概率為1,而不可能事件的概率為0,即P(Ω)=1,P(Φ)=03、若A與B互斥,則P(A∪B)=P(A)+P(B)由此可推廣到多個兩兩互斥的隨機(jī)事件,即PB、概率的加法法則1、兩個互斥事件之和的概率,等于兩個事件概率之和;設(shè)A和B為兩個互斥事件,則P(A∪B)=P(A)+P(B)。A∪A`=Ω,則A與A`互斥,P(Ω)=1,所以P(A∪A`)=P(Ω)=1,即P(A)+P(A`)=1,從而P(A`)=1-P(A)或P(A)=1-P(A`)。2、對于任意兩個隨機(jī)事件,它們和的概率為兩個事件分別的概率之和減去兩事件相交的概率,即P(A∪B)=P(A)+P(B)-P(A∩B)。C、條件概率與獨(dú)立事件1.條件概率(conditionalprobability):當(dāng)某一事件B已經(jīng)發(fā)生時,求事件A發(fā)生的概率,稱這種概率為事件B發(fā)生條件下事件A發(fā)生的條件概率,記為P(A|B),一般來說,P(A|B)≠P(A)。2、乘法公式P(A|B)=3、獨(dú)立性(independence):一般認(rèn)為,兩個事件中不論哪一個事件發(fā)生與否并不影響另一事件發(fā)生的概率,則稱這兩個事件相互獨(dú)立。相依事件:一個事件發(fā)生與否會影響另一個事件的發(fā)生。當(dāng)兩個事件相互獨(dú)立時【P(A|B)=P(A),P(B|A)=P(B)】?P(AB)=P(A)P(B)P互斥事件一定是相互依賴(不獨(dú)立)的,但相互依賴的事件不一定是互斥的;不互斥事件可能是獨(dú)立的,也可能是不獨(dú)立的,然而獨(dú)立事件不可能是互斥的。D、全概率公式及貝葉斯公式1、全概率公式:P(B)2、貝葉斯公式(逆概率公式):P(貝葉斯公式是在觀察到事件B已發(fā)生的條件下,尋找導(dǎo)致A發(fā)生的每個原因Ai的概率;P(Ai)稱為原因Ai的驗(yàn)前概率(priorprobability)或先驗(yàn)概率;P(B|Ai)一般來自樣本所提供的信息;P(Ai|B)稱為原因Ai的后驗(yàn)概率(posteriorprobability)。三、離散型隨機(jī)變量及其分布概率函數(shù)(probabilityfunction):在同一組條件下,如果每次試驗(yàn)可能出現(xiàn)這樣或那樣的結(jié)果,并且把所有的結(jié)果都能列舉出來,即把X的所有可能值x1,x2,…,xn都列舉出來,而X的x1,x2,…xn可能值,具有確定概率P(x1),P(x2),…P(xn),其中P(xi)=P(X=xi),稱為概率函數(shù),則X稱為P(X)的隨機(jī)變量,P(X)稱為隨機(jī)變量X的概率函數(shù)。兩種類型的隨機(jī)變量:1、離散型(discrete)隨機(jī)變量:隨機(jī)變量X的所有取值都可以逐個列舉出來。2、連續(xù)型(continuous)隨機(jī)變量:隨機(jī)變量X的所有取值無法逐個列舉出來,而是取數(shù)軸上某一區(qū)間內(nèi)的任一點(diǎn)。A、離散型隨機(jī)變量的概率分布(probabilitydistribution)P(1、0—1分布:離散型隨機(jī)變量X只可能取0和1兩個值,概率分布為?P(X=1)=p,P(X=0)=1-p=q或P2、均勻分布(rectangulardistribution)i=1nB、離散型隨機(jī)變量的期望值和方差1、期望值(expectedvalue):在離散型隨機(jī)變量X的一切可能值的完備組中,可能值xi與其對應(yīng)概率pi的乘積之和,EX2、方差與標(biāo)準(zhǔn)差方差:每一個隨機(jī)變量取值與期望值的離差平方之期望值,反映隨機(jī)變量取值的離散程度,σ2若X的取值比較集中,則方差較?。蝗鬤的取值比較分散,則方差較大。如果方差為0,則意味著隨機(jī)變量取值集中在期望值E(X),即隨機(jī)變量以概率1取值E(X)。標(biāo)準(zhǔn)差:隨機(jī)變量方差的平方根,σ=3、離散系數(shù)?V=C、二項(xiàng)分布和泊松分布1、二項(xiàng)分布(binomialdistribution):包含n個相同的試驗(yàn);每次試驗(yàn)只有兩次可能的結(jié)果;出現(xiàn)“成功”的概率p和“失敗”的概率q對每一次試驗(yàn)是相同的,且p+q=1;試驗(yàn)是相互獨(dú)立的;試驗(yàn)結(jié)果對應(yīng)于一個離散型隨機(jī)變量;符合上述特征的n次重復(fù)獨(dú)立試驗(yàn)為n重貝努里試驗(yàn),簡稱貝努里試驗(yàn)(Bernoullitrials)或貝努里概型。Px=0n二項(xiàng)分布的期望值和方差分別為:E(X)=np,D(X)=npq。當(dāng)n=1時,二項(xiàng)分布化為P超幾何分布:設(shè)有N件產(chǎn)品,其中有M件次品,現(xiàn)從中任取n件(n≤N),則在這n件中所含的次品件數(shù)X是一個隨機(jī)變量,PX=m2、泊松分布(Poissondistribution):用來描述在一定時間范圍內(nèi)或指在指定的面積或體積之內(nèi)某一件事出現(xiàn)的次數(shù)的分布,PX泊松分布的期望值和方差分別為:E(X)=λ,D(X)=λ。在n重貝努里試驗(yàn)中,當(dāng)成功的概率很小(即p→0),試驗(yàn)次數(shù)很大時,二項(xiàng)分布可能近似等于泊松分布,即Cn四、連續(xù)型隨機(jī)變量的概率分布A、概率密度與分布函數(shù)概率密度函數(shù)(probabilitydensityfunction):滿足f(x)≥0,且-∞+∞P(X=x)再連續(xù)分布的條件下為零。分布函數(shù):FP期望值與方差:EX=B、正態(tài)分布(normaldistribution)【對稱鐘形曲線】1、概率密度:f(x)=1σ2πe-1)f(x)≥0,即整個概率密度曲線都在x軸的上方。2)曲線f(x)相對于x=μ對稱,并在x=μ處達(dá)到最大值,f(μ)=13)曲線的陡緩程度由σ決定,σ越大,曲線越平緩;σ越小,曲線越陡峭。4)當(dāng)x趨于無窮時,曲線以x軸為其漸近線。2、標(biāo)準(zhǔn)正態(tài)分布(standardnormaldistribution)【μ=0,σ=1】1)概率密度:φ(x)=2)分布函數(shù):Φ將一般正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布:設(shè)X~N(μ,σ2),則Z=X-μσ3、正態(tài)分布表4、正態(tài)分布在質(zhì)量管理中的應(yīng)用1)3σ原則下,質(zhì)量標(biāo)準(zhǔn)的合格率為99.73%,即P2)6σ的質(zhì)量水準(zhǔn)意味著產(chǎn)品合格率達(dá)到99.9999998%,即任何流程在實(shí)際運(yùn)行中都會產(chǎn)生偏離目標(biāo)值或者期望值的情況,這種偏移稱為漂移。5、二項(xiàng)分布的正態(tài)近似第六章統(tǒng)計(jì)量及其抽樣分布一、統(tǒng)計(jì)量統(tǒng)計(jì)量:T(x1,x2,…xn),又稱樣本統(tǒng)計(jì)量。次序統(tǒng)計(jì):由小到大排序x1,x2,…xn,x1和xn分別為最小和最大次序統(tǒng)計(jì)量。Rn=Xn-X1樣本極差,反映樣本觀測值的離散程度。充分統(tǒng)計(jì)量:統(tǒng)計(jì)量加工過程中一點(diǎn)信息都不損失的統(tǒng)計(jì)量。【常用統(tǒng)計(jì)量】:樣本均值、樣本方差、樣本變異系數(shù)、樣本k階矩、樣本k階中心矩、樣本偏度、樣本峰度。二、關(guān)于分布的幾個概念抽樣分布(samplingdistribution):在總體分布X的分布類型已知時,若對任意自然數(shù)n,都能導(dǎo)出統(tǒng)計(jì)量T=T(x1,x2,…xn)的分布的數(shù)學(xué)表達(dá)式,則稱為精確的抽樣分布。漸進(jìn)分布:統(tǒng)計(jì)量T(x1,x2,…xn)的極限分布。隨機(jī)模擬獲得的近似分布三、由正態(tài)分布導(dǎo)出的幾個重要分布A、卡方分布(χ2B、t分布C、F分布四、樣本均值的分布與中心極限定理A、總體分布為正態(tài)分布X~N(μ,σ2)時,X的抽樣分布仍為正態(tài)分布,X的數(shù)學(xué)期望為μ、方差為σX的期望值與總體均值相同,而方差縮小為總體方差的1/n,說明當(dāng)用樣本均值去估計(jì)總體均值時,平均來說沒有偏差(無偏性),當(dāng)n越來越大時,χ的散布程度越來越小,即用X估計(jì)μ越來越準(zhǔn)確。設(shè)總體均值為μ、方差為σ2EDXB、中心極限定理(centrallimittheorem):設(shè)從均值為μ、方差為σ2(有限)的任意一個總體中抽取樣本量為n的樣本,當(dāng)充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分布(n≥五、樣本比例的抽樣分布樣本大小為n的樣本中具有某一特征的個體數(shù)為X,樣本比例p=Xn(來估計(jì)總體比例π)。p服從均值為π、方差為π(1-π)設(shè)EX六、兩個樣本平均值之差的分布E七、關(guān)于樣本方差的分布1、樣本方差的分布n-1S2σ2、兩個樣本方差比的分布設(shè)X1,X2,…,Xn1是來自正態(tài)總體N(μ1,σ12)的一個樣本,Y1,Y2,…,Yn2是來自正態(tài)總體N(μ2,σ22)的一個樣本,且Xi與Yi相互獨(dú)立,則Sx2第七章參數(shù)估計(jì)一、參數(shù)估計(jì)的基本原理參數(shù)估計(jì)(parameterestimation):用樣本統(tǒng)計(jì)量去估計(jì)總體的參數(shù)。估計(jì)量(estimator):用于估計(jì)總體參數(shù)的隨機(jī)變量,參數(shù)用θ表示,估計(jì)量θ用表示。估計(jì)值(estimatedvalue):估計(jì)參數(shù)時計(jì)算出來的統(tǒng)計(jì)量的具體值。

點(diǎn)估計(jì)(pointestimate):用樣本的估計(jì)量的某個取值直接作為總體參數(shù)的估計(jì)值。

雖然在重復(fù)抽樣條件下,點(diǎn)估計(jì)的均值可望等于總體真值,但由于樣本是隨機(jī)的,抽出一個具體的樣本得到的估計(jì)值很可能不同于總體真值;一個點(diǎn)估計(jì)量的可靠性是由它的抽樣標(biāo)準(zhǔn)誤差來衡量的,這表明一個具體的點(diǎn)估計(jì)值無法給出估計(jì)的可靠性的度量。區(qū)間估計(jì)(intervalestimate):在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)的一個區(qū)間范圍,該區(qū)間由樣本統(tǒng)計(jì)量加減估計(jì)誤差而得到。

根據(jù)樣本統(tǒng)計(jì)量的抽樣分布能夠?qū)颖窘y(tǒng)計(jì)量與總體參數(shù)的接近程度給出一個概率度量。置信區(qū)間(confidenceinterval):由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間,其中區(qū)間的最小值為置信下限,最大值為置信上限。置信水平(confidencelevel):將構(gòu)造置信區(qū)間的步驟重復(fù)很多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例,也稱置信度或置信系數(shù)(confidencecoefficient),表示為1-α(α是事先確定的一個概率值,也稱風(fēng)險值,是總體參數(shù)未在區(qū)間內(nèi)的概率)。

【常用的置信水平值有99%,95%,90%,相應(yīng)的α為0.01,0.05,0.10】

樣本量給定時,置信區(qū)間的寬度隨著置信系數(shù)的增大而增大,區(qū)間比較寬時,才會使這一區(qū)間有更大的可能性包含參數(shù)的真值;當(dāng)置信水平固定時,置信區(qū)間的寬度隨樣本量的增大而減小,即較大樣本所提供的有關(guān)總體的信息比較小的樣本多。A、評價估計(jì)量的標(biāo)準(zhǔn)

無偏性(unbiasedness):估計(jì)量θ抽樣分布的數(shù)學(xué)期望等于被估計(jì)的總體參數(shù)θ,即Eθ=θ,則稱θ為θ的無偏估計(jì)量。

有效性(efficiency):指對同一總體參數(shù)的兩個無偏估計(jì)量,有更小標(biāo)準(zhǔn)差的估計(jì)量更有效,即在無偏估計(jì)的條件下,估計(jì)量的方差越小,估計(jì)越有效。

一致性(consistency):隨著樣本量的增大,估計(jì)量的值越來越接近被估計(jì)的總體參數(shù),即一個大樣本的給出的估計(jì)量要比一個小樣本給出的估計(jì)量更接近總體參數(shù)。

二、一個總體參數(shù)的區(qū)間估計(jì)

A、總體均值的區(qū)間估計(jì)

1、正態(tài)總體、方差已知,或非正態(tài)總體、大樣本總體均值的抽樣分布為正態(tài)分布,數(shù)學(xué)期望為總體均值μ,方差為σ2樣本均值標(biāo)準(zhǔn)化后的隨機(jī)變量服從標(biāo)準(zhǔn)正態(tài)分布,即z=總體均值μ在1-α置信水平下的置信區(qū)間為:x±zα/2σn或x總體均值的置信區(qū)間由兩部分組成:點(diǎn)估計(jì)值和描述估計(jì)精度的±值(±值即估計(jì)誤差)。

2、正態(tài)總體、方差未知、小樣本樣本均值標(biāo)準(zhǔn)化后的隨機(jī)變量服從自由度為n-1的t分布,即z=總體均值μ在1-α置信水平下的置信區(qū)間為:x±tα/2B、總體比例的區(qū)間估計(jì)

樣本比例p的數(shù)學(xué)期望為Ep=π,方差為樣本比例標(biāo)準(zhǔn)化后的隨機(jī)變量服從標(biāo)準(zhǔn)正態(tài)分布,即z=總體比例π在1-α置信水平下的置信區(qū)間為:p±C、總體方差的區(qū)間估計(jì)

總體方差σ2在1-α置信水平下的置信區(qū)間為:(n-1)三、兩個總體參數(shù)的區(qū)間估計(jì)

A、兩個總體均值之差的區(qū)間估計(jì)

1、獨(dú)立樣本

1)大樣本的估計(jì)獨(dú)立樣本(independentsample):如果兩個樣本是從兩個總體中獨(dú)立抽取的,即一個樣本中的元素與另一個樣本中的元素相互獨(dú)立,稱為獨(dú)立樣本。兩個總體均值之差(x1-x2標(biāo)準(zhǔn)化后的隨機(jī)變量服從標(biāo)準(zhǔn)正態(tài)分布,即z=在1-α置信水平下的置信區(qū)間為:x或(x1-x2)±zα/2s12n1+s22(2)兩個總體方差未知但相等,即σ1總體方差的合并估計(jì)量sp2:兩個樣本均值之差標(biāo)準(zhǔn)化后的隨機(jī)變量服從自由度為(n1+n2兩個總體均值之差在1-α置信水平下的置信區(qū)間為:(x1-x2)±t兩個樣本均值之差標(biāo)準(zhǔn)化后的隨機(jī)變量服從自由度為v的t分布。v=兩個總體均值之差在1-α置信水平下的置信區(qū)間為:(x2、匹配樣本匹配樣本(matchedsample):即一個樣本中的數(shù)據(jù)與另一個樣本中的數(shù)據(jù)相對應(yīng)。兩個總體各觀察值的配對差服從正態(tài)分布。

1)大樣本兩個總體均值之差在1-α置信水平下的置信區(qū)間為:d±zα/2σdn。

2)小樣本

注:d—兩個匹配樣本對應(yīng)數(shù)據(jù)的差值;d—各差值的均值;σdB、兩個總體比例之差的區(qū)間估計(jì)兩個樣本比例之差標(biāo)準(zhǔn)化后的隨機(jī)變量服從標(biāo)準(zhǔn)正態(tài)分布,即Z=(兩個總體比例之差在1-α置信水平下的置信區(qū)間為:(pC、兩個總體方差比的區(qū)間估計(jì)

兩個總體方差比在1-α置信水平下的置信區(qū)間為:s1四、樣本量的確定

1、估計(jì)總體均值時樣本量的確定

所希望達(dá)到的估計(jì)誤差:E=z確定樣本量:n=(樣本量與置信水平成正比;與總體方差成正比;與估計(jì)誤差的平方成反比;與可靠性系數(shù)成正比。

樣本量的圓整法則:當(dāng)計(jì)算出的樣本量不是整數(shù)時,將小數(shù)點(diǎn)后面的數(shù)值一律進(jìn)位成整數(shù),如24.68取25,24.32也取25等等。

2、估計(jì)總體比例時樣本量的確定(確定樣本容量)所希望達(dá)到的估計(jì)誤差:E=z確定樣本量:n=(第八章假設(shè)檢驗(yàn)統(tǒng)計(jì)推斷由參數(shù)估計(jì)(parameterestimation)和假設(shè)檢驗(yàn)(hypothesistesting)兩部分組成,它們都是利用樣本對總體進(jìn)行某種推斷,然而推斷的角度不同。參數(shù)估計(jì)討論的是用樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)的方法,總體參數(shù)μ在估計(jì)前是未知的。在假設(shè)檢驗(yàn)中,則先對μ的值提出一個假設(shè),然后利用樣本信息去檢驗(yàn)這個假設(shè)是否成立。一、假設(shè)檢驗(yàn)的基本問題A、假設(shè)問題的提出

假設(shè)(hypothesis):對總體參數(shù)的的數(shù)值所作的一種陳述,總體參數(shù)包括總體均值、比例、方差等(分析之前必需陳述)。

假設(shè)檢驗(yàn)(hypothesistesting):事先對總體參數(shù)或分布形式作出某種假設(shè),然后利用樣本信息來判斷原假設(shè)是否成立;分為參數(shù)假設(shè)檢驗(yàn)和非參數(shù)假設(shè)檢驗(yàn)。

B、假設(shè)的表達(dá)式統(tǒng)計(jì)的語言是用一個等式或不等式表示問題的原假設(shè)。原假設(shè)(nullhypothesis):待檢驗(yàn)的假設(shè),又稱“0假設(shè)”,用H0表示(研究者想收集證據(jù)予以反對的假設(shè))。

μ是我們要檢驗(yàn)的參數(shù),μ0表示感興趣的數(shù)值,原假設(shè)的一般表達(dá)式為:H0:μ=μ0或H0:μ-μ0=0一般表達(dá)式為:H1原假設(shè)與備擇假設(shè)互斥,肯定原假設(shè),意味著放棄備擇假設(shè);否定原假設(shè),意味著接受備擇假設(shè)。

C、假設(shè)檢驗(yàn)中的兩類錯誤

1、第一類錯誤α錯誤(棄真錯誤):原假設(shè)為真時拒絕原假設(shè)。

第一類錯誤的概率為α;原假設(shè)為真時接受原假設(shè),概率為1-α。

2、第二類錯誤β錯誤(取偽錯誤):原假設(shè)為假時接受原假設(shè)。

第二類錯誤的概率為β;原假設(shè)為假時拒絕原假設(shè),概率為1-β。

D、假設(shè)檢驗(yàn)的流程

在參數(shù)的假設(shè)檢驗(yàn)中,如同在參數(shù)估計(jì)中一樣,要借助樣本統(tǒng)計(jì)量進(jìn)行統(tǒng)計(jì)推斷,這個統(tǒng)計(jì)量稱為檢驗(yàn)統(tǒng)計(jì)量。小概率原理是指發(fā)生概率很小的隨機(jī)事件在一次試驗(yàn)中是幾乎不可能發(fā)生的。

1、計(jì)算檢驗(yàn)的統(tǒng)計(jì)量

總體σ已知,且樣本量大,采用z統(tǒng)計(jì)量:z=若|z|<|zα/2|,不拒絕H0;若E、利用P值進(jìn)行決策

P值(P-value):當(dāng)原假設(shè)為真時所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的頻率。1、P值的大小取決于三個因素:1)樣本數(shù)據(jù)與原假設(shè)之間的差異。2)樣本量。3)被假設(shè)參數(shù)的總體分布。

2、雙側(cè)檢驗(yàn)和單側(cè)檢驗(yàn)1)雙側(cè)檢驗(yàn):原假設(shè)的命題為μ=兩個拒絕域,兩個臨界值,每個拒絕域的面積為α/2。μ>2)左單側(cè)檢驗(yàn):下限檢驗(yàn)所考察的數(shù)值越大越好3)右單側(cè)檢驗(yàn):上限檢驗(yàn)所考察的數(shù)值越小越好二、一個總體參數(shù)的檢驗(yàn)

A、檢驗(yàn)統(tǒng)計(jì)量的確定z統(tǒng)計(jì)量和t統(tǒng)計(jì)量常用于均值和比例的檢驗(yàn);χ21、樣本量大z統(tǒng)計(jì)量:z2、樣本量小1)總體標(biāo)準(zhǔn)差σ已知:z統(tǒng)計(jì)量2)總體標(biāo)準(zhǔn)差σ未知:t統(tǒng)計(jì)量:t=B、總體均值的檢驗(yàn)1、樣本量大顯著性水平(significantlevel):當(dāng)原假設(shè)正確時卻被拒絕的概率或風(fēng)險,即犯棄真錯誤的概率,α=0.05或α=0.01,表明當(dāng)做出接受原假設(shè)的決定時,其正確的概率為95%或99%。a、已知均值的檢驗(yàn)(P值的計(jì)算與應(yīng)用):第1步:進(jìn)入Excel表格界面,選擇【插入】下拉菜單;第2步:選擇【函數(shù)】點(diǎn)擊;第3步:在函數(shù)分類中點(diǎn)擊“統(tǒng)計(jì)”,在函數(shù)名的菜單下選擇字符“NORMSDIST”,然后確定;第4步:將Z的絕對值錄入,得到的函數(shù)值,若P值遠(yuǎn)遠(yuǎn)小于α,故拒絕H0。

2a、σ已知:z統(tǒng)計(jì)量

b、σ未知:t統(tǒng)計(jì)量?未知小樣本均值的檢驗(yàn)(P值的計(jì)算與應(yīng)用):第1步:進(jìn)入Excel表格界面,選擇【插入】下拉菜單;第2步:選擇【函數(shù)】;第3步:在函數(shù)分類中點(diǎn)擊“統(tǒng)計(jì)”,然后,在函數(shù)名的菜單中選擇字符“TDIST”,確定;第4步:在彈出的X欄中,錄入計(jì)算出的t值,在自由度(Deg-freedom)欄中,錄入自由度值,在Tails欄中錄入2,表明是雙側(cè)檢驗(yàn),如果是單測檢驗(yàn)則在該欄內(nèi)錄入1;得出P值的結(jié)果。C、總體比例的檢驗(yàn)

z統(tǒng)計(jì)量、大樣本量:zD、總體方差的檢驗(yàn)由于s2=(xi-x)2n-1,故若進(jìn)行雙側(cè)檢驗(yàn),拒絕域分布在χ2統(tǒng)計(jì)量分布曲線的兩邊;若是單側(cè)檢驗(yàn),拒絕域分布在χ2統(tǒng)計(jì)量分布曲線的一邊。

A、檢驗(yàn)統(tǒng)計(jì)量的確定1、均值之差的檢驗(yàn)a、σ2b、σ22、比例之差的檢驗(yàn):z統(tǒng)計(jì)量

3、方差比的檢驗(yàn):F統(tǒng)計(jì)量B、兩個總體均值之差的檢驗(yàn)1、σ1標(biāo)準(zhǔn)差為σx1-x2=σ12n1+a、σ1標(biāo)準(zhǔn)差為σx1-x2=sb、σ1標(biāo)準(zhǔn)差為σx1-x23、兩個總體均值之差的檢驗(yàn)—用Excel進(jìn)行檢驗(yàn):第1步:選擇【工具】下拉菜單;第2步:選擇【數(shù)據(jù)分析】選項(xiàng);第3步:在分析工具中選擇【t檢驗(yàn),雙樣本異方差假設(shè)】;第4步:當(dāng)出現(xiàn)對話框時:在【變量1的區(qū)域】方框內(nèi)輸入數(shù)據(jù)區(qū)域A1:A15;在【變量2的區(qū)域】方框內(nèi)輸入數(shù)據(jù)區(qū)域B1:B20;在【假設(shè)平均差】的方框內(nèi)輸入0;在【α(A)】框內(nèi)輸入0.05;在【輸出選項(xiàng)】中選擇輸出區(qū)域;選擇【確定】。C、兩個總體比例之差的檢驗(yàn)1、檢驗(yàn)總體比例相等的假設(shè)該假設(shè)表達(dá)式為:H0:π最佳的方差是:p(1-p),p是將兩個兩個樣本合并后得到的比例估計(jì)量,即p=x1+x2n1+大樣本條件下,z統(tǒng)計(jì)量:z=2、檢驗(yàn)兩個總體比例之差不為零的假設(shè),即π兩個樣本比例之差p1-p2,近似服從以π1-πD、兩個總體方差的檢驗(yàn)如果s12/s22接近于1,說明兩個總體方差σ1在原假設(shè)σ12=σ22下,檢驗(yàn)統(tǒng)計(jì)量F為:在單側(cè)檢驗(yàn)中,一般把較大的s2放在分子s12的位置,此時F>1,拒絕域在F分布的右側(cè),原假設(shè)和備擇假設(shè)分別為:H在雙側(cè)檢驗(yàn)中,拒絕域在F分布的兩側(cè),兩個臨界點(diǎn)的位置分別為:Fα/2(n1E、檢驗(yàn)中的匹配樣本四、檢驗(yàn)問題的進(jìn)一步說明A、關(guān)于檢驗(yàn)結(jié)果的解釋如果出現(xiàn)拒絕H0的結(jié)果,可以說“結(jié)論H1為真出錯的概率不超過α”;如果接受H0的結(jié)果解釋為“沒有發(fā)現(xiàn)充足的證據(jù)反對H0”,或更嚴(yán)格地解釋為“在顯著性水平B、單側(cè)檢驗(yàn)中假設(shè)的建立a、左側(cè)檢驗(yàn),即H0:μ≥μ0b、右側(cè)檢驗(yàn),即H0:μ≤μ0(H0:μ≥第九章分類數(shù)據(jù)分析

一、分類數(shù)據(jù)與χ2A、分類數(shù)據(jù)

分類數(shù)據(jù)的結(jié)果是頻數(shù),χ2檢驗(yàn)是對分類數(shù)據(jù)的頻數(shù)進(jìn)行分析的統(tǒng)計(jì)B、χ2χ2若用fo表示觀察值頻數(shù)(observedfrequency),用fe表示期望值頻數(shù)(expectedfrequency),則χ2統(tǒng)計(jì)量1、χ2統(tǒng)計(jì)量1)χ22)χ23)χ2兩者越接近,即fo-fe的絕對值越小,計(jì)算出的χ2χ2檢驗(yàn)正是通過對χ2的計(jì)算結(jié)果與自由度越小,分布就越向左邊傾斜,隨著自由度的增加,χ2分布的偏斜程度趨于緩解,逐漸顯露出對稱性,隨著自由度的繼續(xù)增大,χ二、擬合優(yōu)度檢驗(yàn)

擬合優(yōu)度檢驗(yàn)(goodnessoffittest):是用χ2統(tǒng)計(jì)量進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)的重要內(nèi)容之一。它是依據(jù)總體分布的狀況,計(jì)算出分類變量中各類別的期望頻數(shù),與分布的觀察頻數(shù)進(jìn)行對比,判斷期望a、用Excel計(jì)算P值:第1步:將觀察值輸入一列,將期望值輸入一列;第2步:選擇【輸入】下拉菜單;第3步:選擇【函數(shù)】選項(xiàng);第4步:在函數(shù)分類中點(diǎn)擊“統(tǒng)計(jì)”,然后,在函數(shù)名稱中選“CHITEST”,確定;第5步:在對話框【Actual-range】中輸入觀察數(shù)據(jù);在對話框【Expected-range】中輸入期望數(shù)據(jù)。若p<α,拒絕原假設(shè)。三、列聯(lián)分析:獨(dú)立性檢驗(yàn)A、列聯(lián)表(contingencytable):由兩個以上的變量進(jìn)行交叉分類的頻數(shù)分布表。B、獨(dú)立性檢驗(yàn):分析列聯(lián)表中行變量和列變量是否相互獨(dú)立。

計(jì)算任何一個單元中頻數(shù)的期望值:fe采用自由度=(行數(shù)-1)(列數(shù)-1)=(R-1)(C-1)四、列聯(lián)表中的相關(guān)測量列聯(lián)表中的變量通常是類別變量。品質(zhì)相關(guān):對品質(zhì)數(shù)據(jù)(分類和順序數(shù)據(jù))之間相關(guān)程度的測度。品質(zhì)相關(guān)系數(shù):A、φ相關(guān)系數(shù)(φcorrelationcoefficient):(2×2列聯(lián)表)φ=χB、列聯(lián)相關(guān)系數(shù)(coefficientofcontingency):(大于2×2列聯(lián)表)又稱列聯(lián)系數(shù),簡稱c系數(shù),c=χ當(dāng)列聯(lián)表中的兩個變量相互獨(dú)立時,系數(shù)c=0;c系數(shù)的特點(diǎn)是,其可能最大值依賴于列聯(lián)表的行數(shù)和列數(shù),且隨著R和C增大而增大。C、V相關(guān)系數(shù)(Vcorrelationcoefficient):V=χ2n×當(dāng)兩個變量相互獨(dú)立時,V=0;當(dāng)兩個變量完全相關(guān)時,V=1;如果列聯(lián)表中有一維為2,即min[(R-D、數(shù)值分析在對不同列聯(lián)表變量之間的相關(guān)程度進(jìn)行比較時,不同列聯(lián)表中的行與行、列與列的個數(shù)要相同,并且采用同一種系數(shù)。五、列聯(lián)分析中應(yīng)注意的問題A、條件百分表的方向(按自變量的方向計(jì)算)B、χ21、關(guān)于小單元的頻數(shù)準(zhǔn)則:1)如果只有兩個單元,每個單元的期望頻數(shù)必須是5或5以上。2)若有兩個以上的單元,如果20%的單元期望頻數(shù)fe小于5,則不能應(yīng)用χ第十章方差分析一、方差分析引論1、方差分析及其有關(guān)術(shù)語方差分析(analysisofvariance,ANOVA):通過對數(shù)據(jù)誤差來源的分析檢驗(yàn)各總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。

因素(factor):即因子,所要檢驗(yàn)的對象。水平(treatment):又稱處理,即因素的不同表現(xiàn)。觀測值:每個因子水平下得到的樣本數(shù)據(jù)。單因素方差分析:只有一個因素的方差分析,涉及分類型自變量和數(shù)值型自變量兩個變量。雙因素方差分析:涉及兩個分類的自變量2、方差分析的基本思想和原理1)圖形描述2)誤差分解組內(nèi)誤差:由于抽樣的隨機(jī)性所造成的隨機(jī)誤差,即來自水平內(nèi)部的數(shù)據(jù)誤差,反映一個樣本內(nèi)部數(shù)據(jù)的離散程度,只含有隨機(jī)誤差。

組間誤差:來自不同水平之間的數(shù)據(jù)誤差,是隨機(jī)誤差和系統(tǒng)誤差的總和,反映不同樣本之間數(shù)據(jù)的離散程度。隨機(jī)誤差:因素的同一水平(總體)下,樣本各觀察值之間的差異,由樣本本身形成的。

系統(tǒng)誤差:因素的不同水平(不同總體)之間觀察值的差異,由于行業(yè)本身的系統(tǒng)性因素所造成的。方差分析中,數(shù)據(jù)的誤差用平方和(sumofsquares)表示的。總平方和(sumofsquaresfortotal,SST):反應(yīng)全部數(shù)據(jù)誤差大小的平方和,反應(yīng)全部觀測值的離散狀況。

組內(nèi)平方和(sumofsquaresforfactorA,SSE):反應(yīng)組內(nèi)誤差大小的平方和,也稱誤差平方和或殘差平方和,反映每個樣本內(nèi)各觀測值的離散狀況。

組間平方和(sumofsquaresforerror,SSA):反應(yīng)組間誤差大小的平方和,也稱因素平方和,反映樣本均值之間的差異。3)誤差分析

均方(MS):即方差,組間誤差與組內(nèi)誤差經(jīng)過平均后的數(shù)值。

若原假設(shè)成立,組間誤差中只包含隨機(jī)誤差,組間均方與組內(nèi)均方的數(shù)值就應(yīng)該很接近,它們的比值就會接近1;若原假設(shè)不成立,組間誤差中即包含隨機(jī)誤差,又包含系統(tǒng)誤差,組間均方會大于組內(nèi)均方,它們之間的比值就會大于1。

當(dāng)這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,即自變量對因變量有影響。

判斷行業(yè)對投訴次數(shù)是否有顯著影響,也就是檢驗(yàn)被投訴次數(shù)的差異主要是由于什么原因所引起的。如果這種差異主要是系統(tǒng)誤差,說明不同行業(yè)對投訴次數(shù)有顯著影響。

3、方差分析中的基本假定

1)每個總體都應(yīng)服從正態(tài)分布。

對于因素的每一個水平,其觀察值是來自服從正態(tài)分布總體的簡單隨機(jī)樣本。

2)各個總體的方差必須相同

各組觀察數(shù)據(jù)是從具有相同方差的總體中抽取的。

3)觀察值是獨(dú)立的

比如,每個行業(yè)被投訴的次數(shù)與其他行業(yè)被投訴的次數(shù)獨(dú)立。

在上述假定條件下,判斷行業(yè)對投訴次數(shù)是否有顯著影響,實(shí)際上也就是檢驗(yàn)具有同方差的4個正態(tài)總體的均值是否相等。如果4個總體的均值相等,可以期望4個樣本的均值也會很接近,4個樣本的均值越接近,推斷4個總體均值相等的證據(jù)也就越充分,樣本均值越不同,推斷總體均值不同的證據(jù)就越充分。

如果原假設(shè)成立,即H0:μ1=μ2=μ3=μ4(4個行業(yè)被投訴次數(shù)的均值都相等),則意味著每個樣本都來自均值為μ、方差為σ2的同一正態(tài)總體。來自正態(tài)總體的一個簡單隨機(jī)樣本的樣本均值x服從均值為μ、方差為σ2/n的正態(tài)分布。

若備擇假設(shè)成立,即H1:μ1、μ2、μ3H1:μ二、單因素方差分析

單因素方差分析(one-wayanalysisofvariance):當(dāng)方差分析中只涉及一個分類型自變量,研究的是一個分類型自變量對一個數(shù)值型因變量的影響。

A、分析步驟:

1、提出假設(shè)

H0H1:μ如果拒絕原假設(shè)H0,則意味著自變量對因變量有顯著影響;如果不拒絕原假設(shè)H0,則沒有證據(jù)表明自變量對因變量有顯著影響,不能認(rèn)為自變量與因變量之間有顯著關(guān)系。

2、構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(1)計(jì)算各樣本的均值:假定從第i個總體中抽取一個容量為ni的簡單隨機(jī)樣本,第i個總體的樣本均值為該樣本的全部觀測值總和除以觀測值的個數(shù),xi=j=1nix全部觀測值的總和除以觀測值的總個數(shù),x=i=1kj=1nixijn=全部觀測值xij與總平均值x的誤差平方和,SST=b、計(jì)算組間平方和:

各組平均值xi與總平均值x的誤差平方和,SSA=i=1kni(xi-x)2。

c、計(jì)算組內(nèi)平方和:

i=1kj=1ni(xij-x)SSA是對隨機(jī)誤差和系統(tǒng)誤差大小的度量,它反映了自變量對因變量的影響,也稱為自變量效應(yīng)或因子效應(yīng);SSE對隨機(jī)誤差大小的度量,它反映了除自變量對因變量的影響之外,其他因素對因變量的總影響,也稱為殘差變量,它所引起的誤差也稱為殘差效應(yīng);SST是對全部數(shù)據(jù)總誤差程度的度量,它反映自變量和殘差變量的共同影響,等于自變量效應(yīng)+殘差效應(yīng)。

(4)計(jì)算統(tǒng)計(jì)量各誤差平方和的大小與觀測值的多少有關(guān),為消除觀測值多少對誤差平方和大小的影響,需要將其平均,也就是用各平方和除以它們所對應(yīng)的自由度,這就是均方(meansquare),也稱為方差。

a、三個平方和對應(yīng)的自由度分別是:

SST的自由度為n-1,其中n為全部觀察值的個數(shù);

SSA的自由度為k-1,其中k為因素水平(總體)的個數(shù);

SSE的自由度為n-k。b、通常只計(jì)算SSA的均方和SSE的均方:

組間方差:SSA的均方,記為MSA,計(jì)算公式為MSA=SSAk-1。

組內(nèi)方差將MSA和MSE進(jìn)行對比,即得到所需要的檢驗(yàn)統(tǒng)計(jì)量F。

當(dāng)H0為真時,二者的比值服從分子自由度為k-1、分母自由度為n-k的F分布,即F=MSAMSE~F(k-1,n-k)若果原假設(shè)H0判斷因素水平是否對觀測值有顯著影響,實(shí)際上也就是比較組間方差與組內(nèi)方差之間差異的大小。

將統(tǒng)計(jì)量的值F與給定的顯著性水平α的臨界值Fα進(jìn)行比較,從而作出對原假設(shè)H0根據(jù)給定的顯著性水平α,在F分布表中查找與第一自由度df1=k-1、第二自由度若F>Fα,則拒絕原假設(shè)H0,表明均值之間的差異是顯著的,所檢驗(yàn)的因素對觀測若F<Fα,則不拒絕原假設(shè)H0,沒有證據(jù)表明均值之間的差異是顯著的,不能認(rèn)為所檢驗(yàn)的因素對觀測值有顯著影響。

4、5、用Excel進(jìn)行方差分析第1步:選擇【工具】下拉菜單,并選擇【數(shù)據(jù)分析】選項(xiàng);第2步:在分析工具中選擇【單因素方差分析】,然后選擇【確定】;第3步:當(dāng)對話框出現(xiàn)時:

在【輸入?yún)^(qū)域】方框內(nèi)鍵入數(shù)據(jù)單元格區(qū)域;

在【α】方框內(nèi)鍵入0.05(可根據(jù)需要確定);

在【輸出選項(xiàng)】中選擇輸出區(qū)域;第4步:單擊【確定】。B、關(guān)系強(qiáng)度的測量只要組間平方和SSA不等于0,就表明兩個變量之間有關(guān)系(只是是否顯著的問題);當(dāng)組間平方和比組內(nèi)平方和SSE大,而且大到一定程度時,就意味著兩個變量之間的關(guān)系顯著,大得越多,表明它們之間的關(guān)系就越強(qiáng);反之,就意味著兩個變量之間的關(guān)系不顯著,小得越多,表明它們之間的關(guān)系就越弱。

變量間關(guān)系的強(qiáng)度用自變量平方和SSA占總平方和SST的比例大小來反映,即R2=SSASST,其平方根R就可以用來測量兩個變量之間的關(guān)系強(qiáng)度。

C、方差分析中的多重比較

多重比較方法(multiplecomparisonprocedures):通過對總體均值之間的配對比較來進(jìn)一步檢驗(yàn)到底哪些均值之間存在差異。

最小顯著差異方法(leastsignificantdifference,LSD):對檢驗(yàn)兩個總體均值是否相等的t檢驗(yàn)方法的總體方差估計(jì)加以修正(用MSE來代替)而得到的。

多重比較的步驟:

1、提出假設(shè):H0:μi=μj,H1:μi≠μj;

2、計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:xi-xj;

3、計(jì)算LSD=tα/2MSE(1ni+1nj);

4、根據(jù)顯著水平α決策:若|xi-xj|>LSD,拒絕H0;若|xi-xj|<LSD,不拒絕1、數(shù)據(jù)結(jié)構(gòu)

2、分析步驟

1)提出假設(shè)

對行因素提出的假設(shè)為:

HH1對列因素提出的假設(shè)為:

H0H12)構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

a、總平方和:SST==i=1kj=1r(xSSR=i=1kj=1r(xid、第三項(xiàng)是除行因素和列因素之外的剩余因素所產(chǎn)生的誤差項(xiàng)平方和,即隨機(jī)誤差項(xiàng)平方和:SSE=i=1kj=1r(xij-xi·-x·j+x)2

e、SST=SSR+SSC+SSE

f、三個平方和的自由度分別是:

總平方和SST的自由度為kr-1;

行因素平方和SSR的自由度為k-1;

列因素平方和SSC的自由度為r-1;

誤差項(xiàng)平方和SSE的自由度為隨機(jī)誤差項(xiàng)的均方,記為MSE,計(jì)算公式為MSE=SSE(k-1)(r-1)。

h、計(jì)算檢驗(yàn)統(tǒng)計(jì)量F

檢驗(yàn)行因素的統(tǒng)計(jì)量:FR=MSRMSE~F(k-1,(k-1)(r-1))。

檢驗(yàn)列因素的統(tǒng)計(jì)量:FC=MSCMSE~F(r-1,(k-1)(r-1))。

3)統(tǒng)計(jì)決策

將Fα3、關(guān)系強(qiáng)度的測量行平方和SSR度量了自變量對因變量的影響效應(yīng),列平方和SSC度量了自變量對因變量的影響效應(yīng),這兩個平方和加在一起則度量了兩個自變量對因變量的聯(lián)合效應(yīng),聯(lián)合效應(yīng)與總平方和的比值定義為R2=聯(lián)合效應(yīng)總效應(yīng)=SSR+SSC1、設(shè):xijl為對應(yīng)于行因素的第i個水平和列因素的第j個水平的第l行的觀測值;

xi·為行因素的第i個水平的樣本均值;

xij為列因素的第j個水平的樣本均值;

x·j對應(yīng)于行因素的第i個水平和列因素的第j個水平組合的樣本均值;

x為全部n個觀察值的總均值。

總平方和:SST=i=1kj=1rl=1m(xijl-x)2

行變量平方和:第2步:在分析工具中選擇【方差分析:可重復(fù)雙因素分析】,然后選擇【確定】;第3步:當(dāng)對話框出現(xiàn)時:

在【輸入?yún)^(qū)域】方框內(nèi)鍵入數(shù)據(jù)區(qū)域A1:C11;

在【α】方框內(nèi)鍵入0.05(可根據(jù)需要確定);

在【每一樣本的行數(shù)】方框內(nèi)鍵入重復(fù)試驗(yàn)次數(shù)5;

在【輸出區(qū)域】中選擇輸出區(qū)域(這里選新工作表組);

選擇【確定】。第十一章一元線性回歸

一、變量間關(guān)系的度量

A、變量間的關(guān)系

設(shè)有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x,當(dāng)變量x取某個數(shù)時,y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量。

函數(shù)關(guān)系是一一對應(yīng)的確定關(guān)系。相關(guān)關(guān)系(correlation):變量之間存在的不確定的數(shù)量關(guān)系。

B、相關(guān)關(guān)系的描述與測度

相關(guān)分析就是對兩個變量之間線性關(guān)系的描述與度量,要解決的問題包括:

a、變量之間是否存在關(guān)系?b、如果存在關(guān)系,它們之間是什么樣的關(guān)系?c、變量之間的關(guān)系強(qiáng)度如何?d、樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系?

為解決這些問題,在進(jìn)行相關(guān)分析時,對總體有以下兩個主要假定:a、兩個變量之間是線性關(guān)系。b、兩個變量都是隨機(jī)變量。

1、散點(diǎn)圖(scatterdiagram):由坐標(biāo)集散點(diǎn)形成的二維數(shù)據(jù)圖。散點(diǎn)圖是描述變量之間關(guān)系的一種直觀方法,從中可以大體看出變量之間的關(guān)系形態(tài)及關(guān)系強(qiáng)度。線性相關(guān):變量之間的關(guān)系近似接近于一條直線。完全相關(guān):一個變量的取值完全依賴于另一個變量,各觀測點(diǎn)落在另一條直線上。正相關(guān):兩個變量的變動方向相同,一個變量的數(shù)值增加(減少),另一個變量的數(shù)值也隨之增加(減少)。負(fù)相關(guān):兩個變量的變動方向相反,一個變量的數(shù)值增加(減少),另一個變量的數(shù)值隨之減少(增加)。a、正線性相關(guān)b、負(fù)線性相關(guān)c、完全正線性相關(guān)d、完全負(fù)線性相關(guān)e、非線性相關(guān):變量之間的關(guān)系近似接近于一條曲線,又稱曲線相關(guān)。f、不相關(guān):兩個觀測點(diǎn)很分散,無任何規(guī)律。2、相關(guān)系數(shù)(correlationcoefficient):根據(jù)樣本數(shù)據(jù)計(jì)算的度量變量之間線性關(guān)系強(qiáng)度的一個統(tǒng)計(jì)量。簡單相關(guān)系數(shù):對兩個變量之間線性相關(guān)強(qiáng)度的度量。

總體相關(guān)系數(shù):相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,記為ρ。

樣本相關(guān)系數(shù):根據(jù)樣本數(shù)據(jù)計(jì)算的,又稱為線性相關(guān)系數(shù)(linearcorrelationcoefficient)或Pearson相關(guān)系數(shù)(Pearson’scorrelationcoefficient),簡稱為相關(guān)系數(shù),記為r,r=nxy-xynx2-(x)2·ny2-(y)2。

1)相關(guān)系數(shù)的性質(zhì)

性質(zhì)1:r的取值范圍是[-1,1]。|r|=1,為完全相關(guān);r=1,為完全正線性相關(guān);性質(zhì)2:r具有對稱性。即x與y之間的相關(guān)系數(shù)和y與x之間的相關(guān)系數(shù)相等,即rxy性質(zhì)3:r數(shù)值大小與x和y原點(diǎn)及尺度無關(guān),即改變x和y的數(shù)據(jù)原點(diǎn)及計(jì)量尺度,并不改變r的數(shù)值大小。

性質(zhì)4:r僅僅是x與y之間線性關(guān)系的一個度量,它不能用于描述非線性關(guān)系。這意味著,r=0只表示兩個變量之間不存在線性相關(guān)關(guān)系,并不說明變量之間沒有任何關(guān)系,它們之間可能存在非線性相關(guān)關(guān)系(變量之間的非線性相關(guān)程度較大時,可能會導(dǎo)致r=0)。性質(zhì)5:r雖然是兩個變量之間線性關(guān)系的一個度量,卻不一定意味著x與y一定有因果關(guān)系。

2)相關(guān)系數(shù)的經(jīng)驗(yàn)解釋:|r|≥0.8時,可視為兩個變量之間高度相關(guān);0.5≤|r|<0.8時,可視為中度相關(guān);0.3≤|r|<0.5時,視為低度相關(guān);|r|<0.3時,說明兩個變量之間的相關(guān)程度極弱,可視為不相關(guān)。注:上述解釋必須建立在對相關(guān)系數(shù)的顯著性進(jìn)行檢驗(yàn)的基礎(chǔ)之上。

C、相關(guān)系數(shù)的顯著性檢驗(yàn)1、r的抽樣分布當(dāng)ρ為較大的正值時,r呈現(xiàn)左偏分布;當(dāng)ρ為較大負(fù)值時,r呈現(xiàn)右偏分部;只有當(dāng)ρ接近于0,而樣本量n很大時,r是接近正態(tài)分布的隨機(jī)變量。2、r的顯著性檢驗(yàn)采用R.A.Fisher提出的t檢驗(yàn),既可用于小樣本,也可用于大樣本。

檢驗(yàn)的步驟為:

1)提出假設(shè):H0:ρ=0;H1:ρ≠0

2)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:t=rn-21-rtα2(n-2)的臨界值;若|t|>二、一元線性回歸A、回歸分析(Regression)主要解決的問題:1)從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式。2)對這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些是不顯著的。3)利用所求的關(guān)系式,根據(jù)一個或幾個變量的取值來預(yù)測或估計(jì)另一個特定變量的取值,并給出這種預(yù)測或估計(jì)的可靠程度。B、一元線性回歸模型因變量(dependentvariable):被預(yù)測或被解釋的變量,用y表示。自變量(independentvariable):用來預(yù)測或用來解釋因變量的一個或多個變量,用x表示。一元回歸:當(dāng)回歸中只涉及一個自變量的回歸;若因變量y與自變量x之間為線性關(guān)系時稱為一元線性回歸。

1、回歸模型(regressionmodel):描述因變量y如何依賴于自變量x和誤差項(xiàng)ε的方程;一元線性回歸模型可表示為y=β0+β1x+ε。

在一元

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論