MiniTab-學習筆記.docx_第1頁
MiniTab-學習筆記.docx_第2頁
MiniTab-學習筆記.docx_第3頁
MiniTab-學習筆記.docx_第4頁
MiniTab-學習筆記.docx_第5頁
免費預覽已結束,剩余31頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

MiniTab 學習筆記一、 基本統(tǒng)計量1. 顯示描述性統(tǒng)計1) 用途A 使用中心值匯總數據案例:一家汽車修理公司的客戶抱怨該公司的服務時間比承諾的時間長。該修理公司決定分析前幾個月的實際修理時間以便為客戶提供更準確的服務時間。確定中心值(如均值或中位數)是了解數據的首要關鍵步驟。B 評估變異程度案例:一家零食公司希望評估新的填充機器的性能。盡管平均狀態(tài)下此機器看上去以正確的重量填充薯片,但此機器性能也存在很大的差異。許多薯片袋會出現填充不足或填充過多的情況。了解數據的變化程度對應了解產品或服務是非常重要的。不僅如此,理解變異性測量指標同時也會影響對其他統(tǒng)計量的認識。C 研究可能的組間差異案例:一個營銷團隊對他們的電子簡報進行的讀者調查結果,以了解簡報是否遞送給目標受眾。該團隊想知道被調查者的特定特征(性別、年齡和職業(yè))是否與希望更頻繁地閱讀此簡報或對此簡報的評價更高有關。Minitab 可以為每組數據計算單獨的描述性統(tǒng)計量,以便我們更好地了解這些數據組治具的差異。2) 數據必須使用數字數據。擁有的數據越多,結果所能提供的信息量就越大。 實例:一位熱心的年輕氣象學者收集了他家鄉(xiāng)一年內的氣象數據。這些值顯示了每個月中具有明顯降雨的天數。JanFebMarAprMayJunJulAugSepOctNovDec降雨天數*231054433123使用Minitab 分析結果如下:結果解釋:a. 觀測值個數:N-是非缺失值的數量,顯示的所有其他統(tǒng)計量都只基于非缺失值。 N*-是缺失值的數量。如果沒有缺失值,則不顯示此統(tǒng)計量。b. 均值:也稱為平均數,是對分布中心所在位置的度量。只需用所有觀測值的和除以觀察值得個數。極端值會對均值產生極大的影響。c. 中位數:也稱為第2個四分位數或第50個百分位數,是數據集中的中點,有一半觀測值位于其上,一半觀測值位于其下。他通過對數據排序并找出觀測值變化【N+1】/2來確定。如果有偶數個觀測值,中位數表示為觀測值編號N/2 和【N/2】+1之間的值。中位數不像均值那樣對極端值敏感。因此,當數據包含異常值或偏斜時,通常使用中位數而非均值。d. 標準差(StDEV):度量樣本中的觀測值偏離均值的程度。它類似于到均值的平均距離。與均值相似,標準差對極端值也很敏感。如果數據稱正態(tài)分布,則標準差和均值可用來確定觀測值處于給定值范圍內的比例。e. 均值的標準差(SE Mean):標準差除以N。f. 下四分位數和上四分位數(Q1和Q3):Q1,也稱為第25個百分位數。它等于位置(N+1)/4的數據值。如果此位置號不是整數,Minitab 將在該位置量測的兩個觀測值治具進行推斷。Q3,也稱為第75個百分位數。它等于位置3(N+1)/4的數據值。如果此位置號不是整數,Minitab將在該位置兩側的兩個觀測值之間進行推斷。Q1和Q3通常用于四分位數極差(IQR),四分位數極差是用于描述離差的另一個統(tǒng)計量。IQR 是中間50%的值得極差,計算公式為Q3-Q1。相對而言,IQR 對極端值不敏感。(注:要先對數據進行有小到大的排序)g. 標準差和標準誤差的計算方法:1. 計算每個值與均值的偏差并求平方:數據平方數據-均值平方差*2 -1.6362.6783 -0.6360.40510 6.36440.4965 1.3641.8604 0.3640.1324 0.3640.1323 -0.6360.4053 -0.6360.4051 -2.6366.9502 -1.6362.6783 -0.6360.405 sum40 0.00056.5452. 對平方差求和。上述數據的平方差的和為56.545。3. 通過將平方差的和除以N-1 可以求得方差:方差=(平方差的和)/(N-1)=56.545/10=5.6554. 求方差的平方根,以計算標準差:標準差=方差的平方根=2.3785. 然后,用標準差除以N的平方根,已計算均值的標準誤差:均值的標準誤差=標準差/N的平方根=2.378/3.317=0.7172. 圖形化匯總1) 包含正態(tài)曲線的數據直方圖降雨量數據部服從正態(tài)曲線,這在很大程度上是因為圖形右側很遠處存在異常值。如果沒有此異常值,數據看上去更服從正態(tài)分布,如下圖所示:2) 箱線圖l 箱的下邊緣表示下四分位數Q1,而上邊緣表示上四分位數Q3。因此,圖形的箱部分表示四分位數極差IQR或觀測值的中間50%部分。l 通過該箱的線表示數據的中位數。l 從箱擴展出去的直線稱為須。須向外擴展,表示數據集中(不包含異常值)的最低值和最高值。l 極端值和異常值有點表示。如果某個值位于框之外的部分比IQR 的1.5倍還多,則將該值視為異常值(大于Q3或小于Q1)。使用箱線圖可以評估數據的對稱性:l 如果數據剛好對稱,中位線將大致位于IQR箱的中間,并且須的長度相近l 如果數據偏斜,中位線肯不在IQR框的中間,而且一條須可能顯著長于另一條。 在降雨量的箱線圖中,中位線位于IQR箱中心,須長度相同。這表明除了異常值之外,數據對稱。這恰好表明,異常值與樣本數據的其余值可能不是來自同一總體。3) 均值、標準差和中位數的置信區(qū)間3. 單樣本Poisson(泊松)率1) 用途A 將比率與目標值進行比較案例:一項分區(qū)規(guī)劃要求,如果某一個十字路口每小時超過300輛車,就必須設人行橫道。交通官員希望知道某個繁忙的十字路口的交通量是否超過300輛車。因為這些官員要測量時間的發(fā)生率,因此數據遵循Poisson 分布。處理Poisson 數據時,可以使用單樣本Poisson 率檢驗將發(fā)生率與給某個基準值做比較。B 估計發(fā)生率案例:為了確定監(jiān)視器屏幕上的平均劃痕數是否滿足客戶的要求,一家計算機制造商需要估計此劃痕數。顯然,該制造商無法檢查每臺監(jiān)視器,因此檢查員需要計算樣本的劃痕數。在不測量每個可能的觀測值的情況下,將無法真正的紙檔真實的發(fā)生率。單樣本Poisson lv檢驗可以采用置信區(qū)間(即可能會包含該發(fā)生率的值范圍)的形式提供具有實際意義的發(fā)生率估計值。2) 數據數據必須遵循Poisson 分布。也就是說,它們必須表示事件數、缺陷數或活動數。此外,數據必須為非負數。 實例:一家城市公交公司要計算過去30天中的客戶投訴數量。該公司希望設定投訴率以確定新投訴部門的人員配備要求。投訴191822211718221916232516181820211523211926211726162421181721使用Minitab 分析結果如下:結果解釋:A單樣本Poisson 率過程將計算置信區(qū)間,并對單樣本Poisson 模型中的出現率進行假設檢驗。Poisson 過程描述某一事件在給定時間、面積、量或其他觀測值空間內的出現次數。觀測值空間的尺寸成為觀測長度。B合計出現數事件在樣本中的出現次數N采集觀測值的次數C觀測值長度:顯示用戶定義的觀測值長度,該長度表示每個觀測值周期的維度。D出現率:是在觀測值得每個單位長度內,發(fā)生事件的平均次數。 出現率=(合計出現數/N)/(觀測值長度)。e 置信區(qū)間是可能包含總體的出現率的一系列值。4. 雙樣本Poisson 率1) 用途A 確定兩個組之間是否存在差異案例:一家紡織品制造商使用兩臺紡織機來生產最暢銷的織物。它希望確保這兩臺機器之間不存在質量差異。因為此制造商正在測量瑕疵率(每10碼材料中的織物瑕疵數),所以,此數據遵循Poisson 分布。有時,我們只需要知道存在有時間意義的差異即可。通過Poisson 數據,我們可以使用雙樣本Poisson 率檢驗比較兩個組的比率。B 確定一組中發(fā)生某個事件的比率是否比另一組高案例:兩位工藝控制工程師分別想出了按照電視玻璃屏幕時盡可能少地產生劃痕的方法。公司希望知道那種方法所產生的劃痕率更低。C 確定兩組的比率差異是否為某一特定量案例:一家印刷公司考慮提高其印刷機以減少缺陷印刷件的數量。但是,僅當缺陷比率降低5%或更多時才值得對此設備升級投資。即使兩組之間存在比率差異,差異可能會因為太小而沒有任何時間意義。通過雙樣本Poisson 率檢驗,可以檢驗認為重要的任意大小之間的差異,并計算出可會包含組間差異的一系列值。2) 數據數據必須遵循Poisson 分布。也就是說,它們必須表示事件數、缺陷數或活動數。此外,數據必須為非負數。 實例:郵政分析員要對兩個郵局分支機構進行比較,以確定哪個機構的客戶每日到訪率更高。對40個工作日內(上午9:00-下午5:00)進入每個分支機構的客戶數進行統(tǒng)計,并使用雙樣本Poisson率函數比較每個分支機構的客戶到訪數。分局 A265249274245210231207251257249233273236257268266252259271279237226278249246217223250247268275241248255255258232243244259分局 B247257273269207258260262243264236253235236265244267247267274270267287277223257282269271274276264283224257236265247250248 使用Minitab 分析結果如下:結果解釋:A 雙樣本Poisson 率過程執(zhí)行假設檢驗,并計算兩個Poisson 模型的出現率之間差值的置信區(qū)間。Poisson 過程描述某一事件在給定時間、面積、量或其他觀測值空間內的出現次數。觀測值空間尺寸成為觀測值長度。B 合計出現數:事件在每個樣本中的出現次數C N:在每個樣本中采集觀測值的次數D 出現率是在觀測值的每個單位長度內,發(fā)生事件的平均次數。出現率=(合計出現數/N)/(觀測值長度)E 差值估計值是兩個樣本的出現率之間的差值。假設檢驗作用于此統(tǒng)計量。F 假設檢驗。Minitab 既執(zhí)行精確檢驗,也執(zhí)行基于正態(tài)近似的檢驗,當合計出現次數很低時,后面一種檢驗可能會不夠精確。在此示例中,假設檢驗使用以下假設:H0:兩個總體具有相同的比率H1:兩個總體具有不同的比率精確檢驗和正態(tài)近似檢驗的P值為0.031。因此,應否定原假設,并推斷出兩個樣本來自Poisson出現率不同的總體。換言之,可以斷定兩個分支的每日客戶數量是不同的。G置信區(qū)間是可能包含兩個總體出現率之間差值的實際值的一系列值。對于此示例,兩個出現率值差值的實際值介于-14.4768 與-0.723175之間的置信度為95%。在于假設檢驗結合使用時,該置信區(qū)間也很有用。該檢驗否定了原假設,并且檢定的結論是優(yōu)先使用雙側備擇檢驗,其中兩個分支的客戶到訪率不同。但是,仍不能精確確定哪個比率更高??赏ㄟ^分析置信區(qū)間來回答此問題。由于分支A-分支B的置信區(qū)間值包含負數,因此,應推斷出分支B的每日客戶到訪率更高。5. 單樣本t檢定1) 用途A 將過程均值與目標值進行比較案例:一家木材廠將部分板材標記為8英尺長。該廠需要確保它所切割的板材實際均為8英尺長,否則客戶可能會對此有意見,而且甚至可能會違反標記標準??梢允褂脝螛颖総檢驗將均值與基準值做比較。B 估計過程平均數的值案例:一家制藥公司研發(fā)出一種新型速效止痛藥。該公司希望估計此藥品的平均藥效時間以便在其標簽上注明此藥的生效速度。在不測量每個可能的觀測值得情況下,將無法真正知道數據的真實均值。單樣本t 檢定可以采用置信區(qū)間(即可能會包含該均值的值范圍)的形式提供具有實際意義的平均估計值。2) 數據測量數據必須為連續(xù)的數值型數據。這些數據應遵循正態(tài)分布,并且應為隨機收集的獨立數據。 實例:對隨機選擇的15個美國高收入家庭的能量消費進行了度量,以確定平均消費是否不同于發(fā)布值$1080。能源 $12111572166812501478130711848651162130811881111174713261142 使用Minitab 分析結果如下:結果解釋:A 假設:使用單樣本t過程時,實際上是在根據樣本數據決定哪兩個相反的假設看起來成立:H0(原假設): 等于參考值H1(備擇假設): 不等于參考值。(默認情況下,H1是非定向假設,但是可以指向定向假設)B. 置信區(qū)間是 的一系列可能值。由于我們不知道的實際值,因此可以根據樣本數據通過置信區(qū)間來猜測實際值。樣本均值提供的估計值,并且使用樣本標準差(StDev)來確定估計值的遠離程度。C. 檢驗:t檢驗提供兩個統(tǒng)計量,可以用來執(zhí)行均值檢驗:t值和p值。t值本身并不能提供什么信息,但可以用來計算p值。P值可以指示當原假設(H0)成立時以特定均值和標準差獲得樣本的可能性。必須在進行檢驗前確定否定H0 所需的p值。選擇作為標準的值稱為a 水平。如果p值小于或等于a 水平,則否定H0并推斷出 不等于參考值。常用的a水平為0.05。6. 雙樣本t檢定1) 用途A 確定兩個組是否存在差異案例:普通塑料垃圾袋的生產商希望顯示其產品的平均壽命與價格較高的競爭對手的名牌產品壽命一樣。有時,只需知道存在有實際意義的差異即可。B 確定一個組是否優(yōu)于另一個組案例:一個家具制造商希望找到更快捷的方式組裝一種復雜的椅子。該制造商需要證據表明新方法比當前的方法更快捷。C 確定兩個組之間的差異是否為某一特定量案例:一家進行大型混凝土澆灌的公司要調查一種聲稱可以減少養(yǎng)護時間的價格高昂的新化學品。此公司需要確信該化學品可以將養(yǎng)護時間減少至少五個小時;否則,它將不值這么多錢。即使兩組之間存在均值差異,差異可能會因太小而沒有任何實際意義。2) 數據必須有兩個包含連續(xù)數據的數據組。樣本必須是針對不同對象測量的獨立樣本。如果具有兩個以上的組,請使用方差分析過程。 實例:一家醫(yī)療衛(wèi)生管理公司具有兩家醫(yī)院以前的患者的滿意度樣本。該公司希望知道患者對其中一家醫(yī)院的滿意度是否比另一家醫(yī)院高。該公司將使用此信息箱患者提供參考并為醫(yī)院提出改進建議。這兩個樣本的方差非常接近,因此該公司將對檢驗使用綜合標準差。 A81777574869062739198B896435686955375742495958657167比率81777574869062739198醫(yī)院AAAAAAAAAA比率896435686955375742495958657167醫(yī)院BBBBBBBBBBBBBBB 使用Minitab 分析結果如下:結果解釋:A. 雙樣本t 置信區(qū)間和檢驗過程用于兩個獨立、隨機樣本中的數據推斷兩個總體均值(A和B)治具的差值。要使用雙樣本t過程,樣本數據應服從正態(tài)分布。如果樣本數據不是正態(tài)分布,則應考慮使用合適的非參數過程。而且,樣本必須是獨立的。如果樣本相關或配對,則改用成對的t檢驗過程即可。B. 假設:使用雙樣本t過程時,時間是在根據樣本數據決定哪兩個相反的假設看起來成立:H0(原假設):差值A-B 等于選擇的參考值(通常為零)H1(備擇假設):A-B 不等于所選的參考值。C. 置信區(qū)間是差值A-B的一系列可能值。由于不知道此差值的實際值,因此可以根據樣本數據通過置信區(qū)間來猜測實際值。樣本均值之差提供A-B的估計值,并且使用樣本標準差(StDev)來確定估計值的遠離程度。D. t 檢驗提供兩個統(tǒng)計量,可以用來對均值之差進行檢驗:t 值和p 值。t 值本身并不能提供什么信息,單可以用來確定p 值。p 值可以指示當H0 成立時獲得樣本的可能性。必須在進行檢驗之前確定否定H0所需要的p 值。選擇作為標準的值成為a 水平。如果p 值小于或等于a 水平,則否定H0并推斷出A-B不等于參考值。假設檢定的補充說明:1) 假設檢驗假設檢驗是統(tǒng)計決策中最常用的方法之一。一般而言,假設檢驗室一種假定初始聲明為真,然后使用樣本數據檢驗該聲明的過程。通常,初始聲明是指相關的總體參數。假設檢驗包括兩個假設:原假設(以H0表示)和備擇假設(以H1表示)。原假設是初始聲明,且通常使用先前的研究或常識進行指定。備擇假設是可以相信為真實或有望證明為真實的內容。備擇假設有時是指研究假設,并且可以使定向的或非定向的。假設檢驗的決策過程可以基于給定檢驗的概率值(p 值)。l 如果p 值小于或等于預先確定的顯著性水平(a 水平),則否定原假設,轉而支持另一個假設。l 如果p 值大于顯著性水平,則不能否定原假設,且不聲明支持備擇假設。執(zhí)行假設檢驗時,有四種可能的結果。結果取決于原假設的真假一家能否否定原假設。下表中匯總了這些結果: 真相決策 H0為真H0為假接受H0正確決策P=1-類型II 錯誤P=拒絕H0類型I 錯誤P=正確決策P=1-如果原假設為真,但否定了原假設,則發(fā)生類型I錯誤。發(fā)生類型I錯誤的概率成為,也稱為顯著性水平。如果原假設為假,但未能否定它,則發(fā)生類型II錯誤。發(fā)生類型II錯的概率為。原假設為假時,否定它的概率等于1-。此值也稱為檢驗的功效。2)置信區(qū)間和范圍置信區(qū)間(CI)是用于從樣本數據中估計總體參數的區(qū)間。如果備擇假設(H1)是非定向的,則Minitab同時顯示區(qū)間的上下限,如果H1是定向的,則只顯示一個邊界。置信區(qū)間有兩個基本部分構成:l 點估計-從樣本數據中計算單個值。此值被認為是相關參數的估計是,但點估計不可能與參數相等。因此,為了考慮估計錯誤的概率,在置信區(qū)間中包括了錯誤邊際,以提供可能的參數值的范圍。l 錯誤邊際-通過使用概率來確定置信區(qū)間的寬度。為了構造置信區(qū)間,只需從點估計中加上和/或減去錯誤邊際。對于 0.05,構造95%的置信區(qū)間。這意味著,用于構造區(qū)間的方法產生包含相關參數的區(qū)間的概率為0.95(既1-)。因此,如果構造100個95%的置信區(qū)間,則大約有95個區(qū)間包含該參數。換句話說,參數值位于該區(qū)間內的概率為95%。如果備擇假設有方向,則置信區(qū)間會在一個方向無限延伸。在此情況下,只顯示一個邊界。3)相關樣本和獨立樣本對連個均值之差進行檢驗時,確定兩個樣本是相關還是獨立至關重要:l 如果一個樣本中的值影響另一個樣本中的值,則認為兩個樣本相關。l 如果一個樣本中的不能揭示另一個樣本中中值的任何信息,則認為這兩個樣本是獨立的。4)假設檢驗和置信區(qū)間的關系假設正在執(zhí)行假設檢驗。回想一下,否定原假設(H0)或無法否定該假設的決策可以基于p 值和你選擇的顯著性水平(a 水平)。如果p 值小于或等于,則否定H0;如果p 值大于,則無法否定H0。決策也可以基于使用同一水平構造的置信區(qū)間(或邊界)。例如,顯著性水平為0.05的檢驗的決策可以基于95%置信區(qū)間:l 如果在H0 中指定的參考值位于區(qū)間之外(即小于下限或大于上限),則可否定H0。l 如果在H0 中指定的參考值位于區(qū)間之內(即不小于下限或不大于上限),則無法否定H0。5)選擇水平對的選擇決定類型I錯誤的概率。此值越小,錯誤地否定原假設(H0)的幾率就越小。但是,值越小,就意味著功效越低,并因此降低了檢測到效應的幾率。按照慣例,最常用的水平為0.05。=0.05 表示發(fā)現實際并不存在的效益的幾率為5%。大多數情況下,認為這種出現錯誤的概率可以接受。但是,第特定檢驗選擇時,可能需要考慮何種錯誤更嚴重:發(fā)現實際不存在的效應,或未發(fā)現實際存在的效應。選擇較小的。有時選擇較小、較保守的值更好。例如,假設要檢驗新銑床中的樣本,并嘗試決定是否購買并在加工車間中安裝一批這種機器。如果新機器比當前使用的機器更精確,則會節(jié)省大量資金,因為生產的殘次品會減少。但是,購買和安裝機器的成本非常高。購買前需要確信新機器更加精確。這種情況下,可能需要選擇較低的值,如0.001.這樣,如果實際上并非如此,將斷定新機器更精確的幾率也僅為0.1%。選擇較大的。另一方面,有時選擇較大、叫寬松的值更好。例如,假設噴氣發(fā)動機制造商要加油一種價格較低的新滾珠軸承的穩(wěn)定性。很明顯,如果滾珠不合格,則節(jié)省的少量滾珠成本并沒有潛在災難性后的代價值得重視。因此,可能需要選擇較高的值,如0.1。盡管這意味著在不存在差異的情況下將更可能錯誤的斷定存在差異,但更重要的是可能檢測到軸承穩(wěn)定性的差異(如果存在)。6) 具有合理正態(tài)分布的小樣本示例下面是來自正態(tài)分布的九組數據,既“沒有問題”的樣本。對于未經培訓的眼睛而言,其中多數直方圖可能不呈鐘形。7. 成對t 檢定1) 用途A. 確定兩個相關組是否存在差異案例:一家輪胎公司希望了解兩種輪胎設計的磨損率是否不同。要確保每個設計都與相同的氣候、路面狀況和司機相關,該公司為每輛測試車都安裝了這兩種輪胎。只要在相同條件下檢驗成對的測量值,其樣本即為相關樣本。要比較相關組的均值,與雙樣本t檢驗相比,配對t 檢驗不但更適用,而且功能更強大。B. 評估之前和之后進行的研究結果案例:營養(yǎng)專家希望測試參與節(jié)食和日常鍛煉項目的有效性。如果測試參與者在參與項目后體重明顯下降,營養(yǎng)專家就可以聲明此項目有效。2) 數據數據必須是兩個相關樣本的數字測量值。(如果樣本為獨立樣本,請使用雙樣本t檢驗來比較) 實例:一位生理學家想確定某種類型的賽跑計劃是否對穩(wěn)定心率有影響。對隨機選擇的15個人測量了心率。然后對其實施該賽跑計劃,并在一年后再次測量心率。因此,對每個人前后進行的量測構成了一個觀測值對。之前687674717172758375747677787575之后677774746970717771747368717277差值1-10-32246403973-2 使用Minitab 分析結果如下:結果解釋:A. 配對t 置信區(qū)間和測試法用于分析配對觀測值之間的差值。這些過程用來確定總體的均值差值是否可能與參考值(通常為零)不同。分析配對觀測值與分析獨立樣本相比的優(yōu)點在于可以析出因此人或對象之間的差異而導致的觀測值的變異性,從而可生成更有功效的檢驗。要使用配對t 過程,差值的分布應服從正態(tài)分布。如果不滿足此條件,則應考慮使用合適的非參數過程。而且,樣本必須是相關的或配對的。B. 使用配對的t 過程時,實際上是在根據樣本數據決定哪兩個相反的假設看起來成立* H0(原假設):總體中差值的均值等于選擇的參考值(通常為零)* H1(備擇假設):總體中差值的均值不等于所選的參考值。C. 置信區(qū)間是D的一系列可能值。由于不知道D的實際值,因此可以根據樣本數據通過置信區(qū)間來猜測實際值。平均樣本差值提供D的估計值,并且使用樣本差值的標準差(StDev)來確定估計值的遠離程度。D. t檢驗提供兩個統(tǒng)計量,可用來對均值差值進行檢驗:t 值和p 值。t 值本身并不能提供什么信息,但可以用來確定p 值。p 值可以指示當H0成立時以特定均值和標準差獲得差值分布的可能性。必須在進行檢驗之前確定否定H0所需的p 值。選擇作為標準的值稱為水平。如果p 值小于或等于水平,則否定H0并推斷出不等于參考值。8. 單比率1) 用途A. 將比率與目標值進行比較案例:一家冰激凌公司通過詢問品嘗者是否會因為習慣他們的新口味兒購買此產品來檢驗新口味。如果表示要購買冰激凌的品嘗者的比率超過80%,該公司將把這冰激凌推向市場。B. 估計比率案例:一家廣告代理商希望知道公眾對新的人工甜味劑的看法。該代理商將基于那些對此甜味劑持反對意見的人員比率來調整廣告策略。2) 數據數據必須記錄一系列只有兩個可能結果的獨立實驗的結果。 實例:一家直郵公司隨即選擇向1000個家庭發(fā)送一種新洗衣粉的廣告。在接收此郵件的1000個家庭中,87個家庭購買了這種洗衣粉。該公司希望確定此成功率十分與他們的平均成功率6.5%有差異。9. 雙比率1) 用途A 指定兩個組中的比率是否存在差異案例:一個工廠經理需要監(jiān)管兩個類似的汽車變速器裝配線。它需要知道這兩條線的缺陷變速器比率是否存在差異,存在差異意味著存在問題。有時,只需要知道存在有實際意義的差異即可。當只有兩個可能結果時,可以使用雙比率檢驗比較著兩個組。B 確定其中一組的比率是否比另一組的比率高案例:一所學校要評估一個旨在保障兒童不退學的新咨詢項目。學校希望知道此項目開始后,退學的學生比率是否顯著下降。C 確定兩組比率的差異是否為某一特定量案例:一家容器公司正在考慮體會用于模壓塑料瓶程序的機器,從而降低出現缺陷產品的比率。但是,僅當缺陷比率低于5%或更多時才值得對此次設備升級投資。即使兩組之間存在差異,以比率表示的差異,以比率表示的差異大小可能會因為太小而沒有任何實際意義。通過上比率檢驗,可以檢驗認為重要的任意大小之間的差異,并計算出可能會包含組間差異的一系列值。2) 數據對于每個樣本,數據都必須記錄一系列只有兩個可能結果的獨立實驗結果。 實例:大學的財政援助辦公室對其大學生進行調查,確定男生還是女生更可能獲得暑假職業(yè)。子啊抽樣的802名男生中,725人在暑假被雇傭,而抽樣的712名女生中有573人被雇傭。10. 單方差1) 用途A. 將過程方差與目標值進行比較案例:一家木地板公司要檢驗所有交付的未經處理木材的含水量。如果含水量變化過大,就表示木材未經過合適的干燥處理,該地板公司將不會接受這批貨物。過大的過程變異將導致不一致或不可預測的結果,從而危害過程輸出和客戶滿意度。請使用單方差檢驗將方差或標準差與目標值做比較。B估計過程方差 案例:一家機械廠正在使用一種新銑床生產發(fā)動機部件。因為該銑床是生產過程中的一個很有影響的部分,該機械廠希望重新評估此過程中存在的變異性大小。 在不測量每個可能的觀測值的情況下,我們將無法真正知道數據的真實方差。單方差檢驗科員采用置信區(qū)間的形式提供具有實際意義的方差估計值。2) 數據數據應該是從服從任意分布的連續(xù)量測值中隨機收集到的。實例:木材廠的經理希望分析鋸木機的性能。設計了一臺鋸木機,以生產剛好為100cm 長的梁。經理決定要分析哲學長度的方差,以便更好地了解設備的精度。經理從中選取50個梁作為樣本,以厘米為單位測量其長度,并使用單方差檢驗分析方差。長度99.002 100.242 100.042 99.596 100.031 99.909 99.648 100.683 100.294 98.342 100.592 99.166 100.513 99.427 99.972 99.844 102.377 99.800 101.390 101.041 99.857 100.623 99.849 100.114 100.266 101.976 99.225 100.220 101.424 102.319 100.227 100.210 99.882 101.338 99.819 101.082 98.364 99.169 100.005 100.445 99.381 100.148 101.322 99.843 100.359 99.976 99.147 101.100 99.376 100.274 使用Minitab 分析結果如下:結果解釋:A. 單方差命令分析來自總體的單個樣本,并為該總體的標準差和方差計算置信區(qū)間。它還以可選的假設檢驗為特征,來確定未知的總體標準差和方差是否等于用戶指定的值。B. 描述性統(tǒng)計量N,此值表示樣本數量,它等于樣本中的非缺失觀測值的個數。C. 標準差,此統(tǒng)計量測量數據圍繞其均值分散的范圍。標準差等于樣本方差的平方根。D. 方差,此統(tǒng)計量測試數據圍繞其均值分析的范圍。方差等于標準差的平方。E. 如果可以安全的假設樣本來自正態(tài)分布的總體,則請使用卡方方法。這些置信區(qū)間提供了可能分布包含未知總體標準差和方差的一系列值。F. 如果您的樣本數據連續(xù)但不來自于正態(tài)分布的總體,則請使用Bonett 方法。這些置信區(qū)間提供了可能分布包含未知總體標準差和方差的一系列值。11. 雙方差1) 用途A. 確定一個組中的數據是否比另一個組中的數據變化更大案例:一家早餐公司對大幅波動的谷類食品盒填充量感到不滿意。公司將檢測一種替換設備。如果此新設備可以在填充食品盒時使變異性變小,他們將購買此設備。包含變異過大的過程無法提供一致的部件或服務,而且其性能也不可預測。當在兩個組或兩個過程治具選擇時,請選擇雙方差檢驗來確定哪個變異性更低。B. 確定兩組的方差之間的差異是否為某一特定量案例:一家服裝制造商因某個供應商的織物質量不穩(wěn)定而感到不滿意。由于不太愿意結束與此供應商的長期穩(wěn)定關系,該公司僅當新供應商可以交付質量變異性減半的材料時才會更換供應商。即時兩組的方差之間存在差異,差異也可能會因為太小而沒有任何實際意義。通過雙方差檢驗,可以檢驗認為重要的任意大小之間的差異,并計算出可能會包含組間差異的一系列值。2) 數據必須為兩個隨機樣本都提供連續(xù)的數字測量值。數據可以來自任意分布。實例:最近的研究對在兩種路面上駕駛的司機進行了比較。美味司機在兩種路面的其中一種路面上駕駛:已鋪筑(1)和未鋪筑的土砂路(2)。為了測量駕駛水平,測試人員記錄了每位司機在每種路面上所做的控制校正次數。你希望確定司機在這兩種路面狀況下駕駛水平的變化是否相同。方法類型1111222211112222修正41881016272314641372015817使用Minitab 分析結果如下:結果解釋:A 雙方差置信區(qū)間和檢驗過程用于根據兩個獨立的隨機樣本中的數據對兩個總體比率治具的標準差和方差的相等性進行推斷。Minitab 將計算兩個總體方差和標準差治具比率的假設檢驗和置信區(qū)間;如果比率為1,則表明兩個總體相等。包括方差分析在內的許多統(tǒng)計過程都假定不同總體具有相同的方差。使用雙方差可以確定相等的假設是否有效。B 每個樣本的標準差和方差將被計算并作為實際總體值得點估計值。C 置信區(qū)間是實際標準差()和方差(2)比率的一些列可能值。由于不知道或2 的實際值,因此置信區(qū)間可能會根據樣本數據提供每個比率的范圍。如果范圍包括1,則你無法拒絕兩個總體治具的值相等這一假設。置信區(qū)間表顯示以下信息:l 數據分布-正態(tài)且連續(xù)(變量時連續(xù)的,但不一定正態(tài)分布)。Minitab 將計算著兩個分布的置信區(qū)間。執(zhí)行正態(tài)性檢驗,以確定應使用的分布。l 標準差比率的置信區(qū)間-即兩個標準差之間的比率的95%置信區(qū)間的置信上限和下限。l 方差的置信區(qū)間-即兩個方差的比率的95%置信區(qū)間的置信下限和上限。D 假設檢驗Minitab 中顯示了用于判斷方差是否相等的兩種檢驗的結果:F檢驗和Levene 檢驗。在這兩種檢驗中,原假設之門這兩個方差(或等效的總體標準差)相等(H0:2 1/2 2=1),與指出他們不相等的備擇假設相比(H1:2 1/2 21)。檢驗的選項取決于分布屬性:l 當數據來自正態(tài)分布是使用F檢驗。對于偏離正態(tài)性的情況,F 檢驗的功能并不強大。l 當數據來自連續(xù)但不一定正態(tài)的分布時,請使用Levene 檢驗。Levene 檢驗不如F檢驗敏感,因此當數據為正態(tài)或接近正態(tài)時,請使用F檢驗。E Minitab 對于F 檢驗和Levene 檢驗度計算和顯示檢驗統(tǒng)計量和p 值。l p 值較高,則表明方差之間不存在顯著差異l p 值較低,則表明方差治具存在差異12. 正態(tài)性檢驗1) 用途A 確定數據是否遵循正態(tài)分布案例:一名研究人員希望研究噴氣發(fā)動機的某個關鍵部件的鑄造過程。由于需要使用正態(tài)分布數據的檢驗在于非正態(tài)數據結合使用時產生誤導性結果,因此,該研究人員需要確保數據遵循正態(tài)分布。通常,統(tǒng)計過程都會假設數據來自正態(tài)分布。盡管許多檢驗不使用正態(tài)數據也可以正常工作,但在某些情況下,使用非正態(tài)數據會產生誤導性結果。請使用正態(tài)性檢驗來確定數據是否遵循正態(tài)分布。2) 數據數據必須為數字。實例:一位營養(yǎng)學家隨機選擇了13瓶食用油樣本,以便確定飽和脂肪的平均百分比是否不同于宣傳的15%。儀器的研究表明,總體標準差為2.6%。單樣本Z檢驗似乎適合用,但需要檢驗正態(tài)性假設。脂肪含量15.212.415.416.515.917.116.914.319.118.218.516.320使用Minitab 分析結果如下:結果解釋:A. 許多統(tǒng)計過程都假定數據服從正態(tài)分布。為了驗證此假設,可對數據執(zhí)行正態(tài)性檢驗。Minitab 提供三種可供選擇的正態(tài)性檢驗:l Anderson-Daarling-此檢驗具有極好的功效,并且在分布的高值和地址中檢測對正態(tài)性的偏離是特別有效。l Ryan-Joiner(與Shapiro-Wilk 類似)-此檢驗具有極好的功效。它基于樣本數據域期望從正態(tài)分布中獲得數據之間的相關。l Kolmogrov-Smirnov這是常見的正態(tài)性檢驗,但功效比其他兩種檢驗要低。每個檢驗的結果都帶有正態(tài)概率圖,這有助于確定數據是否服從正態(tài)分布。B. 正態(tài)性檢驗評估原假設(H0),及數據服從正態(tài)分布。如果檢驗的p 值小于所選的水平,則必須否定H0 并推斷出數據部服從正態(tài)分布。二、 回歸1. 回歸1) 用途A. 確定兩個變量是否具有線性關系案例:大學錄取辦公室對學生的學業(yè)成績與其大學入學考試的分數之間的關系感興趣。強線性關系將表明入學考試時作出錄取決定的有效工具。回歸時確定兩個變量治具是否存在線性關系的強大工具;也就是說,當一個變量增大時,另一個變量將按比例增大或減小。B. 檢驗單個響應與多個預測變量之間的關系案例:一個農業(yè)研究員知道多種變量(溫度、降雨量、肥料類型等)可以影響農作物的產量。如果她知道這些預測量的組合如何影響農作物產量,她就可以在任何氣候條件下都保持產量。在許多情況下并非一個預測變量,而是多個預測變量,可以最好的描述響應或結果?;貧w可用于以數學方式描述這種關系。C. 預測一組新的觀測值的響應案例:一家公用事業(yè)公司希望幫助客戶估計他們在即將到來的冬季的燃料成本。通過現有客戶的記錄,該公司創(chuàng)建了一個基于平均溫度、家庭成員數和供熱系統(tǒng)的類型和使用年限估計取暖的公式。然后,客戶即可向燃料公司提供這些數據以估計他們未來的取暖費?;貧w使用觀測數據方程來描述一個或多個預測變量與一個響應之間的關系。通過使用此方程,可以在具有一組新預測變量時預測響應值。2) 數據預測變量和響應變量必須是數值型的。實例:在不同的HCH0 濃度、催化劑比率、凝固溫度和凝固時間下生產出32件棉纖維素。對每件產品都記錄了耐壓等級,及抗皺性的度量。通過多元線性回歸評估了響應、等級和預測變量、濃度、比率、溫度以及時間之間的線性相關性。濃度比率溫度時間評級8410011.42418072.27418014.610712054.97418054.67718014.771314014.65416074.54714034.85110071.481014034.72410031.641018034.56712074.7101318034.841016054.641310074.3101012074.95410011.781314014.610118012.621314013.161318074.77112072.551314014.58116072.14118071.86116011.54110011.371010074.64110011.44110011.45使用Minitab 分析結果如下:結果解釋:A 線性回歸用于調查響應(Y)和預測變量(X)之間的線性關系,并對其建模。響應和預測變量都是連續(xù)變量。線性回歸分析常用于:l 確定響應變量如何隨特定預測變量的變化而變化l 預測任何預測變量值或預測變量值組合的響應變量值B. 回歸方程是回歸線的一種代數表示形式,用于描述響應和預測變量之間的關系。回歸方程采取的形式為:響應=常量+系數*(預測變量)+系數*(預測變量) 或者 y=b0 + b1*X1 + b2*X2 + + bk*Xk 其中:l 響應(Y)是響應的值l 常量(b0)是當預測變量為零時響應變量的值。由于此常量確定回歸線截取Y軸的位置,因此稱它為截距。l 預測變量(X)是預測變量的值。l 系數(b1,b2,bk)表示預測變量值得每個單位變化所對應的均值響應的估計變化。也就是說,他是X 增加一個單位時Y發(fā)生的變化。C. 系數表列出了預測變量的估計系數。線性回歸用于檢查響應和預測變量之間的關系。要確定響應和預測變量之間觀測到的關系是否統(tǒng)計意義顯著,需要:l 確定系數p 值:p的系數值說明響應和預測變量治具的相關性是否統(tǒng)計意義顯著。l 將系數p 值與水平進行比較:如果p值小于選擇的水平,則相關性的統(tǒng)計意義顯著。D. S、R2 和調整的R2 是模型對數據的擬合優(yōu)度的度量。這些值有助于選擇具有最佳擬合的模型。l S 以響應變量的單位進行度量,它表示數據值偏離回歸線的標準距離。對于給定研究,等式預測響應的效果越好,S越小。l R2 (R 平方) 描述在觀測到的響應值中有預測變量解釋的變異量。R2 始終歲預測變量的增加而增大。l 調整的R2 表示已根據模型中的項數調整的修正R2。如果包括了不必要的項,R2 會人為地變的很高。與R2 不同,調整的R2 在向模型中添加項時可能變小。使用調整的R2 比較預測變量數不同的各個模型。E. 方差分析表顯示響應數據中由預測變量解釋的變異量以及剩余未解釋的變異量。如果在預測變量的某些設置下觀測到重復的響應值,則未解釋的變異可以分為因純誤差而導致的變異和因模型不完善(失擬)而導致的變異。小于p 的兩個值是最重要的需要考慮的結果:l 使用第一個p 值(回歸)分析回歸系數是否與零顯著不同。如果p 值小于預先選擇的水平,則可以推斷至少有一個系數不為零。l 使用第二個p 值(失擬)確定是否只有線性預測變量足以解釋響應的變異。如果p 值小于預先選擇的水平,則可以斷定線性預測變量不足以解釋響應的變異。在這種情況下,可能需要考慮高次項??梢砸淮我粋€地包括預測變量的二次項,并重新分析數據。F. 異常觀測表顯示帶有絕對值大于2的標準化殘差的案例。G. 要求計算響應的均值或預測新響應值時,Minitab 顯示預測變量的所選值。H. 要求計算預測變量的某些設置下的響應的均值或預測新響應值時,Minitab 顯示預測值表。擬合是在所要求的預測變量設置的組合下響應的預測(擬合)值。I. 對于均值響應計算,置信區(qū)間給出了在所選預測變量設置的組合下期望均值響應所在的范圍。也就是說,置信區(qū)間提供了給定預測變量設置的組合下可能的平均響應值區(qū)間。J. 對于新響應預測,預測區(qū)間是期望新響應值所落的范圍。也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論