數(shù)據(jù)分析作業(yè).doc_第1頁
數(shù)據(jù)分析作業(yè).doc_第2頁
數(shù)據(jù)分析作業(yè).doc_第3頁
數(shù)據(jù)分析作業(yè).doc_第4頁
數(shù)據(jù)分析作業(yè).doc_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)分析方法及軟件應用課程作業(yè)一、第4題 方差分析1.1 建立數(shù)據(jù)文件由題意可知,在同一濃度和溫度下各做兩次實驗,將每一次的實驗結果看作一個樣本量,共個樣本量。(1) 在“變量視圖”下,名稱分別輸入“factor1”、“factor1”、“result”,類型設為“數(shù)值”,小數(shù)均為“0”,標簽分別為“濃度”、“溫度”、“收率”,factor1的值“1=A1,2=A2,3=A3”,factor2的值“1=B1,2=B2,3=B3,4=B4”,對齊選擇“居中”。(2) 在“數(shù)據(jù)視圖”下,根據(jù)表中數(shù)據(jù)輸入對應的數(shù)據(jù)。數(shù)據(jù)文件如圖1所示,其中“factor1”表示濃度,“factor2”表示溫度,“result”表示收率。三種不同濃度分別用1、2、3表示,四種不同溫度分別用1、2、3、4表示。圖1.1 SPSS數(shù)據(jù)文件格式1.2 基本思路(1) 設“濃度對收率的影響不顯著”為零假設H0,利用單因素方差分析,對該假設進行判定。(2) 設“它們間的交互作用對收率沒有顯著影響”分別依次為假設H0,則可以通過多因素方差分析工具,利用得出的結果即能證明假設H0是否成立。1.3 操作步驟(1) 單因素的方差分析操作 分析 比較均值 單因素;因變量列表:收率;因子:濃度; 兩兩比較:選中“LSD”復選框,定義用LSD法進行多重比較檢驗;顯著性水平:0.05,單擊“繼續(xù)”; 選項:選中“方差齊次性檢驗”,單擊“繼續(xù)”; 單擊“確定”。(2) 有交互作用的兩因素方差分析操作分析 一般線性模型 單變量;因變量:收率;固定因子:溫度、濃度;繪制。水平軸:factor1,選擇濃度作為均值曲線的橫坐標,單圖:factor2,選擇溫度作為曲線的分組變量;單擊添加繼續(xù)。選項。顯示均值:factor1,定義估計因素1的均值;顯著性水平:0.05;單擊“繼續(xù)”;單擊“確定”。1.4 結果分析(1) “濃度對收率有無顯著影響”結果分析執(zhí)行上述操作后,生成下表。表1.1 方差齊性檢驗收率 Levene 統(tǒng)計量df1df2顯著性.352221.708表1中Levene統(tǒng)計量的取值為0.352,Sig.的值為0.708,大于0.05,所以認為各組的方差齊次。表1.2 單因素方差分析收率 平方和df均方F顯著性組間39.083219.5425.074.016組內(nèi)80.875213.851總數(shù)119.95823從表2可以看出,觀測變量收率的總離差平方和為119.58;如果僅考慮濃度單因素的影響,則收率總變差中,濃度可解釋的變差為39.083,抽樣誤差引起的變差為80.875,它們的方差分別為19.542、3.851,相除所得的F統(tǒng)計量的觀測值為5.074,對應的概率P值為0.016,小于顯著性水平0.05,則應拒絕原假設,認為不同濃度對收率產(chǎn)生了顯著影響,它對收率的影響效應不全為0。13表1.3 多重比較因變量: 收率 LSD (I) 濃度(J) 濃度均值差 (I-J)標準誤顯著性95% 置信區(qū)間下限上限A1A22.500*.981.019.464.54A3-.375.981.706-2.421.67A2A1-2.500*.981.019-4.54-.46A3-2.875*.981.008-4.92-.83A3A1.375.981.706-1.672.42A22.875*.981.008.834.92*. 均值差的顯著性水平為 0.05。表3是各種濃度之間顯著性差異兩兩比較的結果。從表3可以看出,濃度A2同其他任意兩種濃度比較,其Sig.值都小于0.05,所以認為濃度A2與其他濃度在收率上有顯著差異。而其他兩種濃度,可以認為其濃度的不同對收率的影響不大。(2) “濃度、溫度及其相互作用對收率的影響”結果分析執(zhí)行上述操作后,生成下表。表1.4 兩因素方差分析表因變量: 收率源III 型平方和df均方FSig.校正模型70.458a116.4051.553.230截距2667.04212667.042646.556.000factor139.083219.5424.737.030factor213.79234.5971.114.382factor1 * factor217.58362.931.710.648誤差49.500124.125總計2787.00024校正的總計119.95823a. R 方 = .587(調(diào)整 R 方 = .209)表4為兩因素方差分析表,表中第一行“校正模型”代表對方差分析模型的檢驗,Sig值為0.230.05,說明模型不適用。觀測變量的總方差119.958,它被分解為五個部分,分別由濃度不同引起的變差39.083,由溫度差異引起的變差13.792,由濃度和溫度的交互作用引起的變差17.583,由隨機因素引起的變差為49.500。這些變差除以各自的自由度后,得到各自的均方,并可計算出F統(tǒng)計量的觀測值和對應的概率p值。Ffactor1、Ffactor2、Ffactor1,factor2的概率p值分別為0、0.382、0.648。由于Ffactor1的概率p值小于顯著性水平0.05,則應拒絕零假設,認為不同濃度對收率有顯著影響。而Ffactor2、Ffactor1,factor2的概率p值均大于0.05,因此不應拒絕原假設,可以認為不同溫度對收率的影響沒有顯著差異,濃度和溫度的交互作用對收率的影響也不顯著。表5代表濃度在各水平下的均值、標準誤均值及95%的置信區(qū)間。表1.5 濃度的均值因變量: 收率濃度均值標準誤差95% 置信區(qū)間下限上限A111.250.7189.68512.815A28.750.7187.18510.315A311.625.71810.06013.190圖1.2 兩因素交互影響的均值圖上圖為兩因素交互影響的均值圖,橫坐標代表濃度,縱坐標代表收率均值,且按溫度繪制不同的折線。從圖形上看,這些折線近似平行,可以認為兩因素的交互作用不顯著。1.5 結論綜上,不同濃度對收率有顯著影響,而不同溫度對收率的影響沒有顯著差異,濃度和溫度的交互作用對收率的影響也不顯著。二、 第9題 回歸分析42.1 基本思路本例中被解釋變量為課題總數(shù)X5,解釋變量為投入人年數(shù)X2、投入科研事業(yè)費X4、論文數(shù)X7、獲獎數(shù)X8。建立多元回歸模型,利用回歸方程的統(tǒng)計檢驗對建立的多元回歸模型進行檢驗,首先對解釋變量采取強行進入策略,分析他們之間的線性關系以及多重共線性;然后對解釋變量采用向前篩選策略,做方差齊性和殘差的自相關性檢驗。 2.2 操作步驟(1) 分析回歸線性;因變量:課題總數(shù)X5;自變量:投入人年數(shù)X2、投入科研事業(yè)費X4、論文數(shù)X7、獲獎數(shù)X8;方法:進入;(2) 統(tǒng)計量:選中回歸系數(shù)“估計”、模型擬合度、共線性診斷、殘差Durbin-Watson;(3) 單擊“確定”,生成表2.1、表2.2、表2.3、表2.4;(4) 同步驟(1);(5) 點擊“繪制”,X坐標為標準化預測值ZPRED,Y坐標為DRESID,在標準化殘差圖中選“正態(tài)概率圖”,點擊“繼續(xù)”按鈕,進行殘差均值和方差齊性檢驗;點擊“保存”中選擇保存標準化預測值、標準化殘差;(6) 菜單分析相關雙變量,在變量框選擇標準化殘差、標準化預測值相關系數(shù)Spearman;(7) 點擊“確定”按鈕。2.3 結果分析表2.1 模型匯總b模型RR 方調(diào)整 R 方標準估計的誤差Durbin-Watson1.968a.937.927226.58201.776a. 預測變量: (常量), 獲獎數(shù), 投入科研事業(yè)費(百元), 論文數(shù), 投入人年數(shù)。b. 因變量: 課題總數(shù)由上表可看出,該方程中有多個解釋變量,依次應參考調(diào)整的判斷系數(shù)。由于調(diào)整的判定系數(shù)0.927較接近于1,因此認為擬合優(yōu)度較高,被解釋變量可以被模型解釋的部分較多,未能被解釋的部分較少。并且Durbin-Watson為1.776在1.5和2.5之間,因而可以用線性回歸模型來擬合數(shù)據(jù)。表2.2 Anovaa模型平方和df均方FSig.1回歸19741985.31144935496.32896.135.000b殘差1334824.6892651339.411總計21076810.00030a. 因變量: 課題總數(shù)b. 預測變量: (常量), 獲獎數(shù), 投入科研事業(yè)費(百元), 論文數(shù), 投入人年數(shù)。上表是立項課題數(shù)多元線性回歸分析的結果??梢钥闯觯唤忉屪兞康目傠x差平方和,回歸平方和及均方分別為21076810.000,19741985.311和1334824.689,檢驗統(tǒng)計量的觀測值為96.135,對應的概率p值近似為0.依據(jù)該表可進行回歸方程的顯著性檢驗,若顯著性水平為0.05,由于概率p值小于,應拒絕回歸方程顯著性檢驗的假設,認為各回歸系數(shù)不同時為0,被解釋變量與解釋變量全體的線性關系是顯著的。表2.3 系數(shù)a模型非標準化系數(shù)標準系數(shù)tSig.共線性統(tǒng)計量B標準誤差試用版容差VIF1(常量)-29.79173.047-.408.687投入人年數(shù).553.1021.0795.411.000.06116.325投入科研事業(yè)費(百元).002.001.1521.525.139.2464.069論文數(shù)-.088.045-.348-1.934.064.07513.309獲獎數(shù).716.452.1201.586.125.4252.355a. 因變量: 課題總數(shù)依據(jù)表2.3可以進行回歸系數(shù)顯著性檢驗,從表中可以看到,若顯著性水平為0.05,除了投入人年數(shù)外,其余變量的回歸系數(shù)顯著性t檢驗的概率p值均大于0.05,因此不應拒絕零假設,故認為他們與被解釋變量的線性關系是不顯著的,不應該保留在方程中。表2.4 共線性診斷a模型維數(shù)特征值條件索引方差比例(常量)投入人年數(shù)投入科研事業(yè)費(百元)論文數(shù)獲獎數(shù)114.2731.000.01.00.01.00.012.3693.401.54.00.13.00.003.2773.925.14.00.09.00.544.0677.987.31.07.59.13.415.01318.195.00.93.17.87.04a. 因變量: 課題總數(shù)依據(jù)表2.4可以進行共線性檢測。從方差比來看,第5個特征根既能解釋投入人年數(shù)方差的93%,也可以解釋論文數(shù)方差的87%,因此有理由認為這些變量之間是存在多重共線性的;再從條件指數(shù)來看,第5個條件指數(shù)大于10,說明變量間確實存在多重共線性。 (1) (2)(3)圖2.3 課題總數(shù)表2.5 相關系數(shù)Standardized Predicted ValueStandardized ResidualSpearman 的 rhoStandardized Predicted Value相關系數(shù)1.000-.176Sig.(雙側).344N3131Standardized Residual相關系數(shù)-.1761.000Sig.(雙側).344.N3131從表2.5中對標準化殘差進行檢驗,Durbin-Watson(1.747)在1.5和2.5之間,因而殘差序列相對獨立。從圖(1)中看到數(shù)據(jù)點圍繞基準線還存在一定的規(guī)律行,可利用非參數(shù)檢驗方法對標準化殘差再進行檢驗。從圖(2)中可以看出,隨著標準化預測值的變化,殘差點在0線周圍隨機分布,但殘差的等方差性并不完全滿足,方差似乎有增大的趨勢。從表2.5中可以看到,殘差與預測值的spearman等級相關系數(shù)為-0.176,且檢驗并不顯著,因此認為異方差現(xiàn)象并不明顯。2.4 結論根據(jù)以上分析結果,可知影響高校課題總數(shù)的因素,如投入人年數(shù)、投入科研事業(yè)費、論文數(shù)、獲獎數(shù)等因素間存在多重共線性。三、第12題 聚類分析23.1 求解思路因為要在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,因此選用SPSS層次聚類的R型聚類進行分析。個體距離采用歐式距離,類間距離采用平均組間鏈鎖距離,并輸出樹狀圖、冰柱圖。3.2 操作步驟(1) 選擇菜單分析分類系統(tǒng)聚類;(2) 將8個變量添加到變量框中,在聚類方法中選擇變量,采用R型聚類;(3) 在“統(tǒng)計量”對話框中,選擇合并進程表和相似性矩陣,并在聚類成員中選擇方案范圍為最小聚類數(shù)2,最大聚類數(shù)4;(4) 在“繪制”對話框中勾選上“樹狀圖”;(5) 在“方法”對話框中聚類方法選擇“組間聯(lián)接,區(qū)間采用Euclidean距離;(6) 單擊“確定”,進行層次聚類分析。3.3 結果分析表3.1 群集聚類表表3.2 群集成員表由表3.1可看出,第一步將2和4合并為一組,此組將在第三步中出現(xiàn);第二步將3和5合并為一組,此組將在第四步中出現(xiàn);其他同理;最后在第七步,將所有組合并為一組。由表3.2可看出,分成4組的話,第一組為意大利;第二組為韓國、法國、美國;第三組為羅馬尼亞、中國、俄羅斯;第四組為熱心觀眾。其他群集同理。圖3.1 冰柱圖由冰柱圖可看出,當聚成7類時,法國和韓國為一類,其他裁判各為一類;當聚成6類時,法國韓國為一類,中國和羅馬尼亞為一類,其他裁判各為一類;當聚成5類時,美國、法國、韓國為一類,中國和羅馬尼亞為一類,其他裁判各為一類;當聚成4類時,美國、法國、韓國為一類,俄羅斯、羅馬尼亞、中國為一類,意大利和熱心觀眾各為一類;當聚成3類時,熱心觀眾為一類,美國、法國、韓國為一類,其他國家為一類;當聚成兩類時,熱心觀眾為一類,其他國家為一類。圖3.2 樹狀圖由樹狀圖可看出:第一步(2,4)以及(3,5)各合并為一組;第二步(2,4)和6合并為一組,(3,5)和7合并為一組;第三步(3,5,7)和1合并為一組;第四步(2,4,6)和(1,3,5,7)合并為一組;第五步,所有裁判合并為一組。3.4 結論由以上結果可看出,若將裁判分成4組,意大利裁判獨自分成一組,說明了其打分標準與其他裁判存在很大的差異性;熱心觀眾也是獨自分成一組,其打分標準也與其他裁判存在很大的差異性;韓國、美國、法國分成一組,說明這三個國家的裁判打分具有相似性;羅馬尼亞、中國、俄羅斯分成一組,說明這三個國家的裁判打分也具有相似性。需要選出4個具有代表性的裁判,那么一定會選擇意大利、熱心觀眾,第三位可以從韓國、美國、法國中選一個,第四位可以從羅馬尼亞、中國、俄羅斯中選一個。為了確定第三位和第四位裁判具體哪個國家,可分別計算他們的復相關系數(shù),并選擇復相關系數(shù)最高的作為代表。第3類的復相關系數(shù)分別為:韓國裁判與(法國裁判,美國裁判)為0.949,法國裁判與(韓國裁判,美國裁判)為0.944,美國裁判與(韓國裁判,法國裁判)為0.930,因此可選韓國裁判作為代表;第4類的各復相關系數(shù)分別為:羅馬尼亞裁判與(中國裁判,俄羅斯裁判)為0.943,中國裁判與(羅馬尼亞裁判,俄羅斯裁判)為0.941,俄羅斯裁判與(羅馬尼亞裁判,中國裁判)為0.946,因此可選俄羅斯裁判作為代表。綜上,最終的裁判為:第一位為意大利,第二位為熱心觀眾,第三位為韓國,第四位為俄羅斯。四、 第16題 SPSS應用實例4.1 問題說明該實例是關于公交站點??繒r間預測模型。主要研究公交在站點??繒r間與上下車

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論