因子分析與聚類分析在學(xué)年論文成績(jī)?cè)u(píng)定中的應(yīng)用.doc_第1頁(yè)
因子分析與聚類分析在學(xué)年論文成績(jī)?cè)u(píng)定中的應(yīng)用.doc_第2頁(yè)
因子分析與聚類分析在學(xué)年論文成績(jī)?cè)u(píng)定中的應(yīng)用.doc_第3頁(yè)
因子分析與聚類分析在學(xué)年論文成績(jī)?cè)u(píng)定中的應(yīng)用.doc_第4頁(yè)
因子分析與聚類分析在學(xué)年論文成績(jī)?cè)u(píng)定中的應(yīng)用.doc_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

題 目:因子分析與聚類分析在學(xué)年論文成績(jī)?cè)u(píng)定中的應(yīng)用 2010年12月16日目錄摘要31 問(wèn)題的提出42 因子分析法的基本思想和分析步驟42.1 因子分析法的基本思想42.2因子分析的分析步驟43 聚類分析的基本思想和分析步驟53.1系統(tǒng)聚類的基本思想53.2系統(tǒng)聚類的分析步驟54樣本的選擇和指標(biāo)體系的建立65因子分析及其結(jié)果分析76 系統(tǒng)聚類分析87 總結(jié)98 參考文獻(xiàn)10目錄字體不符合摘要學(xué)年論文是本科生學(xué)習(xí)中的重要環(huán)節(jié)學(xué)生通過(guò)撰寫學(xué)年論文對(duì)所學(xué)知識(shí)得到梳理和運(yùn)用,以及為以后的畢業(yè)論文做準(zhǔn)備。而論文成績(jī)由各自的指導(dǎo)教師根據(jù)考核學(xué)生基本理論、基本知識(shí)和基本技能掌握的程度以及分析解決問(wèn)題的能力,以此進(jìn)行成績(jī)?cè)u(píng)定。由于論文成績(jī)?cè)u(píng)定中存在著大量的隱性變量。已經(jīng)目前論文成績(jī)?cè)u(píng)定中存在的很多不科學(xué)不完整性。本文對(duì)現(xiàn)行本科學(xué)年論文成績(jī)?cè)u(píng)定的指標(biāo)體系進(jìn)行分析,應(yīng)用多元統(tǒng)計(jì)中的因子分析與聚類分析,給出了在學(xué)年論文成績(jī)綜合評(píng)定中的一種解決方案,并結(jié)合實(shí)例進(jìn)行計(jì)算。以驗(yàn)證該方法的可行性。關(guān)鍵詞:學(xué)年論文;成績(jī)?cè)u(píng)定;因子分析;聚類分析1 問(wèn)題的提出論文的成績(jī)?cè)u(píng)定要根據(jù)學(xué)生在學(xué)年論文中的工作態(tài)度、獨(dú)立工作能力、任務(wù)完成情況和論文質(zhì)量,著重考核學(xué)生基本理論、基本知識(shí)和基本技能掌握的程度和分析解決問(wèn)題的能力以及答辯時(shí)回答問(wèn)題的情況,并以此進(jìn)行成績(jī)?cè)u(píng)定。成績(jī)?cè)u(píng)定分為優(yōu)、良、中、及格和不及格。然而在實(shí)際評(píng)定中,上述這種方法存在很多種弊端。其中人為因素占了大部分,導(dǎo)師評(píng)分的范圍僅囊括了其指導(dǎo)的幾個(gè)學(xué)生,而所有學(xué)生最終的成績(jī)?cè)u(píng)定要由學(xué)院領(lǐng)導(dǎo)最后綜合評(píng)定的,評(píng)分標(biāo)準(zhǔn)不一致,進(jìn)而在綜合評(píng)定時(shí),最好的評(píng)定成績(jī)出現(xiàn)了偏向性。并且,平時(shí)的概念中,優(yōu)等生和差生的印象會(huì)左右最好評(píng)定的成績(jī)。另一方面,雖然目前應(yīng)用較多的如簡(jiǎn)單相加法和標(biāo)準(zhǔn)分法各個(gè)指標(biāo)都涵蓋了論文的各個(gè)方面,但這些指標(biāo)間存在著相關(guān)關(guān)系,如何更加準(zhǔn)確地從這些指標(biāo)中獲取信息都沒(méi)有明確的規(guī)定再者,最終成績(jī)中往往已劃分了優(yōu)等學(xué)生的比例,這也是很不科學(xué)的,優(yōu)劣不是比例來(lái)確定的。所以本文根據(jù)存在的問(wèn)題及對(duì)他們的分析,本文提出了一種多元統(tǒng)計(jì)的方法來(lái)處理這個(gè)問(wèn)題并給出解決的答案。2 因子分析法的基本思想和分析步驟2.1 因子分析法的基本思想 因子分析法是能夠?qū)崿F(xiàn)數(shù)據(jù)簡(jiǎn)化目的的有效方法之一。其基本思想是根據(jù)關(guān)性大小把變量分組,使得同組內(nèi)的變量之同相關(guān)性較高,使不同組的變量相關(guān)性較低,每組變量代表一個(gè)基本結(jié)構(gòu),這個(gè)基本結(jié)構(gòu)稱為公共因子。對(duì)于所研究的問(wèn)題就是試圖用最少個(gè)數(shù)的公共因子的線性函數(shù)與特殊因子之和來(lái)描述原來(lái)觀測(cè)的每個(gè)分量,每一個(gè)公共因子代表反映變量間相互依賴的作用,抓住這些因子就可以幫助我們對(duì)復(fù)雜的問(wèn)題進(jìn)行分析和解釋。因子分析的主要目的是用來(lái)描述隱藏在一組測(cè)量到的變量中的一些更基本的,但又無(wú)法直接測(cè)量到的隱性變量 。通過(guò)探索性因子分析和驗(yàn)證性因子分析。從而得到顯性因子。當(dāng)然因子分析是社會(huì)研究的一種有力工具,但不能肯定地說(shuō)一項(xiàng)研究中含有幾個(gè)因子,當(dāng)研究中選擇的變量變化時(shí),因子的數(shù)量也要變化。此外對(duì)每個(gè)因子實(shí)際含意的解釋也并不是絕對(duì)的。2.2因子分析的分析步驟(數(shù)學(xué)模型呢)(1)以確認(rèn)學(xué)生基本理論、基本知識(shí)和基本技能掌握的程度以及分析解決問(wèn)題的能力這四個(gè)原始變量X1 ,X2 ,L,Xn適合作因子分析;(2)設(shè)F1,F2,L,Fm為4個(gè)因子變量;(3)利用旋轉(zhuǎn)方法使因子變量更具有可解釋性; 而旋轉(zhuǎn)方法為了確定因子的實(shí)際內(nèi)容,進(jìn)一步的旋轉(zhuǎn)因子,來(lái)使每一個(gè)變量盡量只負(fù)荷于一個(gè)因子之上。這就是簡(jiǎn)單的結(jié)構(gòu)準(zhǔn)則。 (4)計(jì)算出因子得分等中間指標(biāo),進(jìn)行學(xué)生學(xué)年論文的綜合評(píng)價(jià)及分析。X 1= a11 F1 + a12F2 + L ?+ a1mFm + e1,X2 = a21F 1+ a22F 2+.+ a2mFm+ e2 ,X n= an1F 1+ an2F2 +.+ anmFm + en 以上用數(shù)學(xué)公式編輯器輸入其中X1 ,X2 ,L,Xn為原始變量指標(biāo),F(xiàn)1,F2,L,Fm為公共因子,它們是在各個(gè)原觀測(cè)變量的表達(dá)式中都共同出現(xiàn)的因子,是相互獨(dú)立的不可觀測(cè)的理論變量,公共因子的含義,需結(jié)合具體問(wèn)題的實(shí)際意義而定; e1,e2, L,en為原變量指標(biāo)的特殊因子;模型中的 aij為因子載荷它表示 Xi 依賴 Fj 的程度,aij的絕對(duì)值越大,表明 Xi 依賴 Fj 的程度越大3 聚類分析的基本思想和分析步驟3.1系統(tǒng)聚類的基本思想聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”問(wèn)題的多元統(tǒng)計(jì)分析方法,在統(tǒng)計(jì)丹析的應(yīng)用頓域已經(jīng)得到了極為廣泛的應(yīng)用。它能夠?qū)⒁慌鷺颖?或變量)數(shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的。親疏程度”在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行自動(dòng)分類,產(chǎn)生多個(gè)分類結(jié)果”,。聚類分析不像其他分類方法需要依靠預(yù)先定義好的標(biāo)準(zhǔn)或者示例數(shù)據(jù),這種方法純粹是根據(jù)數(shù)據(jù)自身所包含的屬性和規(guī)律出發(fā)進(jìn)行分析和處理,從而得到一些可能的分類。在上述因子分析的基礎(chǔ)之上,將因子分析產(chǎn)生的新變量(因子得分)進(jìn)行Kmeans聚類分析3.2系統(tǒng)聚類的分析步驟1. 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理包括選擇數(shù)量,類型和特征的標(biāo)度,它依靠特征選擇和特征抽取,特征選擇選擇重要的特征,特征抽取把輸入的特征轉(zhuǎn)化為一個(gè)新的顯著特征,它們經(jīng)常被用來(lái)獲取一個(gè)合適的特征集來(lái)為避免“維數(shù)災(zāi)”進(jìn)行聚類,數(shù)據(jù)預(yù)處理還包括將孤立點(diǎn)移出數(shù)據(jù),孤立點(diǎn)是不依附于一般數(shù)據(jù)行為或模型的數(shù)據(jù),因此孤立點(diǎn)經(jīng)常會(huì)導(dǎo)致有偏差的聚類結(jié)果,因此為了得到正確的聚類,我們必須將它們剔除。2. 為衡量數(shù)據(jù)點(diǎn)間的相似度定義一個(gè)距離函數(shù) 既然相類似性是定義一個(gè)類的基礎(chǔ),那么不同數(shù)據(jù)之間在同一個(gè)特征空間相似度的衡量對(duì)于聚類步驟是很重要的,由于特征類型和特征標(biāo)度的多樣性,距離度量必須謹(jǐn)慎,它經(jīng)常依賴于應(yīng)用,很多距離度都應(yīng)用在一些不同的領(lǐng)域,一個(gè)簡(jiǎn)單的距離度量,經(jīng)常被用作反映不同數(shù)據(jù)間的相異性,一些有關(guān)相似性的度量,能夠被用來(lái)特征化不同數(shù)據(jù)的概念相似性,在圖像聚類上,子圖圖像的誤差更正能夠被用來(lái)衡量?jī)蓚€(gè)圖形的相似性3. 聚類或分組 將數(shù)據(jù)對(duì)象分到不同的類中是一個(gè)很重要的步驟,數(shù)據(jù)基于不同的方法被分到不同的類中,劃分方法和層次方法是聚類分析的兩個(gè)主要方法,劃分方法一般從初始劃分和最優(yōu)化一個(gè)聚類標(biāo)準(zhǔn)開始。Crisp Clustering,它的每一個(gè)數(shù)據(jù)都屬于單獨(dú)的類;Fuzzy Clustering,它的每個(gè)數(shù)據(jù)可能在任何一個(gè)類中,Crisp Clustering和Fuzzy Clusterin是劃分方法的兩個(gè)主要技術(shù),劃分方法聚類是基于某個(gè)標(biāo)準(zhǔn)產(chǎn)生一個(gè)嵌套的劃分系列,它可以度量不同類之間的相似性或一個(gè)類的可分離性用來(lái)合并和分裂類,其他的聚類方法還包括基于密度的聚類,基于模型的聚類,基于網(wǎng)格的聚類。 4. 評(píng)估輸出。 評(píng)估聚類結(jié)果的質(zhì)量是另一個(gè)重要的階段,聚類是一個(gè)無(wú)管理的程序,也沒(méi)有客觀的標(biāo)準(zhǔn)來(lái)評(píng)價(jià)聚類結(jié)果,它是通過(guò)一個(gè)類有效索引來(lái)評(píng)價(jià),一般來(lái)說(shuō),幾何性質(zhì),包括類間的分離和類內(nèi)部的耦合,一般都用來(lái)評(píng)價(jià)聚類結(jié)果的質(zhì)量,類有效索引在決定類的數(shù)目時(shí)經(jīng)常扮演了一個(gè)重要角色,類有效索引的最佳值被期望從真實(shí)的類數(shù)目中獲取,一個(gè)通常的決定類數(shù)目的方法是選擇一個(gè)特定的類有效索引的最佳值,這個(gè)索引能否真實(shí)的得出類的數(shù)目是判斷該索引是否有效的標(biāo)準(zhǔn),很多已經(jīng)存在的標(biāo)準(zhǔn)對(duì)于相互分離的類數(shù)據(jù)集合都能得出很好的結(jié)果,但是對(duì)于復(fù)雜的數(shù)據(jù)集,卻通常行不通。所以基本來(lái)說(shuō),聚類分析(數(shù)學(xué)模型肯定有數(shù)學(xué)公式的?。┦紫葘⒚總€(gè)數(shù)據(jù)對(duì)象各視為一類,根據(jù)類與類之間的距離或相似程度將最相似的類加以合并,再計(jì)算新類與其它類之間的相似程度,并選擇最相似的類加以合并,這樣每合并一次就減少一類,不斷繼續(xù)這一過(guò)程,直到所有數(shù)據(jù)對(duì)象合并為一類為止。4 樣本的選擇和指標(biāo)體系的建立下面以實(shí)例說(shuō)明因子分析、聚類分析在畢業(yè)論文成績(jī)綜合評(píng)定中的應(yīng)用。 (1)以表1中的12個(gè)指標(biāo)及xx系xx年的畢業(yè)論文作為分析依據(jù),隨機(jī)抽取60名學(xué)生的畢業(yè)論文并設(shè):X1:目的明確,符合要求;X2:理論意義或?qū)嶋H價(jià)值;X3:選題恰當(dāng);X4:查閱文獻(xiàn)資料能力;X5:綜合運(yùn)用知識(shí)能力;X6:研究方案的設(shè)計(jì)能力;X7:研究方法和手段的運(yùn)用能力;X8:外文應(yīng)用能力;X9:文題相符;X10:寫作水平;X11:寫作規(guī)范;X12:論文篇幅(2)采用統(tǒng)計(jì)分析軟件之一SPSS進(jìn)行分析 (3)因子分析過(guò)程: 第1步,調(diào)用 SPSS中的因子分析程序?qū)?2 個(gè)指標(biāo)的原始數(shù)據(jù)標(biāo)準(zhǔn)化,以消除量綱的影響;第2步,建立指標(biāo)間的相關(guān)系數(shù)矩陣 R(表格略去) 由相關(guān)系數(shù)矩陣R 可知,各指標(biāo)間存在較強(qiáng)的相關(guān)關(guān)系,且 KMO 統(tǒng)計(jì)量的值為 0.892,接近 1,故作因子分析的效果佳; 第3步,求R 的特征值及方差貢獻(xiàn)率(見(jiàn)表2) 從表 2 可以發(fā)現(xiàn),前 3 個(gè)公共因子的累計(jì)貢獻(xiàn)率達(dá)到89.651%,即前 3 個(gè)公共因子可以反映原指標(biāo) 89.651%的信息量,并且第 4 個(gè)特征值小于 1,因此上述 12 項(xiàng)指標(biāo)可以綜合成主因子F1,F(xiàn)2,F(xiàn)3。第4步,建立因子載荷矩陣(見(jiàn)表3) 由表3寫出每個(gè)原始變量的因子表達(dá)式: X1=0.309 F1+0.869 F2+0.148 F3 X2=0.543 F1+0.793 F2+0.155 F3 X3=0.519 F1+0.735 F2+0.206 F3 從表 3 可以發(fā)現(xiàn),每個(gè)因子在不同原始變量上的載荷沒(méi)有明顯的差別,不便于對(duì)因子進(jìn)行解釋,因此,需要對(duì)因子載荷陣進(jìn)行旋轉(zhuǎn),這里采取方差最大正交旋轉(zhuǎn)法,得到正交旋轉(zhuǎn)因子載荷矩陣(見(jiàn)表4)。 從表 4 可以看出,經(jīng)過(guò)旋轉(zhuǎn)后的載荷系數(shù)已經(jīng)明顯的兩極分化了第1個(gè)公共因子在指標(biāo)X4、X5、X6、X7、X8 上有較大載荷,說(shuō)明這 5 個(gè)指標(biāo)有較強(qiáng)的相關(guān)性,可以歸為1類,從考核指標(biāo)類型來(lái)看,這5個(gè)指標(biāo)屬于能力水平指標(biāo);第 2 個(gè)公共因子在指標(biāo) X1、X2、X3 上有較大載荷, 同樣可以歸為1類, 這 3 個(gè)指標(biāo)屬于選題質(zhì)量指標(biāo);同理,X9、X10、X11、X12可以歸為1類,這 4個(gè)指標(biāo)屬論文質(zhì)量指標(biāo) 第 5 步,給出因子得分系數(shù)矩陣(見(jiàn)表 5)。再根據(jù)表 5 中的因子得分系數(shù)和原始變量的標(biāo)準(zhǔn)化值按照下列表達(dá)式: F1=-0.069 X10.042 X2-0.067 X30.384 X40.274 X50.135 X60.239 X70.158 X8 0.115 X90.105 X100.112 X110.114 X12;F2=0.374 X10.370 X20.360 X30.096 X40.021 X50.020 X60.011 X70.025 X80.016 X90.008 X100.037 X110.035 X12; 計(jì)算出每個(gè)觀測(cè)值的各因子的得分?jǐn)?shù)。 5 因子分析及其結(jié)果分析表 1 畢業(yè)論文成績(jī)量化考核項(xiàng)目選題質(zhì)量(25%)能力水平(40%)論文質(zhì)量(35%)目的明確符合要求 10理論意義、實(shí)際價(jià)值 10選題恰當(dāng) 5查閱文獻(xiàn)10綜合運(yùn)用知識(shí) 10研究方案設(shè)計(jì) 5研究方法和手段運(yùn)用 10外文應(yīng)用 5題文相符5寫作水平15寫作規(guī)范15論文篇幅5表2 特征根與方差貢獻(xiàn)率表序號(hào)123456789101112特征值6.6443.8041.2070.4430.2860.2630.1490.1060.0440.0310.0170.006方差貢獻(xiàn)率/%51.10629.2589.2873.4102.2042.0221.1450.8190.3360.2390.1274.571E-2累積貢獻(xiàn)率/%51.10680.36489.65193.06195.26597.28798.43299.25299.58899.82799.954100.000表3 旋轉(zhuǎn)前因子載荷矩陣 X1X2X3X4X5X6X7X8X9X10X11X12F10.3090.5430.5190.5290.8020.9240.8940.9700.5810.5420.6780.676F20.8690.7930.7356.203E-2-5.253E-2-0.174 -1.640E-2-0.155-0.406-0.450-0.112-0.103F30.1480.1550.2060.687-0.374-5.496E-2-0.291-9.645E-20.4190.3930.3640.366表4 旋轉(zhuǎn)后因子載荷矩陣X1X2X3X4X5X6X7X8X9X10X11X12F14.714E-20.2110.1740.8430.8450.7240.8480.7820.1830.1760.2360.232F20.9250.9500.9093.187E-20.1570.1500.2140.1631.323E-2-4.56E-20.1040.110F3-0.1305.080E-20.109-0.2670.2550.4700.2350.4310.8950.8800.9380.943表5 因子得分系數(shù)矩陣X1X2X3X4X5X6X7X8X9X10X11X12F1-0.069 -0.042-0.0670.3840.2740.1350.2390.158-0.115-0.105-0.112-0.114F20.374 0.3700.360-0.096-0.021-0.020-0.011-0.025-0.016-0.008-0.037-0.035F3-0.053 0.0160.058-0.318-0.0050.097-0.046 -0.0580.4270.469 0.3600.120表6 因子得分表序號(hào)F1F2F3F名次1 0.87562 1.468480.875690.95847420.67893 1.369521.785630.9135001830.45896 0.014400.828990.3157584258 1.04702 -0.06984-0.12378-0.4606005159 -1.56231 0.874560.882460.5031613660-0.80903 -1.225631.05984-0.67363596 系統(tǒng)聚類分析運(yùn)行classified命令,以 F1,F(xiàn)2,F(xiàn)3為變量作系統(tǒng)聚類分析,得到聚類樹形圖。樣本聚為5類,擬定為優(yōu)、良、中等、及格、不及格。對(duì)分出的樣本分別求其綜合因子得分 F 的均值,以均值的高低確定等級(jí)的高低得到的結(jié)果如下: 優(yōu)=1,11, 17,34,15,48,56 ; 良=2,5,6,7,10,13,29,30,31,40,42,32,33,14,9,52,50,54;中等=45,51,3,18,35,41,23,22,36,27,8,39,57,4,43,46,55,19,59,12,16; 及格=21,26,25,28,37,20,44,47,49,38,53,5

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論