![利用Kmeans聚類分析技術(shù)分析學(xué)生成績(jī)_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/21/02174cdb-1ed0-4958-a5aa-861da505b15a/02174cdb-1ed0-4958-a5aa-861da505b15a1.gif)
![利用Kmeans聚類分析技術(shù)分析學(xué)生成績(jī)_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/21/02174cdb-1ed0-4958-a5aa-861da505b15a/02174cdb-1ed0-4958-a5aa-861da505b15a2.gif)
![利用Kmeans聚類分析技術(shù)分析學(xué)生成績(jī)_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/21/02174cdb-1ed0-4958-a5aa-861da505b15a/02174cdb-1ed0-4958-a5aa-861da505b15a3.gif)
![利用Kmeans聚類分析技術(shù)分析學(xué)生成績(jī)_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/21/02174cdb-1ed0-4958-a5aa-861da505b15a/02174cdb-1ed0-4958-a5aa-861da505b15a4.gif)
![利用Kmeans聚類分析技術(shù)分析學(xué)生成績(jī)_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/21/02174cdb-1ed0-4958-a5aa-861da505b15a/02174cdb-1ed0-4958-a5aa-861da505b15a5.gif)
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、利用K-means聚類分析技術(shù)分析學(xué)生成績(jī)摘要:數(shù)據(jù)挖掘是在海量的數(shù)據(jù)中尋找模式或規(guī)則的過(guò)程。數(shù)據(jù)聚類則是數(shù)據(jù)挖掘中的一項(xiàng)重要技術(shù),就是將數(shù)據(jù)對(duì)象劃分到不同的類或者簇中,使得屬于同簇的數(shù)據(jù)對(duì)象相似性盡量大,而不同簇的數(shù)據(jù)對(duì)象相異性盡量大。目前數(shù)據(jù)挖掘技術(shù)在商業(yè)、金融業(yè)等方面都得到了廣泛的應(yīng)用,而在教育領(lǐng) 域的應(yīng)用較少,隨著高校招生規(guī)模的擴(kuò)大,在校學(xué)生成績(jī)分布越來(lái)越復(fù)雜,除了 傳統(tǒng)成績(jī)分析得到的一些結(jié)論外,還有一些不易發(fā)現(xiàn)的信息隱含其中,因而把數(shù) 據(jù)挖掘技術(shù)引入到學(xué)生成績(jī)分析中,有利于針對(duì)性地提高教學(xué)質(zhì)量。本論文就是 運(yùn)用數(shù)據(jù)挖掘中的聚類分析學(xué)生成績(jī)的,利用學(xué)生在選擇專業(yè)前的各主要學(xué)科的 成績(jī)構(gòu)
2、成,對(duì)數(shù)據(jù)進(jìn)行選擇,預(yù)處理,挖掘分析等。運(yùn)用聚類算法分析學(xué)生對(duì)哪 個(gè)專業(yè)的強(qiáng)弱選擇,從而為具有不同成績(jī)特征的同學(xué)在專業(yè)選擇及分專業(yè)后如何 開展學(xué)習(xí)提供一定的參考意見(jiàn)。關(guān)鍵字:數(shù)據(jù)挖掘聚類分析學(xué)生成績(jī)分析Abstract : Data mining is a process that in the vast amounts of datalooking for patterns or rules. Data clustering is an important data miningtechnology for people to understand and explore the inher
3、ent relationshipbetween things. Clustering is to partition data objects into differentcategories, or clusters, making the similarity with the clusters of dataas large as possible. While the dissimilarity of different clusters of dataas large as possible.Nowadays data mining technology is widely used
4、 in business and finance. But it is less used in education field. With the increase of enrollmentin universities, there are more and more students in campus, and that makes it more and more complex in the distribution of students" records. Besides some conclusions from traditional record analys
5、is, a lot of potential information cannot be founded. Importing the data mining technology to students" record analyzing makes it more convenient and improve the teaching quality. In this paper, clustering technique in data mining is used to students' performance analysis, the use of data s
6、tructure of main subject before the students specialized in choice of mode, pretreatmentand data mining. Using clustering technology to analyse which professional students are good at, so as to choose how to learn professional and givesome reference opinions after students of different grades choose
7、 their majors .1.2 發(fā)展現(xiàn)狀Keywords : Data Mining ,Achievement1. 概述1.1 背景隨著我國(guó)經(jīng)濟(jì)的發(fā)展,網(wǎng)絡(luò)已被應(yīng)用到各個(gè)行業(yè),人們對(duì)網(wǎng)絡(luò)帶來(lái)的高效率越來(lái)越重視,然而大量數(shù)據(jù)信息給人們帶來(lái)方便的同時(shí),也隨之帶來(lái)了許多新問(wèn)題,大量數(shù)據(jù)資源的背后隱藏著許多重要的信息,人們希望能對(duì)其進(jìn)行更深入的分析,以便更好地利用這些數(shù)據(jù),從中找出潛在的規(guī)律。那么,如何從大量的數(shù)據(jù)中提取并發(fā)現(xiàn)有用信息以提供決策的依據(jù),已成為一個(gè)新的研究課題。高校是教學(xué)和科研的重要基地,也是培養(yǎng)人才的重要場(chǎng)所,教學(xué)管理工作當(dāng)中的學(xué)生成績(jī)分析是高校管理工作的一個(gè)重要組成部分,也是衡
8、量高校管理水平Clustering Technology , Students'的依據(jù)。從目前來(lái)看。各高校隨著招生規(guī)模的擴(kuò)大,信息量大幅度增加,學(xué)校運(yùn)行著各類管理系統(tǒng),存在著各類數(shù)據(jù)庫(kù),如有成績(jī)管理,學(xué)籍管理等。這些系統(tǒng)積累了大量的數(shù)據(jù),在很大程度上提高了工作的效率,但在這樣的教學(xué)管理系統(tǒng)中,學(xué)校的管理人員、教師和學(xué)生都只能通過(guò)查看,或者簡(jiǎn)單的排序以及統(tǒng)計(jì)功能來(lái)獲得數(shù)據(jù)表面的信息,由于缺乏信息意識(shí)和相應(yīng)的技術(shù),隱藏在這些大量數(shù)據(jù)中的信息一直沒(méi)有得到充分應(yīng)用。如何對(duì)這些數(shù)據(jù)進(jìn)行重新分析利用,在原基礎(chǔ)上擴(kuò)充高校教學(xué)管理系統(tǒng)的功能,從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,提高學(xué)校管理的決策性,是很多高校正
9、在考慮的問(wèn)題。目前將數(shù)據(jù)挖掘技術(shù)與學(xué)校學(xué)生成績(jī)分析管理系統(tǒng)相結(jié)合,通過(guò)分析和處理系統(tǒng)中大量的學(xué)生成績(jī)數(shù)據(jù), 從中挖掘潛在的規(guī)律及模式,促使學(xué)校更好地開展教學(xué)工作,提高教學(xué)質(zhì)量,幫助教學(xué)管理者制定教學(xué)計(jì)劃,使學(xué)生成績(jī)管理系統(tǒng)的功能能夠更加完善。目前,在高校學(xué)生成績(jī)管理中,影響學(xué)生學(xué)習(xí)成績(jī)的因素很多,因此要進(jìn)行綜合分析。傳統(tǒng)分析無(wú)非是得到均值、方差等一些簡(jiǎn)單的分析結(jié)果,往往還是基于教學(xué)本身。其實(shí),還有一些教學(xué)中不易察覺(jué)的因素和教學(xué)以外的因素影響學(xué)生學(xué)習(xí)成績(jī),這些都需要進(jìn)一步分析,從而得出結(jié)論,為教學(xué)管理人員及學(xué)生做出相應(yīng)的 決策。1.3 研究意義利用數(shù)據(jù)挖掘聚類技術(shù)挖掘發(fā)習(xí)、數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、
10、數(shù)據(jù) 可視化和信息檢索等技術(shù)的一個(gè)交 叉性學(xué)科。數(shù)據(jù)挖掘是數(shù)據(jù)倉(cāng)庫(kù)之 上的一種應(yīng)用。但是數(shù)據(jù)挖掘不限 于分析數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),它執(zhí)行 關(guān)聯(lián)、分類、預(yù)測(cè)、聚類、時(shí)間序列分析等任務(wù),而且數(shù)據(jù)挖掘應(yīng)用范圍也相對(duì)較廣。現(xiàn)課程與課程之間,或者每門課程中的知識(shí)點(diǎn)之間,以及學(xué)生的成績(jī)與課程的設(shè)置之間都存在著千絲萬(wàn)縷的聯(lián)系。使得現(xiàn)階段已有的數(shù)據(jù)發(fā)揮其真正的價(jià)值,為了解決這一問(wèn)題,可以利用數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行合理的利用和深層的分析,從而更好的指導(dǎo)教師在教學(xué)中的工作。2. 數(shù)據(jù)挖掘理論概述2.1 數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘是集統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別、并行計(jì)算、機(jī)器學(xué)2.2 數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘是一個(gè)復(fù)雜的多
11、階段過(guò)程,如圖2.2 所示,主要可以分為如下幾個(gè)主要階段:(1) 確定挖掘?qū)ο螅?2) 數(shù)據(jù)準(zhǔn)備;數(shù)據(jù)選擇;數(shù)據(jù)預(yù)處理;數(shù)據(jù)的轉(zhuǎn)換。(3) 數(shù)據(jù)挖掘;(4) 結(jié)果分析;(5) 知識(shí)表達(dá)和解釋。圖 2.2 數(shù)據(jù)挖掘過(guò)程圖示2.3 聚類分析及K-means算法聚類分析是數(shù)據(jù)挖掘中的一個(gè)重要研究領(lǐng)域。聚類分析就是將一組數(shù)據(jù)分組,使其具有最大的組內(nèi)相似性和最小的組間相似性。聚類分析的算法可以分為以下幾類:劃分方法、層次方法、基于密度方法等,其中劃分方法的典型算法當(dāng)推K均值算法,即K-means算法。K 均值聚類,即數(shù)據(jù)挖掘中的C均值聚類,屬于聚類分析方法中一種基本的且應(yīng)用最廣泛的劃分算法。K-均值算法
12、以k為參數(shù),把N個(gè)對(duì)象分為k 個(gè)簇,以使簇內(nèi)具有較高的相似度。相似度的計(jì)算根據(jù)一個(gè)簇中對(duì)象的平均值來(lái)進(jìn)行。算 法首先隨機(jī)地選擇K個(gè)對(duì)象,每個(gè) 對(duì)象初始地代表了一個(gè)簇的平均值 或中心。對(duì)剩余的每個(gè)對(duì)象根據(jù)其 與各個(gè)簇中心的距離,將它賦給最 近的簇。然后重新計(jì)算每個(gè)簇的平 均值。這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn) 則函數(shù)收斂。K-Means算法的準(zhǔn)則函數(shù)定義 為:k2E xxi 1 x Ci其中E是數(shù)據(jù)庫(kù)所有對(duì)象 的平方誤差的總和,x是空間中的 點(diǎn),表示給定的數(shù)據(jù)對(duì)象,Xi是簇C的平均值。2.4聚類分析工具軟件(WEKAWEKA是懷卡托智能分析環(huán)境(Waikato Environment for Knowl
13、edge Analysis ),是一款免費(fèi) 的,非商業(yè)化(與之對(duì)應(yīng)的是 SPSS 公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品 -Clementine )的,基于 JAVA環(huán) 境下開源的機(jī)器學(xué)習(xí)(Machine Learning ) 以及數(shù)據(jù)挖掘(DataMining )軟件。該軟件的縮 寫 WEKAt是 NewZealand 獨(dú)有的一 種鳥名,而WEKA勺主要開發(fā)者同時(shí) 恰好來(lái) 自 New Zealand 的the University of Waikato 。WEK蚱為一個(gè)公開的數(shù)據(jù)挖掘 工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù) 挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì) 數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸,聚 類,關(guān)聯(lián)規(guī)則以及在新的交互式界
14、 面上的可視化。而開發(fā)者則可使用 Java語(yǔ)言,利用WEKA勺架構(gòu)上開 發(fā)出更多的數(shù)據(jù)挖掘算法。讀者如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話, 可以看一看 WEKA的接口文檔。在 WEK中集成自己的算法甚至借鑒它 的方法自己實(shí)現(xiàn)可視化工具并不是 件很困難的事情。聚類,分類和關(guān) 聯(lián)分窗口提供對(duì)數(shù)據(jù)應(yīng)用對(duì)應(yīng)各類 數(shù)據(jù)挖掘算法的界面,尤其對(duì)于成 績(jī)管理系統(tǒng)中大都是數(shù)值的數(shù)據(jù)。因此,選用WEKA:具來(lái)對(duì)高校學(xué)生 成績(jī)分析能夠得到很有效的結(jié)果。3.數(shù)據(jù)挖掘?qū)嶒?yàn)過(guò)程3.1 數(shù)據(jù)準(zhǔn)備及預(yù)處理本文在數(shù)據(jù)挖掘過(guò)程當(dāng)中所使用的工具是 WEKA而 WEKA所支持 的數(shù)據(jù)格式有兩種:ARFF文件和CSV文件。故將原始數(shù)據(jù) EX
15、CEL文 件轉(zhuǎn)換為ARF破CSVt件。轉(zhuǎn)換方 法為:在EXCE苗打開“MARK.xls”, 選擇菜單一 另存為,在彈出的對(duì)話 框中,文件名輸入“ Mark”,保存類 型選擇“ CSV(逗號(hào)分隔)”,保存, 便可得到“ Mark.csv ”文件。其結(jié) 果如圖3.1所示:4皿加的OMpttiirlltwk務(wù)ft-*向心期.口TLO川;呼QH 二,5IM2ib377.00“ 04,: 1. U?4.DSt u的口nr事ri nTTO電。*乳qBLO的b但。81 imoTSO.將09:l- !i.Qn pitiziao7Y n尊口口T3 0UmL妞口附P小:rr 二n o.KA 0強(qiáng)Q幡QTioLWZ
16、liji 門*里口骨EHO焦1 口%蛇口腳LSSB鴛目1LTKL GW 0-=-L:糖E小hi. jL1* n物。Rn oH)二 rmea.flSOQlft60ZIZDlIlZL旭口M 西口療st n房0的Q口n.u肝0*Sl二硼口圖3.1數(shù)據(jù)文件截圖打開WEK軟件的Exporler菜 單,點(diǎn)擊Openfile 按鈕,打開剛得 至U的“Mark.csv ”文件,點(diǎn)擊“Save” 按鈕,在彈出的對(duì)話框中,文件名 輸入“ Mark”,文件類型選擇“ Arff date files (*.arff) ”,這樣就得 到的數(shù)據(jù)文件為“ Mark.arff3.2 算法應(yīng)用打開 WEK軟件中的Exporle
17、r , 點(diǎn)擊剛才得到的“Mark.arff ” , 出現(xiàn)下面的窗口,如圖3.2.1 所示:圖 3.2.1 數(shù)據(jù)分析截圖切 換 到 “ Cluster ” , 點(diǎn) “Choose”按 鈕 選 擇“SimpleKmeans",這是 WEKAf3實(shí) 現(xiàn) K 均值的算法。點(diǎn)擊旁邊的文本框,將“ numClusters ”設(shè)置為3,把實(shí)例分成三個(gè)簇,即K=3。其他結(jié)果按默認(rèn)值,如圖3.2.2 所示。圖 3.2.2 設(shè)置界面截圖3.3 結(jié)果及分析右擊左下方“Result list ”列 出 的 結(jié) 果 , 點(diǎn) “ Visualize cluster assignments ”。顯示彈 出的窗口給出了各實(shí)例的散點(diǎn) 圖。散點(diǎn)圖如圖3.3 所示:圖 3.3 結(jié)果散點(diǎn)圖3.4 結(jié)論在 Cluster0 簇里的實(shí)例,占總實(shí)例的32%,其中男生相對(duì)較多,這類學(xué)生在分專業(yè)時(shí)選擇了硬件方向。故在以后計(jì)算機(jī)專業(yè)的學(xué)生在分
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 招商引資項(xiàng)目合同(2篇)
- 理療按摩技術(shù)加盟合同(2篇)
- 中華書局版歷史七年級(jí)上冊(cè)第17課《三國(guó)兩晉南北朝的文化》聽(tīng)課評(píng)課記錄
- 新版湘教版秋八年級(jí)數(shù)學(xué)上冊(cè)第一章分式課題同分母分式的加法和減法聽(tīng)評(píng)課記錄
- 【人教版】八年級(jí)地理上冊(cè)第二章《自然災(zāi)害》聽(tīng)課評(píng)課記錄及優(yōu)化訓(xùn)練答案
- 部編版八年級(jí)道德與法治下冊(cè)第四課《公民義務(wù)》第2課時(shí)《依法履行義務(wù)》聽(tīng)課評(píng)課記錄
- 人教新課標(biāo)地理七年級(jí)上冊(cè)《 3.3降水和降水的分布第二課時(shí)》聽(tīng)課評(píng)課記錄
- 小學(xué)二年級(jí)上冊(cè),口算練習(xí)題
- 五年級(jí)班級(jí)管理工作計(jì)劃
- 五年級(jí)數(shù)學(xué)下冊(cè)蘇教版第一單元第3課《等式的性質(zhì)和解方程(2)》聽(tīng)評(píng)課記錄
- 客運(yùn)站員工安全生產(chǎn)教育培訓(xùn)
- 口腔預(yù)防兒童宣教
- 綠城桃李春風(fēng)推廣方案
- 體質(zhì)健康概論
- 檔案管理流程優(yōu)化與效率提升
- 顱腦損傷的生物標(biāo)志物
- 2023高考語(yǔ)文實(shí)用類文本閱讀-新聞、通訊、訪談(含答案)
- 人工智能在商場(chǎng)應(yīng)用
- (完整word版)大格子作文紙模板(帶字?jǐn)?shù)統(tǒng)計(jì))
- 高考語(yǔ)文復(fù)習(xí):小說(shuō)閱讀主觀題題型探究-解讀《理水》
- 物流營(yíng)銷(第四版) 課件 第一章 物流營(yíng)銷概述
評(píng)論
0/150
提交評(píng)論