基于SPSS的信息類大學(xué)生成績(jī)的數(shù)據(jù)挖掘_第1頁
基于SPSS的信息類大學(xué)生成績(jī)的數(shù)據(jù)挖掘_第2頁
基于SPSS的信息類大學(xué)生成績(jī)的數(shù)據(jù)挖掘_第3頁
基于SPSS的信息類大學(xué)生成績(jī)的數(shù)據(jù)挖掘_第4頁
基于SPSS的信息類大學(xué)生成績(jī)的數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、應(yīng)用統(tǒng)計(jì)學(xué)課程設(shè)計(jì)報(bào)告名稱基于SPSS的信息類大學(xué)生成績(jī)的數(shù)據(jù)挖掘?qū)W 院:河南中醫(yī)信息技術(shù)學(xué)院專 業(yè):信息管理與信息系統(tǒng)班 級(jí):信管一班日 期:(提交日期): 2014/6/12摘要數(shù)據(jù)挖掘技術(shù)是信息技術(shù)研究的熱點(diǎn)問題之一.目前數(shù)據(jù)挖掘技術(shù)在商業(yè)、金等方面都得到了廣泛的應(yīng)用,而在教育領(lǐng)域的應(yīng)用較少,隨著高校招生規(guī)模的擴(kuò)大,在校學(xué)生成績(jī)分布越來越復(fù)雜,除了傳統(tǒng)成績(jī)分析得到的一些結(jié)論外,還有一些不易發(fā)現(xiàn)的信息隱含其中,因而把數(shù)據(jù)挖掘技術(shù)引入到學(xué)生成績(jī)分析中,有利于針對(duì)性地提高教學(xué)質(zhì)量.聚類分析是數(shù)據(jù)挖掘中的一個(gè)重要研究領(lǐng)域。它將數(shù)據(jù)對(duì)象分成為若干個(gè)簇,使得在同一個(gè)簇中的對(duì)象比較相似,而不同簇中的對(duì)

2、象差別很大.本論文就是運(yùn)用數(shù)據(jù)挖掘中的聚類分析學(xué)生成績(jī)的,利用學(xué)生在分專業(yè)前的各主要學(xué)科的成績(jī)構(gòu)成,對(duì)數(shù)據(jù)進(jìn)行選擇,預(yù)處理,挖掘分析等。運(yùn)用聚類算法分析學(xué)生對(duì)哪個(gè)專業(yè)的強(qiáng)弱選擇,從而為具有不同成績(jī)特征的同學(xué)在專業(yè)選擇及分專業(yè)后如何開展學(xué)習(xí)提供一定的參考意見.關(guān)鍵詞 聚類分析,學(xué)生成績(jī),就業(yè),K-means,1、 研究背景:隨著我國經(jīng)濟(jì)的發(fā)展,網(wǎng)絡(luò)已被應(yīng)用到各個(gè)行業(yè),人們對(duì)網(wǎng)絡(luò)帶來的高效率越來越重視,然而大量數(shù)據(jù)信息給人們帶來方便的同時(shí),也隨之帶來了許多新問題,大量數(shù)據(jù)資源的背后隱藏著許多重要的信息,人們希望能對(duì)其進(jìn)行更深入的分析,以便更好地利用這些數(shù)據(jù),從中找出潛在的規(guī)律。那么,如何從大量的數(shù)

3、據(jù)中提取并發(fā)現(xiàn)有用信息以提供決策的依據(jù),已成為一個(gè)新的研究課題。 高校是教學(xué)和科研的重要基地,也是培養(yǎng)人才的重要場(chǎng)所,教學(xué)管理工作當(dāng)中的學(xué)生成績(jī)分析是高校管理工作的一個(gè)重要組成部分,也是衡量高校管理水平的依據(jù)。從目前來看.各高校隨著招生規(guī)模的擴(kuò)大,信息量大幅度增加,學(xué)校運(yùn)行著各類管理系統(tǒng),存在著各類數(shù)據(jù)庫,如有成績(jī)管理,學(xué)籍管理等。這些系統(tǒng)積累了大量的數(shù)據(jù),在很大程度上提高了工作的效率,但在這樣的教學(xué)管理系統(tǒng)中,學(xué)校的管理人員、教師和學(xué)生都只能通過查看,或者簡(jiǎn)單的排序以及統(tǒng)計(jì)功能來獲得數(shù)據(jù)表面的信息,由于缺乏信息意識(shí)和相應(yīng)的技術(shù),隱藏在這些大量數(shù)據(jù)中的信息一直沒有得到充分應(yīng)用。如何對(duì)這些數(shù)據(jù)進(jìn)

4、行重新分析利用,在原基礎(chǔ)上擴(kuò)充高校教學(xué)管理系統(tǒng)的功能,從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,提高學(xué)校管理的決策性,是很多高校正在考慮的問題。因此,對(duì)學(xué)生成績(jī)數(shù)據(jù)進(jìn)行深入挖掘分析,找出影響學(xué)生學(xué)習(xí)的各種潛在的因素,將會(huì)促進(jìn)學(xué)校開展更加具有針對(duì)性的個(gè)性化教育,同時(shí)營造一種新的教學(xué)管理模式,進(jìn)一步促進(jìn)教學(xué)管理水平的提高2、 主要原理和思想:聚類分析就是將一組數(shù)據(jù)分組,使其具有最大的組內(nèi)相似性和最小的組間相似性。簡(jiǎn)單的說就是達(dá)到不同聚類中的數(shù)據(jù)盡可能不同,而同一聚類中的數(shù)據(jù)盡可能相似,它與分類不同,分類是對(duì)于目標(biāo)數(shù)據(jù)庫中存在哪些類這一信息是知道的,所要做的就是將每一條記錄分別屬于哪一類標(biāo)記出來;而聚類是在預(yù)先不知

5、道目標(biāo)數(shù)據(jù)庫到底有多少類的情況下,希望將所有的記錄組成不同的簇或者說“聚類”,并且使得在這種分類情況下,以某種度量為標(biāo)準(zhǔn)的相似性,在同一聚類之間最小化,而在不同聚類之間最大化。事實(shí)上,聚類算法中很多算法的相似性都基于距離而且由于現(xiàn)實(shí)數(shù)據(jù)庫中數(shù)據(jù)類型的多樣性,關(guān)于如何度量?jī)蓚€(gè)含有非數(shù)值型字段的記錄之間的距離的討論有很多,并提出了相應(yīng)的算法。聚類分析的算法可以分為以下幾類:劃分方法、層次方法等。2.1聚類分析原理方法:在數(shù)據(jù)挖掘技術(shù)中,聚類分析主要有以下幾種方法。 (1)劃分法(Partitioning Methods) 劃分法給定一個(gè)有N個(gè)元組或者記錄的數(shù)據(jù)集,構(gòu)造K個(gè)分組,每一個(gè)分組就代表一個(gè)

6、聚簇,K N。而且這K個(gè)分組滿足下列條件:每個(gè)組至少包括一個(gè)對(duì)象,每個(gè)對(duì)象必須屬于且只屬于一個(gè)組.對(duì)于給定的K,算法首先給出一個(gè)初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一組中的記錄越近越好,而不同分組中的記錄越遠(yuǎn)越好。使用這個(gè)基本思想的算法有:K均值算法、K中心點(diǎn)算法、CLARANS算法。K均值算法一般只能在簇的平均值被定義的情況下才能被使用,這對(duì)于涉及有分類屬性的數(shù)據(jù)的應(yīng)用可能會(huì)顯得不適用,該方法不易發(fā)現(xiàn)非凸面形狀的簇和大小差別很大的簇;K中心點(diǎn)算法在中心點(diǎn)的計(jì)算過程中需要反復(fù)迭代計(jì)算,其計(jì)算量很大,這對(duì)于對(duì)象及劃分?jǐn)?shù)的

7、值較大時(shí),其計(jì)算代價(jià)相當(dāng)高。(2)層次法(Hierarchical Methods) 層次法就是把數(shù)據(jù)庫分成多個(gè)層次,然后對(duì)不同層次的數(shù)據(jù)采用劃分聚類。輸出的是一棵層次化的分類樹,層次的方法可以分為凝聚的和分裂的.凝聚的方法也稱為自底向上的方法,一開始將每個(gè)對(duì)象作為單獨(dú)的一個(gè)組,然后相繼地合并相近的對(duì)象或組,直到所有的組合并為一個(gè)(層次的最上層),或者達(dá)到一個(gè)終止條件.分裂的方法,也稱為自頂向下的方法,一開始將所有的對(duì)象置于一個(gè)類中。在迭代的每一步中,一個(gè)類被分裂為更小的類.直到最終每個(gè)對(duì)象在單獨(dú)的一個(gè)類中,或者達(dá)到一個(gè)終止條件.3。數(shù)據(jù)情況介紹: 3。1數(shù)據(jù)信息:我院某年級(jí)學(xué)生大學(xué)四年全部實(shí)

8、際課程數(shù)據(jù),分計(jì)科、信管1、信管2三個(gè)班級(jí) 3。2數(shù)據(jù)凈化數(shù)字凈化據(jù)源中不正確,不完善等不可能達(dá)到數(shù)據(jù)挖掘質(zhì)量要求的數(shù)據(jù),從而提高數(shù)據(jù)的質(zhì)量得到更正的數(shù)據(jù)挖掘結(jié)果。研究所針對(duì)的學(xué)生成績(jī)數(shù)據(jù)中,遇到的主要是空值問題。對(duì)此,本研究采用了兩種處理 方法若該學(xué)生有三門及以上成績(jī)?yōu)榭眨瑒t將其作為異常點(diǎn)從數(shù)據(jù)除去;若該生有兩門及以下課程成績(jī)?yōu)榭?。則取所在班級(jí)對(duì)應(yīng)課程的平均成績(jī)來代替空值。4。分析過程:第一步,啟動(dòng)并進(jìn)入系統(tǒng),數(shù)據(jù)導(dǎo)入系統(tǒng)。第二步,進(jìn)入系統(tǒng)分析功能,在“分析”菜單“分類(F)”中選擇K-均值聚類(K)命令。第三步,在彈出的K-均值聚類分析對(duì)話框中,從對(duì)話框左側(cè)的變量列表中選擇“醫(yī)院管理學(xué),軟

9、件工程,”等變量,使之添加到右邊的變量(V)框中,聚類數(shù)寫為4,方法選為迭代與分類如下圖.第四步,單擊迭代按鈕選擇系統(tǒng)默認(rèn)值(右圖)。第五步,單擊保存按鈕選擇聚類成員(C)與聚類中心的距離(D)第六步,單擊按鈕,自動(dòng)完成分析二:聚類分析結(jié)果由上圖可知信管一班54名學(xué)生分成四類類別129憂53。7類別24中7.4類別320良37類別41差1。9三:同理計(jì)科,信管二班分析結(jié)果計(jì)科:導(dǎo)入數(shù)據(jù)計(jì)科數(shù)據(jù)分析: 1。聚類成員表2。最終聚類中心表3.每個(gè)中心的案例數(shù)表由上圖可知計(jì)科72名學(xué)生分成四類類別124良33。3%類別236憂50類別31差1。4類別411中15。3信管二班導(dǎo)入數(shù)據(jù):信管二班數(shù)據(jù)分析:

10、1.聚類成員表2.最終聚類中心表3。每個(gè)中心的案例數(shù)表由上圖可知信管二班53名學(xué)生分成四類類別113中24。5類別22差3。8類別324良45。3類別414優(yōu)26。4三對(duì)三個(gè)班級(jí)進(jìn)行比較分析:信管一班優(yōu)秀率最高53.7說明該班成績(jī)較為突出,信管二班良好率45。3三班最高,說明信管二班比較穩(wěn)定,整體成績(jī)比較均勻,說明班級(jí)學(xué)風(fēng)較好。計(jì)科優(yōu)秀率,良好率基本都處于第二位,說明該班潛力較大,應(yīng)該加重對(duì)該班的重視,分類有針對(duì)性的進(jìn)行指導(dǎo)。四:對(duì)信管一班分類結(jié)果詳細(xì)分析:學(xué)生聚類后的各門課程平均成績(jī)比較分析表A第一類,B第二類,C第三類,D第四類,F(xiàn)平均值由學(xué)生譜系聚類圖及聚類后的各門課程平均成績(jī)比較分析表

11、可知如果將54名學(xué)生(1-54為學(xué)生編號(hào))分為兩類測(cè)2,4,5,38,44屬于一組,該類總體成績(jī)較高,但是有掛科的現(xiàn)象,如果將54名學(xué)生分三類與分為四類區(qū)別不明顯,我們以分四類進(jìn)行分析,則第一類1,7,8,9,11,13,16,17,20,23,24,25,26,27,31,32,33,34,35,36,37,39,42,43,45,46,47,49,5129人課程總平均分80。7分,各門平均成績(jī)都是最高分,綜合排名都在前30屬學(xué)習(xí)成績(jī)優(yōu)秀者,第二類為3,6,10,12,14,15,18,19,21,22,28,29,30,40,41,48,50,52,53,5420人課程平均分76。5分與全

12、班總平均分78。7相差有點(diǎn)大,但沒有掛科的,綜合排名30至50名間,屬學(xué)習(xí)成績(jī)良好者;第三類2,5,38,444人課程總平均成績(jī)79。7分比全班總平均略高但是有掛科的行為,綜合排名在前50屬學(xué)習(xí)中等者,第四類4一人課程平均分80。5總體成績(jī)較高感覺有偏科現(xiàn)象造成排名仍在最后.分析結(jié)果:眾所周知, 高校往往依據(jù)學(xué)生綜合考試成績(jī)來評(píng)定學(xué)生優(yōu)良中差, 如果學(xué)生要想在評(píng)比中排名靠前, 如第一類學(xué)生, 就必須將有限的精力分配到所開設(shè)的各門課程中, 不論是否愿意或是否有興趣, 至少是在所開的必修課程中他們必須花費(fèi)同樣的精力去提高考試成績(jī), 這就會(huì)造成這類學(xué)生無法有意識(shí)或沒有更多的精力來培養(yǎng)適應(yīng)社會(huì)的能力.

13、根據(jù)筆者對(duì)第一類學(xué)生的跟蹤調(diào)查, 畢業(yè)時(shí)第一類遲遲就不了業(yè)的學(xué)生占了相當(dāng)比重。為避免“高分低能", 提高學(xué)生在激烈的市場(chǎng)競(jìng)爭(zhēng)中的生存與發(fā)展能力, 學(xué)校應(yīng)針對(duì)這類學(xué)生學(xué)習(xí)自覺且文化基礎(chǔ)好, 多加強(qiáng)對(duì)他們的社會(huì)實(shí)踐能力和各種技能的訓(xùn)練, 多為這類學(xué)生提供一些在課堂內(nèi)外鍛煉的機(jī)會(huì), 發(fā)現(xiàn)他們?cè)谄渌矫娴膬?yōu)勢(shì), 并加以適當(dāng)?shù)匾龑?dǎo), 盡量把這類學(xué)生培養(yǎng)成通才.第三類,第四類學(xué)生在一方面比較擅長,有自己的目標(biāo)自己的專長。學(xué)校針對(duì)這類學(xué)生加強(qiáng)對(duì)其興趣愛好的引導(dǎo), 使其向?qū)2欧较虬l(fā)展, 對(duì)其不感興趣的課程應(yīng)盡量寬松對(duì)待, 使其有足夠的精力從事其努力的方向。第二類學(xué)生文化基礎(chǔ)一般, 自我管理比上述兩類

14、學(xué)生差, 學(xué)習(xí)目的不明確, 不論在課程學(xué)習(xí)還是在其他方面表現(xiàn)不積極、不突出, 付出的努力還不夠。學(xué)校針對(duì)這三類學(xué)生, 通過加強(qiáng)輔導(dǎo)員和任課教師與學(xué)生的相互交流找出其原因, 挖掘其潛力所在, 提高學(xué)生的自信心和積極性,因材施教, 努力把學(xué)生培養(yǎng)成才。一 :用對(duì)學(xué)生學(xué)習(xí)狀況進(jìn)行差異分析用對(duì)學(xué)生學(xué)習(xí)狀況進(jìn)行差異分析的步驟是:第一步,啟動(dòng)并進(jìn)入系統(tǒng),數(shù)據(jù)導(dǎo)入系統(tǒng).第二步,進(jìn)入系統(tǒng)分析功能,在“”菜單“”中選擇命令。第三步,在彈出的對(duì)話框中,從對(duì)話框左側(cè)的變量列表中選擇“醫(yī)院管理學(xué),軟件工程,”等變量,使之添加到右邊的()框中.第四步,確定變量的型聚類,選擇復(fù)選框:。第五步,單擊按鈕,選擇聚類方法:類間

15、平均法,即兩類距離為兩類元素兩兩之間平均平方距離.在欄目中選皮爾遜相關(guān)系數(shù)():第六步,單擊按鈕,選中項(xiàng),并選擇縱向()輸出聚類全過程()的冰柱圖。第七步,顯示凝聚狀態(tài)表:?jiǎn)螕舭粹o,選中和項(xiàng),選中中的項(xiàng),并在其后文本框中輸入,顯示將變量分成類時(shí)各個(gè)變量的歸屬情況。第八步,單擊按鈕,自動(dòng)完成分析過程。分析結(jié)果與建議:(一) 輸出層次聚類分析各變量的距離矩陣(見下圖)。從中可以看出各個(gè)變間的距離,并按“距離"的長短進(jìn)行分類(二)凝聚狀態(tài)表表格的第一列表示聚類分析的第幾步;第二列、第三列表示聚類中哪兩個(gè)樣本或小類聚成一類;第四列是相應(yīng)的樣本距離或小類距離;第五列、第六列表示本步聚類中,參與

16、聚類的是樣本還是小類.表示樣本,數(shù)據(jù)(非)表示由第幾步聚類產(chǎn)生的小類參與步聚類;第七列表示本步聚類的結(jié)果將在下面聚類的第幾步中用到。(二)是變量層次聚類分析聚成3個(gè)類時(shí)變量的類歸屬情況(三)對(duì)群集成員進(jìn)行總結(jié)分類并定義就業(yè)指導(dǎo)課,偏于文職嵌入系統(tǒng),概率論與數(shù)理統(tǒng)計(jì),Web應(yīng)用開發(fā),Web數(shù)據(jù)庫應(yīng)用,操作系統(tǒng),計(jì)算機(jī)網(wǎng)絡(luò),計(jì)算機(jī)組成原理,數(shù)據(jù)接構(gòu),數(shù)據(jù)庫原理,模擬電子技術(shù),數(shù)字邏輯,電路基礎(chǔ),醫(yī)院信息系統(tǒng),JAVA程序設(shè)計(jì)基礎(chǔ),計(jì)算機(jī)網(wǎng)絡(luò)安全,匯編語言,JAVA網(wǎng)絡(luò)編程,LINUX操作系統(tǒng),職業(yè)生涯規(guī)劃,軍論,思修,毛概,馬列,體育,英語,數(shù)學(xué),醫(yī)院管理學(xué),線性代數(shù),C程序設(shè)計(jì),計(jì)算機(jī)程序設(shè)計(jì),

17、微機(jī)原理與接口技術(shù),軟件工程偏于工程類 計(jì)算機(jī)組裝與維護(hù)硬件方面(四)由層次聚類分析的冰柱圖(見下圖),可以非常清楚地看到各變量按類歸屬的情況.(五 )結(jié)果分析:根據(jù)上述分析所得到的三個(gè)分類以及我們分別對(duì)每個(gè)類的定義,可以看到,一類學(xué)生在“計(jì)算機(jī)組裝與維護(hù)”方面學(xué)習(xí)能力比較強(qiáng),建議了解計(jì)算機(jī)硬件的相關(guān)原理,熟悉計(jì)算機(jī)的結(jié)構(gòu), 熟練使用各種檢測(cè)和維修工具,對(duì)主板、液晶顯示器、筆記本故障進(jìn)行定位及排除的復(fù)合型技能人才為目標(biāo). 畢業(yè)后主要從事計(jì)算機(jī)硬件組裝、管理、 維護(hù)、維修等工作。具體工作包括:1.計(jì)算機(jī)維護(hù)人員; 2.機(jī)房管理員;3。硬件維護(hù)維修;4。電腦售后服務(wù);5。 維護(hù)管理硬件。 一類學(xué)生

18、具有一定的管理思想,善于指導(dǎo)可以從事管理教育培訓(xùn),因而由技術(shù)人才轉(zhuǎn)到管理類人才不失為一個(gè)很好的選擇,做一些文職。類外在一類學(xué)生,形象思維能力和動(dòng)手能力較強(qiáng),他們比較適合從事本專業(yè)的工程技術(shù)工作建議他們進(jìn)一步打好基礎(chǔ),深入掌握實(shí)際中的一些技巧,以便將來能成為本專業(yè)的技術(shù)骨干和專家。網(wǎng)絡(luò)工程方向就業(yè)前景良好,學(xué)生畢業(yè)后可以到國內(nèi)外大型電信服務(wù)商、大型通信設(shè)備制造企業(yè)進(jìn)行技術(shù)開發(fā)工作,也可以到其他企事業(yè)單位從事網(wǎng)絡(luò)工程領(lǐng)域的設(shè)計(jì)、維護(hù)、等工作。 2、軟件工程方向 就業(yè)前景十分廣闊,學(xué)生畢業(yè)后可以到國內(nèi)外眾多軟件企業(yè)、國家機(jī)關(guān)以及各個(gè)大、中型企、事業(yè)單位的信息技術(shù)部門、教育部門等單位從事軟件工程領(lǐng)域的技術(shù)開發(fā)、科研等工作。也可以繼續(xù)攻讀計(jì)算機(jī)科學(xué)與技術(shù)類專業(yè)研究生和軟件工程碩士。 3、通信方向 學(xué)生畢業(yè)后可到信息產(chǎn)業(yè)、財(cái)政、金融、郵電、交通、國防、大專院校和科研機(jī)構(gòu)從事通信技術(shù)和電

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論