Apriori算法優(yōu)化及其在挖掘?qū)W生成績(jī)中的應(yīng)用_第1頁(yè)
Apriori算法優(yōu)化及其在挖掘?qū)W生成績(jī)中的應(yīng)用_第2頁(yè)
Apriori算法優(yōu)化及其在挖掘?qū)W生成績(jī)中的應(yīng)用_第3頁(yè)
Apriori算法優(yōu)化及其在挖掘?qū)W生成績(jī)中的應(yīng)用_第4頁(yè)
Apriori算法優(yōu)化及其在挖掘?qū)W生成績(jī)中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、摘要隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,人們采集數(shù)據(jù)的能力越來越高,信息快速膨脹,人們急需從這些數(shù)據(jù)中得到有用的知識(shí),于是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘的過程即是從大量的數(shù)據(jù)中獲取有趣知識(shí)的過程,而關(guān)聯(lián)規(guī)則作為它的一個(gè)重要分支,更是為決策過程提供良好的手段。本文則是圍繞著這一關(guān)聯(lián)規(guī)則這一主題進(jìn)行探索。首先簡(jiǎn)單介紹了關(guān)聯(lián)規(guī)則的定義、分類、挖掘過程,然后著重介紹了挖掘模型Apriori算法,并提出了一種基于事務(wù)壓縮的改進(jìn)算法,最后針對(duì)我們信管專業(yè)同學(xué)的成績(jī)這一成績(jī)作為原始數(shù)據(jù),在SPSS Clementine 這一挖掘平臺(tái)上進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,以獲取不同課程學(xué)習(xí)之間的一些關(guān)系。關(guān)鍵詞數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 Apri

2、ori算法 SPSS Clementine Abstract With the development of database technology, the capacity for data collection has advanced more and more quickly, inducing the rapid expansion of information, Data mining techniques emerged for people need to get interesting knowledge from these data. Data mining proce

3、ss is to obtain interesting knowledge from a large number of data. Association rules as an important branch of it, is to provide a good means of decision-making process. This article is centered on the theme of this association rules. First, a brief definition of association rules, classification an

4、d data mining process, and then focuses on the mining model Apriori algorithm, and proposes a transaction-based compression of the improved algorithm, and finally fuses our studentsscores as the original data, making data mining about association rule on the mining plat SPSS Clementine, to obtain a

5、number of different relationships between courses.Keywords Data Mining association Apriori SPSS Clementine不要?jiǎng)h除行尾的分節(jié)符,此行不會(huì)被打印目錄目錄摘要IAbstractI第1章 緒論31.1 課題背景31.1.1 學(xué)術(shù)背景31.1.2 商業(yè)背景31.2 研究?jī)?nèi)容4第2章 關(guān)聯(lián)規(guī)則52.1 基本概念52.1.1 定義52.1.2 分類52.1.3 過程62.2 Apriori算法62.2.1 算法思想62.2.2 實(shí)例分析62.3 Apriori算法改進(jìn)92.3.1 改進(jìn)思想92.3.2

6、 實(shí)例分析9第3章 數(shù)據(jù)挖掘在學(xué)生成績(jī)中的應(yīng)用113.1 數(shù)據(jù)挖掘工具簡(jiǎn)介-SPSS Clementine113.2 建模過程113.2.1 數(shù)據(jù)清洗與集成113.2.2 數(shù)據(jù)選擇與轉(zhuǎn)換123.2.3 數(shù)據(jù)挖掘123.3 模式評(píng)估與表示13附15第1章 緒論1.1 課題背景1.1.1 學(xué)術(shù)背景隨著數(shù)據(jù)庫(kù)技術(shù)的逐漸成熟和計(jì)算機(jī)網(wǎng)絡(luò)的迅速普及,人們采集數(shù)據(jù)的能力得到了極大的提高,導(dǎo)致全球范圍的信息急劇膨脹,為了對(duì)這些少量信息的隱藏知識(shí)進(jìn)行開發(fā),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘(Data Mining,DM),是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù)

7、,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者做出正確的決策。簡(jiǎn)單地說:數(shù)據(jù)挖掘就是指從大量數(shù)據(jù)中提取知識(shí)。從廣義上講,關(guān)聯(lián)分析是數(shù)據(jù)挖掘的本質(zhì)。既然數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)潛藏在數(shù)據(jù)背后的知識(shí),那么這種知識(shí)一定是反映不同對(duì)象之間的關(guān)聯(lián)。關(guān)聯(lián)知識(shí)反映一個(gè)事件和其他事件之間的依賴和關(guān)聯(lián)。數(shù)據(jù)庫(kù)中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,這種關(guān)聯(lián)是復(fù)雜的,有時(shí)是隱含的。關(guān)聯(lián)分析的目的就是要找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)信息。關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。這些關(guān)聯(lián)并不總是事先知道的,而是通過數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)分析獲得的。關(guān)聯(lián)規(guī)則挖掘是關(guān)聯(lián)知識(shí)發(fā)現(xiàn)的最常用方法,它挖掘發(fā)現(xiàn)大

8、量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。其目的就是從數(shù)據(jù)庫(kù)中挖掘出最低支持度和最低可信度的關(guān)聯(lián)規(guī)則。其中最為著名的是Agrawal等提出的Apriori及改進(jìn)算法, 它是一種挖掘布爾型關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。1.1.2 商業(yè)背景目前數(shù)據(jù)挖掘技術(shù)已在商業(yè)、金融業(yè)以及企業(yè)的生產(chǎn)。市場(chǎng)營(yíng)銷等方面都得到了廣泛的應(yīng)用,而在教育領(lǐng)域的應(yīng)用相對(duì)較少,而隨著高校招生的擴(kuò)展,在校生人數(shù)越來越多,學(xué)生成績(jī)分布越來越復(fù)雜,除了傳統(tǒng)的學(xué)生成績(jī)分析得到的一些結(jié)論外,還有一些不易察覺的信息隱含其中,因而把數(shù)據(jù)挖掘技術(shù)引入到學(xué)生成績(jī)分析中,可以找到影響學(xué)生成績(jī)的真實(shí)原因,有得有針對(duì)性地提高教學(xué)水平。1.2 研究?jī)?nèi)容本文的研究

9、工作主要源于以上內(nèi)容,主要目的是對(duì)數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則進(jìn)行深入研究,針對(duì)數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則經(jīng)典挖掘算法Apriori算法的缺陷,探討數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的優(yōu)化問題,給出一種優(yōu)化算法,并簡(jiǎn)單分析地對(duì)兩種算法的挖掘效率進(jìn)行比較分析,最后又利用數(shù)據(jù)挖掘工具SPSS Clementine針對(duì)具體的數(shù)據(jù)(即07級(jí)信管專業(yè)主要課程成績(jī))進(jìn)行關(guān)聯(lián)分析。論文的主要工作及結(jié)構(gòu)如下:1. 課題簡(jiǎn)介。簡(jiǎn)單介紹了研究課題的背景和研究?jī)?nèi)容。2. 關(guān)聯(lián)規(guī)則分析。簡(jiǎn)單介紹了關(guān)聯(lián)規(guī)則基本概念的基礎(chǔ)上,引出經(jīng)典算法Apriori算法,在介紹算法思想的基礎(chǔ)上,通過一個(gè)具體實(shí)例來演示算法的挖掘過程,然后分析算法的優(yōu)缺點(diǎn),提出其性能瓶

10、頸。3. Apriori算法改進(jìn)。主要針對(duì)事務(wù)壓縮,即及時(shí)刪除事務(wù)數(shù)組中的無效事務(wù),減少掃描的事務(wù)數(shù),而且將所需要的數(shù)據(jù)庫(kù)表事先映射到內(nèi)存中,那么在以后的掃描中就不用再都設(shè)計(jì)部數(shù)據(jù)庫(kù),從而提高效率。4. 數(shù)據(jù)挖掘工具的應(yīng)用。使用數(shù)據(jù)挖掘工具SPSS Clementine 結(jié)合實(shí)際教學(xué)數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘,得出挖掘結(jié)果,并針對(duì)挖掘結(jié)果進(jìn)行分析,得到對(duì)教學(xué)有幫助的信息,并對(duì)挖掘過程中存在的問題進(jìn)行分析。第2章 關(guān)聯(lián)規(guī)則2.1 基本概念2.1.1 定義設(shè) I=i1,i2 ,im是項(xiàng)的集合。記D為交易T的集合,這里交易T是項(xiàng)的集合,并且TI。對(duì)應(yīng)每一個(gè)交易有唯一的標(biāo)識(shí),如交易號(hào),記作TID。設(shè)X是一個(gè)I

11、中項(xiàng)的集合,如果XT,那么稱交易T包X。項(xiàng)的集合稱為項(xiàng)集。包含k個(gè)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集。項(xiàng)集的出現(xiàn)頻率是指包含該項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱為項(xiàng)集的頻率或支持度計(jì)數(shù)。一個(gè)關(guān)聯(lián)規(guī)則是形如XY 的蘊(yùn)涵式,這里XI,YI,并且XY=。規(guī)則 XY在交易數(shù)據(jù)D中的支持度(support)是交易集中同時(shí)包含 X和Y的交易數(shù)與所有交易數(shù)之比,記為support(XY),即:規(guī)則XY 在交易集D中的置信度(confidence)是指包含X和Y的交易數(shù)與包含X的交易數(shù)之比,記為confidence(XY),即:如果不考慮關(guān)聯(lián)規(guī)則的支持度和置信度,那么在事務(wù)數(shù)據(jù)庫(kù)中存在無窮多的關(guān)聯(lián)規(guī)則。事實(shí)上,人們一般只對(duì)滿足一定的支持度

12、和置信度的關(guān)聯(lián)規(guī)則感興趣,同時(shí)滿足最小支持度(min_sup)和最小置信度(min_conf)的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。因此,為了挖掘出有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)閾值:最小支持度和最小置信度。前者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度,它表示了一組物品集在統(tǒng)計(jì)意義上的需滿足的最低程度:后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小置信度,它反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。2.1.2 分類根據(jù)不同的標(biāo)準(zhǔn),關(guān)聯(lián)規(guī)則可以有以下幾種分類方法:1根據(jù)規(guī)則所處理的類型值,可以分為布爾類型和量化類型。2.根據(jù)規(guī)則中涉及的數(shù)據(jù)維數(shù),可以分為單維和多維的關(guān)聯(lián)規(guī)則。3.根據(jù)規(guī)則集所涉及的抽象層,可以分為單層或多層關(guān)聯(lián)規(guī)則。

13、2.1.3 過程關(guān)聯(lián)規(guī)則挖掘的任務(wù)就是在事務(wù)數(shù)據(jù)庫(kù)D中找出具有用戶給定的最小支持度min_sup和最小置信度min_conf的強(qiáng)關(guān)聯(lián)規(guī)則。步驟如下:1. 根據(jù)最小支持度閾值找出數(shù)據(jù)集D所有頻繁項(xiàng)目集;2. 根據(jù)頻繁項(xiàng)所有頻繁項(xiàng)目集和最小置信度閾值產(chǎn)生所有關(guān)聯(lián)規(guī)則。理論依據(jù)如下:因?yàn)?所以 如果頻繁項(xiàng)集l的第一個(gè)非空子集s滿足:那么 產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:2.2 Apriori算法2.2.1 算法思想該算法是一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。它利用頻繁項(xiàng)集性質(zhì),用逐層搜索的迭代方法來找出所有的頻繁項(xiàng)集。首先,找出頻繁 1-項(xiàng)集的集合,該集合記作 L1。L1用于找頻繁 2-項(xiàng)集的集合 L2,而 L2用

14、于找 L3,如此下去,直到不能找到頻繁 k-項(xiàng)集為止。在第k次循環(huán)中,先產(chǎn)生候選 k項(xiàng)集的集合 Ck,Ck的項(xiàng)集是用來產(chǎn)生頻繁項(xiàng)集的候選集。Ck 中的每個(gè)元素在數(shù)據(jù)庫(kù)中根據(jù)支持度計(jì)數(shù)進(jìn)行驗(yàn)證,決定是否加入 Lk。2.2.2 實(shí)例分析下面給出一個(gè)具體的實(shí)例來說明Apriori算法的挖掘過程,事務(wù)數(shù)據(jù)庫(kù)如表2-1所示:表2-1 事務(wù)數(shù)據(jù)庫(kù)TIDI1 I2 I3I4 I5 28191809191T38267869293T48982786988T57066637288T67164777385T78295657075T87261615570T96969696375其中I1:C語(yǔ)

15、言 I2:C+ I3:離散數(shù)學(xué) I4:操作系統(tǒng)I5:計(jì)算機(jī)組成原理 首先按照一定的標(biāo)準(zhǔn)將原始成績(jī)進(jìn)行轉(zhuǎn)換,即將每個(gè)成績(jī)轉(zhuǎn)化布爾類型(0,1數(shù)據(jù)),原則為高于該科成績(jī)平均分的為1,低于的為0,從而得到一個(gè)新的數(shù)據(jù)庫(kù)D,轉(zhuǎn)換后的數(shù)據(jù)如表2-2所示:表2-2 事務(wù)數(shù)據(jù)庫(kù)TIDI1 I2 I3I4 I5 T111111T211111T310111T411101T500001T600101T711000T800000T900000在上數(shù)據(jù)庫(kù)D中利用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,事務(wù)數(shù)據(jù)庫(kù)的事務(wù)數(shù)為9,min_sup=4。利用min_sup對(duì)數(shù)據(jù)庫(kù)D進(jìn)行挖掘,最大頻繁項(xiàng)集的產(chǎn)生過程如下:1. 掃描

16、數(shù)據(jù)庫(kù)D,得到候選1-項(xiàng)集C1并計(jì)算各個(gè)項(xiàng)集的支持度(表2-3)表2-3 候選1-項(xiàng)集C1項(xiàng)集支持度計(jì)數(shù)I15I24I35I43I562. 剪枝,將C1中支持度小于給定值4的項(xiàng)剪去,得到1-頻繁項(xiàng)集L1(表2-4)表2-4 1-頻繁項(xiàng)集L1項(xiàng)集支持度計(jì)數(shù)I15I24I35I563. 利用Apriori算法進(jìn)行自連接操作,得到C2,,掃描數(shù)據(jù)庫(kù)D得到各個(gè)候選2-項(xiàng)集的支持度(表2-5)表2-5 候選2-項(xiàng)集C2項(xiàng)集支持度計(jì)數(shù)I1,I24I1,I34I1,I54I2,I33I2,I53I3,I554. 剪枝,將C2中支持度小于給定值4的項(xiàng)剪去,得到2-頻繁項(xiàng)集L2(表2-6)表2-6 2-頻繁項(xiàng)集

17、L2項(xiàng)集支持度計(jì)數(shù)I1,I24I1,I34I1,I54I3,I555. 利用Apriori算法進(jìn)行自連接操作,得到C3,掃描數(shù)據(jù)庫(kù)D得到各個(gè)候選3-項(xiàng)集的支持度(表2-7)表2-7 候選3-項(xiàng)集C3項(xiàng)集支持度計(jì)數(shù)I1,I2,I33I1,I2,I53I1,I3,I54I1,I2,I3,I536. 剪枝,將C3中支持度小于給定值4的項(xiàng)剪去,得到3-頻繁項(xiàng)集L3(表2-8)表2-8 3-頻繁項(xiàng)集L3項(xiàng)集支持度計(jì)數(shù)I1,I3,I547. 結(jié)束,頻繁項(xiàng)集L3I1,I3,I5即為C語(yǔ)言,離散數(shù)學(xué),計(jì)算機(jī)組成原理2.3 Apriori算法改進(jìn)2.3.1 改進(jìn)思想由于當(dāng)一個(gè)事務(wù)中不包含長(zhǎng)度為k的頻繁項(xiàng)集時(shí),則

18、必然不包含長(zhǎng)度為k+1-頻繁項(xiàng)集;而任意一個(gè)k-項(xiàng)集的支持度與規(guī)模小于它的事務(wù)無關(guān)。所以,在生成k-候選頻繁項(xiàng)集時(shí),就不用再掃描字段長(zhǎng)度小于k的記錄,以便減少掃描的數(shù)據(jù)量。那么,我們可以另建一張輔助表F(以矩陣形式存儲(chǔ)),用于存儲(chǔ)這些信息,包含該記錄的編號(hào)和它的字段長(zhǎng)度。在隨后的過程中,及時(shí)刪除其中不可能出現(xiàn)在候選項(xiàng)集中的記錄,即字段長(zhǎng)度不大于將要生成的k-頻繁項(xiàng)集k值,而且也不被包含在頻繁項(xiàng)集中的記錄。在每次的掃描時(shí),只掃描輔助表中存在的記錄,不需要每條記錄都掃描。改進(jìn)算法從兩個(gè)方面提高了運(yùn)行效率:1. 將要查詢的數(shù)據(jù)表取出放入內(nèi)存中,存儲(chǔ)為矩陣E,從而使以后每次掃描時(shí)不需要再訪問數(shù)據(jù)庫(kù),而

19、是直接訪問內(nèi)存,從而使速度增快;2. 通過輔助表F,減少訪問表E中記錄的無效記錄,從而使訪問次數(shù)減少。2.3.2 實(shí)例分析根據(jù)上一節(jié)的數(shù)據(jù)庫(kù),改進(jìn)算法執(zhí)行過程如下:1. 掃描數(shù)據(jù)庫(kù)D,生成數(shù)據(jù)表E(表2-2),將其放入內(nèi)存中,同時(shí)計(jì)算每條記錄的規(guī)模,生成初始輔助表F1表2-9 輔助表F1TID字段長(zhǎng)度T15T25T34T44T51T62T72T80T902. 根據(jù)給定值min_sup得到1-頻繁項(xiàng)集L1(表2-4)3. 修改,將F1中字段長(zhǎng)度不大于1的記錄刪除(刪除T5,T8,T9)。如果該記錄包含在頻繁項(xiàng)集中,則不從表F1中刪除,得表2-10表2-10 輔助表F2TID字段長(zhǎng)度T15T25T

20、34T44T62T724. L1通過連接產(chǎn)生候選頻繁2-項(xiàng)集C2(表2-5),通過掃描輔助表F2和E得到C2中各個(gè)項(xiàng)集的支持度,獲得2-頻繁項(xiàng)集L2(表2-6)。5. 修改,將F2中字段長(zhǎng)度不大于2的記錄刪除(刪除T6,T7),得表2-11表2-11 輔助表F3TID字段長(zhǎng)度T15T25T34T446. L2通過連接產(chǎn)生候選頻繁3-項(xiàng)集C2(表2-7),通過掃描輔助表F3和E得到C3中各個(gè)項(xiàng)集的支持度,獲得3-頻繁項(xiàng)集L3(表2-8)。7. 結(jié)束,得到的所有頻繁項(xiàng)集,得表2-12表2-12 頻繁項(xiàng)集項(xiàng)集支持度計(jì)數(shù)I1,I24I1,I34I1,I54I3,I55I1,I3,I54第3章 數(shù)據(jù)挖掘

21、在學(xué)生成績(jī)中的應(yīng)用3.1 數(shù)據(jù)挖掘工具簡(jiǎn)介-SPSS ClementineClementine 翻譯成中文是克萊門氏小柑橘,它是ISL(Integral Solutions Limited)公司開發(fā)的數(shù)據(jù)挖掘工具平臺(tái)。1999年SPSS公司收購(gòu)了ISL公司,對(duì)Clementine產(chǎn)品進(jìn)行重新整合和開發(fā),現(xiàn)在Clementine已經(jīng)成為SPSS公司的又一亮點(diǎn)。Clementine功能特別強(qiáng)大,它可以進(jìn)行分類和預(yù)測(cè)、聚類、關(guān)聯(lián)分析、時(shí)序分析等功能,提供神經(jīng)網(wǎng)絡(luò)、決策樹與回歸樹、線性回歸、自組織網(wǎng)絡(luò)、快速聚類、二次聚類、主成分分析和因子分析等多種方法。它具有交互式可視化的用戶界面,幾乎所有的操作都可

22、以在窗口下發(fā)現(xiàn),而不需要編程來完成。具備開發(fā)的數(shù)據(jù)庫(kù)接口,支持定界或等寬格式文本文件、SPSS文件、SAS文件和多種類型的關(guān)系數(shù)據(jù)庫(kù)。它提供兩種建立模型的方式,在簡(jiǎn)單模式下,用戶無需做任何設(shè)定,系統(tǒng)會(huì)按照默認(rèn)的設(shè)置;在專家模式下,用戶則可以根據(jù)自己的需要對(duì)模型中的各個(gè)參數(shù)進(jìn)行適當(dāng)?shù)恼{(diào)節(jié),從而使模型達(dá)到最佳的效果。而且它還具有很好的發(fā)布功能。3.2 建模過程目前,大多數(shù)高校的教學(xué)計(jì)劃均是由教學(xué)院長(zhǎng)編寫,他們憑借多年的教學(xué)經(jīng)驗(yàn),再經(jīng)合有關(guān)規(guī)定,來決定給學(xué)生開哪些,以及課程順序。但是這不免會(huì)有一定的主觀性,忽略了多年來積累下來的學(xué)生成績(jī)這一寶貴資源的重要性。我們可以對(duì)學(xué)生各科成績(jī)進(jìn)行數(shù)據(jù)挖掘,找到這

23、些學(xué)科之間的關(guān)聯(lián)規(guī)則,客觀地了解它們之間的關(guān)系,以有助于今后教學(xué)計(jì)劃的編寫。以下就對(duì)于我們信管專業(yè)前五個(gè)學(xué)期的成績(jī)建模進(jìn)行數(shù)據(jù)挖掘。3.2.1 數(shù)據(jù)清洗與集成1. 數(shù)據(jù)清洗:消除噪聲和不一致的數(shù)據(jù)。 對(duì)于成績(jī)?nèi)鄙俚挠涗洶丛摽瞥煽?jī)的平均分記,對(duì)于成績(jī)多的記錄按第一次成績(jī)記。2. 數(shù)據(jù)集成:多種數(shù)據(jù)源組合在一起。本次試驗(yàn)采用單一數(shù)據(jù)源,只需要將各個(gè)學(xué)期的成績(jī)集合在一個(gè)文件(*.xls)里即可。結(jié)果如下圖所示:圖3-1 原始數(shù)據(jù)3.2.2 數(shù)據(jù)選擇與轉(zhuǎn)換3. 數(shù)據(jù)選擇:從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù)。 對(duì)于這次試驗(yàn),學(xué)科的學(xué)分、學(xué)生的學(xué)號(hào)、姓名對(duì)于數(shù)據(jù)分析并沒有什么作用,而我們信管專業(yè)是綜合性專

24、業(yè),我們所學(xué)的課程大致可以分為基礎(chǔ)課程、管理課程和計(jì)算機(jī)課程,本次試驗(yàn)主要針對(duì)計(jì)算機(jī)方面的課程進(jìn)行分析,所以,在數(shù)據(jù)源中只保留這方面的課程成績(jī)。4. 數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)變換成適合挖掘的形式。Apriori算法是布爾類型的關(guān)聯(lián)規(guī)則算法,所以要將連續(xù)的學(xué)生成績(jī)變?yōu)殡x散的布爾類型數(shù)據(jù)(0,1)。由于各個(gè)科目的之間評(píng)分標(biāo)準(zhǔn)不一致,所以本次試驗(yàn)的轉(zhuǎn)換方式為如果成績(jī)大于該科的平均分,則為1;小于該科的平均分,則為0。結(jié)果如下圖所示:圖3-2 數(shù)據(jù)源3.2.3 數(shù)據(jù)挖掘5. 數(shù)據(jù)挖掘:使用智能方法提取數(shù)據(jù)模式。步驟:Ø 將數(shù)據(jù)源(信管成績(jī).xls)導(dǎo)入到流中;Ø 對(duì)數(shù)據(jù)源建立類型:將類型設(shè)置

25、為離散型,將方向設(shè)置為兩者;Ø 導(dǎo)入Apriori模型,將前項(xiàng)、后項(xiàng)設(shè)置為全部項(xiàng),最低支持度設(shè)為35%,最低置信度設(shè)為85%,最大前項(xiàng)數(shù)設(shè)為3;模型圖:圖3-2 模型圖執(zhí)行結(jié)果:圖3-4 數(shù)據(jù)挖掘結(jié)果13.3 模式評(píng)估與表示6. 模式評(píng)估:根據(jù)某種興趣度度量,識(shí)別表示的真正有趣的模式。根據(jù)圖3-4的挖掘結(jié)果分析可得,有些課程之間雖然有很大的關(guān)聯(lián),如電子商務(wù)概論和計(jì)算機(jī)組成原理,但是它們之間實(shí)際上并沒有很密切的關(guān)系,一個(gè)偏于網(wǎng)絡(luò)應(yīng)用,一個(gè)偏于硬件組成,類似的還有IT項(xiàng)目管理與VB.NET之間。7. 知識(shí)表示:圖3-5 數(shù)據(jù)挖掘結(jié)果2(操作系統(tǒng)、VB.NET) 計(jì)算機(jī)組成原理 置信度為9

26、0.0%(VB.NET、JAVA) 計(jì)算機(jī)組成原理 置信度為90.0%(電子商務(wù)概論、VB.NET) 計(jì)算機(jī)組成原理 置信度為94.444%(JAVA、VB.NET) 操作系統(tǒng) 置信度為85.5%8. 分析: 由圖3-5分析得,C語(yǔ)言程序設(shè)計(jì)、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)和其它很多學(xué)科都有關(guān)系,所以,它們應(yīng)該做為基礎(chǔ)學(xué)科,較早開設(shè)。而JAVA、電子商務(wù)概論、C+和其它學(xué)科的聯(lián)系較少,JAVA和C+是比較深層次的學(xué)科,而電子商務(wù)概論是應(yīng)用型的,所以應(yīng)該較晚開設(shè)。而計(jì)算機(jī)實(shí)用基礎(chǔ)和其它學(xué)科的關(guān)聯(lián)很小,說明它的學(xué)習(xí)不太會(huì)影響其它學(xué)科的學(xué)習(xí),可能是由于隨著計(jì)算機(jī)的普及,大家在學(xué)習(xí)該課之前已基本掌握了它的內(nèi)容,所以,以后或許可以考慮不再開設(shè)此科目,以節(jié)約資源。 由圖3-4分析可得,編程語(yǔ)言的學(xué)習(xí)促進(jìn)同學(xué)對(duì)操作系統(tǒng)的學(xué)習(xí),而操作系統(tǒng)的學(xué)習(xí)促進(jìn)對(duì)計(jì)算機(jī)組成原理的學(xué)習(xí),這是因?yàn)殡S著大家知識(shí)的積累,越發(fā)想從根本上了解計(jì)算機(jī)的運(yùn)作。而計(jì)算機(jī)組成原理、JAVA、VB.NET是規(guī)則中后項(xiàng)主要的科目(14/15),可知它們受其它學(xué)科的影響較大,應(yīng)較晚開設(shè),而它們本身也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論