數(shù)據(jù)挖掘在數(shù)據(jù)分析中的應(yīng)用_第1頁(yè)
數(shù)據(jù)挖掘在數(shù)據(jù)分析中的應(yīng)用_第2頁(yè)
數(shù)據(jù)挖掘在數(shù)據(jù)分析中的應(yīng)用_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、福建電腦2010年第10期數(shù)據(jù)挖掘在數(shù)據(jù)分析中的應(yīng)用鄭頻捷(福建泉州兒童發(fā)展職業(yè)學(xué)院福建 泉州362000)【 摘要 】:本文圍繞著教師多媒體軟件使用情況方面的四個(gè)問(wèn)題, 演示了數(shù)據(jù)挖掘的過(guò)程, 重點(diǎn)闡述了如何利用數(shù)據(jù)挖掘工具, 對(duì)挖掘結(jié)果的分類、 測(cè)試檢驗(yàn)、 算法修改等操作, 并將分類特征可視化, 最終針對(duì)挖掘結(jié)果進(jìn)行了分析, 得出結(jié)論 。 對(duì)于數(shù)據(jù)挖掘在數(shù)據(jù)分析中的應(yīng)用, 本文做了很好的示范?!?關(guān)鍵詞 】:數(shù)據(jù)挖掘數(shù)據(jù)分析信息社會(huì)的到來(lái)對(duì)數(shù)據(jù)的篩選和利用提出了更高要求 , 而海量數(shù)據(jù)的出現(xiàn)又使得人們用傳統(tǒng)數(shù)據(jù)處理的方法無(wú)從下手, 此時(shí)必然要求有更為先進(jìn)的數(shù)據(jù)處理技術(shù) 。所謂數(shù)據(jù)挖掘(da

2、ta mining)1就是從大量、 不完全 、有噪聲 、 模糊 、 隨機(jī)的數(shù)據(jù)中發(fā)現(xiàn)隱含數(shù)據(jù)中的關(guān)系,建立模型, 提取具有潛在價(jià)值、 可信 、 新穎 、 有效并能被人所理解的信息和知識(shí)的過(guò)程, 通俗的講, 就是從大型數(shù)據(jù)庫(kù)提取有效、 可信和可行信息的過(guò)程。 它又被稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(kdd: knowledge discoveryin database)、數(shù)據(jù)分析、 數(shù)據(jù)融合(data fusion)、 決策支持等 。 它是一門交叉性學(xué)科, 涉及到機(jī)器學(xué)習(xí)、 神經(jīng)網(wǎng)絡(luò) 、 模式識(shí)別 、 歸納推理、 統(tǒng)計(jì)學(xué) 、 數(shù)據(jù)庫(kù) 、 數(shù)據(jù)可視化、高性能并行等多個(gè)領(lǐng)域的相關(guān)技術(shù)。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析工

3、具的主要區(qū)別在于探索數(shù)據(jù)關(guān)系時(shí)所用的方法不同。 傳統(tǒng)數(shù)據(jù)分析工具使用基于驗(yàn)證的方法, 即用戶首先對(duì)特定的數(shù)據(jù)關(guān)系做出假設(shè) , 然后用分析工具去確認(rèn)或否定這些假設(shè)。 這種方法的有效性受到很多因素的限制。 與分析工具相反,數(shù)據(jù)挖掘使用基于發(fā)現(xiàn)的方法, 運(yùn)用模式匹配和其他算法決定數(shù)據(jù)之間的重要聯(lián)系。一.挖掘流程數(shù)據(jù)挖掘的整個(gè)過(guò)程可以描述成四個(gè)步驟:1.問(wèn)題定義清晰地定義出業(yè)務(wù)問(wèn)題, 認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。 在問(wèn)題定義過(guò)程中, 數(shù)據(jù)挖掘人員必須和領(lǐng)域?qū)<揖o密協(xié)作, 明確實(shí)際工作對(duì)數(shù)據(jù)挖掘的要求, 并通過(guò)各種算法的比較, 選擇合適的算法進(jìn)行挖掘。2.數(shù)據(jù)準(zhǔn)備1)數(shù)據(jù)的選擇: 搜索所有與

4、業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息, 并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù) 。2)數(shù)據(jù)的預(yù)處理: 研究數(shù)據(jù)的質(zhì)量, 進(jìn)行數(shù)據(jù)再加工, 包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、 去除噪聲 , 填補(bǔ)丟失的域, 刪除無(wú)效數(shù)據(jù), 為進(jìn)一步的分析作準(zhǔn)備 , 并確定將要進(jìn)行的挖掘操作的類型。3)數(shù)據(jù)的轉(zhuǎn)換: 將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型, 從而減少數(shù)據(jù)維數(shù)或降維, 即從初始特征中找出真正有用的特征 , 以減少數(shù)據(jù)挖掘時(shí)要考慮的特征或變量個(gè)數(shù)。這個(gè)分析模型是針對(duì)挖掘算法建立的, 而建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。3.數(shù)據(jù)挖掘根據(jù)數(shù)據(jù)功能的類型和數(shù)據(jù)的特點(diǎn)選擇相應(yīng)的算法( 如神經(jīng)元網(wǎng)絡(luò)、 決策樹(shù)

5、 、 聚類分析技術(shù)、 關(guān)聯(lián)發(fā)現(xiàn)和序列發(fā)現(xiàn)技術(shù)), 在凈化和轉(zhuǎn)換過(guò)的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘,搜索或產(chǎn)生一個(gè)特定的感興趣的模式或一個(gè)特定的數(shù)據(jù)集。4.結(jié)果分析該步驟是對(duì)數(shù)據(jù)挖掘發(fā)現(xiàn)的模式或數(shù)據(jù)集進(jìn)行解釋和評(píng)價(jià), 生成一個(gè)相對(duì)最優(yōu)模型, 并對(duì)此模型用業(yè)務(wù)語(yǔ)言加以解釋, 把有用的知識(shí)呈現(xiàn)給用戶。 但數(shù)據(jù)挖掘階段發(fā)現(xiàn)出的模式也可能不滿足用戶要求, 這時(shí)需要整個(gè)發(fā)現(xiàn)過(guò)程回退到前一階段, 如重新選取數(shù)據(jù)、 設(shè)定新的參數(shù)、 換用一種挖掘算法等。由此可見(jiàn), 數(shù)據(jù)挖掘過(guò)程是多個(gè)步驟相互連接、 反復(fù)進(jìn)行人機(jī)交互的過(guò)程。在本文的研究中, 圍繞著教師多媒體軟件使用情況進(jìn)行挖掘分析, 設(shè)置了以下四個(gè)相關(guān)方面的問(wèn)題,以期得出

6、相關(guān)的結(jié)論:1) 你使用過(guò)powerpoint嗎 ?a) 從不b) 很少c) 經(jīng)常2)你使用過(guò)flash嗎 ?a) 從不b) 很少c) 經(jīng)常3)你使用過(guò)authorware嗎?a) 從不b) 很少c) 經(jīng)常4) 使用photoshop進(jìn)行圖片制作情況1042010年第10期福建電腦a) 不會(huì)b) 會(huì) , 但不經(jīng)常使用c) 會(huì) , 并且經(jīng)常獨(dú)立使用二.挖掘過(guò)程在前期工作中, 針對(duì)以上四個(gè)問(wèn)題, 我們通過(guò)問(wèn)卷形式 , 面向幼兒園教師收集了大量的資料, 并將這些資料采用excel文件存儲(chǔ)下來(lái), 表名為信息知識(shí)與技能,相 關(guān) 字 段 為使 用powerpoint情 況(ppt)、使 用flash情 況

7、(flash)、使 用authorware情 況(aw)、photoshop制作(psdzz),本文主要利用microsoft sqlserver 2005 analysis services(ssas) 所提供的算法進(jìn)行挖掘處理。1. 教師多媒體軟件使用情況挖掘模型設(shè)計(jì)(1) 指定列的用法我們指定數(shù)據(jù)源中信息知識(shí)與技能(zsjn) 為事例表 , 如上面文字所示, 從中提取出ppt、flash、aw、psdzz四個(gè)列組成挖掘結(jié)構(gòu), 列屬性均為in -put and predict。(2) 挖掘算法的選擇及其參數(shù)設(shè)置在此我們利用挖掘, 了解教師對(duì)于四種多媒體軟件的了解、 掌握程度 , 并自動(dòng)分成

8、具有顯著特征的若干個(gè)類別 , 然后找出每個(gè)類別中的共性, 也就是說(shuō)通過(guò)挖掘 , 希望能將教師進(jìn)行分類。 針對(duì)選項(xiàng)式的調(diào)查, 比較關(guān)聯(lián)算法和聚類算法, 在次我們認(rèn)為聚類分析挖掘算法最為合適。根 據(jù) 聚 類 分 析 挖 掘 算 法 的 屬 性 設(shè) 置 , 我 們 將cluster_count修改為0, 為了最準(zhǔn)確地確定要生成的分類數(shù)。2.挖掘結(jié)果的圖示在microsoft聚類方法挖掘結(jié)果的圖示中, 包含了分類關(guān)系圖、分類剖面圖、分類特征和分類對(duì)比。其中分類關(guān)系圖可以顯示挖掘模型中的所有分類, 兩個(gè)分類之間連線的明暗度表示分類的相似程度;分類剖面圖可以提供模型中的算法創(chuàng)建的分類的總體視圖;分類特征中

9、選擇分類后, 可以檢查特定分類的組成特征 ;分類對(duì)比可以用來(lái)比較兩個(gè)分類的屬性2。圖2 教師多媒體軟件使用情況分類剖面圖圖2為教師多媒體軟件使用情況分類剖面圖, 其中使 用powerpoint情 況(ppt)、使 用flash情 況(flash)、使 用authorware情 況(aw)、photoshop制作(psdzz) 四個(gè)變量的各個(gè)選項(xiàng)已經(jīng)轉(zhuǎn)化為中文含義。當(dāng)點(diǎn)擊aw分類1時(shí) , 在挖掘圖例中會(huì)顯示各個(gè)顏色的含義以及各含義的分布比例。 其中 , 為了增強(qiáng)挖掘結(jié)果的直觀性, 參照附錄, 我們利用sql語(yǔ)言 , 在數(shù)據(jù)庫(kù)中把字段的值修改成對(duì)應(yīng)的中文含義, 如aw字段中a值改為從不,b值改為很

10、少,c值改為經(jīng)常。依此類推 , 將flash、powerpoint、psdzz字段的值都改成對(duì)應(yīng)的中文含義。3.挖掘結(jié)果的檢驗(yàn)為了檢驗(yàn)挖掘準(zhǔn)確性, 我們?cè)O(shè)計(jì)了測(cè)試數(shù)據(jù)源test.dsv, 并將其作為事例表導(dǎo)入表中, 觀察提升圖, 發(fā)現(xiàn)總體正確率偏低, 如圖3所示結(jié)果。圖3 教師多媒體軟件使用情況挖掘提升圖從挖掘提升圖中我們可以看到, 當(dāng)總體為100時(shí), 預(yù)測(cè)的正確率還不到40。 顯然 , 這么低的正確率無(wú)法滿足研究要求,聚類方式挖掘算法的參數(shù)需要改正, 根據(jù)聚類挖掘中參數(shù)設(shè)置, 我們嘗試用其他聚類挖掘算法 : 將clustering_method的值修改為3, 即采用scalable k-me

11、ans算法 , 此時(shí)產(chǎn)生的挖掘提升圖如圖4所示 , 總體正確率和預(yù)測(cè)概率都提高了, 分別為62.5和65.22。圖4修改后的挖掘提升圖4.分類特征的可視化從圖5所顯示的分類剖面圖可以明顯看出, 顏色塊大的部分, 所占總數(shù)的比例越大, 如在分類1中 ,ppt取值為很少的狀態(tài)基本上占了所有的比例,意味著該分類中ppt的取值特點(diǎn)為很少。105福建電腦2010年第10期圖5修改后的分類剖面圖我們從分類特征圖6中可以看到各變量的取值具體所占比例, 還可以看出各個(gè)分類中最顯著的特征。圖6 教師多媒體軟件使用情況分類特征而分類與分類之間的比較, 則可以通過(guò)分類對(duì)比圖來(lái)觀察。 比如圖7所示的分類2與其他分類之

12、間的對(duì)比關(guān)系, 從中看出分類2與其他分類的區(qū)別。圖7分類2和非分類2的對(duì)比分?jǐn)?shù)圖因此 , 我們可以利用挖掘提升圖來(lái)判斷挖掘手段是否合理, 利用分類剖面圖可以觀察到所有分類中各值的分布大致情況, 還可以從分類特征圖和對(duì)比分?jǐn)?shù)圖看出該分類的最大特點(diǎn)。5.挖掘結(jié)果的分析通過(guò)圖5圖7來(lái)看 , 我們發(fā)現(xiàn):分 類1: 教 師 很 少 使 用powerpoint, 且 很 少 使 用photoshop和flash, 大部分沒(méi)用過(guò)authorware。 可以看出 , 這部分教師會(huì)一些基本的多媒體工具, 有一定的操作能力 , 但沒(méi)有學(xué)習(xí)過(guò)authorware, 因此確定這部分教師制作課件能力較差,需要全方位的進(jìn)

13、行培訓(xùn)。分類2: 教師會(huì)經(jīng)常使用powerpoint來(lái)制作課件,但很少使用authorware和flash,對(duì)于photoshop制作能力也不行。 因此可以認(rèn)為, 這部分教師只會(huì)使用powerpoint來(lái)進(jìn)行簡(jiǎn)單的課件制作, 可以從課件制作、素材制作等方面來(lái)提升。分類3: 這 類 的 教 師 能 經(jīng) 常 使 用powerpoint, 但 對(duì)于authorware和flash也是很少使用, 甚至從沒(méi)用過(guò),而經(jīng)常使用photoshop的教師占了總數(shù)將近一半。 意味著這部分教師能經(jīng)常使用powerpoint, 能使用photo-shop,有一定的技術(shù)性,因此針對(duì)這類教師,應(yīng)加強(qiáng)課件制作能力的培訓(xùn)。分

14、類4: 教師基本上不用authorware、photoshop或powerpoint, 只有部分教師偶爾做一些flash, 正說(shuō)明了這部分教師在制作課件方面能力普遍較差, 但對(duì)flash制作有一定的興趣, 可以針對(duì)教師的興趣點(diǎn), 增加flash方面的培訓(xùn)。分類5: 所有教師都能經(jīng)常使用photoshop, 但很少使用authorware、flash和powerpoint, 可以這樣理解-這類教師主要是把信息技術(shù)應(yīng)用到個(gè)人興趣、 生活需要上 , 有一定的信息處理能力, 因此可以通過(guò)較短期的培訓(xùn) , 提高使用authorware課件制作能力, 增加實(shí)踐的機(jī)會(huì) 。因此相信在幼兒園里還是一部分教師, 能主動(dòng)使用多媒體軟件制作課件, 雖然只是簡(jiǎn)單的powerpoint,但還是看到了信息推廣的希望, 也是今年來(lái)學(xué)院重視學(xué)以致用的成果;photoshop還是有更多人會(huì)使用, 正是因?yàn)槠鋵?shí)用性強(qiáng), 與教師的實(shí)際生活、 教學(xué)需要有聯(lián)系 , 如相片處理、 圖片編輯等等; 而flash正是由于網(wǎng)絡(luò)的推廣, 且自身的優(yōu)勢(shì), 讓更多人意識(shí)到其好處, 因此能很好的吸引了教師的眼球; 而authorware這個(gè)相對(duì)專業(yè)的課件制作軟件, 教師對(duì)其倒是知之甚少, 正好反映了廣大教師在信息技術(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論