版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》課程論文基于Wine數(shù)據(jù)集的數(shù)據(jù)分析匯報(bào)專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)五月二十五日
基于wine數(shù)據(jù)集的數(shù)據(jù)分析匯報(bào)摘要:數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的信息的過(guò)程。在大數(shù)據(jù)時(shí)代,怎樣從海量數(shù)據(jù)中挖掘有用信息成為了信息產(chǎn)業(yè)的熱門話題。作為數(shù)據(jù)挖掘課程內(nèi)容的回憶與應(yīng)用,本文對(duì)wine數(shù)據(jù)集進(jìn)行了數(shù)據(jù)探索性分析,并將數(shù)據(jù)挖掘的決策樹(shù)、支持向量機(jī)、聚類等常用措施應(yīng)用于詳細(xì)的數(shù)據(jù)挖掘任務(wù),并獲得了很好的效果。關(guān)鍵詞:wine數(shù)據(jù)集、決策樹(shù)、支持向量機(jī)、聚類引言數(shù)據(jù)挖掘(Datamining),又譯為資料探勘、數(shù)據(jù)挖掘、數(shù)據(jù)采礦。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性(屬于Associationrulelearning)的信息的過(guò)程。數(shù)據(jù)挖掘一般與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)記錄、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等諸多措施來(lái)實(shí)現(xiàn)上述目的。在大數(shù)據(jù)時(shí)代,怎樣從海量數(shù)據(jù)中挖掘有用信息成為了信息產(chǎn)業(yè)的熱門話題。本文作為數(shù)據(jù)挖掘課程內(nèi)容的回憶與應(yīng)用,將數(shù)據(jù)挖掘的理論與措施運(yùn)用于詳細(xì)的數(shù)據(jù)挖掘任務(wù)中,并獲得很好的效果。本次試驗(yàn)選擇的數(shù)據(jù)集為wine數(shù)據(jù)集。本文首先對(duì)其進(jìn)行了數(shù)據(jù)探索性分析,包括:數(shù)據(jù)概括、變量分布、離群點(diǎn)、缺失值、有關(guān)性等,并運(yùn)用了合適的圖形進(jìn)行描述,然后在探索性分析的基礎(chǔ)上,采用了決策樹(shù)、支持向量機(jī)、聚類等措施進(jìn)行了分類預(yù)測(cè),并比較了不一樣措施的分類效果。數(shù)據(jù)探索性分析數(shù)據(jù)概況本次試驗(yàn)選用的數(shù)據(jù)集為UCI的WineQuality數(shù)據(jù)集中whitewine的4898條數(shù)據(jù),每條數(shù)據(jù)有12種屬性,分別為:fixedacidity,volatileacidity,citricacid,residualsugar,chlorides,freesulfurdioxide,totalsulfurdioxide,density,pH,sulphates,alcohol,quality.其中,quality為輸出,以0到10之間的數(shù)字來(lái)表達(dá)酒的品質(zhì)。試驗(yàn)使用RStudio軟件將數(shù)據(jù)集讀入,并使用summary命令概括數(shù)據(jù)集概況。如圖一所示,summary概括了數(shù)據(jù)集中各個(gè)變量的平均值、中位數(shù)、最大值、最小值等信息。圖1數(shù)據(jù)概括變量分布使用hist()繪制各變量的直方圖。如圖二所示,直方圖直觀的展示了變量的分布狀況。圖2變量直方圖直方圖只能對(duì)變量進(jìn)行直觀的描述,而變量與否滿足正態(tài)分布則需要正態(tài)性驗(yàn)證。使用shapirotest對(duì)各變量進(jìn)行正態(tài)驗(yàn)證,通過(guò)查當(dāng)作果中的p-value值就可以得到變量與否符合正態(tài)分布。假如p-value值不小于0.05即符合正態(tài)分布,而對(duì)所有變量進(jìn)行shapirotest得到p-value均不不小于0.05,因此wine數(shù)據(jù)集各特性均不是正態(tài)分布。離群點(diǎn)分析箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用作顯示一組數(shù)據(jù)分散狀況資料的記錄圖。重要包括六個(gè)數(shù)據(jù)節(jié)點(diǎn),將一組數(shù)據(jù)從大到小排列,分別計(jì)算出他的上邊緣,上四分位數(shù)Q3,中位數(shù),下四分位數(shù)Q1,下邊緣,尚有一種異常值。箱形圖的異常值就可以可視化的展示數(shù)據(jù)集中的離群點(diǎn)。圖3展示了各變量的離群點(diǎn)分布狀況,可以看出離群點(diǎn)較多,也許對(duì)預(yù)測(cè)產(chǎn)生影響。圖3變量箱形圖缺失值分析Wine數(shù)據(jù)集不具有缺失值。有關(guān)性分析數(shù)據(jù)集中各變量間的有關(guān)性關(guān)系可由cor()函數(shù)計(jì)算出的協(xié)方差矩陣來(lái)表達(dá),如表4所示。表1協(xié)方差矩陣表ROW123456789101111.00-0.020.290.090.02-0.050.090.27-0.43-0.02-0.122-0.021.00-0.150.060.07-0.100.090.03-0.03-0.040.0730.29-0.151.000.090.110.090.120.15-0.160.06-0.0840.090.060.091.000.090.300.400.84-0.19-0.03-0.4550.020.070.110.091.000.100.200.26-0.090.02-0.366-0.05-0.100.090.300.101.000.620.290.000.06-0.2570.090.090.120.400.200.621.000.530.000.13-0.4580.270.030.150.840.260.290.531.00-0.090.07-0.789-0.43-0.03-0.16-0.19-0.090.000.00-0.091.000.160.1210-0.02-0.040.06-0.030.020.060.130.070.161.00-0.0211-0.120.07-0.08-0.45-0.36-0.25-0.45-0.780.12-0.021.00由表1可以看出wine數(shù)據(jù)集各變量之間有關(guān)度大部分都很低,不過(guò)residualsugar與density之間有關(guān)度較高。葡萄酒品質(zhì)分類挖掘直接分類預(yù)測(cè)數(shù)據(jù)預(yù)處理在運(yùn)用數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)前,需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。詳細(xì)操作如下:將數(shù)據(jù)集的前11維變量用scale()函數(shù)原則化,并使用factor()函數(shù)把最終一位變量quality轉(zhuǎn)化為因子;以7:3的比例將數(shù)據(jù)集劃分為訓(xùn)練集與測(cè)試集,其中訓(xùn)練集為7,測(cè)試集為3.分類預(yù)測(cè)使用C50包中的C5.0決策樹(shù)措施對(duì)數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)。在訓(xùn)練集上訓(xùn)練出決策樹(shù)模型,計(jì)算出分類對(duì)的率,然后將模型應(yīng)用于測(cè)試集,并計(jì)算對(duì)的率。此外,試驗(yàn)中還使用了Metrics包中的平均絕度誤差MAE作為指標(biāo)來(lái)描述模型對(duì)訓(xùn)練集與測(cè)試集的分類效果。使用支持向量機(jī)對(duì)數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)則使用了e1071包,操作方式與決策樹(shù)措施基本一致。將兩種措施的到得的成果進(jìn)行比較,如表2所示。表2直接分類預(yù)測(cè)成果模型訓(xùn)練集測(cè)試集對(duì)的率MAE對(duì)的率MAE決策樹(shù)0.830.20.570.51支持向量機(jī)0.610.440.570.48通過(guò)表二可以看出,兩種模型的分類精度都比較低。再回憶數(shù)據(jù)探索性分析中有關(guān)離群點(diǎn)部分的內(nèi)容可知,數(shù)據(jù)集中具有大量離群點(diǎn)。而決策樹(shù)與支持向量機(jī)屬于對(duì)離群點(diǎn)非常敏感的模型,這也許就是分類精度較低的原因。因此需要選用一種可以克服離群點(diǎn)影響的模型來(lái)對(duì)wine數(shù)據(jù)集進(jìn)行預(yù)測(cè),因此我們選用了class包中的1-近鄰模型來(lái)進(jìn)行分類預(yù)測(cè),成果如表3所示,可以看出分類效果有提高。表3直接分類預(yù)測(cè)成果模型訓(xùn)練集測(cè)試集對(duì)的率MAE對(duì)的率MAE決策樹(shù)0.830.20.570.51支持向量機(jī)0.610.440.570.481-近鄰0.610.45離散化后分類預(yù)測(cè)數(shù)據(jù)預(yù)處理首先使用cut()函數(shù)將wine數(shù)據(jù)集中的quality按(-∞,5),[5,6],(6,+∞),劃分為[差、中、好]三類,為了以便將三類類標(biāo)簡(jiǎn)化為[1,2,3].然后使用3.1.1中的環(huán)節(jié)進(jìn)行預(yù)處理,得到試驗(yàn)數(shù)據(jù)集。分類預(yù)測(cè)Wine數(shù)據(jù)集quality離散化后的分類預(yù)測(cè)同樣也可以參照3.1.2中的環(huán)節(jié),使用決策樹(shù)、支持向量機(jī)、1-近鄰模型進(jìn)行預(yù)測(cè)。成果如表4所示,可以看出在對(duì)輸出離散化后,1-近鄰得到了最優(yōu)的分類效果。表4離散化后分類預(yù)測(cè)成果模型訓(xùn)練集測(cè)試集對(duì)的率MAE對(duì)的率MAE決策樹(shù)0.850.150.760.24支持向量機(jī)0.810.190.780.211-近鄰0.810.19聚類分類預(yù)測(cè)將wine數(shù)據(jù)集去掉quality變量使用cluster包pam()函數(shù)進(jìn)行K-MEDOIDS聚類,聚類成果直方圖如圖4所示。圖4聚類成果運(yùn)用得到的成果與支持向量機(jī)得到的分類成果生成混淆矩陣,如表5所示。表5混淆矩陣123141642562115416311233414由于聚類的成果與分類成果的類標(biāo)不一致,調(diào)整類標(biāo)后得到新的混淆矩陣,如表6所示。表6調(diào)整類標(biāo)后的混淆矩陣123111541562416426311233414通過(guò)混淆矩陣可以得出聚類成果與支持向量機(jī)的預(yù)測(cè)成果只有42%相似,成果重疊度較低。通過(guò)觀測(cè)圖4的聚類成果與圖2中quality的直方圖,以(-∞,6),[6],(6,+∞),將quality重新劃分為[差、中、好]三類,運(yùn)用支持向量機(jī)進(jìn)行預(yù)測(cè)并與聚類預(yù)測(cè)成果進(jìn)行比較如表7所示。表7SVM與聚類成果模型wine數(shù)據(jù)集對(duì)的率MAE支持向量機(jī)0.650.46聚類0.440.64由表7可以看出,對(duì)按照新的劃分重新離散化的數(shù)據(jù)集使用支持向量機(jī)進(jìn)行擬合,得到的預(yù)測(cè)成果比原本的預(yù)測(cè)成果要差。同步,使用K-MEDOIDS聚類措施來(lái)預(yù)測(cè)數(shù)據(jù)的類標(biāo)對(duì)的率只有44%,效果很差,并不合用于wine數(shù)據(jù)集的分類預(yù)測(cè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 上??茖W(xué)技術(shù)職業(yè)學(xué)院《大數(shù)據(jù)技術(shù)原理及應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海科創(chuàng)職業(yè)技術(shù)學(xué)院《中小尺度空間景觀設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海交通大學(xué)《工程監(jiān)理》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海建設(shè)管理職業(yè)技術(shù)學(xué)院《提高課羽毛球》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海建橋?qū)W院《農(nóng)產(chǎn)品高效利用與管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海濟(jì)光職業(yè)技術(shù)學(xué)院《計(jì)算機(jī)在材料分析中的應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 教育決策報(bào)告范文模板
- 上海海洋大學(xué)《國(guó)際貿(mào)易實(shí)務(wù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海海關(guān)學(xué)院《環(huán)境與生命科學(xué)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 企業(yè)員工管理制度選集大合集
- 《報(bào)批報(bào)建工作》課件
- 小學(xué)二年級(jí)數(shù)學(xué)上冊(cè)-加減乘除法口算題800道
- 國(guó)開(kāi)2024年秋《機(jī)械制圖》形考作業(yè)1-4答案
- 2024年電大勞動(dòng)與社會(huì)保障法期末考試題庫(kù)及答案
- 計(jì)算機(jī)網(wǎng)絡(luò)智慧樹(shù)知到期末考試答案章節(jié)答案2024年上海電力大學(xué)
- MOOC 創(chuàng)業(yè)管理-江蘇大學(xué) 中國(guó)大學(xué)慕課答案
- MOOC 傳熱學(xué)-西安交通大學(xué) 中國(guó)大學(xué)慕課答案
- 2024年四川省自然資源投資集團(tuán)有限責(zé)任公司招聘筆試參考題庫(kù)附帶答案詳解
- 身股制實(shí)施辦法(新版)
- 藥業(yè)發(fā)展工作規(guī)劃.doc
- 材料熱力學(xué)1-7
評(píng)論
0/150
提交評(píng)論