《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》試卷及答案 卷B_第1頁(yè)
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》試卷及答案 卷B_第2頁(yè)
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》試卷及答案 卷B_第3頁(yè)
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》試卷及答案 卷B_第4頁(yè)
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》試卷及答案 卷B_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大學(xué)試卷學(xué)年第1學(xué)期;課號(hào)課程名稱數(shù)據(jù)挖掘與數(shù)據(jù)分析(閉卷);適用班級(jí)(或年級(jí)、專業(yè))(每位考生需要答題紙(8k)2張、草稿紙(16k)1張)考試時(shí)間120分鐘班級(jí)學(xué)號(hào)姓名題號(hào)一二三四五六七八九十成績(jī)滿分20202040得分評(píng)卷人選擇題(20分,2分*10題)關(guān)聯(lián)模式挖掘旨在從大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互()關(guān)系A(chǔ).聚集B.依賴C.結(jié)合D.獨(dú)立時(shí)間序列基于事物發(fā)展的()和隨機(jī)性預(yù)測(cè)事物未來(lái)的情況A.獨(dú)立性B.延續(xù)性C.相關(guān)性D.邏輯性數(shù)據(jù)挖掘工作中臟數(shù)據(jù)通常不包括()A.缺失值B.異常值C.不一致和重復(fù)數(shù)據(jù)值D.時(shí)變數(shù)據(jù)數(shù)據(jù)特征分析不包括()A.分布分析B.對(duì)比分析C.相關(guān)性分析D.標(biāo)準(zhǔn)化分析數(shù)據(jù)預(yù)處理的主要任務(wù)不包括()A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換和規(guī)約D.數(shù)據(jù)可視化Python本身的數(shù)據(jù)分析常見(jiàn)庫(kù)不包括()A.NumpyB.ScipyC.Pandas D.TensorflowK-means算法屬于聚類分析的()A.劃分方法 B.層次分析方法C.基于網(wǎng)格的方法 D.基于密度的方法數(shù)據(jù)變換不包括()A.聚集 B.數(shù)據(jù)概化C.規(guī)范化 D.數(shù)據(jù)壓縮常見(jiàn)的連續(xù)屬性離散化方法不包括()A.等寬法 B.基于聚類分析的方法C.等頻法 D.基于統(tǒng)計(jì)分析的方法關(guān)聯(lián)分析中將集合中同時(shí)出現(xiàn)頻率高的元素組成子集,滿足一定閾值條件,稱為()A.項(xiàng)集B.頻繁項(xiàng)集C.關(guān)聯(lián)規(guī)則 D.頻繁度判斷題(20分,2分*10題,正確標(biāo)記√,錯(cuò)誤標(biāo)記×)1.數(shù)據(jù)預(yù)處理階段的主要工作包括數(shù)據(jù)篩選、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)標(biāo)準(zhǔn)化、屬性選擇、數(shù)據(jù)規(guī)約等方面。()2.關(guān)聯(lián)模式挖掘旨在從大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互依賴關(guān)系。()3隨機(jī)性分析是數(shù)據(jù)特征分析方法。()4.聚類分析使得類別內(nèi)數(shù)據(jù)的“差異性”盡可能小,類別間“差異性”盡可能大。()5.異常值是指樣本中的個(gè)別值,其數(shù)值明顯偏離其余的觀測(cè)值。()6.數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中的過(guò)程。()7.零-均值規(guī)范化不是數(shù)據(jù)規(guī)范化方法。()8.為了消除指標(biāo)之間的量綱和大小不一的影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。()9.精確度(Precision)表示分類模型正確分類的樣本數(shù)(包括正例與反例)與樣本總數(shù)的比值。()10.項(xiàng)集A、B同時(shí)發(fā)生的概率稱為關(guān)聯(lián)規(guī)則的支持度。()名詞解釋(20分,4分*5題)1.數(shù)據(jù)規(guī)約2.置信度3.分類4.關(guān)聯(lián)規(guī)則5.相對(duì)誤差簡(jiǎn)答題(40分,8分*5題)1.數(shù)據(jù)異常值分析2.分類與預(yù)測(cè)算法評(píng)價(jià)指標(biāo)3.數(shù)據(jù)規(guī)范化及主要方法4.關(guān)聯(lián)規(guī)則原理和主要特點(diǎn)5.回歸分析及特點(diǎn)年第學(xué)期數(shù)據(jù)挖掘與數(shù)據(jù)分析(B)卷參考答案及評(píng)分標(biāo)準(zhǔn)適用:商學(xué)院財(cái)務(wù)管理專業(yè)2020級(jí)學(xué)生命題教師:黃宏軍選擇題(20分,2分*10題)1-5BBDDD6-10DADBB判斷題(20分,2分*10題,正確標(biāo)記√,錯(cuò)誤標(biāo)記×)1-5√√×√√6-10√×√×√名詞解釋(20分,4分*5題)1.數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是將海量數(shù)據(jù)進(jìn)行規(guī)約,規(guī)約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量小得多。通過(guò)數(shù)據(jù)規(guī)約,可以達(dá)到降低無(wú)效、錯(cuò)誤數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性少量且降低儲(chǔ)存數(shù)據(jù)成本。數(shù)據(jù)規(guī)約包括屬性規(guī)約和數(shù)值規(guī)約。屬性規(guī)約通過(guò)屬性合并創(chuàng)建新屬性維數(shù),或者通過(guò)直接刪除不相關(guān)的屬性來(lái)減少數(shù)據(jù)維數(shù),數(shù)值規(guī)約通過(guò)選擇替代的、較小的數(shù)據(jù)來(lái)減少數(shù)據(jù)量。2.置信度表示包含A的交易中也包含B的條件概率3.分類分類主要是預(yù)測(cè)分類標(biāo)號(hào)(離散、無(wú)序的),而預(yù)測(cè)主要是建立連續(xù)值函數(shù)模型,預(yù)測(cè)給定自變量的條件下因變量的值。分類是構(gòu)造一個(gè)分類模型,輸入樣本的屬性值,輸出對(duì)應(yīng)的類別,將每個(gè)樣本映射到預(yù)先定義好的類別。分類模型建立在已有類標(biāo)記的數(shù)據(jù)集上,模型在已有樣本上的準(zhǔn)確率可以方便地計(jì)算,所以分類屬于有監(jiān)督的學(xué)習(xí)。4.關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則描述在一個(gè)事務(wù)中物品之間同時(shí)出現(xiàn)的規(guī)律的知識(shí)模式,通過(guò)量化的形式描述物品A的對(duì)物品B的影響。關(guān)聯(lián)規(guī)則的度量指標(biāo)包括支持度和置信度,支持度是某一特定關(guān)聯(lián)或項(xiàng)集在數(shù)據(jù)集中出現(xiàn)的概率,置信度是在數(shù)據(jù)集中已經(jīng)出現(xiàn)A時(shí),B發(fā)生的概率。5.相對(duì)誤差相對(duì)誤差指的是測(cè)量所造成的絕對(duì)誤差與被測(cè)量真值之比乘以100%所得的數(shù)值,以百分?jǐn)?shù)表示,相對(duì)誤差更能反映測(cè)量的可信程度。相對(duì)誤差(RelativeError)=(原值-估計(jì)值)/原值。簡(jiǎn)答題(40分,8分*5題)1.數(shù)據(jù)異常值分析離群點(diǎn)(Outlier),也稱為異常對(duì)象。通常,在數(shù)據(jù)的散布圖中,離群點(diǎn)遠(yuǎn)離其他數(shù)據(jù)點(diǎn)。離群點(diǎn)檢測(cè)的目的是發(fā)現(xiàn)有異于大部分對(duì)象的其他對(duì)象。離群點(diǎn)的主要成因有:數(shù)據(jù)來(lái)源于不同的類、自然變異、數(shù)據(jù)測(cè)量和收集誤差。從整體來(lái)看,某些對(duì)象沒(méi)有離群特征,但是從局部來(lái)看,卻顯示了一定的離群性。從屬性的個(gè)數(shù)看包括一維離群點(diǎn)和多維離群點(diǎn),從數(shù)據(jù)類型看包括數(shù)值型離群點(diǎn)和分類型離群點(diǎn)。異常值分析包括如下方法:(1)基于統(tǒng)計(jì)。大部分的基于統(tǒng)計(jì)的離群點(diǎn)檢測(cè)方法是構(gòu)建一個(gè)概率分布模型,并計(jì)算對(duì)象符合該模型的概率,把具有低概率的對(duì)象視為離群點(diǎn)。(2)基于鄰近度。通??梢栽跀?shù)據(jù)對(duì)象之間定義鄰近性度量,把遠(yuǎn)離大部分點(diǎn)的對(duì)象視為離群點(diǎn)。(3)基于密度??紤]數(shù)據(jù)集可能存在不同密度區(qū)域這一事實(shí),從基于密度的觀點(diǎn)分析,離群點(diǎn)是在低密度區(qū)域中的對(duì)象。一個(gè)對(duì)象的離群點(diǎn)得分是該對(duì)象周圍密度的逆。(4)基于聚類。一種是利用聚類檢測(cè)離群點(diǎn)的方法是丟棄遠(yuǎn)離其他簇的小簇;另一種更系統(tǒng)的方法,首先聚類所有對(duì)象,然后評(píng)估對(duì)象屬于簇的程度(離群點(diǎn)得分)。2.分類與預(yù)測(cè)算法評(píng)價(jià)指標(biāo)分類與預(yù)測(cè)模型對(duì)訓(xùn)練集進(jìn)行預(yù)測(cè)而得出的準(zhǔn)確率并不能很好地反映預(yù)測(cè)模型未來(lái)的性能,為了有效判斷一個(gè)預(yù)測(cè)模型的性能表現(xiàn),需要一組沒(méi)有參與預(yù)測(cè)模型建立的數(shù)據(jù)集,并在該數(shù)據(jù)集上評(píng)價(jià)預(yù)測(cè)模型的準(zhǔn)確率,這組獨(dú)立的數(shù)據(jù)集叫測(cè)試集。模型預(yù)測(cè)效果評(píng)價(jià),通常用絕對(duì)誤差與相對(duì)絕對(duì)誤差、平均絕對(duì)誤差、根均方差、相對(duì)平方根誤差等指標(biāo)來(lái)衡量絕對(duì)誤差(AbsoluteError)=原值-估計(jì)值相對(duì)誤差(RelativeError)=(原值-估計(jì)值)/原值平均絕對(duì)誤差(MeanAbsoluteError,MAE)均方誤差的平方根,代表了預(yù)測(cè)值的離散程度,也叫標(biāo)準(zhǔn)誤差,跟方差一樣,均方誤差是預(yù)測(cè)誤差平方之和的平均數(shù)分類器評(píng)價(jià)指標(biāo)包括如下,(1)正確率(accuracy)正確率是我們最常見(jiàn)的評(píng)價(jià)指標(biāo),accuracy=(TP+TN)/(P+N),被分對(duì)的樣本數(shù)除以所有的樣本數(shù),通常來(lái)說(shuō),正確率越高,分類器越好;(2)錯(cuò)誤率(errorrate)錯(cuò)誤率則與正確率相反,描述被分類器錯(cuò)分的比例,errorrate=(FP+FN)/(P+N),對(duì)某一個(gè)實(shí)例來(lái)說(shuō),分對(duì)與分錯(cuò)是互斥事件,所以accuracy=1–errorrate;(3)靈敏度(sensitive)sensitive=TP/P,表示的是所有正例中被分對(duì)的比例,衡量了分類器對(duì)正例的識(shí)別能力;(4)特效度(specificity)specificity=TN/N,表示的是所有負(fù)例中被分對(duì)的比例,衡量了分類器對(duì)負(fù)例的識(shí)別能力;(5)精度(precision)精度是精確性的度量,表示被分為正例的示例中實(shí)際為正例的比例,precision=TP/(TP+FP);(6)召回率(recall)召回率是覆蓋面的度量,度量有多個(gè)正例被分為正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的。3.數(shù)據(jù)規(guī)范化及主要方法(1)最小-最大規(guī)范化:也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0,1]之間。轉(zhuǎn)換函數(shù)如:(2)零-均值規(guī)范化:也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過(guò)處理的數(shù)據(jù)的平均數(shù)為0,標(biāo)準(zhǔn)差為1。轉(zhuǎn)化函數(shù)為:(3)小數(shù)定標(biāo)規(guī)范化:通過(guò)移動(dòng)屬性值的小數(shù)位數(shù),將屬性值映射到[-1,1]之間,移動(dòng)的小數(shù)位數(shù)取決于屬性值絕對(duì)值的最大值。轉(zhuǎn)化函數(shù)為:4.關(guān)聯(lián)規(guī)則原理和主要特點(diǎn)關(guān)聯(lián)分析(associationanalysis)是一種在大規(guī)模數(shù)據(jù)集中尋找有趣關(guān)系的任務(wù),這些關(guān)系可以有兩種形式:頻繁項(xiàng)集(frequentitemset)或者關(guān)聯(lián)規(guī)則(associationrule)。頻繁項(xiàng)集:假設(shè)有一系列集合,這些集合有些相同的元素,將集合中同時(shí)出現(xiàn)頻率高的元素組成一個(gè)子集,滿足一定閾值條件,就是頻繁項(xiàng)集。關(guān)聯(lián)規(guī)則(associationrules):描述在一個(gè)事務(wù)中物品之間同時(shí)出現(xiàn)的規(guī)律的知識(shí)模式,通過(guò)量化的形式描述物品A的對(duì)物品B的影響。關(guān)聯(lián)規(guī)則度量方法包括:支持度(support)支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量,反映關(guān)聯(lián)是否是普遍存在的規(guī)律,體現(xiàn)這條規(guī)則在所有交易中有多大的代表性。記為:support(X→Y)置信度(confidence)置信度(或可信度、信任度)是對(duì)關(guān)聯(lián)規(guī)則準(zhǔn)確度的衡量,度量關(guān)聯(lián)規(guī)則的強(qiáng)度。即在所有出現(xiàn)了X的活動(dòng)中出現(xiàn)Y的頻率,說(shuō)明規(guī)則X→Y的必然性有多大。記為confidence(X→Y)。關(guān)聯(lián)規(guī)則形成的基本過(guò)程找頻繁項(xiàng)集:通過(guò)用戶給定最小支持度閾值min_sup,尋找所有頻繁項(xiàng)集,即僅保留大于或等于最小支持度閾值的項(xiàng)集。生成強(qiáng)關(guān)聯(lián)規(guī)則:通過(guò)用戶給定最小置信度閾值min_conf,在每個(gè)最大頻繁項(xiàng)集中尋找關(guān)聯(lián)規(guī)則,即刪除不滿足最小置信度閾值的規(guī)則。5.回歸分析及特點(diǎn)回歸分析是根據(jù)現(xiàn)象之間關(guān)系的特點(diǎn),運(yùn)用一定的方法,建立最適合于變量之間關(guān)系的回歸方程,來(lái)反映變量之間數(shù)量的平均變動(dòng)關(guān)系,回歸分析得到自變量與因變量的條件期望之間的關(guān)系,通過(guò)分析可以知道自變量改變時(shí)因變量是如何改變的?;貧w分析建立在對(duì)客觀事物進(jìn)行大量試驗(yàn)和觀察的基礎(chǔ)上,用來(lái)尋找隱藏在那些看上去是不確定的現(xiàn)象中的統(tǒng)計(jì)規(guī)律性的統(tǒng)計(jì)方法。如果隨機(jī)變量Y與(X1,X2,?,Xk,變量存在相關(guān)關(guān)系,則可建立模型:Y=f(X1,X2,?Xk)+ε式中,Y是因變量,亦稱被解釋變量;X1,X2,?Xk是自變量,亦稱解釋變量;f(X1,X2,?Xk)是回歸函數(shù);ε是隨機(jī)誤差,表示受隨

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論