



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
PAGE4數(shù)據(jù)挖掘考試題目——關聯(lián)分析一、10個選擇1.以下屬于關聯(lián)分析的是()A.CPU性能預測 B.購物籃分析C.自動判斷鳶尾花類別 D.股票趨勢建模2.維克托?邁爾-舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中,持續(xù)強調了一個觀點:大數(shù)據(jù)時代的到來,使我們無法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時,我們更應該注重數(shù)據(jù)中的相關關系,而不是因果關系。其中,數(shù)據(jù)之間的相關關系可以通過以下哪個算法直接挖掘()A.K-means B.BayesNetworkC. D.Apriori3.置信度(confidence)是衡量興趣度度量()的指標。A.簡潔性 B.確定性C.實用性 D.新穎性算法的加速過程依賴于以下哪個策略()A.抽樣 B.剪枝C.緩沖 D.并行5.以下哪個會降低Apriori算法的挖掘效率()A.支持度閾值增大 B.項數(shù)減少C.事務數(shù)減少 D.減小硬盤讀寫速率算法使用到以下哪些東東()A.格結構、有向無環(huán)圖 B.二叉樹、哈希樹C.格結構、哈希樹 D.多叉樹、有向無環(huán)圖7.非頻繁模式()A.其置信度小于閾值 B.令人不感興趣C.包含負模式和負相關模式 D.對異常數(shù)據(jù)項敏感8.對頻繁項集、頻繁閉項集、極大頻繁項集的關系描述正確的是()[注:分別以1、2、3代表之]A.3可以還原出無損的1 B.2可以還原出無損的1C.3與2是完全等價的 D.2與1是完全等價的tree在Apriori算法中所起的作用是()A.存儲數(shù)據(jù) B.查找C.加速查找 D.剪枝10.以下不屬于數(shù)據(jù)挖掘軟件的是()A.SPSSModeler B.WekaC.ApacheSpark D.Knime二、10個填空1.關聯(lián)分析中表示關聯(lián)關系的方法主要有:和。2.關聯(lián)規(guī)則的評價度量主要有:和。3.關聯(lián)規(guī)則挖掘的算法主要有:和。4.購物籃分析中,數(shù)據(jù)是以的形式呈現(xiàn)。5.一個項集滿足最小支持度,我們稱之為。6.一個關聯(lián)規(guī)則同時滿足最小支持度和最小置信度,我們稱之為。7.在回歸與相關分析中,因變量值隨自變量值的增大(減小)而減?。ㄔ龃螅┑默F(xiàn)象叫做。8.極大頻繁項集不能無損還原出頻繁項集,是因為它不包含頻繁項集的信息。9.經(jīng)典的Apriori算法是逐層掃描的,也就是說它是(選:深度/寬度)優(yōu)先的。10.數(shù)據(jù)挖掘大概步驟包括:輸入數(shù)據(jù)預處理挖掘后處理輸出知識。其中,輸出的知識可以有很多種表示形式,兩種極端的形式是:①內部結構難以被理解的黑匣子,比如說人工神經(jīng)網(wǎng)絡訓練得出的網(wǎng)絡;②模式結構清晰的匣子,這種結構容易被人理解,比如說決策樹產(chǎn)生的樹。那么,關聯(lián)分析中輸出的知識的表示形式主要是(選:黑匣子/清晰結構)。三、10個判斷()1.啤酒與尿布的故事是聚類分析的典型實例。()算法是一種典型的關聯(lián)規(guī)則挖掘算法。()3.支持度是衡量關聯(lián)規(guī)則重要性的一個指標。()4.可信度是對關聯(lián)規(guī)則的準確度的衡量。()5.給定關聯(lián)規(guī)則AB,意味著:若A發(fā)生,B也會發(fā)生。()6.頻繁閉項集可用來無損壓縮頻繁項集。()7.關聯(lián)規(guī)則可以用枚舉的方法產(chǎn)生。()算法產(chǎn)生的關聯(lián)規(guī)則總是確定的。()9.不滿足給定評價度量的關聯(lián)規(guī)則是無趣的。()10.對于項集來說,置信度沒有意義。四、5個簡答1.簡述關聯(lián)規(guī)則產(chǎn)生的兩個基本步驟。算法是從事務數(shù)據(jù)庫中挖掘布爾關聯(lián)規(guī)則的常用算法,該算法利用頻繁項集性質的先驗知識,從候選項集中找到頻繁項集。請簡述Apriori算法的基本原理。3.簡述Apriori算法的優(yōu)點和缺點。4.針對Apriori算法的缺點,可以做哪些方面的改進5.強關聯(lián)規(guī)則一定是有趣的嗎為什么
數(shù)據(jù)挖掘考試題目+參考答案一、10個選擇1.以下屬于關聯(lián)分析的是(B)A.CPU性能預測 B.購物籃分析C.自動判斷鳶尾花類別 D.股票趨勢建模2.維克托?邁爾-舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中,持續(xù)強調了一個觀點:大數(shù)據(jù)時代的到來,使我們無法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時,我們更應該注重數(shù)據(jù)中的相關關系,而不是因果關系。其中,數(shù)據(jù)之間的相關關系可以通過以下哪個算法直接挖掘(D)A.K-means B.BayesNetworkC. D.Apriori3.置信度(confidence)是衡量興趣度度量(B)的指標。A.簡潔性 B.確定性C.實用性 D.新穎性算法的加速過程依賴于以下哪個策略(B)A.抽樣 B.剪枝C.緩沖 D.并行5.以下哪個會降低Apriori算法的挖掘效率(D)A.支持度閾值增大 B.項數(shù)減少C.事務數(shù)減少 D.減小硬盤讀寫速率算法使用到以下哪些東東(C)A.格結構、有向無環(huán)圖 B.二叉樹、哈希樹C.格結構、哈希樹 D.多叉樹、有向無環(huán)圖7.非頻繁模式(D)A.其置信度小于閾值 B.令人不感興趣C.包含負模式和負相關模式 D.對異常數(shù)據(jù)項敏感8.對頻繁項集、頻繁閉項集、極大頻繁項集的關系描述正確的是(B)[注:分別以1、2、3代表之]A.3可以還原出無損的1 B.2可以還原出無損的1C.3與2是完全等價的 D.2與1是完全等價的tree在Apriori算法中所起的作用是(C)A.存儲數(shù)據(jù) B.查找C.加速查找 D.剪枝10.以下不屬于數(shù)據(jù)挖掘軟件的是(C)A.SPSSModeler B.WekaC.ApacheSpark D.Knime二、10個填空1.關聯(lián)分析中表示關聯(lián)關系的方法主要有:項集和關聯(lián)規(guī)則。2.關聯(lián)規(guī)則的評價度量主要有:支持度和置信度。3.關聯(lián)規(guī)則挖掘的算法主要有:Apriori和FP-Growth。4.購物籃分析中,數(shù)據(jù)是以不對稱二元變量的形式呈現(xiàn)。5.一個項集滿足最小支持度,我們稱之為頻繁項集。6.一個關聯(lián)規(guī)則同時滿足最小支持度和最小置信度,我們稱之為強規(guī)則。7.在回歸與相關分析中,因變量值隨自變量值的增大(減?。┒鴾p?。ㄔ龃螅┑默F(xiàn)象叫做負相關。8.極大頻繁項集不能無損還原出頻繁項集,是因為它不包含頻繁項集的支持度信息。9.經(jīng)典的Apriori算法是逐層掃描的,也就是說它是寬度(選:深度/寬度)優(yōu)先的。10.數(shù)據(jù)挖掘大概步驟包括:輸入數(shù)據(jù)預處理挖掘后處理輸出知識。其中,輸出的知識可以有很多種表示形式,兩種極端的形式是:①內部結構難以被理解的黑匣子,比如說人工神經(jīng)網(wǎng)絡訓練得出的網(wǎng)絡;②模式結構清晰的匣子,這種結構容易被人理解,比如說決策樹產(chǎn)生的樹。那么,關聯(lián)分析中輸出的知識的表示形式主要是清晰結構(選:黑匣子/清晰結構)。三、10個判斷(?)1.啤酒與尿布的故事是聚類分析的典型實例。(?)算法是一種典型的關聯(lián)規(guī)則挖掘算法。(?)3.支持度是衡量關聯(lián)規(guī)則重要性的一個指標。(?)4.可信度是對關聯(lián)規(guī)則的準確度的衡量。(?)5.給定關聯(lián)規(guī)則AB,意味著:若A發(fā)生,B也會發(fā)生。(?)6.頻繁閉項集可用來無損壓縮頻繁項集。(?)7.關聯(lián)規(guī)則可以用枚舉的方法產(chǎn)生。(?)算法產(chǎn)生的關聯(lián)規(guī)則總是確定的。(?)9.不滿足給定評價度量的關聯(lián)規(guī)則是無趣的。(?)10.對于項集來說,置信度沒有意義。四、5個簡答1.簡述關聯(lián)規(guī)則產(chǎn)生的兩個基本步驟。答:關聯(lián)規(guī)則產(chǎn)生的兩個基本步驟為:①根據(jù)給定的支持度從項集中產(chǎn)生頻繁項集;②根據(jù)給定的置信度從頻繁項集中產(chǎn)生關聯(lián)規(guī)則。算法是從事務數(shù)據(jù)庫中挖掘布爾關聯(lián)規(guī)則的常用算法,該算法利用頻繁項集性質的先驗知識,從候選項集中找到頻繁項集。請簡述Apriori算法的基本原理。答:關聯(lián)規(guī)則的產(chǎn)生并不依賴于Apriori算法,Apriori算法用來加速規(guī)則的產(chǎn)生過程。Apriori算法的加速過程依賴于這樣一個先驗原理:“頻繁項集的子集是頻繁的”。3.簡述Apriori算法的優(yōu)點和缺點。答:Apriori算法的優(yōu)點:結構簡單、易于理解。 Apriori算法的缺點:產(chǎn)生大量的候選項集,I/O開銷較大。4.針對Apriori算法的缺點,可以做哪些方面的改進答:Apriori算法的缺點主要是產(chǎn)生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年租賃合同樣本下載
- 2025年江蘇省張家港市高三下學期高考適應性測試(二模)物理試題含解析
- 河南省信陽市二中重點名校2025年初三下學期第一次模擬-物理試題試卷含解析
- 成都職業(yè)技術學院《應用時間序列分析Ⅰ》2023-2024學年第二學期期末試卷
- 2025年中國城委托經(jīng)營管理合同
- 浙江省諸暨市同山中心學校2024-2025學年初三(寒假第4次)質量檢測試題化學試題科含解析
- 2025年柴油墊資合同模板
- 吉林省長春市榆樹市第一高級中學2024-2025學年高中畢業(yè)班5月模擬考試英語試題含解析
- 承德醫(yī)學院《動畫造型基礎》2023-2024學年第二學期期末試卷
- 柳州護欄施工方案
- 浙江省溫州市2025屆高三下學3月二模試題 英語 南瓜雕刻比賽故事續(xù)寫 講義
- 縣人民醫(yī)院開展產(chǎn)前篩查技術服務可行性研究報告
- 小紅書運營:小紅書賬號運營培訓課件
- 2025年上半年上海青浦新城發(fā)展(集團)限公司自主招聘9名易考易錯模擬試題(共500題)試卷后附參考答案
- 墻紙墻布施工工藝標準化流程
- 水泥混凝土路面翻修施工方案詳解
- 《射雕英雄傳》好書讀后感
- DB51T 2049-2015 建筑消防設施檢測規(guī)范
- 【MOOC】風景背后的地貌學-華中師范大學 中國大學慕課MOOC答案
- 2024版《安全生產(chǎn)法》考試題庫附答案(共90題)
- 企業(yè)天然氣轉讓協(xié)議書范文范本
評論
0/150
提交評論