數(shù)據(jù)挖掘-課后習(xí)題_第1頁
數(shù)據(jù)挖掘-課后習(xí)題_第2頁
數(shù)據(jù)挖掘-課后習(xí)題_第3頁
數(shù)據(jù)挖掘-課后習(xí)題_第4頁
數(shù)據(jù)挖掘-課后習(xí)題_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、習(xí)題-2:數(shù)據(jù)(或?qū)傩裕┑念愋陀心膸追N?怎樣區(qū)分這些類型?每種類型舉一個例子。標(biāo)稱屬性的值只提供足夠的信息以_區(qū)分_對象. 序數(shù)屬性的值提供足夠的信息確定對象的_序_. 對于比率屬性的值,進(jìn)行_差_和_比率_操作都是有意義的. 攝氏溫度、年齡、質(zhì)量、長度、基因表達(dá)量、一號染色體的基因起始位置,它們分別屬于什么數(shù)據(jù)類型。數(shù)據(jù)集的類型主要有幾類?每種類型又包含哪些具體的數(shù)據(jù)集子類型。數(shù)據(jù)矩陣是一種特殊的記錄數(shù)據(jù)類型。與記錄數(shù)據(jù)類型相比,特殊在哪里?目前有100多個代謝通路,如葡萄糖代謝、嘌呤代謝等,那么葡萄糖代謝屬于帶有對象之間聯(lián)系的數(shù)據(jù)還是具有圖形對象的數(shù)據(jù)?如下是酵母細(xì)胞在多個時間點(diǎn)上的全基因

2、組表達(dá)情況。該數(shù)據(jù)集屬于哪種具體的數(shù)據(jù)集類型?這種數(shù)據(jù)有什么特點(diǎn)。噪聲和離群點(diǎn)的區(qū)別?產(chǎn)生遺漏值的原因有哪些?怎樣處理遺漏值?數(shù)據(jù)預(yù)處理主要有什么方法?聚集的主要目的有:數(shù)據(jù)歸約、使數(shù)據(jù)性質(zhì)更加穩(wěn)定、_。(判斷對錯?。㎡MIM數(shù)據(jù)庫中每個疾病已知的疾病基因很少,因此難以利用他們來識別相應(yīng)的通路。為此我們可以利用特征選擇的方法把疾病亞類匯集起來,如肝移植、腎移植、等疾病,稱為器官移植疾病。然后得到較多的基因,再進(jìn)行識別通路。(錯,聚集的方法)統(tǒng)計學(xué)使用抽樣是因為_獲得_(獲得、處理)感興趣的整個數(shù)據(jù)集的費(fèi)用太高、太費(fèi)時間。數(shù)據(jù)挖掘使用抽樣是因為_處理_(獲得、處理)所有的數(shù)據(jù)的費(fèi)用太高、太費(fèi)時間

3、。已知人類基因有2萬個,我們檢測了所有1000疾病基因?qū)υ谕分械木嚯x,結(jié)果發(fā)現(xiàn)它們的平均距離(d)很小。但我們不確定這種現(xiàn)象是否是疾病基因特有的。試?yán)贸闃臃椒▉眚炞C這種現(xiàn)象。連續(xù)屬性離散化方法主要有_、_和_。敘述等寬和等頻離散化方法的原理。當(dāng)數(shù)據(jù)有一些離群點(diǎn)時,采用均值和標(biāo)準(zhǔn)差進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化受離群點(diǎn)影響大。這時可用_中位點(diǎn) 和_絕對標(biāo)準(zhǔn)差 代替。對象之間相似度和相異度測量方法主要有哪些?明可夫斯基距離 ,當(dāng)r=1時,該距離稱為_城市塊距離_。當(dāng)r=2時,該距離稱為_。有兩個數(shù)據(jù)對象,他們都是一維的數(shù)據(jù)(即簡單屬性),那么當(dāng)他們是標(biāo)稱、序數(shù)、或連續(xù)屬性時,他們之間的相似度和相異度怎樣計算。

4、如果利用基因表達(dá)譜來構(gòu)建基因相關(guān)網(wǎng)絡(luò),可以把每個基因當(dāng)作數(shù)據(jù)對象,然后計算對象間的表達(dá)相關(guān)度。那么計算這種相關(guān)度可以使用_皮爾森相關(guān)系數(shù)_測度。闡述你選擇這種測度的理由?并敘述怎樣利用這種測度來構(gòu)建網(wǎng)絡(luò)。(因為是連續(xù)的)疾病的發(fā)生、發(fā)展與通路密切相關(guān)。目前已知的通路有100個。研究人員發(fā)現(xiàn)皮膚癌與其中的30個通路相關(guān),中風(fēng)與其中的20個通路相關(guān)。而且這兩個疾病共享的通路有10個。選擇一種方法計算這兩個疾病的相似性值?SMC = (f11 + f00)/(f01 + f10 + f11 + f00) = (10+60) / (10+20+10+60) = 0.7 J = (f11) / (f01

5、 + f10 + f11) = 10 / (10 + 20 + 10) = 0.25 習(xí)題-6隨機(jī)森林方法原理怎樣利用多棵決策樹來尋找疾病風(fēng)險基因隨機(jī)森林與組合決策方法的異同點(diǎn)詳細(xì)閱讀組合決策方法論文組合決策還適用于解決哪些生物學(xué)(醫(yī)學(xué))問題習(xí)題-9稀疏化的好處OPOSSUM聚類算法中重要一個步驟是稀疏化,敘述該稀疏化方法Chameleon算法使用接近性和互連性概念以及簇的局部建模。關(guān)鍵思想是:使用_和_概念,僅當(dāng)合并后的結(jié)果簇_原來的兩個簇時,這兩個簇才合并。Jarvis-Patrick(JP)聚類算法首先計算_圖,然后使用相似度閾值,稀疏化該圖找出稀疏化圖的連通分支?;赟NN密度的聚類不

6、象JP聚類簡單地使用域值,然后取_作為簇,基于SNN密度的聚類使用基于SNN密度和_方法。SNN密度的優(yōu)勢。習(xí)題-6考慮下表中的數(shù)據(jù)(a)計算項集e,b,d和b,d,e的支持度.(b)利用(a)計算的結(jié)果,計算關(guān)聯(lián)規(guī)則b,d=e和e=b,d的置信度。置信度是對稱的度量嗎?習(xí)題考慮如圖所示的候選3-項集的Hash樹(a)給定一個包含項1,3,4,5,8的事務(wù),在尋找該事務(wù)的候選項集時,訪問了Hash樹的哪些葉節(jié)點(diǎn)?(b)使用(a)中訪問的葉節(jié)點(diǎn)確定事務(wù)1,3,4,5,8包含的候選項集。習(xí)題習(xí)題將Apriori算法用于下表所示的數(shù)據(jù)集,最小支持度為30%.習(xí)題(a)畫出數(shù)據(jù)集的項集格。并用以下字母

7、標(biāo)記格中的每個節(jié)點(diǎn)。N:不是候選項集;F:頻繁項集;I:經(jīng)支持度計數(shù)后,發(fā)現(xiàn)是非頻繁的候選項集。(b)頻繁項集的百分比是多少?(c)Apriori算法的剪枝率是多少?(d)假警告率是多少?(假警告率指經(jīng)過支持度計算后被發(fā)現(xiàn)是非頻繁的候選項集所占的百分比。)習(xí)題考慮下面的相依表(a)對于表I,計算關(guān)聯(lián)模式A,B的支持度,興趣度和相關(guān)系數(shù),并計算規(guī)則AB和BA的置信度。(b)對于表II ,計算關(guān)聯(lián)模式A,B的支持度,興趣度和相關(guān)系數(shù),并計算規(guī)則AB和BA的置信度。(c)由(a)和(b)的結(jié)果可以得出什么結(jié)論。習(xí)題-7考慮下表所示的數(shù)據(jù)集。第一個屬性是連續(xù)的,而其余兩個屬性是非對稱二元的。一個規(guī)則是強(qiáng)規(guī)則,如果它的支持度超過15%且置信度超過60%。表中數(shù)據(jù)支持如下兩個強(qiáng)規(guī)則:(i) (1 A 2),B = 1 C = 1(ii) (5 A 8),B = 1 C = 1習(xí)題(a)計算這兩個規(guī)則的支持度和置信度。(b)為了使用傳統(tǒng)的Apriori算法找出這些規(guī)則,我們需要離散化連續(xù)屬性A。假定我們使用等寬分箱方法離散化該數(shù)據(jù),其中bin-width=2,3,4.對于每個bin-width,上面兩個規(guī)則是否能夠被Apriori算法發(fā)現(xiàn)?對于每個與前面規(guī)則對應(yīng)的規(guī)則,計算其支持度和置信度。習(xí)題對于下面給定的每個序列w=,確定它們是否是序列的子

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論