數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)考試簡(jiǎn)答題_第1頁(yè)
數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)考試簡(jiǎn)答題_第2頁(yè)
數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)考試簡(jiǎn)答題_第3頁(yè)
數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)考試簡(jiǎn)答題_第4頁(yè)
數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)考試簡(jiǎn)答題_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 析以及偏差分析等 (3 分)K-近鄰算法 (k-Nearest Neighbors) (1邏輯回歸 (Logistic Regression) (1 分) 分) 線性回歸 (Linear Regression) (1 分)支持向量機(jī) (1分)(1) 使用的模型比較復(fù)雜,學(xué)習(xí)能力過(guò)(2) 有噪聲存在 (1分)(3) 數(shù)據(jù)量有限 (1分)(1) 提前終止(當(dāng)驗(yàn)證集上的效果變差的時(shí)候) (1分)(2) 數(shù)據(jù)集擴(kuò)增 (1分)(3) 尋找最優(yōu)參數(shù) (1分) (1) 在高維空間非常高效 (1分)(2) 即使在數(shù)據(jù)維度比樣本大的情況下仍然有效 (1 分)(3) 在決策函數(shù)中使用訓(xùn)練集的子集,因此它也是高效

2、利用內(nèi)存的 (1分)(1) 如果特征數(shù)量比樣本數(shù)量大得多,在選擇核函數(shù)時(shí)要避免過(guò)擬合 (1分)(2) 支持向量機(jī)通過(guò)尋找支持向量找到最優(yōu)分割平面,是典型的二分類問(wèn)題, 因(3) 不直接提供概率估計(jì) (1分)5 、數(shù)據(jù)挖掘的兩大目標(biāo)分為預(yù)測(cè)和描述,監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)分別對(duì)應(yīng)哪類目標(biāo)?監(jiān)督 學(xué)習(xí)和 無(wú)監(jiān)督學(xué)習(xí)的泄義是什么?分別從監(jiān)督類學(xué)習(xí)和無(wú)監(jiān)督類學(xué)習(xí)中找一類算法的實(shí)例 應(yīng)用進(jìn)行舉例 2. 監(jiān)督學(xué)習(xí):從標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)推斷一個(gè)功能的機(jī)器學(xué)習(xí)任務(wù)無(wú)監(jiān)督學(xué)習(xí):根據(jù)類別未知(沒(méi)有標(biāo)記)的訓(xùn)練樣本解決模式識(shí)別中的各種 問(wèn) 習(xí)舉例:聚類算法。利用聚類算法,如網(wǎng)購(gòu)平臺(tái),通過(guò)用戶購(gòu)物喜好等 進(jìn)行聚類,即 客戶

3、群體的劃分。當(dāng)樣本不平衡時(shí),新樣本的類別偏向于訓(xùn)練樣本中數(shù)量占優(yōu)的類別,容易導(dǎo)致預(yù) 測(cè)錯(cuò) 具有較高的訃算復(fù)雜度和內(nèi)存消耗,因?yàn)閷?duì)每一個(gè)未知樣本,都要計(jì)算它到全體聚類是將物理或抽象對(duì)象的集合分組成為多個(gè)類或簇的過(guò)程,使得在同一個(gè)簇中 的對(duì) 聚類與分類的不同,聚類要?jiǎng)澐值念愂俏粗?,分類則是可按已知規(guī)則進(jìn)行;聚 類是 定義的類和帶類標(biāo)號(hào)的訓(xùn)練實(shí)例,屬于觀察 式學(xué)習(xí), (1) 從一系列數(shù)據(jù) D 中任意選擇 K個(gè)對(duì)象作為初始簇的中心 (1分)(2) 根據(jù)數(shù)據(jù)到聚類中心的距離,對(duì)每個(gè)對(duì)象進(jìn)行分配 (1分)(3) 更新聚類中心位置,即計(jì)算每個(gè)簇中所有對(duì)象的質(zhì)心,將聚類中心移動(dòng)到重復(fù)過(guò)程 (2) (3) (

4、1 分)分)LI 雜度和空間復(fù)雜度,或者是去掉數(shù)據(jù)集中夾朵的噪聲,或者是為了使用較少 的特征進(jìn) 的降維算法有: 主成分分析,因子分析,獨(dú)立成分分析 (3 分) 模型訓(xùn)練-模型評(píng)測(cè)-模型應(yīng)用2 、請(qǐng)談?wù)勀銓?duì)貝葉斯算法中先驗(yàn)概率、后驗(yàn)概率、條件概率的理解,以及怎么 利用后驗(yàn)概率計(jì)算條件概率(可用公式表達(dá))?先驗(yàn)概率一一事件發(fā)生前的預(yù)判概率??梢允腔跉v史數(shù)據(jù)的統(tǒng)訃,可以山背景 后驗(yàn)概率一一結(jié)果發(fā)生后反推事件發(fā)生原因的概率;或者說(shuō),基于先驗(yàn)概率求得 的反 和條件概率、先驗(yàn)概率聯(lián)系起來(lái),相互推算:P(B) P(B)力數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換的描述,數(shù)據(jù)倉(cāng)庫(kù)內(nèi)對(duì)象和數(shù)據(jù)結(jié)構(gòu)的定義,數(shù)據(jù)清理和 數(shù) 歷史記錄,

5、數(shù)據(jù)導(dǎo)入歷史記錄和信息發(fā)布?xì)v史記錄3、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市有什么相同和區(qū)別之處?S用戶域的離散化町能是臨時(shí)組織的(無(wú)規(guī)劃)一些歷史的、詳細(xì)的和概括的用戶關(guān)心的某一個(gè)中心上題很少的內(nèi)部和外部源開(kāi)始小,逐步變大多,半復(fù)雜性結(jié)構(gòu),合并復(fù)雜立集中式,企業(yè)級(jí)(可能)歷史的,詳細(xì)的和概括的輕微不規(guī)范的大單一的復(fù)雜結(jié)構(gòu)內(nèi)容源OOLAP決策人員、高級(jí)管理人員OLTP操作人員,底層管理人員的 歷史的、聚集的、多維的、集 成 可能讀取百萬(wàn)條以上記錄雜查詢可能只有兒十個(gè)或上百個(gè)用戶通常在 TB級(jí) ( 100GlTB及以當(dāng)前的,最新的,細(xì)節(jié)的,二維 通常一次讀或?qū)憯?shù)十條記錄通常是成千上萬(wàn)個(gè)用戶通常是在 GB級(jí) (100

6、MB-1GB)計(jì) 規(guī)模小第 7 章管理規(guī)則與協(xié)同過(guò)濾1 ) 簡(jiǎn)述 Apriori算法原理。Apriori性質(zhì):一個(gè)項(xiàng)集是頻繁的,那么它的所有子集都是頻繁的。一個(gè)項(xiàng)集 的支 方法找出頻繁項(xiàng)集, 首先找出 1 2) 為什么說(shuō)強(qiáng)關(guān)聯(lián)規(guī)則不一定都是有效的,請(qǐng)舉例說(shuō)明之。谷類早餐的零售商對(duì) 5000 名學(xué) 吃這類早餐。假設(shè)支持度閾值 s-0.4,置信度閾值 c=60%o基 于上面數(shù)據(jù)和假設(shè) 我們可挖掘出強(qiáng)關(guān)聯(lián)規(guī)則“(打籃球)一(吃早餐)“,因?yàn)槠?打籃 球)和(吃早 餐)的支持度都大于支持度閾值,都是頻繁項(xiàng),而規(guī)則的置信度 c=40%/60%=66.6%也 是負(fù)關(guān)聯(lián)的。3) 證明頻繁集的所有非空子集必須也是頻繁的。反證法。根據(jù)定義,如果項(xiàng)集 /滿足最小支持度閾值 msup,則/不是頻 繁的,即 o YTYsi。根據(jù)項(xiàng)目集支持?jǐn)?shù)的定義,很容易知道支持 X的元組一定支持 Y,所以si 3 s,即support (Y) N support (X)。所以 support (Y) $ support (X) N minsupport,因此 Y 是頻繁項(xiàng) 口集。AprioriD中的事務(wù)劃分為 若干個(gè)不重疊的部分。 證明在證明:給定頻繁項(xiàng)集/和/的子集,證明規(guī)則“ 的置信度不可 規(guī)則的置信度不可能大于“$ =

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論