模式識別基礎(chǔ)復(fù)習(xí)資料_第1頁
模式識別基礎(chǔ)復(fù)習(xí)資料_第2頁
模式識別基礎(chǔ)復(fù)習(xí)資料_第3頁
模式識別基礎(chǔ)復(fù)習(xí)資料_第4頁
模式識別基礎(chǔ)復(fù)習(xí)資料_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、模式識別基礎(chǔ)復(fù)習(xí)資料教師:張學(xué)工2009秋季X清華大學(xué) 自動化系2009秋季Contents卷一、模式識別機(jī)經(jīng)3卷二、20082009秋_模式識別_張學(xué)工_期末B4卷三、20072008秋_模式識別_張學(xué)工_期末B6卷四、20072008秋_模式識別_張學(xué)工_期末A8卷五、20062007秋_模式識別_張學(xué)工_期末B9卷六、20052006秋_模式識別_張學(xué)工_期末10卷七、20042005秋_模式識別_張學(xué)工_期末11卷八、20032004秋_模式識別_張學(xué)工_期末12卷九、19992000春_模式識別_張學(xué)工_期末13附錄、名詞以及原理15 卷一、模

2、式識別機(jī)經(jīng)                           1.(16分)正態(tài)分布N(0,9)與均勻分布5,10,先驗概率1/2最小錯誤率分類器,并畫圖.最小錯誤率分類器缺點 答:設(shè)計最小錯誤率分類器:如果則為反之則為(特別的,當(dāng),可以接受為任何一類也可以拒絕。在連續(xù)情況下這種情況幾乎完全不出現(xiàn)。,2畫圖如下,紅色表示(5,10均勻分

3、布的后驗概率),藍(lán)色表示(N(0,9)的后驗概率)(注意!圖是錯的作者)(圖是錯的)3最小錯誤分類器有許多局限性。其一,其只考慮到錯誤率的限制,并未考慮到實際情況中不同錯誤的代價等等,為了克服這類局限性,學(xué)者們在最小錯誤率之外又設(shè)計了最小風(fēng)險分類器、限定一類錯誤率令另一類錯誤率最小的分類器等;其二,其只能用于監(jiān)督學(xué)習(xí),要求已知分類情況,并且要滿足I.I.D條件即樣本與總體分布相符;其三,其要求必須知道先驗概率,許多實際問題的先驗概率是難以得到的。 2.(22分)8個樣品w1 3個.,w2 5個.1)最近鄰分類,畫圖2)給兩個點.,問怎么分3)最近鄰分類器線性分類器?4)設(shè)計

4、二次曲面分之5)壓縮近鄰法壓縮過程及結(jié)果6)壓縮近鄰法分界面并比較1)答:(題目不完整)最近鄰法(k=1),k近鄰(k個最近的點投票),可以考慮加權(quán)3.(5分)證明兩個樣品構(gòu)成得協(xié)方差矩陣一般是奇異的(不可逆的)答:設(shè),從而其第i行j列元素為,表示第m個樣本第n個維度的值。從而這是一個行列式為零的矩陣(第一行除以(),第二行除以之后想減得零,故該協(xié)方差陣是奇異的。 4.(26分)"距離"不同會有不同結(jié)果1)給出兩種你認(rèn)為重要的距離,如何定義及物理意義2)貝葉斯分類器,近鄰法,fisher投影法,c均值法是否受距離度量影響,不受則說明理由,受,距離說明答:距離可以是任意一種范

5、數(shù),設(shè)對點歐幾里得距離(2范數(shù)):每個坐標(biāo)的絕對值差之和(1范數(shù)):貝葉斯分類器不受、fisher投影法不受:都屬于判別函數(shù)與距離度量無關(guān)的,故不受影響,近鄰法,c均值法與受到距離度量的5.(15分)AB玩游戲,A問是非問題,B回答是或非.問1)游戲與模式識別什么內(nèi)容有關(guān)系?用模式識別語言描述2)B應(yīng)如何調(diào)整問題3)如果做成計算機(jī)游戲,寫出設(shè)計思路,方法,難點,解決方案.游戲受歡迎嗎?為什么?答:?這是一類決策樹問題??梢詫⒚恳粋€是非問題看做一個決策樹節(jié)點,是非答案決定了分支的方向(左或右)。調(diào)整問題應(yīng)該使得在有效分類的情況下樹深度最淺,就能在單次游戲最壞情況下最快猜出。(我覺得挺2的,應(yīng)該不

6、會受歡迎。不過可以用作公安局犯罪嫌疑人指認(rèn)的軟件)6.(6分)自己設(shè)計模糊數(shù)學(xué)用于模式識別的其他理論方法(除去聚類).寫出思路必要細(xì)節(jié).分析可能結(jié)果.答:例如k-近鄰法的模糊性質(zhì)。定義隸屬函數(shù)表示屬于類的程度,值域上界為1,表示完全屬于,下界為0,表示完全不屬于,將對任意一個待判定的樣本,選取某個距離度量(如歐幾里得距離)最近的k個已知類別的訓(xùn)練樣本,從而令得到x對于類的隸屬函數(shù)。7.(10分)專家經(jīng)常根據(jù)特殊筆跡或特殊長相分類.問如何在一個人臉自動識別系統(tǒng)或筆跡自動識別系統(tǒng)中實現(xiàn)人的這一經(jīng)驗.從數(shù)據(jù)預(yù)處理,特征提取,選擇分類器設(shè)計等角度描述實現(xiàn)這一經(jīng)驗的方法與可能性.優(yōu)點?缺點?答:這是一類

7、特殊的圖像識別問題,可以采用K-L分類卷二、20082009秋_模式識別_張學(xué)工_期末B1.(30') 簡要介紹下列概念·ROC曲線、交叉驗證、似然函數(shù)、特征選擇與提取、推廣能力、隨機(jī)森林答:1 ROC曲線(Receiver Operational Characteristic Curve)是以False Positive Rate為橫坐標(biāo),True Positive Rate為縱坐標(biāo)的繪制的曲線,通過改變分點給出對應(yīng)的FP和TP繪成。曲線的點表示了在敏感度和特殊性之間的平衡,例如越往左,也就是假陽性越小,則真陽性也越小。曲線下方的面積越大,則表示該方法越有利于區(qū)分

8、兩種類別。2 交叉驗證是指交叉驗證(Cross-validation)主要用于建模應(yīng)用中,在給定的建模樣本中,拿出大部分樣本進(jìn)行建模型,留小部分樣本用剛建立的模型進(jìn)行預(yù)報,并求這小部分樣本的預(yù)報誤差,記錄它們的平方加和。這個過程一直進(jìn)行,直到所有的樣本都被預(yù)報了一次而且僅被預(yù)報一次。把每個樣本的預(yù)報誤差平方加和,這個數(shù)越小,表示該方法越好3 特征選擇與提取:特征是指對事物的觀測或者某種運(yùn)算,用于分類。特征提取是指直接觀測到或者經(jīng)過初步運(yùn)算的特征原始特征。特征選擇是指從m個特征中選擇m1個,m1<m。特征提?。ㄌ卣鲏嚎s、變換)將m個特征變?yōu)閙2個新特征。4 推廣能力:在有限的樣本上建立的學(xué)

9、習(xí)機(jī)器對未來樣本的表現(xiàn)。5 隨機(jī)森林是指通過bootstrapping 樣本來生成許多決策樹,對于決策樹上的每一個節(jié)點,選擇m個變量來進(jìn)行決策。計算訓(xùn)練集基于這m個變量的最佳分劃。(Wiki:在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。 Leo Breiman和Adele Cutler發(fā)展出推論出隨機(jī)森林的算法。 而 "Random Forests" 是他們的商標(biāo)。 這個術(shù)語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機(jī)決策森林(random decision forests)而來的。這個方法則是結(jié)合 B

10、reimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造決策樹的集合。)2.(30)簡述Fisher線性判別方法的基本原理并討論如何在Fisher線性判別中實現(xiàn)最小風(fēng)險的分類決策。答:1. Fisher線性判別法是指:將多維判別決策問題通過線性組合降低為1維的時候,選擇一個最優(yōu)的一維線性判別函數(shù)的方法。該方法考慮了不同類別樣本的協(xié)方差和均值之差。決策面法向量為。2. 考慮最小風(fēng)險分類決策的時候,需要甄選分界閾值點。從而可以根據(jù)貝葉斯決策規(guī)獲得一種一維內(nèi)的最小風(fēng)

11、險分類器。例如,經(jīng)過投影后的分別服從的分布規(guī)律P14頁下方3.(20)簡述C-均值方法的基本原理,并討論在什么情況下此方法比較適用。答:C均值法是一種動態(tài)聚類法,通過多次迭代,逐步調(diào)整類別劃分,最終使某準(zhǔn)則達(dá)到最優(yōu)。C均值法的目標(biāo)是最小化最小方差劃分。用另一個角度來看,就是用C個碼本來代表整個樣本集,使這種表示帶來的總體誤差最小向量量化。誤差平方和聚類準(zhǔn)則:見課件9.3(p14)適用條件:課件9.3 (p22) 4.(20)SVM與多層感知器都可以實現(xiàn)非線性分類,試討論它們在原理上的聯(lián)系與區(qū)別。答:1. 支持向量機(jī)(SVM:Supporting Vector Mechine)原理:課件5.5

12、P6(特點是:P13),課本P301。支持向量機(jī)的基本思想可以概括為:首先通過非線性變化將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)先行分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)K(X,Y)實現(xiàn)的。2. 多層感知器(MLP:Multi-Layer Perception)原理:課件5.4 P10。是一種前饋人工神經(jīng)網(wǎng)絡(luò)。它利用三層或者三層以上多個感知器來講輸入數(shù)據(jù)映射為復(fù)雜輸出數(shù)據(jù),使得分類器可以產(chǎn)生非線性的或者超平面的決策面,從而成為分線性分類器。(Wiki:A multilayer perceptron is a feedforward artificial neural

13、network model that maps sets of input data onto a set of appropriate output. It is a modification of the standard linear perceptron in that it uses three or more layers of neurons (nodes) with nonlinear activation functions, and is more powerful than the perceptron in that it can distinguish data th

14、at is not linearly separable, or separable by a hyperplane.1)3. 聯(lián)系與差異:都屬于非線性分類器,但是其中一種是通過特征空間的非線性變換來實現(xiàn)最優(yōu)決策面的,而多層感知器則是通過多層感知器(邏輯單元)的邏輯組合(輸入-中間-輸出)以及每層之間各數(shù)據(jù)的線性組合來實現(xiàn)非線性決策面的5.(沒有分)給課程提建設(shè)性建議。1.通過模式識別基礎(chǔ)課程的學(xué)習(xí)。卷三、20072008秋_模式識別_張學(xué)工_期末B 1 .寫出英文全稱,中文,100字簡述 5*6=30a)Hierachical Clustering;&

15、#160;b)MLP;c)Nonparametric Estimation; d)SVMe)Fisher's Linear Discriminant Analysis;f)PCA;g)Random Forest1. Hierachical Clustering,分級聚類(課件9.4P45):從各類只有一個樣本點開始,逐級合并,每級只合并兩類,直到最后所有樣本都?xì)w到一類。聚類過程中考察類間相似度,依次決定類別數(shù)。2. MLP,Multi-Layer Perception,多層感知器原理:課件5.4 P10。是一種前饋人工神經(jīng)網(wǎng)絡(luò)

16、。它利用三層或者三層以上多個感知器來講輸入數(shù)據(jù)映射為復(fù)雜輸出數(shù)據(jù),使得分類器可以產(chǎn)生非線性的或者超平面的決策面,從而成為分線性分類器。(Wiki:A multilayer perceptron is a feedforward artificial neural network model that maps sets of input data onto a set of appropriate output. It is a modification of the standard linear perceptron in that it uses three or more layers

17、 of neurons (nodes) with nonlinear activation functions, and is more powerful than the perceptron in that it can distinguish data that is not linearly separable, or separable by a hyperplane.1)3. Nonparametric Estimation:非參數(shù)估計(課件3.5.1,P36)不假設(shè)概率模型,通過樣本落在區(qū)域的概率來估計出一個概率密度函數(shù)。常用的有窗函數(shù)法(如近鄰估計、Parzen窗估計

18、)。4. SVM,Supporting Vector Mechine,支持向量機(jī):課件5.5 P6(特點是:P13),課本P301。支持向量機(jī)的基本思想可以概括為:首先通過非線性變化將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)先行分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)K(X,Y)實現(xiàn)的。5. Fisher's Linear Discriminant Analysis, Fisher線性判別分析:Fisher線性判別法是指:將多維判別決策問題通過線性組合降低為1維的時候,選擇一個最優(yōu)的一維線性判別函數(shù)的方法。該方法考慮了不同類別樣本的協(xié)

19、方差和均值之差。決策面法向量為。6. PCA,Principal Component Analysis,主成分分析:課件8.2P21,目的:在統(tǒng)計學(xué)中,主成分分析(principal components analysis (PCA))是一種簡化數(shù)據(jù)集的技術(shù)。它是一個線性變換。這個變換把數(shù)據(jù)變換到一個新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(biāo)(稱為第一主成分)上, 第二大方差在第二個坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時保持?jǐn)?shù)據(jù)集的對方差貢獻(xiàn)最大的特征。這是通過保留低階主成 分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是

20、,這也不是一定的,要視具體應(yīng)用而定。6 Random Forest,隨機(jī)森林:隨機(jī)森林是指通過bootstrapping 樣本來生成許多決策樹,對于決策樹上的每一個節(jié)點,選擇m個變量來進(jìn)行決策。計算訓(xùn)練集基于這m個變量的最佳分劃。(Wiki:在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。 Leo Breiman和Adele Cutler發(fā)展出推論出隨機(jī)森林的算法。 而 "Random Forests" 是他們的商標(biāo)。 這個術(shù)語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機(jī)決策森林(random decisi

21、on forests)而來的。這個方法則是結(jié)合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造決策樹的集合。)2 200字簡述 4*5=20a)最小距離分類器何時是最優(yōu)分類器?b)寫出最小距離分類器,分段線性判別,最近鄰法的關(guān)系c)寫出決策樹和隨機(jī)森林的關(guān)系,以及為什么要有隨機(jī)森林        記不太清了,貌似有個SVM的原理?d)寫出K-L變換和

22、PCA的關(guān)系        寫出特征提取和fisher線性判別的關(guān)系答:1. 最小距離分類器:(課本P120頁)最小距離分類器是指在貝葉斯決策規(guī)則當(dāng)類條件概率密度為正態(tài)分布且各特征統(tǒng)計獨立同方差時,利用貝葉斯決策規(guī)則在可以得到線性距離判別函數(shù),特別是當(dāng)時,決策規(guī)則式可以寫成這時的最小距離分類器是滿足貝葉斯決策規(guī)則的最優(yōu)分類器。2. 最小距離分類器是一種分段線性的判別方法。每個樣本點的類別由最近的代表點的類別決定。最近鄰法是這種分類器的一種應(yīng)用,特殊之處在于(課本P120頁)最近鄰法是將每一個樣本都當(dāng)做類別的代表點3

23、. 隨機(jī)森林由多個決策樹組成。隨機(jī)森林的優(yōu)缺點:Wiki:The advantages of random forest are:· For many data sets, it produces a highly accurate classifier · It handles a very large number of input variables · It estimates the importance of variables in determining classification · It generates an internal

24、unbiased estimate of the generalization error as the forest building progresses · It includes a good method for estimating missing data and maintains accuracy when a large proportion of the data are missing · It provides an experimental way to detect variable interactions · It can bal

25、ance error in class population unbalanced data sets · It computes proximities between cases, useful for clustering, detecting outliers, and (by scaling) visualizing the data · Using the above, it can be extended to unlabeled data, leading to unsupervised clustering, outlier detection and d

26、ata views · Learning is fast The disadvantages of random forest are:· Random forest are prone to overfitting for some datasets. This is even more pronounced in noisy classification/regression tasks.6 · Random Forest does not handle large numbers of irrelevant features as well as ensem

27、bles of entropy-reducing decision trees.7 · It is more efficient to select a random decision boundary than an entropy-reducing decision boundary, thus making larger ensembles more feasible. Although this may seem to be an advantage at first, it has the effect of shifting the computation from tr

28、aining time to evaluation time, which is actually a disadvantage for most applications. 3. 寫出K-L變換和PCA的關(guān)系:PCA和K-L變換目的都是從高維的原始數(shù)據(jù)中提取低維度相關(guān)性低的特征數(shù)據(jù)。(白云飛:PCA針對樣本協(xié)方差矩陣,找出特征值較大的,K-L變換針對產(chǎn)生矩陣,可以根據(jù)不同準(zhǔn)則挑選特征值和特征向量,二者本質(zhì)相同)3構(gòu)造兩類分類器,100個訓(xùn)練數(shù)據(jù),使用K近鄰法,如何選擇K,給出一個合適的K,說明理由(1*5=5)答:K值不宜太大,太大則太多干擾樣本點被納入,太小則無法適應(yīng)小規(guī)模錯誤情況,對于1

29、00個訓(xùn)練數(shù)據(jù),一般來說選擇5、7、9比較合適。去奇數(shù)是為了避免出現(xiàn)兩種類別數(shù)相同無法判決的情況。4SOM若沒有鄰域作用,則變成什么算法?寫出該算法的目標(biāo)函數(shù),算法基本步驟(1*15=15) 答:SOM思路類似先作向量量化(聚類),用較少的點(子類)代表原樣本空間,把這些代表點進(jìn)行分類。(Wiki: A self-organizing map (SOM) or self-organizing feature map (SOFM) is a type of artificial neural network that is trained using unsupervised learning

30、to produce a low-dimensional (typically two-dimensional), discretized representation of the input space of the training samples, called a map. Self-organizing maps are different from other artificial neural networks in the sense that they use a neighborhood function to preserve the topological prope

31、rties of the input space.)如果沒有鄰域作用,就退化一個典型的C均值法。該算法計算步驟(課件9.3,P17)5綜合題。文本自動分類的原理性設(shè)計,按內(nèi)容分類為軍事,體育,娛樂等。例舉本科所學(xué)內(nèi)容和概念能在這個設(shè)計上怎么體現(xiàn)。1*30=30答:因為是按已知內(nèi)容分類,是一個監(jiān)督學(xué)習(xí)的模式識別問題??紤]如下監(jiān)督學(xué)習(xí)模式1.隨機(jī)獲取已經(jīng)定義好類別的樣本1.特征提?。好總€樣本進(jìn)行詞頻統(tǒng)計,詞匯來自辭海。假設(shè)辭海有80000個詞,則對每一個樣本,得到一個80000維的特征數(shù)據(jù)。顯然,這是一個高維數(shù)據(jù)。2.特征處理:(1)首先去所有樣本出現(xiàn)頻度都小于一定閾值的詞匯,比方說出現(xiàn)5次。剩下

32、10000維。(2)對這10000維進(jìn)行主成分分析,得到一個低維度的特征數(shù)據(jù),比如4維。(3)對于這三維,可以進(jìn)行一下分類:k近鄰法、支撐向量機(jī)法(廣義支撐向量機(jī))、Fisher判別法等。其中Fisher判別再次降維后還可以運(yùn)用基于最小錯誤率的貝葉斯決策3對于以上監(jiān)督學(xué)習(xí)模式的樣本可以進(jìn)行同一個方法的交叉驗證,去除一定的干擾。附加題說明兩類錯誤率。在SVM線性不可分的情況下,如何把最小風(fēng)險的概念引入SVM,對目標(biāo)函數(shù)應(yīng)該怎樣修正。(最多10分,全卷不會超過100分)答:(1)兩類錯誤率為“拒真納偽”。(2)(課本P298)如果線性不可分,就是某些樣本不能滿足條件時,引入松弛因子,使得條件變成,

33、對于足夠小的,只要使最小就能使錯分樣本數(shù)最小。對應(yīng)線性可分情況下的使分類間隔最大,在線性不可分的時候引入約束,最終得到目標(biāo)函數(shù),C為某個指定常數(shù),起著控制對錯分樣本懲罰的程度(風(fēng)險)的作用。關(guān)于風(fēng)險的討論在課本P299頁卷四、20072008秋_模式識別_張學(xué)工_期末A(略)      卷五、20062007秋_模式識別_張學(xué)工_期末B1.  寫出英文全稱并解釋相應(yīng)的概念或者方法的原理30%  a)非參數(shù)估計    b)非監(jiān)督模式識別  c)最大似然估計 

34、 d)MDS e)推廣能力      f)kNN答:其他見前文卷子。1. MDS:Multi-Dimensional Scaling,Multidimensional scaling (MDS) is a set of related statistical techniques often used in information visualization for exploring similarities or dissimilarities in data. MDS is a special case of

35、 ordination. An MDS algorithm starts with a matrix of itemitem similarities, then assigns a location to each item in N-dimensional space, where N is specified a priori. For sufficiently small N, the resulting locations may be displayed in a graph or 3D visualisation.2. 這里附上紅寶書預(yù)測詞匯:LDF:Linear Discrim

36、inant Functions線性判別函數(shù)。ISOMAPIsomap6 is a combination of Curvilinear Distance Analysis (CDA) and Multidimensional Scaling (MDS). Both CDA and Isomap begin by finding a set of the nearest neighbors of each point. They seek to preserve the geodesic distances between points while projecting the data int

37、o fewer dimensions. Geodesic distance is defined as the length of the shortest path between two points that stays on the manifold surface. These algorithms estimate geodesic distances by finding the shortest neighbor-to-neighbor path between every pair of points, which can be computed efficiently us

38、ing Dijkstras algorithm.LLELocally-Linear Embedding (LLE)8 was presented at approximately the same time as Isomap. It has several advantages over Isomap, including faster optimization when implemented to take advantage of sparse matrix algorithms, and better results with many problems. LLE also begi

39、ns by finding a set of the nearest neighbors of each point. It then computes a set of weights for each point that best describe the point as a linear combination of its neighbors. Finally, it uses an eigenvector-based optimization technique to find the low-dimensional embedding of points, such that

40、each point is still described with the same linear combination of its neighbors. LLE tends to handle non-uniform sample densities poorly because there is no fixed unit to prevent the weights from drifting as various regions differ in sample densities. LLE has no internal model.2.   &#

41、160;如果用kNN來解決作業(yè)中的男女生訓(xùn)練樣本問題,那么你如何選擇k?簡述理由答:K=5,7,9,理由見卷子3. 12%  無鄰域相互作用的SOM的相當(dāng)于是優(yōu)化什么目標(biāo)函數(shù),寫出目標(biāo)函數(shù)。8%答:C means,見前文4. 1)簡述兩類錯誤率的概念,并由此談一談最小風(fēng)險錯誤率Bayes分類器的原理?    8%     2)怎么把最小風(fēng)險的概念引入線性SVM中(考慮線性不可分的情況),嘗試寫出公式6%   3)怎么把最小風(fēng)險的概念引入Fishe

42、r線性判別中,簡述一下。6%答:見前文5. 現(xiàn)在先要建立一種針對不同用戶的文本郵件分類系統(tǒng),比如分成私人郵件,公務(wù)郵件等。描述怎么建立,課上講的哪些方法和概念可以用到?30%  答:見前文卷六、20052006秋_模式識別_張學(xué)工_期末張老師說:言多必失1. 10%  簡述最小錯誤率Bayes分類器的原理和適用范圍答:(NBAzzxy說):原理:通過觀察 x 把狀態(tài)的先驗概率轉(zhuǎn)化為狀態(tài)的后驗概率,比較不同的后驗概率并作出決策。 適用范圍:各類別總體的概率分布是已知的,要決策分類的類別數(shù)是一定的,離散數(shù)據(jù),相較其它算法可以解決高維問題。

43、2. 10%  什么是分類器的錯誤率?如何估計?        簡述兩類錯誤率的概念,以及如何控制兩類錯誤率的影響?答:兩類錯誤率是:拒真納偽??刂苾深愬e誤率(1)選擇更好的特征。(2)對特征進(jìn)行提取。(3)變更分類器。(4)同一種分類器引入風(fēng)險函數(shù)進(jìn)行權(quán)衡(Tradeoff)3. 10%  寫出英文全稱        模式識別    &

44、#160;   似然函數(shù)        非監(jiān)督學(xué)習(xí)      非參數(shù)估計        SVM     MLP     PCA     MDS(必殺!)    

45、  k-NN    SOM答:Pattern Recognition; Likelihood Function; Unsupervised Learning; Non-parametrical Estimation4. 10%  無鄰域相互作用的SOM的準(zhǔn)則函數(shù)?(記不清怎么說的了.)C-means,見前文5. 15%  學(xué)號末兩位和為奇數(shù)用身高數(shù)據(jù),為偶數(shù)用體重數(shù)據(jù)        體重:

46、0; 55      57      67      68      50        進(jìn)行平均距離分級聚類,給出分類樹,給出每級的距離矩陣。        聚為幾類合適?為什么?(67,

47、68),50),(55,57),分為兩類合適。每級距離矩陣:(67168)方差*50)方差*(551.41457),6. 15%  參數(shù)估計和非參數(shù)估計的概念?最大似然估計和Parzen窗法的原理?        如何估計錯誤率?答:參數(shù)估計:已知概率模型,根據(jù)樣本對參數(shù)進(jìn)行估計。非參數(shù)估計:未知概率模型,通過樣本對概率模型進(jìn)行直接估計。最大似然估計:在參數(shù)估計中選取使樣本出現(xiàn)概率最大(Most Likelihood)的參數(shù)進(jìn)行的估計。Parzen窗法是一種39),每個樣本點對分布函數(shù)產(chǎn)生貢獻(xiàn)用窗函數(shù)描述為k(x,xi)7. 20%  以下線性分類器的設(shè)計原理?各自特性,聯(lián)系?        A) 最小距離分類器   B) Fisher線性分類器        C) 感知準(zhǔn)則函數(shù)分類器   D) 線性SVM除

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論