![模式識別基礎(chǔ)復(fù)習資料_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/15/73b0a14c-3718-4f10-83a5-2ab942a81831/73b0a14c-3718-4f10-83a5-2ab942a818311.gif)
![模式識別基礎(chǔ)復(fù)習資料_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/15/73b0a14c-3718-4f10-83a5-2ab942a81831/73b0a14c-3718-4f10-83a5-2ab942a818312.gif)
![模式識別基礎(chǔ)復(fù)習資料_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/15/73b0a14c-3718-4f10-83a5-2ab942a81831/73b0a14c-3718-4f10-83a5-2ab942a818313.gif)
![模式識別基礎(chǔ)復(fù)習資料_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/15/73b0a14c-3718-4f10-83a5-2ab942a81831/73b0a14c-3718-4f10-83a5-2ab942a818314.gif)
![模式識別基礎(chǔ)復(fù)習資料_第5頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/15/73b0a14c-3718-4f10-83a5-2ab942a81831/73b0a14c-3718-4f10-83a5-2ab942a818315.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、模式識別基礎(chǔ)2009秋季模式識別基礎(chǔ)復(fù)習資料教師:張學(xué)工2009秋季X清華大學(xué) 自動化系2009秋季Contents卷一、模式識別機經(jīng)3卷二、20082009秋_模式識別_張學(xué)工_期末B4卷三、20072008秋_模式識別_張學(xué)工_期末B6卷四、20072008秋_模式識別_張學(xué)工_期末A8卷五、20062007秋_模式識別_張學(xué)工_期末B9卷六、20052006秋_模式識別_張學(xué)工_期末10卷七、20042005秋_模式識別_張學(xué)工_期末11卷八、20032004秋_模式識別_張學(xué)工_期末12卷九、19992000春_模式識別_張學(xué)工_期末13附錄、名詞以及原理
2、15 卷一、模式識別機經(jīng) 1.(16分)正態(tài)分布N(0,9)與均勻分布5,10,先驗概率1/2最小錯誤率分類器,并畫圖.最小錯誤率分類器缺點 答:設(shè)計最小錯誤率分類器:如果則為反之則為(特別的,當,可以接受為任何一類也可以拒絕。在連續(xù)情況下這種情況幾乎完全不出現(xiàn)。,2畫圖如下,
3、紅色表示(5,10均勻分布的后驗概率),藍色表示(N(0,9)的后驗概率)(注意!圖是錯的作者)(圖是錯的)3最小錯誤分類器有許多局限性。其一,其只考慮到錯誤率的限制,并未考慮到實際情況中不同錯誤的代價等等,為了克服這類局限性,學(xué)者們在最小錯誤率之外又設(shè)計了最小風險分類器、限定一類錯誤率令另一類錯誤率最小的分類器等;其二,其只能用于監(jiān)督學(xué)習,要求已知分類情況,并且要滿足I.I.D條件即樣本與總體分布相符;其三,其要求必須知道先驗概率,許多實際問題的先驗概率是難以得到的。 2.(22分)8個樣品w1 3個.,w2 5個.1)最近鄰分類,畫圖2)給兩個點.,問怎么分3)最近鄰分
4、類器線性分類器?4)設(shè)計二次曲面分之5)壓縮近鄰法壓縮過程及結(jié)果6)壓縮近鄰法分界面并比較1)答:(題目不完整)最近鄰法(k=1),k近鄰(k個最近的點投票),可以考慮加權(quán)3.(5分)證明兩個樣品構(gòu)成得協(xié)方差矩陣一般是奇異的(不可逆的)答:設(shè),從而其第i行j列元素為,表示第m個樣本第n個維度的值。從而這是一個行列式為零的矩陣(第一行除以(),第二行除以之后想減得零,故該協(xié)方差陣是奇異的。 4.(26分)"距離"不同會有不同結(jié)果1)給出兩種你認為重要的距離,如何定義及物理意義2)貝葉斯分類器,近鄰法,fisher投影法,c均值法是否受距離度量影響,不受則說明理由,受,距離說明
5、答:距離可以是任意一種范數(shù),設(shè)對點歐幾里得距離(2范數(shù)):每個坐標的絕對值差之和(1范數(shù)):貝葉斯分類器不受、fisher投影法不受:都屬于判別函數(shù)與距離度量無關(guān)的,故不受影響,近鄰法,c均值法與受到距離度量的5.(15分)AB玩游戲,A問是非問題,B回答是或非.問1)游戲與模式識別什么內(nèi)容有關(guān)系?用模式識別語言描述2)B應(yīng)如何調(diào)整問題3)如果做成計算機游戲,寫出設(shè)計思路,方法,難點,解決方案.游戲受歡迎嗎?為什么?答:?這是一類決策樹問題??梢詫⒚恳粋€是非問題看做一個決策樹節(jié)點,是非答案決定了分支的方向(左或右)。調(diào)整問題應(yīng)該使得在有效分類的情況下樹深度最淺,就能在單次游戲最壞情況下最快猜出
6、。(我覺得挺2的,應(yīng)該不會受歡迎。不過可以用作公安局犯罪嫌疑人指認的軟件)6.(6分)自己設(shè)計模糊數(shù)學(xué)用于模式識別的其他理論方法(除去聚類).寫出思路必要細節(jié).分析可能結(jié)果.答:例如k-近鄰法的模糊性質(zhì)。定義隸屬函數(shù)表示屬于類的程度,值域上界為1,表示完全屬于,下界為0,表示完全不屬于,將對任意一個待判定的樣本,選取某個距離度量(如歐幾里得距離)最近的k個已知類別的訓(xùn)練樣本,從而令得到x對于類的隸屬函數(shù)。7.(10分)專家經(jīng)常根據(jù)特殊筆跡或特殊長相分類.問如何在一個人臉自動識別系統(tǒng)或筆跡自動識別系統(tǒng)中實現(xiàn)人的這一經(jīng)驗.從數(shù)據(jù)預(yù)處理,特征提取,選擇分類器設(shè)計等角度描述實現(xiàn)這一經(jīng)驗的方法與可能性.
7、優(yōu)點?缺點?答:這是一類特殊的圖像識別問題,可以采用K-L分類卷二、20082009秋_模式識別_張學(xué)工_期末B1.(30') 簡要介紹下列概念·ROC曲線、交叉驗證、似然函數(shù)、特征選擇與提取、推廣能力、隨機森林答:1 ROC曲線(Receiver Operational Characteristic Curve)是以False Positive Rate為橫坐標,True Positive Rate為縱坐標的繪制的曲線,通過改變分點給出對應(yīng)的FP和TP繪成。曲線的點表示了在敏感度和特殊性之間的平衡,例如越往左,也就是假陽性越小,則真陽性也越小。曲線下方的面積越大,
8、則表示該方法越有利于區(qū)分兩種類別。2 交叉驗證是指交叉驗證(Cross-validation)主要用于建模應(yīng)用中,在給定的建模樣本中,拿出大部分樣本進行建模型,留小部分樣本用剛建立的模型進行預(yù)報,并求這小部分樣本的預(yù)報誤差,記錄它們的平方加和。這個過程一直進行,直到所有的樣本都被預(yù)報了一次而且僅被預(yù)報一次。把每個樣本的預(yù)報誤差平方加和,這個數(shù)越小,表示該方法越好3 特征選擇與提?。禾卣魇侵笇κ挛锏挠^測或者某種運算,用于分類。特征提取是指直接觀測到或者經(jīng)過初步運算的特征原始特征。特征選擇是指從m個特征中選擇m1個,m1<m。特征提?。ㄌ卣鲏嚎s、變換)將m個特征變?yōu)閙2個新特征。4 推廣能力
9、:在有限的樣本上建立的學(xué)習機器對未來樣本的表現(xiàn)。5 隨機森林是指通過bootstrapping 樣本來生成許多決策樹,對于決策樹上的每一個節(jié)點,選擇m個變量來進行決策。計算訓(xùn)練集基于這m個變量的最佳分劃。(Wiki:在機器學(xué)習中,隨機森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。 Leo Breiman和Adele Cutler發(fā)展出推論出隨機森林的算法。 而 "Random Forests" 是他們的商標。 這個術(shù)語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林(random decision forests)而來
10、的。這個方法則是結(jié)合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造決策樹的集合。)2.(30)簡述Fisher線性判別方法的基本原理并討論如何在Fisher線性判別中實現(xiàn)最小風險的分類決策。答:1. Fisher線性判別法是指:將多維判別決策問題通過線性組合降低為1維的時候,選擇一個最優(yōu)的一維線性判別函數(shù)的方法。該方法考慮了不同類別樣本的協(xié)方差和均值之差。決策面法向量為。2. 考慮最小風險分類決策的時候,需要甄選分界閾值點。從而可以根據(jù)貝葉斯決策
11、規(guī)獲得一種一維內(nèi)的最小風險分類器。例如,經(jīng)過投影后的分別服從的分布規(guī)律P14頁下方3.(20)簡述C-均值方法的基本原理,并討論在什么情況下此方法比較適用。答:C均值法是一種動態(tài)聚類法,通過多次迭代,逐步調(diào)整類別劃分,最終使某準則達到最優(yōu)。C均值法的目標是最小化最小方差劃分。用另一個角度來看,就是用C個碼本來代表整個樣本集,使這種表示帶來的總體誤差最小向量量化。誤差平方和聚類準則:見課件9.3(p14)適用條件:課件9.3 (p22) 4.(20)SVM與多層感知器都可以實現(xiàn)非線性分類,試討論它們在原理上的聯(lián)系與區(qū)別。答:1. 支持向量機(SVM:Supporting Vector Mechi
12、ne)原理:課件5.5 P6(特點是:P13),課本P301。支持向量機的基本思想可以概括為:首先通過非線性變化將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)先行分類面,而這種非線性變換是通過定義適當?shù)膬?nèi)積函數(shù)K(X,Y)實現(xiàn)的。2. 多層感知器(MLP:Multi-Layer Perception)原理:課件5.4 P10。是一種前饋人工神經(jīng)網(wǎng)絡(luò)。它利用三層或者三層以上多個感知器來講輸入數(shù)據(jù)映射為復(fù)雜輸出數(shù)據(jù),使得分類器可以產(chǎn)生非線性的或者超平面的決策面,從而成為分線性分類器。(Wiki:A multilayer perceptron is a feedforward artifi
13、cial neural network model that maps sets of input data onto a set of appropriate output. It is a modification of the standard linear perceptron in that it uses three or more layers of neurons (nodes) with nonlinear activation functions, and is more powerful than the perceptron in that it can disting
14、uish data that is not linearly separable, or separable by a hyperplane.1)3. 聯(lián)系與差異:都屬于非線性分類器,但是其中一種是通過特征空間的非線性變換來實現(xiàn)最優(yōu)決策面的,而多層感知器則是通過多層感知器(邏輯單元)的邏輯組合(輸入-中間-輸出)以及每層之間各數(shù)據(jù)的線性組合來實現(xiàn)非線性決策面的5.(沒有分)給課程提建設(shè)性建議。1.通過模式識別基礎(chǔ)課程的學(xué)習。卷三、20072008秋_模式識別_張學(xué)工_期末B 1 .寫出英文全稱,中文,100字簡述 5*6=30a)Hierachical
15、Clustering; b)MLP;c)Nonparametric Estimation; d)SVMe)Fisher's Linear Discriminant Analysis;f)PCA;g)Random Forest1. Hierachical Clustering,分級聚類(課件9.4P45):從各類只有一個樣本點開始,逐級合并,每級只合并兩類,直到最后所有樣本都歸到一類。聚類過程中考察類間相似度,依次決定類別數(shù)。2. MLP,Multi-Layer Perception,多層感知器原理:課件5.4 P10
16、。是一種前饋人工神經(jīng)網(wǎng)絡(luò)。它利用三層或者三層以上多個感知器來講輸入數(shù)據(jù)映射為復(fù)雜輸出數(shù)據(jù),使得分類器可以產(chǎn)生非線性的或者超平面的決策面,從而成為分線性分類器。(Wiki:A multilayer perceptron is a feedforward artificial neural network model that maps sets of input data onto a set of appropriate output. It is a modification of the standard linear perceptron in that it uses three or
17、 more layers of neurons (nodes) with nonlinear activation functions, and is more powerful than the perceptron in that it can distinguish data that is not linearly separable, or separable by a hyperplane.1)3. Nonparametric Estimation:非參數(shù)估計(課件3.5.1,P36)不假設(shè)概率模型,通過樣本落在區(qū)域的概率來估計出一個概率密度函數(shù)。常用的有窗函數(shù)法(如近鄰
18、估計、Parzen窗估計)。4. SVM,Supporting Vector Mechine,支持向量機:課件5.5 P6(特點是:P13),課本P301。支持向量機的基本思想可以概括為:首先通過非線性變化將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)先行分類面,而這種非線性變換是通過定義適當?shù)膬?nèi)積函數(shù)K(X,Y)實現(xiàn)的。5. Fisher's Linear Discriminant Analysis, Fisher線性判別分析:Fisher線性判別法是指:將多維判別決策問題通過線性組合降低為1維的時候,選擇一個最優(yōu)的一維線性判別函數(shù)的方法。該方
19、法考慮了不同類別樣本的協(xié)方差和均值之差。決策面法向量為。6. PCA,Principal Component Analysis,主成分分析:課件8.2P21,目的:在統(tǒng)計學(xué)中,主成分分析(principal components analysis (PCA))是一種簡化數(shù)據(jù)集的技術(shù)。它是一個線性變換。這個變換把數(shù)據(jù)變換到一個新的坐標系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(稱為第一主成分)上, 第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時保持數(shù)據(jù)集的對方差貢獻最大的特征。這是通過保留低階主成 分,忽略高階主成分做到的。這樣低階成分往往能夠保留
20、住數(shù)據(jù)的最重要方面。但是,這也不是一定的,要視具體應(yīng)用而定。6 Random Forest,隨機森林:隨機森林是指通過bootstrapping 樣本來生成許多決策樹,對于決策樹上的每一個節(jié)點,選擇m個變量來進行決策。計算訓(xùn)練集基于這m個變量的最佳分劃。(Wiki:在機器學(xué)習中,隨機森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。 Leo Breiman和Adele Cutler發(fā)展出推論出隨機森林的算法。 而 "Random Forests" 是他們的商標。 這個術(shù)語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林(r
21、andom decision forests)而來的。這個方法則是結(jié)合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造決策樹的集合。)2 200字簡述 4*5=20a)最小距離分類器何時是最優(yōu)分類器?b)寫出最小距離分類器,分段線性判別,最近鄰法的關(guān)系c)寫出決策樹和隨機森林的關(guān)系,以及為什么要有隨機森林 記不太清了,貌似有個SVM的原
22、理?d)寫出K-L變換和PCA的關(guān)系 寫出特征提取和fisher線性判別的關(guān)系答:1. 最小距離分類器:(課本P120頁)最小距離分類器是指在貝葉斯決策規(guī)則當類條件概率密度為正態(tài)分布且各特征統(tǒng)計獨立同方差時,利用貝葉斯決策規(guī)則在可以得到線性距離判別函數(shù),特別是當時,決策規(guī)則式可以寫成這時的最小距離分類器是滿足貝葉斯決策規(guī)則的最優(yōu)分類器。2. 最小距離分類器是一種分段線性的判別方法。每個樣本點的類別由最近的代表點的類別決定。最近鄰法是這種分類器的一種應(yīng)用,特殊之處在于(課本P120頁)最近鄰法是將每一個
23、樣本都當做類別的代表點3. 隨機森林由多個決策樹組成。隨機森林的優(yōu)缺點:Wiki:The advantages of random forest are:· For many data sets, it produces a highly accurate classifier · It handles a very large number of input variables · It estimates the importance of variables in determining classification · It generates
24、an internal unbiased estimate of the generalization error as the forest building progresses · It includes a good method for estimating missing data and maintains accuracy when a large proportion of the data are missing · It provides an experimental way to detect variable interactions ·
25、; It can balance error in class population unbalanced data sets · It computes proximities between cases, useful for clustering, detecting outliers, and (by scaling) visualizing the data · Using the above, it can be extended to unlabeled data, leading to unsupervised clustering, outlier det
26、ection and data views · Learning is fast The disadvantages of random forest are:· Random forest are prone to overfitting for some datasets. This is even more pronounced in noisy classification/regression tasks.6 · Random Forest does not handle large numbers of irrelevant features as w
27、ell as ensembles of entropy-reducing decision trees.7 · It is more efficient to select a random decision boundary than an entropy-reducing decision boundary, thus making larger ensembles more feasible. Although this may seem to be an advantage at first, it has the effect of shifting the computa
28、tion from training time to evaluation time, which is actually a disadvantage for most applications. 3. 寫出K-L變換和PCA的關(guān)系:PCA和K-L變換目的都是從高維的原始數(shù)據(jù)中提取低維度相關(guān)性低的特征數(shù)據(jù)。(白云飛:PCA針對樣本協(xié)方差矩陣,找出特征值較大的,K-L變換針對產(chǎn)生矩陣,可以根據(jù)不同準則挑選特征值和特征向量,二者本質(zhì)相同)3構(gòu)造兩類分類器,100個訓(xùn)練數(shù)據(jù),使用K近鄰法,如何選擇K,給出一個合適的K,說明理由(1*5=5)答:K值不宜太大,太大則太多干擾樣本點被納入,太小則無法適
29、應(yīng)小規(guī)模錯誤情況,對于100個訓(xùn)練數(shù)據(jù),一般來說選擇5、7、9比較合適。去奇數(shù)是為了避免出現(xiàn)兩種類別數(shù)相同無法判決的情況。4SOM若沒有鄰域作用,則變成什么算法?寫出該算法的目標函數(shù),算法基本步驟(1*15=15) 答:SOM思路類似先作向量量化(聚類),用較少的點(子類)代表原樣本空間,把這些代表點進行分類。(Wiki: A self-organizing map (SOM) or self-organizing feature map (SOFM) is a type of artificial neural network that is trained using unsupervis
30、ed learning to produce a low-dimensional (typically two-dimensional), discretized representation of the input space of the training samples, called a map. Self-organizing maps are different from other artificial neural networks in the sense that they use a neighborhood function to preserve the topol
31、ogical properties of the input space.)如果沒有鄰域作用,就退化一個典型的C均值法。該算法計算步驟(課件9.3,P17)5綜合題。文本自動分類的原理性設(shè)計,按內(nèi)容分類為軍事,體育,娛樂等。例舉本科所學(xué)內(nèi)容和概念能在這個設(shè)計上怎么體現(xiàn)。1*30=30答:因為是按已知內(nèi)容分類,是一個監(jiān)督學(xué)習的模式識別問題。考慮如下監(jiān)督學(xué)習模式1.隨機獲取已經(jīng)定義好類別的樣本1.特征提?。好總€樣本進行詞頻統(tǒng)計,詞匯來自辭海。假設(shè)辭海有80000個詞,則對每一個樣本,得到一個80000維的特征數(shù)據(jù)。顯然,這是一個高維數(shù)據(jù)。2.特征處理:(1)首先去所有樣本出現(xiàn)頻度都小于一定閾值的詞
32、匯,比方說出現(xiàn)5次。剩下10000維。(2)對這10000維進行主成分分析,得到一個低維度的特征數(shù)據(jù),比如4維。(3)對于這三維,可以進行一下分類:k近鄰法、支撐向量機法(廣義支撐向量機)、Fisher判別法等。其中Fisher判別再次降維后還可以運用基于最小錯誤率的貝葉斯決策3對于以上監(jiān)督學(xué)習模式的樣本可以進行同一個方法的交叉驗證,去除一定的干擾。附加題說明兩類錯誤率。在SVM線性不可分的情況下,如何把最小風險的概念引入SVM,對目標函數(shù)應(yīng)該怎樣修正。(最多10分,全卷不會超過100分)答:(1)兩類錯誤率為“拒真納偽”。(2)(課本P298)如果線性不可分,就是某些樣本不能滿足條件時,引入
33、松弛因子,使得條件變成,對于足夠小的,只要使最小就能使錯分樣本數(shù)最小。對應(yīng)線性可分情況下的使分類間隔最大,在線性不可分的時候引入約束,最終得到目標函數(shù),C為某個指定常數(shù),起著控制對錯分樣本懲罰的程度(風險)的作用。關(guān)于風險的討論在課本P299頁卷四、20072008秋_模式識別_張學(xué)工_期末A(略) 卷五、20062007秋_模式識別_張學(xué)工_期末B1. 寫出英文全稱并解釋相應(yīng)的概念或者方法的原理30% a)非參數(shù)估計 b)非監(jiān)督模式識別 c)
34、最大似然估計 d)MDS e)推廣能力 f)kNN答:其他見前文卷子。1. MDS:Multi-Dimensional Scaling,Multidimensional scaling (MDS) is a set of related statistical techniques often used in information visualization for exploring similarities or dissimilarities in data. MDS is a spe
35、cial case of ordination. An MDS algorithm starts with a matrix of itemitem similarities, then assigns a location to each item in N-dimensional space, where N is specified a priori. For sufficiently small N, the resulting locations may be displayed in a graph or 3D visualisation.2. 這里附上紅寶書預(yù)測詞匯:LDF:Li
36、near Discriminant Functions線性判別函數(shù)。ISOMAPIsomap6 is a combination of Curvilinear Distance Analysis (CDA) and Multidimensional Scaling (MDS). Both CDA and Isomap begin by finding a set of the nearest neighbors of each point. They seek to preserve the geodesic distances between points while projecting
37、the data into fewer dimensions. Geodesic distance is defined as the length of the shortest path between two points that stays on the manifold surface. These algorithms estimate geodesic distances by finding the shortest neighbor-to-neighbor path between every pair of points, which can be computed ef
38、ficiently using Dijkstras algorithm.LLELocally-Linear Embedding (LLE)8 was presented at approximately the same time as Isomap. It has several advantages over Isomap, including faster optimization when implemented to take advantage of sparse matrix algorithms, and better results with many problems. L
39、LE also begins by finding a set of the nearest neighbors of each point. It then computes a set of weights for each point that best describe the point as a linear combination of its neighbors. Finally, it uses an eigenvector-based optimization technique to find the low-dimensional embedding of points
40、, such that each point is still described with the same linear combination of its neighbors. LLE tends to handle non-uniform sample densities poorly because there is no fixed unit to prevent the weights from drifting as various regions differ in sample densities. LLE has no internal model.2.
41、160; 如果用kNN來解決作業(yè)中的男女生訓(xùn)練樣本問題,那么你如何選擇k?簡述理由答:K=5,7,9,理由見卷子3. 12% 無鄰域相互作用的SOM的相當于是優(yōu)化什么目標函數(shù),寫出目標函數(shù)。8%答:C means,見前文4. 1)簡述兩類錯誤率的概念,并由此談一談最小風險錯誤率Bayes分類器的原理? 8% 2)怎么把最小風險的概念引入線性SVM中(考慮線性不可分的情況),嘗試寫出公式6% 3)怎么把最小
42、風險的概念引入Fisher線性判別中,簡述一下。6%答:見前文5. 現(xiàn)在先要建立一種針對不同用戶的文本郵件分類系統(tǒng),比如分成私人郵件,公務(wù)郵件等。描述怎么建立,課上講的哪些方法和概念可以用到?30% 答:見前文卷六、20052006秋_模式識別_張學(xué)工_期末張老師說:言多必失1. 10% 簡述最小錯誤率Bayes分類器的原理和適用范圍答:(NBAzzxy說):原理:通過觀察 x 把狀態(tài)的先驗概率轉(zhuǎn)化為狀態(tài)的后驗概率,比較不同的后驗概率并作出決策。 適用范圍:各類別總體的概率分布是已知的,要決策分類的類別數(shù)是一定的,離散數(shù)據(jù),相較其
43、它算法可以解決高維問題。2. 10% 什么是分類器的錯誤率?如何估計? 簡述兩類錯誤率的概念,以及如何控制兩類錯誤率的影響?答:兩類錯誤率是:拒真納偽??刂苾深愬e誤率(1)選擇更好的特征。(2)對特征進行提取。(3)變更分類器。(4)同一種分類器引入風險函數(shù)進行權(quán)衡(Tradeoff)3. 10% 寫出英文全稱 模式識別 &
44、#160; 似然函數(shù) 非監(jiān)督學(xué)習 非參數(shù)估計 SVM MLP PCA MDS(必殺!)
45、 k-NN SOM答:Pattern Recognition; Likelihood Function; Unsupervised Learning; Non-parametrical Estimation4. 10% 無鄰域相互作用的SOM的準則函數(shù)?(記不清怎么說的了.)C-means,見前文5. 15% 學(xué)號末兩位和為奇數(shù)用身高數(shù)據(jù),為偶數(shù)用體重數(shù)據(jù) &
46、#160;體重: 55 57 67 68 50 進行平均距離分級聚類,給出分類樹,給出每級的距離矩陣。 聚為幾
47、類合適?為什么?(67,68),50),(55,57),分為兩類合適。每級距離矩陣:(67168)方差*50)方差*(551.41457),6. 15% 參數(shù)估計和非參數(shù)估計的概念?最大似然估計和Parzen窗法的原理? 如何估計錯誤率?答:參數(shù)估計:已知概率模型,根據(jù)樣本對參數(shù)進行估計。非參數(shù)估計:未知概率模型,通過樣本對概率模型進行直接估計。最大似然估計:在參數(shù)估計中選取使樣本出現(xiàn)概率最大(Most Likelihood)的參數(shù)進行的估計。Parzen窗法是一種非參
48、數(shù)估計方法(課件3.5.2P39),每個樣本點對分布函數(shù)產(chǎn)生貢獻用窗函數(shù)描述為k(x,xi)7. 20% 以下線性分類器的設(shè)計原理?各自特性,聯(lián)系? A) 最小距離分類器 B) Fisher線性分類器 C) 感知準則函數(shù)分類器 D) 線性SVM除感知準則函數(shù)分類器外原理見前文。感知準則函數(shù)分類器:(課本P9
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)二年級數(shù)學(xué)口算題上冊
- 2022年新課標八年級上冊道德與法治《第九課 樹立總體國家安全觀 》聽課評課記錄(2課時)
- 9-1生活需要法律 2法律保障生活 聽課評課記錄 新部編人教版七年級下冊道德與法治
- 人教版地理七年級上冊第四節(jié)《世界的氣候》聽課評課記錄5
- 華師大版歷史九年級上冊第16課《啟蒙運動》聽課評課記錄
- 戶外廣告制作合同范本
- 三方委托出口合同范本
- 二零二五年度知乎共享空間租賃合作協(xié)議
- SBS防水卷材購貨合同范本
- 公司租賃合同范本
- 電力兩票培訓(xùn)
- TCCEAS001-2022建設(shè)項目工程總承包計價規(guī)范
- 2024.8.1十七個崗位安全操作規(guī)程手冊(值得借鑒)
- 二次供水衛(wèi)生管理制度及辦法(4篇)
- 中學(xué)生手機使用管理協(xié)議書
- 給排水科學(xué)與工程基礎(chǔ)知識單選題100道及答案解析
- 2024年土地變更調(diào)查培訓(xùn)
- 2024年全國外貿(mào)單證員鑒定理論試題庫(含答案)
- 新版中國食物成分表
- DB11∕T 446-2015 建筑施工測量技術(shù)規(guī)程
- 運輸車輛掛靠協(xié)議書(15篇)
評論
0/150
提交評論