已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
河 北 工 業(yè) 大 學畢業(yè)設計(論文)外文資料翻譯學 院: 系(專業(yè)): 姓 名: 學 號: 外文出處: Pattern Recognition 附 件: 1.外文資料翻譯譯文;2.外文原文。 指導教師評語: 簽名: 2010 年6 月 日附件1:外文資料翻譯譯文基于沒有交集的主成分模型下的模式識別方法化學計量學研究組,化學研究所,umea大學摘要:通過獨立的主成分建模方法對單獨種類進行模式識別,這一方法我們已經進行了深刻的研究,主成分的模型說明了單一種類之內擬合所有的連續(xù)變量。所以,假如數(shù)據充足的話,主成分模型的方法可以對指定的一組樣品中存在的任何模式進行識別,另外,將每一種類中樣品通過獨立的主成分模型作出擬合,用這種簡單的方式,可以提供有關這些變量作為單一變量的相關性。這些試樣中存在著“離群”,而且不同種類間也有“距離”。我們應用經典的Fisher鳶尾花數(shù)據作為例證。1介紹對于挖掘和使用經驗數(shù)據的規(guī)律性,已經在像化學和生物這樣的學科中成為了首要考慮的因素。在化學上一個經典的例子就是元素周期表。當元素按漸增的原子質量排列時,化學元素特性上的規(guī)律以每8個為一個周期的出現(xiàn)。相似的,生物學家也常按照植物和動物形態(tài)學上的規(guī)律才將其歸類。比如,植物的花朵和葉片的形狀,動物兩臂的長度和寬度以及動物不同的骨骼等等。數(shù)據分析方法(通常叫做模式識別方法),特別的創(chuàng)制用以探知多維數(shù)據的規(guī)律性。這種方法已在科學的各分支上得到了廣泛的應用。模式識別中的經典問題可系統(tǒng)的陳述如下:指定一些種類,每一類都被定義為一套樣本,訓練集和檢驗集,還有基于每組樣本的M測度值,那么是否有可能基于原M值對新的樣本作出分類呢?我們提出解決這類或相關問題的許多方法,這些方法也由Kanal和另外一些人回顧過了。 在科學的分支中,比如化學和生物中,數(shù)據分析的范圍往往比僅獲得一組未分類數(shù)據廣泛,通常上,數(shù)據分析的目的之一仍然可說是分類,但有時我們不能確定一個樣本是否屬于一未知的或未辨明的類別,我們希望不僅去辨別已知種類,還有未知種類。還有一點很重要,數(shù)據分析方法不能過于強調種類間的區(qū)別,由于已使用的異變量的介入考慮,兩或多種的區(qū)別是很小或不明顯的。 第二,如果我們把一個物體按類比的方法看成某一種,我們其實關心的是物體的某種特性在此種類中的類比性,而某些特性又沒有。在化學中,類比模型有著理論上和實踐上的重要性,而且可以看成是化學模式識別方法的早期應用。 第三,也許是最重要的一點,在化學和生物應用上,我們經常關心某個種類中數(shù)據的經驗描述,以獲取某種的經驗模型,這個模型可以被用作解釋和說明。比如說,為了構建樣本,用已知的合適的特性。 實際上,基于相似種類,亦即同一種類的樣本的測度方式是可以得出一般模型的。這些模型可以用來解決問題的一般分類和以及處理上面討論的其他問題。這些是后來證明本文是基于簡單的泰勒展開式的模型推導。由此產生的模型形式是主成分(PC)的模型。只要在數(shù)據分析實驗過程中一系列連續(xù)性假設可以得到滿足,主成分分析模型可以用來描述基于單獨一組樣本的變量衡量,總模型由一組不相交集的主成分模型;一個模型對應每個類。 不相交集的主成分模型已由福永,渡邊等人在模式識別中應用過。由于Karhunen-loeve 擴展在模式識別方法的科學中常被稱作主成分分析。福永聲望調查指出,當數(shù)據分析的單一的目的是分類,你可能想放棄模型擬合的方法,而使用組合的特征向量,以最大限度地分辨種類間區(qū)別。福利和桑蒙就按照這種思路,他們的意思就是基于分類的單一目的,構建最優(yōu)特征向量組合。 因此,模式識別的建模方法是不是最有效的分類方法。有些方法是在犧牲效率的優(yōu)勢,獲得各種類的實證模型,也在建模中防止各種類間的過于獨立。主成分分析方法有特別的優(yōu)勢,可以近似的類內任意連續(xù)的行為,此外,他們在測量空間的線條或超平面的表現(xiàn)形式,這使得他們很容易映射和可視。 本文的目的是在化學和生物學中使用了重點模式識別中的主成分分析方法的。因此,在適應條款中從細節(jié)方面給出了陳述。作為一個例證,該方法適用于Fisher鳶尾花數(shù)據。2類模型在模式識別方面的框架現(xiàn)有研究下模式識別方法的本質,承認這一事實,即根據定義在一個單一的獨立的類的對象,存在某種相似的方式。在此相似性的基礎上,一個數(shù)學模型,是在相當一般的假設前提上得出。在一個類描述了樣本的行為,因此,總的數(shù)學模型,包括為每個類一個不相交的模型的集合。通過對對象的觀察“已知”分類(這些對象組成參考集合),在不同的相似性模型的參數(shù)估計(給定的數(shù)值)。 未分類的對象,根據這他們最適合模型去擬合所有的參數(shù)化類模型然后分類。要知道存在這樣的可能性,未分類的樣本可能是一種新的,不適合以前的任何已知的類模型。 因此,模式識別由兩部分框架組成:數(shù)據和通過這些數(shù)據“校準”相似類別。 2.1數(shù)據這些數(shù)據包括測量變值(索引i)在一個樣本組的數(shù)目(指數(shù)K)。作為一個例子,我們將使用包涵150個樣本的鳶尾花費雪的經典數(shù)據。該測量量包括萼片長度萼片寬度花瓣長度花瓣寬度。此外,我們認為樣本必屬于已給定的種類。這些種類通常用對已知分類中對象的方法來確定。這些對象構成的參考集,有時也被稱為訓練集(每類1套)。例子中的種類有三種,我們認為所有鳶尾花都屬于山鳶尾云芝鳶尾維吉尼亞鳶尾這三類中。基于當前的闡述,這些鳶尾花分為兩部分,第一類25個樣本為訓練集和測試集為(后者25所假定為未知的分類)。另見附表1和2。這些數(shù)據表示為yik,共同形成尺寸M * N的(圖2)的觀察矩陣Y。在本文章中,這將是假設的矩陣Y完整,即所有的M個變量用以衡量全部N個對象。這是沒有必要的假設,然而,當數(shù)據丟失,模型也工作,另見第3節(jié)。對一個M維向量形式的對象所作的觀測,可以因此被看作是一個m維空間中的點代表,這里所謂的測量空間。2.1.1轉化數(shù)據。理想情況下,變量應根據其相關加權考慮特定的分類問題。然而,有關這方面的資料之前,很少可用。然而,習慣上轉化后的變量,都讓他們平等的權重(等于方差),所謂數(shù)據標準化。這可以對參考集的基礎上或使用所有可用的數(shù)據實現(xiàn)。在本例子中的4個變量的方差是相似的,但是,沒有數(shù)據的標準化已經完成。 如果一個變量的值的分布是非常不均勻的,例如,大多數(shù)測量值比較小,但一些非常大,若采取對數(shù)化或平方根化觀測值或使用其他特殊轉換來修正,可能是不切實際的。在目前這個例子來說,沒有進行這樣的轉變。 2.2相似模型 目前的處理為每個單獨的類定義一個單獨的模型。因此,讓我們考慮一個n個樣本,按照定義,在某些方面是相似的單個類。在每個對象,都對矩陣Y中數(shù)據元素yik 測定了 M的變量的值。如果種類的樣本是相同的,除了由于測量誤差小偏差值eik所有樣本的變量i的值是相同的。因此,對于這個簡單的例子,在一個類中的數(shù)據可通過模型描述。公式一 然而,方程(1)往往是過于的簡單.基本假設即在一個類的對象是如此相似,他們幾乎是一致的,是實際上這種情況很少發(fā)生。如果我們另外假設樣本都稍有不同,第二個模型得到(見附錄和導附錄1。1)。公式二最后,種類中樣本之間的較大的變化,導致了相似模型(見附件)。公式三可以看出,所有三個模型(1-3)都分別被0,1和A標注作為主成分個數(shù)。如果現(xiàn)在的對象來自一系列的種類(下標為q),這些數(shù)據因此可以由一個不相交的數(shù)量模型描述:公式四對應的單級模型(1),(2)及(3)分別令Aq為零,一個或更多. 讓我們進一步為每個類殘余方差設定限制,q2。單一種類中模型1的幾何表示,是一個以q為半徑的超球面測量空間領域(圖3)。這個簡單的模型,事實上,是很多模式識別很的基礎,兩點之間的歐氏距離是兩個相應樣本之間的相異性表征,測量空間中幾何模型的表示方式(2)是一個半徑q(圖4)而且模型(3)由更高的容量表示。該模型(4)是僅利用測量變量和樣本之間的變化上假設的連續(xù)性獲得的。因此,只要這些假設能夠實現(xiàn),在一個類中的數(shù)據不論其結構可以被描述模型(3),如果條件足夠所有主成分都包括在內。因此,反過來,模型(4),只要該參考集的數(shù)據矩陣的維數(shù)足夠大,允許我們對每組主成分結果做出估計,在Q類的數(shù)據會做出完整的描述。這些特性使模型(4)成為在模式識別的應用中的理想模式,為了得到初步工作方法,沒有太大必要知道每類的數(shù)據結構,沒有什么必要知道各種類間的區(qū)別,為了達到接近最佳效率,然而,人們通常需要在類中,以驗證為單峰這樣的事情,研究樣本量之間的關系和分類性能;參見佛利(18)和福永(Ref.13, Ch.5)的討論。在參考集中做完參數(shù)估計后,模型(4)給出基于對每類中的, 和參數(shù)值方面的參數(shù)化結構。這些值數(shù)就可以,除了以分類目的進行普通的使用,還可以用來討論和解釋種類結構,種類關系和結構的差異等。2.2.1在模型中數(shù)據條款(A)相似性模型(4)分別適應到每種類的訓練集中.在做這一步前,我們必須以某種方式確定在每個種類中的數(shù)據維度。在目前情況下,維數(shù)用樣品的數(shù)目方程(4)中的Aq衡量,對于這個問題更廣泛的討論,讀者可以參考福永(Ref.13.Ch.8和10)和凱納(Ref.1.Section)。圖 Fig3 方程(1)分別描述的兩個種類在二維測量空間中圖 Fig.4方程(2)分別描述的三個種類在二維測量空間中。為包含在該種類中,一個樣本應落在與周圍的代表類模型線寬2q帶中。對于每個單獨的種類,在實踐中行之有效的現(xiàn)行模式的方法是使用交叉驗證技術(24.25),做法如下:(a) 將樣本分成T組,T大致為5至10組,每組應盡可能對于全體來說具有代表性,在目前的例子中,與每個參考25集(表1) ,若分成8組,第一組包含樣本1,9,17和25,第二組包含樣本2,10和18日,第三組包含樣本3,11和19等,直到第八組包含對象8,16和24。(b) 首先將第一組試樣從訓練集中除去,并設降維的數(shù)據矩陣為Y-,試樣數(shù)為n-.(c) 對于Y-,應用前述單類主成分模型公式(3)去擬合。擬合中依次令A=0,1,2,直到M-2或n2,取決于二者中小者。 (參見下面2.2.2部分)。(d) 運用在(3)中建立的數(shù)學模型去擬合所除去的試樣。此步中,A=0,1,并且,固定不變。相應于每一A值,計算試樣的偏差ik,由此得到這些偏差平方的加和A。(e) 將所除去的那組試樣重新放回數(shù)據陣Y。(f) 由數(shù)據陣Y中除去下一組試樣,從而得到一新的降維數(shù)據陣Y-,回到步(e).若每一組均被除去一次,則到第(7)步。(g) 對于每一A值,將A加和得到DA,由(DA-1-DA)/n對DA/n(M-A-1)作F檢驗來判斷A的重要性,從而確定A值。也以此確定最后的主成分數(shù)是否具有顯著性,這種方法與之前是完全一樣,使用的F -測試,以確定在多項式回歸(26)具有最終長遠意義,它也取決于對獨立觀測間做出的相同的假設。因此,交叉驗證技術決定了樣本的主成分A數(shù),對每個種類來說,使模型(4)的預測能力相對于參考集最大化。圖5顯示了這對鳶尾花數(shù)據分析技術的結果。可以看出,所有三個類別的第一部分結果體現(xiàn)著更好的適應性,即數(shù)據比可以通過簡單的距離相關模型(1)描述包含更多的結構。對于類3第二個任期相對于邊境的意義給出了更好的適應性。因此,鳶尾花數(shù)據是由三個不相交的充分描述一個成分模型(方程4中的A = 1)。第二主成分(A= 2)也許更能適合種類3。2.2.2估計模型(4)的參數(shù)值。在模型(4)可使用前,在新的對象分類中,例如,必須確定從該參考集的數(shù)據,為q = 1, 2, ,Q (Q =種類數(shù))等于參數(shù)值i(q) ia(q) and q2, i= 1,2,.,M(M=變量個數(shù)),a = 1,2,.Aq(Aq =種類q模型4中的成分數(shù))和k = 1,2,.,nq(nq = qth參考集中的樣本數(shù))。 這相當于每個數(shù)據的參考集矩陣減去平均數(shù)i(q)后得出的主成分估計。這對應于矩陣對角化的Z(q)Z(q)+,其中Z(q) 表示的矩陣,是由qth參考集減去每個變量平均值i(q).Fig.5我們可得到一些實用的方法,在目前的應用中,我更傾向于使用偏最小二乘法(NIPALS),這種方法是一種同時逐一用迭代法計算與之相對應的特征向量的特征值的方法(至于數(shù)值的細節(jié),參見Refs.29.30)。該方法的優(yōu)點是使用交叉驗證方法(2.2.1章節(jié))可較好的實現(xiàn)聯(lián)合,因為在最后的計算中,從先前利用作為初始值Y -矩陣計算出的特征值, 從而融合得非???。因此,ia ,ak由矩陣Z(q)Z(q)對角化,由參數(shù)值求得。偏差ik(q)可由Z值減去公式中和的乘積項得到,則方差so(q)2可由下式求得:第一個求和的是在訓練集中樣本數(shù)(nq)做出的,第二個求和nq在變量數(shù)目的(M )做出的。 因此,為每種類的相似度計算模型(4)通過訓練集中的數(shù)據被“校正”。 在校正模型可以用于確定新樣本的分類和其他下面問題上。表3給出鳶尾花結果參數(shù),以一個主成分將1號和3號變量投影到平面上,如圖6所示。 由于系數(shù)矩陣的特征向量性質,它們很容易理解。該i(q)的值僅僅是第i個變量為q種類的均值。-向量相互正交,因此是所有-向量在每個種類間,具有零均值。因此,-變量表示圍繞種類間均值相應的變量的變化。為了使該參數(shù)的數(shù)值更容易解釋,有時,特別是當許多組分都需要用來描述在同一個種類中的數(shù)據,由單一矩陣旋轉乘法-和-矩陣(分別是M*A 和A*M維數(shù)),是有必要的。這在目前的例子還沒做,有關詳細信息,讀者可以參考關于因子分析的標準文獻。 在鳶尾花的例子中,其中所有的變量是長度或寬度時,第一個向量表達了相應的個體樣以及第一個向量在相應變量的大小在組內變化時的“比率”。Table 3(a).Table 3(b). 我們可以看到表3(b),底部,第三組中的數(shù)據在大小的變化上幾乎是兩倍于第一組的。在第三組中,在兩倍大小的增萼片長度(11(3))和花瓣長度31(3)加倍,而在種類一,花瓣長度和寬度的大小幾乎是獨立的(31(1) and 41(3))。由于這不適合做一個Fisher的數(shù)據的詳細解釋,我將不進一步討論這些結果,給出的例子是足以說明在一類的參數(shù)中如何給出一個“種類結構”的量化情況。 2.2.3一個參考集內值的分布。 對于參數(shù)集的每個樣本,由參考集(類q)的數(shù)據矩陣對應的模型(4),給出了參數(shù)值ak(q) ,如果我們希望,這些值可以用來確定每個a(q) 的區(qū)域;為了使未分類的樣本是作為種類內成員,較小的殘余方差(種類內相同的順序,方程5)應在可以接受的區(qū)域內隨著相關參數(shù)取得。然而,以這種方式進行一個新的樣本的分類將變得更復雜,此外,這個程序大多數(shù)應用中是不必要的。我推薦,根據2.2.4的擬合,得到簡單控制后參數(shù)值(ca)。在將未分類鳶尾花數(shù)據(見下文)分成3類的模型中,一個參數(shù)值(Ca)落在相應范圍加上或減去標準差參見Table 3(b)底部之外被標示為“異類數(shù)”(見表2)。當,比如,3個種類(見表2)中,這種“異類數(shù)”的樣本34的衡量標準有12個值。Fig.6.2.2.4將未分類樣本按模型(4)擬合相似模型,包括參數(shù)的值,如上所述,完全由種類間訓練集數(shù)據矩陣確定。如果之后想嘗試檢驗特定的對象(指數(shù)P)符合本類的程度,程序如下:(a) 比如說yip, 將樣本的測量值向具有相同樣本數(shù)和相同參數(shù)值i(q) and i(q)的模型 (4) 擬合,它們都是從第2.2.2節(jié)中的“校準模型”得到的。這種擬合對應簡單的多元線性回歸,即zi = yipi(q) , zi 和ia(q); a=1, 2, , Aq作為獨立變量。 公式六(b)偏差ip的方差表征試樣p擬合種類q好壞:公式七 如果sp(q)2遠遠大于(F檢驗)參考集得出的標準偏差(公式5),那么樣本p不屬于q組,可以看出,有可能一個樣本是屬于多個劃分類別的,在這種情況下觀察到的數(shù)據不足以唯一確定樣本的所屬種類,也有可能發(fā)現(xiàn)樣本是不屬于任何的種類的,它是一種新型的樣本。 在鳶尾花的例子,每組取出25個個體構成一個“測試”總體,這75個個體中任一個剩余差額(方程7),連同一個線性判別分析的相應結果,列于表二??梢钥闯?,目前的方法與其他方法相比毫不遜色; 在分析中僅依靠一或兩個主成分,用目前方法75個總體中71或者73能夠正確分類,其他兩種方法只能分出70個。如果所有150個個體進行分類,目前的分別使用一或兩個主成分分類方法,能正確分出145和147個,相較于其他兩種方法的145和141。 2.3 兩類間相似度非相似度測量通過用參考集r中的所有試樣去擬合類q校正模型,反之亦然,則可得到類間的相似度測量值,根據方程(8)得出的方差與按公式(5)得出值比較,可得到定量對比值。在方程(8)中的偏差(ik)通過把參考集r中對象向類q的相似性模型擬合計算得出。方差s(q,r)2類似地通過改變指數(shù)r到q獲得,反之亦然。 從鳶尾花數(shù)據得出的方差值見表4。可以看出,無論是A= 1還是A = 2,都能很好的分離成3類。這兩種情況之間最近的距離是2和3類(2,3和3,2矩陣元素)。第二個主成分包含的結果使得第2和第3種類之間的距離略大些。2.4 變量相關性如果變量數(shù)(M)是3或者更大,我們可以通過比較sy,i2 和以下 se,i2的大小差異獲得每個變量的解釋能力;也就是說,每個變量的殘余方差與原始數(shù)據方差相比。如果數(shù)據已被自動縮放,后者方差(式9)對所有變量i來說是相同的。公式9 10 11殘余方差和變量i(式12)數(shù)據方差的之間的比例是越小的,變量i具有越大的解釋力。因此,1- Ui是一個第i變量的相關性的衡量水平;相關性越密切,而且接近零,就具有越小的相關性。公式12表5顯示了基于鳶尾花例子計算的參考集中每個變量殘差和數(shù)據相關性。我們可以看出主成分變量1和3的相關性優(yōu)于變量2和4的。另一種方法來衡量一個變量的相關性是研究其差異性的大小。對于一個給定的變量i,我們可以,比較在參考集的所有對象都擬合在除去自己其他所有類別所得變量(1)的殘差,和相同的對象擬合他們組得到的變量(2)殘差。兩者的殘差的比率將給出多大程度上“正確”和“不正確”的分類。在這,我們將eikr(q)表示擬合屬于種類下標為k的樣本后得到的殘差,我們得到Q-1組中每組的snot-class2中的總和,總和值在右側除以(Q - 1)以修正。鳶尾花數(shù)據的方程13值如表5所示。我們可以看出對于主成分1第三變量在差異性大小上更為重要,而對于主成分2變量的差異性都差不多。 Table 4 5表5。鳶尾花數(shù)據變量的相關性的衡量。第一行(1-Ui)表示了類內的變量的重要性(見公式12)。第二行,snot-class2/sin-class2,衡量了類間參與分類變量的差異性程度(見公式13)公式13.2.5參考集中的樣本控制度就像研究變量相關性那樣,我們用同樣的方式,通過對比每個變量數(shù)據的殘差做出研究,變量相關性可以通過比較每個對象(式7)的殘差和整體類的殘差用(F-test)來比較 (式5) ,樣本殘余的方差越小,其相關性越大,鳶尾花例子參考集中每個對象的殘余方差如表1所示。我們可以看出在參考集的對象都沒有一個具有反常地高的方差;我們沒有必要剔除任何“異類”。2.6 選擇應該指出的是, 上面討論的變量和物體典型性的處理是介于主成分分析的種類框架。一般熵方法以處理同樣的問題為基礎。這些方法由Wong等人研究和完善。他們也給出了其他方法的參考方式,當建模方法應用不夠有效時,熵方法是很有吸引力的,比如數(shù)據是離散或定性的。2.7 現(xiàn)有程序總結 處理模式識別問題的方法,我建議下列步驟:1 通過分別為參照組繪制直方圖衡量組內各變量的貢獻率,非常偏斜的布應該改正,例如,采取將變量中觀測值對數(shù)化的方法。2 數(shù)據標準化,以使所有種類中每一變量得到均值是零且方差為一的結果。3 通過交叉驗證(第2.2.1部分,例子Fig.5),估計用方程式4需要多少主成分數(shù) (Aq)來充分地描述每類參考集.如果,存在多于一類間最優(yōu)主成分數(shù)不同,然后在下面步驟使用這些“最優(yōu)的” Aq值。如果在鳶尾花數(shù)據中Aq值都是相同的,對于一類使用同一值。4 用參考集中Aq值分別擬合的主成分模型 (式4)。 這給出每類的參量 和的值(a=1, Aq) (第2.2.2部分例子在表3)5 由線性回歸方法,用在第四步中固定得到的和值將參考集的所有對象向所有類模型擬合.殘差將提供關于類間“距離的”信息(第2.3部分,例子在表4),變量的“相關性” (第2.4部分,例子在表5)和在參考集對象之中的可能異類值 (第2.5部分)。6 將測試集中的所有對象 (未分類的對象) 由線性回歸方法向所有類模型擬合,再在第5.步固定的參量和7 每個對象的殘余方差將提供關于其自身“最接近的類的”信息,以衡量這最接近的類是否是足夠接近其屬于能將分類的對象那類,并且衡量相對于次接近的種類,是否明顯接近現(xiàn)種類 (第2.2.4部分,例子在表2)如果他們落在每個種類(第2.2.3部分) “正?!钡膮^(qū)間,我們可以看到每個對象和種類回歸系數(shù)Ca(方程6), 如果他們沒有,這是不匹配的征兆。分析這樣結束。自然地,在實際案例中,我們由例如轉換這樣的周期指示量得出結果, 下來的周期,排除或包含變量,刪除對象參考集中等在接。在模式識別中,每次分析特定問題時都需要回答這類問題。但是難在當前上下文概括地說談論。因此,該方案是標準程序”, 并且在實際應用上,方案上和步驟上期望并且努力得到偏差。3討論在獨立的對象,完全分開級別模型,它可能會得到一個非常簡單的方法仍然強大和模式識別方法。事實上,它是可能的,能充分代表任何數(shù)據(如果這幾個假設是實現(xiàn)由主分量模型)和一些條款,本方法相當普遍適用的。(一)該觀測對象的數(shù)據的可以被認為是來自一個持續(xù)兩個向量變量函數(shù),(二) 參考集中變量和對象的數(shù)量足以“運作”主成分的型。后者的假設是,以相關形式對所有形式的數(shù)據分析方法。它符合這一假定,參考集數(shù)據是對實際的種類結構具有充分代表性的;如果這一假定不滿足,任何方法分析數(shù)據將會失敗。關于數(shù)據“連續(xù)性的”第一個假定似乎很合理的應用在自然科學的許多領域,但不會滿足于數(shù)據的“肯定否定”模型。包括的這樣數(shù)據到現(xiàn)時方法里未被嘗試,但可能會因此產生的特殊問題。為了得到一個近的優(yōu)選地高效率的分類方法,然而,數(shù)據包含的更多信息應該得到最大程度的應用,就像由Fukunaga (14)和Foley等(18) 設計的方法那樣。本方法不能直接使用信息,因為不同參考集對象著實是不同的, 因此,區(qū)別類之間的分離不被夸大。新種類要被引用到我們之前分析過的問題時,這種分離方法的特色是被采用。原模型不需要被重估。我們只需要分析這些數(shù)據的新的種類,并適合的新的種類到原模型。事實上,目前的方法能直接對矩陣的原始數(shù)據快速地進行計算,沒有什么儲存要求。不需要被計算和存放與NxN (N-1) /2的距離矩陣元素。用于當前方法的模型,即等式(4)與Snee用于分析形狀的模型非常相似.這表明沒有交集的主成分可能還在模式識別的更經典領域的有更好的應用,例如識別手寫書面字符,應用中的變量應該能使這樣的連續(xù)性假得到很好的滿足,例如各種各樣的字符的橫斷面的長度。Kowalski等人將現(xiàn)時方法運用到油脂數(shù)據.并且發(fā)現(xiàn)結果很好。另外,當前相似性模型(式4中A =1)的也用于模式識別(群簇分析)的應用,其中氣相色譜分析柱填充劑(N=226)根據他們經驗主義的相似性(10個變量)可以被分組。主成分分析方法通常適用之前,有幾個問題是有待解決的,最為重要的是失蹤的數(shù)據。也就是說,參考集和測試集數(shù)據矩陣是不完整的.由Christoffersson已經提出的單一成分模型的估值程序,有可能擴展到兩個成分模型(式4中A =2)。在我們的實驗室,模式識別方法的開發(fā)基于在沒有交集的種類模型間這些參數(shù)估計的程序。致謝-大部分當前的工作,是當我在麥迪遜,威斯康辛大學的數(shù)據統(tǒng)計中心度過的那段愉快的時光中完成的,我受惠于統(tǒng)計中心所有成員的熱情的支持和幫助,對于教授Herman wold,我非常感激他在項目的各個階段的熱情和有價值的幫助。調解員也一直提供了相關的參考資料,給出了建設性的批評,讓我受益匪淺。該項目由瑞典自然科學研究委員會,斯德哥爾摩應用數(shù)學研究所,威斯康辛大學研究生院贊助的。附錄下面的處理試圖表明,如果有足夠多的主成分個數(shù),方程(4)可以充分描述源于相似樣本間同一組分內樣本測量值的任何數(shù)據矩陣.讓我們介紹兩套由矢量變量得到的“微觀”變量,他們是與直接觀測的測量、宏觀、變量相區(qū)別的.讓我們進一步假設觀測變量(y)可以作為微觀變量的函數(shù)。Y=F(z,x)(A1)讓我們最終假設向量變量已選好z、x,所有觀測變量間的變化包括在微觀變量z中,所有對象間的變化包括在向量x中。應該指出,總的來說,人們不知道種類內不同樣本間哪些微小因素變化做出改變。一般情況下,然而,觀測數(shù)據的微觀變量的函數(shù),這一假定是廣為接受的,至少在自然科學領域.在化學上,這些微觀變量是電子變量,如電荷分布和旋轉的軌道上,空間分布不同,范德華作用力,溶質溶劑交互作用,以及更與時俱進的“解釋”化學系統(tǒng)的行為模式,在生物上,這些變量包括,比如蛋白質信息、真空微觀結構形態(tài),單個蛋白質,真空膜的微觀結構,細胞內化學平衡在和核酸分子的行為被認為適用的宏觀生物系統(tǒng)。如果我們現(xiàn)在開始看到某種類的確定樣本,該識別意味著所有的對象的所有元素的x-向量值都有相同的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 探秘書海:字里行間的智慧
- 一年來的財務工作總結
- 2023年員工三級安全培訓考試題及完整答案(全優(yōu))
- 2023年-2024年項目安全培訓考試題含答案(精練)
- 2023-2024年項目部安全管理人員安全培訓考試題原創(chuàng)題
- 2023-2024年企業(yè)主要負責人安全培訓考試題答案可打印
- 新生軍訓心得體會400字10篇
- 科學實驗教學
- 藥物代謝預測與智能模擬研究-洞察分析
- 鐵路運營成本控制-洞察分析
- 《CIS企業(yè)形象策劃》課件
- 機器加盟協(xié)議合同范例
- 2024-2030年中國油田服務市場發(fā)展?jié)摿εc前景戰(zhàn)略規(guī)劃分析報告
- 黑龍江省哈爾濱市道里區(qū)2023-2024學年八年級上學期數(shù)學期末考試試卷
- 碼頭操作管理制度
- 全過程造價咨詢實施方案
- 藥品運送工作指導方案模版(4篇)
- 浙江工業(yè)大學之江學院《建筑結構選型》2023-2024學年第一學期期末試卷
- 倉庫管理培訓課件
- 2024年居間服務合同:律師事務所合作與業(yè)務推廣
- 大型活動音響設備保養(yǎng)方案
評論
0/150
提交評論