




已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
本科畢業(yè)設計(論文)外文參考文獻譯文及原文 學 院 管理學院 專 業(yè) 信息管理與信息系統(tǒng) 年級班別 2008級(6)班 學 號 3108006406 學生姓名 張鐘權 指導教師 胡鳳 2012年5月目 錄(一)外文文獻譯文14 決策樹14.1 介紹14.2 決策和模式分類24.2.1 統(tǒng)計模式分類24.2.2使用邏輯相互關系34.3 決策域5 4.6決策樹實例6(二)外文文獻原文114 Decision Trees114.1 Introduction114.2 Decision-Making and Pattern Classification144.2.1 Statistical Pattern Classification144.2.2 Use of Logical Inter-relationships154.3 Decision Regions17 4.6 Decision Tree Examples19 (一)外文文獻譯文4 決策樹4.1 介紹統(tǒng)計決策廣泛應用于實驗地球科學,它在環(huán)境科學中扮演著更重要的角色,由于環(huán)境系統(tǒng)隨時間不斷改變,需要根據(jù)觀測系統(tǒng)和可能情況不斷地矯正行動(采取不同的行動策略)。一組可能的矯正措施通常在一個決策環(huán)境中,稱為決策集。一些物理屬性(或變量)的觀測值是潛在有用的,這也是可采取的矯正措施的一種情況。在系統(tǒng)中根據(jù)新的情況不斷地矯正措施,目的是為了減少損失,或成本或為了最大利益??紤]到成本是一個負收益,對一個給定的決策問題,科學家和企業(yè)人員看法了一個綜合單一標準成本最小。一個好的決策應該滿足:一、綜合成本最小,二、最優(yōu)決策。獲取和收集物理變量值的過程也被稱為特征提?。ㄌ卣髯兞浚?、變量測定,這些變量有時候也被稱為特征、特征變量、測量。這些特征變量中的一些變量可能會對決策有影響,確定這些變量是一個挑戰(zhàn)。它們可能是成本、風險或者是在收集這項變量過程中的其他損失。在另外一些情況下,獲得測量結(jié)果的時間延遲也可能增加決策成本。這可能要承受某些損失,這是因為由于測量過程的時間延遲,一個矯正措施并不能被較早的執(zhí)行,這些損失應當被計入綜合成本中。因此,決策的過程中可能還包括決定是否收集某些測量。在一個決策系統(tǒng)中,所有變量的數(shù)學空間以及它們的成本是可以設想的(計算得到的)。與每一個綜合變量值有關,做出一個決定的總括成本,包括每一個測量成本,是也是可以設想(得到)的。接著,對沒一個特征測量的組合的最優(yōu)決策也是可以設想(得到)的。這樣的一個表示所有復雜變量之間相互關系的數(shù)學變量被稱為“模型”。特征變量、成本、以及參數(shù)的測量被整合到一個單一的成本標準中。用來表示相互關系的其他數(shù)學數(shù)量和函數(shù)體現(xiàn)了模型的相關信息。不幸的是用精確地數(shù)學空間表示決策成本和最優(yōu)決策圖僅僅是一個設想、一個理想。通常情況下,恰恰是不確定性的數(shù)學量化相互關系才是我們所需要的??赡芤恍╆P系是確定性的,另外一些確實統(tǒng)計的。用先驗的知識去精確量化統(tǒng)計關系本身可能是有限的(有問題的)。最后,即便是我們可以得到一個設想中的完美的表征相互關系的數(shù)學空間,它們的表示和計算最優(yōu)決策可能需要令人可怕的數(shù)量的計算機內(nèi)存和計算能力。人工智能建模和決策方法在很多情況下式有用的。它們在降低表示復雜度方面很有用。在某些情況下,它們通過決策過程動態(tài)的表示模型,而不是試圖建立一個巨大的可能無法管理的靜態(tài)的表示。它們對不確定關系的近似表示也很有用??傊?,人工智能在降低計算(這些計算在計算最優(yōu)決策時必需的)復雜度方面很有用。人工智能通過啟發(fā)式方法能夠得到幾乎是最優(yōu)的決策。決策樹是一種人工智能方法,也是本章的主題。 根據(jù)一個模型開展工作目的是幫助我們決策。根據(jù)排位賽模型,區(qū)分不同的形容詞像精確的(exact)、精準的(precise)、完整的(complete)和統(tǒng)計的(statistical),使它們有序。一個完整的模型解釋了所有可能的相互關系。一個精確地模型(precise)明確的描述了相互關系,沒有含糊之處。例如,語句“由于人的呼吸道敏感性,對人類而言,高臭氧水平的環(huán)境會導致相當大的不舒服”指定了一個關系。但它不是數(shù)學的精確描述,它使用了主觀性的詞語“高”和“相當?shù)摹?。一個說明書可以說是精準的(precise),但這只是大約而不是精確(exact)。有些關系是統(tǒng)計的而不是確定的。完整的、精準的(precise)統(tǒng)計關系和正確的說明在下面的情況下與精確定義的確定的關系具有非常相似的意義。在統(tǒng)計關系的情況下,根據(jù)決策總體成本的統(tǒng)計平均值或期望值最小化,來獲得最佳決策,而不是根據(jù)減少精確的整體成本。顯然地,根據(jù)上面論述,在環(huán)境科學應用中,一個完整的精確的模型通常是不能構建的。即使我們愿意接受相似的但完整指定的模型,我們也可能不能及時得到。如果觀測值的獲取和決策是在有限資源的情況下做出的,時間也是一種資源,那么模型可能是部分指定或者參數(shù)不是非常的精確。氣象就是這樣的應用。氣象現(xiàn)象是觀察天氣的事件。溫度、壓力、水蒸氣等都是影響因素。這些物理量之間相互作用。這些物理量在三維空間和時間的四維空間上也是物理屬性,它們對氣象時間的發(fā)生有重要影響。此外,上述物理屬性在預測未來一段時間內(nèi)的氣象時間非常有用。雖然預測的準確性有了極大提高,但總有進一步提高的空間。一系列物理屬性及其組合的測定對正確認識(預測)各種重要事件是極其有用的。事實上,各種轉(zhuǎn)換變量和轉(zhuǎn)換組合的數(shù)量幾乎是沒有限制的,這一點可能會潛在地增加分類結(jié)果的準確性。而且,不同屬性(和屬性的組合)的不同轉(zhuǎn)換也可能是必須的。因此,關于這一點的研究有很多(開放式的)。本章研究了一類分類(決策)算法。這些方法給予統(tǒng)計的不完整的邏輯相互關系構造模型??偟哪康氖前l(fā)展和引導決策算法,即決策樹。根據(jù)上面提到的理論,這種方法適用于很多實驗地球科學領域。本章中的最后算法也被稱為多級分類和多層分類。4.2 決策和模式分類4.2.1 統(tǒng)計模式分類 在統(tǒng)計模式分類最簡單形式中,模式分類(Duda et al 2001)規(guī)定,一個給定的數(shù)據(jù)向量X被分配到幾個已知的類別w1,wk中。數(shù)據(jù)向量X由m個測量結(jié)果組成:X=x(1),x(2),x(m) (4.1)如前所述,每個測量都是一個特征,它的值與數(shù)據(jù)向量X一致,都受模式類的影響。一個特征可能是重要的,或者序數(shù)的(其重要性通過在一個重要性序列體現(xiàn)),或者無價值的(少價值的)。一個具有重要價值的變量,用一段連續(xù)的實線表征其價值。一個具有序列的價值的變量,通過一個有序的數(shù)列,比如整數(shù),體現(xiàn)其價值。一個沒有價值或者具有很少價值的變量,用一個沒有自然序列的有限序列表示其價值。一個無價值的例子就是某種現(xiàn)象的出現(xiàn)或者不出現(xiàn),像材料樣品中出現(xiàn)特別的污染物(這種現(xiàn)象幾乎不可能出現(xiàn))。在很多已經(jīng)設計完成的分類應用中,我們知道類的先驗概率Pi,分別對應類wi,我們也知道類的條件概率密度函數(shù)P(x|wi),對應每一個類wi和觀察空間中所有的向量點X。我們根據(jù)最大化后驗概率來分類觀察數(shù)據(jù)。也就是說,如果求得的后驗概率是wi(wi的后驗概率最大),就把觀察到的數(shù)據(jù)向量X劃分到類wi.P wi|xPwj|x,對于每一個j(1,2,k) (4.2)根據(jù)概率論中的貝葉斯定理,一個類的后驗概率可以表示為一個函數(shù)。這個函數(shù)由該類的先驗概率函數(shù)和條件密度函數(shù)組成,如下所示:,j(1,2,k) (4.3)上式等號右側(cè)的分母與j無關。因此,公式(4.2)的決定性因素簡化為公式(4.3)的等號右側(cè)分子的最大化,分子與所有的j有關。也就是說,如果滿足下面的條件,數(shù)據(jù)向量X就屬于類wi:P(x|wi)P(x|wj) ,j(1,2,k) (4.4)上述方法的決策取決于統(tǒng)計地表達所有數(shù)據(jù)變化情況的能力,包括含有所有測量數(shù)據(jù)的多維數(shù)據(jù)空間。4.2.2使用邏輯相互關系 純粹統(tǒng)計方法構建數(shù)據(jù)模型進行決策是一種極端的方法,另一個極端是純粹的邏輯相互關系。這種邏輯的相互關系可以通過不同類型的數(shù)據(jù)分析構建,而不是純粹的統(tǒng)計模型。這些相互關系可能是完全確定的,也可能是近似確定的。在實踐中,邏輯相互關系和數(shù)據(jù)統(tǒng)計分析常常被綜合使用。如果邏輯相互關系能夠保證在每次決策的實例中都是不錯的,在使用中就可以認為它是完美的。相同的信息,如果對每一個測量組合都能產(chǎn)生最后的決策(而不是一個局部決策),那么這個信息就被認為是完整的。一個如此完整的完美的可用的邏輯相互關系,避免了統(tǒng)計方法的缺點。一個如此理想的情況在應用中是罕見的。在現(xiàn)實生活應用中,我們通常只有不完善不完整的模型信息。這就是(也是)常見的已知信息以及根據(jù)這些已知信息做出的決策,這些數(shù)據(jù)稱為模式訓練樣本。實用的決策算法是在邏輯相互關系和統(tǒng)計訓練樣本的幫助下進行了最優(yōu)設計的。下面用一個簡單的虛擬例子說明此方法。一個病人因為類似流行感冒的癥狀,訪問他的家庭醫(yī)生。感冒的可能原因是上呼吸道感染或者病毒感染。雖然沒有對病毒感染的治療,但是在某些情況下,繼發(fā)性病毒感染可能會在兩種情況中的一種發(fā)生。有此類風險歷史的患者應該與沒有此類歷史的患者區(qū)別對待。圖4.1顯示了一個可能的邏輯相互關系模型。醫(yī)生會檢查病人的發(fā)燒情況。對于三個可能的發(fā)燒(fever)水平(或者等價),采取的措施也是不同的。對于低發(fā)燒水平的病人,醫(yī)生會檢查的病歷以確定他是否有感染的風險。如果病人處于危險中,醫(yī)生就開處方藥物消除感冒癥狀(圖中決策C表示)。如果病人是高燒的情況,醫(yī)生會開抗生素和感冒藥物(圖中A&C表示)。其他情況,醫(yī)生不開任何藥物。當然,如果病情在一兩天內(nèi)惡化,病人需要重返診所。這是通過“wait”表示的。這是一個邏輯相互關系模型的例子。這個例子假設,醫(yī)生有一個風險因素清單并且這些風險因素沒有模糊性。然而,這種模型仍然是不完善的,因為這里沒有詳細說明如何去區(qū)分高燒和低燒。最終的決策算法需要一個閾值體溫來判斷高燒還是低燒。一個好的閾值可以通過研究圖4.1 一個說明模型和統(tǒng)計訓練的簡單例子過去的很多有關體溫變化對病人病情影響的例子來確定。這個閾值的確定也會受到過去不同體溫下病人的不同處理方式的影響。過去病人的觀測數(shù)據(jù)構成了統(tǒng)計訓練樣本。在上面的例子中,醫(yī)生通過一系列的局部決策最后得到最終決策。在每一個階段,對案例(上面的病人)的相關信息進行審查并預測進一步的措施。在每一階段,都要從可能的行動中選擇一個。這種決策方法稱為決策樹方法。相應的決策模式(方案)的圖形表示稱為決策樹。 在一般的決策模式(方案)(包括決策樹)中,對沒一個測量特征組合的存在一個最優(yōu)決策。因此,測量的數(shù)學空間被劃分為不同的最優(yōu)決策區(qū)域,這些區(qū)域稱為決策域。相鄰決策域的邊界稱為決策邊界。4.3 決策域 像上面介紹的一樣,決策算法在數(shù)據(jù)空間X中產(chǎn)生決策邊界和決策域。也就是說,多維的數(shù)據(jù)空間被分成了許多小的區(qū)域,并對每個區(qū)域進行標示。很能有多個不相交的區(qū)域構成一個單獨的類。下面是一個假設的例子。圖4.2是一個有4個決策區(qū)域和兩個測量,X和Y的例子。 圖4.2 決策域的例子在這個例子中,X軸的值從0到24,Y軸的值從0到16。決策區(qū)域1在一個橢圓中,橢圓的長軸與X軸平行。該橢圓中心在(4,12),長半軸長度為6,短半軸長度為4。決策域4是一個圓心在(12,8),半徑為4的圓。決策域3在圖的右上方,下界為過點(12.16)和(24,8)的直線。其他區(qū)域為決策域2。與離散型變量一樣,如果數(shù)據(jù)向量也有序列的或者無價值(很少價值)的特征量,特征量的測量空間將是連續(xù)的。在現(xiàn)實中,觀察數(shù)據(jù)的類先驗概率函數(shù)和類條件概率密度函數(shù)通常是不能準確得到的。接著根據(jù)有限樣本訓練數(shù)據(jù)集設計模式分類器。從數(shù)據(jù)樣本訓練集開始設計分類器有幾種方法。通常情況下,我們可以從每個類中選擇幾個數(shù)據(jù)向量。一個標記樣本集有k個類w1,wk 中的數(shù)據(jù)組成。wi類中的數(shù)據(jù)向量ni為:,j=1, and i=1,k (4.5)是來自類wi的第j個數(shù)據(jù)向量。在一些應用中,訓練數(shù)據(jù)樣本的相對數(shù)量完全可以用來表示先驗概率。也就是說 (4.6) 可能是Pi的一個很好的判斷。在一些其他應用中,我們可能會試圖提供一個具有盡可能大的訓練樣本集。在這種情況下,來自不同類的數(shù)據(jù)樣本的相對數(shù)量可能不會與類的先驗概率相似。實際應用中,這種情況下的相對比例是已知的或由其他方法求得。例如,在特定的季節(jié),我們知道中午的天氣情況(無任何額外的信息)具有以下的概率:Psunny=0.75, (4.7)Prain=0.15, (4.8)Pcloudy=0.07, (4.9) Psnow=0.03, (4.10)然而在另外一些應用中,對所有的類假設一個相同的概率是合理的。每個類的數(shù)據(jù)集都可能被用來評估該類的條件概率函數(shù)的參數(shù),這個參數(shù)是基于一個已知的或者假定的概率密度函數(shù)。一個概率密度函數(shù)的集合的例子就是用高斯概率函數(shù)集表示單一特征測量。平均值和方差的不同值對應于概率密度函數(shù)集的不同成員。密度函數(shù)的均值和方差與概率密度函數(shù)的參數(shù)一樣是已知的。概率密度函數(shù)集中的其他成員可能除了均值和方差外,還有其他參數(shù)。例如,一個連續(xù)隨即變量的聯(lián)合概率分布可以用它可能取到極值(最大值、最小值)很方便的表示出來。在這種情況下,這些極值就是概率密度函數(shù)的參數(shù)。一個隨即變量的概率密度函數(shù)是其概率分布函數(shù)的導數(shù)。后者也成為累積分分布函數(shù)。模式分類和決策的一個完全定義的統(tǒng)計模型使用概率密度(或分布)函數(shù)作為對象(或事件)的特征測量。這些對象或事件來自模式的每一個類。自然中一些類發(fā)生的類先驗概率也是經(jīng)常使用的。決策系統(tǒng)所需的所有的參數(shù)值對一個完整的詳細說明也是必需的。這種使用概率密度函數(shù)集和對參數(shù)估值的方法來設計模式分離器的方法,被稱為參數(shù)化方法。最終,分類算法為特征測量數(shù)據(jù)空間的每一個數(shù)據(jù)點分配一個類標簽(將每個數(shù)據(jù)進行分類)。分類的規(guī)則是按照4.2部分公式4.4所表示的正確分類規(guī)則最大概率規(guī)則。類分類的結(jié)果將特征數(shù)據(jù)空間劃分成不同的決策域。4.6決策樹實例對于給定的決策域(如圖4.2或4.3中的決策域),要實現(xiàn)模式分類算法需要按照一定的步驟。通常,對于一個給定的數(shù)據(jù)點(x,y),我們應該順序確定選擇點(x,y)的直線或者曲線的哪一邊。如果我們有一個三維數(shù)據(jù),那么這個幾何空間可以分成兩個相鄰的區(qū)域,即面。如果我們有一個較高維的數(shù)據(jù),通過數(shù)學公式將數(shù)據(jù)空間分成兩個相鄰的區(qū)域,這種區(qū)域我們成為超曲面。如果仔細一點地話,我們會發(fā)現(xiàn)在整個可能的數(shù)據(jù)測量區(qū)域并不總是需要確定在數(shù)據(jù)線(二維數(shù)據(jù)線)的那一側(cè)。根據(jù)這個決策步驟,當前的決策線能夠指導我們選擇哪一條線到下一個決策點,直到做出最后的決策。這種算法相應的被稱為多級分類模式。一般的多級分類器和決策樹的區(qū)別是有些主觀的。一般來說,在決策樹中,測試功能的評價和在每一階段進行的下一次行動的決策是簡單的。舉一個例子,從兩個選擇里面選取一個的決策行為。這就需要在每一步根據(jù)一線簡單的變量參數(shù)進行門檻比較,這就是一個簡單的多級分類器。這樣的分類器同時也是二叉決策樹。圖4.11顯示了另外一種模式的決策域。請注意,這種決策域的邊界是直線段,并且平行于坐xy標軸的一條軸。同樣地,整個矩形的長是24個單位,高是16個單位,以坐標軸底部的左角落為原點。橫坐標和縱坐標線段的值是必要的,并在線段的外側(cè)標識出,完整地表示了整個決策域。各區(qū)域的標簽是數(shù)字1、2、3、4和5,標示在各決策域內(nèi)。針對這種決策區(qū)域,我們可以用決策樹的方法實現(xiàn)決策算法。而且,我們可以考慮使用二叉決策樹?;叵胍幌拢谝粋€二叉決策樹中,每一個決策點檢查一個條件,結(jié)果是yes或者no,直到做出最終的決策。圖4.2所示是一個二叉決策樹,樹的每一個邊都是一個比較,x或y與對應的閥值比較。圖4.11 矩形邊界 第一階段檢查y是否小于7。如前面所約定,結(jié)點的左分支表示yes(真),右分支表示no(假)。顯然,我們可以構造這樣的決策樹,在每一個特殊階段的測試都可能產(chǎn)生一個可能的結(jié)果(兩個或兩個以上肯能個結(jié)果中的一個)。在這種情況下,決策樹并不是一個二叉樹,而是普通的樹。圖4.13顯示了一個完成圖4.11決策的決策算法的決策樹。圖4.12 二進制決策樹圖4.11的例子圖4.13 一個非二進制決策樹圖4.11的例子在圖4.13中,如果測試結(jié)點的結(jié)果只有兩個,左分支表示true,右分支表示false答案。在某些條件下,多分支表明這個判斷條件含有一個特殊的分支。我們也可以構造決策樹,樹中的測試可能會涉及到多個特征變量。一個有意思的例子如下:圖4.3中的決策邊界都是直線段,但是這些直線段既不平行于x軸也不平行于y軸。然而每一個直線由聯(lián)立方程的變量x和y確定。方程的兩邊由兩個可能的(相應的、不相等的)結(jié)果精確表示。因此,對于圖4.3所示的決策區(qū)域,我們可以構造二叉樹。樹中的每一個測試都涉及兩個變量x和y的線性組合。構造這樣一個針對圖4.3的決策域的決策樹是一個綜合練習,我們建議讀者進行練習。決策邊界并不要求一定是直線段,才能像決策樹一樣設施決策算法。當然,如果決策樹的各個階段的測試都非常復雜,使用決策樹來實現(xiàn)決策將是值得懷疑的。讓我們用圖4.2所示決策域作為例子,通過決策樹進行分類。橢圓的基本方程是(該橢圓的圓心為坐標面的原點,其主軸、次軸分別與x軸、y軸共線): (4.13) 其中a是橢圓在x軸上的截距,y是橢圓在y軸上的截距。長軸,橢圓上兩點之間距離最大且通過橢圓圓心,是2a;短軸,最短的距離,是2b。轉(zhuǎn)移橢圓的中心,并用半長軸和半短軸取代例子中的a、b,我們有橢圓的公式如下: (4.14) 進行簡化,我們得到橢圓的公式如下: (4.15) 橢圓所對應的區(qū)域標識為1,它是所有滿足下面不等式的所有點(x,y)的集合: (4.16) 在上面不等式(4.16)中,u是一個復合變量,由初始數(shù)據(jù)測量x和y轉(zhuǎn)換派生得到的。對于一個半徑為r,圓心在原點的圓的公式為: (4.17) 在我們的例子中,轉(zhuǎn)換圓心并令半徑的長度為4個單位,我們有 (4.18) 簡化為: (4.19) 該區(qū)域?qū)?類,它是滿足下面不等式的所有點(x,y)的集合: (4.20) 與前面的例子一樣,v也是一個復合變量,是由初始數(shù)據(jù)測量x和y轉(zhuǎn)換派生的。如果一個直線過兩點(x1,y1),(x2,y2),那么它的方程可以表示如下: (4.21)在我們的例子中,將類3與其他類區(qū)分開的直線過點(12,16)、(24,8),那么這條直線的公式為: (4.22)化簡得,直線的方程為:2x+3y-72=0 (4.23)類3 的區(qū)域是滿足一下不等式的點集:w=2x+3y-720 (4.24)同理,w也是復合變量,由變量x和y衍生出來。有了這些準備,用決策樹實現(xiàn)分類就簡單了。圖4.14所示的就是這樣一棵決策樹,樹的各個階段是簡單的閥值比較,然而,與閥值進行比較的變量是來自橢圓和圓的非線性轉(zhuǎn)換,以及直線的線性轉(zhuǎn)換。 以上的例子說明了決策樹的幾個特點,以及它的結(jié)構和操作。所有的這些決策樹根據(jù)三個給定不同決策域的例子構造的。因此,如果他們能夠滿足下面任一個條件,那么這些方法就是直接有效的。1. 我們知道決策域。2. 我們知道數(shù)據(jù)測量的類先驗概率和類條件概率函數(shù)。在這種條件下,我們可以根據(jù)公式4.4所給出的最大后驗概率決策模型精確地得到?jīng)Q策域。圖4,14 二進制決策樹圖4.2的例子在許多實際應用中,我們需要根據(jù)不完整的物理系統(tǒng)數(shù)據(jù)、樣本類型已知的訓練數(shù)據(jù)、未分類的數(shù)據(jù)以及它們的組合設計模式分類器。在這種情況下,我們嘗試設計出像決策樹一樣有效地分類器。也就是說,我們不再是實際決策邊界,然后將它們轉(zhuǎn)換成決策樹(就像我們在前面的例子中所做的那樣);而是同時設計決策區(qū)域和相應的決策樹,二者同時推進。(二)外文文獻原文4 Decision Trees4.1 Introduction Statistical decision-making is widely used in experimental earth sciences.The topic plays an even more important role in Environmental Sciences due to the time varying nature of a system under observation and the possible necessity to take corrective actions. A set of possible corrective actions is usually available in a decision-making situation. Such a set is also known as the set of decisions. A number of observations of physical attributes (or variables) would also be poten- tially available. It is desirable for the corrective action selected in a situation to minimize the damage or cost, or maximize the benefit. Considering that a cost is a negative benefit, scientists and practitioners develop a composite single criterion that should be minimized, for a given decision-making problem. A best decision, one that minimizes the composite cost criterion, is also known as an optimal decision. The process of obtaining or collecting the values that the physical variables take in an event is also known by other names such as extracting features (or feature variables) and making measurements of the variables. The variables are also called by other names such as features, feature variables, and measurements. Among the many possible physical variables that might influence the decision, collecting some of them may pose challenges. There may be a cost, risk, or some other penalty associated with the process of col- lecting some of these variables. In some other cases, the time delay in obtaining the measurements may also add to the cost of decision-making. This may take the form of certain losses because a corrective action could not be implemented earlier due to the time delay in the measurement process. These costs should be included in the overall cost criterion.Therefore, the process of decision-making may also involve deciding whether or not to collect some of the measurements. A mathematical space of the entire set of variations in the variables and their costs can be imagined in such a decision-making situation.Associated with every combination of values of variables, the overall cost of assigning a decision, including any measurement costs, can be imagined. Following this, the optimal decision for each combination of feature measurements can also be imagined. Such a mathematical rep- resentation of inter-relationships between all the vari- ables involved is known as a “model.” The variables of feature measurements, the costs, the parameters used for combining the costs to a single criterion, and every other mathematical quantity and function used in the representation of inter-relationships are relevant aspects of the model. Unfortunately, a precise mathematical space of costs of decisions and hence the map of optimal deci- sions is merely hypothetical or ideal. Usually, there are uncertainties in exactly quantifying the mathemati- cal inter-relationships required for such a construction. Some of the relationships may be deterministic. Some others may be statistical. There may be limited a priori knowledge to precisely quantify the statistical relation- ships. Finally, even with an imagined perfect mathe- matical space of inter-relationships, their representation and evaluation of optimal decisions may require formidable amounts of computer memory space and computations. Artificial Intelligence approaches for modeling and decision-making are helpful in many such situations. They are useful in reducing the com- plexity of representations. In some cases, they dynami- cally develop the representations of the model through the course of decision-making,instead of attempting to build a possibly unmanageably large static repre- sentation. They are also useful for approximate repre- sentation of imprecise relationships. Finally, they are useful in reducing the complexity of the computation required to evaluate optimal decisions, through the use of heuristics to evaluate nearly optimal decisions. Decision Trees is one of the Artificial Intelligence approaches and is the subject of the present chapter. The purpose of working with a model is to help us in decision-making. In qualifying models, clarifi- cations between various adjectives such as exact, pre- cise, complete, and statistical are in order. A complete model accounts for all possible inter-relationships. A precise model specifies the inter-relationships without ambiguity. For example, the statement “high ambient Ozone levels cause considerable discomfort for people with respiratory sensitivity” specifies a relationship. But it is not mathematically precise due to the sub- jectivity of words such as “high,” and “considerable.” A specification may be precise, but only approximate, as opposed to being exact. Some relationships may be statistical,as opposed to being deterministic.Statistical relationships with complete, precise, and correct specifications are as good as similarly specified deter- ministic relationships in the following sense. In the case of statistical relationships, the statistical mean or the expected overall cost of the decision is minimized to obtain an optimal decision, as opposed to minimiz- ing the exact overall cost. Clearly, from the above arguments, a complete and exact model cannot usually be constructed in many Environmental Sciences applications. Even if a prac- titioner is willing to accept approximate but com- pletely specified models, they may not be available in a timely fashion for many applications. Models may be only partially specified or the parameters of the model may not be accurate if observations are made and decisions are required to be made with limited resources; time is one of the resources. Meteorology is such an application. Meteorological phenomena are observable weather events. These are influenced by temperature, pressure, and water vapor, among oth- ers. These physical variables interact with one another. time are also physical attributes and these contribute significantly to the occurrence of a meteorological event. Furthermore, the above physical attributes are very useful in predicting future meteorological events, within reasonable time frames. Although tremendous advances in research have increased the accuracy of forecasting, there is always room for improvement. Determination of ranges of various physical attributes and their combinations for accurate identifications of various important events is extremely useful. There is virtually no limit to the number of various trans- formations of variables and combinations of trans- formations that may potentially increase the accuracy of such classification. Moreover, different transforma- tions over different ranges of attributes (and their com- binations) may be required. Therefore, research on this topic is open-ended. The present chapter studies a class of approaches for classification (decision-making) algorithms. These methods integrate models based on partial informa- tion about logical inter-relationships with statistical representations. The overall objective is to develop guided decision-making algorithms called Decision Trees. The approach is applicable in many experi- mental areas of earth sciences for reasons mentioned above. The final algorithm in this class is also known by other names such as Multistage Classification and Hierarchical Classification.4.2 Decision-Making and Pattern Classification4.2.1 Statistical Pattern Classification In its simplest form, pattern classification (Duda et al.2001) requires that a given data vector x be assigned to one of several known categories, 1 , , k . The data vector variable x is composed of m measurements so thatx = x (1), x (2), , x (m). (4.1)As mentioned earlier, each measurement is also called a feature, whose value is influenced by the pattern class corresponding to the data vector x. Each feature may be cardinal, ordinal, or nominal valued. A cardinal val- ued variable takes values over continuous segments of a real line. An ordinal valued variable, over a countable set of ordered values, such as integers. A nominal valued variable takes values from a finite set in which the values in the set have no natural order. An example of a nominal variable is the presence or absence of a phenomenon, such as the presence or absence of a particular pollutant in a material sample. In many completely de
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微信平臺推廣合同協(xié)議
- 快消品代運營合同協(xié)議
- 2025鋁材購銷合同的格式范本
- 2025標準貨物運輸合同模板
- 快遞門市轉(zhuǎn)讓合同協(xié)議
- 模具沖壓件合同協(xié)議
- 2025共有產(chǎn)權房的買賣合同
- 商業(yè)合作保密協(xié)議合同
- 品牌代理招商合同協(xié)議
- 2025國內(nèi)獨家授權合同
- 2025至2030中國核燃料加工行業(yè)競爭趨勢及發(fā)展前景可持續(xù)報告
- 山西省部分重點中學2024-2025學年高三4月模擬檢測語文試題(含答案)
- 2025年全國防災減災日(5.12)應知應會知識測試競賽題庫與答案
- 六年級家長會心理教育專題課件
- 四川宜賓環(huán)球集團有限公司招聘筆試題庫2025
- 如何設計高質(zhì)量的課件:制作教學指南
- 2025年農(nóng)村商業(yè)銀行人員招聘考試筆試試題(含答案)
- 浙江省寧波市2024學年第二學期高考與選考模擬考試化學試卷及答案(寧波二模)
- 2025年江蘇省蘇州市昆山八校聯(lián)考中考零模英語試題(原卷版+解析版)
- 生物技術與生物醫(yī)藥產(chǎn)業(yè)發(fā)展趨勢分析
- DBJ-T13-200-2025 福建省樁基礎與地下結(jié)構防腐蝕技術標準
評論
0/150
提交評論