版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
建構(gòu)整合決策樹與關(guān)連規(guī)則之資料挖礦架構(gòu)及實(shí)證研究期末報(bào)告組別:三資四BH24932128謝殿臣資四BH24932089黃孝慈資四BH24932437顏?zhàn)饲嘧髡撸簵罹扒?建構(gòu)整合決策樹與關(guān)連規(guī)則之資料挖礦架構(gòu)及實(shí)證研究期末報(bào)告組別一、緒論_研究背景及重要性隨著資訊科技的進(jìn)步,企業(yè)所記錄或儲(chǔ)存的大量資料,對於不同階層的使用者來,資料代表著不同的意義與價(jià)值。當(dāng)大量的資料被企業(yè)儲(chǔ)存起來,如何發(fā)揮與創(chuàng)造出資料價(jià)值變成為將資料由負(fù)債轉(zhuǎn)換資產(chǎn)的成功關(guān)鍵。2一、緒論_研究背景及重要性隨著資訊科技的進(jìn)步,企業(yè)所記錄或儲(chǔ)一、緒論_研究背景及重要性決策結(jié)果解釋(視覺化技術(shù))資料挖礦(資訊探索)資料探索(OLAP、統(tǒng)計(jì)分析、查詢報(bào)表)資料倉儲(chǔ)、資料超市資料來源(資料庫系統(tǒng)、OLTP、檔案)資訊量價(jià)值性決策者企業(yè)主管資料分析者資料庫管理者圖1.1企業(yè)中的資料階層3一、緒論_研究背景及重要性結(jié)果解釋資料挖礦資料探索資料倉儲(chǔ)、一、緒論_研究目的目的:事故排除方法:建構(gòu)整合決策樹與關(guān)連規(guī)則之資料挖礦架構(gòu)及實(shí)證研究。實(shí)驗(yàn)對象:以臺(tái)灣電力公司與某半導(dǎo)體廠兩個(gè)不同產(chǎn)業(yè)之案例做為實(shí)證,已檢驗(yàn)此資料挖礦架構(gòu)之效度。4一、緒論_研究目的目的:事故排除4一、緒論_論文結(jié)構(gòu)與研究流程1.2圖研究流程問題定義與架構(gòu)問題定義理論架構(gòu)結(jié)果分析與討論結(jié)論專家訪談實(shí)證研究一臺(tái)灣電力公司實(shí)證研究二某半導(dǎo)體大廠5一、緒論_論文結(jié)構(gòu)與研究流程1.2圖研究流程問題定義與架構(gòu)問二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦表2.2資料挖礦的定義2.2圖資料挖礦的四個(gè)循環(huán)確認(rèn)問題類型評(píng)估挖礦結(jié)果採用適當(dāng)工具進(jìn)行挖礦工作6二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦表2.2資料挖礦的定義確二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦2.3圖資料挖礦過程的主要步驟問題定義獲取相關(guān)領(lǐng)域知識(shí)選取資料資料前置處理分析與解釋報(bào)告與使用資訊7二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦2.3圖資料挖礦過程的主二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦2.4圖資料挖礦專案流程步驟2.5圖適用各產(chǎn)業(yè)之資料挖礦架構(gòu)8二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦2.4圖資料挖礦專案流程步二、文獻(xiàn)探討_資料挖礦模式與工具資料挖礦模式(Model)的六種形式資料挖礦模式(Model)分類迴歸時(shí)間序列分群關(guān)聯(lián)分析順序挖掘監(jiān)督式學(xué)習(xí)非監(jiān)督式學(xué)習(xí)9二、文獻(xiàn)探討_資料挖礦模式與工具資料挖礦模式(Model)的二、文獻(xiàn)探討_資料挖礦模式與工具2.6圖資料挖礦的技術(shù)資料挖礦(DataMining)資料庫技術(shù)(DatabaseTechnology)統(tǒng)計(jì)學(xué)(Statistics)資訊科學(xué)(InformationScience)機(jī)器學(xué)習(xí)(MachineLearning)視覺化技術(shù)(Visualization)其他領(lǐng)域研究10二、文獻(xiàn)探討_資料挖礦模式與工具資料挖礦資料庫技術(shù)統(tǒng)計(jì)學(xué)資訊二、文獻(xiàn)探討_資料挖礦挖掘結(jié)果類型資料挖礦所處理的問題類型由上而下:利用現(xiàn)有的模型來建立資料,藉此來描述某一特定變數(shù)。由下而上:不需要特別標(biāo)註在某一變數(shù)或某一種値,而是試著尋找所有變數(shù)中是否有隱藏某種關(guān)係。分類(Classification)預(yù)測(Prediction)分群(Clustering)關(guān)聯(lián)規(guī)則分析(AssociationRule)資料挖礦所處理的問題類型由上而下由下而上11二、文獻(xiàn)探討_資料挖礦挖掘結(jié)果類型資料挖礦所處理的問題類型分二、文獻(xiàn)探討_資料挖礦工具資料挖礦屬於探索導(dǎo)向,不需事先假設(shè)以求驗(yàn)證。挖礦者需在一開始就釐清處理的工作目的為何?資料挖礦工具依照解決的問題類型與挖礦的目的而異。通常不會(huì)只使用單一工具來進(jìn)行挖掘工作。12二、文獻(xiàn)探討_資料挖礦工具資料挖礦12二、文獻(xiàn)探討_資料挖礦工具表2.3挖礦問題類型及可使用的工具
(附註:ˇ表工具可使用之挖掘問題類型)
問題類型
工具分類Classification預(yù)測Prediction關(guān)聯(lián)分組AffinityGrouping聚集分析Clustering基本統(tǒng)計(jì)ˇˇˇˇ關(guān)聯(lián)規(guī)則/購物籃分析ˇˇˇ記憶基礎(chǔ)法ˇˇˇˇ遺傳演算法ˇˇ聚類偵測法ˇˇ鍊結(jié)分析法ˇˇˇ決策樹ˇˇˇ類神經(jīng)網(wǎng)路ˇˇˇ13二、文獻(xiàn)探討_資料挖礦工具表2.3挖礦問題類型及可使用的工二、文獻(xiàn)探討_資料挖礦工具表2.4資料挖掘工具的基本特性介紹的演算法如下:遺傳演算法類神經(jīng)網(wǎng)路FuzzyLogic記憶基礎(chǔ)理解決策樹。使用14種特性作介紹。14二、文獻(xiàn)探討_資料挖礦工具表2.4資料挖掘工具的基本特性1二、文獻(xiàn)探討_資料挖礦工具表2.5資料挖礦工具間的比較(附註:ˇ表資料挖礦工具能表現(xiàn)的能力)工具表現(xiàn)能力Regression/ANOVA類神經(jīng)網(wǎng)路決策樹關(guān)聯(lián)規(guī)則模式使用上(Modelfree)ˇˇˇ對離群値的穩(wěn)定性(RobusttoOutliers)ˇ具體解釋能力(Physicalintertation)ˇˇ連續(xù)變數(shù)處理能力(Continuousoutputs)ˇˇ類別變數(shù)處理能力(Discreteoutputs)ˇˇˇˇ15二、文獻(xiàn)探討_資料挖礦工具表2.5資料挖礦工具間的比較二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則是最常被應(yīng)用的模式之一關(guān)聯(lián)規(guī)則分析(associationRuleAnalysis)從資料庫龐大的資料中,探索資料間欄位有趣的關(guān)係或相關(guān)性。購物籃分析如何從日積月累的交易資料中,以有效的方法找出商品間的關(guān)聯(lián)性,進(jìn)而推斷消費(fèi)者購買行為,創(chuàng)造無限商機(jī)。16二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則是最常被應(yīng)用的模式之一16二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明進(jìn)行關(guān)聯(lián)規(guī)則挖礦時(shí),作業(yè)流程的兩大步驟找出所有的高頻項(xiàng)目組(FrequentItemsets)高頻項(xiàng)目組所出現(xiàn)的次數(shù)必須大於等於事先定義的最小支持度數(shù)目。此步驟決定了整體作業(yè)的效能從找到高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則所產(chǎn)生的規(guī)則必須滿足決策者所給定支持度與信賴度的最低門檻値,規(guī)則才成立。17二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明進(jìn)行關(guān)聯(lián)規(guī)則挖礦時(shí),作業(yè)流程二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明定義描述18二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明定義描述18二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明關(guān)聯(lián)規(guī)則的成立必須滿足決策者所訂定之最小支持度(MinmumSupportThreshold),和最小信賴度(MinmumConfidenceThreshold)。有意義的關(guān)聯(lián)規(guī)則其支持度與信賴度必須大於或等於所訂定之最小門檻値。增益指標(biāo)加入後,若增益大於1,則表示規(guī)則的預(yù)測結(jié)果比單純的亂數(shù)還要好,反之,則較差。19二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明關(guān)聯(lián)規(guī)則的成立19二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則1.支持度(Support)在規(guī)則(Rule)中,項(xiàng)目(Items)一起出現(xiàn)的交易暨路佔(zhàn)全部交易紀(jì)錄的百分比。最小支持度控制了一個(gè)關(guān)聯(lián)規(guī)則必須涵蓋的最少資料數(shù)目,以篩選掉不顯著的規(guī)則,在實(shí)務(wù)上才有應(yīng)用價(jià)値。支持度代表的意義為X與Y一起出現(xiàn)的機(jī)率。
20二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則20二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則2.信賴度(Confidence)代表此條規(guī)則的預(yù)測強(qiáng)度。X發(fā)生之下發(fā)生Y結(jié)果的機(jī)率足以使得此關(guān)聯(lián)規(guī)則得以成立。計(jì)算在前提項(xiàng)目X發(fā)生的情況下,發(fā)生結(jié)果Y的機(jī)率。
21二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則21二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則3.增益(LiftorImprovement)比較信賴度與結(jié)果項(xiàng)目Y單獨(dú)發(fā)生時(shí)之機(jī)率兩者間的大小。關(guān)聯(lián)規(guī)則的條件機(jī)率比母體中原本發(fā)生的機(jī)率大才具有意義。
22二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則22二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則類型關(guān)聯(lián)規(guī)則類型1.以屬性質(zhì)的形態(tài)為基礎(chǔ)若挖礦規(guī)則焦點(diǎn)放在項(xiàng)目(Item)是否出現(xiàn),則稱為布林値的關(guān)聯(lián)規(guī)則(BooleanAssociationRule)。2.以規(guī)則中涵蓋資料維度為基礎(chǔ)若要挖礦的規(guī)則的項(xiàng)目或?qū)傩灾墼趩我痪S度時(shí),稱之為單一維度關(guān)聯(lián)規(guī)則(SingleDimensionalAssociationRule)。3.以規(guī)則集合中所涵蓋的抽象層級(jí)(LevelofAbstraction)為基礎(chǔ)規(guī)則屬性或是項(xiàng)目全為同一層級(jí),則稱為單一層級(jí)關(guān)聯(lián)規(guī)則(Single-LevelAssociationRule)。23二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則類型關(guān)聯(lián)規(guī)則類型23二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則類型2.7圖概念層級(jí)樹24二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則類型2.7圖概念層級(jí)樹24二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則演算法與特性表2.6關(guān)聯(lián)規(guī)則演算法與特性演算法作者/年代主要特色缺點(diǎn)AprioriAgrawal(1994)反覆產(chǎn)生候選項(xiàng)目組,找出所有高頻項(xiàng)目組,進(jìn)而推導(dǎo)規(guī)則。需反覆搜尋資料庫,花費(fèi)I/O時(shí)間。PartitionSavasere(1995)將資料庫分區(qū)段,找出個(gè)區(qū)段之高頻項(xiàng)目組並集合之,再次搜尋資料庫找出真正高頻項(xiàng)目組。在各區(qū)段中會(huì)產(chǎn)生較多非相關(guān)項(xiàng)目組。DHPJong等人(1997)利用雜湊表(hashtable)刪減不必要的候選項(xiàng)目組。一開始會(huì)花時(shí)間建立hashtableBSMWur等人(1999)使用表格運(yùn)算方式產(chǎn)生高頻項(xiàng)目組,改善Apriori多次掃描資料庫的缺點(diǎn)。需事先轉(zhuǎn)換運(yùn)算表格。25二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則演算法與特性表2.6關(guān)聯(lián)規(guī)則演算法二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則的應(yīng)用1.商業(yè)應(yīng)用藉由關(guān)聯(lián)規(guī)則方法了解顧客購買行為的資訊,協(xié)助零售業(yè)在進(jìn)行商品擺放位置規(guī)畫。2.工業(yè)應(yīng)用利用關(guān)聯(lián)規(guī)則發(fā)展一彈性且有項(xiàng)的巢式製造系統(tǒng)(CellularManufacturingSystem),找出機(jī)臺(tái)間的最佳組合,形成群組技術(shù)(GroupTechnology)。3.醫(yī)學(xué)應(yīng)用利用關(guān)聯(lián)規(guī)則做藥品櫥位管理,或以過去看診暨路檢式藥品使用量與方法是否正確,並可分析個(gè)病例特徵間關(guān)聯(lián)程度。26二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則的應(yīng)用1.商業(yè)應(yīng)用26二、文獻(xiàn)探討_決策樹決策樹監(jiān)督式的特徵萃取演算法,廣泛應(yīng)用來解決分類(Classification)形態(tài)問題的工具,亦可做為探索與預(yù)測之用。能夠?qū)⑤斎胱償?shù)依據(jù)某種規(guī)則或資料進(jìn)行分類,並以樹枝狀方式表現(xiàn)類別之間由輸入變數(shù)所造成的區(qū)別,因此決策樹可對資料進(jìn)行架構(gòu)的分類。27二、文獻(xiàn)探討_決策樹決策樹27二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟1.決策樹的切割(Splitting)決策樹須將輸入的預(yù)測變數(shù)作分類,用以解釋目標(biāo)變數(shù)變異的原因。2.停止長樹(Stopping)當(dāng)無法找出任何分隔預(yù)測變數(shù)可以顯著降低下一節(jié)點(diǎn)的分散度,表示樹以生長完整(Complete)。28二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟28二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟3.評(píng)估(Assessment)評(píng)估整個(gè)決策樹的錯(cuò)分率(Misclassification)或是評(píng)估每個(gè)節(jié)點(diǎn)的錯(cuò)誤率(ErrorRate)。公式如下:29二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟29二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟4.決策樹的修剪當(dāng)決策樹所生長的層級(jí)越深時(shí),子節(jié)點(diǎn)的資料比數(shù)就會(huì)越來越少,資料的代表性就越低,所產(chǎn)生的法則可能會(huì)造成過度學(xué)習(xí)(OverFitting)而產(chǎn)生偏差,此時(shí)演算法中就應(yīng)加修剪的步驟。找出錯(cuò)誤的分支給予修剪,如:CART、C4.5。以測試資料(TestingData)驗(yàn)證、抽樣方法來減少?zèng)Q策樹過度學(xué)習(xí)現(xiàn)象的發(fā)生。30二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟30二、文獻(xiàn)探討_決策樹2.11圖修剪對錯(cuò)誤率的影響31二、文獻(xiàn)探討_決策樹2.11圖修剪對錯(cuò)誤率的影響31二、文獻(xiàn)探討_決策樹演算法表2.7常用決策樹演算法之比較演算法比較準(zhǔn)則常見幾種決策樹的演算法CARTID3C4.5CHAID作者(年代)Briemen(1984)Quinlan(1986)Quinlin(1993)Hartigan(1975)處理資料形態(tài)離散、連續(xù)離散、連續(xù)離散、連續(xù)離散分裂樹二元樹不受限制不受限制不受限制連續(xù)形資料處理方式分2枝不受限制不受限制無法處理分枝準(zhǔn)則Gini値InformationGainGain_Ratio統(tǒng)計(jì)檢定(卡方分配)32二、文獻(xiàn)探討_決策樹演算法表2.7常用決策樹演算法之比較二、文獻(xiàn)探討_決策樹於事故診斷的相關(guān)研究表2.8應(yīng)用決策樹於事故排出之相關(guān)研究研究者實(shí)證對象使用的演算法Braha&Shmilovici(2003)半導(dǎo)體黃光區(qū)C4.5鄭人傑(2003)晶圓過站記綠與CP測試値Kruskal-Wallis、卡方交互影響檢測、變異降低分枝法則劉中光(2002)印刷電路板(PCB)決策樹結(jié)合SOM方法Raghavan(2002)良率、ICE-TTestparameter利用決策樹(CART、CHAID)Fan(2001)WAT、InLineManufacturingdata決策樹蔡智政(2001)晶圓批量製程管制(LPC)資料以CART決策樹分析LPC李培瑞(2001)半導(dǎo)體WAT資料、CP資料結(jié)合人工類神經(jīng)網(wǎng)路與決策樹林鼎浩(2000)半導(dǎo)體WAT與製造相關(guān)資料無母數(shù)Kruskal-Wallis統(tǒng)計(jì)檢定法33二、文獻(xiàn)探討_決策樹於事故診斷的相關(guān)研究表2.8應(yīng)用決策三、研究架構(gòu)_問題定義透過清楚的問題定義,瞭解問題類型包含哪些類別,才知道有哪些是屬於關(guān)鍵性的資料。34三、研究架構(gòu)_問題定義透過清楚的問題定義,瞭解問題類型包含哪三、研究架構(gòu)_資料選擇對領(lǐng)域知識(shí)及問題有了基本的認(rèn)識(shí)之後,便是進(jìn)行資料選擇的工作,應(yīng)先對資料有進(jìn)一步的瞭解,而非將資料盲目的丟進(jìn)模式分析。資料取得的方式如下表:檔案(File)好處是取得快速且閱讀容易,但是一旦建立好以後日後想再做資料處理就不太容易處理,如:MicrosoftExcel。關(guān)聯(lián)資料庫(RelationalDatabases)在關(guān)聯(lián)式資料庫中,透過查詢工具語言(SQL)可以蒐集到想要的資料。資料倉儲(chǔ)(DataWarehouse)資料量通常達(dá)數(shù)百M(fèi)ega甚至上Giga,資料讀取方式是以「切割」的觀念,並非巷資料庫連結(jié)表格的方式處理35三、研究架構(gòu)_資料選擇檔案好處是取得快速且閱讀容易,但是一旦三、研究架構(gòu)_資料前置處理一般資料可分成質(zhì)與量兩類,質(zhì)的資料又分成空間性與時(shí)間性兩種,掘取欲分析的資料,並以去蕪存菁的方式轉(zhuǎn)化處理,才能確保分析資料的品質(zhì)和分析結(jié)果的正確性。資料前置處理的步驟需要不斷學(xué)習(xí)與經(jīng)濟(jì)累積。資料前置處理形式資料清理資料整合資料轉(zhuǎn)換資料化約。36三、研究架構(gòu)_資料前置處理一般資料可分成質(zhì)與量兩類,質(zhì)的資料三、研究架構(gòu)_資料前置處理資料前置處理通常會(huì)採取的動(dòng)作如下:1.資料的基本分佈與檢視:對於資料的基本數(shù)理特性做醫(yī)界面性的檢視,分佈為常態(tài)、非常態(tài)、偏右、偏左等,瞭解資料的長相與分佈以便做後續(xù)處理。2.偏離值的檢測與處理:對於散佈在正常分佈外的資料點(diǎn)作出處理,譬如直接刪除還是保留其資訊。37三、研究架構(gòu)_資料前置處理資料前置處理通常會(huì)採取的動(dòng)作如下:三、研究架構(gòu)_資料前置處理3.空白值與缺值的處理:空白值與缺值所代表的意義並不相同,空白值為無法填入的資料;缺值則為資料的遺漏或錯(cuò)誤。要?jiǎng)h除該筆資料或者以特殊方式補(bǔ)值,對於挖礦結(jié)果的解釋會(huì)有不同的影響,所以須對資料有近一步的了解。4.資料為度轉(zhuǎn)換:ㄧ般而言高維度的資料計(jì)算複雜,所花費(fèi)的時(shí)間較多,因此維度的降低亦是一種重要的課題。38三、研究架構(gòu)_資料前置處理3.空白值與缺值的處理:38三、研究架構(gòu)_資料前置處理5.資料格式化或分佈轉(zhuǎn)換:資料處理時(shí),資料的格式轉(zhuǎn)換與其所代表的相對意義都須瞭解。資料格式化和轉(zhuǎn)換亦會(huì)挖掘出另ㄧ層意義的結(jié)果。ㄧ般將資料數(shù)字分成四種不同的衡量尺度,名義尺度、順序尺度、區(qū)間尺度、比例尺度衡量。39三、研究架構(gòu)_資料前置處理5.資料格式化或分佈轉(zhuǎn)換:39三、研究架構(gòu)_資料前置處理衡量的層次內(nèi)容說明舉例名目尺度(NominalScale)又稱類別尺度,使用數(shù)字或標(biāo)記區(qū)分物件或事件,此尺度並無大小之分。機(jī)臺(tái)和貨批的編號(hào)等。順序尺度(OrdinalScale)又稱等級(jí)尺度,就ㄧ事務(wù)之某特質(zhì)好壞次序加以排列,有方向次序的比較,但沒有距離或獨(dú)特的原點(diǎn)。各種Bin值的分類、成績區(qū)間尺度(IntervalScale)以此尺度表現(xiàn)之變數(shù),可區(qū)分類別及排出大小順序之外,可算出差異之大小。區(qū)間尺度中,零點(diǎn)的位置並非固定的,而且衡量的單位也是任意的。機(jī)臺(tái)的溫度、量測的參數(shù)比例尺度(RatioScale)可說出名稱、排出順序、算出差距、亦可表示出比例的關(guān)係。比例尺度具有絕對零度的?;瘜W(xué)藥劑使用量、重量40三、研究架構(gòu)_資料前置處理衡量的層次內(nèi)容說明舉例名目尺度又稱三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取當(dāng)目標(biāo)變數(shù)與署醒確定後,接下來即確認(rèn)預(yù)測變數(shù)。為避免加入對目標(biāo)變數(shù)結(jié)果無顯著影響的資料,可利用統(tǒng)計(jì)方法檢定預(yù)測變數(shù)與目標(biāo)變數(shù)是否獨(dú)立。41三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取當(dāng)目標(biāo)變數(shù)與署醒確定後,接三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取變數(shù)衡量尺度對應(yīng)之統(tǒng)計(jì)檢定方法:獨(dú)立變數(shù)(IndependentVariable)相依變數(shù)(DependentVariable)變數(shù)尺度名目尺度順序尺度區(qū)間尺度名目尺度Chi-SquareChi-SquareChi-Square順序尺度Spearman積差相關(guān)區(qū)間尺度T-testANOVAT-test、ANOVA、K-W(無母數(shù)方法)Pearson相關(guān)Regression42三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取變數(shù)衡量尺度對應(yīng)之統(tǒng)計(jì)檢定三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取K-W法適用資料分配不符合常態(tài),或是已確定其為非常態(tài)分佈的情況下,此種檢驗(yàn)對平均值差異敏感,可將此方法想像成一個(gè)對處理平均相等的檢驗(yàn)。K-WTest其主要步驟如下:1.先將觀測值依遞增順序,然後以取代觀測值。2.令處理i知下秩的和。3.求檢定統(tǒng)計(jì)量。N為所有觀測值的數(shù)目43三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取K-W法適用資料分配不符合三、研究架構(gòu)_K-W法是第i個(gè)處理下的觀測值數(shù)目,N是所有觀測值的數(shù)目總和44三、研究架構(gòu)_K-W法44三、研究架構(gòu)_K-W法(a)當(dāng)k=3,時(shí),可查詢K-Ttest檢定附表,決定機(jī)率值P-value,如果P-value<<則拒絕虛無假設(shè),表示k可能不ㄧ致。(b)當(dāng),則表示這K個(gè)處理中某些處理會(huì)產(chǎn)生較其他處理為大的觀測值,可有效檢定在資料非常態(tài)分佈時(shí)不同處理是有造成差異的原因。45三、研究架構(gòu)_K-W法(a)當(dāng)k=3,時(shí)三、研究架構(gòu)_資料挖礦與決策樹資料挖礦對於不同的資料賀企業(yè)問題,不同的模式和演算法將可能產(chǎn)出最好的結(jié)果。決策樹決策樹會(huì)根據(jù)目標(biāo)變數(shù),將資料進(jìn)行適當(dāng)?shù)姆诸悾瑏K以樹枝狀架構(gòu)呈現(xiàn)其分類結(jié)果。由分類結(jié)果亦可萃取出其分類的特徵規(guī)則。46三、研究架構(gòu)_資料挖礦與決策樹資料挖礦46三、研究架構(gòu)_關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則主要是從龐大資料中,探索資料間欄位的相關(guān)性,這些規(guī)則展示了屬性值。在大量資料中找出有趣的規(guī)則,以便幫助使用者制定決策的依據(jù)。關(guān)聯(lián)規(guī)則步驟1.計(jì)算支持度2.找出所有的高頻項(xiàng)目組3.計(jì)算信賴度4.找出候選規(guī)則5.產(chǎn)生關(guān)聯(lián)規(guī)則6.整理Y為目標(biāo)變數(shù)之規(guī)則47三、研究架構(gòu)_關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則47三、研究架構(gòu)_整合決策樹與關(guān)聯(lián)規(guī)則工具決策樹關(guān)聯(lián)規(guī)則優(yōu)點(diǎn)※明白指出最佳變數(shù)的能力※產(chǎn)生易於了解的規(guī)則※節(jié)省分類時(shí)的計(jì)算時(shí)間※可處理連續(xù)與類別變數(shù)※能完整的呈現(xiàn)各變數(shù)之影響,與變數(shù)組合※能產(chǎn)生簡單明瞭的結(jié)論※適用不同形式的原始資料※計(jì)算模式簡單易懂缺點(diǎn)※當(dāng)類別太多時(shí),資料量小,錯(cuò)誤會(huì)增加的比較快。無法全面的看到各種變數(shù)的影響程度※對有時(shí)間順序的資料,需要很多欲處理的工作※結(jié)果多且凌亂,難已決定哪一變數(shù)較重要與適當(dāng)?shù)慕M合※當(dāng)問題變大時(shí),運(yùn)算量會(huì)成幾何級(jí)數(shù)增加※對於資料的個(gè)別資訊不甚重視※容易剷除罕見變數(shù)48三、研究架構(gòu)_整合決策樹與關(guān)聯(lián)規(guī)則工具決策樹關(guān)聯(lián)規(guī)則優(yōu)點(diǎn)※明三、研究架構(gòu)_解釋與評(píng)估挖礦的結(jié)果對於工程師而言是否有提供幫助,整個(gè)挖掘的過程是否有效率,皆是透過結(jié)果解釋與討論重複循環(huán),才可使得研究模式與結(jié)果更加完備。若挖掘出的樣形式有價(jià)值的,之後便可將相同屬性、類別的規(guī)則儲(chǔ)存至規(guī)則庫,以建立自動(dòng)化的製程監(jiān)控的事故偵測與分類機(jī)制或是事故排除的決策支援系統(tǒng)。49三、研究架構(gòu)_解釋與評(píng)估挖礦的結(jié)果對於工程師而言是否有提供幫四、實(shí)證研究本章針對於兩種不同類型之產(chǎn)業(yè)資料,以前述所提之研究方法進(jìn)行事故定位與事故診斷,以驗(yàn)證整合決策樹與關(guān)聯(lián)規(guī)則資料挖礦架構(gòu)之效度。50四、實(shí)證研究本章針對於兩種不同類型之產(chǎn)業(yè)資料,以前述所提之研四、實(shí)證研究1_臺(tái)灣電力配電事故定位問題定義配電事故為影響電力系統(tǒng)安全性、可靠性以及供電品質(zhì)的重要因素。但這樣一連串的試驗(yàn)將對於線路造成損害,且也無法在短時(shí)間內(nèi)使供電恢復(fù),因此為提高供電品質(zhì),如何發(fā)展一個(gè)可以快速找到事故發(fā)生地點(diǎn)的方法,即成為電力公司所關(guān)心的議題。51四、實(shí)證研究1_臺(tái)灣電力配電事故定位問題定義51四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料選擇本研究所採用之資料為臺(tái)電公司於1995~1997年間,針對臺(tái)北市區(qū)每次配電事故所記錄之配電事故紀(jì)錄表,共有1649筆資料,每筆配電事故資料皆記錄23項(xiàng)變數(shù)資料(如表4.1)。首先針對「損壞部位」資料屬性進(jìn)行統(tǒng)計(jì)與圖表分析,以初步檢視資料之分佈樣型,其分佈如圖4.1所示。52四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料選擇52四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料前置處理本案例為推導(dǎo)事故之損壞設(shè)備與特殊的事故資料樣型,以快速的找到事故發(fā)生地點(diǎn)為目標(biāo),因此「損壞部位」屬性為本研究模式之目標(biāo)項(xiàng)。最後本實(shí)證研究的輸入與目標(biāo)屬性如表4.2所示。53四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料前置處理53四、實(shí)證研究1_臺(tái)灣電力配電事故定位目標(biāo)與顯著變數(shù)的選取為推導(dǎo)事故之損壞設(shè)備與特殊的事故資料樣型,以快速的找到事故發(fā)生地點(diǎn)為目標(biāo),因此「損壞部位」為模式之目標(biāo)變數(shù),共60項(xiàng)變數(shù)值。由於輸入變數(shù)已刪除在找出事故地點(diǎn)之前並無法獲得資料,剩8個(gè)輸入變數(shù),經(jīng)由與工程師討論後,並不需刪減多餘變數(shù),因此,直接將表4.2中的變數(shù)丟入模式中。54四、實(shí)證研究1_臺(tái)灣電力配電事故定位目標(biāo)與顯著變數(shù)的選取5四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推導(dǎo)顯著事故定位規(guī)則經(jīng)由資料的前置處理(圖4.2)後,將資料格式轉(zhuǎn)換為能以挖礦模式建構(gòu)分析的資料格式,設(shè)定參數(shù)後,推導(dǎo)顯著關(guān)聯(lián)規(guī)則。研究設(shè)定最小支持度為1.67%,最小信賴度為50%,而增益則需大於1,參數(shù)設(shè)定依據(jù)如下。支持度信賴度增益55四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推導(dǎo)顯著事故定位規(guī)則評(píng)估規(guī)則好壞的參數(shù)─錯(cuò)分率(FP),希望所推導(dǎo)之規(guī)則,皆在所能容忍之決策風(fēng)險(xiǎn)下,因在此加入ROCCurve的觀念,隨著不同的臨界值條件下,TP比率與FP比率變化所構(gòu)成的特徵曲線,如圖4.3所示。關(guān)聯(lián)規(guī)則若有較大的TP與較小的FP,則此規(guī)則是較佳的。在此驗(yàn)證中,錯(cuò)分率小於0.25。56四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推導(dǎo)顯著事故定位規(guī)則由表4.3可知,關(guān)聯(lián)規(guī)則結(jié)果僅與「高壓電纜」、「用戶設(shè)備」、「高壓電纜直線接頭」以及「熔絲鏈開關(guān)」四種損壞設(shè)備有關(guān)。在損壞設(shè)備為「高壓電纜直線接頭」與「熔絲鏈開關(guān)」所找出之規(guī)則,雖其信賴度只介於50%~70%,但其規(guī)則之錯(cuò)分率相當(dāng)?shù)?,仍可容忍決策風(fēng)險(xiǎn)之內(nèi)(<0.25),因此,所找出之顯著規(guī)則是好的,可藉由此規(guī)則推斷出損壞部位。57四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以決策樹挖掘顯著分類規(guī)則
利用780筆資料進(jìn)行資料篩選,首先選出具有13筆資料以上之損壞部位,挑選過後僅剩下650筆資料以及12種損壞部位。以初步的簡化模式,形成決策樹的輸入資料。其資料處理過程如圖4.4。針對此699筆資料進(jìn)行資料分佈之繪製,可得圖4.5之次數(shù)分佈圖。58四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以決策樹挖掘四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以決策樹挖掘顯著分類規(guī)則
本研究決策樹所使用軟體為Scenario,其演算法的結(jié)果類似CHAID,若針對連續(xù)型的目標(biāo)變數(shù)是以F-Test作為分枝方法,若針對間斷型的變數(shù),其以Chi-SquareTest作為分枝準(zhǔn)則。在長樹的過程設(shè)定上,枝葉中顯著目標(biāo)變數(shù)值資料最少需有13筆資料,且下一層的子集合純度一定要比上一層的母集合(Parentsubset)較高,且下一層子集合正確率(純度)需大於50%,以使得枝葉具有絕對之顯著程度,以及最多有三層枝葉等。59四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以決策樹挖掘四、實(shí)證研究1_臺(tái)灣電力配電事故定位解釋與評(píng)估決策樹提供影響目標(biāo)變數(shù)之關(guān)鍵預(yù)測變數(shù)資訊,提供工程師快速且準(zhǔn)確之事故定位資訊參考。決策樹的結(jié)果呈現(xiàn)上,會(huì)將影響最大的變數(shù)放在第一層,且顯示變數(shù)之間的相對關(guān)係,但這樣的作法會(huì)將其他變數(shù)之影響分散在較下層的枝葉中,而無法全面的看到各種變數(shù)的影響程度。關(guān)聯(lián)規(guī)則之結(jié)果為針對整體資料而言,顯示各關(guān)聯(lián)規(guī)則之顯著性,其優(yōu)點(diǎn)為能夠更完整的呈現(xiàn)各變數(shù)之影響,缺點(diǎn)則是關(guān)聯(lián)規(guī)則之結(jié)果多且零亂。60四、實(shí)證研究1_臺(tái)灣電力配電事故定位解釋與評(píng)估60四、實(shí)證研究1_臺(tái)灣電力配電事故定位解釋與評(píng)估本案例之研究目的,在特定決策環(huán)境下推測配電事故的樣型,減少事故定位所需的時(shí)間,因此,在顯著關(guān)聯(lián)規(guī)則的篩選,加入ROC曲線中的錯(cuò)分率概念,以期望每筆決策規(guī)則,都在工程師可容忍的風(fēng)險(xiǎn)下。61四、實(shí)證研究1_臺(tái)灣電力配電事故定位解釋與評(píng)估61四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象
問題定義半導(dǎo)體產(chǎn)品製造製程中,若有貨批出現(xiàn)了低良率的問題,這將會(huì)導(dǎo)致工廠的生產(chǎn)力下滑及製造成本的增加。因此,我們必須回溯相關(guān)的製造資料並尋找影響良率的原因,以儘快解決此製程問題。62四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象問題定義62四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象資料選擇積體電路的製程相當(dāng)複雜,往往需經(jīng)過數(shù)百個(gè)不同的站別、流程才完成。且加上產(chǎn)品特性差異,因而製造程式等種種環(huán)境參數(shù)亦會(huì)有所不同。在生產(chǎn)製造的過程中,會(huì)累積大量產(chǎn)品經(jīng)過電性測試或是物理特性監(jiān)控量測的結(jié)果,以檢驗(yàn)產(chǎn)品是否在規(guī)格內(nèi)的資料。整個(gè)資料蒐集流程可見圖4.6。63四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象資料選擇63四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象資料選擇資料類型大概可以分成幾大類:WIP類型(WaferInProcess)Metrology類型Defect類型Parametric類型BinMap類型Non-Lot類型大量的製程資料,記錄了晶圓在製造與測試的種種狀況。因此工程師便可以透過工程資料分析系統(tǒng)瞭解產(chǎn)品的生產(chǎn)測試狀況,以進(jìn)行製程的改善與事故診斷。64四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象資料選擇64四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象資料前置處理工程資料主要可分為四部分:基本資料、歷史資料、CP資料、WAT資料。經(jīng)過前置處理後,可從圖4.7良率分佈圖中見,CP良率值大致可區(qū)分成兩群,以60為分界值,將CP良率值大於等於60為高良率,小於60為低良率(與k-mean分群的結(jié)果相同,圖4.8)。65四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象資料前置處理四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象目標(biāo)與顯著變數(shù)的選取首先,利用Kruskal-Wallis檢定來檢測是否在屬性之各層級(jí)下,其目標(biāo)變數(shù)晶片針測良率是否具有顯著的差異。在此所設(shè)定的顯著水準(zhǔn)為0.05。Kruskal-Wallis檢定選取出36的顯著的候選屬性,由P-value由小排到大。66四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象目標(biāo)與顯著變數(shù)四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象資料挖礦--決策樹分析以萃取特徵將目標(biāo)資料分成兩群,cluster1為所定義之高良率,cluster2為所定義之低良率,經(jīng)由決策樹的樹枝狀架構(gòu)及規(guī)則的表達(dá)方式進(jìn)行資料分類描述這些群體的特徵,以達(dá)到特徵萃取的目的。在輸入變數(shù)值方面,分成兩部份探討,一是輸入站別機(jī)臺(tái),一是輸入站別機(jī)臺(tái)與過站時(shí)間,希望藉由決策樹找出影響良率的顯著機(jī)臺(tái)或是某些時(shí)間區(qū)段出現(xiàn)了故障。67四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象資料挖礦--決四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象資料挖礦--關(guān)聯(lián)規(guī)則挖掘問題機(jī)臺(tái)組合
關(guān)聯(lián)規(guī)則主要是從資料庫龐大資料中,找出發(fā)生頻率較高的組合,希望藉由此特性找出造成低良率之問題機(jī)臺(tái),幫助工程師趁早作出修機(jī)或是製程上之改善。68四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象資料挖礦--關(guān)四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象解釋與評(píng)估目標(biāo)變數(shù)是產(chǎn)品的良率,有時(shí)候不適合作為事故診斷。產(chǎn)品的良率是半導(dǎo)體製程上的綜合表現(xiàn),在事故診斷上較不易發(fā)掘。電子特性參數(shù)所代表的數(shù)值較難去定義,因此,較無法直觀的評(píng)判出好批及壞批。半導(dǎo)體的資料挖礦過程中,很少只利用單一模式就可以解決。用不同的資料挖礦工具挖掘製程資料所隱含的重要訊息,以此方法將結(jié)果篩選與過濾,可將問題的可能發(fā)生範(fàn)圍縮小,找到導(dǎo)致問題的主因,建立更完善的事故診斷的資料挖礦架構(gòu),提供工程師更多事故診斷上之線索。並非每次的挖掘過程都能刪除大多數(shù)可能性,必須將所有可能結(jié)果列出,再逐一與領(lǐng)域?qū)<矣懻摗?9四、實(shí)證研究2_以某半導(dǎo)體廠工程資料為實(shí)證對象解釋與評(píng)估6四、實(shí)證研究_案例討論臺(tái)電半導(dǎo)體問題定義事故定位事故診斷資料特性資料欄位”少”預(yù)測變數(shù)&目標(biāo)數(shù)事件”多”資料欄位”多”預(yù)測變數(shù)&目標(biāo)數(shù)事件”少”方法應(yīng)用關(guān)聯(lián)規(guī)則--可模擬出較多的決策環(huán)境規(guī)則。決策樹--可顯示較影響目標(biāo)之關(guān)鍵預(yù)測變數(shù),提供工程師在決策時(shí)所需參考。決策樹找出區(qū)分高低良率之最顯著關(guān)鍵站別和機(jī)臺(tái),再以關(guān)聯(lián)規(guī)則找出低良率資料發(fā)生頻率較高的機(jī)臺(tái)與時(shí)間,結(jié)合決策樹之分類規(guī)則與顯著關(guān)聯(lián)規(guī)則後,找出發(fā)生問題的機(jī)臺(tái)與時(shí)間點(diǎn)。70四、實(shí)證研究_案例討論臺(tái)電半導(dǎo)體問題定義事故定位事故診斷資料五、結(jié)論從臺(tái)電配電事故資料,藉由架構(gòu)流程萃取出事故資料中損壞設(shè)備與特殊的事故資料關(guān)聯(lián)的樣型,此中,加入ROC曲線的概念,降低規(guī)則的決策風(fēng)險(xiǎn),在特定決策環(huán)境下,推測配電事故的樣型,來減少事故定位所需的時(shí)間與正確性。對於半導(dǎo)體廠來說,資料取得不是問題,但不能保證越能挖掘到有價(jià)值的資訊,針對半導(dǎo)體工程資料龐大且混雜之特性,傳統(tǒng)統(tǒng)計(jì)分析方法有其限制。本研究建構(gòu)完整的分析步驟,其中包括利用Kruskal-Wallis檢定找出顯著屬性,縮小範(fàn)圍,再以決策樹的分類規(guī)則和關(guān)聯(lián)規(guī)則高頻率的關(guān)聯(lián)規(guī)則描述造成低良率的特徵,透過綜合資訊的比較縮小診斷範(fàn)圍,提供給工程師作為製程監(jiān)控的依據(jù),以快速排除事故提昇良率與未來事故診斷的參考。71五、結(jié)論從臺(tái)電配電事故資料,藉由架構(gòu)流程萃取出事故資料中損壞THEEND7272Top73Top73Top74Top74Top75Top75Top76Top76Top77Top77Top78Top78Top79Top79Top80Top80Top81Top81建構(gòu)整合決策樹與關(guān)連規(guī)則之資料挖礦架構(gòu)及實(shí)證研究期末報(bào)告組別:三資四BH24932128謝殿臣資四BH24932089黃孝慈資四BH24932437顏?zhàn)饲嘧髡撸簵罹扒?2建構(gòu)整合決策樹與關(guān)連規(guī)則之資料挖礦架構(gòu)及實(shí)證研究期末報(bào)告組別一、緒論_研究背景及重要性隨著資訊科技的進(jìn)步,企業(yè)所記錄或儲(chǔ)存的大量資料,對於不同階層的使用者來,資料代表著不同的意義與價(jià)值。當(dāng)大量的資料被企業(yè)儲(chǔ)存起來,如何發(fā)揮與創(chuàng)造出資料價(jià)值變成為將資料由負(fù)債轉(zhuǎn)換資產(chǎn)的成功關(guān)鍵。83一、緒論_研究背景及重要性隨著資訊科技的進(jìn)步,企業(yè)所記錄或儲(chǔ)一、緒論_研究背景及重要性決策結(jié)果解釋(視覺化技術(shù))資料挖礦(資訊探索)資料探索(OLAP、統(tǒng)計(jì)分析、查詢報(bào)表)資料倉儲(chǔ)、資料超市資料來源(資料庫系統(tǒng)、OLTP、檔案)資訊量價(jià)值性決策者企業(yè)主管資料分析者資料庫管理者圖1.1企業(yè)中的資料階層84一、緒論_研究背景及重要性結(jié)果解釋資料挖礦資料探索資料倉儲(chǔ)、一、緒論_研究目的目的:事故排除方法:建構(gòu)整合決策樹與關(guān)連規(guī)則之資料挖礦架構(gòu)及實(shí)證研究。實(shí)驗(yàn)對象:以臺(tái)灣電力公司與某半導(dǎo)體廠兩個(gè)不同產(chǎn)業(yè)之案例做為實(shí)證,已檢驗(yàn)此資料挖礦架構(gòu)之效度。85一、緒論_研究目的目的:事故排除4一、緒論_論文結(jié)構(gòu)與研究流程1.2圖研究流程問題定義與架構(gòu)問題定義理論架構(gòu)結(jié)果分析與討論結(jié)論專家訪談實(shí)證研究一臺(tái)灣電力公司實(shí)證研究二某半導(dǎo)體大廠86一、緒論_論文結(jié)構(gòu)與研究流程1.2圖研究流程問題定義與架構(gòu)問二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦表2.2資料挖礦的定義2.2圖資料挖礦的四個(gè)循環(huán)確認(rèn)問題類型評(píng)估挖礦結(jié)果採用適當(dāng)工具進(jìn)行挖礦工作87二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦表2.2資料挖礦的定義確二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦2.3圖資料挖礦過程的主要步驟問題定義獲取相關(guān)領(lǐng)域知識(shí)選取資料資料前置處理分析與解釋報(bào)告與使用資訊88二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦2.3圖資料挖礦過程的主二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦2.4圖資料挖礦專案流程步驟2.5圖適用各產(chǎn)業(yè)之資料挖礦架構(gòu)89二、文獻(xiàn)探討_知識(shí)發(fā)現(xiàn)與資料挖礦2.4圖資料挖礦專案流程步二、文獻(xiàn)探討_資料挖礦模式與工具資料挖礦模式(Model)的六種形式資料挖礦模式(Model)分類迴歸時(shí)間序列分群關(guān)聯(lián)分析順序挖掘監(jiān)督式學(xué)習(xí)非監(jiān)督式學(xué)習(xí)90二、文獻(xiàn)探討_資料挖礦模式與工具資料挖礦模式(Model)的二、文獻(xiàn)探討_資料挖礦模式與工具2.6圖資料挖礦的技術(shù)資料挖礦(DataMining)資料庫技術(shù)(DatabaseTechnology)統(tǒng)計(jì)學(xué)(Statistics)資訊科學(xué)(InformationScience)機(jī)器學(xué)習(xí)(MachineLearning)視覺化技術(shù)(Visualization)其他領(lǐng)域研究91二、文獻(xiàn)探討_資料挖礦模式與工具資料挖礦資料庫技術(shù)統(tǒng)計(jì)學(xué)資訊二、文獻(xiàn)探討_資料挖礦挖掘結(jié)果類型資料挖礦所處理的問題類型由上而下:利用現(xiàn)有的模型來建立資料,藉此來描述某一特定變數(shù)。由下而上:不需要特別標(biāo)註在某一變數(shù)或某一種値,而是試著尋找所有變數(shù)中是否有隱藏某種關(guān)係。分類(Classification)預(yù)測(Prediction)分群(Clustering)關(guān)聯(lián)規(guī)則分析(AssociationRule)資料挖礦所處理的問題類型由上而下由下而上92二、文獻(xiàn)探討_資料挖礦挖掘結(jié)果類型資料挖礦所處理的問題類型分二、文獻(xiàn)探討_資料挖礦工具資料挖礦屬於探索導(dǎo)向,不需事先假設(shè)以求驗(yàn)證。挖礦者需在一開始就釐清處理的工作目的為何?資料挖礦工具依照解決的問題類型與挖礦的目的而異。通常不會(huì)只使用單一工具來進(jìn)行挖掘工作。93二、文獻(xiàn)探討_資料挖礦工具資料挖礦12二、文獻(xiàn)探討_資料挖礦工具表2.3挖礦問題類型及可使用的工具
(附註:ˇ表工具可使用之挖掘問題類型)
問題類型
工具分類Classification預(yù)測Prediction關(guān)聯(lián)分組AffinityGrouping聚集分析Clustering基本統(tǒng)計(jì)ˇˇˇˇ關(guān)聯(lián)規(guī)則/購物籃分析ˇˇˇ記憶基礎(chǔ)法ˇˇˇˇ遺傳演算法ˇˇ聚類偵測法ˇˇ鍊結(jié)分析法ˇˇˇ決策樹ˇˇˇ類神經(jīng)網(wǎng)路ˇˇˇ94二、文獻(xiàn)探討_資料挖礦工具表2.3挖礦問題類型及可使用的工二、文獻(xiàn)探討_資料挖礦工具表2.4資料挖掘工具的基本特性介紹的演算法如下:遺傳演算法類神經(jīng)網(wǎng)路FuzzyLogic記憶基礎(chǔ)理解決策樹。使用14種特性作介紹。95二、文獻(xiàn)探討_資料挖礦工具表2.4資料挖掘工具的基本特性1二、文獻(xiàn)探討_資料挖礦工具表2.5資料挖礦工具間的比較(附註:ˇ表資料挖礦工具能表現(xiàn)的能力)工具表現(xiàn)能力Regression/ANOVA類神經(jīng)網(wǎng)路決策樹關(guān)聯(lián)規(guī)則模式使用上(Modelfree)ˇˇˇ對離群値的穩(wěn)定性(RobusttoOutliers)ˇ具體解釋能力(Physicalintertation)ˇˇ連續(xù)變數(shù)處理能力(Continuousoutputs)ˇˇ類別變數(shù)處理能力(Discreteoutputs)ˇˇˇˇ96二、文獻(xiàn)探討_資料挖礦工具表2.5資料挖礦工具間的比較二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則是最常被應(yīng)用的模式之一關(guān)聯(lián)規(guī)則分析(associationRuleAnalysis)從資料庫龐大的資料中,探索資料間欄位有趣的關(guān)係或相關(guān)性。購物籃分析如何從日積月累的交易資料中,以有效的方法找出商品間的關(guān)聯(lián)性,進(jìn)而推斷消費(fèi)者購買行為,創(chuàng)造無限商機(jī)。97二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則是最常被應(yīng)用的模式之一16二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明進(jìn)行關(guān)聯(lián)規(guī)則挖礦時(shí),作業(yè)流程的兩大步驟找出所有的高頻項(xiàng)目組(FrequentItemsets)高頻項(xiàng)目組所出現(xiàn)的次數(shù)必須大於等於事先定義的最小支持度數(shù)目。此步驟決定了整體作業(yè)的效能從找到高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則所產(chǎn)生的規(guī)則必須滿足決策者所給定支持度與信賴度的最低門檻値,規(guī)則才成立。98二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明進(jìn)行關(guān)聯(lián)規(guī)則挖礦時(shí),作業(yè)流程二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明定義描述99二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明定義描述18二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明關(guān)聯(lián)規(guī)則的成立必須滿足決策者所訂定之最小支持度(MinmumSupportThreshold),和最小信賴度(MinmumConfidenceThreshold)。有意義的關(guān)聯(lián)規(guī)則其支持度與信賴度必須大於或等於所訂定之最小門檻値。增益指標(biāo)加入後,若增益大於1,則表示規(guī)則的預(yù)測結(jié)果比單純的亂數(shù)還要好,反之,則較差。100二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明關(guān)聯(lián)規(guī)則的成立19二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則1.支持度(Support)在規(guī)則(Rule)中,項(xiàng)目(Items)一起出現(xiàn)的交易暨路佔(zhàn)全部交易紀(jì)錄的百分比。最小支持度控制了一個(gè)關(guān)聯(lián)規(guī)則必須涵蓋的最少資料數(shù)目,以篩選掉不顯著的規(guī)則,在實(shí)務(wù)上才有應(yīng)用價(jià)値。支持度代表的意義為X與Y一起出現(xiàn)的機(jī)率。
101二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則20二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則2.信賴度(Confidence)代表此條規(guī)則的預(yù)測強(qiáng)度。X發(fā)生之下發(fā)生Y結(jié)果的機(jī)率足以使得此關(guān)聯(lián)規(guī)則得以成立。計(jì)算在前提項(xiàng)目X發(fā)生的情況下,發(fā)生結(jié)果Y的機(jī)率。
102二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則21二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則3.增益(LiftorImprovement)比較信賴度與結(jié)果項(xiàng)目Y單獨(dú)發(fā)生時(shí)之機(jī)率兩者間的大小。關(guān)聯(lián)規(guī)則的條件機(jī)率比母體中原本發(fā)生的機(jī)率大才具有意義。
103二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則定義與說明若規(guī)則表示為X=>Y,則22二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則類型關(guān)聯(lián)規(guī)則類型1.以屬性質(zhì)的形態(tài)為基礎(chǔ)若挖礦規(guī)則焦點(diǎn)放在項(xiàng)目(Item)是否出現(xiàn),則稱為布林値的關(guān)聯(lián)規(guī)則(BooleanAssociationRule)。2.以規(guī)則中涵蓋資料維度為基礎(chǔ)若要挖礦的規(guī)則的項(xiàng)目或?qū)傩灾墼趩我痪S度時(shí),稱之為單一維度關(guān)聯(lián)規(guī)則(SingleDimensionalAssociationRule)。3.以規(guī)則集合中所涵蓋的抽象層級(jí)(LevelofAbstraction)為基礎(chǔ)規(guī)則屬性或是項(xiàng)目全為同一層級(jí),則稱為單一層級(jí)關(guān)聯(lián)規(guī)則(Single-LevelAssociationRule)。104二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則類型關(guān)聯(lián)規(guī)則類型23二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則類型2.7圖概念層級(jí)樹105二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則類型2.7圖概念層級(jí)樹24二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則演算法與特性表2.6關(guān)聯(lián)規(guī)則演算法與特性演算法作者/年代主要特色缺點(diǎn)AprioriAgrawal(1994)反覆產(chǎn)生候選項(xiàng)目組,找出所有高頻項(xiàng)目組,進(jìn)而推導(dǎo)規(guī)則。需反覆搜尋資料庫,花費(fèi)I/O時(shí)間。PartitionSavasere(1995)將資料庫分區(qū)段,找出個(gè)區(qū)段之高頻項(xiàng)目組並集合之,再次搜尋資料庫找出真正高頻項(xiàng)目組。在各區(qū)段中會(huì)產(chǎn)生較多非相關(guān)項(xiàng)目組。DHPJong等人(1997)利用雜湊表(hashtable)刪減不必要的候選項(xiàng)目組。一開始會(huì)花時(shí)間建立hashtableBSMWur等人(1999)使用表格運(yùn)算方式產(chǎn)生高頻項(xiàng)目組,改善Apriori多次掃描資料庫的缺點(diǎn)。需事先轉(zhuǎn)換運(yùn)算表格。106二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則演算法與特性表2.6關(guān)聯(lián)規(guī)則演算法二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則的應(yīng)用1.商業(yè)應(yīng)用藉由關(guān)聯(lián)規(guī)則方法了解顧客購買行為的資訊,協(xié)助零售業(yè)在進(jìn)行商品擺放位置規(guī)畫。2.工業(yè)應(yīng)用利用關(guān)聯(lián)規(guī)則發(fā)展一彈性且有項(xiàng)的巢式製造系統(tǒng)(CellularManufacturingSystem),找出機(jī)臺(tái)間的最佳組合,形成群組技術(shù)(GroupTechnology)。3.醫(yī)學(xué)應(yīng)用利用關(guān)聯(lián)規(guī)則做藥品櫥位管理,或以過去看診暨路檢式藥品使用量與方法是否正確,並可分析個(gè)病例特徵間關(guān)聯(lián)程度。107二、文獻(xiàn)探討_關(guān)聯(lián)規(guī)則的應(yīng)用1.商業(yè)應(yīng)用26二、文獻(xiàn)探討_決策樹決策樹監(jiān)督式的特徵萃取演算法,廣泛應(yīng)用來解決分類(Classification)形態(tài)問題的工具,亦可做為探索與預(yù)測之用。能夠?qū)⑤斎胱償?shù)依據(jù)某種規(guī)則或資料進(jìn)行分類,並以樹枝狀方式表現(xiàn)類別之間由輸入變數(shù)所造成的區(qū)別,因此決策樹可對資料進(jìn)行架構(gòu)的分類。108二、文獻(xiàn)探討_決策樹決策樹27二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟1.決策樹的切割(Splitting)決策樹須將輸入的預(yù)測變數(shù)作分類,用以解釋目標(biāo)變數(shù)變異的原因。2.停止長樹(Stopping)當(dāng)無法找出任何分隔預(yù)測變數(shù)可以顯著降低下一節(jié)點(diǎn)的分散度,表示樹以生長完整(Complete)。109二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟28二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟3.評(píng)估(Assessment)評(píng)估整個(gè)決策樹的錯(cuò)分率(Misclassification)或是評(píng)估每個(gè)節(jié)點(diǎn)的錯(cuò)誤率(ErrorRate)。公式如下:110二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟29二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟4.決策樹的修剪當(dāng)決策樹所生長的層級(jí)越深時(shí),子節(jié)點(diǎn)的資料比數(shù)就會(huì)越來越少,資料的代表性就越低,所產(chǎn)生的法則可能會(huì)造成過度學(xué)習(xí)(OverFitting)而產(chǎn)生偏差,此時(shí)演算法中就應(yīng)加修剪的步驟。找出錯(cuò)誤的分支給予修剪,如:CART、C4.5。以測試資料(TestingData)驗(yàn)證、抽樣方法來減少?zèng)Q策樹過度學(xué)習(xí)現(xiàn)象的發(fā)生。111二、文獻(xiàn)探討_決策樹決策樹演算法的四大步驟30二、文獻(xiàn)探討_決策樹2.11圖修剪對錯(cuò)誤率的影響112二、文獻(xiàn)探討_決策樹2.11圖修剪對錯(cuò)誤率的影響31二、文獻(xiàn)探討_決策樹演算法表2.7常用決策樹演算法之比較演算法比較準(zhǔn)則常見幾種決策樹的演算法CARTID3C4.5CHAID作者(年代)Briemen(1984)Quinlan(1986)Quinlin(1993)Hartigan(1975)處理資料形態(tài)離散、連續(xù)離散、連續(xù)離散、連續(xù)離散分裂樹二元樹不受限制不受限制不受限制連續(xù)形資料處理方式分2枝不受限制不受限制無法處理分枝準(zhǔn)則Gini値InformationGainGain_Ratio統(tǒng)計(jì)檢定(卡方分配)113二、文獻(xiàn)探討_決策樹演算法表2.7常用決策樹演算法之比較二、文獻(xiàn)探討_決策樹於事故診斷的相關(guān)研究表2.8應(yīng)用決策樹於事故排出之相關(guān)研究研究者實(shí)證對象使用的演算法Braha&Shmilovici(2003)半導(dǎo)體黃光區(qū)C4.5鄭人傑(2003)晶圓過站記綠與CP測試値Kruskal-Wallis、卡方交互影響檢測、變異降低分枝法則劉中光(2002)印刷電路板(PCB)決策樹結(jié)合SOM方法Raghavan(2002)良率、ICE-TTestparameter利用決策樹(CART、CHAID)Fan(2001)WAT、InLineManufacturingdata決策樹蔡智政(2001)晶圓批量製程管制(LPC)資料以CART決策樹分析LPC李培瑞(2001)半導(dǎo)體WAT資料、CP資料結(jié)合人工類神經(jīng)網(wǎng)路與決策樹林鼎浩(2000)半導(dǎo)體WAT與製造相關(guān)資料無母數(shù)Kruskal-Wallis統(tǒng)計(jì)檢定法114二、文獻(xiàn)探討_決策樹於事故診斷的相關(guān)研究表2.8應(yīng)用決策三、研究架構(gòu)_問題定義透過清楚的問題定義,瞭解問題類型包含哪些類別,才知道有哪些是屬於關(guān)鍵性的資料。115三、研究架構(gòu)_問題定義透過清楚的問題定義,瞭解問題類型包含哪三、研究架構(gòu)_資料選擇對領(lǐng)域知識(shí)及問題有了基本的認(rèn)識(shí)之後,便是進(jìn)行資料選擇的工作,應(yīng)先對資料有進(jìn)一步的瞭解,而非將資料盲目的丟進(jìn)模式分析。資料取得的方式如下表:檔案(File)好處是取得快速且閱讀容易,但是一旦建立好以後日後想再做資料處理就不太容易處理,如:MicrosoftExcel。關(guān)聯(lián)資料庫(RelationalDatabases)在關(guān)聯(lián)式資料庫中,透過查詢工具語言(SQL)可以蒐集到想要的資料。資料倉儲(chǔ)(DataWarehouse)資料量通常達(dá)數(shù)百M(fèi)ega甚至上Giga,資料讀取方式是以「切割」的觀念,並非巷資料庫連結(jié)表格的方式處理116三、研究架構(gòu)_資料選擇檔案好處是取得快速且閱讀容易,但是一旦三、研究架構(gòu)_資料前置處理一般資料可分成質(zhì)與量兩類,質(zhì)的資料又分成空間性與時(shí)間性兩種,掘取欲分析的資料,並以去蕪存菁的方式轉(zhuǎn)化處理,才能確保分析資料的品質(zhì)和分析結(jié)果的正確性。資料前置處理的步驟需要不斷學(xué)習(xí)與經(jīng)濟(jì)累積。資料前置處理形式資料清理資料整合資料轉(zhuǎn)換資料化約。117三、研究架構(gòu)_資料前置處理一般資料可分成質(zhì)與量兩類,質(zhì)的資料三、研究架構(gòu)_資料前置處理資料前置處理通常會(huì)採取的動(dòng)作如下:1.資料的基本分佈與檢視:對於資料的基本數(shù)理特性做醫(yī)界面性的檢視,分佈為常態(tài)、非常態(tài)、偏右、偏左等,瞭解資料的長相與分佈以便做後續(xù)處理。2.偏離值的檢測與處理:對於散佈在正常分佈外的資料點(diǎn)作出處理,譬如直接刪除還是保留其資訊。118三、研究架構(gòu)_資料前置處理資料前置處理通常會(huì)採取的動(dòng)作如下:三、研究架構(gòu)_資料前置處理3.空白值與缺值的處理:空白值與缺值所代表的意義並不相同,空白值為無法填入的資料;缺值則為資料的遺漏或錯(cuò)誤。要?jiǎng)h除該筆資料或者以特殊方式補(bǔ)值,對於挖礦結(jié)果的解釋會(huì)有不同的影響,所以須對資料有近一步的了解。4.資料為度轉(zhuǎn)換:ㄧ般而言高維度的資料計(jì)算複雜,所花費(fèi)的時(shí)間較多,因此維度的降低亦是一種重要的課題。119三、研究架構(gòu)_資料前置處理3.空白值與缺值的處理:38三、研究架構(gòu)_資料前置處理5.資料格式化或分佈轉(zhuǎn)換:資料處理時(shí),資料的格式轉(zhuǎn)換與其所代表的相對意義都須瞭解。資料格式化和轉(zhuǎn)換亦會(huì)挖掘出另ㄧ層意義的結(jié)果。ㄧ般將資料數(shù)字分成四種不同的衡量尺度,名義尺度、順序尺度、區(qū)間尺度、比例尺度衡量。120三、研究架構(gòu)_資料前置處理5.資料格式化或分佈轉(zhuǎn)換:39三、研究架構(gòu)_資料前置處理衡量的層次內(nèi)容說明舉例名目尺度(NominalScale)又稱類別尺度,使用數(shù)字或標(biāo)記區(qū)分物件或事件,此尺度並無大小之分。機(jī)臺(tái)和貨批的編號(hào)等。順序尺度(OrdinalScale)又稱等級(jí)尺度,就ㄧ事務(wù)之某特質(zhì)好壞次序加以排列,有方向次序的比較,但沒有距離或獨(dú)特的原點(diǎn)。各種Bin值的分類、成績區(qū)間尺度(IntervalScale)以此尺度表現(xiàn)之變數(shù),可區(qū)分類別及排出大小順序之外,可算出差異之大小。區(qū)間尺度中,零點(diǎn)的位置並非固定的,而且衡量的單位也是任意的。機(jī)臺(tái)的溫度、量測的參數(shù)比例尺度(RatioScale)可說出名稱、排出順序、算出差距、亦可表示出比例的關(guān)係。比例尺度具有絕對零度的。化學(xué)藥劑使用量、重量121三、研究架構(gòu)_資料前置處理衡量的層次內(nèi)容說明舉例名目尺度又稱三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取當(dāng)目標(biāo)變數(shù)與署醒確定後,接下來即確認(rèn)預(yù)測變數(shù)。為避免加入對目標(biāo)變數(shù)結(jié)果無顯著影響的資料,可利用統(tǒng)計(jì)方法檢定預(yù)測變數(shù)與目標(biāo)變數(shù)是否獨(dú)立。122三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取當(dāng)目標(biāo)變數(shù)與署醒確定後,接三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取變數(shù)衡量尺度對應(yīng)之統(tǒng)計(jì)檢定方法:獨(dú)立變數(shù)(IndependentVariable)相依變數(shù)(DependentVariable)變數(shù)尺度名目尺度順序尺度區(qū)間尺度名目尺度Chi-SquareChi-SquareChi-Square順序尺度Spearman積差相關(guān)區(qū)間尺度T-testANOVAT-test、ANOVA、K-W(無母數(shù)方法)Pearson相關(guān)Regression123三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取變數(shù)衡量尺度對應(yīng)之統(tǒng)計(jì)檢定三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取K-W法適用資料分配不符合常態(tài),或是已確定其為非常態(tài)分佈的情況下,此種檢驗(yàn)對平均值差異敏感,可將此方法想像成一個(gè)對處理平均相等的檢驗(yàn)。K-WTest其主要步驟如下:1.先將觀測值依遞增順序,然後以取代觀測值。2.令處理i知下秩的和。3.求檢定統(tǒng)計(jì)量。N為所有觀測值的數(shù)目124三、研究架構(gòu)_目標(biāo)與顯著變數(shù)的選取K-W法適用資料分配不符合三、研究架構(gòu)_K-W法是第i個(gè)處理下的觀測值數(shù)目,N是所有觀測值的數(shù)目總和125三、研究架構(gòu)_K-W法44三、研究架構(gòu)_K-W法(a)當(dāng)k=3,時(shí),可查詢K-Ttest檢定附表,決定機(jī)率值P-value,如果P-value<<則拒絕虛無假設(shè),表示k可能不ㄧ致。(b)當(dāng),則表示這K個(gè)處理中某些處理會(huì)產(chǎn)生較其他處理為大的觀測值,可有效檢定在資料非常態(tài)分佈時(shí)不同處理是有造成差異的原因。126三、研究架構(gòu)_K-W法(a)當(dāng)k=3,時(shí)三、研究架構(gòu)_資料挖礦與決策樹資料挖礦對於不同的資料賀企業(yè)問題,不同的模式和演算法將可能產(chǎn)出最好的結(jié)果。決策樹決策樹會(huì)根據(jù)目標(biāo)變數(shù),將資料進(jìn)行適當(dāng)?shù)姆诸?,並以樹枝狀架構(gòu)呈現(xiàn)其分類結(jié)果。由分類結(jié)果亦可萃取出其分類的特徵規(guī)則。127三、研究架構(gòu)_資料挖礦與決策樹資料挖礦46三、研究架構(gòu)_關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則主要是從龐大資料中,探索資料間欄位的相關(guān)性,這些規(guī)則展示了屬性值。在大量資料中找出有趣的規(guī)則,以便幫助使用者制定決策的依據(jù)。關(guān)聯(lián)規(guī)則步驟1.計(jì)算支持度2.找出所有的高頻項(xiàng)目組3.計(jì)算信賴度4.找出候選規(guī)則5.產(chǎn)生關(guān)聯(lián)規(guī)則6.整理Y為目標(biāo)變數(shù)之規(guī)則128三、研究架構(gòu)_關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則47三、研究架構(gòu)_整合決策樹與關(guān)聯(lián)規(guī)則工具決策樹關(guān)聯(lián)規(guī)則優(yōu)點(diǎn)※明白指出最佳變數(shù)的能力※產(chǎn)生易於了解的規(guī)則※節(jié)省分類時(shí)的計(jì)算時(shí)間※可處理連續(xù)與類別變數(shù)※能完整的呈現(xiàn)各變數(shù)之影響,與變數(shù)組合※能產(chǎn)生簡單明瞭的結(jié)論※適用不同形式的原始資料※計(jì)算模式簡單易懂缺點(diǎn)※當(dāng)類別太多時(shí),資料量小,錯(cuò)誤會(huì)增加的比較快。無法全面的看到各種變數(shù)的影響程度※對有時(shí)間順序的資料,需要很多欲處理的工作※結(jié)果多且凌亂,難已決定哪一變數(shù)較重要與適當(dāng)?shù)慕M合※當(dāng)問題變大時(shí),運(yùn)算量會(huì)成幾何級(jí)數(shù)增加※對於資料的個(gè)別資訊不甚重視※容易剷除罕見變數(shù)129三、研究架構(gòu)_整合決策樹與關(guān)聯(lián)規(guī)則工具決策樹關(guān)聯(lián)規(guī)則優(yōu)點(diǎn)※明三、研究架構(gòu)_解釋與評(píng)估挖礦的結(jié)果對於工程師而言是否有提供幫助,整個(gè)挖掘的過程是否有效率,皆是透過結(jié)果解釋與討論重複循環(huán),才可使得研究模式與結(jié)果更加完備。若挖掘出的樣形式有價(jià)值的,之後便可將相同屬性、類別的規(guī)則儲(chǔ)存至規(guī)則庫,以建立自動(dòng)化的製程監(jiān)控的事故偵測與分類機(jī)制或是事故排除的決策支援系統(tǒng)。130三、研究架構(gòu)_解釋與評(píng)估挖礦的結(jié)果對於工程師而言是否有提供幫四、實(shí)證研究本章針對於兩種不同類型之產(chǎn)業(yè)資料,以前述所提之研究方法進(jìn)行事故定位與事故診斷,以驗(yàn)證整合決策樹與關(guān)聯(lián)規(guī)則資料挖礦架構(gòu)之效度。131四、實(shí)證研究本章針對於兩種不同類型之產(chǎn)業(yè)資料,以前述所提之研四、實(shí)證研究1_臺(tái)灣電力配電事故定位問題定義配電事故為影響電力系統(tǒng)安全性、可靠性以及供電品質(zhì)的重要因素。但這樣一連串的試驗(yàn)將對於線路造成損害,且也無法在短時(shí)間內(nèi)使供電恢復(fù),因此為提高供電品質(zhì),如何發(fā)展一個(gè)可以快速找到事故發(fā)生地點(diǎn)的方法,即成為電力公司所關(guān)心的議題。132四、實(shí)證研究1_臺(tái)灣電力配電事故定位問題定義51四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料選擇本研究所採用之資料為臺(tái)電公司於1995~1997年間,針對臺(tái)北市區(qū)每次配電事故所記錄之配電事故紀(jì)錄表,共有1649筆資料,每筆配電事故資料皆記錄23項(xiàng)變數(shù)資料(如表4.1)。首先針對「損壞部位」資料屬性進(jìn)行統(tǒng)計(jì)與圖表分析,以初步檢視資料之分佈樣型,其分佈如圖4.1所示。133四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料選擇52四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料前置處理本案例為推導(dǎo)事故之損壞設(shè)備與特殊的事故資料樣型,以快速的找到事故發(fā)生地點(diǎn)為目標(biāo),因此「損壞部位」屬性為本研究模式之目標(biāo)項(xiàng)。最後本實(shí)證研究的輸入與目標(biāo)屬性如表4.2所示。134四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料前置處理53四、實(shí)證研究1_臺(tái)灣電力配電事故定位目標(biāo)與顯著變數(shù)的選取為推導(dǎo)事故之損壞設(shè)備與特殊的事故資料樣型,以快速的找到事故發(fā)生地點(diǎn)為目標(biāo),因此「損壞部位」為模式之目標(biāo)變數(shù),共60項(xiàng)變數(shù)值。由於輸入變數(shù)已刪除在找出事故地點(diǎn)之前並無法獲得資料,剩8個(gè)輸入變數(shù),經(jīng)由與工程師討論後,並不需刪減多餘變數(shù),因此,直接將表4.2中的變數(shù)丟入模式中。135四、實(shí)證研究1_臺(tái)灣電力配電事故定位目標(biāo)與顯著變數(shù)的選取5四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推導(dǎo)顯著事故定位規(guī)則經(jīng)由資料的前置處理(圖4.2)後,將資料格式轉(zhuǎn)換為能以挖礦模式建構(gòu)分析的資料格式,設(shè)定參數(shù)後,推導(dǎo)顯著關(guān)聯(lián)規(guī)則。研究設(shè)定最小支持度為1.67%,最小信賴度為50%,而增益則需大於1,參數(shù)設(shè)定依據(jù)如下。支持度信賴度增益136四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推導(dǎo)顯著事故定位規(guī)則評(píng)估規(guī)則好壞的參數(shù)─錯(cuò)分率(FP),希望所推導(dǎo)之規(guī)則,皆在所能容忍之決策風(fēng)險(xiǎn)下,因在此加入ROCCurve的觀念,隨著不同的臨界值條件下,TP比率與FP比率變化所構(gòu)成的特徵曲線,如圖4.3所示。關(guān)聯(lián)規(guī)則若有較大的TP與較小的FP,則此規(guī)則是較佳的。在此驗(yàn)證中,錯(cuò)分率小於0.25。137四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推導(dǎo)顯著事故定位規(guī)則由表4.3可知,關(guān)聯(lián)規(guī)則結(jié)果僅與「高壓電纜」、「用戶設(shè)備」、「高壓電纜直線接頭」以及「熔絲鏈開關(guān)」四種損壞設(shè)備有關(guān)。在損壞設(shè)備為「高壓電纜直線接頭」與「熔絲鏈開關(guān)」所找出之規(guī)則,雖其信賴度只介於50%~70%,但其規(guī)則之錯(cuò)分率相當(dāng)?shù)?,仍可容忍決策風(fēng)險(xiǎn)之內(nèi)(<0.25),因此,所找出之顯著規(guī)則是好的,可藉由此規(guī)則推斷出損壞部位。138四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以關(guān)聯(lián)規(guī)則推四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以決策樹挖掘顯著分類規(guī)則
利用780筆資料進(jìn)行資料篩選,首先選出具有13筆資料以上之損壞部位,挑選過後僅剩下650筆資料以及12種損壞部位。以初步的簡化模式,形成決策樹的輸入資料。其資料處理過程如圖4.4。針對此699筆資料進(jìn)行資料分佈之繪製,可得圖4.5之次數(shù)分佈圖。139四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以決策樹挖掘四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以決策樹挖掘顯著分類規(guī)則
本研究決策樹所使用軟體為Scenario,其演算法的結(jié)果類似CHAID,若針對連續(xù)型的目標(biāo)變數(shù)是以F-Test作為分枝方法,若針對間斷型的變數(shù),其以Chi-SquareTest作為分枝準(zhǔn)則。在長樹的過程設(shè)定上,枝葉中顯著目標(biāo)變數(shù)值資料最少需有13筆資料,且下一層的子集合純度一定要比上一層的母集合(Parentsubset)較高,且下一層子集合正確率(純度)需大於50%,以使得枝葉具有絕對之顯著程度,以及最多有三層枝葉等。140四、實(shí)證研究1_臺(tái)灣電力配電事故定位資料挖礦--以決策樹挖掘四、實(shí)證研究1_臺(tái)灣電力配電事故定位解釋與評(píng)估
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 校園應(yīng)急預(yù)案解讀
- 食品安全伴我行
- 認(rèn)識(shí)銷售課件教學(xué)課件
- 假如課件教學(xué)課件
- 高三化學(xué)一輪復(fù)習(xí) 第一章 離子反應(yīng) 離子方程式 課件
- 稻田餐廳課件教學(xué)課件
- 3.1.1鐵及鐵的氧化物 課件 高一上學(xué)期化學(xué)人教版(2019)必修第一冊
- 2.2化學(xué)平衡 課件高二上學(xué)期化學(xué)人教版(2019)選擇性必修1
- 成人夏季食品安全教育
- 企業(yè)宿舍管理培訓(xùn)
- 高二挑戰(zhàn)與突破
- 軸承質(zhì)檢報(bào)告
- 燃燒與爆炸理論課件
- 2022中考語文熱點(diǎn)聚焦:航天科技( 有答案)
- 第1章 復(fù)合材料概論
- 中藥材種植課件
- 大貨車安全隱患排查方案及流程
- 業(yè)務(wù)經(jīng)營弄虛作假專項(xiàng)治理心得體會(huì)范文
- 無人機(jī)飛行操作手冊
- 癌癥治療指南手冊
- 醫(yī)美行業(yè)發(fā)展趨勢
評(píng)論
0/150
提交評(píng)論