版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
自動(dòng)化前沿?cái)?shù)據(jù)挖掘技術(shù)及其應(yīng)用主要內(nèi)容
數(shù)據(jù)挖掘概述數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘算法-分類與預(yù)測(cè)數(shù)據(jù)挖掘算法-聚類數(shù)據(jù)挖掘算法-關(guān)聯(lián)分析序列模式挖掘數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘應(yīng)用一、數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測(cè)模型。數(shù)據(jù)挖掘與KDD數(shù)據(jù)挖掘與KDD知識(shí)發(fā)現(xiàn)(KD)輸出的是規(guī)則
數(shù)據(jù)挖掘(DM)輸出的是模型
共同點(diǎn)兩種方法輸入的都是學(xué)習(xí)集(learningsets)
目的都是盡可能多的自動(dòng)化數(shù)據(jù)挖掘過程
數(shù)據(jù)挖掘過程并不能完全自動(dòng)化,只能半自動(dòng)化
數(shù)據(jù)挖掘的社會(huì)需求國(guó)民經(jīng)濟(jì)和社會(huì)的信息化社會(huì)信息化后,社會(huì)的運(yùn)轉(zhuǎn)是軟件的運(yùn)轉(zhuǎn)社會(huì)信息化后,社會(huì)的歷史是數(shù)據(jù)的歷史數(shù)據(jù)挖掘的社會(huì)需求數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)越來越大有價(jià)值的知識(shí)可怕的數(shù)據(jù)數(shù)據(jù)挖掘的社會(huì)需求數(shù)據(jù)爆炸,知識(shí)貧乏
苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識(shí)決策模式趨勢(shì)事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場(chǎng)資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟(jì)政府POS.人口統(tǒng)計(jì)生命周期數(shù)據(jù)挖掘的發(fā)展1989IJCAI會(huì)議:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)討論專題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國(guó)際會(huì)議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會(huì)議,以及SIGKDDExplorations數(shù)據(jù)挖掘方面更多的國(guó)際會(huì)議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.數(shù)據(jù)挖掘技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)測(cè)未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列模式分類(預(yù)言)聚集異常檢測(cè)異常檢測(cè)異常檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要方面,用來發(fā)現(xiàn)”小的模式”(相對(duì)于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對(duì)象。異常探測(cè)應(yīng)用電信和信用卡欺騙貸款審批藥物研究氣象預(yù)報(bào)金融領(lǐng)域客戶分類網(wǎng)絡(luò)入侵檢測(cè)故障檢測(cè)與診斷等
什么是異常(outlier)?Hawkins(1980)給出了異常的本質(zhì)性的定義:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。聚類算法對(duì)異常的定義:異常是聚類嵌于其中的背景噪聲。異常檢測(cè)算法對(duì)異常的定義:異常是既不屬于聚類也不屬于背景噪聲的點(diǎn)。他們的行為與正常的行為有很大不同。異常檢測(cè)方法的分類基于統(tǒng)計(jì)(statistical-based)的方法基于距離(distance-based)的方法基于偏差(deviation-based)的方法基于密度(density-based)的方法高維數(shù)據(jù)的異常探測(cè)數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征知識(shí)的特征算法的特征礦山(數(shù)據(jù))挖掘工具(算法)金子(知識(shí))數(shù)據(jù)的特征大容量POS數(shù)據(jù)(某個(gè)超市每天要處理高達(dá)2000萬筆交易)衛(wèi)星圖象(NASA的地球觀測(cè)衛(wèi)星以每小時(shí)50GB的速度發(fā)回?cái)?shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)系統(tǒng)的特征知識(shí)發(fā)現(xiàn)系統(tǒng)需要一個(gè)前處理過程數(shù)據(jù)抽取數(shù)據(jù)清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換知識(shí)發(fā)現(xiàn)系統(tǒng)是一個(gè)自動(dòng)/半自動(dòng)過程知識(shí)發(fā)現(xiàn)系統(tǒng)要有很好的性能知識(shí)(模式)的特征知識(shí)發(fā)現(xiàn)系統(tǒng)能夠發(fā)現(xiàn)什么知識(shí)?計(jì)算學(xué)習(xí)理論COLT(ComputationalLearningTheory)以FOL為基礎(chǔ)的以發(fā)現(xiàn)關(guān)系為目的的歸納邏輯程序設(shè)計(jì)現(xiàn)行的知識(shí)發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特定模式的知識(shí)規(guī)則分類關(guān)聯(lián)知識(shí)表示:規(guī)則IF條件THEN結(jié)論條件和結(jié)論的粒度(抽象度)可以有多種單值區(qū)間模糊值規(guī)則可以有確信度精確規(guī)則概率規(guī)則知識(shí)表示:分類樹分類條件1分類條件2分類條件3類1類2類3類4數(shù)據(jù)挖掘算法的特征構(gòu)成數(shù)據(jù)挖掘算法的三要素模式記述語(yǔ)言:反映了算法可以發(fā)現(xiàn)什么樣的知識(shí)模式評(píng)價(jià):反映了什么樣的模式可以稱為知識(shí)模式探索:包括針對(duì)某一特定模式對(duì)參數(shù)空間的探索和對(duì)模式空間的探索數(shù)據(jù)挖掘的主要方法分類(Classification)聚類(Clustering)相關(guān)規(guī)則(AssociationRule)回歸(Regression)其他數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個(gè)獨(dú)立的應(yīng)用支持一個(gè)或者多個(gè)算法獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)同質(zhì)/局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象、文本、和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動(dòng)數(shù)據(jù)/各種計(jì)算數(shù)據(jù)聯(lián)合多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在的計(jì)算模型數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)
支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法,這些算法設(shè)計(jì)用來挖掘向量數(shù)據(jù)(vector-valueddata),這些數(shù)據(jù)模型在挖掘時(shí)候,一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng)
目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),和它們具有高性能的接口,具有高的可擴(kuò)展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持?jǐn)?shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語(yǔ)言(DMQL)增加系統(tǒng)的靈活性。
數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)
第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關(guān)鍵的技術(shù)之一是提供對(duì)建立在異質(zhì)系統(tǒng)上的多個(gè)預(yù)言模型以及管理這些預(yù)言模型的元數(shù)據(jù)提供第一級(jí)別(firstclass)的支持。
第四代數(shù)據(jù)挖掘系統(tǒng)
第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)。二、數(shù)據(jù)預(yù)處理為什么需要預(yù)處理數(shù)據(jù)不完整含觀測(cè)噪聲不一致包含其它不希望的成分?jǐn)?shù)據(jù)清理通過填寫空缺值,平滑噪聲數(shù)據(jù),識(shí)別刪除孤立點(diǎn),并解決不一致來清理數(shù)據(jù)。污染數(shù)據(jù)形成的原因?yàn)E用縮寫詞數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)中的內(nèi)嵌控制信息不同的慣用語(yǔ)重復(fù)記錄丟失值拼寫變化不同的計(jì)量單位過時(shí)的編碼含有各種噪聲數(shù)據(jù)清理的重要性污染數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)及其困難的任務(wù)。垃圾進(jìn)、垃圾出數(shù)據(jù)清理處理內(nèi)容格式標(biāo)準(zhǔn)化異常數(shù)據(jù)清除錯(cuò)誤糾正重復(fù)數(shù)據(jù)的清除數(shù)據(jù)規(guī)約數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達(dá)到相同或基本相同的分析結(jié)果主要策略:數(shù)據(jù)聚集維規(guī)約數(shù)據(jù)壓縮數(shù)值規(guī)約空缺值忽略元組人工填寫空缺值使用固定值使用屬性平均值使用最有可能值噪聲數(shù)據(jù)如何平滑數(shù)據(jù),去掉噪聲數(shù)據(jù)平滑技術(shù)分箱聚類計(jì)算機(jī)和人工檢查相結(jié)合回歸分箱箱的深度:表示不同的箱里有相同個(gè)數(shù)的數(shù)據(jù)。箱的寬度:每個(gè)箱值的取值區(qū)間是個(gè)常數(shù)。平滑方法:按箱平均值平滑按箱中值平滑按箱邊界值平滑聚類每個(gè)簇中的數(shù)據(jù)用其中心值代替忽略孤立點(diǎn)先通過聚類等方法找出孤立點(diǎn)。這些孤立點(diǎn)可能包含有用的信息。人工再審查這些孤立點(diǎn)回歸通過構(gòu)造函數(shù)來符合數(shù)據(jù)變化的趨勢(shì),這樣可以用一個(gè)變量預(yù)測(cè)另一個(gè)變量。線性回歸多線性回歸數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一直得數(shù)據(jù)存貯中。實(shí)體識(shí)別實(shí)體和模式的匹配冗余:某個(gè)屬性可以由別的屬性推出。相關(guān)分析相關(guān)性rA,B.rA,B>0,正相關(guān)。A隨B的值得增大而增大rA,B>0,正相關(guān)。AB無關(guān)rA,B>0,正相關(guān)。A隨B的值得增大而減少重復(fù)同一數(shù)據(jù)存儲(chǔ)多次數(shù)據(jù)值沖突的檢測(cè)和處理數(shù)據(jù)變換平滑聚集數(shù)據(jù)概化規(guī)范化屬性構(gòu)造(特征構(gòu)造)最小最大規(guī)范化小數(shù)定標(biāo)規(guī)范化屬性構(gòu)造由給定的屬性構(gòu)造和添加新的屬性,以幫助提高精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解規(guī)范化數(shù)據(jù)立方體聚集尋找感興趣的維度進(jìn)行再聚集維規(guī)約刪除不相關(guān)的屬性(維)來減少數(shù)據(jù)量。屬性子集選擇找出最小屬性集合,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布如何選???貪心算法逐步向前選擇逐步后向刪除向前選擇和后向刪除相結(jié)合判定樹歸納數(shù)據(jù)壓縮有損,無損小波變換將數(shù)據(jù)向量D轉(zhuǎn)換成為數(shù)值上不同的小波系數(shù)的向量D’.對(duì)D’進(jìn)行剪裁,保留小波系數(shù)最強(qiáng)的部分。主要成分分析數(shù)值規(guī)約回歸和對(duì)數(shù)線形模型線形回歸對(duì)數(shù)線形模型直方圖等寬等深V-最優(yōu)maxDiff數(shù)值規(guī)約 聚類多維索引樹:對(duì)于給定的數(shù)據(jù)集合,索引樹動(dòng)態(tài)的劃分多維空間。選樣簡(jiǎn)單選擇n個(gè)樣本,不放回簡(jiǎn)單選擇n個(gè)樣本,放回聚類選樣分層選樣離散化和概念分層離散化技術(shù)用來減少給定連續(xù)屬性的個(gè)數(shù)通常是遞歸的。大量時(shí)間花在排序上。對(duì)于給定的數(shù)值屬性,概念分層定義了該屬性的一個(gè)離散化的值。分箱直方圖分析數(shù)值數(shù)據(jù)離散化聚類分析基于熵的離散化通過自然劃分分段3-4-5規(guī)則如果一個(gè)區(qū)間最高有效位上包括369個(gè)不同的值,劃分為3個(gè)等寬區(qū)間。7個(gè)不同值,按2-3-3劃分為3個(gè)區(qū)間最高位包含2,4,8個(gè)不同值,劃分為4個(gè)等寬區(qū)間最高位包含1,5,10個(gè)不同值,劃分為5個(gè)等寬區(qū)間最高分層一般在第5個(gè)百分位到第95個(gè)百分位上進(jìn)行分類數(shù)據(jù)的概念分層生成分類數(shù)據(jù)是離散數(shù)據(jù)。一個(gè)分類屬性可能有有限個(gè)不同的值。方法由用戶和專家在模式級(jí)顯式的說明屬性的部分序通過顯式的數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分說明屬性集,但不說明他們的偏序只說明部分的屬性集三、數(shù)據(jù)挖掘算法
-分類與預(yù)測(cè)分類VS.預(yù)測(cè)分類:預(yù)測(cè)分類標(biāo)號(hào)(或離散值)根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號(hào)屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預(yù)測(cè):建立連續(xù)函數(shù)值模型,比如預(yù)測(cè)空缺值典型應(yīng)用信譽(yù)證實(shí)目標(biāo)市場(chǎng)醫(yī)療診斷性能預(yù)測(cè)數(shù)據(jù)分類:兩步過程第一步,建立一個(gè)模型,描述預(yù)定數(shù)據(jù)類集和概念集假定每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)類標(biāo)號(hào)屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個(gè)樣本(元組)學(xué)習(xí)模型可以用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供第二步,使用模型,對(duì)將來的或未知的對(duì)象進(jìn)行分類首先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率對(duì)每個(gè)測(cè)試樣本,將已知的類標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類預(yù)測(cè)比較模型在給定測(cè)試集上的準(zhǔn)確率是正確被模型分類的測(cè)試樣本的百分比測(cè)試集要獨(dú)立于訓(xùn)練樣本集,否則會(huì)出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況第一步:建立模型訓(xùn)練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則第二步:用模型進(jìn)行分類分類規(guī)則測(cè)試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?準(zhǔn)備分類和預(yù)測(cè)的數(shù)據(jù)通過對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類和預(yù)測(cè)過程的準(zhǔn)確性、有效性和可伸縮性數(shù)據(jù)清理消除或減少噪聲,處理空缺值,從而減少學(xué)習(xí)時(shí)的混亂相關(guān)性分析數(shù)據(jù)中的有些屬性可能與當(dāng)前任務(wù)不相關(guān);也有些屬性可能是冗余的;刪除這些屬性可以加快學(xué)習(xí)步驟,使學(xué)習(xí)結(jié)果更精確數(shù)據(jù)變換可以將數(shù)據(jù)概化到較高層概念,或?qū)?shù)據(jù)進(jìn)行規(guī)范化比較分類方法使用下列標(biāo)準(zhǔn)比較分類和預(yù)測(cè)方法預(yù)測(cè)的準(zhǔn)確率:模型正確預(yù)測(cè)新數(shù)據(jù)的類編號(hào)的能力速度:產(chǎn)生和使用模型的計(jì)算花銷魯棒性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預(yù)測(cè)的能力可伸縮性:對(duì)大量數(shù)據(jù),有效的構(gòu)建模型的能力可解釋性:學(xué)習(xí)模型提供的理解和洞察的層次用判定樹歸納分類什么是判定樹?類似于流程圖的樹結(jié)構(gòu)每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試每個(gè)分枝代表一個(gè)測(cè)試輸出每個(gè)樹葉節(jié)點(diǎn)代表類或類分布判定樹的生成由兩個(gè)階段組成判定樹構(gòu)建開始時(shí),所有的訓(xùn)練樣本都在根節(jié)點(diǎn)遞歸的通過選定的屬性,來劃分樣本(必須是離散值)樹剪枝許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點(diǎn),樹剪枝試圖檢測(cè)和剪去這種分枝判定樹的使用:對(duì)未知樣本進(jìn)行分類通過將樣本的屬性值與判定樹相比較判定歸納樹算法判定歸納樹算法(一個(gè)貪心算法)自頂向下的分治方式構(gòu)造判定樹樹以代表訓(xùn)練樣本的單個(gè)根節(jié)點(diǎn)開始使用分類屬性(如果是量化屬性,則需先進(jìn)行離散化)遞歸的通過選擇相應(yīng)的測(cè)試屬性,來劃分樣本,一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何后代上出現(xiàn)測(cè)試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計(jì)信息來進(jìn)行選擇(如:信息增益)遞歸劃分步驟停止的條件給定節(jié)點(diǎn)的所有樣本屬于同一類沒有剩余屬性可以用來進(jìn)一步劃分樣本——使用多數(shù)表決沒有剩余的樣本詳細(xì)算法見P189貝葉斯分類貝葉斯分類利用統(tǒng)計(jì)學(xué)中的貝葉斯定理,來預(yù)測(cè)類成員的概率,即給定一個(gè)樣本,計(jì)算該樣本屬于一個(gè)特定的類的概率。樸素貝葉斯分類:假設(shè)每個(gè)屬性之間都是相互獨(dú)立的,并且每個(gè)屬性對(duì)非類問題產(chǎn)生的影響都是一樣的。后向傳播分類后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法;神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,每個(gè)連接都與一個(gè)權(quán)相連。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測(cè)輸入樣本的正確標(biāo)號(hào)來學(xué)習(xí)。優(yōu)點(diǎn)預(yù)測(cè)精度總的來說較高健壯性好,訓(xùn)練樣本中包含錯(cuò)誤時(shí)也可正常工作輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值對(duì)目標(biāo)進(jìn)行分類較快缺點(diǎn)訓(xùn)練(學(xué)習(xí))時(shí)間長(zhǎng)蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號(hào)含義很難理解很難根專業(yè)領(lǐng)域知識(shí)相整合其他分類方法k-最臨近分類給定一個(gè)未知樣本,k-最臨近分類法搜索模式空間,找出最接近未知樣本的k個(gè)訓(xùn)練樣本;然后使用k個(gè)最臨近者中最公共的類來預(yù)測(cè)當(dāng)前樣本的類標(biāo)號(hào)基于案例的推理樣本或案例使用復(fù)雜的符號(hào)表示,對(duì)于新案例,先檢測(cè)是否存在同樣的訓(xùn)練案例;如果找不到,則搜索類似的訓(xùn)練案例遺傳算法結(jié)合生物進(jìn)化思想的算法粗糙集方法模糊集方法允許在分類規(guī)則中定義“模糊的”臨界值或邊界什么是預(yù)測(cè)?預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無樣本類,或評(píng)估給定樣本可能具有的屬性或值空間。預(yù)測(cè)和分類的異同相同點(diǎn)兩者都需要構(gòu)建模型都用模型來估計(jì)未知值預(yù)測(cè)當(dāng)中主要的估計(jì)方法是回歸分析線性回歸和多元回歸非線性回歸不同點(diǎn)分類法主要是用來預(yù)測(cè)類標(biāo)號(hào)(分類屬性值)預(yù)測(cè)法主要是用來估計(jì)連續(xù)值(量化屬性值)回歸方法線性回歸:Y=+X其中和是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點(diǎn),通過最小二乘法來求得多元回歸:Y=+1X1+2X2線性回歸的擴(kuò)展,設(shè)計(jì)多個(gè)預(yù)測(cè)變量,可以用最小二乘法求得上式中的,1和2非線性回歸:Y=+1X1+2X22+3X33對(duì)不呈線性依賴的數(shù)據(jù)建模使用多項(xiàng)式回歸建模方法,然后進(jìn)行變量變換,將非線性模型轉(zhuǎn)換為線性模型,然后用最小二乘法求解評(píng)估分類法的準(zhǔn)確性導(dǎo)出分類法后,再使用訓(xùn)練數(shù)據(jù)評(píng)估分類法,可能錯(cuò)誤的導(dǎo)致樂觀的估計(jì)保持方法給定數(shù)據(jù)隨機(jī)劃分為兩個(gè)集合:訓(xùn)練集(2/3)和測(cè)試集(1/3)訓(xùn)練集導(dǎo)出分類法,測(cè)試集對(duì)其準(zhǔn)確性進(jìn)行評(píng)估隨機(jī)子選樣:保持方法的一個(gè)變形,將保持方法重復(fù)k次,然后取準(zhǔn)確率的平均值k-折交叉確認(rèn)初始數(shù)據(jù)被劃分為k個(gè)不相交的,大小大致相同的子集S1,S2…Sk進(jìn)行k次訓(xùn)練和測(cè)試,第i次時(shí),以Si做測(cè)試集,其他做訓(xùn)練集準(zhǔn)確率為k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù)提高分類法的準(zhǔn)確性Bagging技術(shù)和boosting技術(shù)都通過將T個(gè)學(xué)習(xí)得到的分類法C1,C2…CT組合起來,從而創(chuàng)造一個(gè)改進(jìn)的分類法C*Bagging技術(shù)對(duì)訓(xùn)練集S進(jìn)行T次迭代,每次通過放回取樣選取樣本集St,通過學(xué)習(xí)St得到分類法Ct對(duì)于未知樣本X,每個(gè)分類法返回其類預(yù)測(cè),作為一票C*統(tǒng)計(jì)得票,并將得票最高的預(yù)測(cè)賦予XBoosting技術(shù)每個(gè)訓(xùn)練樣本賦予一個(gè)權(quán)值Ct的權(quán)值取決于其錯(cuò)誤率四、數(shù)據(jù)挖掘算法-聚類聚類分析什么是聚類分析?聚類分析中的數(shù)據(jù)類型主要聚類分析方法分類劃分方法(PartitioningMethods)分層方法基于密度的方法基于表格的方法基于模型(Model-Based)的聚類方法異常分析總結(jié)什么是聚類分析?簇(Cluster):一個(gè)數(shù)據(jù)對(duì)象的集合在同一個(gè)類中,對(duì)象之間0具有相似性;不同類的對(duì)象之間是相異的。聚類分析把一個(gè)給定的數(shù)據(jù)對(duì)象集合分成不同的簇;聚類是一種無監(jiān)督分類法:沒有預(yù)先指定的類別;典型的應(yīng)用作為一個(gè)獨(dú)立的分析工具,用于了解數(shù)據(jù)的分布;作為其它算法的一個(gè)數(shù)據(jù)預(yù)處理步驟;聚類的常規(guī)應(yīng)用模式識(shí)別空間數(shù)據(jù)分析在GIS中,通過聚類發(fā)現(xiàn)特征空間來建立主題索引;在空間數(shù)據(jù)挖掘中,檢測(cè)并解釋空間中的簇;圖象處理經(jīng)濟(jì)學(xué)(尤其是市場(chǎng)研究方面)WWW文檔分類分析WEB日志數(shù)據(jù)來發(fā)現(xiàn)相似的訪問模式應(yīng)用聚類分析的例子市場(chǎng)銷售:
幫助市場(chǎng)人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識(shí)來開展一個(gè)目標(biāo)明確的市場(chǎng)計(jì)劃;土地使用:
在一個(gè)陸地觀察數(shù)據(jù)庫(kù)中標(biāo)識(shí)那些土地使用相似的地區(qū);保險(xiǎn):
對(duì)購(gòu)買了汽車保險(xiǎn)的客戶,標(biāo)識(shí)那些有較高平均賠償成本的客戶;城市規(guī)劃:
根據(jù)類型、價(jià)格、地理位置等來劃分不同類型的住宅;地震研究:
根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類;聚類方法性能評(píng)價(jià)一個(gè)好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果——簇,這些簇要具備以下兩個(gè)特點(diǎn):高的簇內(nèi)相似性低的簇間相似性聚類結(jié)果的好壞取決于該聚類方法采用的相似性評(píng)估方法以及該方法的具體實(shí)現(xiàn);聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;聚類方法性能評(píng)價(jià)可伸縮性能夠處理不同類型的屬性能發(fā)現(xiàn)任意形狀的簇在決定輸入?yún)?shù)的時(shí)候,盡量不需要特定的領(lǐng)域知識(shí);能夠處理噪聲和異常對(duì)輸入數(shù)據(jù)對(duì)象的順序不敏感能處理高維數(shù)據(jù)能產(chǎn)生一個(gè)好的、能滿足用戶指定約束的聚類結(jié)果結(jié)果是可解釋的、可理解的和可用的兩種數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)矩陣(twomodes)差異度矩陣(onemode)評(píng)價(jià)聚類質(zhì)量差異度/相似度矩陣:相似度通常用距離函數(shù)來表示;有一個(gè)單獨(dú)的質(zhì)量評(píng)估函數(shù)來評(píng)判一個(gè)簇的好壞;對(duì)不同類型的變量,距離函數(shù)的定義通常是不同的,這在下面有詳細(xì)討論;根據(jù)實(shí)際的應(yīng)用和數(shù)據(jù)的語(yǔ)義,在計(jì)算距離的時(shí)候,不同的變量有不同的權(quán)值相聯(lián)系;很難定義“足夠相似了”或者“足夠好了”只能憑主觀確定;聚類分析中的數(shù)據(jù)類型區(qū)間標(biāo)度變量(Interval-scaledvariables):二元變量(Binaryvariables):標(biāo)稱型,序數(shù)型和比例型變量(Nominal,ordinal,andratiovariables):混合類型變量(Variablesofmixedtypes):區(qū)間標(biāo)度變量數(shù)據(jù)標(biāo)準(zhǔn)化計(jì)算絕對(duì)偏差的平均值:其中計(jì)算標(biāo)準(zhǔn)度量值(z-score)使用絕對(duì)偏差的平均值比使用標(biāo)準(zhǔn)偏差更健壯(robust)計(jì)算對(duì)象之間的相異度通常使用距離來衡量?jī)蓚€(gè)對(duì)象之間的相異度。常用的距離度量方法有:
明考斯基距離(Minkowskidistance):其中i=(xi1,xi2,…,xip)和
j=(xj1,xj2,…,xjp)是兩個(gè)p維的數(shù)據(jù)對(duì)象,q是一個(gè)正整數(shù)。當(dāng)q=1時(shí),d
稱為曼哈坦距離(Manhattandistance)計(jì)算對(duì)象之間的相異度當(dāng)q=2時(shí),d就成為歐幾里德距離:距離函數(shù)有如下特性:d(i,j)
0d(i,i)
=0d(i,j)
=d(j,i)d(i,j)
d(i,k)
+d(k,j)可以根據(jù)每個(gè)變量的重要性賦予一個(gè)權(quán)重序數(shù)型變量一個(gè)序數(shù)型變量可以是離散的也可以是連續(xù)的離散的序數(shù)型變量類似于標(biāo)稱變量,除了它的M個(gè)狀態(tài)是以有意義的序列排序的,比如職稱連續(xù)的序數(shù)型變量類似于區(qū)間標(biāo)度變量,但是它沒有單位,值的相對(duì)順序是必要的,而其實(shí)際大小并不重要。序數(shù)型變量相異度的計(jì)算 與區(qū)間標(biāo)度變量的計(jì)算方法相類似將xif
用它對(duì)應(yīng)的秩代替將每個(gè)變量的值域映射到[0.0,1.0]上,使得每個(gè)變量都有相同的權(quán)重。這通過用zif來替代rif來實(shí)現(xiàn)用前面所述的區(qū)間標(biāo)度變量的任一種距離計(jì)算方法來計(jì)算比例標(biāo)度型變量比例標(biāo)度型變量(Ratio-scaledvariable)
:總是取正的度量值,有一個(gè)非線性的標(biāo)度,近似的遵循指數(shù)標(biāo)度,比如AeBtorAe-Bt
計(jì)算相異度的方法:采用與處理區(qū)間標(biāo)度變量相同的方法—
不是一個(gè)好的選擇進(jìn)行對(duì)數(shù)變換,對(duì)變換得到的值在采用與處理區(qū)間標(biāo)度變量相同的方法 yif=log(xif)將其作為連續(xù)的序數(shù)型數(shù)據(jù),將其秩作為區(qū)間標(biāo)度的值來對(duì)待?;旌项愋偷淖兞恳粋€(gè)數(shù)據(jù)庫(kù)可能包含了所有這6中類型的變量 用以下公式計(jì)算對(duì)象i,j之間的相異度.
其中,p為對(duì)象中的變量個(gè)數(shù) 如果xif或xjf
缺失(即對(duì)象i或?qū)ο骿沒有變量f的值),或者xif=xjf=0,且變量f是不對(duì)稱的二元變量,則指示項(xiàng)δij(f)=0;否則δij(f)=1混合類型的變量f
是二元變量或標(biāo)稱變量:ifxif=xjfdij(f)=0,elsedij(f)=1f
是區(qū)間標(biāo)度變量: dij(f)=|xif-xjf|/maxhxhf-minhxhf
其中h遍取變量f的所有非空缺對(duì)象f
是序數(shù)型或比例標(biāo)度型計(jì)算秩rif
計(jì)算zif并將其作為區(qū)間標(biāo)度變量值對(duì)待主要聚類方法Partitioningalgorithms:ConstructvariouspartitionsandthenevaluatethembysomecriterionHierarchyalgorithms:Createahierarchicaldecompositionofthesetofdata(orobjects)usingsomecriterionDensity-based:basedonconnectivityanddensityfunctionsGrid-based:basedonamultiple-levelgranularitystructureModel-based:Amodelishypothesizedforeachoftheclustersandtheideaistofindthebestfitofthatmodeltoeachother五、數(shù)據(jù)挖掘算法-關(guān)聯(lián)什么是關(guān)聯(lián)挖掘?關(guān)聯(lián)規(guī)則挖掘:在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。應(yīng)用:購(gòu)物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計(jì)、loss-leaderanalysis、聚集、分類等。舉例:規(guī)則形式:“Body?Head[support,confidence]”.buys(x,“diapers”)?buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)?grade(x,“A”)[1%,75%]關(guān)聯(lián)規(guī)則:基本概念給定:(1)交易數(shù)據(jù)庫(kù)(2)每筆交易是:一個(gè)項(xiàng)目列表(消費(fèi)者一次購(gòu)買活動(dòng)中購(gòu)買的商品)查找:所有描述一個(gè)項(xiàng)目集合與其他項(xiàng)目集合相關(guān)性的規(guī)則E.g.,98%ofpeoplewhopurchasetiresandautoaccessoriesalsogetautomotiveservicesdone應(yīng)用*護(hù)理用品
(商店應(yīng)該怎樣提高護(hù)理用品的銷售?)家用電器
*
(其他商品的庫(kù)存有什么影響?)在產(chǎn)品直銷中使用附加郵寄Detecting“ping-pong”ingofpatients,faulty“collisions”規(guī)則度量:支持度與可信度查找所有的規(guī)則X&YZ具有最小支持度和可信度支持度,
s,一次交易中包含{X、Y、Z}的可能性可信度,
c,
包含{X、Y}的交易中也包含Z的條件概率設(shè)最小支持度為50%,最小可信度為50%,則可得到AC(50%,66.6%)CA(50%,100%)買尿布的客戶二者都買的客戶買啤酒的客戶關(guān)聯(lián)規(guī)則挖掘:路線圖布爾vs.定量關(guān)聯(lián)(基于處理數(shù)據(jù)的類型)buys(x,“SQLServer”)^buys(x,“DMBook”)?buys(x,“DBMiner”)[0.2%,60%]age(x,“30..39”)^income(x,“42..48K”)?buys(x,“PC”)[1%,75%]單維vs.多維關(guān)聯(lián)
(例子同上)單層vs.多層分析那個(gè)品種牌子的啤酒與那個(gè)牌子的尿布有關(guān)系?各種擴(kuò)展相關(guān)性、因果分析關(guān)聯(lián)并不一定意味著相關(guān)或因果最大模式和閉合相集添加約束如,哪些“小東西”的銷售促發(fā)了“大家伙”的買賣?關(guān)聯(lián)規(guī)則挖掘—一個(gè)例子對(duì)于A
C:support=support({A
、C})=50%confidence=support({A
、C})/support({A})=66.6%Apriori的基本思想:頻繁項(xiàng)集的任何子集也一定是頻繁的最小值尺度50%最小可信度50%關(guān)鍵步驟:挖掘頻繁集頻繁集:是指滿足最小支持度的項(xiàng)目集合頻繁集的子集也一定是頻繁的如,如果{AB}是頻繁集,則{A}{B}也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集用得到的頻繁集生成關(guān)聯(lián)規(guī)則多層關(guān)聯(lián)規(guī)則項(xiàng)通常具有層次底層的項(xiàng)通常支持度也低某些特定層的規(guī)則可能更有意義交易數(shù)據(jù)庫(kù)可以按照維或?qū)泳幋a可以進(jìn)行共享的多維挖掘食品面包牛奶脫脂奶光明統(tǒng)一酸奶白黃挖掘多層關(guān)聯(lián)規(guī)則自上而下,深度優(yōu)先的方法:先找高層的“強(qiáng)”規(guī)則:牛奶?
面包[20%,60%].再找他們底層的“弱”規(guī)則:酸奶?
黃面包[6%,50%].多層關(guān)聯(lián)規(guī)則的變種層次交叉的關(guān)聯(lián)規(guī)則: 酸奶?
面包房
黃面包不同種分層方法間的關(guān)聯(lián)規(guī)則:酸奶?
面包房面包多層關(guān)聯(lián)規(guī)則支持度不變:在各層之間使用統(tǒng)一的支持度+
一個(gè)最小支持度閾值.如果一個(gè)項(xiàng)集的父項(xiàng)集不具有最小支持度,那他本身也不可能滿足最小支持度。–
底層項(xiàng)不會(huì)成為頻繁集,如果支持度太高丟失底層關(guān)聯(lián)規(guī)則太低生成太多的高層關(guān)聯(lián)規(guī)則支持度遞減:隨著層次的降低支持度遞減4種搜索策略:層與層獨(dú)立用k-項(xiàng)集跨層過濾用項(xiàng)跨層過濾用項(xiàng)進(jìn)行可控跨層過濾支持度不變支持度不變多層挖掘牛奶[support=10%]酸奶[support=6%]脫脂奶[support=4%]層1min_sup=5%層2min_sup=5%支持度遞減支持度遞減多層挖掘酸奶[support=6%]脫脂奶[support=4%]層1min_sup=5%層2min_sup=3%牛奶[support=10%]多層關(guān)聯(lián):冗余過濾由于“祖先”關(guān)系的原因,有些規(guī)則可能是多余的。例子牛奶白面包[support=8%,confidence=70%]酸奶白面包[support=2%,confidence=72%]我們稱第一個(gè)規(guī)則是第二個(gè)規(guī)則的祖先參考規(guī)則的祖先,如果他的支持度與我們“預(yù)期”的支持度近似的話,我們就說這條規(guī)則是冗余的。多層挖掘:深度優(yōu)先自頂向下,深度優(yōu)先的方法:先挖掘高層頻繁項(xiàng):牛奶(15%),面包(10%)再挖掘他們底層的相對(duì)較弱的頻繁項(xiàng):酸奶(5%),白面包(4%)跨層時(shí)對(duì)支持度的不同處理方法,對(duì)應(yīng)了不同的算法:層之間支持度不變:如果t的祖先是非頻繁的,則不用考慮t支持度隨層遞減:則只考慮那些其祖先是頻繁的/不可忽略的項(xiàng)數(shù)據(jù)挖掘查詢的逐步精化為什么要逐步精化挖掘操作的代價(jià)可能高或低,結(jié)果可能細(xì)致或粗糙在速度和質(zhì)量之間折衷:逐步精化超集覆蓋特征:預(yù)存儲(chǔ)所有正面答案—允許進(jìn)一步正確性驗(yàn)證,而不必驗(yàn)證已經(jīng)錯(cuò)誤的2或多步挖掘:先執(zhí)行粗糙的、容易的操作(超集覆蓋)然后在減少后的候選集上進(jìn)行計(jì)算量大的算法(Koperski&Han,SSD’95).逐步求精空間關(guān)聯(lián)規(guī)則挖掘空間關(guān)系的層次:“g_close_to”:鄰近,接觸,交叉,包含先搜索粗糙的關(guān)系然后再精化逐步求精空間關(guān)聯(lián)規(guī)則挖掘空間關(guān)聯(lián)規(guī)則的兩步算法:步驟1:粗糙空間計(jì)算(用于過濾)
用MBR或R-tree做粗糙估計(jì)步驟2:細(xì)致空間算法(用于精化)
只計(jì)算已經(jīng)通過空間計(jì)算的對(duì)象多維關(guān)聯(lián)規(guī)則:概念單維規(guī)則:buys(X,“milk”)buys(X,“bread”)多維規(guī)則:2個(gè)以上維/謂詞維間關(guān)聯(lián)規(guī)則(維詞不重復(fù))age(X,”19-25”)occupation(X,“student”)buys(X,“coke”)混合維關(guān)聯(lián)規(guī)則(維詞重復(fù))age(X,”19-25”)buys(X,“popcorn”)buys(X,“coke”)類別屬性有限個(gè)值,值之間無順序關(guān)系數(shù)量屬性數(shù)字的,值之間隱含了順序關(guān)系挖掘多維關(guān)聯(lián)的技術(shù)搜索頻繁k-維詞集合:如:{age,occupation,buys}
是一個(gè)3-維詞集合。按照對(duì)age
處理方式的不同,分為:1.用靜態(tài)方法把數(shù)值屬性離散化數(shù)值屬性可用預(yù)定義的概念層次加以離散化。2.帶數(shù)量的關(guān)聯(lián)規(guī)則根據(jù)數(shù)據(jù)的分布動(dòng)態(tài)的把數(shù)值屬性離散化到不同的“箱”。3.基于距離的關(guān)聯(lián)規(guī)則用數(shù)據(jù)點(diǎn)之間的距離動(dòng)態(tài)的離散化數(shù)值屬性的靜態(tài)離散化在挖掘之前用概念層次先離散化數(shù)值被替換為區(qū)間范圍關(guān)系數(shù)據(jù)庫(kù)中,要找到所有頻繁k-維詞需要k或k+1次表掃描。適宜使用數(shù)據(jù)立方體N維立方體的每個(gè)單元
對(duì)應(yīng)一個(gè)維詞集合使用數(shù)據(jù)立方體速度更快(income)(age)()(buys)(age,income)(age,buys)(income,buys)(age,income,buys)帶數(shù)量的關(guān)聯(lián)規(guī)則age(X,”30-34”)income(X,”24K-48K”)buys(X,”highresolutionTV”)動(dòng)態(tài)離散化數(shù)值屬性Suchthattheconfidenceorcompactnessoftherulesminedismaximized.2-維數(shù)量關(guān)聯(lián)規(guī)則:Aquan1
Aquan2Acat用2-維表格把“鄰近”的
關(guān)聯(lián)規(guī)則組合起來例子
ARCS(關(guān)聯(lián)規(guī)則聚集系統(tǒng))ARCS流程1.分箱2.查找頻繁維詞集合3.聚集4.優(yōu)化ARCS的局限性數(shù)值屬性只能出現(xiàn)在規(guī)則的左側(cè)左側(cè)只能有兩個(gè)屬性(2維)ARCS的改進(jìn)不用基于柵格的方法等深分箱基于局部完整性測(cè)度的聚集“MiningQuantitativeAssociationRulesinLargeRelationalTables”byR.SrikantandR.Agrawal.基于距離的關(guān)聯(lián)規(guī)則挖掘分箱的方法沒有體現(xiàn)數(shù)據(jù)間隔的語(yǔ)義基于距離的分割是更有“意義”的離散化方法,考慮:區(qū)間內(nèi)密度或點(diǎn)的個(gè)數(shù)區(qū)間內(nèi)點(diǎn)的“緊密程度記S[X]為N個(gè)元組t1,t2,…,tN在屬性集X上的投影則S[X]的直徑:distx:距離量度,如歐幾里德距離或Manhattan聚集和距離度量用直徑
d評(píng)估聚集CX的密度,其中查找聚集和基于距離的規(guī)則用密度閾值d0代替支持度采用修改過的BIRCH聚集算法聚集和距離度量關(guān)聯(lián)規(guī)則可視化UsingPlaneGraph關(guān)聯(lián)規(guī)則可視化UsingRuleGraph六、序列模式挖掘序列模式概念序列模式的概念最早是由Agrawal和Srikant提出的序列模式定義:給定一個(gè)由不同序列組成的集合,其中,每個(gè)序列由不同的元素按順序有序排列,每個(gè)元素由不同項(xiàng)目組成,同時(shí)給定一個(gè)用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值序列模式實(shí)例例1:在兩年前購(gòu)買了Ford牌轎車的顧客,很有可能在今年采取貼舊換新的購(gòu)車行動(dòng)例2:在購(gòu)買了自行車和購(gòu)物籃的所有客戶中,有70%的客戶會(huì)在兩個(gè)月后購(gòu)買打氣筒例3:工業(yè)過程控制領(lǐng)域:過程變量采樣值時(shí)時(shí)間序列;變量之間的關(guān)系是動(dòng)態(tài)的;系統(tǒng)故障模式;等等序列模式應(yīng)用領(lǐng)域應(yīng)用領(lǐng)域:客戶購(gòu)買行為模式預(yù)測(cè)Web訪問模式預(yù)測(cè)疾病診斷自然災(zāi)害預(yù)測(cè)DNA序列分析工業(yè)控制序列模式表示符號(hào)化表示:項(xiàng)目集(Itemset)是各種項(xiàng)目組成的集合序列(Sequence)是不同項(xiàng)目集(ItemSet)的有序排列,序列s可以表示為s=<s1s2…sl>,sj(1<=j<=l)為項(xiàng)目集(Itemset),也稱為序列s的元素序列的元素(Element)可表示為(x1x2…xm),xk(1<=k<=m)為不同的項(xiàng)目,如果一個(gè)序列只有一個(gè)項(xiàng)目,則括號(hào)可以省略一個(gè)序列包含的所有項(xiàng)目的個(gè)數(shù)稱為序列的長(zhǎng)度。長(zhǎng)度為l的序列記為l-序列序列模式表示符號(hào)化表示:設(shè)=<a1a2…an>,=<b1b2…bm>,如果存在整數(shù)1<=j1<j2<…<jn<=m,使得a1bj1,a2bj2,…,anbjn,則稱序列為序列的子序列,又稱序列包含序列,記為序列在序列數(shù)據(jù)庫(kù)S中的支持?jǐn)?shù)為序列數(shù)據(jù)庫(kù)S中包含序列的序列個(gè)數(shù),記為Support()給定支持度閾值,如果序列在序列數(shù)據(jù)庫(kù)中的支持?jǐn)?shù)不低于,則稱序列為序列模式長(zhǎng)度為l的序列模式記為l-模式序列模式表示例子:設(shè)序列數(shù)據(jù)庫(kù)如下圖所示,并設(shè)用戶指定的最小支持度min-support=2。Sequence_idSequence10<a(abc)(ac)d(cf)>20<(ad)c(bc)(ae)>30<(ef)(ab)(df)cb>40<eg(af)cbc>序列<a(bc)df>是序列<a(abc)(ac)d(cf)>的子序列序列<(ab)c>是長(zhǎng)度為3的序列模式序列模式挖掘問題描述:給定序列數(shù)據(jù)庫(kù)和最小支持度閾值,序列模式挖掘就是要找出序列數(shù)據(jù)庫(kù)中所有的序列模式系統(tǒng)規(guī)定:由于同一個(gè)元素中的項(xiàng)目之間排列沒有順序,為了表達(dá)的唯一性,我們將同一個(gè)元素內(nèi)部的不同項(xiàng)目按照字典順序排列序列模式挖掘算法序列模式挖掘的主要算法GSP(GeneralizedSequentialPatterns)算法:類似于Apriori算法PrefixSpan(Prefix-projectSequentialPatternmining)算法:采用分治的思想,不斷產(chǎn)生序列數(shù)據(jù)庫(kù)的多個(gè)更小的投影數(shù)據(jù)庫(kù),然后在各個(gè)投影數(shù)據(jù)庫(kù)上進(jìn)行序列模式挖掘序列模式挖掘算法上述算法存在的主要問題:缺少時(shí)間限制:用戶可能需要指定序列模式的相鄰元素之間的時(shí)間間隔。例如,一個(gè)序列模式可能會(huì)發(fā)現(xiàn)客戶在購(gòu)買了物品A后的第三年購(gòu)買物品B。我們需要的卻是給定時(shí)間間隔內(nèi)用戶的購(gòu)買意向事務(wù)的定義過于嚴(yán)格:一個(gè)事務(wù)中包含在客戶的一次購(gòu)買行為中所購(gòu)買的所有物品??赡苄枰付ㄒ粋€(gè)滑動(dòng)時(shí)間窗口,客戶在滑動(dòng)時(shí)間窗口的時(shí)間段內(nèi)的所有的購(gòu)買行為均作為一個(gè)事務(wù)缺少分類層次:只能在項(xiàng)目的原始級(jí)別上進(jìn)行挖掘七、數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代作為一個(gè)獨(dú)立的應(yīng)用支持一個(gè)或者多個(gè)算法獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成
多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合
多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在的計(jì)算模型數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件特點(diǎn)支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法
挖掘向量數(shù)據(jù)(vector-valueddata)
數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理
典型的系統(tǒng)如SalfordSystems公司早期的CART系統(tǒng)()
缺陷如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿足需求。數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件
CBA
新加坡國(guó)立大學(xué)。基于關(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類和預(yù)測(cè)二、數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點(diǎn)與數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)集成
支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),和它們具有高性能的接口,具有高的可擴(kuò)展性
能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集
通過支持?jǐn)?shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語(yǔ)言增加系統(tǒng)的靈活性
典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語(yǔ)言進(jìn)行挖掘操作缺陷只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件DBMiner數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASEnterpriseMiner數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點(diǎn)和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時(shí)反映到預(yù)言模型系統(tǒng)中
由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動(dòng)地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能
能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成
缺陷不能支持移動(dòng)環(huán)境數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSSClementine以PMML的格式提供與預(yù)言模型系統(tǒng)的接口二、數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點(diǎn)目前移動(dòng)計(jì)算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動(dòng)計(jì)算相結(jié)合是當(dāng)前的一個(gè)研究領(lǐng)域。
第四代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo),PKDD2001上Kargupta發(fā)表了一篇在移動(dòng)環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)(UniversityofMarylandBaltimoreCounty)正在研制的CAREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。
數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷
第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)測(cè)模型的使用和操作型環(huán)境的部署
第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口
第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口
目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會(huì)出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如IBMIntelligentScoreService。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo)
數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個(gè)階段獨(dú)立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案數(shù)據(jù)挖掘軟件的發(fā)展獨(dú)立的數(shù)據(jù)挖掘軟件(95年以前)特點(diǎn)獨(dú)立的數(shù)據(jù)挖掘軟件對(duì)應(yīng)第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術(shù)發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,就形成一個(gè)軟件。這類軟件要求用戶對(duì)具體的算法和數(shù)據(jù)挖掘技術(shù)有相當(dāng)?shù)牧私?,還要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。比如C4.5決策樹,平行坐標(biāo)可視化(parallel-coordinatevisualization)。
數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)發(fā)展原因隨著數(shù)據(jù)挖掘應(yīng)用的發(fā)展,人們逐漸認(rèn)識(shí)到數(shù)據(jù)挖掘軟件需要和以下三個(gè)方面緊密結(jié)合:1)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù);2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理,所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)結(jié)合是自然的發(fā)展。現(xiàn)實(shí)領(lǐng)域的問題是多種多樣的,一種或少數(shù)數(shù)據(jù)挖掘算法難以解決挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價(jià)值的模型
數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)發(fā)展過程隨著這些需求的出現(xiàn),1995年左右軟件開發(fā)商開始提供稱之為“工具集”的數(shù)據(jù)挖掘軟件特點(diǎn)此類工具集的特點(diǎn)是提供多種數(shù)據(jù)挖掘算法
包括數(shù)據(jù)的轉(zhuǎn)換和可視化
由于此類工具并非面向特定的應(yīng)用,是通用的算法集合,可以稱之為橫向的數(shù)據(jù)挖掘工具(HorizontalDataMiningTools)
由于此類工具并非面向特定的應(yīng)用,是通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具典型的橫向工具有IBMIntelligentMiner、SPSS的Clementine、SAS的EnterpriseMiner、SGI的MineSet、OracleDarwin等
數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)IBMIntelligentMinerSPSS的ClementineSAS的EnterpriseMinerSGI的MineSetOracleDarwin數(shù)據(jù)挖掘軟件的發(fā)展縱向的數(shù)據(jù)挖掘解決方案(99年開始)發(fā)展原因隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對(duì)算法不了解,難以得出好的模型
從1999年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(VerticalSolution),即針對(duì)特定的應(yīng)用提供完整的數(shù)據(jù)挖掘方案
對(duì)于縱向的解決方案,數(shù)據(jù)挖掘技術(shù)的應(yīng)用多數(shù)還是為了解決某些特定的難題,而嵌入在應(yīng)用系統(tǒng)中數(shù)據(jù)挖掘軟件的發(fā)展縱向的數(shù)據(jù)挖掘解決方案(99年開始)在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)功能在欺詐檢測(cè)系統(tǒng)中嵌入欺詐行為的分類/識(shí)別模型在客戶關(guān)系管理系統(tǒng)中嵌入客戶成簇/分類功能或客戶行為分析功能在機(jī)器維護(hù)系統(tǒng)中嵌入監(jiān)/檢測(cè)或識(shí)別難以定性的設(shè)備故障功能在數(shù)據(jù)庫(kù)營(yíng)銷中嵌入選擇最可能購(gòu)買產(chǎn)品的客戶功能在機(jī)場(chǎng)管理系統(tǒng)中嵌入旅客人數(shù)預(yù)測(cè)、貨運(yùn)優(yōu)化功能在基因分析系統(tǒng)中嵌入DNA識(shí)別功能在制造/生產(chǎn)系統(tǒng)中嵌入質(zhì)量控制功能等數(shù)據(jù)挖掘軟件的發(fā)展縱向的數(shù)據(jù)挖掘解決方案(99年開始)KD1(主要用于零售業(yè))Options&Choice(主要用于保險(xiǎn)業(yè))HNC(欺詐行為偵測(cè))UnicaModel1(主要用于市場(chǎng)營(yíng)銷)數(shù)據(jù)挖掘軟件的發(fā)展各行業(yè)電子商務(wù)網(wǎng)站算法層商業(yè)邏輯層行業(yè)應(yīng)用層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細(xì)分客戶流失客戶利潤(rùn)客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析…WEB挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁(yè)推薦商品推薦。。?;蛲诰蚧虮磉_(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析。。。銀行電信零售保險(xiǎn)制藥生物信息科學(xué)研究。。。相關(guān)行業(yè)數(shù)據(jù)挖掘軟件的現(xiàn)狀情況概覽2002年9月,Amazon上關(guān)于數(shù)據(jù)挖掘的書有251本()目前有數(shù)百個(gè)數(shù)據(jù)挖掘軟件產(chǎn)品()數(shù)據(jù)挖掘應(yīng)用相對(duì)廣泛數(shù)據(jù)挖掘軟件的現(xiàn)狀國(guó)內(nèi)大部分處于科研階段各大學(xué)和科研機(jī)構(gòu)從事數(shù)據(jù)挖掘算法的研究國(guó)內(nèi)著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有)數(shù)據(jù)挖掘討論組()有一些公司在國(guó)外產(chǎn)品基礎(chǔ)上開發(fā)的特定的應(yīng)用IBMIntelligentMinerSASEnterpriseMiner自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件復(fù)旦德門()等八、數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘應(yīng)用銀行美國(guó)銀行家協(xié)會(huì)(ABA)預(yù)測(cè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)在美國(guó)商業(yè)銀行的應(yīng)用增長(zhǎng)率是14.9%。
分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤(rùn)評(píng)測(cè)模型;客戶關(guān)系優(yōu)化;風(fēng)險(xiǎn)控制等電子商務(wù)網(wǎng)上商品推薦;個(gè)性化網(wǎng)頁(yè);自適應(yīng)網(wǎng)站…生物制藥、基因研究DNA序列查詢和匹配;識(shí)別基因序列的共發(fā)生性
…電信欺詐甄別;客戶流失…保險(xiǎn)、零售。。。。。。數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘客戶分析析基分因其他保險(xiǎn)客戶證券客戶銀行客戶電信客戶零售客戶信用卡儲(chǔ)蓄卡存折按揭借貸人類基因植物基因動(dòng)物基因特殊群體基因基因序列基因表達(dá)譜基因功能基因制藥
………...數(shù)據(jù)挖掘應(yīng)用為什么沒有廣泛使用?數(shù)據(jù)挖掘正在快速的發(fā)展技術(shù)的研究和開發(fā)已經(jīng)走在很前沿的地方數(shù)據(jù)挖掘應(yīng)用面已經(jīng)擴(kuò)充了很多但是仍然沒有希望的高,為什么?希望在多少年內(nèi)達(dá)到數(shù)十億元的盈利?是一種增值服務(wù)(Notbread-and-butter)不能認(rèn)為高不可攀,所以不去過問是一門年輕的技術(shù),需要和實(shí)際結(jié)合,解決現(xiàn)實(shí)問題數(shù)據(jù)挖掘應(yīng)用國(guó)內(nèi)應(yīng)用存在的問題數(shù)據(jù)積累不充分、不全面業(yè)務(wù)模型構(gòu)建困難缺少有經(jīng)驗(yàn)的實(shí)施者數(shù)據(jù)挖掘應(yīng)用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡(luò)NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees
傾向性分析
客戶保留客戶生命周期管理目標(biāo)市場(chǎng)價(jià)格彈性分析
客戶細(xì)分市場(chǎng)細(xì)分
傾向性分析客戶保留目標(biāo)市場(chǎng)欺詐檢測(cè)關(guān)聯(lián)分析Association
市場(chǎng)組合分析套裝產(chǎn)品分析目錄設(shè)計(jì)交叉銷售數(shù)據(jù)挖掘應(yīng)用聚集(Cluster)聚集是把整個(gè)數(shù)據(jù)庫(kù)分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。
常用技術(shù):神經(jīng)元網(wǎng)絡(luò)、K均值、最近鄰…數(shù)據(jù)挖掘應(yīng)用異常檢測(cè)及時(shí)發(fā)現(xiàn)有欺詐嫌疑的異常行為,正確進(jìn)行欺詐問題的評(píng)估,對(duì)欺詐者實(shí)施控制和強(qiáng)制措施。技術(shù):決策樹,神經(jīng)元網(wǎng)絡(luò),異常因子LOF檢測(cè)客戶消費(fèi)異常行為分析模型數(shù)據(jù)挖掘應(yīng)用客戶分析業(yè)務(wù)模型交叉銷售客戶響應(yīng)客戶流失客戶利潤(rùn)信用卡分析業(yè)務(wù)模型客戶信用等級(jí)評(píng)估客戶透支分析客戶利潤(rùn)分析客戶消費(fèi)行為分析客戶消費(fèi)異常行為分析數(shù)據(jù)挖掘應(yīng)用MISERPCRME_BusinessCDW客戶數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘算法庫(kù)模型庫(kù)組件庫(kù)產(chǎn)品推薦客戶細(xì)分客戶流失客戶利潤(rùn)客戶響應(yīng)…行業(yè)應(yīng)用知識(shí)CIAS應(yīng)用服務(wù)器信息系統(tǒng)行業(yè)分析數(shù)據(jù)挖掘應(yīng)用平臺(tái)CIAS數(shù)據(jù)挖掘應(yīng)用客戶響應(yīng)模型—基本概念響應(yīng)率分析:分析客戶對(duì)某種新服務(wù)或者新產(chǎn)品的感興趣情況.為什么要進(jìn)行響應(yīng)率分析:通過響應(yīng)率分析能夠有效的降低市場(chǎng)推廣的費(fèi)用,同時(shí)能夠更加有針對(duì)性的面對(duì)目標(biāo)市場(chǎng).達(dá)到以最小的投入獲得最佳效果的目的數(shù)據(jù)挖掘應(yīng)用用哪一種數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)?響應(yīng)率分析是為了對(duì)某項(xiàng)市場(chǎng)營(yíng)銷(新產(chǎn)品銷售)活動(dòng)找到最合適的響應(yīng)客戶,需要預(yù)測(cè)哪些客戶能夠響應(yīng),以及響應(yīng)的可能性是多少。因此,需要構(gòu)建預(yù)言模型分類是預(yù)言模型的一種技術(shù),可以利用分類技術(shù)構(gòu)建客戶響應(yīng)率模型決策樹神經(jīng)網(wǎng)絡(luò)貝葉斯分類…數(shù)據(jù)挖掘未來發(fā)展與數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)集成與預(yù)言模型系統(tǒng)集成挖掘各種復(fù)雜類型的數(shù)據(jù)與應(yīng)用相結(jié)合研制和開發(fā)數(shù)據(jù)挖掘標(biāo)準(zhǔn)支持移動(dòng)環(huán)境
數(shù)據(jù)挖掘應(yīng)用——
時(shí)間序列模式挖掘工業(yè)過程變量時(shí)間序列生產(chǎn)過程的類型連續(xù)過程:工藝參數(shù)(設(shè)定值)均為常量。批量過程:工藝參數(shù)(設(shè)定值)通常為變量。工藝參數(shù)的數(shù)據(jù)類型數(shù)值型、邏輯型、枚舉型產(chǎn)品質(zhì)量的數(shù)據(jù)類型邏輯型:只判斷產(chǎn)品的好壞數(shù)值型:給出產(chǎn)品質(zhì)量好壞的程度生產(chǎn)過程工藝參數(shù)1(連續(xù)型時(shí)間序列)工藝參數(shù)2(離散型時(shí)間序列)產(chǎn)品質(zhì)量(離散型時(shí)間序列)批量型生產(chǎn)過程質(zhì)量檢驗(yàn)!t0t1t2t3T預(yù)熱階段加熱階段均熱階段T連續(xù)型生產(chǎn)過程T1T2T3vx1x2x3質(zhì)量檢驗(yàn)!0x預(yù)熱區(qū)加熱區(qū)均熱區(qū)t0t1t2t3質(zhì)量檢驗(yàn)!TT1T3T2數(shù)據(jù)挖掘?qū)ο蟮幕緲?gòu)成生產(chǎn)過程X:工藝參數(shù)時(shí)間序列Y:質(zhì)量檢測(cè)結(jié)果tXtY樣本的抽?。ㄅ可a(chǎn)過程)ttx1(t)y1y2y3x2(t)x3(t)XY樣本1樣本2樣本3……連續(xù)生產(chǎn)過程的樣本抽取連續(xù)過程批量過程T1T2T3vx1x2x3tT3T2T10質(zhì)量檢驗(yàn)!
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 甲周疣的臨床護(hù)理
- 產(chǎn)后風(fēng)濕的健康宣教
- 緩慢型心律失常的護(hù)理
- 《設(shè)計(jì)你的人生》課件
- 《單片機(jī)原理及應(yīng)用 》課件-第5章
- 嘴巴里長(zhǎng)泡的臨床護(hù)理
- 闊韌帶妊娠的健康宣教
- 皮脂腺增生的臨床護(hù)理
- JJF(陜) 116-2024 直流數(shù)字功率表校準(zhǔn)規(guī)范
- 比較線段的長(zhǎng)短課件西西模
- 初中語(yǔ)文語(yǔ)法主謂賓定狀補(bǔ)-課件
- 建筑工程施工質(zhì)量驗(yàn)收規(guī)范應(yīng)用講座課件
- EB病毒感染的特殊表現(xiàn).幻燈片
- 麻栗坡縣潤(rùn)澤銅業(yè)有限公司麻栗坡縣楊萬銅礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- 半自動(dòng)鉆床 課程設(shè)計(jì)報(bào)告書
- 機(jī)電產(chǎn)品設(shè)計(jì)奧秘探究知到章節(jié)答案智慧樹2023年青島濱海學(xué)院
- 新外研版高中英語(yǔ)必修第一冊(cè)Unit 6教學(xué)設(shè)計(jì)
- 2023版中國(guó)近現(xiàn)代史綱要課件:05第五專題 中國(guó)人民在精神上由被動(dòng)轉(zhuǎn)為主動(dòng)
- 快樂孕育孕婦學(xué)校高級(jí)教程孕產(chǎn)期心理保健
- AI時(shí)代大學(xué)生創(chuàng)新創(chuàng)業(yè)導(dǎo)航智慧樹知到答案章節(jié)測(cè)試2023年西南大學(xué)
- 臥式罐剩余體積與液位關(guān)系計(jì)算方式-excel
評(píng)論
0/150
提交評(píng)論