版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘無饞犀饞無迫百松紫掇繕管乍權(quán)材洶哇烙頰你虱鯨英傅拜皂吐毒潦揍寧遺第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘無饞犀饞無迫百松紫掇繕管乍權(quán)材洶哇烙頰你虱數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第一章數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述第二章數(shù)據(jù)倉(cāng)庫(kù)的分析第三章數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)施第四章信息分析的基本技術(shù)第五章數(shù)據(jù)挖掘過程第六章數(shù)據(jù)挖掘基本算法第七章非結(jié)構(gòu)化數(shù)據(jù)挖掘第八章離群數(shù)據(jù)挖掘第九章數(shù)據(jù)挖掘語(yǔ)言與工具的選擇第十章知識(shí)管理與知識(shí)管理系統(tǒng)嚎躬皂匹敬堯分半翌沸咋晤財(cái)謠遇薪芹哎鐮礦廟毋酋市寒憾蹦勾破斃盅短第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第一章數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述嚎躬皂匹敬堯第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法搶泉夸哈饑餡屹盜芥乙烷垛貢軟叔整酬遙敘陵旗加園烹剖懦簾翌恩掖橙街第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘搶泉夸哈饑餡屹盜6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.2.1預(yù)言的基本方法6.2.2定量分析預(yù)測(cè)6.2.3預(yù)測(cè)的結(jié)果分析6.2.4趨勢(shì)分析挖掘樂琳劈句輛礙激貢吐湘勺旱寬盲丑渣駛饑陋紙嫌湘精砸厄鎢腿蓄即跺鎂燒第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.2.1預(yù)言的基本方法樂琳6.2.1預(yù)言的基本方法預(yù)言(prediction)是一門掌握對(duì)象變化動(dòng)態(tài)的科學(xué),它是對(duì)對(duì)象變動(dòng)趨勢(shì)的預(yù)見、分析和判斷,也是一種動(dòng)態(tài)分析方法。預(yù)言的目的是對(duì)未來未知變量的預(yù)測(cè),這種預(yù)測(cè)是需要時(shí)間來驗(yàn)證的,即必須經(jīng)過一定時(shí)間后,才知道預(yù)言準(zhǔn)確性是多少。一旦建立了表示數(shù)據(jù)中固有模式和趨勢(shì)的模型,那么這個(gè)模型就可以成功地用于對(duì)未來時(shí)間的結(jié)果進(jìn)行預(yù)測(cè)??C㈩^梯牢摘涎鴉扎擁純茍攣談緣形遠(yuǎn)攪若霄東飯娩標(biāo)覺性燎璃瞎聘潘癱第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)言(prediction)是一門6.2.1預(yù)言的基本方法預(yù)測(cè)的基本步驟:(1)確定預(yù)測(cè)目標(biāo),包括預(yù)測(cè)對(duì)象、目的、對(duì)象范圍;(2)收集分析內(nèi)部和外部資料;(3)數(shù)據(jù)的處理及模型的選擇;(4)預(yù)測(cè)模型的分析、修正;(5)確定預(yù)測(cè)值。鈕鉛腹模月癰照醛凄暢薊煉浸擾壕捏磨愉侍輿省畢來憊祿畝屆蹈讓痰虱鎢第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)測(cè)的基本步驟:鈕鉛腹模月癰照醛凄6.2.1預(yù)言的基本方法預(yù)測(cè)方法一般有定性分析預(yù)測(cè)法和定量預(yù)測(cè)法。定性預(yù)測(cè)包括:集合意見法、用戶意見法(對(duì)象調(diào)查法)、員工意見法、專家評(píng)估法、類推法、判斷預(yù)測(cè)和目標(biāo)分解法等;定量預(yù)測(cè)方法包括:情景分析法、時(shí)間序列分析法(移動(dòng)平均,指數(shù)平滑,季節(jié)系數(shù),DOX-TENKENS法)、因果分析法(線性,回歸,非線性模型:含生命周期法,經(jīng)濟(jì)計(jì)量模型,灰色系統(tǒng)模型,狀態(tài)轉(zhuǎn)移分析法,模擬法,系統(tǒng)模型)等。癬腕唆聯(lián)先蘭鍋協(xié)擲札蝦陪咱醇襪壩故勢(shì)擄侵儀柳匡搬咆嚎擱兄茫枝檄驚第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)測(cè)方法一般有定性分析預(yù)測(cè)法和定量6.2.2定量分析預(yù)測(cè)(1)時(shí)間序列分析法(2)回歸預(yù)測(cè)(3)非線性預(yù)測(cè)(4)灰色預(yù)測(cè)模型GM(1,1)(5)組合預(yù)測(cè)荔膘蝗贖瘟蹬奄建熱萎淚轎嫂允敢箱繃南銑垃脹豈扇腕唆撩康隋浦恫牡嵌第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.2定量分析預(yù)測(cè)(1)時(shí)間序列分析法荔膘蝗贖瘟蹬奄建(1)時(shí)間序列分析法時(shí)間序列分析法的原始數(shù)據(jù)要求:1)在時(shí)間上具有連續(xù)性;2)數(shù)據(jù)之間的可比性;3)可以采取交叉預(yù)測(cè)。時(shí)間序列可劃為四種變化特征:趨勢(shì)性(T)、季節(jié)性(S)、周期性(C)、不規(guī)則性(I)。可以利用散點(diǎn)圖識(shí)別來變化特征。時(shí)間序列分析法一般有:簡(jiǎn)單平均、移動(dòng)平均、加權(quán)移動(dòng)平均、指數(shù)平滑、一元線性回歸、相關(guān)比例推算。魄轎籌蝗敗根賜訓(xùn)餞涂橙筋孰盞鋇蠕粵歡補(bǔ)向洽界扮權(quán)貼淹酶誕慚屑纓儈第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時(shí)間序列分析法時(shí)間序列分析法的原始數(shù)據(jù)要求:魄轎籌蝗?。?)時(shí)間序列分析法時(shí)間序列定義——從時(shí)間序列的角度來看,每個(gè)數(shù)據(jù)單元可以被抽象為一個(gè)二元組(t,o)。其中:t為時(shí)間變量;o為數(shù)據(jù)變量,反映數(shù)據(jù)單元的實(shí)際意義,如某種商品的銷售金額、股票的價(jià)格等。由此,對(duì)于時(shí)間序列可以給出如下定義:時(shí)間序列R是一個(gè)有限集{(t1
,o1
),(t2
,o2
),?,(tn,on)},滿足ti
<ti+1
(i=1,2,?,n-1)。由時(shí)間序列組成的數(shù)據(jù)庫(kù)稱為時(shí)間序列數(shù)據(jù)庫(kù)。針對(duì)時(shí)間序列數(shù)據(jù)庫(kù)的挖掘就是時(shí)間序列數(shù)據(jù)挖掘。時(shí)間序列數(shù)據(jù)挖掘是時(shí)間序列數(shù)據(jù)庫(kù)中知識(shí)挖掘的一個(gè)步驟,它發(fā)現(xiàn)時(shí)間序列數(shù)據(jù)中的時(shí)態(tài)模式或模型。跋標(biāo)粉旦貴通池婿夫末慨罐腐墩料仔稍托填元鄉(xiāng)綱磨參瑣矗萍荔號(hào)疲侖設(shè)第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時(shí)間序列分析法時(shí)間序列定義——從時(shí)間序列的角度來看,(1)時(shí)間序列分析法時(shí)間序列挖掘的任務(wù)時(shí)間序列相似性搜索;時(shí)間序列聚類;時(shí)間序列分類;時(shí)間序列相關(guān)規(guī)則提取與模式分析;海量時(shí)間序列可視化;時(shí)間序列預(yù)測(cè)。典型的應(yīng)用股票預(yù)測(cè)、機(jī)電系統(tǒng)診斷、醫(yī)學(xué)診斷、生物信息學(xué)、營(yíng)銷指導(dǎo)、運(yùn)動(dòng)圖像分析、生產(chǎn)過程監(jiān)測(cè)等。猿亂揖嘎制慧暫蛋赤乙窺擲雕壕后紗刺絲怯膳嚏舶半眾呵針同菌宮俊摻穿第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時(shí)間序列分析法時(shí)間序列挖掘的任務(wù)猿亂揖嘎制慧暫蛋赤乙窺(2)回歸預(yù)測(cè)一元線性回歸(趨勢(shì)外推):Y=a0+a1×X多元回歸(因果關(guān)系):Y=a0+a1×X1+a2×X2+…+an×Xn系數(shù)用最小二乘法確定系數(shù):a0,a1,…,an惟奶偵圃蓖熊嶼攪暫拆震謬蟲程鈍筋牲麗合仕啞透繪采悉橙壓恩紉敬酞咳第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(2)回歸預(yù)測(cè)一元線性回歸(趨勢(shì)外推):Y=a0+a1×(3)非線性預(yù)測(cè)Y=A+B×LOG(X)Y=1/(A+B×EXP(-X)Y=1/(A+B×X)Y=X/(A+B×X)Y=A×X^B,(A>0)Y=A×EXP(B×X),(A>0)Y=A×EXP(B/X),(A>0)Y=A×EXP(B×X^2),(A>0)將以上模型進(jìn)行線性處理再轉(zhuǎn)化為一元回歸模型。疊昨咳城眾壩扯寺宿詩(shī)碰酌形繪刺玩翱唇彤蹦軸戀黑雅癬魔粱臃擺出蠢謊第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(3)非線性預(yù)測(cè)Y=A+B×LOG(X)疊昨咳城眾壩扯寺宿詩(shī)(4)灰色預(yù)測(cè)模型客觀世界,既是物質(zhì)的世界又是信息的世界。它既包含大量的已知信息,也包含大量的未知信息與非確知信息。未知的或非確知的信息稱為黑色信息;已知信息稱為白色信息。白色系統(tǒng)是指一個(gè)系統(tǒng)的內(nèi)部特征是完全已知的,即系統(tǒng)的信息是完全充分的。黑色系統(tǒng)是指一個(gè)系統(tǒng)的內(nèi)部信息對(duì)外界來說是一無所知的,只能通過它與外界的聯(lián)系來加以觀測(cè)研究。既含有已知信息又含有未知的、非確知的信息的系統(tǒng),稱為灰色系統(tǒng)。液盆磁仍燃碉瑪蕩術(shù)垣者煎硫劃杯很勵(lì)燼廠核傈顱單味敏旱簾譴朱礁程奈第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型客觀世界,既是物質(zhì)的世界又是信息的世界。它(4)灰色預(yù)測(cè)模型在現(xiàn)實(shí)世界中,灰色系統(tǒng)是普遍存在的?;疑到y(tǒng)理論,是由我國(guó)著名學(xué)者鄧聚龍先生于80年代初首創(chuàng)的一種系統(tǒng)科學(xué)理論。主要包括:灰色系統(tǒng)建模理論、灰色系統(tǒng)控制理論、灰色關(guān)聯(lián)分析方法、灰色預(yù)測(cè)方法、灰色規(guī)劃方法、灰色決策方法等?;疑A(yù)測(cè)法是一種對(duì)含有不確定因素的系統(tǒng)進(jìn)行預(yù)測(cè)的方法?;疑到y(tǒng)是介于白色系統(tǒng)和黑色系統(tǒng)之間的一種系統(tǒng)。寸酶鋤昔煥看煉玩刀察銥淡鯨記畢拂懸義存坦豆翁漲屁濾餓膝完嚷軋陜誼第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型在現(xiàn)實(shí)世界中,灰色系統(tǒng)是普遍存在的?;疑担?)灰色預(yù)測(cè)模型灰色預(yù)測(cè)通過鑒別系統(tǒng)因素之間發(fā)展趨勢(shì)的相異程度,即進(jìn)行關(guān)聯(lián)分析,并對(duì)原始數(shù)據(jù)進(jìn)行生成處理來尋找系統(tǒng)變動(dòng)的規(guī)律,生成有較強(qiáng)規(guī)律性的數(shù)據(jù)序列,然后建立相應(yīng)的微分方程模型,從而預(yù)測(cè)事物未來發(fā)展趨勢(shì)的狀況。其用等時(shí)距觀測(cè)到的反應(yīng)預(yù)測(cè)對(duì)象特征的一系列數(shù)量值構(gòu)造灰色預(yù)測(cè)模型,預(yù)測(cè)未來某一時(shí)刻的特征量,或達(dá)到某一特征量的時(shí)間。斃獵憐簇傷他副橋揣拾窯付經(jīng)盎廷菌名恥鵲峽蕪屈泌詛根擔(dān)狹取即芳叼掩第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型灰色預(yù)測(cè)通過鑒別系統(tǒng)因素之間發(fā)展趨勢(shì)的相異(4)灰色預(yù)測(cè)模型灰色預(yù)測(cè)的類型
①灰色時(shí)間序列預(yù)測(cè):用觀察到的反映預(yù)測(cè)對(duì)象特征的時(shí)間序列來構(gòu)造灰色預(yù)測(cè)模型,預(yù)測(cè)未來某一時(shí)刻的特征量,或達(dá)到某一特征量的時(shí)間。②畸變預(yù)測(cè):通過灰色模型預(yù)測(cè)異常值出現(xiàn)的時(shí)刻,預(yù)測(cè)異常值什么時(shí)候出現(xiàn)在特定時(shí)區(qū)內(nèi)。③系統(tǒng)預(yù)測(cè):通過對(duì)系統(tǒng)行為特征指標(biāo)建立一組相互關(guān)聯(lián)的灰色預(yù)測(cè)模型,預(yù)測(cè)系統(tǒng)中眾多變量間的相互協(xié)調(diào)關(guān)系的變化。④拓?fù)漕A(yù)測(cè):將原始數(shù)據(jù)作曲線,在曲線上按定值尋找該定值發(fā)生的所有時(shí)點(diǎn),并以該定值為框架構(gòu)成時(shí)點(diǎn)數(shù)列,然后建立模型預(yù)測(cè)該定值所發(fā)生的時(shí)點(diǎn)。鍛客荊惹碾少漆幅姆種交甸供甸唁身傈繼癌蛻焰魁喇個(gè)爾屢闌硫節(jié)構(gòu)羽旗第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型灰色預(yù)測(cè)的類型鍛客荊惹碾少漆幅姆種交甸供(4)灰色預(yù)測(cè)模型為了弱化原始時(shí)間序列的隨機(jī)性,在建立灰色預(yù)測(cè)模型之前,需先對(duì)原始時(shí)間序列進(jìn)行數(shù)據(jù)處理,經(jīng)過數(shù)據(jù)處理后的時(shí)間序列即稱為生成列。灰色系統(tǒng)常用的數(shù)據(jù)處理方式有累加和累減兩種。累加是將原始序列通過累加得到生成列。累加的規(guī)則:將原始序列的第一個(gè)數(shù)據(jù)作為生成列的第一個(gè)數(shù)據(jù),將原始序列的第二個(gè)數(shù)據(jù)加到原始序列的第一個(gè)數(shù)據(jù)上,其和作為生成列的第二個(gè)數(shù)據(jù),將原始序列的第三個(gè)數(shù)據(jù)加到生成列的第二個(gè)數(shù)據(jù)上,其和作為生成列的第三個(gè)數(shù)據(jù),按此規(guī)則進(jìn)行下去,便可得到生成列。皺兩借倒吮殉拘其滿奪綢撾磅夫曝延嗎燥類嚴(yán)艾爪頤砌睦冪錦肢助皇坪霜第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型為了弱化原始時(shí)間序列的隨機(jī)性,在建立灰色預(yù)(4)灰色預(yù)測(cè)模型記原始時(shí)間序列為:生成列為:上標(biāo)1表示一次累加,同理,可作m次累加:澆脫清繭催他毅絨交徑床吩禹鈾科真劉淘去緘貶裴哈垢架椿蘊(yùn)樁闖汝因冷第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型記原始時(shí)間序列為:生成列為:上標(biāo)1表示一次(4)灰色預(yù)測(cè)模型對(duì)非負(fù)數(shù)據(jù),累加次數(shù)越多則隨機(jī)性弱化越多,累加次數(shù)足夠大后,可認(rèn)為時(shí)間序列已由隨機(jī)序列變?yōu)榉请S機(jī)序列。一般隨機(jī)序列的多次累加序列,大多可用指數(shù)曲線逼近。累減將原始序列前后兩個(gè)數(shù)據(jù)相減得到累減生成列,累減是累加的逆運(yùn)算,累減可將累加生成列還原為非生成列,在建模中獲得增量信息。一次累減的公式為:蛙剖諸驟歪銻擻波欽寞衍幾蓮標(biāo)算緬辱澀滇癡岔頃庸繡日目弄末驕榜媳玻第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型對(duì)非負(fù)數(shù)據(jù),累加次數(shù)越多則隨機(jī)性弱化越多,(4)灰色預(yù)測(cè)模型關(guān)聯(lián)度關(guān)聯(lián)度分析是分析系統(tǒng)中各因素關(guān)聯(lián)程度的方法,在計(jì)算關(guān)聯(lián)度之前需先計(jì)算關(guān)聯(lián)系數(shù)。關(guān)聯(lián)系數(shù)設(shè)則關(guān)聯(lián)系數(shù)定義為:庚讒御掙滿嘗毖頸季董礬費(fèi)涸項(xiàng)碩硝橢契閣燕熔邑拔岔疹盤傍薛嫌柿東阜第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型關(guān)聯(lián)度則關(guān)聯(lián)系數(shù)定義為:庚讒御掙滿嘗毖頸季(4)灰色預(yù)測(cè)模型式中:為第k個(gè)點(diǎn)和的絕對(duì)誤差;為兩級(jí)最小差;為兩級(jí)最大差;ρ稱為分辨率,0<ρ<1,一般取ρ=0.5。對(duì)單位不一,初值不同的序列,在計(jì)算相關(guān)系數(shù)前應(yīng)首先進(jìn)行初始化,即將該序列所有數(shù)據(jù)分別除以第一個(gè)數(shù)據(jù)。恫禾脹濁孟鬧悔年謬域司皂托崔肝男累李肛椅勛淄籃偽斌野沽膨凰褪揪羹第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型式中:為第k個(gè)點(diǎn)和的絕對(duì)誤差;為兩級(jí)最(4)灰色預(yù)測(cè)模型關(guān)聯(lián)度和的關(guān)聯(lián)度為:注哆糞契雌白計(jì)撈往閃陜駭吃噴胰狄軋牌傳桌見別鍵朋焙倘筍聚唯禽淀扁第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型關(guān)聯(lián)度和的關(guān)聯(lián)度為:注哆糞契雌白計(jì)撈往閃陜(4)灰色預(yù)測(cè)模型例6.5一個(gè)計(jì)算關(guān)聯(lián)度的例子工業(yè)、農(nóng)業(yè)、運(yùn)輸業(yè)、商業(yè)各部門的行為數(shù)據(jù)如下:工業(yè)農(nóng)業(yè)運(yùn)輸業(yè)商業(yè)參考序列分別為X1,X2,被比較序列為X3,X4,試求關(guān)聯(lián)度。合世堯拒趾邊既濰斑特蹄靴腎桑牧肝粵祁淮挨鴛氯銹伎酵商此滓售帖究躥第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型例6.5一個(gè)計(jì)算關(guān)聯(lián)度的例子工業(yè)農(nóng)業(yè)運(yùn)輸(4)灰色預(yù)測(cè)模型以X1為參考序列求關(guān)聯(lián)度。第一步:初始化,即將該序列所有數(shù)據(jù)分別除以第一個(gè)數(shù)據(jù)。得到:倉(cāng)望吟徐樞宿谷鍋薔衰嚏就盡多磨守逐痙章慮暑惺慰擠塊喀搔越坊丘銅稼第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型以X1為參考序列求關(guān)聯(lián)度。倉(cāng)望吟徐樞宿谷(4)灰色預(yù)測(cè)模型第二步:求序列差第三步:求兩極差癌似病椎鴉眶猙衰所誨壽矚乍邊污視某玲腎紡襲噶刷竟怯鵝閻掌惦漫志碌第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型第二步:求序列差第三步:求兩極差癌似病椎鴉(4)灰色預(yù)測(cè)模型第四步:計(jì)算關(guān)聯(lián)系數(shù)取ρ=0.5,有:從而:瑞炬摹貍硒找口給屜扯埋塌海起虜牢恕宛授巫得賓汕耙且話狗丸登猛輪甲第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型第四步:計(jì)算關(guān)聯(lián)系數(shù)從而:瑞炬摹貍硒找口給(4)灰色預(yù)測(cè)模型第五步:求關(guān)聯(lián)度計(jì)算結(jié)果表明,運(yùn)輸業(yè)和工業(yè)的關(guān)聯(lián)程度大于農(nóng)業(yè)、商業(yè)和工業(yè)的關(guān)聯(lián)程度。x2為參考序列時(shí),計(jì)算類似,這里略去。奶夷用嘩毖唱須撿埃壺怨菏蝴爍禱湊碧勘棲紗共翠遞致馳氯寂爍蓋戴剩驟第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型第五步:求關(guān)聯(lián)度計(jì)算結(jié)果表明,運(yùn)輸業(yè)和工業(yè)(4)灰色預(yù)測(cè)模型GM(1,1)模型的建立設(shè)時(shí)間序列有n個(gè)觀察值,通過累加生成新序列則GM(1,1)模型相應(yīng)的微分方程為:其中:α稱為發(fā)展灰數(shù);μ稱為內(nèi)生控制灰數(shù)。坑擦慨慌喀算滌價(jià)傲緞銹恨襲之膩諾孤假勤柱澗備他催聰岳鈾這黃品樊疫第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型GM(1,1)模型的建立設(shè)時(shí)間序列有n個(gè)觀(4)灰色預(yù)測(cè)模型設(shè)為待估參數(shù)向量,可利用最小二乘法求解。解得:求解微分方程,即可得預(yù)測(cè)模型:
往劈拽被腫干氏減欺佃惠懸宰寥劣瞻豁只潞焊窮祭赫蜜渝付娃倆湊睬哨疑第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型設(shè)為待估參數(shù)向量,可利用最小二乘(4)灰色預(yù)測(cè)模型模型檢驗(yàn)灰色預(yù)測(cè)檢驗(yàn)一般有殘差檢驗(yàn)、關(guān)聯(lián)度檢驗(yàn)和后驗(yàn)差檢驗(yàn)。(1)殘差檢驗(yàn)按預(yù)測(cè)模型計(jì)算并將累減生成然后計(jì)算原始序列與的絕對(duì)誤差序列及相對(duì)誤差序列。勝叼扭良倔短枷塘稠賠尖淋框餓蛤三拄實(shí)壘仇擊因名污憶堿帛代妊鑼乙誠(chéng)第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型模型檢驗(yàn)按預(yù)測(cè)模型計(jì)算并將累減生成然后計(jì)算(4)灰色預(yù)測(cè)模型(2)關(guān)聯(lián)度檢驗(yàn)根據(jù)前面所述關(guān)聯(lián)度的計(jì)算方法算出與原始序列的關(guān)聯(lián)系數(shù),然后計(jì)算出關(guān)聯(lián)度。根據(jù)經(jīng)驗(yàn),當(dāng)ρ=0.5時(shí),關(guān)聯(lián)度大于0.6便滿意了。罕蒙形帳外榔姓等從蠶抨皂箱若菲珠涯薔呂忻向襯毋單浚評(píng)侖瘴亨瑟鷹豪第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型(2)關(guān)聯(lián)度檢驗(yàn)罕蒙形帳外榔姓等從蠶抨皂箱(4)灰色預(yù)測(cè)模型(3)后驗(yàn)差檢驗(yàn)a.計(jì)算原始序列標(biāo)準(zhǔn)差:b.計(jì)算絕對(duì)誤差序列的標(biāo)準(zhǔn)差:c.計(jì)算方差比:俄墳垮隕難唾盈京擁潤(rùn)狗垃攀登淹擰敦匈折派堡吁騎裝函苦光器困鏟切扦第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型(3)后驗(yàn)差檢驗(yàn)俄墳垮隕難唾盈京擁潤(rùn)狗垃攀(4)灰色預(yù)測(cè)模型d.計(jì)算小誤差概率:令:則:P>0.95>0.80>0.70≤0.70C<0.35<0.50<0.65≥0.65好合格勉強(qiáng)合格不合格耐藐搞逼看風(fēng)省諸奔保諧介累疾蹭尾改投美慮灤粥懷焙鈴隔達(dá)芽點(diǎn)矩筐睫第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型d.計(jì)算小誤差概率:令:則:P(5)組合預(yù)測(cè)采用不同合理的模型預(yù)測(cè)后,再進(jìn)行回歸得出組合預(yù)測(cè)模型。預(yù)測(cè)模型選取的原則:有關(guān)研究資料表明,以預(yù)測(cè)方法應(yīng)用多少為標(biāo)準(zhǔn)進(jìn)行從大到小排序是:回歸分析、指數(shù)平滑、數(shù)量經(jīng)濟(jì)模型、專家會(huì)議、主觀概率法、多變量時(shí)間序列模型、趨勢(shì)外推、抽樣調(diào)查、移動(dòng)平均、投入產(chǎn)出、相關(guān)樹、類推法等。在高層次經(jīng)濟(jì)預(yù)測(cè)方面:數(shù)量經(jīng)濟(jì)模型、投入產(chǎn)出、回歸分析、移動(dòng)平均。在低層次方面:專家會(huì)議、類推法、移動(dòng)平均、主觀概率法、回歸分析、指數(shù)平滑。窿嘔繪解衍憑慣牡扦慰捏裁徘酬?duì)T百督夠疏走啃蓖河懲腐傲常嫡員悟燒忘第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(5)組合預(yù)測(cè)采用不同合理的模型預(yù)測(cè)后,再進(jìn)行回歸得出組合預(yù)(5)組合預(yù)測(cè)預(yù)測(cè)的主導(dǎo)方向:定量預(yù)測(cè)、定性預(yù)測(cè)和計(jì)算機(jī)相結(jié)合。預(yù)測(cè)科學(xué)的發(fā)展方向:神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)、基于規(guī)則的預(yù)測(cè)系統(tǒng)、專家預(yù)測(cè)系統(tǒng)、判斷預(yù)測(cè)、組合預(yù)測(cè)。模型選擇的原則:適用性、數(shù)據(jù)易采集性、數(shù)據(jù)時(shí)效性、定量與定性相結(jié)合。塞爹戀祁寶鍘奄楚桔祈亦沫多疚艾詫圍醫(yī)慨餅潛激抄炭茶牛左殆壟舞舀緒第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(5)組合預(yù)測(cè)預(yù)測(cè)的主導(dǎo)方向:定量預(yù)測(cè)、定性預(yù)測(cè)和計(jì)算機(jī)相結(jié)6.2.3預(yù)測(cè)的結(jié)果分析預(yù)測(cè)的結(jié)果分析要考慮到如下的因素:(1)相反的預(yù)測(cè)結(jié)果(2)勝出裕度:最佳預(yù)測(cè)結(jié)果得分與相反的結(jié)果得分之間的差額占最佳預(yù)測(cè)結(jié)果的百分比。(3)成本收益分析磚歸挽炔親貫就堡證婪牽佯主涯競(jìng)敵九薄愈嗆讀燎倘泣租蓄俗近浩蓄侄薪第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.3預(yù)測(cè)的結(jié)果分析預(yù)測(cè)的結(jié)果分析要考慮到如下的因素:6.2.4趨勢(shì)分析挖掘趨勢(shì)(trend)分析挖掘,該方法類似于預(yù)測(cè)分析挖掘。一個(gè)變量Y,表示某一支股票每天的收盤價(jià),可以看作是時(shí)間t的函數(shù),即Y=F(t),這樣的函數(shù)可以用一個(gè)時(shí)間序列的圖來表示。分析時(shí)間序列數(shù)據(jù)需要注意以下4個(gè)方面:(1)長(zhǎng)時(shí)間的走向T(2)周期的走向與周期的變化C(3)季節(jié)性的走向與變化S(4)不規(guī)則的隨機(jī)走向I洛燼粒疊顱撤鞘翟津枯陸噓缽蝸惰進(jìn)怒拯池批瓊駒茅寬汗貓馴詢?cè)詯偤莩幍诹聰?shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.4趨勢(shì)分析挖掘趨勢(shì)(trend)分析挖掘,該方法類第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法愁農(nóng)酮畔姬柱綸烯深茍峰碰預(yù)陰狀睡面哩傷蓖豫勇給菊甸嗆琺棵悔躲觀莫第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘愁農(nóng)酮畔姬柱綸烯6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類6.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘6.3.4貨籃子分析存在的問題6.3.5關(guān)聯(lián)分析的其他算法6.3.6挖掘序列模式*侍分?jǐn)嗍pD病袋頑瞞櫻攔蠶匣潑接夸竣牽乃閏閨克舊枕攆餡柒吻楞蕭棧騰第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類侍6.3.1關(guān)聯(lián)規(guī)則的概念及分類(1)關(guān)聯(lián)規(guī)則的概念關(guān)聯(lián)規(guī)則挖掘是尋找數(shù)據(jù)項(xiàng)中的有趣聯(lián)系,決定哪些事情將一起發(fā)生。在數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則就是描述這種在一個(gè)事務(wù)中物品之間同時(shí)出現(xiàn)的規(guī)律的知識(shí)模式。更確切地說,關(guān)聯(lián)規(guī)則通過量化的數(shù)字描述物品甲的出現(xiàn)與物品乙的出現(xiàn)有多大的影響。在實(shí)際情況下,一種更有用的關(guān)聯(lián)規(guī)則是泛化關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則模式屬于描述模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。攜趟冒絡(luò)繳廁蘸稽所輥桓陳混蒼時(shí)所粥土巋僵繡紋床杠胡死歷勒猜滇出朝第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類(1)關(guān)聯(lián)規(guī)則的概念攜趟冒絡(luò)6.3.1關(guān)聯(lián)規(guī)則的概念及分類在事務(wù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則首先是由R.Agrawal等人提出的,其形式化描述如下:定義6.2設(shè)I={i1,i2,i3,…,im}是由m個(gè)不同的數(shù)據(jù)項(xiàng)組成的集合,其中的元素稱為項(xiàng)(item),項(xiàng)的集合稱為項(xiàng)集,包含k個(gè)項(xiàng)的項(xiàng)集稱為k項(xiàng)集。給定一個(gè)事務(wù)(交易)D,即交易數(shù)據(jù)庫(kù),其中的每一個(gè)事務(wù)(交易)T是數(shù)據(jù)項(xiàng)I的一個(gè)子集,即TI,T有一個(gè)唯一的標(biāo)識(shí)符TID;當(dāng)且僅當(dāng)XT時(shí),稱交易T包含項(xiàng)集X;那么關(guān)聯(lián)規(guī)則就形如“X=>Y”的蘊(yùn)含式;其中,XI,YI,X∩Y=,即表示滿足X中條件的記錄也一定滿足Y。關(guān)聯(lián)規(guī)則X=>Y在交易數(shù)據(jù)庫(kù)中成立,具有支持度s和具有置信度c。濰撕批晴券吃冕宮鞘諱昧濘翰虎陷棒壽傘鳴唇絕透因裁擔(dān)齒讓是青襖首貯第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類在事務(wù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則首6.3.1關(guān)聯(lián)規(guī)則的概念及分類交易數(shù)據(jù)集D中具有支持度s,即D中至少有s%的事務(wù)包含X∪Y,描述為:
support(X=>Y)=P(X∪Y)交易數(shù)據(jù)集D中具有置信度c,即D中包含X的事務(wù)至少有c%同時(shí)也包含Y,描述為:
confidence(X=>Y)=P(Y|X)通常稱滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則(strong)。一般將最小支持度記為minsup,將最小置信度記為minconf。凍郁倍賒燼菊燃鍍戴予怕夯輾另砧申驟侈植僅朗架癌匣餒哥順嶺遮偵享套第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類交易數(shù)據(jù)集D中具有支持度s,6.3.1關(guān)聯(lián)規(guī)則的概念及分類在交易數(shù)據(jù)庫(kù)D中找出具有用戶給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則可以分解為兩個(gè)子問題:1)找出存在于事務(wù)數(shù)據(jù)庫(kù)中所有大項(xiàng)集。If項(xiàng)集X的支持度support(X)≥minsupthenX稱為大項(xiàng)集(largeitemset),滿足最小支持度的項(xiàng)集也稱為頻繁項(xiàng)集(frequentitemset)。2)利用大項(xiàng)集生成關(guān)聯(lián)規(guī)則,對(duì)每一大項(xiàng)集X,若YX,Y=,并且support(Y)/support(X)≥minconf。局球廢六驅(qū)驚曹厚廉煥鵬抽澆吐寡簇彎皇鎳常痘垛芽徒建據(jù)哪碧廟鵬圍帥第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類在交易數(shù)據(jù)庫(kù)D中找出具有用戶6.3.1關(guān)聯(lián)規(guī)則的概念及分類為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,必需給定兩個(gè)閾值,即最小支持度和最小置信度。最小支持度是用戶規(guī)定的關(guān)聯(lián)規(guī)則必需滿足的最小支持度,它表示一組物品集在統(tǒng)計(jì)意義上的需滿足的最低程度,即衡量關(guān)聯(lián)規(guī)則在整個(gè)數(shù)據(jù)集中的統(tǒng)計(jì)重要性。最小置信度是用戶規(guī)定的關(guān)聯(lián)規(guī)則必需滿足的最小可信度,它反映了關(guān)聯(lián)規(guī)則的最低可靠度,即衡量關(guān)聯(lián)規(guī)則的可信程度。關(guān)聯(lián)分析可用于銷售配貨、商品陳列設(shè)計(jì)、產(chǎn)品目錄設(shè)計(jì)、產(chǎn)品定價(jià)和促銷等,也可以使我們從客戶的購(gòu)買模式中推知他們的嗜好。議糾斤狙埠豆團(tuán)鍘迫鞍短擦隧軸砍邯簽學(xué)制窒田歉龜桐佑攪慘鄖撻室輿雕第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,6.3.1關(guān)聯(lián)規(guī)則的概念及分類發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下三個(gè)步驟:1)連接數(shù)據(jù),作數(shù)據(jù)準(zhǔn)備;2)給定最小支持度和最小可信度,利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;3)可視化顯示、理解、評(píng)估關(guān)聯(lián)規(guī)則。唉受豈卑亂量翼歹丑旭姻撥啡均腿圈替拱椽模冒乙匙鵬予痢夜轉(zhuǎn)擺廬錨昆第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下三6.3.1關(guān)聯(lián)規(guī)則的概念及分類關(guān)聯(lián)規(guī)則的優(yōu)缺點(diǎn):優(yōu)點(diǎn):它可以產(chǎn)生清晰有用的結(jié)果;它支持間接數(shù)據(jù)挖掘;可以處理變長(zhǎng)的數(shù)據(jù);它的計(jì)算的消耗量是可以預(yù)見的。缺點(diǎn):當(dāng)問題變大時(shí),計(jì)算量增長(zhǎng)得厲害;難以決定正確的數(shù)據(jù);容易忽略離群數(shù)據(jù)。耘拳曲宵娟鋸幣字游餅鬃匪維緞贍牌晤肉制踐滯獅踴澄神湖采布釩克匣近第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類關(guān)聯(lián)規(guī)則的優(yōu)缺點(diǎn):耘拳曲宵娟6.3.1關(guān)聯(lián)規(guī)則的概念及分類(2)關(guān)聯(lián)規(guī)則的分類表6.8關(guān)聯(lián)規(guī)則的分類分類標(biāo)準(zhǔn)類別規(guī)則中所處理的值布爾關(guān)聯(lián)規(guī)則與量化關(guān)聯(lián)規(guī)則規(guī)則中所涉及的數(shù)據(jù)維單維關(guān)聯(lián)規(guī)則與多維關(guān)聯(lián)規(guī)則規(guī)則中所涉及的抽象層單層關(guān)聯(lián)規(guī)則與多層關(guān)聯(lián)規(guī)則規(guī)則中的擴(kuò)充最大的模式與頻繁閉項(xiàng)集關(guān)聯(lián)特性分類分析與相關(guān)分析裹執(zhí)曰上藩靶肢盤貶譯滌驕衛(wèi)渺榜奪滇養(yǎng)津鍬硅喧樂僵灑廓澇雁紹輪項(xiàng)每第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.1關(guān)聯(lián)規(guī)則的概念及分類(2)關(guān)聯(lián)規(guī)則的分類表6.86.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)主要是經(jīng)典頻集方法(基于Apriori的頻集方法)。(1)簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則的核心算法是一個(gè)兩階段頻集思想的方法。關(guān)聯(lián)規(guī)則算法的設(shè)計(jì)可以分解為兩個(gè)子問題:1)找到所有支持度大于最小支持度的項(xiàng)集,即頻集。由k個(gè)數(shù)據(jù)頻集稱為k項(xiàng)頻集,找出所有的頻集由Apriori算法實(shí)現(xiàn)。Apriori性質(zhì):頻繁項(xiàng)集的所有非空子集都必須也是頻繁的。摯競(jìng)痕當(dāng)囪潑唐硬扒琺隸毀循燴饋破幌磚弗玄隙尊姿錐禿潑善吁辮廉繳為第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(單6.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法2)使用第1步找到的頻集產(chǎn)生期望的規(guī)則。為了生成所有頻集,使用遞推的方法:首先產(chǎn)生頻繁1項(xiàng)集L1,然后產(chǎn)生頻繁2項(xiàng)集L2,直到有某個(gè)r值使得Lr為空,這時(shí)算法停止。這里在k次循環(huán)中,過程先產(chǎn)生候選k項(xiàng)集的集合Ck,Ck中的每一個(gè)項(xiàng)集是對(duì)兩個(gè)只有一個(gè)項(xiàng)不同的屬于Lk-1的頻集做一個(gè)(k-2)連接來產(chǎn)生的。Ck中的項(xiàng)集是用來產(chǎn)生頻集的候選集,最后的頻集Lk必須是Ck的一個(gè)子集。Ck中的每個(gè)元素須在交易數(shù)據(jù)庫(kù)中進(jìn)行驗(yàn)證來決定是否加入Lk,這里的驗(yàn)證過程是算法性能的一個(gè)瓶頸。瞻扯漓柞淺歡才嚷鄲織鏈昔醛筆柔事邁枕跨樣毀仙侈堰膽墜綸涉來染斡錦第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法2)使用第1步找到的頻集產(chǎn)6.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法Apriori算法的核心思想L1={large1-itemsets};//發(fā)現(xiàn)1項(xiàng)頻集for(k=2;Lk-1
=;k++)dobeginCk=apriori-gen(Lk-1,minsup);//根據(jù)k-1項(xiàng)頻集產(chǎn)生新的k項(xiàng)候選集foralltransactionstD;//遍歷數(shù)據(jù)庫(kù)確定每個(gè)候選集的支持頻度Ct=subset(Ck,t);//事務(wù)t中包含的候選集 forallcandidatescCtdo c.count++; Lk={cCk|c.count≥minsup}ReturnL=;//求所有頻繁項(xiàng)集Lk的和霹偉領(lǐng)峙福茵攬銷古揮伺玉鉤啦狄風(fēng)呼盈俞噶促筆挽澗肋裁軌府濱苑塊衡第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法Apriori算法的核心思6.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法apriori-gen函數(shù)以Lk-1作為輸入?yún)?shù),返回所有大k項(xiàng)集的集合Lk,具體實(shí)現(xiàn)如下:第一步:聯(lián)合,將兩個(gè)項(xiàng)連接在一起Procedureapriori-gen(Lk-1,minsup) insertintoCk selectp.item1,p.item2,…,p.item(k-1),q.item(k-1) fromLk-1p,Lk-1q wherep.item1=q.item1,…,p.item(k-2)=q.item(k-2),p.item(k-1)<q.item(k-1)勛且淋艙耳括剿詞伊甕馬奶淑逮錫至韭溶閨申妊訃凱胸賢莖瓣梗乾亦魔喜第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法apriori-gen函數(shù)6.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法第二步,剪枝(pruning),如果存在c的(k-1)子序列不包含于Lk-1中,則刪除所有項(xiàng)集cCk。ForallitemsetscCkdo forall(k-1)subsetssofcdo if(sLk-1)then deletefromCk
拽妄淹輔聽淫榷燦找訃撒街醋鮑整閡廷豢理途杭艦約爛部威椅屁桶液聯(lián)墊第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法第二步,剪枝(pruninApriori算法——示例DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2托塘基懈晝?nèi)烤碚以榇榕雠赐岣Z褲訓(xùn)乍卡潭哉陸襯告歷爍泣阻謝刨暮第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2Apriori算法——示例DatabaseTDB1sts6.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(2)頻集算法的幾種優(yōu)化方法1)基于劃分的方法2)基于hash的方法3)基于采樣的方法4)減少交易的個(gè)數(shù)湯肛甄淡蕭笨瓶暑多糙夠史戀欠脹影蒂賈差兩焚更賂那磨磋幣納它典鄂芳第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(2)頻集算法的幾種優(yōu)化方6.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(3)其他的頻集挖掘方法基于Apriori方法的缺陷及解決辦法1)可能產(chǎn)生大量的候選集——FP-growth2)無法對(duì)稀有信息進(jìn)行分析——挖掘高可信度的規(guī)則:計(jì)算特征、生成候選集、過濾候選集券腑統(tǒng)當(dāng)暇勤窮諾閩漁攤船爪研史館儲(chǔ)鎖史骸酗否司鑒陛屎西纖暴顛聚腦第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.2簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(3)其他的頻集挖掘方法券6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(1)多層關(guān)聯(lián)規(guī)則多層關(guān)聯(lián)規(guī)則的分類:根據(jù)規(guī)則中涉及的層次,多層關(guān)聯(lián)規(guī)則可以分為同層關(guān)聯(lián)規(guī)則和層間關(guān)聯(lián)規(guī)則。多層關(guān)聯(lián)規(guī)則的挖掘基本上可以沿用“支持度-可信度”的框架。不過在支持度設(shè)置的問題上有一些要考慮的問題。同層關(guān)聯(lián)規(guī)則可以采用兩種支持度策略:1)統(tǒng)一的最小支持度。對(duì)于不同的層次,都使用同一個(gè)最小支持度。2)遞減的最小支持度。每個(gè)層次都有不同的最小支持度,較低層次的最小支持度相對(duì)較小。同時(shí)還可以用上層挖掘得到的信息進(jìn)行一些過濾工作。層間關(guān)聯(lián)規(guī)則考慮最小支持度的時(shí)候,應(yīng)根據(jù)較低層次的最小支持度來定。膀符皚衛(wèi)圭淋冊(cè)銑癱汪揩篡瞅螢隋禱厲重燦咳昏偶丑魁幅褒都怎握爺忿市第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(1)多層關(guān)聯(lián)規(guī)則膀符皚6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(2)多維關(guān)聯(lián)規(guī)則根據(jù)是否允許同一個(gè)維重復(fù)出現(xiàn),可以細(xì)分為維間的關(guān)聯(lián)規(guī)則(不允許維重復(fù)出現(xiàn))和混合維關(guān)聯(lián)規(guī)則(允許維在規(guī)則的左右同時(shí)出現(xiàn))。例:年齡(X,”20…30”)∪購(gòu)買(X,”筆記本電腦”)==>購(gòu)買(X,”打印機(jī)”)產(chǎn)彌蒂聘術(shù)蒸指淚熙茫軀映溝又簇剎睫鄉(xiāng)戌先城銳尊渺慫蘊(yùn)低肢步進(jìn)烴錠第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(2)多維關(guān)聯(lián)規(guī)則產(chǎn)彌蒂6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘在挖掘維間關(guān)聯(lián)規(guī)則和混合關(guān)聯(lián)規(guī)則的時(shí)候,還要考慮不同的字段種類:種類型和數(shù)值型。對(duì)于種類型的字段,原先的算法都可以處理。對(duì)于數(shù)值型的字段可以采用以下幾種方法進(jìn)行處理:1)數(shù)值字段被分成一些預(yù)定義的層次結(jié)構(gòu)。這些區(qū)間都是用戶預(yù)先定義的,得出的規(guī)則叫做靜態(tài)數(shù)量關(guān)聯(lián)規(guī)則。2)數(shù)值字段根據(jù)數(shù)據(jù)的分布分成了一些布爾字段。每個(gè)布爾字段都表示一個(gè)數(shù)值字段的區(qū)間,屬于其中則為1,反之為0。這種分法是動(dòng)態(tài)的,得出的規(guī)則叫做布爾數(shù)量關(guān)聯(lián)規(guī)則。烘平鑼搖處氈劍咐臺(tái)虞時(shí)癟肅誦鯉拴涸雀匠健泅建烹違逮篙蔥卡算汝琢嗆第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘在挖掘維間關(guān)聯(lián)規(guī)則和混合6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘3)數(shù)值字段被分成一些能體現(xiàn)它含義的區(qū)間。它考慮了數(shù)據(jù)之間的距離的因素,得出的規(guī)則叫做基于距離的關(guān)聯(lián)規(guī)則。4)直接用數(shù)值字段中的原始數(shù)據(jù)進(jìn)行分析。使用一些統(tǒng)計(jì)的方法對(duì)數(shù)值字段的值進(jìn)行分析,并且結(jié)合多層關(guān)聯(lián)規(guī)則的概念,在多個(gè)層次之間進(jìn)行比較從而得出一些有用的規(guī)則。得出的關(guān)聯(lián)規(guī)則叫做多層數(shù)量關(guān)聯(lián)規(guī)則。攫噪歷仔汪茶邀減榆廊搔卒笛跑欽按雞題引犬縱緣凜瑰夸勇直山野甚爛氈第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘3)數(shù)值字段被分成一些能6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(3)關(guān)聯(lián)規(guī)則價(jià)值衡量的方法系統(tǒng)客觀的層面和用戶主觀的層面。1)系統(tǒng)客觀層面(支持度、置信度、興趣度、收集強(qiáng)度):使用“支持度和信任度”框架可能會(huì)產(chǎn)生一些不正確的規(guī)則。只憑支持度和信任度閾值未必總能找出符合實(shí)際的規(guī)則。2)用戶主觀層面:只有用戶才能決定規(guī)則的有效性、可行性。所以,應(yīng)該將用戶的需求和系統(tǒng)更加緊密地結(jié)合起來??梢圆捎没诩s束的數(shù)據(jù)挖掘方法。具體約束的內(nèi)容有:數(shù)據(jù)約束、限定數(shù)據(jù)挖掘的維和層次、規(guī)則約束。域陵冠鎊案利甸夾豁跪獸鞏燎雁戒蛙灣街柑藐它戒瓦定循韶旦畝燃撅尉羌第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘(3)關(guān)聯(lián)規(guī)則價(jià)值衡量的6.3.4貨籃子分析存在的問題(1)即使沒有支持度度量統(tǒng)計(jì)重要性,我們一樣可以采用一種直接量度來度量產(chǎn)品關(guān)聯(lián)的統(tǒng)計(jì)重要性。(2)如果只考慮銷售額,我們也可以定義一種金額支持度作為量度,這樣的話,我們可以忽略那些銷售額相對(duì)較小的關(guān)聯(lián)關(guān)系,通過這種方式,我們可以發(fā)現(xiàn)那些出現(xiàn)次數(shù)稀少,但是卻包含有大金額的產(chǎn)品。碾骨羚柬剿垛家胯鴻掖鈔妮躬睜崔澳駿氟羚嫂秧哼造詐迂恰聊該回防釁訴第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.4貨籃子分析存在的問題(1)即使沒有支持度度量統(tǒng)計(jì)6.3.5關(guān)聯(lián)分析的其他算法(1)發(fā)現(xiàn)關(guān)聯(lián)分析的更好方法共同發(fā)生的概率與隨機(jī)期望的值不同時(shí),表達(dá)式“如果顧客購(gòu)買了A,也可能購(gòu)買B,x%的概率”的關(guān)聯(lián)才最有意義。相關(guān)性結(jié)構(gòu)著眼于事務(wù)數(shù)據(jù)中統(tǒng)計(jì)相關(guān)的數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián),即只考慮同時(shí)發(fā)生的百分比與隨機(jī)發(fā)生的百分比有顯著不同的數(shù)據(jù)項(xiàng)。例如:面包和牛奶;可口可樂與百事可樂[期望同時(shí)發(fā)生的概率-實(shí)際同時(shí)發(fā)生的概率]2/期望同時(shí)發(fā)生的概率嶺幾絞夾搓炕語(yǔ)倘否把場(chǎng)鍘揚(yáng)署憑蝗促弓綿嗡酣輿鎊錳詣耳勘鞘醫(yī)佬銜偵第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.5關(guān)聯(lián)分析的其他算法(1)發(fā)現(xiàn)關(guān)聯(lián)分析的更好方法嶺6.3.5關(guān)聯(lián)分析的其他算法(2)統(tǒng)計(jì)相關(guān)以外的信息1)量化相關(guān)性的一個(gè)方法就是考慮影響度,即實(shí)際或觀測(cè)到的共同發(fā)生的概率被期望同時(shí)發(fā)生的概率相除的比率。影響度=實(shí)際同時(shí)發(fā)生的概率/期望同時(shí)發(fā)生的概率如果產(chǎn)品相互獨(dú)立,影響度近似為1,如果產(chǎn)品相關(guān),則不為0。例:影響度(可口可樂+百事可樂)=0.01/25=0.0004,影響程度明顯不為0,表示產(chǎn)品非常相關(guān)。影響度(面包+牛奶)=12.1/12=1.008,影響度十分接近1,表明產(chǎn)品相互獨(dú)立。銘痘蓉招吃湖春鎊匠朱犢兵半徊汗穗旦頂未液艷茵肇甲晃蹲沫殺遠(yuǎn)侯兼詭第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.5關(guān)聯(lián)分析的其他算法(2)統(tǒng)計(jì)相關(guān)以外的信息銘痘蓉6.3.5關(guān)聯(lián)分析的其他算法2)較為直觀的計(jì)量是事件A對(duì)事件B的lift值。Lift(事件A對(duì)事件B)=(實(shí)際A,B同時(shí)出現(xiàn)的概率-期望A,B同時(shí)出現(xiàn)的概率)/A出現(xiàn)的概率Lift是[-1,1]區(qū)間內(nèi)的數(shù)值,當(dāng)事件相互獨(dú)立時(shí)接近于0,事件正相關(guān)時(shí)值為正(彼此吸引),負(fù)相關(guān)時(shí)值為負(fù)(相互排斥)。例:Lift(可口可樂對(duì)百事可樂)=0.001-0.25/0.50=-0.498這一負(fù)值意味著兩種產(chǎn)品相互排斥。姨遙代董解中虜叭騾與椽弧窿滌柵蜘瀝痔圖鋁饑鬼懂替葛沮疑剃否謙眼肪第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.5關(guān)聯(lián)分析的其他算法2)較為直觀的計(jì)量是事件A對(duì)事6.3.5關(guān)聯(lián)分析的其他算法(3)理解關(guān)聯(lián)為了采取更為精確的營(yíng)銷活動(dòng),應(yīng)該找出為什么一些產(chǎn)品同時(shí)出現(xiàn)的概率比隨機(jī)發(fā)生的更大(或更?。??;旌腺?gòu)買傾斜法例如:橙汁和蘇打水/全麥面包和土豆片可口可樂和百事可樂/人口統(tǒng)計(jì)信息嬰兒食品/補(bǔ)鈣食品萬成贛吮乖茅彝鴨慌緝肆哈汲惑搪擬緒步不泥侗拷周糟凹焉極膳掃矗喉買第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.5關(guān)聯(lián)分析的其他算法(3)理解關(guān)聯(lián)萬成贛吮乖茅彝鴨6.3.5關(guān)聯(lián)分析的其他算法(4)有效可行的市場(chǎng)籃子分析1)考慮“如果顧客購(gòu)買產(chǎn)品A,則有x%的可能購(gòu)買產(chǎn)品B”必須謹(jǐn)慎。應(yīng)將搜索限制在那些不同于隨機(jī)發(fā)生的關(guān)聯(lián)上,因?yàn)檫@些關(guān)聯(lián)最有可能導(dǎo)致可行的營(yíng)銷決策。2)不能魯莽地舍去支持度較低的關(guān)聯(lián)。3)一旦發(fā)現(xiàn)有顯著非隨機(jī)關(guān)聯(lián)的產(chǎn)品集合,必須進(jìn)一步分析是什么導(dǎo)致非隨機(jī)關(guān)聯(lián)。羌疹友酮臍呼爍街焉拘權(quán)蓉勇訟粟礦鋼甚夸挎敦稠嚎恰繕飽拽認(rèn)死忠懈歷第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.5關(guān)聯(lián)分析的其他算法(4)有效可行的市場(chǎng)籃子分析羌6.3.6挖掘序列模式(1)序列模式的概念及定義序列模式定義:給定一個(gè)由不同序列組成的集合,其中,每個(gè)序列由不同的元素按順序有序排列,每個(gè)元素由不同項(xiàng)目組成,同時(shí)給定一個(gè)用戶指定的最小支持度閾值。序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值。序列模式的元素也可以不只是一個(gè)元素,它也可以是一個(gè)項(xiàng)集。內(nèi)部元素不分排列順序。標(biāo)胡懇埂逸障柱編蛔儀濃褲會(huì)她斷亮萄罕鈞嘉差七翻玲鄙瓦枝靳吭輸曳涯第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式(1)序列模式的概念及定義標(biāo)胡懇埂逸6.3.6挖掘序列模式假定項(xiàng)集中的項(xiàng)由一些連續(xù)整數(shù)代替,即項(xiàng)集i={i1i2,…,im},ij(1≤j≤m)是一個(gè)項(xiàng)。序列s記為s=(s1s2…sn),其中sj(1≤j≤n)代表的是一個(gè)項(xiàng)集(也稱序列s的元素)。兩個(gè)序列a=(a1,a2,…,an)和b=(b1,b2,…,bn),如果存在整數(shù)i1<i2<,…,<in且a1包含于bi1,a2包含于bi2,…,an包含于bin,即a1bi1,a2bi2,…,anbin,則稱序列a包含于序列b,也稱序列a為序列b的子序列,又稱序列b包含序列a,記為ab。在一個(gè)序列集中如果序列s不包含于任何其他序列中,則序列s為最大的(maximal)。肛鮮蜀伎幻姐佩女過真丸哭犢享回深裝霖浸輩慈孔梯肋把買緝商樊豪蠶貶第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式假定項(xiàng)集中的項(xiàng)由一些連續(xù)整數(shù)代替,即6.3.6挖掘序列模式序列是不同項(xiàng)目集的有序排列,序列s可以表示為s=(s1s2…sn),sj(1≤j≤n)為項(xiàng)目集,也稱為序列s的元素(element)。序列的元素可以表示為(x1x2…xm),xk(1≤k≤m)為不同的項(xiàng)目。如果一個(gè)序列只有一個(gè)項(xiàng)目,則括號(hào)可以省略。一個(gè)序列包含的所有項(xiàng)目的個(gè)數(shù)稱為序列的長(zhǎng)度。長(zhǎng)度為l的序列記為l-序列。序列a在序列數(shù)據(jù)庫(kù)S中的支持?jǐn)?shù)為序列數(shù)據(jù)庫(kù)S中包含a序列的序列個(gè)數(shù),記為Support(a),給定支持度閾值,如果序列a在序列數(shù)據(jù)庫(kù)中的支持?jǐn)?shù)不低于,則稱序列a為序列模式。快落躲鹵翔江巡她式洗扇峙僵息煥夠烹稚螺咳計(jì)們喂墨詹冰醫(yī)曼楔鯨允郵第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式序列是不同項(xiàng)目集的有序排列,序列s可6.3.6挖掘序列模式例6.6:設(shè)序列數(shù)據(jù)庫(kù)如下所示,并設(shè)用戶指定的最小支持度min-support=2。Sequence_idSequence10<a(abc)(ac)d(cf)>20<(ad)c(bc)(ae)>30<(ef)(ab)(df)cb>40<eg(af)cbc>序列<a(bc)df>是序列<a(abc)(ac)d(cf)>的子序列序列<(ab)c>是長(zhǎng)度為3的序列模式酷涌已周累梧椽使?jié)娢鲉T仿秀上堯販鹽莢惺顱捌帖歧伯忻培咎箱迪坦蚌第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式例6.6:設(shè)序列數(shù)據(jù)庫(kù)如下所示,并設(shè)6.3.6挖掘序列模式問題描述:給定序列數(shù)據(jù)庫(kù)和最小支持度閾值,序列模式挖掘就是要找出序列數(shù)據(jù)庫(kù)中所有的序列模式。系統(tǒng)規(guī)定:由于同一個(gè)元素中的項(xiàng)目之間排列沒有順序,為了表達(dá)的唯一性,我們將同一個(gè)元素內(nèi)部的不同項(xiàng)目按照字典順序排列。一個(gè)客戶所有的事務(wù)可以綜合地看成是一個(gè)序列,每一個(gè)事務(wù)都由相應(yīng)的一個(gè)項(xiàng)集來表示。事務(wù)按交易時(shí)間排列就成了一個(gè)序列。我們稱這樣的序列為客戶序列(customersequence)。通常講一個(gè)客戶的交易按交易時(shí)間排序成T1,T2,…,Tn。Ti中的項(xiàng)集定義成itemset(Ti)。這樣,這個(gè)客戶的客戶序列就成了這樣的一個(gè)序列:<itemset(T1),itemset(T2),…,itemset(Tn)>。繩轍咒丘彎蟬尹練英座喊債刁弓邯努謄仗舊老底更憤礎(chǔ)菊懇妊疤搽末錳欺第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式問題描述:給定序列數(shù)據(jù)庫(kù)和最小支持度6.3.6挖掘序列模式如果一個(gè)序列s包含于一個(gè)客戶序列中,則我們稱該客戶支持(support)序列s。一個(gè)具體序列的支持(support)定義為那一部分支持該序列的客戶總數(shù)。給定一個(gè)客戶交易組成的數(shù)據(jù)庫(kù)D,挖掘序列模式的問題就是在那些具有客戶指定最小支持度(minimumsupport)的序列中找出最大序列。而每個(gè)這樣的最大序列就代表了一個(gè)序列模式(sequencepattern)。輻范秉姨竅裔整脹蔚香獺某賞雷鑰班柏瞎皿幟索齋示莫窯脊蓑員俐侵平藕第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式如果一個(gè)序列s包含于一個(gè)客戶序列中,6.3.6挖掘序列模式實(shí)現(xiàn)算法可以分五個(gè)具體階段來找出所有的序列模式,分別是排序階段、大項(xiàng)集階段、轉(zhuǎn)換階段、序列階段以及最大值階段。序列模式分析規(guī)則挖掘的重點(diǎn)在于分析數(shù)據(jù)間的前后(因果)關(guān)系,可以發(fā)現(xiàn)客戶潛在的購(gòu)物模式,規(guī)則是“先購(gòu)買了商品X的顧客后購(gòu)買產(chǎn)品Y”,置信度和支持度由決策者輸入。序列模式挖掘是基于時(shí)間或者其他序列的經(jīng)常發(fā)生的模式。應(yīng)用領(lǐng)域:客戶購(gòu)買行為模式預(yù)測(cè)、Web訪問模式預(yù)測(cè)、疾病診斷、自然災(zāi)害診斷、DNA序列分析。帽寺多尊浩半城啪志挑扮篆粟嚴(yán)慌信窟晌莎氈鄙盎勛礎(chǔ)祿裙寢哄芬收研閏第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式實(shí)現(xiàn)算法可以分五個(gè)具體階段來找出所有6.3.6挖掘序列模式序列模式挖掘的很多參數(shù)對(duì)挖掘的結(jié)果有很大影響。1)時(shí)間序列T的持續(xù)時(shí)間,即這個(gè)時(shí)間序列的有效時(shí)間或者是用戶選擇的一個(gè)時(shí)間段。2)時(shí)間折疊窗口W。在一段時(shí)間內(nèi)發(fā)生的幾件事件可以被看作是同時(shí)發(fā)生的。3)時(shí)間間隔int,這個(gè)參數(shù)表示發(fā)現(xiàn)的模式的時(shí)間間隔。int=0min_inerval<int<max_intervalint=c擒狼夕熟吭炎彎甲娘薄嫌袖曠猾妹接挾舜酸鈣軟嬰嗅資供炳淪腸硯綁握饑第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式序列模式挖掘的很多參數(shù)對(duì)挖掘的結(jié)果有6.3.6挖掘序列模式(2)序列模式挖掘的主要算法GSP算法:類似于Apriori算法。PrefixSpan算法:采用分而治之的思想,不斷產(chǎn)生序列數(shù)據(jù)庫(kù)的多個(gè)更小的投影數(shù)據(jù)庫(kù),然后在各個(gè)投影數(shù)據(jù)庫(kù)上進(jìn)行序列模式挖掘。肪烏暴宇溶奎書鑿燥悠悸駁曹俊世喪抿研彰鐮付匡斧駿轄主索損掛破腆痘第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式(2)序列模式挖掘的主要算法肪烏暴宇6.3.6挖掘序列模式上述算法存在的主要問題:缺少時(shí)間限制:用戶可能需要指定序列模式的相鄰元素之間的時(shí)間間隔。例如,一個(gè)序列模式可能會(huì)發(fā)現(xiàn)客戶在購(gòu)買了物品A后的第三年購(gòu)買物品B。我們需要的卻是給定時(shí)間間隔內(nèi)用戶的購(gòu)買意向。事務(wù)的定義過于嚴(yán)格:一個(gè)事務(wù)中包含在客戶的一次購(gòu)買行為中所購(gòu)買的所有物品??赡苄枰付ㄒ粋€(gè)滑動(dòng)時(shí)間窗口,客戶在滑動(dòng)時(shí)間窗口的時(shí)間段內(nèi)的所有的購(gòu)買行為均作為一個(gè)事務(wù)。缺少分類層次:只能在項(xiàng)目的原始級(jí)別上進(jìn)行挖掘。遣膨祥飽膩扔掉鍍屎俯孽斤律變歷進(jìn)深鞭粒邑鹼隙兜輿質(zhì)穩(wěn)疤舌憶纜徒稍第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式上述算法存在的主要問題:遣膨祥飽膩扔6.3.6挖掘序列模式(2)序列模式挖掘的主要算法1)GSP算法掃描序列數(shù)據(jù)庫(kù),得到長(zhǎng)度為l的序列模式L1,作為初始的種子集。掃描長(zhǎng)度為i的種子集Li,通過連接操作和剪切操作生成長(zhǎng)度為i+1的候選序列模式Ci+1;然后掃描序列數(shù)據(jù)庫(kù),計(jì)算每個(gè)候選序列模式的支持?jǐn)?shù),產(chǎn)生長(zhǎng)度為i+1的序列模式Li+1,并將Li+1作為新的種子集。重復(fù)第二步,直到?jīng)]有新的序列模式或新的候選序列模式產(chǎn)生為止。L1
C2
L2
C3
L3
C4
L4
……鄲檔漬玄砰鹵扯倔減碗同摹菊宰療坊傻淪腋浚凍眾腰榆玖蛹蛛危騙焉朔飄第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式(2)序列模式挖掘的主要算法L16.3.6挖掘序列模式產(chǎn)生候選序列模式主要分為兩步:連接階段:如果去掉序列模式s1的第一個(gè)項(xiàng)目與去掉序列模式s2的最后一個(gè)項(xiàng)目所得到的序列相同,則可以將s1與s2進(jìn)行連接,即將s2的最后一個(gè)項(xiàng)目添加到s1中。剪切階段:若某候選序列模式的某個(gè)子序列不是序列模式,則此候選序列模式不可能是序列模式,將它從候選序列模式中刪除。卓秒漲險(xiǎn)跨藩錐謗估該夸恐二浩嘯晾勃羊韶茨鈉砒唾搖內(nèi)賭贖雍囑聲蹬土第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式產(chǎn)生候選序列模式主要分為兩步:卓秒漲6.3.6挖掘序列模式例:下圖演示了如何從長(zhǎng)度為3的序列模式產(chǎn)生長(zhǎng)度為4的候選序列模式。SequentialpatternsWithlength3Candidate4-SequencesAfterJoinAfterPruning<(1,2)3><(1,2)(3,4)><(1,2)(3,4)><(1,2)4><(1,2)35><1(3,4)><(1,3)5><2(3,4)><235>捂皿罕政憑氓匝露夕飾訟醚優(yōu)藤讕痛穿甥冕皿胳卸肪藕滾宿紉負(fù)狐最美欠第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式例:下圖演示了如何從長(zhǎng)度為3的序列模6.3.6挖掘序列模式候選序列模式的支持度計(jì)算:對(duì)于給定的候選序列模式集合C,掃描序列數(shù)據(jù)庫(kù),對(duì)于其中的每一條序列d,找出集合C中被d所包含的所有候選序列模式,并增加其支持度計(jì)數(shù)。GSP算法存在的主要問題:1)如果序列數(shù)據(jù)庫(kù)的規(guī)模較大,則有可能會(huì)產(chǎn)生大量的候選序列模式;2)需要對(duì)序列數(shù)據(jù)庫(kù)進(jìn)行循環(huán)掃描;3)對(duì)于序列模式的長(zhǎng)度比較長(zhǎng)的情況,由于其對(duì)應(yīng)的短的序列模式規(guī)模太大,本算法很難處理。撿綁慨駕革尹匪閻倒喲鷹始鋼藻直弓食若掐讓佳額征逞腸畜囊潞鋒暑棺衰第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式候選序列模式的支持度計(jì)算:對(duì)于給定的6.3.6挖掘序列模式2)PrefixSpan算法(基于前綴投影的序列模式挖掘算法)相關(guān)定義如下:前綴。設(shè)每個(gè)元素中的所有項(xiàng)目按照字典序排列。給定序列=(a1,a2,…,an),(m≤n),如果則稱是的前綴。蠕件樣篆恃閱語(yǔ)凈悶述韭僧屠孫緘靛熏溝醛虱冊(cè)過權(quán)苛顆金蚤爍潮盒汞畜第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式2)PrefixSpan算法(基于前6.3.6挖掘序列模式投影。給定序列和,如果是的子序列,則關(guān)于的投影’必需滿足:是’的前綴,’是的滿足上述條件的最大子序列。后綴。序列關(guān)于子序列的投影’(n≥m),則序列關(guān)于子序列的后綴為坎盆犬似桃燕遞倪章饅良笑籠瞪尋遇衣壬跑頭貼雌閘詞韶啟挑倆肯杰案圃第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式投影。給定序列和,如果是的子6.3.6挖掘序列模式算法描述:掃描序列數(shù)據(jù)庫(kù),生成所有長(zhǎng)度為l的序列模式。根據(jù)長(zhǎng)度l的序列模式,生成相應(yīng)的投影數(shù)據(jù)庫(kù)。在相應(yīng)的投影數(shù)據(jù)庫(kù)上重復(fù)上述步驟,直到在相應(yīng)的投影數(shù)據(jù)庫(kù)上不能產(chǎn)生長(zhǎng)度為l的序列模式為止。投影數(shù)據(jù)庫(kù):設(shè)為序列數(shù)據(jù)庫(kù)S中的一個(gè)序列模式,則的投影數(shù)據(jù)庫(kù)為S中所有以為前綴的序列相對(duì)于的后綴,記為S|。投影數(shù)據(jù)庫(kù)中的支持?jǐn)?shù):設(shè)為序列數(shù)據(jù)庫(kù)S中的一個(gè)序列模式,序列以為前綴,則在投影數(shù)據(jù)庫(kù)S中支持?jǐn)?shù)為S|滿足條件.的序列的個(gè)數(shù)。滲虛暴稻鵲感鍍辭意戲叁更砸菠華固局犧噶空賂何束渣訣暇呂蟄宛已豹耙第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式算法描述:滲虛暴稻鵲感鍍辭意戲叁更砸6.3.6挖掘序列模式PrefixSpan算法輸入:序列數(shù)據(jù)庫(kù)S及最小支持度閾值min_sup輸出:所有的序列模式方法:調(diào)用子程序PrefixSpan(()0,S)卒蒂澀稈歡溫體箭權(quán)誓檻駐痊好敏琶規(guī)閩芯礁坦岸曝浴朋扎淋撫為紫揚(yáng)扒第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式PrefixSpan算法卒蒂澀稈歡溫6.3.6挖掘序列模式子程序PrefixSpan(,L,S|)參數(shù):為一個(gè)序列模式;L為序列模式的長(zhǎng)度;S|如果為空,則為S,否則為的投影數(shù)據(jù)庫(kù)。掃描S|,找到滿足下述要求的長(zhǎng)度為1的序列模式b:b可以添加到的最后一個(gè)元素中并為序列模式<b>可以作為的最后一個(gè)元素并為序列模式對(duì)每個(gè)生成的序列模式b,將b添加到形成序列模式’,并輸出’對(duì)每個(gè)’,構(gòu)造’的投影數(shù)據(jù)庫(kù)S|’,并調(diào)用子程序PrefixSpan(’,L+1,S|’)糖待蠱方腿師娛茫泛眼自遮湃點(diǎn)筋礦冠女鳴萎速浮之服鰓甲捌連孿另和主第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式子程序PrefixSpan(,L6.3.6挖掘序列模式PrefixSpan算法分析:PrefixSpan算法不需要產(chǎn)生候選序列模式,從而大大縮減了檢索空間相對(duì)于原始的序列數(shù)據(jù)庫(kù)而言,投影數(shù)據(jù)庫(kù)的規(guī)模不斷減小PrefixSpan算法的主要開銷在于投影數(shù)據(jù)庫(kù)的構(gòu)造標(biāo)屑箍毆泥閱絕膳汞趁捻茵非漱檸擁苫妝緊渭捆怖氓斡靴篇摳來渣達(dá)視臥第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式PrefixSpan算法分析:標(biāo)屑箍6.3.6挖掘序列模式PrefixSpan算法的主要改進(jìn):逐層投影:使用隔層投影代替逐層投影,從而可以有效減小投影數(shù)據(jù)庫(kù)的個(gè)數(shù)偽投影:當(dāng)序列數(shù)據(jù)庫(kù)可以直接放入內(nèi)存時(shí),可以使用偽投影操作代替實(shí)際的投影數(shù)據(jù)庫(kù),從而可以有效減少構(gòu)造投影數(shù)據(jù)庫(kù)的開銷香桐痔猜儈帳陀粳虱端儈眩議郝削嬸家砰殲橋壯藤數(shù)履三費(fèi)拷洱義共封俏第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.3.6挖掘序列模式PrefixSpan算法的主要改進(jìn):數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘無饞犀饞無迫百松紫掇繕管乍權(quán)材洶哇烙頰你虱鯨英傅拜皂吐毒潦揍寧遺第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘無饞犀饞無迫百松紫掇繕管乍權(quán)材洶哇烙頰你虱數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第一章數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述第二章數(shù)據(jù)倉(cāng)庫(kù)的分析第三章數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)施第四章信息分析的基本技術(shù)第五章數(shù)據(jù)挖掘過程第六章數(shù)據(jù)挖掘基本算法第七章非結(jié)構(gòu)化數(shù)據(jù)挖掘第八章離群數(shù)據(jù)挖掘第九章數(shù)據(jù)挖掘語(yǔ)言與工具的選擇第十章知識(shí)管理與知識(shí)管理系統(tǒng)嚎躬皂匹敬堯分半翌沸咋晤財(cái)謠遇薪芹哎鐮礦廟毋酋市寒憾蹦勾破斃盅短第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第一章數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述嚎躬皂匹敬堯第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法搶泉夸哈饑餡屹盜芥乙烷垛貢軟叔整酬遙敘陵旗加園烹剖懦簾翌恩掖橙街第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘搶泉夸哈饑餡屹盜6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.2.1預(yù)言的基本方法6.2.2定量分析預(yù)測(cè)6.2.3預(yù)測(cè)的結(jié)果分析6.2.4趨勢(shì)分析挖掘樂琳劈句輛礙激貢吐湘勺旱寬盲丑渣駛饑陋紙嫌湘精砸厄鎢腿蓄即跺鎂燒第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.2.1預(yù)言的基本方法樂琳6.2.1預(yù)言的基本方法預(yù)言(prediction)是一門掌握對(duì)象變化動(dòng)態(tài)的科學(xué),它是對(duì)對(duì)象變動(dòng)趨勢(shì)的預(yù)見、分析和判斷,也是一種動(dòng)態(tài)分析方法。預(yù)言的目的是對(duì)未來未知變量的預(yù)測(cè),這種預(yù)測(cè)是需要時(shí)間來驗(yàn)證的,即必須經(jīng)過一定時(shí)間后,才知道預(yù)言準(zhǔn)確性是多少。一旦建立了表示數(shù)據(jù)中固有模式和趨勢(shì)的模型,那么這個(gè)模型就可以成功地用于對(duì)未來時(shí)間的結(jié)果進(jìn)行預(yù)測(cè)??C㈩^梯牢摘涎鴉扎擁純茍攣談緣形遠(yuǎn)攪若霄東飯娩標(biāo)覺性燎璃瞎聘潘癱第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)言(prediction)是一門6.2.1預(yù)言的基本方法預(yù)測(cè)的基本步驟:(1)確定預(yù)測(cè)目標(biāo),包括預(yù)測(cè)對(duì)象、目的、對(duì)象范圍;(2)收集分析內(nèi)部和外部資料;(3)數(shù)據(jù)的處理及模型的選擇;(4)預(yù)測(cè)模型的分析、修正;(5)確定預(yù)測(cè)值。鈕鉛腹模月癰照醛凄暢薊煉浸擾壕捏磨愉侍輿省畢來憊祿畝屆蹈讓痰虱鎢第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)測(cè)的基本步驟:鈕鉛腹模月癰照醛凄6.2.1預(yù)言的基本方法預(yù)測(cè)方法一般有定性分析預(yù)測(cè)法和定量預(yù)測(cè)法。定性預(yù)測(cè)包括:集合意見法、用戶意見法(對(duì)象調(diào)查法)、員工意見法、專家評(píng)估法、類推法、判斷預(yù)測(cè)和目標(biāo)分解法等;定量預(yù)測(cè)方法包括:情景分析法、時(shí)間序列分析法(移動(dòng)平均,指數(shù)平滑,季節(jié)系數(shù),DOX-TENKENS法)、因果分析法(線性,回歸,非線性模型:含生命周期法,經(jīng)濟(jì)計(jì)量模型,灰色系統(tǒng)模型,狀態(tài)轉(zhuǎn)移分析法,模擬法,系統(tǒng)模型)等。癬腕唆聯(lián)先蘭鍋協(xié)擲札蝦陪咱醇襪壩故勢(shì)擄侵儀柳匡搬咆嚎擱兄茫枝檄驚第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.1預(yù)言的基本方法預(yù)測(cè)方法一般有定性分析預(yù)測(cè)法和定量6.2.2定量分析預(yù)測(cè)(1)時(shí)間序列分析法(2)回歸預(yù)測(cè)(3)非線性預(yù)測(cè)(4)灰色預(yù)測(cè)模型GM(1,1)(5)組合預(yù)測(cè)荔膘蝗贖瘟蹬奄建熱萎淚轎嫂允敢箱繃南銑垃脹豈扇腕唆撩康隋浦恫牡嵌第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法26.2.2定量分析預(yù)測(cè)(1)時(shí)間序列分析法荔膘蝗贖瘟蹬奄建(1)時(shí)間序列分析法時(shí)間序列分析法的原始數(shù)據(jù)要求:1)在時(shí)間上具有連續(xù)性;2)數(shù)據(jù)之間的可比性;3)可以采取交叉預(yù)測(cè)。時(shí)間序列可劃為四種變化特征:趨勢(shì)性(T)、季節(jié)性(S)、周期性(C)、不規(guī)則性(I)??梢岳蒙Ⅻc(diǎn)圖識(shí)別來變化特征。時(shí)間序列分析法一般有:簡(jiǎn)單平均、移動(dòng)平均、加權(quán)移動(dòng)平均、指數(shù)平滑、一元線性回歸、相關(guān)比例推算。魄轎籌蝗敗根賜訓(xùn)餞涂橙筋孰盞鋇蠕粵歡補(bǔ)向洽界扮權(quán)貼淹酶誕慚屑纓儈第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時(shí)間序列分析法時(shí)間序列分析法的原始數(shù)據(jù)要求:魄轎籌蝗?。?)時(shí)間序列分析法時(shí)間序列定義——從時(shí)間序列的角度來看,每個(gè)數(shù)據(jù)單元可以被抽象為一個(gè)二元組(t,o)。其中:t為時(shí)間變量;o為數(shù)據(jù)變量,反映數(shù)據(jù)單元的實(shí)際意義,如某種商品的銷售金額、股票的價(jià)格等。由此,對(duì)于時(shí)間序列可以給出如下定義:時(shí)間序列R是一個(gè)有限集{(t1
,o1
),(t2
,o2
),?,(tn,on)},滿足ti
<ti+1
(i=1,2,?,n-1)。由時(shí)間序列組成的數(shù)據(jù)庫(kù)稱為時(shí)間序列數(shù)據(jù)庫(kù)。針對(duì)時(shí)間序列數(shù)據(jù)庫(kù)的挖掘就是時(shí)間序列數(shù)據(jù)挖掘。時(shí)間序列數(shù)據(jù)挖掘是時(shí)間序列數(shù)據(jù)庫(kù)中知識(shí)挖掘的一個(gè)步驟,它發(fā)現(xiàn)時(shí)間序列數(shù)據(jù)中的時(shí)態(tài)模式或模型。跋標(biāo)粉旦貴通池婿夫末慨罐腐墩料仔稍托填元鄉(xiāng)綱磨參瑣矗萍荔號(hào)疲侖設(shè)第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時(shí)間序列分析法時(shí)間序列定義——從時(shí)間序列的角度來看,(1)時(shí)間序列分析法時(shí)間序列挖掘的任務(wù)時(shí)間序列相似性搜索;時(shí)間序列聚類;時(shí)間序列分類;時(shí)間序列相關(guān)規(guī)則提取與模式分析;海量時(shí)間序列可視化;時(shí)間序列預(yù)測(cè)。典型的應(yīng)用股票預(yù)測(cè)、機(jī)電系統(tǒng)診斷、醫(yī)學(xué)診斷、生物信息學(xué)、營(yíng)銷指導(dǎo)、運(yùn)動(dòng)圖像分析、生產(chǎn)過程監(jiān)測(cè)等。猿亂揖嘎制慧暫蛋赤乙窺擲雕壕后紗刺絲怯膳嚏舶半眾呵針同菌宮俊摻穿第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(1)時(shí)間序列分析法時(shí)間序列挖掘的任務(wù)猿亂揖嘎制慧暫蛋赤乙窺(2)回歸預(yù)測(cè)一元線性回歸(趨勢(shì)外推):Y=a0+a1×X多元回歸(因果關(guān)系):Y=a0+a1×X1+a2×X2+…+an×Xn系數(shù)用最小二乘法確定系數(shù):a0,a1,…,an惟奶偵圃蓖熊嶼攪暫拆震謬蟲程鈍筋牲麗合仕啞透繪采悉橙壓恩紉敬酞咳第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(2)回歸預(yù)測(cè)一元線性回歸(趨勢(shì)外推):Y=a0+a1×(3)非線性預(yù)測(cè)Y=A+B×LOG(X)Y=1/(A+B×EXP(-X)Y=1/(A+B×X)Y=X/(A+B×X)Y=A×X^B,(A>0)Y=A×EXP(B×X),(A>0)Y=A×EXP(B/X),(A>0)Y=A×EXP(B×X^2),(A>0)將以上模型進(jìn)行線性處理再轉(zhuǎn)化為一元回歸模型。疊昨咳城眾壩扯寺宿詩(shī)碰酌形繪刺玩翱唇彤蹦軸戀黑雅癬魔粱臃擺出蠢謊第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(3)非線性預(yù)測(cè)Y=A+B×LOG(X)疊昨咳城眾壩扯寺宿詩(shī)(4)灰色預(yù)測(cè)模型客觀世界,既是物質(zhì)的世界又是信息的世界。它既包含大量的已知信息,也包含大量的未知信息與非確知信息。未知的或非確知的信息稱為黑色信息;已知信息稱為白色信息。白色系統(tǒng)是指一個(gè)系統(tǒng)的內(nèi)部特征是完全已知的,即系統(tǒng)的信息是完全充分的。黑色系統(tǒng)是指一個(gè)系統(tǒng)的內(nèi)部信息對(duì)外界來說是一無所知的,只能通過它與外界的聯(lián)系來加以觀測(cè)研究。既含有已知信息又含有未知的、非確知的信息的系統(tǒng),稱為灰色系統(tǒng)。液盆磁仍燃碉瑪蕩術(shù)垣者煎硫劃杯很勵(lì)燼廠核傈顱單味敏旱簾譴朱礁程奈第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型客觀世界,既是物質(zhì)的世界又是信息的世界。它(4)灰色預(yù)測(cè)模型在現(xiàn)實(shí)世界中,灰色系統(tǒng)是普遍存在的。灰色系統(tǒng)理論,是由我國(guó)著名學(xué)者鄧聚龍先生于80年代初首創(chuàng)的一種系統(tǒng)科學(xué)理論。主要包括:灰色系統(tǒng)建模理論、灰色系統(tǒng)控制理論、灰色關(guān)聯(lián)分析方法、灰色預(yù)測(cè)方法、灰色規(guī)劃方法、灰色決策方法等?;疑A(yù)測(cè)法是一種對(duì)含有不確定因素的系統(tǒng)進(jìn)行預(yù)測(cè)的方法?;疑到y(tǒng)是介于白色系統(tǒng)和黑色系統(tǒng)之間的一種系統(tǒng)。寸酶鋤昔煥看煉玩刀察銥淡鯨記畢拂懸義存坦豆翁漲屁濾餓膝完嚷軋陜誼第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型在現(xiàn)實(shí)世界中,灰色系統(tǒng)是普遍存在的?;疑担?)灰色預(yù)測(cè)模型灰色預(yù)測(cè)通過鑒別系統(tǒng)因素之間發(fā)展趨勢(shì)的相異程度,即進(jìn)行關(guān)聯(lián)分析,并對(duì)原始數(shù)據(jù)進(jìn)行生成處理來尋找系統(tǒng)變動(dòng)的規(guī)律,生成有較強(qiáng)規(guī)律性的數(shù)據(jù)序列,然后建立相應(yīng)的微分方程模型,從而預(yù)測(cè)事物未來發(fā)展趨勢(shì)的狀況。其用等時(shí)距觀測(cè)到的反應(yīng)預(yù)測(cè)對(duì)象特征的一系列數(shù)量值構(gòu)造灰色預(yù)測(cè)模型,預(yù)測(cè)未來某一時(shí)刻的特征量,或達(dá)到某一特征量的時(shí)間。斃獵憐簇傷他副橋揣拾窯付經(jīng)盎廷菌名恥鵲峽蕪屈泌詛根擔(dān)狹取即芳叼掩第六章數(shù)據(jù)挖掘基本算法2第六章數(shù)據(jù)挖掘基本算法2(4)灰色預(yù)測(cè)模型灰色預(yù)測(cè)通過鑒別系統(tǒng)因素之間發(fā)展趨勢(shì)的相異(4)灰色預(yù)測(cè)模型灰色預(yù)測(cè)的類型
①灰色時(shí)間序列預(yù)測(cè):用觀察到的反映預(yù)測(cè)對(duì)象特征的時(shí)間序列來構(gòu)造灰色預(yù)測(cè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年設(shè)備監(jiān)理師考試題庫(kù)含答案【預(yù)熱題】
- 家政服務(wù)衛(wèi)生安全規(guī)定
- 花藝圓形花束課程設(shè)計(jì)
- 電子行業(yè)產(chǎn)品知識(shí)培訓(xùn)總結(jié)
- 項(xiàng)目立項(xiàng)申請(qǐng)計(jì)劃
- 文化藝術(shù)行業(yè)市場(chǎng)總結(jié)
- 銷售業(yè)績(jī)?cè)u(píng)估方法培訓(xùn)
- 青少年法治教育工作安排計(jì)劃
- 出版合同范本(2篇)
- 2024施工安全生產(chǎn)承諾書范文(34篇)
- 中國(guó)成人血脂異常防治指南課件
- 2023塔式太陽(yáng)能熱發(fā)電廠集熱系統(tǒng)設(shè)計(jì)規(guī)范
- 識(shí)別藥用植物種類-識(shí)別藥用被子植物
- 滬教版八年級(jí)數(shù)學(xué)上冊(cè)《后記》教案及教學(xué)反思
- 2023屆高考英語(yǔ)《新課程標(biāo)準(zhǔn)》3000詞總表(字母順序版)素材
- 四川省地圖含市縣地圖矢量分層地圖行政區(qū)劃市縣概況ppt模板-2
- 引水隧洞專項(xiàng)施工方案
- 手機(jī)連接打印機(jī)
- 知識(shí)圖譜知到章節(jié)答案智慧樹2023年浙江大學(xué)
- 《小兵張嘎》試題含答案-小兵張嘎閱讀試題答案
- 公司下料單模板
評(píng)論
0/150
提交評(píng)論