




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于特征的時(shí)間序列聚類方法研究進(jìn)展
修訂日期:2012-031引言隨著傳感器數(shù)量的不斷增長以及遙感(RS)、地理信息系統(tǒng)(GIS)、全球定位系統(tǒng)(GPS)的廣泛使用,地學(xué)研究鄰域產(chǎn)生了大量的觀測數(shù)據(jù)。這些數(shù)據(jù)不再局限于傳統(tǒng)的靜態(tài)空間中,而是逐漸向時(shí)間維擴(kuò)展,形成了時(shí)間序列數(shù)據(jù)[1]。時(shí)間序列中蘊(yùn)藏著不同的模式,而不同的模式反映了不同的序列成因。因此,針對序列模式進(jìn)行聚類,將其分為不同的類別成為我們認(rèn)識序列數(shù)據(jù),進(jìn)而理解序列形成本質(zhì)的重要手段。由此看來,針對時(shí)間序列數(shù)據(jù)的聚類方法研究具有非常重要的意義。與傳統(tǒng)的點(diǎn)數(shù)據(jù)聚類方法相比,針對時(shí)間序列的聚類具有一定復(fù)雜性。首先,時(shí)間序列數(shù)據(jù)具有高維性,在這巨大的維數(shù)中往往只有一小部分維度是與表現(xiàn)對象變化特征的簇結(jié)構(gòu)密切相關(guān)的,而其他不相關(guān)或者相關(guān)性很小的維度會產(chǎn)生大量的噪聲,從而掩蓋了真實(shí)的簇結(jié)構(gòu)[2]。其次,由于維度較高,數(shù)據(jù)稀疏,維度之間也很可能會有相關(guān)性[3],傳統(tǒng)的相似性度量方法難以發(fā)現(xiàn)真實(shí)的結(jié)果[4]。第三,時(shí)間序列相似性的定義多種多樣,基于觀測值的相似性度量只能發(fā)現(xiàn)表面的變化,沒有體現(xiàn)事物的內(nèi)在機(jī)制。兩條序列即使觀測值相差很小,也不代表序列就很相似(圖1a);同樣,觀測值完全不同,兩條序列也有可能在某方面具有相似之處(圖1b)。目前,一些學(xué)者提出了許多方法來解決不同類型的時(shí)間序列聚類問題。這些方法大致可分為兩種:①對現(xiàn)有的靜態(tài)數(shù)據(jù)聚類方法進(jìn)行改進(jìn)使其能處理時(shí)間序列數(shù)據(jù);②將時(shí)間序列數(shù)據(jù)轉(zhuǎn)換為靜態(tài)數(shù)據(jù)的形式,然后直接用靜態(tài)數(shù)據(jù)聚類方法來進(jìn)行聚類[5]。按照這個(gè)思路,時(shí)間序列聚類方法可分為基于原始測度數(shù)據(jù)的時(shí)間序列聚類和基于特征的時(shí)間序列聚類?;谠紲y度數(shù)據(jù)的時(shí)間序列聚類,直接根據(jù)原始數(shù)據(jù)定義相似度,如歐氏距離,相關(guān)系數(shù),DTW距離等,然后進(jìn)行聚類。Liao總結(jié)了用于時(shí)間序列聚類的各種相似性度量方法[5];Díaz根據(jù)相似性度量的定義中是否需要估計(jì)模型參數(shù),將時(shí)間序列聚類方法分為有參數(shù)的聚類方法和無參數(shù)的聚類方法[6]。這些方法在現(xiàn)實(shí)生活中都有廣泛的應(yīng)用。然而,采用基于原始測度數(shù)據(jù)的時(shí)間序列聚類方法,不可避免地要面對高維數(shù)據(jù)的問題;此外,基于原始數(shù)據(jù)僅能發(fā)現(xiàn)序列表面的相似性,沒有觸及序列本身的內(nèi)在機(jī)制,聚類結(jié)果有很大的局限性?;谔卣鞯臅r(shí)間序列聚類方法,先對原始數(shù)據(jù)進(jìn)行降維,抽取表征其內(nèi)在變化機(jī)制的特征作為相似性度量的基礎(chǔ),然后運(yùn)用各種聚類方法對這些特征進(jìn)行聚類,不僅減少了計(jì)算量,解決了時(shí)間序列高維數(shù)據(jù)問題,而且還可以處理有數(shù)據(jù)缺失、不等長或采樣不均勻的時(shí)間序列;最重要的是,基于特征的時(shí)間序列可以根據(jù)不同的應(yīng)用問題選取合適的特征,從而發(fā)現(xiàn)時(shí)間序列內(nèi)在機(jī)制中不同方面的相似性。本文根據(jù)時(shí)間序列的不同特征,系統(tǒng)綜述了基于特征的時(shí)間序列聚類方法的研究進(jìn)展。首先介紹了時(shí)間序列的定義,概念以及各類特征;然后對基于特征的時(shí)間序列聚類方法進(jìn)行了分析和評述;最后討論了現(xiàn)有方法的問題和挑戰(zhàn),并對未來時(shí)間序列聚類方法研究進(jìn)行了展望。2時(shí)間序列數(shù)據(jù)及特征時(shí)間序列也稱為動態(tài)序列,由一組隨時(shí)間變化的觀測量組成。與傳統(tǒng)靜態(tài)數(shù)據(jù)不同,時(shí)間序列是一類復(fù)雜的數(shù)據(jù)對象,描述了事物變化過程。2.1時(shí)間序列類型時(shí)間序列有很多種。根據(jù)數(shù)據(jù)類型不同,可以分為數(shù)值型時(shí)間序列和類別型時(shí)間序列;根據(jù)采樣時(shí)間不同可以分為均勻采樣時(shí)間序列和非均勻采樣時(shí)間序列;根據(jù)觀測值維度不同可以分為單維時(shí)間序列和多維時(shí)間序列;根據(jù)統(tǒng)計(jì)特征不同可以分為平穩(wěn)型時(shí)間序列和非平穩(wěn)型時(shí)間序列。不同的時(shí)間序列具有的特征也不同,本文主要針對數(shù)值型時(shí)間序列,如果沒有特殊說明,下文中出現(xiàn)的“時(shí)間序列”均指數(shù)值型時(shí)間序列。2.2時(shí)間序列特征通常時(shí)間序列具有多個(gè)特征,每個(gè)特征刻畫了時(shí)間序列的一個(gè)方面。從對時(shí)間序列不同層次上的認(rèn)知可將時(shí)間序列特征分為3種:形態(tài)特征、結(jié)構(gòu)特征以及模型特征。這種分類體現(xiàn)了人們對時(shí)間序列認(rèn)識逐步深化的過程。2.2.1形態(tài)特征時(shí)間序列的形態(tài)特征主要指時(shí)間序列的形狀變化特征,包括全局特征和局部特征。全局特征描述了時(shí)間序列的起伏變化,如上升、下降、頭肩模式(圖2)等;局部特征則表現(xiàn)為時(shí)間序列局部時(shí)間點(diǎn)上的異常觀測值,如不連續(xù)點(diǎn),極值點(diǎn)、突變點(diǎn)、轉(zhuǎn)折點(diǎn)等。在時(shí)間序列最開始的研究中,人們通常是先將時(shí)間序列畫出來,然后直觀地通過觀察來研究時(shí)間序列的起伏變化或異常點(diǎn)。這類反映時(shí)間序列整體變化或局部異常,可以直觀看出的特征,稱為時(shí)間序列的形態(tài)特征?;谛螒B(tài)特征的時(shí)間序列聚類,可以發(fā)現(xiàn)具有相同形狀的時(shí)間序列簇,尋求時(shí)間序列的起伏變化規(guī)律。圖1觀測值與相似性的關(guān)系Fig.1Relationshipbetweenobservationsandsimilarityoftimeseries注:a.A,B,C三條序列,計(jì)算基于標(biāo)準(zhǔn)化后觀測值的歐氏距離,d(A,B)<<d(A,C);但是直觀上看,A和C兩條序列顯然更相似;b.序列的觀測值之間難以看出關(guān)系,兩兩之間距離大體相等,但這些序列來自相同的創(chuàng)建機(jī)制:黑色序列來自系數(shù)為0.55,噪聲方差為4的AR(1)模型,灰色序列來自系數(shù)為0.35,噪聲方差為6的AR(1)模型。時(shí)間序列形態(tài)特征可以在一定程度上表現(xiàn)時(shí)間序列的特性,通常適用于描述短時(shí)間序列[4]。當(dāng)序列較長時(shí),起伏變化往往比較復(fù)雜,難以用簡單的“上升,下降”描述。雖然可以采用分段描述的方法[7-8],但這割裂了時(shí)間序列的整體性,不能很好地反映時(shí)間序列的全局特征;異常點(diǎn)特征主要描述時(shí)間序列上的某些特殊點(diǎn)的特征,同樣難以反映其全局特征。圖2時(shí)間序列形態(tài)特征Fig.2Shapedcharacteristicsoftimeseries2.2.2結(jié)構(gòu)特征時(shí)間序列的結(jié)構(gòu)特征是對時(shí)間序列全局構(gòu)造或內(nèi)在變化機(jī)制的描述,它可以很好的表現(xiàn)時(shí)間序列全局特點(diǎn)。時(shí)間序列的結(jié)構(gòu)特征一般難以直觀地看出,需要對原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)或者轉(zhuǎn)換得出。時(shí)間序列結(jié)構(gòu)特征通常包括以下3類:基本統(tǒng)計(jì)特征、時(shí)域特征和頻域特征。(1)基本統(tǒng)計(jì)特征基本統(tǒng)計(jì)特征是描述時(shí)間序列全局結(jié)構(gòu)的一些統(tǒng)計(jì)量,它不是時(shí)間序列特有的特征,而是可用于描述任何一組數(shù)據(jù)的特征,包括均值、方差、偏度、峰度等(表1)。均值和方差是用來描述數(shù)據(jù)的中心及其偏差的。偏度是表征概率分布密度曲線相對于均值不對稱程度的特征指數(shù),直觀看就是函數(shù)曲線尾部的相對長度;峰度,則是表征概率密度分布曲線在平均值處峰值高低的特征指數(shù),直觀上反映了函數(shù)曲線尾部的厚度。(2)時(shí)間序列時(shí)域特征時(shí)間序列時(shí)域特征是時(shí)間序列在時(shí)間域上表現(xiàn)出的全局結(jié)構(gòu)特征,它反映了時(shí)間序列隨時(shí)間變化的規(guī)律。時(shí)間序列時(shí)域特征包括:趨勢、季節(jié)波動、時(shí)間序列的自相關(guān)、混沌等(表2)。趨勢是描述時(shí)間序列長期變化情況;季節(jié)性反映了時(shí)間序列周期內(nèi)的波動情況;自相關(guān)性是時(shí)間序列特有的性質(zhì),表現(xiàn)為時(shí)間序列的觀測值依賴于之前觀測值的情況;混沌則表示時(shí)間序列受其初值影響的敏感程度。(3)時(shí)間序列頻域特征時(shí)間序列頻域特征是時(shí)間序列在頻率域上表現(xiàn)出的結(jié)構(gòu)特征,它描述了時(shí)間序列的組成成分。一條時(shí)間序列可以看成由多個(gè)不同頻率的振蕩序列疊加而成[1]。時(shí)間序列頻域特征主要包括周期解析強(qiáng)度和譜密度。。2.2.3模型特征時(shí)間序列模型特征描述了事物變化潛在的運(yùn)動規(guī)律。人們通過對大量時(shí)間序列的研究,基于某種假設(shè)推理,總結(jié)出的表達(dá)事物變化規(guī)律的抽象數(shù)學(xué)公式就是時(shí)間序列模型。模型特征一般表現(xiàn)為不同的參數(shù)特征,不同的時(shí)間序列是具有不同參數(shù)的模型表達(dá)。描述時(shí)間序列的模型多種多樣,通常是將時(shí)間序列看成是一個(gè)隨機(jī)過程,用不同的隨機(jī)過程去模擬時(shí)間序列。這些模型包括:高斯過程模型、ARMA(自回歸滑動平均模型)以及ARIMA模型(差分自回歸移動平均模型)、馬爾科夫鏈模型、隱馬爾科夫模型等。(4)隱馬爾科夫模型:由初始狀態(tài)概率向量π,狀態(tài)轉(zhuǎn)移概率矩陣A和觀察值概率矩陣B組成。表示無法直接觀察到馬爾科夫鏈的狀態(tài)序列,但是可以觀察到其輸出序列,是一個(gè)雙重隨機(jī)過程,其模型特征表現(xiàn)為O(π,A,B)。上述這些模型都體現(xiàn)了不同的時(shí)間序列特征,在時(shí)間序列聚類方法中廣泛使用。3基于特征的時(shí)間序列聚類方法聚類分析根據(jù)對象之間的相似性,將其分成不同的組,其中組內(nèi)對象之間距離最小,而組間對象之間距離最大。傳統(tǒng)的靜態(tài)數(shù)據(jù)聚類方法分為5類:基于劃分的聚類、基于層次的聚類[12-13]、基于密度的聚類[14]、基于格網(wǎng)的聚類[15]以及基于模型的聚類[2,16]?;谔卣鞯臅r(shí)間序列聚類,在傳統(tǒng)靜態(tài)聚類方法的基礎(chǔ)上引入了時(shí)間序列特征的相似性。通過不同的特征來研究時(shí)間序列的內(nèi)在變化機(jī)制,從而發(fā)現(xiàn)其相似規(guī)律。依據(jù)聚類問題所針對的不同特征,可以將時(shí)間序列聚類分為3類:基于形態(tài)特征的時(shí)間序列聚類、基于結(jié)構(gòu)特征的時(shí)間序列聚類、基于模型特征的時(shí)間序列聚類。3.1基于形態(tài)特征的時(shí)間序列聚類基于形態(tài)特征的時(shí)間序列聚類可以揭示時(shí)間序列中相似的起伏變化或其異常點(diǎn)。前者表明序列整體趨勢變化相似,后者則是序列局部相似的體現(xiàn)?;谶@點(diǎn)考慮,可將基于形態(tài)特征的時(shí)間序列聚類分為全局形態(tài)特征聚類和局部形態(tài)特征聚類。3.1.1基于全局形態(tài)特征的時(shí)間序列聚類基于全局形態(tài)特征的時(shí)間序列聚類方法適用于處理短時(shí)間序列,如基因譜聚類[4],發(fā)現(xiàn)序列的整體相似性。采用原始時(shí)間序列的歐氏距離或Pearson相關(guān)系數(shù)距離可以從一定程度上反映全局形態(tài)特征[3],但無法發(fā)現(xiàn)具有尺度拉伸、位移,強(qiáng)度拉伸、位移的相似形態(tài)特征(圖3a)。此外歐氏距離和Pearson相關(guān)系數(shù)對噪聲相當(dāng)敏感(圖3b),難以處理不等長、非均勻采樣或有數(shù)據(jù)缺失的時(shí)間序列。圖3受拉伸、位移或噪聲影響的相似形態(tài)特征Fig.3Similarshapedcharacteristicsaffectedbynoise,shiftsandscales注:a具有尺度拉伸、位移的相似形態(tài)特征;b.相似序列受噪聲影響,Pearson相關(guān)系數(shù)僅0.3,Spearman相關(guān)系數(shù)為0.93。DTW距離[17]放寬了全局形態(tài)特征相似性在尺度上的限制,可以處理不等長的時(shí)間序列。它在一定程度上克服了尺度位移的問題,但依然無法發(fā)現(xiàn)具有強(qiáng)度拉伸或位移的相似形態(tài)特征,此外該方法的計(jì)算量往往比較大,不適合長時(shí)間序列聚類問題。針對噪聲問題,Balasubramaniyan提出Spearman相關(guān)系數(shù)作為基因譜序列的相似性度量[4],采用觀測值大小的排名來描述時(shí)間序列全局形態(tài)特征,而忽略序列觀測值取值本身。Spearman相關(guān)系數(shù)的計(jì)算如下式:Mller-Levet等定義了短時(shí)間序列距離來描述短時(shí)間序列全局形態(tài)特征的相似性[18-19]。每條時(shí)間序列的形態(tài)特征用一組分段斜率代替,這樣可以減弱拉伸或位移所帶來的影響。該方法也可以處理非均勻采樣的時(shí)間序列數(shù)據(jù),但要求數(shù)據(jù)是等長的。下式是該方法的距離度量:長時(shí)間序列由于維數(shù)很高,其全局形態(tài)特征的描述容易受維度之間的相關(guān)性及噪聲的影響。對此,F(xiàn)u等對長時(shí)間序列進(jìn)行了簡化,采用序列的PIP點(diǎn)(PerceptualImportantPoint)來表征其全局形態(tài)特征,并進(jìn)行聚類[20]。這種方法很好地克服了噪聲問題,可以發(fā)現(xiàn)表征大尺度變化的相似形態(tài)特征。序列的簡化過程采用道格拉斯壓縮算法,大大提高了聚類算法的效率。3.1.2基于局部形態(tài)特征的時(shí)間序列聚類局部形態(tài)特征可以體現(xiàn)時(shí)間序列局部的異常值。針對序列的局部形態(tài)特征,Keogh等提出了分段線性分割的方法,將原始序列分為多個(gè)子序列,通過各個(gè)子序列的相似性來度量時(shí)間序列的整體相似性[7]。每段子序列采用5個(gè)參數(shù)來表示:A≡{AXL,AYL,AXR,AYR,AW},分別表示線段的左點(diǎn)x坐標(biāo),左點(diǎn)y坐標(biāo),右點(diǎn)x坐標(biāo),右點(diǎn)y坐標(biāo)以及該段線段權(quán)重,采用分段加權(quán)距離計(jì)算序列之間的相似度。Chen等采用與Keogh等類似的方法,也對時(shí)間序列進(jìn)行了分段處理。它認(rèn)為一條時(shí)間序列由一組局部模式組成[8],每個(gè)模式可以用5個(gè)參數(shù)表示:,分別表示局部模式在原始時(shí)間序列中的起始位置,平均振幅,形狀參數(shù),時(shí)間尺度和振幅尺度。隨后他定義了局部模式的綜合相似度——SpADe距離。實(shí)驗(yàn)證明采用SpADe距離聚類可以很好地解決拉伸和位移問題,其結(jié)果精度比歐氏距離,DTW距離以及EDR距離都要高。小波變換具有多尺度效應(yīng),基于這點(diǎn)考慮,Hsu對原始序列進(jìn)行小波處理,采用多尺度的小波系數(shù)表征原始序列的特征,既要突出全局整體特征,又表現(xiàn)局部序列特征。聚類結(jié)果表明采用小波系數(shù)聚類可以很好的發(fā)現(xiàn)降水時(shí)間序列局部奇異值和銳轉(zhuǎn)變點(diǎn)的相似特征以及整體周期變化的特征[21]。表3給出了基于形態(tài)特征時(shí)間序列聚類方法中各種相似性度量的特點(diǎn)。該方法適用于短時(shí)間序列聚類問題,多用于基因序列聚類問題以及一些軌跡聚類問題[22]。當(dāng)處理長時(shí)間序列聚類問題時(shí),往往需要進(jìn)行特殊處理,對序列本身形式有要求,有一定的局限性。3.2基于結(jié)構(gòu)特征的時(shí)間序列聚類基于形態(tài)特征的時(shí)間序列聚類停留在序列表面形狀的相似上,沒有考慮其內(nèi)部結(jié)構(gòu)的相似性。這類方法適用于短時(shí)間序列聚類,對于長時(shí)間序列往往有一定的局限性?;诮Y(jié)構(gòu)特征的時(shí)間序列聚類能夠揭示時(shí)間序列潛在的相似變化機(jī)制和結(jié)構(gòu),從而發(fā)現(xiàn)更有意義的聚類結(jié)果。根據(jù)聚類結(jié)構(gòu)特征的不同可以分為基于統(tǒng)計(jì)特征的時(shí)間序列聚類、基于時(shí)域特征的時(shí)間序列聚類、基于頻域特征的時(shí)間序列聚類(表4)。3.2.1基于統(tǒng)計(jì)特征的時(shí)間序列聚類基于統(tǒng)計(jì)結(jié)構(gòu)特征的時(shí)間序列聚類采用描述一般序列的基本統(tǒng)計(jì)量作為時(shí)間序列特征來進(jìn)行聚類。Nanopoulos等最早提出了一種基于統(tǒng)計(jì)結(jié)構(gòu)特征的時(shí)間序列聚類方法[23],它選取了時(shí)間序列的均值、標(biāo)準(zhǔn)差、偏度、峰度4個(gè)基本統(tǒng)計(jì)量表征時(shí)間序列的結(jié)構(gòu)特征,偏度和峰度包含觀測值分布的形狀信息。分別計(jì)算了原始序列及其一階差分序列的均值、標(biāo)準(zhǔn)差、偏度和峰度值,采用神經(jīng)網(wǎng)絡(luò)的方法對這些特征進(jìn)行了聚類。實(shí)驗(yàn)表明,基于這些統(tǒng)計(jì)特征的時(shí)間序列聚類在一定程度上克服了噪聲問題,并大大提高了計(jì)算效率。Ouyang選取了時(shí)間序列的最大值、最小值、均值以及標(biāo)準(zhǔn)差作為時(shí)間序列的結(jié)構(gòu)特征,對塔里木河流域的單一水文站點(diǎn)不同月份的流量序列進(jìn)行了聚類,從而發(fā)現(xiàn)了該地區(qū)的不同水文流量時(shí)期[24]。3.2.2基于時(shí)域特征的時(shí)間序列聚類基于時(shí)域特征的時(shí)間序列聚類采用時(shí)間序列在時(shí)域上特有的一些全局結(jié)構(gòu)特征,如:趨勢、周期、自相關(guān)等,進(jìn)行聚類。Kontaki等[25]和Kumar等[26]考慮用時(shí)間序列的趨勢結(jié)構(gòu)特征和季節(jié)性結(jié)構(gòu)特征進(jìn)行了聚類。前者采用分段線性概化的方法,定義了DPLA距離表示為分段趨勢距離之和,作為相似性度量;后者在考慮季節(jié)性相似度量時(shí),不僅計(jì)算了季節(jié)特征波動部分,而且還考慮其誤差,采用兩個(gè)季節(jié)模式具有相同均值的零假設(shè)的顯著性作為季節(jié)性相似的度量。該方法用來對零售商品數(shù)據(jù)的季節(jié)性模式進(jìn)行聚類,發(fā)現(xiàn)了零售商品中具有相似均值分布的季節(jié)模式。Wang等在上述兩人的基礎(chǔ)上又加入了一部分時(shí)間序列特有的特征,包括周期、自相關(guān)性、非線性以及混沌性等共9個(gè)特征,采用層次聚類方法和SOM方法,對其進(jìn)行時(shí)間序列聚類[9]。實(shí)驗(yàn)結(jié)果表明,用9個(gè)特征代表原始數(shù)據(jù)進(jìn)行時(shí)間序列聚類,不僅可以提高計(jì)算效率,而且可以得到更高精度的聚類結(jié)果。此外通過特征選取步驟,可以發(fā)現(xiàn)不同意義的聚類結(jié)果,Wang等將此方法用在對人類行為的聚類研究上[27]。3.2.3基于頻域特征的時(shí)間序列聚類隨后,更多時(shí)間序列特有的結(jié)構(gòu)特征被引入時(shí)間序列聚類,以發(fā)現(xiàn)其不同方面的內(nèi)在變化機(jī)制。基于頻域特征的時(shí)間序列聚類可以發(fā)現(xiàn)具有相似周期或譜密度等頻域特征的時(shí)間序列。Caiado等提出用周期解析強(qiáng)度作為時(shí)間序列的結(jié)構(gòu)特征[28],定義了標(biāo)準(zhǔn)化周期解析強(qiáng)度的對數(shù)距離作為時(shí)間序列的相似性度量。實(shí)驗(yàn)表明基于該特征聚類可以區(qū)分具有不同ARMA或ARIMA模型的時(shí)間序列。Shumway等則對多維時(shí)間序列的譜密度特征進(jìn)行聚類[29-30],其相似性度量采用了譜矩陣的兩種擬距離:Kullback-Liebler信息散度與Chernoff對稱信息散度?;谠撓嗨菩远攘浚闹胁捎脤哟尉垲惖姆椒▽⒌卣饡r(shí)間序列和爆炸的時(shí)間序列數(shù)據(jù)進(jìn)行了分組。3.2.4基于其他結(jié)構(gòu)特征的時(shí)間序列聚類時(shí)間序列的結(jié)構(gòu)特征多種多樣,基于不同的特征可以發(fā)現(xiàn)不同方面的序列機(jī)制。Alonso等先對時(shí)間序列進(jìn)行預(yù)測,采用時(shí)間序列在未來時(shí)段預(yù)測值的概率密度分布作為時(shí)間序列的特征,然后對其進(jìn)行聚類[31]。兩條序列的距離度量采用了各自概率密度函數(shù)差的積分。Singhal等對多維時(shí)間序列聚類,采用多維時(shí)間序列的主成分以及其各維數(shù)據(jù)的質(zhì)量精度來進(jìn)行聚類[32]。文中定義3個(gè)基礎(chǔ)距離度量,分別表示為主成分的夾角、多維數(shù)據(jù)集的馬氏距離以及數(shù)據(jù)質(zhì)量精度差異,最終多維時(shí)間序列的距離采用3個(gè)基礎(chǔ)距離的加權(quán)和。Díaz等考慮對時(shí)間序列的多種特征聚類[6],這些特征包括時(shí)間序列的自相關(guān)函數(shù),部分相關(guān)函數(shù),周期解析強(qiáng)度,譜密度等。文中對比了基于不同特征的相似性度量,將其分為了有參數(shù)和非參數(shù)的聚類方法。有參數(shù)的方法先對時(shí)間序列的模型參數(shù)進(jìn)行估計(jì),然后基于這些參數(shù)計(jì)算時(shí)間序列的相似度;非參數(shù)的方法則采用統(tǒng)計(jì)檢驗(yàn),將兩條序列來自同一參數(shù)模型作為零假設(shè),檢驗(yàn)其顯著性,作為時(shí)間序列之間的相似性度量。實(shí)驗(yàn)證明,選擇這些時(shí)間序列結(jié)構(gòu)特征聚類,可以解決3種時(shí)間序列的聚類問題,包括平穩(wěn)與非平穩(wěn)時(shí)間序列區(qū)分,不同ARMA過程的時(shí)間序列區(qū)分以及一些非平穩(wěn)時(shí)間序列之間的區(qū)分?;诮Y(jié)構(gòu)特征的時(shí)間序列聚類可對原始時(shí)間序列降維,找出具有相同結(jié)構(gòu)特征的時(shí)間序列,從而發(fā)現(xiàn)其潛在機(jī)制的相似性。同時(shí)它很好地解決了噪聲問題,并可以處理不等長以及非均勻采樣的時(shí)間序列數(shù)據(jù)。但由于結(jié)構(gòu)特征種類繁多,具體選擇哪種特征聚類往往與實(shí)際問題密切相關(guān),因此還需對如何選取合適的結(jié)構(gòu)特征作進(jìn)一步的研究[9]。3.3基于模型特征的時(shí)間序列聚類基于模型特征的時(shí)間序列聚類,假設(shè)不同簇的時(shí)間序列是由具有不同參數(shù)的模型創(chuàng)建而來的,而具有相同模型特征的時(shí)間序列就認(rèn)為是相似的。給定一組時(shí)間序列,聚類問題就是找出具有代表性的參數(shù)模型,根據(jù)該模型特征將時(shí)間序列分配到相應(yīng)的組中。這種聚類方法往往更能反映時(shí)間序列的自然特性,產(chǎn)生有意義的結(jié)果?;谀P吞卣鞯臅r(shí)間序列聚類方法可以分為兩種:基于模型參數(shù)特征的時(shí)間序列聚類和基于混合模型的時(shí)間序列聚類(表5)?;谀P蛥?shù)特征的聚類對時(shí)間序列建立模型,然后將該模型的參數(shù)或者擬合的殘差作為時(shí)間序列的模型特征,以此定義合適的相似性度量進(jìn)行聚類;基于混合模型的時(shí)間序列聚類將時(shí)間序列看成由多個(gè)模型組件組成的混合模型,計(jì)算模型各組件的后驗(yàn)概率或?qū)?shù)似然,根據(jù)最大后驗(yàn)概率或最大似然的原則對混合模型各組件中的模型參數(shù)進(jìn)行估計(jì),從而確定時(shí)間序列各簇對應(yīng)的模型。3.3.1基于參數(shù)特征的時(shí)間序列聚類基于參數(shù)特征的聚類方法,與之前基于形態(tài)特征和基于結(jié)構(gòu)特征的聚類方法思路大體相同,主要還是建立模型,用模型參數(shù)定義序列之間的相似性度量。Maharaj[35]針對平穩(wěn)型時(shí)間序列建立了自回歸模型(AR),對自回歸系數(shù)π進(jìn)行估計(jì)。采用零假設(shè):的顯著性作為兩個(gè)時(shí)間序列的相似性度量,聚類結(jié)果可以發(fā)現(xiàn)具有相同自回歸模型的時(shí)間序列。隨后Maharaj將該方法擴(kuò)展到多維時(shí)間序列聚類上,建立了向量自回歸滑動平均模型VARMA[36],同樣采用零假設(shè):的顯著性作為兩條序列的相似性度量。Ramoni則對時(shí)間序列建立馬爾科夫鏈模型[37],將每條時(shí)間序列看成是一個(gè)馬爾科夫鏈,估計(jì)其概率轉(zhuǎn)移矩陣,然后定義了轉(zhuǎn)移矩陣的Kullback-Liebler距離,作為序列之間相似性度量。通過層次聚類法,結(jié)合最大后驗(yàn)概率的原則對時(shí)間序列進(jìn)行聚類。Ramoni等也將該種方法擴(kuò)展到了多維時(shí)間序列聚類上[38]。3.3.2基于混合模型的時(shí)間序列聚類基于混合模型的時(shí)間序列聚類核心問題在于對模型參數(shù)的估計(jì),參數(shù)估計(jì)過程中,初始值的選取也往往對聚類結(jié)果有一定的影響。目前有很多種參數(shù)估計(jì)的方法:Xiong等隨機(jī)選擇初始值,采用EM算法對ARMA模型的混合模型參數(shù)進(jìn)行了估計(jì)[39],應(yīng)用于人口數(shù)據(jù),氣溫?cái)?shù)據(jù)的聚類等。Bicego等則建立隱馬爾科夫模型,先選擇R條時(shí)間序列作為“參考”時(shí)間序列[40],然后通過Baum-Welch算法以及前向后項(xiàng)算法[41]對參數(shù)進(jìn)行估計(jì),其方法優(yōu)于標(biāo)準(zhǔn)的隱馬爾科夫鏈聚類方法,但還是存在隱馬爾科夫鏈隱狀態(tài)數(shù)未知的問題。Oates等則針對此問題,采用DTW距離先對原時(shí)間序列進(jìn)行聚類找出初始劃分,從而推斷出隱狀態(tài)數(shù)的初始值,然后通過迭代計(jì)算找出最優(yōu)的隱馬爾科夫模型[42],但是他并沒有對聚類簇?cái)?shù)的選擇問題進(jìn)行探討。Li等則依據(jù)最大后驗(yàn)概率的原則,對隱馬爾科夫混合模型4個(gè)層次的參數(shù)特征進(jìn)行估計(jì)[43]——包括聚類簇?cái)?shù),劃分的結(jié)構(gòu),隱馬爾科夫模型的結(jié)構(gòu)和隱馬爾科夫模型的參數(shù),從而對時(shí)間序列進(jìn)行聚類。隨后,Li等在該方法基礎(chǔ)上加入了BIC準(zhǔn)則,用來更準(zhǔn)確的選擇聚類簇?cái)?shù)和隱馬爾科夫模型結(jié)構(gòu)[44]。與基于結(jié)構(gòu)特征的時(shí)間序列聚類類似,基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 標(biāo)準(zhǔn)離婚合同全文
- 新能源汽車銷售代理合同
- 商品房買賣合同示例
- 畢業(yè)生檔案托管合同協(xié)議書
- 廣告投放合同「樣本」
- 多人合伙經(jīng)營合同范例大全
- 屋頂防水修繕項(xiàng)目合同
- 戶外廣告LED大屏租賃合同
- 稻谷購銷合同樣本
- 腎性貧血的治療課件
- 團(tuán)意操作流程詳解課件
- SH/T 0356-1996燃料油
- GB/T 9846.4-2004膠合板第4部分:普通膠合板外觀分等技術(shù)條件
- GB/T 17836-1999通用航空機(jī)場設(shè)備設(shè)施
- GB/T 13012-2008軟磁材料直流磁性能的測量方法
- 2023年全國高中生物聯(lián)賽競賽試題和答案
- 第1課中華優(yōu)秀傳統(tǒng)文化的內(nèi)涵與特點(diǎn)課件(共28張PPT)
- 男襯衫縫制工藝課件
- 小學(xué)語文中高學(xué)段單元整體教學(xué)的實(shí)踐研究課題中期報(bào)告
- 《木蘭詩》第二課時(shí)(公開課)課件
- 核電項(xiàng)目人橋吊車抗震計(jì)算書版
評論
0/150
提交評論