函數(shù)數(shù)據(jù)的研究與應(yīng)用_第1頁
函數(shù)數(shù)據(jù)的研究與應(yīng)用_第2頁
函數(shù)數(shù)據(jù)的研究與應(yīng)用_第3頁
函數(shù)數(shù)據(jù)的研究與應(yīng)用_第4頁
函數(shù)數(shù)據(jù)的研究與應(yīng)用_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

函數(shù)數(shù)據(jù)的研究與應(yīng)用

一、函數(shù)數(shù)據(jù)分析的發(fā)展在當前的數(shù)據(jù)分析和過程中,檢測到的數(shù)據(jù)是截面數(shù)據(jù)或塊數(shù)據(jù),但在分析過程中,會發(fā)現(xiàn)這些數(shù)據(jù)在每個時間點都有值。如果值時間太長,這些數(shù)據(jù)點將顯示出數(shù)據(jù)空間的函數(shù)特征。時間點取得越密集,數(shù)據(jù)的函數(shù)性特征就越明顯,如股票指數(shù)。此時,用一些傳統(tǒng)的數(shù)據(jù)分析方法對這樣的數(shù)據(jù)進行分析,并不能取得很好的效果,相反,如果把這些數(shù)據(jù)以函數(shù)數(shù)據(jù)的形式進行分析,會取得很好的結(jié)果。函數(shù)數(shù)據(jù)(FunctionalData,FD)的概念,最早見于加拿大統(tǒng)計學(xué)家J.O.Ramsay于1982年發(fā)表的論文WhentheDataareFunctions,此后,J.O.Ramsay和C.J.Dalzell于1991年發(fā)表的論文SomeToolsforFunctionalDataAnalysis(withDiscussion),正式地提出了函數(shù)數(shù)據(jù)分析(FunctionalDataAnalysis,FDA)的概念。此外,J.O.Ramsay和B.W.Silverman于1997年出版了FunctionalDataAnalysis,書中全面闡述了函數(shù)數(shù)據(jù)的基本特征及其統(tǒng)計分析的方法、思想,極大地推動了函數(shù)數(shù)據(jù)分析這一領(lǐng)域的發(fā)展;后來,J.O.Ramsay和B.W.Silverman于2002年出版了AppliedFunctionalDataAnalysis:MethodsandCaseStudies,書中對于函數(shù)數(shù)據(jù)進行了實證領(lǐng)域的應(yīng)用,開拓了函數(shù)數(shù)據(jù)分析在實際中的應(yīng)用。但是,從目前的情況看來,函數(shù)數(shù)據(jù)分析還是一個新生事物,其研究尚處在一個起步階段,國內(nèi)對此方面的研究基本還是一片空白,目前可查的文獻僅有嚴明義的《函數(shù)性數(shù)據(jù)的統(tǒng)計分析:思想、方法和應(yīng)用》,嚴明義《生活質(zhì)量的綜合評價:基于數(shù)據(jù)函數(shù)性特征的方法》。關(guān)于函數(shù)數(shù)據(jù)聚類分類問題國外許多學(xué)者進行了研究,例如WenceslaoGonzálezManteiga等詳細分析了函數(shù)數(shù)據(jù)的統(tǒng)計方法問題,包括點估計、因子分析及函數(shù)數(shù)據(jù)曲線分類問題;JuanAntonioCuesta-Albertos等提出了一種均勻修正的函數(shù)數(shù)據(jù)K均值聚類方法,并在實證分析中得到了良好的結(jié)果,具有很強的魯棒性;SophieDabo-Niang等分析了一種基于函數(shù)模型比較結(jié)果的函數(shù)數(shù)據(jù)層次聚類方法,并將其應(yīng)用于雷達聲波數(shù)據(jù)的聚類分析中,取得很好的效果;M.Escabias等提出了一種基于部分最小平方(PLS)的logit回歸模型,并將其運用于多元函數(shù)數(shù)據(jù)的分類問題中。著眼于函數(shù)數(shù)據(jù)分析在包括經(jīng)濟領(lǐng)域等各個領(lǐng)域的廣闊的應(yīng)用前景,本文也從聚類分析方面對函數(shù)數(shù)據(jù)的分析進行探討,提出了一種全新的函數(shù)數(shù)據(jù)聚類分析方法。二、函數(shù)數(shù)據(jù)的基本特征(一)坐標體系的構(gòu)成函數(shù)數(shù)據(jù),顧名思義,數(shù)據(jù)是以函數(shù)的形式出現(xiàn)的,其最大的特征就是函數(shù)性。它具有一般函數(shù)所具有的所有特征,可以對其進行函數(shù)分析。在坐標體系中,每一個樣本的數(shù)據(jù)都表征為一條函數(shù)圖像,可能光滑,也可能不光滑。樣本在每一個屬性上的取值都是關(guān)于某個自變量的一個函數(shù),也就是說,樣本在屬性上的取值不再像傳統(tǒng)的多元統(tǒng)計分析中處理的數(shù)據(jù)都是樣本在屬性上的離散取值,而表征為一個帶有過程性的數(shù)據(jù)。例如,某一地區(qū)的降雨量數(shù)據(jù),隨著時間點設(shè)置的越細,數(shù)據(jù)也變得越來越稠密,在坐標系中就表示為一條關(guān)于時間t的函數(shù)。(二)構(gòu)成函數(shù)的定義面板數(shù)據(jù)是在時間序列上取多個截面,然后在這些截面上每個樣本分別對每個屬性進行取值,即對于每一個屬性來說,樣本是在有限個時間點上進行取值,取得的數(shù)據(jù)是離散型數(shù)據(jù);而函數(shù)數(shù)據(jù)是樣本在時間軸上的每一個點都對屬性進行取值,任意一個樣本在屬性上的取值都是關(guān)于時間t的函數(shù),它是一個連續(xù)型數(shù)據(jù),具有過程性??梢哉f,函數(shù)數(shù)據(jù)是面板數(shù)據(jù)連續(xù)化后的結(jié)果。(三)離散數(shù)據(jù)的平滑通常來說,人們無法直接獲得函數(shù)數(shù)據(jù),所能獲得的只是觀測到一個個的離散樣本點,因此,在進行函數(shù)數(shù)據(jù)分析之前,首要的工作是將觀測到的一個個離散的樣本點進行函數(shù)擬合,從而獲得函數(shù)型數(shù)據(jù)。常用的擬合方法是平滑法(smoothing)和插值法(interpolation)。如果觀測到的離散值沒有觀測誤差,是精確值,那么擬合的過程就叫做插值,如果觀測到的離散值具有觀測誤差,且需要消除這些觀測誤差,那么擬合的過程就叫做平滑。常用的平滑方法有:線性平滑法、基函數(shù)平滑法、核函數(shù)平滑法。利用這兩種方法擬合后的函數(shù)表達式是連續(xù)的。通常來說,人們所獲得的觀測值大多是有觀測誤差的,因此在將離散數(shù)據(jù)轉(zhuǎn)化為函數(shù)形式時,需要對數(shù)據(jù)進行光滑處理,常用基函數(shù)的方法來處理。常用的基函數(shù)有傅立葉基(Fourierbasis)、B-樣條基(B-splinebasis)、多項式基(Polynomialbasis)、小波基(Waveletbases)和伯恩斯坦基(Bernstein)等等。三、基于函數(shù)的區(qū)間聚類方法在傳統(tǒng)的多元統(tǒng)計分析理論中,聚類分析的基本思想是基于比較樣本點在數(shù)據(jù)空間中的疏密程度進行的。常用的聚類方法的核心都是通過計算出樣品之間的距離來進行聚類的。對于兩個二維的函數(shù)數(shù)據(jù)樣本點i和j,它們之間的歐拉距離可以定義為:Dij=(xi(t)-xj(t))2+(yi(t)-yj(t))2其中樣本i的數(shù)據(jù)取值為(xi(t),yi(t)),樣本j的數(shù)據(jù)取值為(xj(t),yj(t))。從上面這個距離表達式,可以發(fā)現(xiàn),由于聚類的數(shù)據(jù)是函數(shù)數(shù)據(jù),使得兩個樣品之間的距離也是一個關(guān)于自變量t的函數(shù),它的大小將隨著t的變化而變化,是動態(tài)的,這就使得我們無法準確地判斷樣品間距的大小,給聚類帶來了極大的困難??梢哉f,因為函數(shù)數(shù)據(jù)特有的函數(shù)性,使得傳統(tǒng)的聚類方法在分析函數(shù)數(shù)據(jù)時不再有效,也很難獲得很好的聚類結(jié)果。因此,針對函數(shù)數(shù)據(jù)的出現(xiàn),有必要改變傳統(tǒng)聚類方法的著眼點,充分利用函數(shù)數(shù)據(jù)特有的性質(zhì),提出一種新的適合函數(shù)數(shù)據(jù)的聚類分析方法?;谏鲜鰡栴}的存在,以及考慮到函數(shù)數(shù)據(jù)強烈的函數(shù)特征,本文提出了一種基于函數(shù)特征分析的函數(shù)數(shù)據(jù)的區(qū)間聚類方法。該方法通過分析數(shù)據(jù)的函數(shù)特征,對數(shù)據(jù)進行求導(dǎo),從而將函數(shù)數(shù)據(jù)進行區(qū)間劃分,然后再在每一個劃分好的區(qū)間上,對樣品進行導(dǎo)數(shù)分析,將具有相同函數(shù)特征的數(shù)據(jù)區(qū)間聚成一類,從而達到聚類的目的?;舅枷肴缦滤?(以下說明均以一維數(shù)據(jù)為例)(一)函數(shù)的單調(diào)性以及聚類分析的方法對于一個擬合好的函數(shù)數(shù)據(jù),就可以進行函數(shù)特征分析,求解其一階導(dǎo)數(shù)和二階導(dǎo)數(shù),從而確定出數(shù)據(jù)圖像的極值點和拐點,并利用極值點和拐點將函數(shù)數(shù)據(jù)進行區(qū)間劃分,這樣就保證了每一個劃分好的區(qū)間都是單調(diào)的。由于一階導(dǎo)數(shù)表示了數(shù)據(jù)的變化速度的大小,因此,可以根據(jù)數(shù)據(jù)變化速度的大小來進行聚類,比如,把數(shù)據(jù)值不斷增加的區(qū)間聚成一類,而把數(shù)據(jù)值不斷減小的區(qū)間聚成一類,轉(zhuǎn)化為函數(shù)語言就是,根據(jù)函數(shù)的單調(diào)性進行聚類分析,把單調(diào)增加的區(qū)間聚為一類,把單調(diào)減少的區(qū)間聚為一類。進一步地,如果根據(jù)一階導(dǎo)數(shù)得到的聚類個數(shù)太少,對區(qū)間的劃分過粗,可以在已經(jīng)聚類好的單調(diào)區(qū)間,求出函數(shù)的二階導(dǎo)數(shù),也就是數(shù)據(jù)值變化的加速度,可以根據(jù)加速度進一步地對已經(jīng)聚在一起的單調(diào)區(qū)間內(nèi)的數(shù)據(jù)進行劃分聚類,比如可以把加速度大于0的數(shù)據(jù)區(qū)間聚為一類,把加速度小于0的數(shù)據(jù)區(qū)間聚為一類。(二)區(qū)間劃分的基本過程在多個樣品的情況下,每個樣品數(shù)據(jù)都是一個關(guān)于自變量t的函數(shù),其區(qū)間聚類的方法是在單個樣品的區(qū)間聚類基礎(chǔ)上產(chǎn)生的。但是,這里將數(shù)據(jù)進行區(qū)間劃分的方法與單個樣品的區(qū)間劃分方法有所區(qū)別,具體方法是:首先利用求解導(dǎo)數(shù)得到每個樣本各自的區(qū)間劃分臨界點,然后將所有樣品單獨進行區(qū)間劃分的臨界點按從小到大的順序排列起來,利用排列好的臨界點依次將自變量的定義域進行區(qū)間劃分,這樣就相當于在全局上對數(shù)據(jù)進行區(qū)間劃分,可以保證每一個區(qū)間內(nèi)的樣品數(shù)據(jù)都是單調(diào)的,再利用數(shù)據(jù)的變化速度即函數(shù)單調(diào)性在每一個區(qū)間上對樣品進行聚類。當樣品數(shù)目較多時,僅僅根據(jù)一階導(dǎo)數(shù)的特征得到的區(qū)間聚類結(jié)果中的每一個類中的樣品個數(shù)可能會比較多,那么,進一步地,對于每一個區(qū)間,可以求出每一個函數(shù)數(shù)據(jù)的二階導(dǎo)數(shù),根據(jù)數(shù)據(jù)變化的加速度在每一個區(qū)間對樣品進行更細地聚類,這樣就可以得到每一個區(qū)間內(nèi)的樣品數(shù)據(jù)的聚類結(jié)果。四、數(shù)據(jù)處理與聚類分析為了更加清晰地說明上述方法的基本思想,這里選擇了中國中部六省1980~2005年間的就業(yè)人口的數(shù)據(jù)來進行分析,數(shù)據(jù)如表1所示。因為所獲得的數(shù)據(jù)是離散的,所以首先需要將離散化數(shù)據(jù)轉(zhuǎn)化為函數(shù)形式。由于統(tǒng)計數(shù)據(jù)和實際具有一定的誤差,因此本文采用基函數(shù)光滑法來進行數(shù)據(jù)修勻和擬合,將數(shù)據(jù)中的觀測誤差盡可能地消除掉,并且通過控制基函數(shù)的個數(shù)來使得擬合后的函數(shù)盡可能地光滑,減小波動性。本文選擇多項式基函數(shù)擬合的方法來對數(shù)據(jù)進行擬合,利用Origin軟件編寫程序和分析,得到如下數(shù)據(jù)擬合圖,如圖1所示。接著,對這些擬合后的函數(shù)進行函數(shù)特征分析,由于這里樣本數(shù)僅僅有6個,因此,在進行函數(shù)特征分析時只需進行一階導(dǎo)數(shù)即單調(diào)性分析。利用Origin軟件進行分析,可以求它們的一階導(dǎo)數(shù),得到它們各自的極值點和拐點,從而確定函數(shù)數(shù)據(jù)的劃分區(qū)間。具體結(jié)果如表2所示。根據(jù)如上的函數(shù)特征分析結(jié)果,可以得到每一個函數(shù)的區(qū)間劃分臨界點,將這些臨界點按從小到大的順序依次排列起來,利用這些排序后的臨界點對六個函數(shù)進行區(qū)間劃分,得到的劃分區(qū)間為:[1980,1995)、[1995,1996.3)、[1996.3,2001.1)、[2001.1,2002.5)和[2002.5,2005]。這樣,就可以分別在五個區(qū)間中根據(jù)一階導(dǎo)數(shù)特征對樣品進行聚類,得到的結(jié)果如表3所示。這樣,通過對離散數(shù)據(jù)的擬合得到樣品數(shù)據(jù)的函數(shù)表達式,再經(jīng)過對函數(shù)表達式的函數(shù)特征分析,就得到了不同的區(qū)間上樣品聚類的結(jié)果。從整體上來看,聚類結(jié)果較好地反映了實際問題。由于中部六省具有相似的社會發(fā)展背景,經(jīng)濟狀況都處于全國的中游水平,這些宏觀背景必然決定了它們在不同年份的就業(yè)人口具有很強大的相似性,這就導(dǎo)致每一區(qū)間上得到的聚類個數(shù)較少。此外,從整個函數(shù)圖像上看,雖然各個省的就業(yè)人員數(shù)目在一些年份是減少的,但總的趨勢是不斷增加的,一方面是人口增加的結(jié)果,另一方面也是省域經(jīng)濟的快速發(fā)展,就業(yè)崗位和機會大大增加的結(jié)果。五、結(jié)論及問題的提出函數(shù)數(shù)據(jù)作為目前數(shù)據(jù)分析中出現(xiàn)的一種新型數(shù)據(jù),具有很強的實際分析意義和很好的實用性。在實際生活中,有很多函數(shù)型數(shù)據(jù),比如股價指數(shù)、每一年的降雨量等等??梢哉f,函數(shù)數(shù)據(jù)極大地充實了數(shù)據(jù)分析這一領(lǐng)域,而函數(shù)數(shù)據(jù)分析這一課題的出現(xiàn)對于更好地分析和解決實際問題提供了更加有力的工具。本文僅從聚類分析這一個角度探討了函數(shù)數(shù)據(jù)的聚類分析問題。由于函數(shù)數(shù)據(jù)的特有特征,無法按照傳統(tǒng)的方法對其進行聚類,因此,本文在分析函數(shù)數(shù)據(jù)時改變了傳統(tǒng)聚類方法的著眼點,通過深入分析函數(shù)數(shù)據(jù)的函數(shù)特征,在求解導(dǎo)數(shù)的基礎(chǔ)上提出了一種基于導(dǎo)數(shù)分析的函數(shù)數(shù)據(jù)區(qū)間聚類方法,并且根據(jù)函數(shù)數(shù)據(jù)的性質(zhì),區(qū)別了單個樣品的聚類和多個樣品的聚類。同時,本文利用中部

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論