下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 時間序列數據挖掘關鍵問題分析 段淑敏(開封大學,河南開封475000)摘要時間序列作為當前人們生產和生活中常見的一類數據形式,被廣泛應用于經濟管理和工程設計等領域中。由于其本身所具備的動態(tài)性、繁雜性和高維性以及大規(guī)模的特征,所以如果直接對其進行數據挖掘,則不僅會花費高昂的價格來儲存和計算相關數據,而且會影響算法的可靠性和準確性。本文以時間序列數據挖掘為研究對象,就其在實際應用中的幾個關鍵問題進行了探究。關鍵詞數據挖掘;時間序列;數據庫doi10.13939/ki.zgsc.2016.3.038在數據庫技術迅猛發(fā)展和數據庫管理系統(tǒng)日臻完善的今天,數據庫的規(guī)模與日俱增,數量不斷增多,并且這些激增
2、的數據中包含著非常重要的信息,所以傳統(tǒng)的數據庫存儲和查詢方法已經無法滿足人們對數據中隱含知識的渴求。而時間序列數據挖掘技術則可以有效地解決上述問題,并且可以在確保數據挖掘可靠性和準確性的基礎上大大降低運行成本。因此,對于時間序列數據挖掘在實踐應用中的關鍵問題進行分析和探究具有非常重要的意義。1時間序列數據挖掘概述1.1時間序列數據挖掘的含義通常而言,各個數據單元均可以由一個數據變量和時間變量所組成的二元組來加以表示,比如股票價格和商品的銷售金額等,所以可以將這些數據按照時間的順序加以排列,這樣就構成了所謂的時間序列數據庫。在這些時間序列數據中包含著許多未知的有用信息,具有很高的挖掘價值。而時間
3、序列數據挖掘就是從這些大型的時間序列數據庫中找到人們所需要的各種有用數據。1.2時間序列數據挖掘的內容在對當前國內外就時間序列數據挖掘方面的研究進行分析,可以將其歸納為時間序列數據變換、時間序列數據可視化、時間序列數據庫相似搜索、時間序列聚類分類分析、時間序列預測以及時間序列分割與模式發(fā)現等幾個主要的組成部分。其中的時間序列數據變換實際上就是將原始狀態(tài)下所對應的時間序列在某個特征空間下的映像時間序列來對最初的原始時間序列進行描述,其可以有效地減少計算所花費的成本,并且實際的數據壓縮率更高;時間序列數據可視化則是將那些繁雜的時間序列在數據挖掘技術、虛擬現實技術以及圖形圖像技術等先進技術的應用下而
4、變得直觀化、形象化,以便于人們更好地理解;時間序列聚類和分類分析則是根據時間粒度和模式長度的不同而將待處理的序列數據進行適當的分割和聚類處理,以便于更好地進行分析;時間序列數據庫相似搜索則是遵循相應的搜索算法來對于那些相似性時間序列數據庫進行搜索,以避免出現漏報問題;時間序列分割與模式發(fā)現主要用于時間序列的分割算法應用中以及系統(tǒng)模型變化的檢測中,其已經成為當前我國在時間序列數據挖掘研究中的重要課題,具有很高的研究價值。2時間序列數據挖掘中若干關鍵問題的分析2.1傳統(tǒng)時間序列數據挖掘的過程和分類分析首先,從數據挖掘的過程來講,傳統(tǒng)時間序列數據挖掘過程可以主要分成以下幾個步驟:數據準備、數據挖掘、
5、結果分析和知識同化。其次,從數據挖掘的分類來講,時間序列數據挖掘的主要任務就是從龐大的數據庫中找尋到用戶所需的數據。根據數據挖掘作用模式的不同,可以將其分成分類模式、偏差分析和序列模式等預測性模式和關聯(lián)模式、聚類模式等描述型模式,并且描述型模式一般不能直接應用于預測。而就具體的時間序列數據挖掘的分類而言,其主要包括分類模式、關聯(lián)規(guī)則、聚類模式偏差分析、序列模式和回歸模式等幾個部分,下面就這幾個部分的主要內容進行詳細的闡述。第一,序列模式。序列模式是數據挖掘中一個非常重要的研究課題,其已經廣泛應用于各行各業(yè)中,比如疾病診斷、dna序列分析、自然災害預測、web訪問模式的預測等,并且該種模式與管理
6、規(guī)則之間比較類似,其也是重點把握數據間的聯(lián)系。但是為了發(fā)現序列模式,相關人員必須要確定事件有無發(fā)生以及事件發(fā)生的時間。比如,在購買彩色電視的人群中,有50%的人群會選擇在半年內購買影碟機。第二,關聯(lián)規(guī)則。關聯(lián)規(guī)則又被稱為管理模式,其實際上就是形如xy的邏輯關系式,并且其中的x和y分別代表數據庫中屬性取值的判斷。在當前的管理規(guī)則算法中,常用的關聯(lián)規(guī)則算法策略是將其分解成兩個主要的子任務,即頻繁項集的產生和規(guī)則的產生。第三,分類模式。分類的概念實際上就是在已有訓練集或者數據集的基礎上來構造一個分類模型或者分類函數,并將其應用于實際的數據預測中來確保數據的挖掘的質量。第四,回歸模式。與分類模式類似,
7、回歸模式的函數定義也是借助相應的數學集合模型來表示,但是其預測值是連續(xù)的,這點與分類模式預測值的離散性是相互區(qū)別的。第五,偏差分析。在時間序列數據庫中不可避免地會出現一些異常的記錄,找出這些異常記錄在確保數據挖掘質量方面具有重要的意義。偏差包含許多潛在的知識,比如分類中不規(guī)則的特例、反常實例或者偏差預測值過大的模型等。第六,聚類模式。所謂的聚類實際上就是將一組時間序列數據按照差異性和相似性規(guī)程來進行合適的分類,以盡可能地減小同類別數據間的差異性,增強他們之間的相似性,提高數據挖掘的質量。2.2傳統(tǒng)時間序列數據挖掘的方法分析理論上來講,傳統(tǒng)時間序列數據挖掘方法主要包括決策樹方法、神經網絡方法、粗
8、集方法、遺傳算法、模糊集方法、統(tǒng)計分析方法、概念樹方法、可視化技術和貝葉斯網絡等幾種常用的數據挖掘方法。比如其中的神經網絡方法具有自適應性、自組織性和魯棒性好的優(yōu)勢,非常適合用于解決數據挖掘中存在的各種問題,是近些年人們關注度比較大的一種方式,并且其更加適合于當前我國市場數據庫的建模與分析;概念樹方法則是對時間序列數據庫中記錄的屬性字段按照歸類的方法進行抽象所得到的層次結構,這點與我國所指定的省市縣地區(qū)結構分布類似;可視化技術則大大拓寬了我國傳統(tǒng)圖表所具有的功能,可以使人們更加清楚地剖析時間序列數據,同時也可以更好地歸納數據中存在的規(guī)律性;粗集方法則是一種研究不確定、不精確數學知識的工具,其具
9、有操作簡便、算法簡單等優(yōu)點,所以是當前常用的一種方法。2.3傳統(tǒng)時間序列數據挖掘的局限性通常而言,建模是時間序列數據挖掘的前提和基礎,但是所建模型大都局限于常參數、平穩(wěn)的單變量carma模型或arma模型,所以實際的數據挖掘過程中可能存在一定的誤差,準確性和可靠性無法得以保證。另外,其局限性還表現為以下幾個方面:建模方法所采用的非線性最小二乘法或者最大似然法的計算量非常大,并且計算的可靠性比較低;沒有考慮到噪聲污染所對應的時間序列,即數據的濾波問題沒有得到有效地估計處理;實際所用的分析方法主要為譜分析法(或頻域方法)等,所以為了確保結果的可靠性和準確性,就必須要對這些局限性問題進行切實解決。而
10、現代時間序列數據挖掘方式則可以有效地突破上述傳統(tǒng)時間序列數據挖掘中存在的種種局限點,不僅可以簡化建模及其計算的方法,也可以用新型的新息方法和狀態(tài)空間方法來取代傳統(tǒng)時間序列,還可以有效地應用自校正和自適應預測原理來分析現代時間序列,同時也可以有效地提升時間序列挖掘的質量。因此,在實際的應用中,相關人員必須要不斷發(fā)展、改造和創(chuàng)新時間序列的分析方式和手段??傊S著數據收集技術和存儲技術的快速發(fā)展以及數據庫管理系統(tǒng)的日臻完善,人們所積累的數據也越來越多,同時這些與日俱增的數據背后也涵蓋了大量的重要數據信息,但是傳統(tǒng)的時間序列數據挖掘手段卻無法深入分析這些數據。因此,相關人員必須要采用現代時間序列數據挖掘手段,同時要不斷完善和創(chuàng)造新的方法,從而更好地使用當前與日倶增的時間序列數據。參考文獻:1劉勁松.數據挖掘中的現代時間序列分析方法j.信息技術,20
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版門窗行業(yè)市場拓展與渠道建設合同4篇
- 2025版寵物醫(yī)院害蟲防治與寵物健康服務合同4篇
- 2025年度鎳氫電池關鍵部件研發(fā)與制造合同4篇
- 二零二五年度智慧交通管理系統(tǒng)詢價合同協(xié)議書3篇
- 二零二五年度智能交通管理系統(tǒng)采購合同樣本3篇
- 二零二五年度奶業(yè)集團奶制品品牌授權及銷售合同
- 2025年度路燈采購安裝及LED照明產品研發(fā)合同3篇
- 二零二五年度機關辦公樓物業(yè)智能化升級改造服務合同5篇
- 2025年度智能化培訓學校教師團隊聘用合同4篇
- 二零二五年度模特廣告代言聘用合同
- 數學-山東省2025年1月濟南市高三期末學習質量檢測濟南期末試題和答案
- 中儲糧黑龍江分公司社招2025年學習資料
- 河南退役軍人專升本計算機真題答案
- 湖南省長沙市2024-2025學年高一數學上學期期末考試試卷
- 船舶行業(yè)維修保養(yǎng)合同
- 駕駛證學法減分(學法免分)試題和答案(50題完整版)1650
- 2024年林地使用權轉讓協(xié)議書
- 物流有限公司安全生產專項整治三年行動實施方案全國安全生產專項整治三年行動計劃
- 2025屆江蘇省13市高三最后一卷生物試卷含解析
- 產鉗助產護理查房
- 招聘專員轉正述職報告
評論
0/150
提交評論