版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 黃瑋婷數(shù)據(jù)倉庫技術在天氣預報決策中的應用【摘要】數(shù)據(jù)倉庫技術將原始數(shù)據(jù)轉(zhuǎn)換為便于分析的數(shù)據(jù),并增強了管理和使用歷史數(shù)據(jù)及特種觀測數(shù)據(jù)的能力,能夠幫助預報員快速積累經(jīng)驗,OLAP使預報員的分析突破了過去固有框架的限制。數(shù)據(jù)倉庫技術作為數(shù)據(jù)庫技術新的應用,經(jīng)過數(shù)年的發(fā)展已經(jīng)逐漸完善,將數(shù)據(jù)倉庫技術應用于天氣預報中將會給氣象服務保障能力的提高產(chǎn)生巨大的推動作用?!娟P鍵詞】數(shù)據(jù)倉庫;聯(lián)機分析;數(shù)據(jù)挖掘引言目前國內(nèi)外的預報員工作平臺在天氣預報決策支持方面主要是以提供數(shù)據(jù)查詢?yōu)橹?,講預報員常用的預報圖表在計算機中集成地顯示出來,同時也提供了一些初步的數(shù)據(jù)分析功能。但只有這些功能是不夠的
2、。首先,現(xiàn)代化天氣預報業(yè)務系統(tǒng)提供的很多數(shù)據(jù),預報員基本沒有使用經(jīng)驗,同時在業(yè)務工作中預報員每次匯總分析數(shù)據(jù)和會商的時間很有限,使預報員既無時間也無經(jīng)驗充分利用現(xiàn)代化系統(tǒng)提供的豐富數(shù)據(jù)。其次,各臺站在長期的業(yè)務工作中積累了大量歷史數(shù)據(jù),要有效利用這些數(shù)據(jù),就必須增加管理和分析歷史數(shù)據(jù)的工具。最后,隨著探測技術的迅速發(fā)展,中尺度觀測網(wǎng)和特種觀測網(wǎng)的建立,增加了許多非常規(guī)的氣象數(shù)據(jù),要有效地管理和應用這些數(shù)據(jù),也必須增加管理和分析這些特種數(shù)據(jù)的能力。因此,將數(shù)據(jù)倉庫作為新一代預報決策系統(tǒng)的核心技術是值得嘗試的。一、 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術的基本概念數(shù)據(jù)挖掘DM(Data Mining)是指從數(shù)據(jù)中
3、識別出潛在有用的、先前未知的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘提取的知識可以表示成概念、規(guī)律、模式等形式。其挖掘?qū)ο蟛粌H可以是數(shù)據(jù)庫,也可以是文件系統(tǒng)或組織在一起的數(shù)據(jù)集合,更主要的是數(shù)據(jù)倉庫。簡單的說數(shù)據(jù)挖掘是提取或“挖掘”知識。 數(shù)據(jù)倉庫(Data Warehouse)的概念是有Inmon首先提出來的,講數(shù)據(jù)倉庫定義為一個支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、隨時間而變的數(shù)據(jù)集合。二、氣象數(shù)據(jù)與天氣預報業(yè)務特點(1)表數(shù)據(jù)種類多:各級氣象臺站日常收集的資料通常包括各種模式物理量場的空間格點資料、氣象觀測站點的地面(及海上)和高空實況資料以及衛(wèi)星、雷達的探測資料,以及本地的氣
4、象觀探測資料,還有根據(jù)任務需要而實施的其他氣象觀探測資料,每種氣象數(shù)據(jù)資料又包含若干類數(shù)據(jù),因此數(shù)據(jù)種類非常多.(2)數(shù)據(jù)量大:各級氣象臺站收集的各種資料每天都有若干時次,收集、存儲的數(shù)據(jù)資料數(shù)據(jù)總量達上百兆,總的資料甚至可達GB量級.(3)預報業(yè)務范圍廣:從大類分為統(tǒng)計預報和數(shù)值預報,而每類又包括若干種天氣預報項目如天氣形勢、物理量場、天氣現(xiàn)象、氣象要素等,決定了天氣預報所需的氣象數(shù)據(jù)多(4)氣象數(shù)據(jù)需要精心篩選:氣象臺站每天收集的數(shù)據(jù)很多,但并不是所有的數(shù)據(jù)對所有的氣象臺站進行的氣象預報業(yè)務都有用,所需要的數(shù)據(jù)也可能很多也可能很少,這需要氣象預報專家根據(jù)預報業(yè)務項目的需要對氣象數(shù)據(jù)資料進行
5、嚴格的精心篩選.(5)數(shù)據(jù)的深加工應用:通過人工或儀器觀探測到的數(shù)據(jù)不足以充分反映大氣系統(tǒng)的物理結(jié)構(gòu)和物理場,只有經(jīng)過對數(shù)據(jù)進行更深層次的篩選及計算,才能計算出大氣的運動矢量、垂直運動、梯度、渦度、散度等物理量,從而更好地認識大氣演變的規(guī)律及模式,進而提高氣象預報的能力與水平.(6)數(shù)據(jù)可挖掘性高:由于氣象預報理論和氣象預報模型在某種程度上還具有一定的不完善性與不完備性,在天氣預報實踐中常常表現(xiàn)為預報準確率低以及一些氣象預報業(yè)務無法高效率地展開,隨著數(shù)據(jù)倉庫技術在天氣預報業(yè)務的應用,數(shù)據(jù)挖掘技術必將挖掘出大量的相關數(shù)據(jù),促進氣象預報理論和氣象預報模型進一步完善與完備.(7)數(shù)據(jù)更新要求低:天氣
6、系統(tǒng)的演變有一定規(guī)律,而且氣候變遷是一個漫長的過程,從而決定了數(shù)據(jù)不需要頻繁更新三、數(shù)據(jù)倉庫設計要點1確定主題與開發(fā)模式數(shù)據(jù)倉庫是面向主題的,數(shù)據(jù)倉庫設計首先要考慮所面向的主題,主題要針對具體的預報項目確定,主題的確定將決定數(shù)據(jù)倉庫的規(guī)模和數(shù)據(jù)倉庫數(shù)據(jù)組織模型及使用效果.對于基層氣象臺站技術力量相對薄弱,可以考慮從日常常規(guī)預報項目入手,在使用數(shù)據(jù)倉庫的過程中再逐步擴大與完善數(shù)據(jù)倉庫.由于各氣象臺站以前和現(xiàn)在使用的數(shù)據(jù)庫系統(tǒng)都是關系型數(shù)據(jù)庫系統(tǒng),從節(jié)省成本和降低復雜性角度出發(fā),在建立數(shù)據(jù)倉庫時建議考慮建立關系型數(shù)據(jù)倉庫.如果僅僅從氣象數(shù)據(jù)特點角度考慮,建立多維數(shù)據(jù)倉庫也是一種理想的選擇.在天氣預
7、報中,有些不同的預報項目需要的數(shù)據(jù)是相同的,建立統(tǒng)一的數(shù)據(jù)倉庫,采用“自頂向下”的開發(fā)模式,可以避免數(shù)據(jù)的重復處理.“自頂向下”模式中數(shù)據(jù)集市和數(shù)據(jù)倉庫的關系是單方面的,數(shù)據(jù)從數(shù)據(jù)倉庫流向數(shù)據(jù)集市.2數(shù)據(jù)建模數(shù)據(jù)建模在數(shù)據(jù)倉庫環(huán)境中,為了讓不具備數(shù)據(jù)庫專業(yè)知識的預報專家容易理解和使用數(shù)據(jù)倉庫中的數(shù)據(jù)模式,必須設計成簡單的數(shù)據(jù)模式.氣象業(yè)務數(shù)據(jù)根據(jù)觀探測手段和業(yè)務需要分成地面觀測數(shù)據(jù)、高空探測數(shù)據(jù)、雷達探測數(shù)據(jù)、數(shù)值預報產(chǎn)品數(shù)據(jù)等,每一類數(shù)據(jù)又可再具體細分,從氣象業(yè)務數(shù)據(jù)角度分析數(shù)據(jù)模型設計成雪片模型是比較合適的.在下面建立了雪片模型(見圖3,由于數(shù)值預報產(chǎn)品涉及物理量及其產(chǎn)品類型都很多,數(shù)據(jù)量
8、很大,鑒于篇幅原因模型中略去不再給出),這里建立的數(shù)據(jù)模型是根據(jù)陸基氣象臺站的預報業(yè)務需要的數(shù)據(jù)模型,對于島嶼氣象臺站由于預報任務以及海洋性氣候與陸地氣候的差異,收集的數(shù)據(jù)稍有差異,但不影響數(shù)據(jù)建模的選擇.這里建立的數(shù)據(jù)模型沒有對數(shù)據(jù)進行綜合與加工處理,這樣的數(shù)據(jù)大部分還不能在氣象預報中直接應用,必須進行進一步的計算加工處理.在氣象預報中即使對很簡單的氣象要素進行預報也要涉及到大量的數(shù)據(jù),并且即使對同一種氣象要素進行預報,不同的地區(qū)、不同的站點所要考慮的因素往往差距也很大,所以各基層臺站需要針對特定業(yè)務在全局統(tǒng)一數(shù)據(jù)倉庫的基礎上建立自己的數(shù)據(jù)集市,數(shù)據(jù)從數(shù)據(jù)倉庫流向數(shù)據(jù)集市,在數(shù)據(jù)集市從數(shù)據(jù)倉
9、庫提取數(shù)據(jù)時根據(jù)氣象預報需求對數(shù)據(jù)進行計算、綜合等加工處理。3數(shù)據(jù)抽取為保證數(shù)據(jù)的一致性,需要整理和檢驗裝載到數(shù)據(jù)倉庫前的源數(shù)據(jù),清除有問題的數(shù)據(jù),以保證進入數(shù)據(jù)倉庫的數(shù)據(jù)是一致的,同時還要對數(shù)據(jù)倉庫的數(shù)據(jù)進行一致性維護.建立數(shù)據(jù)倉庫的大部分工作量實際上主要集中在數(shù)據(jù)的抽取與裝載過程中.由于各種原因氣象資料中肯定存在著一定的錯誤數(shù)據(jù),這些數(shù)據(jù)在進入數(shù)據(jù)倉庫之前必須予以處理.設計源數(shù)據(jù)的抽取規(guī)則或模型時要慎重考慮,要根據(jù)不同情況、不同原因做出相應處理.4數(shù)據(jù)集市數(shù)據(jù)集市是用于特殊目的的數(shù)據(jù)倉庫部分,在氣象預報中根據(jù)特定的項目建立數(shù)據(jù)集市,重點從氣象預報角度出發(fā)考慮所需要的數(shù)據(jù)以及對數(shù)據(jù)的加工處理
10、.例如以某站風的預報建立一個數(shù)據(jù)集市,需要考慮氣壓、過去3h變壓、氣溫、空中風、逆溫等項要素數(shù)據(jù),在偏東大風預報中,偏東大風主要是因為冷空氣從偏東路經(jīng)南下造成的,預報思路冷空氣強度及空中低層風出發(fā),對氣壓、空中風、氣溫等項要素數(shù)據(jù)進行處理建立數(shù)據(jù)集市,經(jīng)進一步計算處理后建立預報方程為,、是本站氣壓與上游站臺站間的氣壓差,是上游某兩站之間的氣壓差,是本站過去3h變壓與上游過去3h正變壓中心的變壓差,是與上游某站的氣溫差,、是本站及上游某站1000m以下低層空中風平均風速,是本站低層逆溫層溫差,為24h日本FSAS預報傳真圖冷高壓中心與本站氣壓梯度.因為不同的臺站具有自己的地方性特點,影響風的各要
11、素擇重點考慮也不同,這就要各臺站在設計時要考慮選取哪些臺站,對氣壓、氣溫以及空中風哪個作為側(cè)重點進行計算.對于其他的氣象預報業(yè)務項目同樣存在這樣的問題,這些問題的良好解決必須由氣象預報專家來完成.5.聯(lián)機分析處理(OLAP)和數(shù)據(jù)挖掘(DM)聯(lián)機分析處理(OLAP:OnLineAnalyticalProcessing)能提供數(shù)據(jù)的多維概念視圖,多維數(shù)據(jù)集為維度表中的數(shù)據(jù)和數(shù)據(jù)倉庫中的事實數(shù)據(jù)表建立模型,數(shù)據(jù)的多維實體使最終用戶能多角度、多側(cè)面、多層次地考察數(shù)據(jù),從而深入地理解包含在數(shù)據(jù)中的信息及其內(nèi)涵.數(shù)據(jù)挖掘(DM:DataMining)是對數(shù)據(jù)庫中大量的數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化
12、處理,從中提取輔助決策的關鍵性數(shù)據(jù).在氣象預報中由于各種原因,預報員對于某些天氣現(xiàn)象的產(chǎn)生機制以及影響因素認識不夠充分,通過聯(lián)機分析和數(shù)據(jù)挖掘可以將這些不為預報員事先知道的信息和知識提取出來,并從預報理論與模型出發(fā),結(jié)合觀測記錄設定預報因子,對數(shù)據(jù)進行綜合、計算等處理,利用聯(lián)機分析處理對相關數(shù)據(jù)進行分析考察,找出預報指標,完善預報理論與模型和預報手段,提高預報準確率.仍以前面提到的某站偏東大風的預報為例,對數(shù)據(jù)進行聯(lián)機分析和挖掘處理發(fā)現(xiàn)了x3,x7,x9因子,重新建立預報方程,偏東大風分級預報分別準確率提高到了86.98%,88.79%,84.67%(風速12m/s,812m/s,<8m/s),提高了預報準確率.聯(lián)機分析處理和數(shù)據(jù)挖掘常用方法很多,應注意到結(jié)合氣象預報業(yè)務特點有選擇的利用。四、總結(jié)數(shù)據(jù)倉庫技術本質(zhì)是一種人工智能技術,它根據(jù)預報專家在業(yè)務中使用的各個概念把原始數(shù)據(jù)轉(zhuǎn)換為分析型數(shù)據(jù),DM技術自動在分析性數(shù)據(jù)集上尋找各種概念之間的關系,幫助預報員快熟累計經(jīng)驗,OLAP使預報員的分析突破了過去固有的框架的限制,元數(shù)據(jù)庫增強了系統(tǒng)管理歷史和特種觀測數(shù)據(jù)的能力。氣象數(shù)據(jù)挖掘能彌補氣象模式預報對計算資源依賴的不足,能發(fā)現(xiàn)隱藏在復雜氣象數(shù)據(jù)中的隱含知識,是提高預報預測準確率和災害天氣預警能力有益補充
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度水陸聯(lián)運貨物保險及運輸合同
- 二零二五年度新能源儲能技術聘用合同8篇
- 二零二四年度信息化設備融資租賃管理合同3篇
- 課件:正確認識高職院校內(nèi)部質(zhì)量保證體系診斷與改進
- 二零二五年度牧草生物質(zhì)能項目合作協(xié)議4篇
- 2025版農(nóng)家樂民宿租賃管理服務合同2篇
- 二零二五版年薪制勞動合同:房地產(chǎn)企業(yè)銷售精英激勵方案4篇
- 第三單元 資產(chǎn)階級民主革命與中華民國的建立(解析版)- 2023-2024學年八年級歷史上學期期中考點大串講(部編版)
- 2025年度個人家政服務分期支付合同范本2篇
- 二零二五年度地鐵車站安全門系統(tǒng)采購合同
- 2024年蘇州工業(yè)園區(qū)服務外包職業(yè)學院高職單招職業(yè)適應性測試歷年參考題庫含答案解析
- 人教版初中語文2022-2024年三年中考真題匯編-學生版-專題08 古詩詞名篇名句默寫
- 2024-2025學年人教版(2024)七年級(上)數(shù)學寒假作業(yè)(十二)
- 山西粵電能源有限公司招聘筆試沖刺題2025
- ESG表現(xiàn)對企業(yè)財務績效的影響研究
- 醫(yī)療行業(yè)軟件系統(tǒng)應急預案
- 使用錯誤評估報告(可用性工程)模版
- 2024年湖南高速鐵路職業(yè)技術學院單招職業(yè)技能測試題庫附答案
- 2024年4月浙江省00015英語二試題及答案含評分參考
- 黑枸杞生物原液應用及產(chǎn)業(yè)化項目可行性研究報告
- 2024年黑龍江省政工師理論知識考試參考題庫(含答案)
評論
0/150
提交評論