




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于機(jī)器學(xué)習(xí)的能見度預(yù)測方法研究目錄1.緒論 1.1能見度影響因子與變化特征研究背景 1.1.1能見度定義 1.1.2國內(nèi)研究背景 1.2.1現(xiàn)有能見度預(yù)報(bào)方法 (1)環(huán)境氣象數(shù)值預(yù)報(bào)法 (2)基于統(tǒng)計(jì)學(xué)原理的機(jī)器學(xué)習(xí)預(yù)報(bào)方法 1.2.2兩種預(yù)報(bào)方法的研究背景 2.資料與方法 2.1試驗(yàn)基地概況 2.2資料來源 2.3資料缺失值處理方法 2.4數(shù)據(jù)異常值的處理 3.能見度預(yù)測模型簡介 3.1KNN算法的相關(guān)理論 3.2WKNN算法 3.3DWKNN算法 3.4改進(jìn)的KNN算法 4.實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 4.1評價(jià)指標(biāo)體系的建立 4.2不同評價(jià)指標(biāo)的變化趨勢分析 4.2.2查全率變化趨勢分析 4.2.3查準(zhǔn)率變化趨勢分析 4.2.4F1測量值變化趨勢分析 4.3分類性能對比分析 5.結(jié)論與討論 參考文獻(xiàn): 摘要:為了選用合適的方法研究能見度時(shí)空變化特征并提高能見度預(yù)報(bào)的準(zhǔn)確率,本文選用了常州金壇市作為研究區(qū)域,利用金壇交通氣象試驗(yàn)基地?cái)?shù)據(jù)分析了該地區(qū)從2018年11月30日至2019年2月28日的大氣能見度的日變化特征以及空間分布特征,并在此基礎(chǔ)上歸納總結(jié)國內(nèi)外現(xiàn)有能見度預(yù)測研究的方法,提出了KNN算法、WKNN算法和DWKNN算法的原理和公式,將三個(gè)月來金壇市氣象站所測得的溫度、濕度、能見度、風(fēng)向風(fēng)速等數(shù)據(jù)按照2:1的比例劃分為訓(xùn)練集和測試集來進(jìn)行預(yù)測研究,汲取其他領(lǐng)域研究方法的優(yōu)勢,構(gòu)建能見度預(yù)測模型。研究結(jié)果表明:(1)選用相對濕度、溫度等氣象因子建立算法模型,按照比例分為訓(xùn)練集和測試集去建立模型算法時(shí)發(fā)現(xiàn)KNN算法易于實(shí)現(xiàn),但是也不可避免的存在著如何確定合適的k值、對于有些特殊分布的數(shù)據(jù)處理效果不理想等問題。(2)為了克服關(guān)于k值選取帶來的影響,利用WKNN算法、DWKNN算法以及改進(jìn)的KNN算法并將四種算法在分類準(zhǔn)確度、查全率、查準(zhǔn)率和F1值上進(jìn)行對比后發(fā)現(xiàn):當(dāng)k值取不同的值時(shí),所提出改進(jìn)的KNN算法關(guān)于能見度的預(yù)測精度總體都是要比前三個(gè)算法精度高。關(guān)鍵詞:能見度;KNN算法;WKNN算法;DWKNN算法;、KNN的改進(jìn)算法緒論1.1能見度影響因子與變化特征研究背景1.1.1能見度定義盛裴軒[1]指出:能見度是指一個(gè)正常視力的人,在當(dāng)時(shí)的天氣條件下,白天能從天空背景中看到和辨認(rèn)出大小適度的黑色目標(biāo)物的最大距離。同時(shí)大氣能見度是空氣污染程度的最直觀的表現(xiàn)形式之一,當(dāng)空氣污染程度低時(shí),大氣能見度就高,反之,大氣能見度就低。因此,大氣能見度體現(xiàn)了大氣的渾濁度,是衡量大氣污染的重要物理量之一。大氣中各類化學(xué)物質(zhì)吸收散射可見光過程造成的消光作用是影響能見度的因素。同時(shí)不同濕度環(huán)境下的氣溶膠的吸濕增長作用以及氣壓、風(fēng)向風(fēng)速、降雨等氣象因素共同決定的污染物擴(kuò)散條件也會(huì)直接或間接地影響能見度。此外,高速公路沿線的地形、水系、植被覆蓋等因素也會(huì)影響能見度??傊芤姸仁禽^為復(fù)雜的交通氣象變量。以往研究將能見度劃分為以下9個(gè)等級。0級:小于等于50m;1級:51~200m;2級;201~500m;3級;501~1000m;4級;1001~2000m;5級;2001~4000m;6級:4001~10000m;7級:10001~20000m;8級:20001~50000m;9級:大于50000m。1.1.2國內(nèi)研究背景目前,已經(jīng)有很多國內(nèi)外學(xué)者對大氣能見度的時(shí)空變化特征和影響因子進(jìn)行了研究,在國內(nèi),黃楚惠和牛金龍[2]結(jié)合了低能見度和地面氣象要素的關(guān)系對四川盆地低能見度時(shí)空分布特征研究時(shí)發(fā)現(xiàn),盆地的能見度明顯要比高原的低且秋冬季節(jié)盆地低能見度的分布范圍明顯要大于夏季。朱國棟等[3]結(jié)合民航氣象觀測和機(jī)場運(yùn)行對能見度的需求,通過圖表探討烏魯木齊低能見度的日變化特征及低能見度情況下溫度、相對濕度、風(fēng)向風(fēng)速的特征時(shí),發(fā)現(xiàn)低空1600m以下有明顯的逆溫分布,同時(shí)隨高度增加相對濕度迅速減小。鄧拓[4]利用北京氣象站2016年至2017年的每小時(shí)氣象觀測數(shù)據(jù)建立了引入加權(quán)函數(shù)的LSTM神經(jīng)網(wǎng)絡(luò)能見度預(yù)測模型后發(fā)現(xiàn),長短期記憶模型在總體趨勢和精度上都有較好的表現(xiàn),且隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增多,不僅不能達(dá)到改善預(yù)測的效果,而且會(huì)提高整體的誤差。王志宇[5]通過對上海3個(gè)研究區(qū)域的各3個(gè)時(shí)間段建立9個(gè)基于LightGBM算法的大氣能見度預(yù)報(bào)訂正模型時(shí),發(fā)現(xiàn)該模型能顯著提升原始WRF模式的預(yù)報(bào)精度。王勇[6]基于對已有能見度研究的總結(jié),結(jié)合實(shí)際所測的數(shù)據(jù)、WRF數(shù)值預(yù)報(bào)模式輸出數(shù)據(jù)和EC-thin高空預(yù)報(bào)數(shù)據(jù),將每個(gè)特征與其對應(yīng)的特征貢獻(xiàn)使用多項(xiàng)式擬合,生成特征貢獻(xiàn)隨特征值的變化曲線,并計(jì)算這兩者之間的關(guān)系。范引琪等[7]通過積累百分率分析等方法研究河北省能見度變化特征時(shí)發(fā)現(xiàn),河北省的能見度整體呈下降趨勢,且夏季的能見度下降趨勢最為明顯。崔健[8]采用統(tǒng)計(jì)方法對江蘇省能見度的時(shí)空分布進(jìn)行了研究,結(jié)果表明能見度受海陸分布、地形等影響,空間上呈東高西低的特征,時(shí)間上夏季最高、冬季最低,且能見度與氣溶膠光學(xué)厚度和相對濕度呈負(fù)相關(guān),與風(fēng)速呈正相關(guān)。崔馳瀟[9]分析2012-2014年江蘇省沿海高速公路交通氣象實(shí)時(shí)監(jiān)測數(shù)據(jù)顯示,江蘇省沿海高速公路的能見度具有明顯的季節(jié)和日變化特征,在空間上也具有明顯的地段性差異。童彬,等[10]通過對從化區(qū)的能見度觀測數(shù)據(jù)進(jìn)行變化特征和影響因子分析后,發(fā)現(xiàn)從化區(qū)能見度時(shí)間變化特征明顯,在日變化周期上早晚能見度低,中午能見度高;在季節(jié)變化周期上冬春季能見度低,夏秋季能見度高。姜江等[11]綜合多源氣象觀測數(shù)據(jù)對北京2007-2015年間能見度變化與影響因子進(jìn)行了分析,發(fā)現(xiàn)北京西北地區(qū)的能見度明顯高于其他地區(qū),小時(shí)能見度呈周期性變化,相對濕度、細(xì)顆粒物濃度、風(fēng)速是對能見度變化最重要的三種影響因子。周開鵬[12]利用環(huán)渤海地區(qū)2015-2017年226個(gè)站點(diǎn)氣象觀測資料與預(yù)報(bào)資料進(jìn)行研究,發(fā)現(xiàn)海濱城市夏季比其他季節(jié)的平均能見度低,能見度與相對濕度、云量、風(fēng)向相關(guān)。周揚(yáng)[13]利用上海市氣象要素實(shí)測數(shù)據(jù)和WRF模式數(shù)值預(yù)報(bào)數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)了上海市能見度具有明顯的年際、月季和日變化特征,春秋季平均能見度呈現(xiàn)從西北至東南方向的遞增,夏季呈現(xiàn)從西南向東北向的遞減,相對濕度和PM2.5濃度是主要影響因子。1.1.3國外研究背景在國外,20世紀(jì)60年代就已經(jīng)開始著手能見度的研究,80年代后,能見度的研究側(cè)重于大氣污染物及對氣象條件的細(xì)化,取得了一些有益的成功經(jīng)驗(yàn)。Craig14]將Ridit分析方法運(yùn)用于美國俄勒岡谷地能見度分析中,結(jié)果表明Ridit分析法能統(tǒng)計(jì)數(shù)據(jù)變化的特點(diǎn)。Slone[15]應(yīng)用Ridit分析法與累計(jì)百分率法研究了美國能見度的季節(jié)和年際變化特征,討論了大氣污染中的SO2和硫酸鹽對大氣能見度的影響,并認(rèn)為氣象要素對能見度的影響是呈階段性的。Doyleetal.[16]使用Ridit分析法分析比較了英國氣象局8個(gè)地面觀測站從1950年至1997年共47年的能見度資料,發(fā)現(xiàn)隨著大氣污染物的減少,能見度逐漸提高。Naegeleetal.[17]對1985-1979年美國18個(gè)城市機(jī)場的能見度進(jìn)行趨勢分析,發(fā)現(xiàn)SO2與能見度呈正相關(guān)。Leeetal.[18]根據(jù)2015-2016年首爾和春川的檢測數(shù)據(jù),發(fā)現(xiàn)能見度與PM2.5濃度和相對濕度呈正相關(guān);Amanetal.[19]研究分析了泰國東部能見度觀測數(shù)據(jù),發(fā)現(xiàn)能見度呈明顯的季節(jié)性,在旱季能見度下降明顯,同時(shí)能見度與PM10和相對濕度呈負(fù)相關(guān),與風(fēng)向具有較強(qiáng)的關(guān)系。綜合國內(nèi)外研究發(fā)現(xiàn):能見度變化在年際、月際和日變化上均存在顯著的周期性變化和空間變化特征。同時(shí),能見度與大氣污染物、相對濕度、干濕球溫度、氣壓、風(fēng)向風(fēng)速、降雨等氣象要素關(guān)系密切。1.2.能見度預(yù)報(bào)方法的研究進(jìn)展1.2.1現(xiàn)有能見度預(yù)報(bào)方法按照以往將對能見度的預(yù)測的方法分為兩種:一種是基于大氣物理化學(xué)傳輸機(jī)理的環(huán)境氣象數(shù)值預(yù)報(bào)方法,另一種是基于統(tǒng)計(jì)學(xué)原理的機(jī)器學(xué)習(xí)方法[20]。(1)環(huán)境氣象數(shù)值預(yù)報(bào)法環(huán)境氣象數(shù)值預(yù)報(bào)的基本思想是將天氣模式和大氣化學(xué)模式耦合,首先要求建立一個(gè)較好的能反映預(yù)報(bào)量變化特征的短期或長期數(shù)值預(yù)報(bào)模型,其誤差要小、計(jì)算要穩(wěn)定且相對運(yùn)算要快的計(jì)算方法;其次有能利用各種各樣的、時(shí)空分辨率高的氣象資料和大氣環(huán)境監(jiān)測數(shù)據(jù)。經(jīng)過三十多年的發(fā)展,已經(jīng)發(fā)展到第三代空氣質(zhì)量模型和化學(xué)-動(dòng)力耦合模式,應(yīng)用比較廣泛的有美國環(huán)境保護(hù)局研制的多尺度空氣質(zhì)量模式Models-3/CMAQ和美國國家大氣研究中心、國家海洋大氣管理局大氣環(huán)境預(yù)報(bào)中心等氣象界多所科研機(jī)構(gòu)共同開發(fā)的氣象化學(xué)耦合模式WRF-Chem[21-25]。邢楠等[26]基于2016年冬季北京地區(qū)包括溫度、相對濕度、動(dòng)力因素等十個(gè)因素在能見度成因分析的基礎(chǔ)上利用數(shù)值模式、數(shù)理統(tǒng)計(jì)方法、主客觀結(jié)合方法建立多元?jiǎng)討B(tài)逐步回歸方法進(jìn)行能見度的預(yù)報(bào)。(2)基于統(tǒng)計(jì)學(xué)原理的機(jī)器學(xué)習(xí)預(yù)報(bào)方法隨著大數(shù)據(jù)人工智能時(shí)代的到來,神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、決策樹等機(jī)器學(xué)習(xí)算法也在不斷的發(fā)展改進(jìn),同時(shí)以上機(jī)器學(xué)習(xí)算法應(yīng)用在大數(shù)據(jù)處理方面時(shí)具有優(yōu)越性。機(jī)器學(xué)習(xí)算法不僅僅應(yīng)用在計(jì)算機(jī)視覺、金融預(yù)測、自然語言處理等領(lǐng)域,同時(shí)機(jī)器學(xué)習(xí)算法也被用于氣象預(yù)測領(lǐng)域,為氣象研究提供了新的解決思路。因此,越來越多的研究人員開始將機(jī)器學(xué)習(xí)方法應(yīng)用到各類氣象要素預(yù)測問題中,尤其是在雷電大風(fēng)的預(yù)測和識別任務(wù)中,這是因?yàn)闄C(jī)器學(xué)習(xí)方法具有較強(qiáng)的泛化能力,使其在面對未知?dú)庀笠蛩仡A(yù)測時(shí)能提高準(zhǔn)確度并提高預(yù)測工作的效率。同時(shí)多數(shù)學(xué)者是將機(jī)器學(xué)習(xí)算法和氣象數(shù)據(jù)分析得出的影響因子特征相結(jié)合后,量化建立相應(yīng)的預(yù)測模型。1.2.2兩種預(yù)報(bào)方法的研究背景在國內(nèi),朱國梁[27]基于MLP神經(jīng)網(wǎng)絡(luò)利用烏魯木齊機(jī)場2007-2016年的氣象觀測資料建立了能見度回歸預(yù)測模型,結(jié)果表明該模型能較好的預(yù)測出能見度變化趨勢,平均絕對誤差最低達(dá)到了706m。鄧拓[28]利用北京氣象站2016-2017年的逐小時(shí)氣象觀測數(shù)據(jù)建立了引入加權(quán)損失函數(shù)的LSTM神經(jīng)網(wǎng)絡(luò)能見度預(yù)測模型,結(jié)果表明,該模型預(yù)測效果優(yōu)于隨機(jī)森林和多層感知器,最低平均絕對誤差為440m。翟曉芳等[29]選取武漢氣象站2013-2014年逐日氣象觀測資料及空氣污染數(shù)據(jù)作為影響因子,使用支持向量機(jī)模型對低能見度天氣進(jìn)行了短期預(yù)報(bào),研究發(fā)現(xiàn)該方法將平均絕對誤差控制在1km內(nèi),效果明顯優(yōu)于逐步回歸模型且模型性能較穩(wěn)定。王志宇[30]通過GBDT特征貢獻(xiàn)度方法確定輸入特征,對上海市大氣能見度數(shù)值預(yù)報(bào)產(chǎn)品分時(shí)段分區(qū)域建立基于LightGBM框架的能見度訂正模型,有效提高了WRF數(shù)值預(yù)報(bào)產(chǎn)品的預(yù)測效果。王愷等[31]以天津市多種氣象要素和空氣污染物為影響因子,構(gòu)建了基于風(fēng)險(xiǎn)神經(jīng)網(wǎng)絡(luò)的單站能見度預(yù)測模型,實(shí)驗(yàn)證明該模型預(yù)測效果優(yōu)于線性回歸模型和普通神經(jīng)網(wǎng)絡(luò)方法。李昕蓓等[32]基于循環(huán)神經(jīng)網(wǎng)絡(luò)方法,使用福州地面氣象觀測資料建立了福州單站能見度未來1小時(shí)、3小時(shí)、6小時(shí)預(yù)測模型,相比BP神經(jīng)網(wǎng)絡(luò),該方法具有更精確的預(yù)測能力。在國外,Dietzetal.[33]基于樹集成學(xué)習(xí)方法對機(jī)場高分辨率觀測數(shù)據(jù)建立預(yù)報(bào)模型,該方法計(jì)算時(shí)間極短,能夠在短時(shí)間內(nèi)獲得高精度的能見度預(yù)報(bào)值。Herman和Schumacher[34]使用多種機(jī)器學(xué)習(xí)算法對美國四個(gè)主要機(jī)場開發(fā)了能見度統(tǒng)計(jì)預(yù)測模型,并通過參數(shù)交叉驗(yàn)證提升模型性能,在沿海和近海的預(yù)測效果較好。Bremnes和Michaelides[35]擴(kuò)展了標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)方法,使用確定性神經(jīng)網(wǎng)絡(luò)為概率神經(jīng)網(wǎng)絡(luò)輸入變量參數(shù)來改進(jìn)能見度預(yù)測模型,并在兩個(gè)場址上進(jìn)行了大量測試,結(jié)果均好于原有標(biāo)準(zhǔn)方法。Marzban和Leyton[36]使用逐小時(shí)地面氣象觀測數(shù)據(jù)和中尺度氣象模型數(shù)據(jù)對美國西北部39個(gè)機(jī)場研發(fā)了基于神經(jīng)網(wǎng)絡(luò)方法的能見度預(yù)測模型,并與邏輯回歸和MOS方法進(jìn)行了效果對比,結(jié)果表明神經(jīng)網(wǎng)絡(luò)方法優(yōu)于其他兩種方法。Bari[37]使用機(jī)器學(xué)習(xí)技術(shù)開發(fā)了摩洛哥能見度預(yù)測模型,并根據(jù)37個(gè)氣象站真實(shí)數(shù)據(jù)評估其表現(xiàn),分析表明該模型對白天和夜間能見度區(qū)分能力較強(qiáng),均方根誤差達(dá)2150m。Ortega和Otero[38]使用機(jī)器學(xué)習(xí)算法基于歷史天氣數(shù)據(jù)將能見度分為三類:低能見度、中等能見度和高能見度,盡管取得了較好的結(jié)果,但沒有提供定量結(jié)果,也沒有包括時(shí)間因素。ZhuLetal.[39]使用來自機(jī)場的天氣數(shù)據(jù)的深度學(xué)習(xí)模型進(jìn)行能見度預(yù)測,其預(yù)測范圍是0-5km,預(yù)測誤差為705m。但是WangKetal.[40]在文章中沒有提供模型結(jié)構(gòu)的細(xì)節(jié),僅僅提供了其使用的神經(jīng)網(wǎng)絡(luò)類型:多層感知器(MLP)。同時(shí)該文獻(xiàn)中的訓(xùn)練樣本和測試樣本是隨機(jī)分割的,在處理時(shí)間序列數(shù)據(jù)預(yù)測時(shí)被認(rèn)為是不正確的。研究人員還提出了神經(jīng)網(wǎng)絡(luò)在能見度估計(jì)方面是否優(yōu)于傳統(tǒng)統(tǒng)計(jì)工具(如線性和邏輯回歸)的問題,得出結(jié)論認(rèn)為神經(jīng)網(wǎng)絡(luò)能夠產(chǎn)生更好的能見度估計(jì)。Ortega[41]使用佛羅里達(dá)地面氣象站的時(shí)間序列數(shù)據(jù)對比了五種預(yù)測能見度的機(jī)器學(xué)習(xí)模型。這些模型分別為:多層感知器(MLP)、傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(TCNN)、全卷積神經(jīng)網(wǎng)絡(luò)(FCNN)、多輸入卷積神經(jīng)網(wǎng)絡(luò)(MICNN)、長短期記憶網(wǎng)絡(luò)(LSTM)。其中有三種不同的基于CNN架構(gòu)建立的模型,這些模型是為了從原始輸入數(shù)據(jù)中提取特征。盡管序列數(shù)據(jù)的LSTM模型取得了成功,但部分文獻(xiàn)[42]表明,在輸出最近預(yù)報(bào)量的時(shí)間序列上存在問題,在能見度預(yù)報(bào)問題上并未被證明是有效的。LSTM模型被構(gòu)建為一步預(yù)測模型,并預(yù)測下一小時(shí)(t+1)的能見度值。同時(shí)考慮了三種情況作為前期步驟輸入:3小時(shí)輸入數(shù)據(jù)、6小時(shí)輸入數(shù)據(jù)和9小時(shí)輸入數(shù)據(jù)。數(shù)值結(jié)果表明,當(dāng)預(yù)測數(shù)據(jù)采集站當(dāng)?shù)氐哪芤姸葧r(shí),MICNN模型對于3小時(shí)輸入數(shù)據(jù)和9個(gè)6小時(shí)輸入數(shù)據(jù)獲得最佳平均結(jié)果,而FCNN對于6小時(shí)輸入數(shù)據(jù)獲得部分最佳結(jié)果;但對于相近地點(diǎn),LSTM獲得了3小時(shí)輸入數(shù)據(jù)的最佳結(jié)果,MLP獲得了6小時(shí)輸入數(shù)據(jù)的最佳結(jié)果,而MICNN獲得了9小時(shí)輸入數(shù)據(jù)的最佳結(jié)果。2.資料與方法2.1研究區(qū)概況金壇市隸屬于江蘇省常州市,地處江蘇省南部,東與常州市武進(jìn)區(qū)相連;西界茅山,與句容市接壤;南瀕洮湖,與溧陽、宜興市依水相望;北與丹陽市、鎮(zhèn)江丹徒區(qū)毗鄰。京滬鐵路、滬寧高速公路、常州港、鎮(zhèn)江港、常州奔牛國際機(jī)場臨近金壇區(qū)北側(cè)。金壇市全市總面積975.46km2,其中陸地面積781.27km2,水域面積194.22m2。它屬于北亞熱帶季風(fēng)區(qū),四季分明;雨量充沛,日照充足。地勢自西向東傾斜,西部為丘陵山區(qū),最高山峰茅山大茅峰海撥372.5m,東部為地勢低平的平原。金壇有豐富的土地資源和水資源,山丘、水面、平原齊全,條件優(yōu)越,為農(nóng)、林、牧、副、漁和工業(yè)、交通、旅游等的全面發(fā)展提供了有利條件[43]。2.2資料來源本文數(shù)據(jù)選用了自2019年12月1日至2019年2月28日金壇市交通氣象試驗(yàn)基地每隔一分鐘所測得的溫度、相對濕度、能見度、風(fēng)向風(fēng)速等數(shù)據(jù),本研究所使用的數(shù)據(jù)是按照2:1的比例來劃分,即前兩個(gè)月的數(shù)據(jù)作為訓(xùn)練集,最后一個(gè)月的數(shù)據(jù)作為測試數(shù)據(jù)。2.3資料缺失值處理方法缺失值從缺失的分布來講可以分為完全隨機(jī)缺失、隨機(jī)缺失和完全非隨機(jī)缺失。缺失值的處理方法從總體上分為刪除存在缺失值的個(gè)案和缺失值插補(bǔ)。對于主觀數(shù)據(jù),人為影響數(shù)據(jù)的真實(shí)性,存在缺失值的樣本的其他屬性的真實(shí)值不能保證,那么依賴于這些屬性值的插補(bǔ)也是不可靠的,所以對于主觀數(shù)據(jù)一般不推薦插補(bǔ)的方法。插補(bǔ)主要是針對客觀數(shù)據(jù),它的可靠性有保證。本文選用的是K最近鄰算法(K-NearestNeighbor,KNN),其思路是考慮相鄰樣本數(shù)據(jù)之間的距離,選取最接近的幾個(gè)觀測的平均值或距離加權(quán)作為有缺失的樣本的填補(bǔ)值,一般采用歐幾里德距離進(jìn)行計(jì)算。本文選取該方法進(jìn)行數(shù)據(jù)缺失值填補(bǔ)。其中計(jì)算N維特征空間中X=x1,x2,…,xn?1distanceX,Y=i=1nx2.4數(shù)據(jù)異常值的處理異常值的存在會(huì)對分析結(jié)果(平均值與標(biāo)準(zhǔn)差)產(chǎn)生重要的影響,異常值的檢驗(yàn)與正確處理是保證原始數(shù)據(jù)可靠性、平均值與標(biāo)準(zhǔn)差計(jì)算準(zhǔn)確性的前提。本文選用金壇基地的數(shù)據(jù)都是用3倍滑動(dòng)標(biāo)準(zhǔn)差來進(jìn)行質(zhì)量控制的即3δ原則。3δ原則[44]是在數(shù)據(jù)整體上符合正態(tài)分布的前提下,正態(tài)分布是99.7%的數(shù)據(jù)均落在3倍標(biāo)準(zhǔn)差中,因此當(dāng)數(shù)據(jù)落在3倍標(biāo)準(zhǔn)差外,則可將其視為異常值。若不服從正態(tài)分布時(shí),可以通過計(jì)算其與平均值的標(biāo)準(zhǔn)差的倍數(shù)來確定,在檢測異常值后,將其刪除后作為缺失值進(jìn)行后續(xù)數(shù)據(jù)預(yù)處理。3.能見度預(yù)測模型簡介3.1KNN算法的相關(guān)理論 數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘里一項(xiàng)重要的任務(wù)。在大數(shù)據(jù)時(shí)代,無論是什么領(lǐng)域都需要在海量的數(shù)據(jù)中尋找有價(jià)值的信息,而預(yù)處理成為其中一個(gè)必不可少的環(huán)節(jié)。KNN算法是數(shù)據(jù)挖掘最經(jīng)典的算法之一,作為數(shù)據(jù)分析領(lǐng)域最重要的分支之一它自然成為了預(yù)處理大家庭中的重要成員。KNN算法(K-nearestneighbor)是一種廣泛使用的回歸方法,是一種非參的,惰性的算法模型。非參的意思并不是說這個(gè)算法不需要參數(shù),而是意味著這個(gè)模型不會(huì)對數(shù)據(jù)做出任何的假設(shè),與之相對的是線性回歸(我們總會(huì)假設(shè)線性回歸是一條直線)。也就是說KNN建立的模型結(jié)構(gòu)是根據(jù)數(shù)據(jù)來決定的,這也比較符合現(xiàn)實(shí)的情況,畢竟在現(xiàn)實(shí)中的情況往往與理論上的假設(shè)是不相符的。惰性是指邏輯回歸需要先對數(shù)據(jù)進(jìn)行大量訓(xùn)練(tranning),最后才會(huì)得到一個(gè)算法模型。而KNN算法卻不需要,它沒有明確的訓(xùn)練數(shù)據(jù)的過程,或者說這個(gè)過程很快。 KNN算法根據(jù)參數(shù)和數(shù)據(jù)的相似程度,從給出的歷史數(shù)據(jù)中尋找到與當(dāng)前狀態(tài)最為接近的近鄰值用于預(yù)測。它的主要內(nèi)容是:在特征空間里,若與還未分類的樣本相似度最高的k個(gè)樣品中大多數(shù)都屬于同一種類型,那么還未分類的樣本同樣也屬于這一類型,即KNN分類算法是按照k個(gè)最近鄰樣本的類別來判斷分類的樣本所屬類別。 在分類過程中,令T=xn∈Rdn=1N (1)對還未分類的樣本x:從集合T中找到k個(gè)最近鄰,并用T=xiNN,ciNNi=1dx,xi (2)x的類標(biāo)簽是通過其鄰居的多數(shù)投票來預(yù)測,c代表類標(biāo)簽,ciNN表示x的k個(gè)近鄰中的第i個(gè)近鄰的類標(biāo)簽,δc=ciNN表示一個(gè)指示函數(shù),當(dāng)近鄰的類標(biāo)簽xc'=?argmaxc3.2WKNN算法 KNN算法易于實(shí)現(xiàn),但是也不可避免的存在著一些問題[45],例如如何確定合適的k值、對于有些特殊分布的數(shù)據(jù)處理效果不理想以及盡管使用了賦權(quán)方法盡可能還原數(shù)據(jù)的客觀關(guān)系,但當(dāng)數(shù)據(jù)不平衡的時(shí)候,算法依然會(huì)產(chǎn)生不太理想的結(jié)果等等,而為了克服這些缺點(diǎn),研究者們提出了很多具有針對性的改進(jìn)算法。 Dudani[46]提出了一種加權(quán)投票的方法,也稱為距離加權(quán)k最近鄰(WKNN),它是一種關(guān)于距離的投票加權(quán)方案,WKNN算法的原理是根據(jù)k個(gè)近鄰與待分類的樣本之間距離為近鄰分配權(quán)重,最遠(yuǎn)的鄰居權(quán)重是0,最近的鄰居權(quán)重是1,其他鄰居的權(quán)重通過線性映射進(jìn)行縮放。它的加權(quán)函數(shù)公式(3-3)如下(xiNN表示待分類x總體k個(gè)最近鄰中的第i個(gè),根據(jù)k個(gè)最近鄰與x之間的歐式距離按照遞增順序排序。)wi=dk因此,通過多數(shù)加權(quán)投票來做出待分類樣本的分類結(jié)果公式(3-4)如下:c'=?argmaxc3.3DWKNN算法 為了進(jìn)一步克服關(guān)于k值選取帶來的影響,J.Guoetal.[47]提出了雙重加權(quán)k最近鄰算法(DWKNN),這個(gè)算法拓展了之前Dudani提出的加權(quán)投票算法的線形映射,其中最近和最遠(yuǎn)的鄰居它們的加權(quán)方式與線性映射相同,但是能給它們之間的鄰居分配的權(quán)值就比較小。根據(jù)k個(gè)最近鄰到待分類樣本x之間的距離分配權(quán)重,離x最近的鄰居具有最大的權(quán)值。DWKNN算法的加權(quán)函數(shù)公式(3-5)如下: wi=dk?di 因此,我們用k個(gè)最近鄰的多數(shù)加權(quán)投票對待分類樣本x進(jìn)行分類公式(3-6)如下: c'=?argmaxc3.4改進(jìn)的KNN算法 雖然之前介紹的WKNN算法和DWKNN算法相比于KNN算法表現(xiàn)更好,但是他們?nèi)匀粚值非常敏感以至于分類性能也受其影響。由于分類性能除了受k值影響也受距離指數(shù)的影響,本文對應(yīng)提出了一種改進(jìn)版的KNN算法。假設(shè)訓(xùn)練集T=xn∈(1)在訓(xùn)練集T里找到x的k個(gè)最近鄰,令T=xjNN,cjNNwj=exp?d(2)通過對待分類樣本x的k個(gè)近鄰進(jìn)行多數(shù)加權(quán)投票,將x劃分為類,公式(3-8)如下:c'=?argmaxc 以上可以分析出,當(dāng)k取1時(shí),不管是改進(jìn)的KNN算法還是WKNN算法和DWKNN算法結(jié)果都相同,因?yàn)檫@時(shí)最近鄰的權(quán)重是1。 4.實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析4.1評價(jià)指標(biāo)體系的建立為了比較在不同算法的分類效能,需要有能夠具體評價(jià)的指標(biāo)。對于分類效果的評價(jià)既要能夠體現(xiàn)對于類別平均的比較,又要注重對樣本平均的評價(jià)。即宏觀上和微觀上都要有所評價(jià)。因此,利用以下四個(gè)指標(biāo)構(gòu)成的評價(jià)體系來比較:(1)精確度(C)衡量分類的精確度比較常用的方式是分類正確的樣本數(shù)的占比,即公式(4-1)如下:C=(4-1)其中A表示所有樣本中分類正確的數(shù)量,B表示所有樣本的數(shù)量。(2)查全率(R)查全率是微觀上的評價(jià),在求得對于某一個(gè)具體的類,在該類中分類正確的樣本占比之后,對所有的類做一個(gè)綜合,即公式(4-2)如下:(4-2)其中,,表示對于具體的類m,在該類中分類正確的數(shù)量,表示該具體類中所有樣本的數(shù)量。(3)查準(zhǔn)率(P)查準(zhǔn)率同樣也是微觀上的評價(jià),在求得對于某一個(gè)具體的類,在該類中準(zhǔn)確預(yù)測的樣本占比。即公式(4-3)如下:(4-3)其中,,表示對于具體的類,在該類中準(zhǔn)確預(yù)測的數(shù)量,表示在該具體類中所有樣本的數(shù)量。(4)F1度量值F1的度量值的計(jì)算公式(4-4)為:(4-4)R為查全率,P為查準(zhǔn)率。4.2不同評價(jià)指標(biāo)的變化趨勢分析對于K近鄰及其改進(jìn)算法,顯然,K的取值大小是影響分類性能的其中一個(gè)關(guān)鍵因素,因此,研究分類效果并不能將K的取值割裂開,在將不同算法進(jìn)行比較之前,分析不同評價(jià)指標(biāo)隨著K的取值變化而變化的趨勢。4.2.1分類精度變化趨勢分析由圖4-1可知,KNN算法是最不穩(wěn)定的,波動(dòng)起伏比較大,而EWKNN算法(即改進(jìn)的KNN算法)是最穩(wěn)定的,分類精度一直維持在最高的水平幾乎沒有波動(dòng)。WKNN和DWKNN算法比較穩(wěn)定,在K的取值到達(dá)一個(gè)值之后分類精度急劇下降并重新穩(wěn)定在某一個(gè)水平上。綜合看,四種算法的分類精度都是在K的取值較小時(shí)候分類精度較高,K的取值較大時(shí)候分類精度較低,說明,在KNN算法和KNN改進(jìn)算法中,K的取值都不能過大,應(yīng)該維持在小于11的范圍里。根據(jù)KNN算法的分類精度隨著K的取值變化趨勢可以看出,在K小于11的范圍里,并不是K越小越好,K取值為4的分類精度小于K取值大于4小于11的分類精度。圖4-1精度變化趨勢圖4.2.2查全率變化趨勢分析由圖4-2可以看出,KNN算法是最不穩(wěn)定的,起伏波動(dòng)很大,但是在K的取值為5到10的時(shí)候,它是穩(wěn)定的,維持在固定值的水平上,但是在K取11的時(shí)候,劇烈下降,而后重新穩(wěn)定在固定值水平但是低于劇烈變化前的水平。而其他三種算法都是比較穩(wěn)定的,并沒有劇烈變化,其中EWKNN算法最穩(wěn)定,并且查全率最高,其他兩種算法次之。綜合觀之,K的取值相對較小的時(shí)候,查全率較高,取值較大時(shí)候,查全率會(huì)有所降低,但是對于KNN算法雖然有此趨勢,并不是一直有此變化趨勢,比如在從11到12的時(shí)候,雖然K的取值變大了,但是查全率是變高的。圖4-2查全率變化趨勢圖4.2.3查準(zhǔn)率變化趨勢分析從圖4-3可以看出,KNN算法的查準(zhǔn)率隨著K的取值變化是最不穩(wěn)定的,但是取值在5到10的時(shí)候是非常穩(wěn)定的,K的取值11之后查準(zhǔn)率便開始下降并在12的時(shí)候穩(wěn)定在一個(gè)固定值水平。相比較而言其他三種算法是比較穩(wěn)定的,其中EWKNN算法是最穩(wěn)定的,一直保持在一個(gè)固定大小的水平上,并且查準(zhǔn)率一直保持在最高的水平,其他兩種算法的查準(zhǔn)率在K的取值小于某個(gè)值的時(shí)候,也是最高的,和EWKNN算法同等大小,但是大于這個(gè)值的時(shí)候,EWKNN繼續(xù)維持最高水平,而其他兩種水平急劇下降并且重新穩(wěn)定。綜合而言,K的取值比較大的時(shí)候,查準(zhǔn)率較高,K的取值比較小的時(shí)候,查準(zhǔn)率較低。但是KNN算法的查準(zhǔn)率比較特殊,雖然綜合來說是該趨勢然而并不穩(wěn)定。圖4-3查準(zhǔn)率變化趨勢圖4.2.4F1測量值變化趨勢分析由圖4-4可知,對于F1測量值,KNN算法是最不穩(wěn)定的,起伏波動(dòng)很大,但是在K的取值在5到10之間和12到14之間是穩(wěn)定的,然而總體而言還是不穩(wěn)定的。其他三種算法都是比較穩(wěn)定的,并沒有急劇變化情況,其中EWKNN算法是最穩(wěn)定的并且一直保持最高水平,其他兩種算法在K的取值到達(dá)某一個(gè)值之后開始下降并且重新穩(wěn)定在一個(gè)穩(wěn)定值的水平。綜合而言,K的取值較大時(shí)候,F(xiàn)1測量值較大,K的取值較小時(shí)候,F(xiàn)1的測量值較小,但是對于KNN算法雖然有該趨勢卻不是絕對的。圖4-4F1測量值變化趨勢圖4.3分類性能對比分析根據(jù)以上分析可知,不同的K取值評價(jià)指標(biāo)的值是不一樣的,因此,欲通過評價(jià)指標(biāo)體系比較不同算法的分類性能必須固定K的取值。在本節(jié)中,固定K的取值為11,對比它們的分類性能。根據(jù)上一節(jié)的分析可知,雖然不同算法的隨著K的取值的變化趨勢各不相同,但是每一個(gè)取值都有代表性。因此本節(jié)所做的對比分析是有說服力的。表4-1K=11時(shí)各類評價(jià)指標(biāo)對比表指標(biāo)算法KNNWKNNDWKNNEWKNN分類精度(C)82.3188.2988.2390.25查全率(R)71.7880.3180.3683.88查準(zhǔn)率(P)85.1088.3288.3387.27F1測量值77.8984.1184.1285.54由表4-1可知,對于分類精度、查全率、查準(zhǔn)率和F1測量值,EWKNN算法比KNN算法分別增加了7.94%、12.1%、2.17%、7.65%,除了查準(zhǔn)率增加幅度都是KNN改進(jìn)算法中在四種算法中最大的外,對于查準(zhǔn)率,WKNN和DWKNN兩種算法增加幅度相差不大,分別為3.22%和3.23%,說明對于查準(zhǔn)率,這兩種算法的效果是幾近相同的,且優(yōu)于另外兩種算法KNN和EWKNN。綜合而言,KNN改進(jìn)算法中EWKNN是分類性能最好的,性能遠(yuǎn)優(yōu)于KNN算法。5.結(jié)論與討論通過利用基于機(jī)器學(xué)習(xí)的四種算法對金壇國家交通氣象觀測基地大氣能見度預(yù)報(bào)的訓(xùn)練和測試研究,得到以下結(jié)論:(1)從試驗(yàn)的過程和結(jié)果來看,KNN、WKNN、DWKNN這三種算法基本都能達(dá)到預(yù)測能見度的要求。但是當(dāng)某地區(qū)溫度、相對濕度、風(fēng)向、風(fēng)速等天氣條件較為復(fù)雜時(shí),即樣本分布不均勻的時(shí)候,這三種算法在針對樣本分類問題上會(huì)有相對較大的誤差,而本文提出的改進(jìn)的KNN算法考慮到了利用基于新的權(quán)值函數(shù)作為不同的近鄰而分配不同的權(quán)值,在分類性能上面對選擇不同k值的敏感性具有魯棒性,即就算樣本類別分布不均、氣象條件較為復(fù)雜時(shí)分類性能也能保持在較高的水準(zhǔn)。(2)由于本文所選用的關(guān)于能見度預(yù)測方面的數(shù)據(jù)有限,僅僅選用了自2019年12月1日至2019年2月28日三個(gè)月以來金壇市交通氣象試驗(yàn)基地所測得的數(shù)據(jù),其代表性不夠。未來隨著發(fā)現(xiàn)影響能見度因子的增加,可以進(jìn)行更全面、更深入的分析,加入更多的預(yù)測因子以提高不同氣象條件下能見度預(yù)測的精確性。本文基于改進(jìn)的KNN算法提高了能見度預(yù)測的分類精度及其穩(wěn)定性,但是此算法的時(shí)間復(fù)雜度還有很大的提升空間,今后可以在算法效率上進(jìn)一步優(yōu)化。參考文獻(xiàn):盛裴軒.大氣物理學(xué)[M].北京大學(xué)出版社,2013.黃楚惠,牛金龍,陳朝平,等.高原山地氣象研究[J].2019,39(4),67-73.朱國棟,朱蕾,王照剛.烏魯木齊機(jī)場低能見度天氣的特征分析[J].中國民航飛行學(xué)院學(xué)報(bào),2020,31(5):65-68+72.鄧拓.基于LSTM神經(jīng)網(wǎng)絡(luò)的機(jī)場能見度預(yù)測[D].山東大學(xué),2019.王志宇.基于LightGBM框架的上海市大氣能見度預(yù)報(bào)訂正研究[D].華東師范大學(xué),2019.王勇.基于多源數(shù)據(jù)和XGBoost算法的上海市能見度預(yù)測模型研究[D].華東師范大學(xué),2019.范引琪,李二杰,范增祿.河北省1960-2002年城市大氣能見度的變化趨勢[J].大氣科學(xué),2005,36(4):24-33.崔健.江蘇省能見度時(shí)空分布特征及其影響因子分析[D].南京信息工程大學(xué),2015.崔馳瀟.江蘇沿海高速公路霧的時(shí)空分布特征與數(shù)值模擬研究[D].南京信息工程大學(xué),2015.童彬,陳柏富,呂海勇.2016年從化大氣能見度變化特征及影響因子分析[J].廣東氣象,2018,40(5):45-47.姜江,張國平,高金兵.北京大氣能見度的主要影響因子[J].應(yīng)用氣象學(xué)報(bào),2018,29(2):188-199.周開鵬.環(huán)渤海地區(qū)能見度特征及預(yù)報(bào)研究[D].蘭州大學(xué),2019.周揚(yáng).上海市能見度時(shí)空特征及預(yù)測研究[D].華東師范大學(xué),2020.CraigCD,FaulkenberryGD.Theapplicationofriditanalysistodetecttrendsinvisibility[J].AtmosphericEnvironment(1967),1979,13(12):1617-1622.SloaneCS.Visibilitytrends—II.MideasternUnitedStates1948—1978[J].AtmosphericEnvironment(1967),1982,16(10):2309-2321.DoyleM,DorlingS.VisibilitytrendsintheUK1950–1997[J].AtmosphericEnvironment,2002,36(19):3161-3172.NaegelePS,SellersWD.AstudyofvisibilityineighteencitiesinthewesternandsouthwesternUnitedStates[J].MonthlyWeatherReview,1981,109(11):2394-2399.LeeYH,KwakKH.UsingvisibilitytoestimatePM2.5concentrationtrendsinSeoulandChuncheonfrom1982to2014[J].JournalofKoreanSocietyforAtmosphericEnvironment,2018,34(1):156-165.AmanN,ManomaiphiboonK,PengchaiP,etal.Long-termobservedvisibilityinEasternThailand:temporalvariation,associationwithairpollutantsandmeteorologicalfactors,andtrends[J].Atmosphere,2019,10(3):122.王勇.民航地面氣象觀測中的能見度分析[J].科技經(jīng)濟(jì)導(dǎo)刊,2020,28(3):72+71.SkamarockWC,KlempJB,DudhiaJ,etal.AdescriptionoftheadvancedresearchWRFversion2[R].Na
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 地方高校轉(zhuǎn)型的實(shí)施路徑與策略建議
- 地方高校與地方經(jīng)濟(jì)社會(huì)發(fā)展的結(jié)合策略
- 二零二五年度瓷磚品牌授權(quán)購銷合作協(xié)議
- 2025年度教育機(jī)構(gòu)管理人員招聘與課程開發(fā)合同
- 二零二五年度醫(yī)美機(jī)構(gòu)美容教育培訓(xùn)退款及師資力量協(xié)議
- 智慧水務(wù)管理系統(tǒng)方案可行性研究報(bào)告(綜合版)
- 二零二五年度違約賠償協(xié)議書:航空航天材料研發(fā)違約賠償及知識產(chǎn)權(quán)協(xié)議
- 2025年度簡易工廠改造升級后轉(zhuǎn)讓合同
- 自由泳打腿技術(shù) 說課教學(xué)設(shè)計(jì)-2023-2024學(xué)年高一上學(xué)期體育與健康人教版必修第一冊
- 2025年度糧油電商平臺合作合同范文電子版
- 新人教版全國小學(xué)數(shù)學(xué)優(yōu)質(zhì)課《加減法的意義和各部分間的關(guān)系》完美版課件
- 花球啦啦操教案-教學(xué)設(shè)計(jì)教案
- 銀行貸款公司簡介范文推薦9篇
- 語言和語言學(xué)課件
- 《工作場所安全使用化學(xué)品規(guī)定》
- 2022年菏澤醫(yī)學(xué)??茖W(xué)校單招綜合素質(zhì)考試筆試試題及答案解析
- (完整版)蘇教版六年級下數(shù)學(xué)比例重難點(diǎn)練習(xí)
- 市政工程設(shè)施養(yǎng)護(hù)維修估算指標(biāo)
- 熱能與動(dòng)力工程測試技術(shù)- 流量測量
- 中國古代文學(xué)史 建安文學(xué)與正始文學(xué)
- 課堂嵌入式評價(jià)及其應(yīng)用
評論
0/150
提交評論