R語言學(xué)習(xí)之深圳市空氣質(zhì)量分析_第1頁
R語言學(xué)習(xí)之深圳市空氣質(zhì)量分析_第2頁
R語言學(xué)習(xí)之深圳市空氣質(zhì)量分析_第3頁
R語言學(xué)習(xí)之深圳市空氣質(zhì)量分析_第4頁
R語言學(xué)習(xí)之深圳市空氣質(zhì)量分析_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

R語?學(xué)習(xí)之深圳市空?質(zhì)量分析?、簡介略?、研究背景略。三、數(shù)據(jù)來源此次實(shí)驗(yàn)共使?數(shù)據(jù)集兩份,分別為中國?象檢測?爬取的深圳2015年?2020年空?監(jiān)測數(shù)據(jù)與深圳市數(shù)據(jù)開放平臺(tái)公開空?質(zhì)量?報(bào)數(shù)據(jù)。1.數(shù)據(jù)?:空?監(jiān)測數(shù)據(jù)來源2015年-2020年空?監(jiān)測數(shù)據(jù)由于?站禁?使?右鍵,因此R語?數(shù)據(jù)采集程序運(yùn)?失敗,Python爬?程序找不到對應(yīng)數(shù)據(jù)所在?錄,因此采?后裔采集器軟件爬取數(shù)據(jù),最終爬取成功,數(shù)據(jù)集共95條數(shù)?集,11列屬性值。表2?12015年?2020年空?監(jiān)測數(shù)據(jù),,為數(shù)據(jù)集節(jié)選。2?12015年?2020年空?監(jiān)測數(shù)據(jù)monthWebAQIarelevalPM2.5PM10COSO2NO2O313-Dechttps:/1032156021~17335511.4334714-Janhttps:/82104646543~130119321.2481514-Febhttps:/4745124920~66110901.1576014-Marhttps:/567712927~902980.9191514-Aprhttps:/521839229~715750.9210014-Mayhttps:/3470772022~5127100.87411114-Junhttps:/4210997823~8215920.9437014-Julhttps:/4484246126~10519531.0971614-Aughttps:/3642756424~73113630.9292414-Sephttps:/5211139727~12530371.135114-Octhttps:/7314811752~11658571.21311114-Novhttps:/629877738~936941.18710014-Dechttps:/7011229726~9912781.223102Dec15-Janhttps:/7079471730~1311171181.2261815-Febhttps:/6718411225~13134671.0821015-Marhttps:/49881164432~7019540.9773515-Aprhttps:/5210695525~9540250.8532515-Mayhttps:/365879524~76119250.82910315-Junhttps:/2867689923~3791880.7431142.數(shù)據(jù)?:空?質(zhì)量?報(bào)數(shù)據(jù)2015年國務(wù)院印發(fā)促進(jìn)?數(shù)據(jù)發(fā)展?動(dòng)綱要的通知中明確指出,?數(shù)據(jù)時(shí)代數(shù)據(jù)理應(yīng)公開化在此基礎(chǔ)上各個(gè)省、市直屬單位建?開放數(shù)據(jù)平臺(tái),提供開放數(shù)據(jù)接?。在深圳市數(shù)據(jù)開放平臺(tái)獲取到空?質(zhì)量?報(bào)數(shù)據(jù)?于此次研究報(bào)告。數(shù)據(jù)集共90000條?,9項(xiàng)屬性值。表2?2深圳市空?質(zhì)量?報(bào)為數(shù)據(jù)集節(jié)選。2?2深圳市空?質(zhì)量?報(bào)序號檢測時(shí)間監(jiān)測點(diǎn)名稱指數(shù)類別空?污染指數(shù)(AQI)指數(shù)級別指數(shù)顏??要污染物00f60ce3-db7c-414e-80e0-8b24611e747d2019/2/140:00華僑城優(yōu)39?級綠?-00ffda7b-8094-464c-ae73-9659db468def2017/3/280:00葵涌良88?級黃?臭氧0100f95a-f6dd-44cf-a1b8-91e65cadf62d2017/2/60:00鹽?優(yōu)50?級綠?-0111a697-b8d4-453d-bbe0-b280069e5d512019/4/140:00葵涌優(yōu)42?級綠?-0111eae0-d8df-4573-aed9-0be536ad69ed2015/2/180:00觀瀾良79?級黃?臭氧0125ca90-c48d-4424-b5bf-d9b6a1842cde2019/3/290:00西鄉(xiāng)優(yōu)37?級綠?-四、相關(guān)技術(shù)概述1.后裔采集器后羿采集器是由前?歌搜索技術(shù)團(tuán)隊(duì)基于??智能技術(shù)研發(fā)的新?代?頁采集軟件。該軟件功能強(qiáng)?,操作簡單,是為???編程基礎(chǔ)的產(chǎn)品、運(yùn)營、銷售、?融、新聞、電商和數(shù)據(jù)分析從業(yè)者,以及政府機(jī)關(guān)和學(xué)術(shù)研究等?戶量?打造的?款產(chǎn)品。后羿采集器不僅能夠進(jìn)?數(shù)據(jù)的?動(dòng)化采集,?且在采集過程中還可以對數(shù)據(jù)進(jìn)?清洗。在數(shù)據(jù)源頭即可實(shí)現(xiàn)多種內(nèi)容的過濾。通過使?后羿采集器,?戶能夠快速、準(zhǔn)確地獲取海量?頁數(shù)據(jù),從?徹底解決了??收集數(shù)據(jù)所?臨的各種難題,降低了獲取信息的成本,提?了?作效率。2.R語?R語?作為統(tǒng)計(jì)領(lǐng)域?泛應(yīng)?的S語?的分?,是?種集統(tǒng)計(jì)分析與圖形顯?于?體的,?來進(jìn)?數(shù)據(jù)探索、統(tǒng)計(jì)分析和作圖的解釋型語?。其作為?個(gè)開放的統(tǒng)計(jì)編程環(huán)境,語法通俗易懂,。?多數(shù)最新的統(tǒng)計(jì)?法和技術(shù)都可以在R中直接得到,在R語?中有著多種可供數(shù)據(jù)分析與數(shù)據(jù)可視化的包可供下載與使?,?便學(xué)者研究。?學(xué)習(xí)R語?具備免費(fèi)開源、功能強(qiáng)?、?便易學(xué)等優(yōu)點(diǎn)[2]。在2021年TIOBE排?版中,R語?位居第14的位置也說明其使?的?泛性普遍性。3.相關(guān)性分析略五、數(shù)據(jù)探索1.數(shù)據(jù)預(yù)處理由于后裔采集器爬取的數(shù)據(jù)為完整可?數(shù)據(jù)集,因此數(shù)據(jù)集?不進(jìn)?數(shù)據(jù)預(yù)處理步驟。著重針對深圳市空?質(zhì)量?報(bào)進(jìn)?數(shù)據(jù)預(yù)處理a)缺失值處理讀取數(shù)據(jù)集后,將檢測時(shí)間轉(zhuǎn)換為Date格式后排序,形成初始數(shù)據(jù)集,?先對數(shù)據(jù)集進(jìn)?缺失值統(tǒng)計(jì),運(yùn)?R語?本?函數(shù)庫清理表層缺失值27條。通過觀察可得出在數(shù)據(jù)中“-”同樣為缺失數(shù)據(jù)。由于其本?為字符串R語??法識(shí)別其為?內(nèi)容含義,因此?法統(tǒng)?使?缺失值清除函數(shù)。通過刪除函數(shù)統(tǒng)?刪除帶有“-”字符串條?最終實(shí)現(xiàn)缺失值處理完全。代碼實(shí)現(xiàn)與解釋如圖4?1。4?1源碼展?b)異常值處理使?R語?基本箱線圖繪制函數(shù)檢測離群點(diǎn),通過觀察data2數(shù)據(jù)集中離群點(diǎn)檢測結(jié)果如圖4?2,判斷data2數(shù)據(jù)集中離群點(diǎn)不屬于影響離群點(diǎn)。?在data數(shù)據(jù)集中AQI屬性離群點(diǎn)較為明顯,如圖4?3,明顯可以通過各個(gè)屬性箱線圖對?發(fā)現(xiàn)AQI屬性中確實(shí)存在缺失值。4?3data數(shù)據(jù)集離群點(diǎn)檢測到異常值需要處理,少量異常值處理選?刪除異常值所在?數(shù)據(jù)條?,因此將data數(shù)據(jù)集中AQI屬性異常值通過異常值返回函數(shù)找到其數(shù)值,在原數(shù)據(jù)集中刪除其所在數(shù)據(jù)條?,刪除成功后繪圖驗(yàn)證異常值是否處理成功。最終處理成功。代碼實(shí)現(xiàn)與解釋如下圖4?4。將異常值處理完畢后,?此數(shù)據(jù)預(yù)處理步驟完成。對?python數(shù)據(jù)預(yù)處理,R語?數(shù)據(jù)預(yù)處理明顯可供選擇的?帶函數(shù)更多,實(shí)現(xiàn)的簡易性更?,使?R語?進(jìn)?數(shù)據(jù)預(yù)處理研究效率整體?python效率更具有優(yōu)越性。4?4代碼展?2.數(shù)據(jù)描述性分析針對數(shù)據(jù)集data2進(jìn)?數(shù)據(jù)探索,觀察各指數(shù)級別占?與?要污染物占?圖4?5,發(fā)現(xiàn)在各指數(shù)級別中,?級指數(shù)級別以73%的份額遙遙領(lǐng)先占據(jù)榜?,查閱資料可知,空?污染指數(shù)為51-100,空?質(zhì)量級別為?級,空?質(zhì)量狀況屬于良。此時(shí)空?質(zhì)量可接受,但某些污染物可能對極少數(shù)異常敏感?群健康有較弱影響,建議極少數(shù)異常敏感?群應(yīng)減少戶外活動(dòng)。符合居住區(qū),辦公區(qū),?般?業(yè)區(qū)等公共場所及?地的標(biāo)準(zhǔn),因此?級指數(shù)級別占據(jù)榜?初步可以說明深圳空?質(zhì)量處于良好及以上的位置[4]。?在深圳市,?要污染物中單獨(dú)臭氧作為?要污染物已經(jīng)占據(jù)了37%份額,另還有與其他污染物捆綁形成當(dāng)天?要污染物份額,因此在深圳市,?要污染物為臭氧。查閱資料可知近地?臭氧的?成主要受?象條件的影響,??象條件?因地?異。研究表明,臭氧的產(chǎn)?主要受?壓天?的控制。由于云可以削減到達(dá)地?的太陽輻射,?紫外輻射是產(chǎn)?臭氧的?個(gè)重要的原因,因此晴天少云天?時(shí)臭氧濃度明顯?于陰?天。?溫較?也有利于臭氧的?成,主要是由于?溫可促進(jìn)光化學(xué)反應(yīng)的進(jìn)?[5]。此外,相對濕度、風(fēng)速和風(fēng)向均可影響近地?臭氧的濃度。4?5各指數(shù)級別占?六、數(shù)據(jù)分析1.數(shù)據(jù)集data分析a)相關(guān)性顯著檢驗(yàn)此次數(shù)據(jù)集data研究主要?的是分析深圳市空?指數(shù)與污染物關(guān)聯(lián)度,找出最影響空?質(zhì)量的污染物,采?相關(guān)分析?式。眾所周知,PM2.5與空?指數(shù)有明確相關(guān)性已經(jīng)是蓋棺定論的事情,因此此次研究先提出猜想,空?指數(shù)與PM2.5顯著相關(guān)性,以下對?者進(jìn)?相關(guān)性顯著檢驗(yàn),使?R語?包c(diǎn)or.test進(jìn)?參數(shù)相關(guān)性顯著檢驗(yàn)[6],圖5?1,最終得出結(jié)果P值為0.9143,得到的0.913數(shù)值顯然?法說明空?指數(shù)與PM2.5有相關(guān)性,此時(shí)則有兩種解釋可能,第?,數(shù)據(jù)量太少不?以檢驗(yàn)出PM2.5與空?指數(shù)的相關(guān)性,第?,單獨(dú)對于深圳市來說深圳市的空?指數(shù)并未與PM2.5值有相關(guān)性,可能與其他污染物質(zhì)有著顯著相關(guān)性,接著就有了下?的相關(guān)性探索。5?1相關(guān)性探索結(jié)果b)相關(guān)性探索?先要明確在data數(shù)據(jù)中PM10屬性值為?個(gè)范圍,并不是具體的數(shù)值型數(shù)據(jù),因此在做統(tǒng)?相關(guān)性探索時(shí),將PM10屬性值去掉后的數(shù)據(jù)集統(tǒng)?進(jìn)?相關(guān)性探索,對每個(gè)屬性值進(jìn)?相關(guān)性計(jì)算,查看空?指數(shù)與其他污染物質(zhì)的相關(guān)性。以下為表5?1相關(guān)性?覽表。5?1相關(guān)性?覽表AQIarelevalPM2.5COSO2NO2O3AQI10.101389-0.019030.0777850.0113060.054240.4038150.025141are0.10138910.030002-0.04868-0.00270.1088570.1020390.040068leval-0.019030.0300021-0.086780.0388880.046548-0.15737-0.17568PM2.50.077785-0.04868-0.086781-0.14133-0.002290.0650420.218597CO0.011306-0.00270.038888-0.141331-0.09254-0.05701-0.20677SO20.054240.1088570.046548-0.00229-0.092541-0.035710.141511NO20.4038150.102039-0.157370.065042-0.05701-0.035711-0.0282O30.0251410.040068-0.175680.218597-0.206770.141511-0.02821由上表可見AQI空?指數(shù)與NO2相關(guān)系數(shù)最?且為正相關(guān),其次則是O3,將上述圖標(biāo)進(jìn)?數(shù)據(jù)可視化后有如下圖5?2,使?R語?中的畫圖包可以清晰明了的將上述圖表繪制成美觀的相關(guān)性可視化圖?,?常清晰且直觀的看出空?指數(shù)與NO2的相關(guān)性。再使?corr.test相關(guān)性顯著檢驗(yàn),檢驗(yàn)得出的NO2與空?指數(shù)相關(guān)結(jié)果。P值為5.972e-05,結(jié)論驗(yàn)證成功。5?2相關(guān)性可視化2.數(shù)據(jù)集data2分析數(shù)據(jù)集data2本?是?個(gè)對深圳市2015年?2020年空?質(zhì)量監(jiān)測的?報(bào)數(shù)據(jù)集,因此可以對data2數(shù)據(jù)按照?期格式排序,排序后繪制出近六年每年空?質(zhì)量曲線圖。圖5?3為深圳六年空?質(zhì)量指數(shù)密度圖??梢院苤庇^的看見2020年的曲線已經(jīng)不再與2015年?2019年重合,查閱政策?件得知,2018年深圳出臺(tái)《深圳市??環(huán)境質(zhì)量提升補(bǔ)貼辦法(2018-2020年)》[7],在2020年如期完成,從數(shù)據(jù)中直觀看出深圳空?質(zhì)量提升取得了卓越超前的成效。5?3空?污染指數(shù)年份密度圖七、結(jié)論1.關(guān)于深圳市空?質(zhì)量研究研究中可以發(fā)現(xiàn)對于深圳市來說,PM2.5反?并不是影響空?質(zhì)量最?的原因,查閱資料得知PM2.5的形成有兩個(gè)源頭,?然源與?為源,其中?為源包括固定源和流動(dòng)源。固定源包括各種燃料燃燒源,如發(fā)電、冶?、?油、化學(xué)、紡織印染等各種?業(yè)過程、供熱、烹調(diào)過程中燃煤與燃?或燃油排放的煙塵。流動(dòng)源主要是各類交通?具在運(yùn)?過程中使?燃料時(shí)向??中排放的尾?。?對于地理位置?處南?沿海的深圳市,其核?產(chǎn)業(yè)鏈并?上述?業(yè)?后?新科技產(chǎn)業(yè),并且有研究指出在深圳臭氧含量頗?的成因[5],NO2與O3反?代替PM2.5成為了影響深圳市空?質(zhì)量的?要污染物質(zhì)。作為經(jīng)濟(jì)發(fā)展特區(qū),深圳市的?舉?動(dòng)在全國甚?全球的矚?下,深圳空?質(zhì)量在近35年來呈現(xiàn)出倒U型,集體來說可劃分為萌芽期,上升期,波動(dòng)期,躍升期和穩(wěn)定期五個(gè)階段[6],對于深圳來說喲,深圳的產(chǎn)業(yè)結(jié)構(gòu)調(diào)整是影響空?質(zhì)量的重要因素,不同階段的經(jīng)濟(jì)發(fā)展與產(chǎn)業(yè)結(jié)構(gòu)則形成了不同時(shí)期的階段性空?質(zhì)量。本?主要研究的時(shí)期從上述圖中也可以觀察出,是出于穩(wěn)定期的空?質(zhì)量,2015年?2019年的空?質(zhì)量密度曲線近乎重合就可以反映出此時(shí)的空?質(zhì)量階段為穩(wěn)定的不易改變的。然?隨著深圳市出臺(tái)的《深圳市??環(huán)境質(zhì)量提升補(bǔ)貼辦法(2018-2020年)》,在2020年截?年份,深圳市完成了躍進(jìn)式的空?質(zhì)量?新,在密度曲線背后所投射出來的不僅僅是?個(gè)政策的正確性,同時(shí)反映出政策背后的踐?者的付出與努?,深圳政府、基層與深圳市民改進(jìn)深圳市空?質(zhì)量的決?。2.此次研究使?的編程語?通過此次完整的基于R語?下針對深圳市空?質(zhì)量數(shù)據(jù)研究,對R語?的認(rèn)知更為清晰明了,采?R語?進(jìn)?數(shù)據(jù)研究在以下?個(gè)??都具有優(yōu)越性。a)R語?進(jìn)?數(shù)據(jù)預(yù)處理的優(yōu)越例如在此次實(shí)驗(yàn)中,對于數(shù)據(jù)的缺失值異常值處理,R語?只需要使?其?帶的缺失值函數(shù)與箱線圖可視化查看異常值,返回異常值等等,??調(diào)?函數(shù)簡單代碼就解決數(shù)據(jù)預(yù)處理龐??程。b)R語?進(jìn)?數(shù)據(jù)分析的優(yōu)越在此次實(shí)驗(yàn)中,相關(guān)性有著多種數(shù)據(jù)分析的?式,可以做相關(guān)性顯著檢驗(yàn),可以對數(shù)據(jù)集進(jìn)?各屬性值相關(guān)性計(jì)算,也可以?summy初步查看數(shù)據(jù)信息等等,這些函數(shù)在其他語?中甚?需要?為編譯,?在R語?中都可以通過函數(shù)調(diào)?實(shí)現(xiàn)。c)R語?進(jìn)?數(shù)據(jù)可視化的優(yōu)越相較于python,R數(shù)據(jù)科學(xué)?態(tài)系統(tǒng)如何具有許多較?的繪圖程序包,有許多?持不同的做事?法的程序包,?對于pyth

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論