能源大數(shù)據分析理論與實踐 課件 9.能源經濟與管理大數(shù)據處理與分析案例_第1頁
能源大數(shù)據分析理論與實踐 課件 9.能源經濟與管理大數(shù)據處理與分析案例_第2頁
能源大數(shù)據分析理論與實踐 課件 9.能源經濟與管理大數(shù)據處理與分析案例_第3頁
能源大數(shù)據分析理論與實踐 課件 9.能源經濟與管理大數(shù)據處理與分析案例_第4頁
能源大數(shù)據分析理論與實踐 課件 9.能源經濟與管理大數(shù)據處理與分析案例_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

能源經濟與管理大數(shù)據處理與分析案例09能源政策文本分析EnergyPolicyText

Analysis9.1.1案例描述能源政策對于政府、企業(yè)等均具有重要影響,對于政策的把握有助于進行科學決策,文本大數(shù)據處理與分析技術為能源政策的研究提供了一種新的工具。本案例通過爬蟲程序爬取能源網站能源要聞頁面的文本,繪制詞云圖,根據詞云圖中關鍵詞的出現(xiàn)頻率分析能源政策的關注重點。本案例主要介紹能源政策文本數(shù)據采集和分析技術的實現(xiàn)方法,包括新聞文本的爬取、文本處理和存儲、詞云圖生成與結果分析等。9.1.2能源政策文本數(shù)據采集案例文本數(shù)據可從國家能源局網站的能源要聞頁面采集,該頁面包含大量關于能源政策和發(fā)展動態(tài)的信息,能夠反映我國能源政策的導向與實踐效果。本節(jié)僅采集2023年的文本數(shù)據進行案例展示,其他時間的數(shù)據可采用相同方法獲取并分析。在編寫Python爬蟲前,需明確目標頁面的URL,然后利用urllib+正則表達式爬取能源要聞的內容,并解析網頁獲取標題和正文。最終,將爬取的文本數(shù)據保存至TXT文件,以便后續(xù)分析和處理。9.1.2能源政策文本數(shù)據采集Python爬蟲程序包含三個部分的內容。發(fā)送請求能源政策文本數(shù)據采集使用urllib庫,主要使用的是urllib.request,使用前需要提前導入這個庫。使用response對象接收打開的頁面,之后用定義過的空字符串讀取response中的HTML頁面代碼,注意使用“UTF-8”形式。為了避免異常情況發(fā)生,在訪問頁面時,可以增加try、except方法進行異常處理。發(fā)送請求的代碼如下。9.1.2能源政策文本數(shù)據采集爬取能源要聞標題和正文爬取能源要聞標題和正文需要調用Python中的re庫,可以使用import提前導入這個庫。使用pile()結合findall()函數(shù)解析response,爬取能源要聞標題和正文并輸出,其中正文爬取了兩次,分別用于縮小范圍和爬取正文內容。編寫代碼之前需要提前找好網址中標題和正文內容所在的位置。首先在能源要聞頁面使用F12鍵,打開頁面調試窗口。在頁面調試窗口上的導航欄中找到元素,單擊框選的位置,然后分別單擊標題和正文,可以發(fā)現(xiàn)標題在“<divclass=”titles“></div>”元素之間,正文在“<p></p>”元素之間,如下圖所示。9.1.2能源政策文本數(shù)據采集爬取能源要聞標題和正文的代碼如下。9.1.2能源政策文本數(shù)據采集主函數(shù)主函數(shù)部分需要調用Python的BeautifulSoup庫,可以使用import提前導入這個庫。程序中通過指定能源要聞頁面的URL地址,進行遍歷爬取。此處僅爬取2023年的能源要聞,共需要爬取6個頁面,因此需要將所有頁面網址存入urls_news列表。利用同樣的方法可以獲取標題鏈接(在特征為“class=box01”的div標簽中的li標簽中),其中urls即鏈接所在列表。最后使用for循環(huán)遍歷列表中的所有鏈接,調用上文中的get_page()和get_parser()兩個函數(shù)爬取標題和正文。9.1.3能源政策詞云圖將上文爬取的能源要聞標題和正文的文本內容進行分詞,并繪制詞云圖。Python程序代碼編寫共分為以下三個階段。準備階段需要提前安裝matplotlib庫、jieba庫和WordCloud庫。因為WordCloud庫默認不支持中文,所以這里需要下載好中文字庫,本文使用的是“思源屏顯臻宋.ttf”。同時,由于語氣詞、虛詞、標點符號等在文本中出現(xiàn)頻率較高,但并沒有實際意義,而且影響詞頻分析結果,因此需要添加停用詞,以排除掉這些詞語,可以使用停用詞詞庫文件或手動添加停用詞(本書使用的是“cn_stopwords.txt”詞庫文件,文件中可以繼續(xù)添加停用詞)的方法。最后需要準備詞云圖呈現(xiàn)形狀的圖片,一般為白底黑色填充的圖片樣式。讀取文本并分詞將上文中爬取的能源要聞標題和正文文本保存進“word_cloud_text.txt”文件中,通過read()函數(shù)讀取文件內容。利用jieba庫進行分詞形成列表(使用導入的jieba庫),將列表里面的詞用空格分開,并拼接成長字符串,最后導入停用詞。讀取文本并分分詞的代碼如下。9.1.3能源政策詞云圖9.1.3能源政策詞云圖生成詞云圖并保存先導入下載好的中文字庫和形狀圖片,再使用np.array()函數(shù)處理圖片(此處需要導入numpy庫),使用WordCloud()函數(shù)設定好詞云圖的字體、背景色、背景寬和高、最大最小字號等(需要提前導入WordCloud庫),生成詞云圖并保存,最終以圖片形式顯示。生成詞云圖并保存的代碼如下。9.1.3能源政策詞云圖詞云圖如下圖所示。由上面的詞云圖能夠看出,“項目”“發(fā)展”“企業(yè)”“技術”“創(chuàng)新”“新能源”“綠色”“低碳”“電力”“儲能”是出現(xiàn)較多的詞,說明我國能源政策仍以項目驅動發(fā)展,技術創(chuàng)新與綠色低碳是重要導向,能源系統(tǒng)中新能源發(fā)展、儲能等是當前的重點領域。本節(jié)僅根據2023年的能源要聞數(shù)據制作了一個詞云圖,讀者可以根據不同年份的能源要聞數(shù)據制作不同的詞云圖,觀察政策和能源行業(yè)的演化特征,也可以進一步使用主題識別技術,研究能源政策的主題演化。國際LNG貿易網絡分析AnalysisOfinternationalLNGTradeNetwork9.2.1案例描述本案例基于圖神經網絡技術對全球各國LNG貿易網絡的特點進行研究,使用節(jié)點中心性方法研究各國在LNG貿易網絡中的地位和影響力,通過分析歷年的節(jié)點中心性探究LNG貿易格局的演變趨勢,并且使用圖嵌入技術實現(xiàn)節(jié)點的向量化,將LNG貿易網絡中的各國進行向量化表示,這種向量化表示可以為后續(xù)的研究提供幫助。本案例的理論基礎參考6.6節(jié)相關內容,案例數(shù)據來源于《BP世界能源統(tǒng)計年鑒》。9.2.2數(shù)據預處理與圖的生成數(shù)據預處理從《BP世界能源統(tǒng)計年鑒》“Gas-TrademovtsLNG”表單中提取數(shù)據,單獨創(chuàng)建“relation”表單來保存案例中的“節(jié)點”和“邊”,“relation”表單部分內容如下圖所示。9.2.2數(shù)據預處理與圖的生成圖的生成首先使用openpyxl庫導入數(shù)據,使用networkx庫來生成圖,將“relation”表單中的貿易關系信息作為“邊”導入,無數(shù)據的則認為不存在貿易關系,表單中對應的國家或地區(qū)設置為“節(jié)點”,然后生成圖。圖生成的代碼如下。9.2.2數(shù)據預處理與圖的生成2013年各國的LNG貿易網絡可以繪制為一個圖,如下所示。9.2.3LNG貿易網絡節(jié)點中心性使用networkx庫可以直接生成LNG貿易網絡中各節(jié)點的點度中心性、中介中心性、接近中心性、特征向量中心性,并將中心性結果保存為Excel文件,代碼如下。9.2.3LNG貿易網絡節(jié)點中心性利用同樣的方法可以輸出2022年各國的LNG貿易網絡中各節(jié)點的中心性,從而可以從時間維度對比分析中心性指標的變化。下圖展示了2013年和2022年LNG貿易網絡中各國的點度中心性對比結果。觀察點度中心性對比結果可以得出如下結論:2013年全球LNG貿易的重心主要在卡塔爾、日本、韓國等地,2022年LNG貿易的重心發(fā)生了變化,美國的中心性明顯提升,主要源于美國LNG出口的快速增長。9.2.4LNG貿易網絡的圖嵌入圖嵌入是指將圖節(jié)點進行向量化表示,獲取更多的特征嵌入編碼,這可以幫助以后的任務獲得更好的結果。運用圖嵌入方法可以將上述的LNG貿易網絡節(jié)點進行向量化表示。本節(jié)以DeepWalk方法為例,對圖嵌入方法的使用進行介紹。首先需要實現(xiàn)deep_walk()函數(shù),輸入參數(shù)為圖的節(jié)點集合和最大游走步數(shù)。先通過G.nodes()函數(shù)獲取圖中節(jié)點集合,通過G.neighbors(node)函數(shù)獲取當前節(jié)點的鄰居節(jié)點,再通過random方法隨機選取鄰居節(jié)點,持續(xù)到規(guī)定的最大游走步數(shù),即完成一個節(jié)點的采樣。deep_walk()函數(shù)代碼如下。9.2.4LNG貿易網絡的圖嵌入調用Gensim庫的Word2Vec方法,對上述隨機游走獲得的訓練語料進行訓練,獲取詞嵌入結果,此處為了便于圖形化展示,將vector_size設置為2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論