大數(shù)據(jù)時代的人工智能應(yīng)用_第1頁
大數(shù)據(jù)時代的人工智能應(yīng)用_第2頁
大數(shù)據(jù)時代的人工智能應(yīng)用_第3頁
大數(shù)據(jù)時代的人工智能應(yīng)用_第4頁
大數(shù)據(jù)時代的人工智能應(yīng)用_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

時代背景:新一代人工智能發(fā)展規(guī)劃的提出1為搶抓人工智能發(fā)展的重大戰(zhàn)略機遇,構(gòu)筑我國人工智能發(fā)展的先發(fā)優(yōu)勢,加快建設(shè)創(chuàng)新型國家和世界科技強國,日前國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》。

《規(guī)劃》指出:立足國家發(fā)展全局,準(zhǔn)確把握全球人工智能發(fā)展態(tài)勢,找準(zhǔn)突破口和主攻方向,全面增強科技創(chuàng)新基礎(chǔ)能力,全面拓展重點領(lǐng)域應(yīng)用深度廣度,全面提升經(jīng)濟社會發(fā)展和國防應(yīng)用智能化水平?,F(xiàn)在是1頁\一共有75頁\編輯于星期五AlphaGo到底有多厲害?22011年,北京郵電大學(xué)的Lingo圍棋程序在9*9棋盤上以受讓兩子的條件,首次擊敗了中國圍棋教練職業(yè)圍棋9段俞斌和先生。那時,誰也沒有想到僅僅5年之后,AlphaGo圍棋程序就在19*19棋盤上無條件戰(zhàn)勝了人類棋王。研制AlphaGo的團隊DeepMind正在投入AlphaSC的研發(fā),未來將于人類頂尖高手在星際爭霸游戲中一較高下?,F(xiàn)在是2頁\一共有75頁\編輯于星期五AlphaGo怎么做到的?AlphaGo使用兩種不同的深度神經(jīng)網(wǎng)絡(luò):第一種是策略網(wǎng)絡(luò),目標(biāo)是選擇在哪里落子。第二種則是價值網(wǎng)絡(luò),價值網(wǎng)絡(luò)的作用是衡量走這一步對最終輸贏的影響。AlphaGo成功的關(guān)鍵在于:海量對弈數(shù)據(jù):6000萬局對弈數(shù)據(jù)。算法創(chuàng)新:深度神經(jīng)網(wǎng)絡(luò)+“左右手互搏”。計算能力出眾:打敗李世石的AlphaGoLee的芯片為50TPU,搜索速度為10k位置/秒。3人類專家位置監(jiān)督式學(xué)習(xí)強化學(xué)習(xí)現(xiàn)在是3頁\一共有75頁\編輯于星期五AlphaGo絕非一帆風(fēng)順43月13日李世石九段“神之一手”“AlphaGo遠(yuǎn)非人工智能的終點?!蔽④浹芯吭褐麢C器學(xué)習(xí)專家JohnLangford批評了Wired和Slashdot等媒體對于“實現(xiàn)人工智能”夸大其詞的相關(guān)報道。Langford認(rèn)為這些進(jìn)展本是好事,但報道的時候產(chǎn)生了偏差,這容易導(dǎo)致失望和人工智能寒冬。JohnLangford國際機器學(xué)習(xí)大會ICML2016程序主席“AlphaGo以為自己做的很好,但在87手迷惑了,有麻煩了”“錯誤在第79手,但AlphaGo到第87手才發(fā)覺”現(xiàn)在是4頁\一共有75頁\編輯于星期五從AlphaGo到AlphaGoMaster560-0vs頂級專業(yè)人士(在線游戲)等級分專業(yè)級業(yè)余級入門級2017年7月9日,柯潔攜20連勝,等級分沖至3675分,世界排名第一。現(xiàn)在是5頁\一共有75頁\編輯于星期五6震撼之后的思考什么是人工智能?為什么那么厲害?AlphaGo未來有沒有可能被人類打???人工智能技術(shù)未來有沒有可能取代人類?為什么?人工智能可以幫助人類完成哪些事情?人工智能已經(jīng)出現(xiàn)在哪些領(lǐng)域,今后還會出現(xiàn)在哪些領(lǐng)域?現(xiàn)在是6頁\一共有75頁\編輯于星期五大數(shù)據(jù)時代的人工智能

現(xiàn)在是7頁\一共有75頁\編輯于星期五內(nèi)容提綱人工智能基本概念與發(fā)展歷史人工智能與大數(shù)據(jù)人工智能在氣象領(lǐng)域的應(yīng)用案例人工智能在環(huán)保領(lǐng)域的應(yīng)用案例人工智能在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用案例人工智能面臨的機遇與挑戰(zhàn)總結(jié)與展望8現(xiàn)在是8頁\一共有75頁\編輯于星期五內(nèi)容提綱人工智能基本概念與發(fā)展歷史人工智能與大數(shù)據(jù)人工智能在氣象領(lǐng)域的應(yīng)用案例人工智能在環(huán)保領(lǐng)域的應(yīng)用案例人工智能在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用案例人工智能面臨的機遇與挑戰(zhàn)總結(jié)與展望9現(xiàn)在是9頁\一共有75頁\編輯于星期五什么是智能智力或知能是指生物一般性的精神能力。這個能力包括以下幾點:理解、計劃、解決問題,抽象思維,表達(dá)意念以及語言和學(xué)習(xí)的能力。智力三因素理論(RobertSternberg)成分性智力(componentialintelligence),指思維和問題解決所依賴的心理過程。經(jīng)驗智力(experientialintelligence),指人們在兩種極端情況下處理問題的能力:新異的或常規(guī)的問題。情境智力(contextualintelligence)反映,在對日常事物的處理上,它包括對新的和不同環(huán)境的適應(yīng),選擇合適的環(huán)境以及有效地改變環(huán)境以適應(yīng)你的需要。10RobertSternberg(1949-)是美國心理學(xué)家和心理測量學(xué)家。他是康奈爾大學(xué)人類發(fā)展教授?,F(xiàn)在是10頁\一共有75頁\編輯于星期五什么是人工智能人工智能(ArtificialIntelligence,AI)也稱作機器智能,是指由人工制造出來的系統(tǒng)所表現(xiàn)出來的智能。通常人工智能是指通過普通計算機實現(xiàn)的智能。人工智能研究研究內(nèi)容:包括認(rèn)知建模、知識學(xué)習(xí)、推理及應(yīng)用、機器感知、機器思維、機器學(xué)習(xí)、機器行為和智能系統(tǒng)等。研究動機:包括推理,知識,規(guī)劃,學(xué)習(xí),交流,感知,移動和操作物體的能力等。基礎(chǔ)知識:包括搜索和數(shù)學(xué)優(yōu)化,邏輯,基于概率論和經(jīng)濟學(xué)的方法等。應(yīng)用系統(tǒng):目前有大量的人工智能應(yīng)用系統(tǒng),如AlphaGo,Siri等。11現(xiàn)在是11頁\一共有75頁\編輯于星期五人工智能的三大發(fā)展要素12基礎(chǔ)理論引入相關(guān)學(xué)科交叉多領(lǐng)域應(yīng)用機器學(xué)習(xí)數(shù)據(jù)挖掘人工智能數(shù)學(xué)統(tǒng)計學(xué)認(rèn)知科學(xué)神經(jīng)科學(xué)……控制論現(xiàn)在是12頁\一共有75頁\編輯于星期五人工智能發(fā)展歷程中的里程碑(1)-圖靈測試圖靈測試(1950)一個人(C)詢問兩個他看不見的對象(機器A和正常思維的人B)。如果經(jīng)過若干詢問后,C無法區(qū)分A與B,則A通過圖靈測試。聊天機器人Eugene

Goostman(2014)在5分鐘內(nèi)試圖欺騙30%的人。13圖靈測試額外加分項:說服測試者,令他認(rèn)為自己是電腦。你知道嗎,你說的這些話真的很有道理。我……我已經(jīng)不知道自己究竟是誰了?,F(xiàn)在是13頁\一共有75頁\編輯于星期五人工智能發(fā)展歷程中的里程碑(2)-深藍(lán)vs卡斯帕羅夫1997年,IBM研制的超級電腦“深藍(lán)”在標(biāo)準(zhǔn)比賽時限內(nèi)以3.5比2.5的累計積分擊敗了國際象棋世界冠軍卡斯帕羅夫,震驚世界?!吧钏{(lán)”的設(shè)計者許峰雄曾表示,一般的國際象棋手能想到后7步就很不錯了,但“深藍(lán)”能想到12步,甚至40步遠(yuǎn),棋手當(dāng)然不是計算機的對手。插曲:卡斯帕羅夫在落敗后曾稱無法理解電腦下棋時做出的決定。他亦認(rèn)為電腦在棋局中可能得到人類幫助并要求重賽,但I(xiàn)BM拒絕。思考:深藍(lán)靠什么打敗了卡斯帕羅夫?深藍(lán)能否擊敗李世石?為什么?14現(xiàn)在是14頁\一共有75頁\編輯于星期五人工智能發(fā)展歷程中的里程碑(3)-Waston與人機大戰(zhàn)2011年2月16日,在美國智力競猜節(jié)目《危險邊緣》第三場比賽中,IBM另一超級電腦“沃森”以三倍的巨大分?jǐn)?shù)優(yōu)勢力壓該競猜節(jié)目有史以來最強的兩位選手肯·詹寧斯和布拉德·魯特,奪得這場人機大戰(zhàn)的冠軍?!拔稚痹诒荣愔袥]有連接互聯(lián)網(wǎng),其數(shù)據(jù)庫中包括辭海和《世界圖書百科全書》等數(shù)百萬份資料,強大的硬件則助力其能在3秒鐘之內(nèi)檢索數(shù)億頁的材料并給出答案。思考:就面臨的挑戰(zhàn)來說,“沃森”相比深藍(lán)有哪些不同?“沃森”的特點是什么?“沃森”有可能勝任AlphaGo的工作嗎?15現(xiàn)在是15頁\一共有75頁\編輯于星期五人工智能發(fā)展歷程中的里程碑(4)-圖像識別領(lǐng)域機器首次超越人類2015年的ImageNet挑戰(zhàn)賽,在圖像識別準(zhǔn)確率上,機器的表現(xiàn)首次超過了人類。這被公認(rèn)為是一個里程碑式的突破。在此之前,2010年算法的圖像識別錯誤率至少在25%左右,但到2015年,計算機圖像識別錯誤率已經(jīng)低于人類(人類水平大概是4%左右)。2015年是0.03567,也就是3.5%。2016年,ImageNet競賽,圖像識別錯誤率進(jìn)一步下降,最好成績?yōu)椋浩骄e誤率0.02991,也就是2.99%左右。思考:這一次的人工智能突破和前幾次相比有何不同?16現(xiàn)在是16頁\一共有75頁\編輯于星期五人工智能發(fā)展(簡史)17混沌初生開天辟地百家爭鳴百花齊放物競天擇適者生存達(dá)特茅斯會議的召開標(biāo)志著人工智能的誕生。(1956年)圖靈測試的提出標(biāo)志人工智能進(jìn)入萌芽階段。以DENDRAL系統(tǒng)為代表的專家系統(tǒng)大量涌現(xiàn)。(1970~1980)淺層機器學(xué)習(xí)模型興起,SVM、LR、Boosting算法等紛紛面世。(1990~2000)多倫多大學(xué)教授Hinton開啟深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮(2006)人工智能出現(xiàn)新的研究高潮,機器開始通過視頻學(xué)習(xí)識別人和事物,AlphaGo戰(zhàn)勝圍棋冠軍(2011~今)隨著新的算法和模型不斷涌現(xiàn),學(xué)科交叉現(xiàn)象日趨明顯,人工智能的研究進(jìn)入了新的階段。奠定了人工智能的數(shù)學(xué)基礎(chǔ),出現(xiàn)了人工智能歷史上的第一個應(yīng)用。-西蒙和紐厄爾提出了“LogicTheorist”自動定理證明系統(tǒng)。大數(shù)據(jù)時代的到來給人工智能的發(fā)展帶來契機,人工智能全面融入人們的社會生活?,F(xiàn)在是17頁\一共有75頁\編輯于星期五人工智能發(fā)展的真實歷史過程(波浪式前進(jìn))18最近一次的人工智能熱潮興起,是由于大數(shù)據(jù)時代使得數(shù)據(jù)需求得到了滿足。達(dá)特茅斯會議標(biāo)志AI的誕生自然語言探索式推理微世界第一款神經(jīng)網(wǎng)絡(luò)—感知機,將人工智能推向第一個高峰人工智能計算機DARPA無條件撥款放棄聯(lián)結(jié)主義計算能力突破沒能使機器完成大規(guī)模數(shù)據(jù)訓(xùn)練和復(fù)雜任務(wù),AI進(jìn)入第一個低谷DARPA停止撥款集成電路技術(shù)提高反向傳播算法提出霍普菲爾德神經(jīng)網(wǎng)絡(luò)被提出DARPA受到認(rèn)可重獲撥款反向傳播算法獲得廣泛關(guān)注,AI進(jìn)入第二黃金時期循環(huán)神經(jīng)網(wǎng)絡(luò)狂熱追捧帶來失望LISP機市場的崩潰DARPA失敗,政府投入縮減,AI跌入第二次谷底行為主義提出非線性多層自適應(yīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)出現(xiàn)IBM深藍(lán)戰(zhàn)勝人類象棋冠軍深度卷積神經(jīng)網(wǎng)絡(luò)提出人工智能加速發(fā)展人臉識別率超過99%歐盟、美國腦工程計劃AlphaGo挑戰(zhàn)人類圍棋冠軍計算能力數(shù)據(jù)需求下一個問題呢啟蒙階段低潮時期復(fù)興階段遇冷時期快速發(fā)展1955201620051991198619701958現(xiàn)在是18頁\一共有75頁\編輯于星期五內(nèi)容提綱人工智能基本概念與發(fā)展歷史人工智能與大數(shù)據(jù)人工智能在氣象領(lǐng)域的應(yīng)用案例人工智能在環(huán)保領(lǐng)域的應(yīng)用案例人工智能在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用案例人工智能面臨的機遇與挑戰(zhàn)總結(jié)與展望19現(xiàn)在是19頁\一共有75頁\編輯于星期五大數(shù)據(jù)是什么?大數(shù)據(jù)(BigData):是指大小超出了常用軟件工具在運行時間內(nèi)可以承受的收集、管理和處理數(shù)據(jù)能力的數(shù)據(jù)集。大數(shù)據(jù)是目前存儲模式與能力、計算模式與能力不能滿足存儲與處理現(xiàn)有數(shù)據(jù)集規(guī)模產(chǎn)生的相對概念。20現(xiàn)在是20頁\一共有75頁\編輯于星期五大數(shù)據(jù)真正價值不在于大數(shù)據(jù)本身,而在于數(shù)據(jù)內(nèi)容的分析和洞察。大數(shù)據(jù)時代的5V特點21現(xiàn)在是21頁\一共有75頁\編輯于星期五大數(shù)據(jù)時代的要求大數(shù)據(jù)規(guī)模大小是一個不斷演化的指標(biāo)當(dāng)前任務(wù)處理的單一的數(shù)據(jù)集當(dāng)前數(shù)據(jù)規(guī)模:從數(shù)十TB到十幾PB級處理大數(shù)據(jù)的可等待的合理時間依賴應(yīng)用場景地震數(shù)據(jù)預(yù)測要求在幾分鐘內(nèi)才有效氣象數(shù)據(jù)應(yīng)該在小時級別失聯(lián)飛機數(shù)據(jù)處理要在7天之內(nèi)數(shù)據(jù)挖掘一般要求在12小時內(nèi)22大數(shù)據(jù)時代需要人工智能技術(shù)同時滿足以上兩個要求?,F(xiàn)在是22頁\一共有75頁\編輯于星期五大數(shù)據(jù)時代需要什么樣的人工智能?能適應(yīng)反映大數(shù)據(jù)分布的抽樣方法解剖麻雀基于大數(shù)據(jù)分布的算法庖丁解牛追求高效并行的人工智能算法曹沖稱象反映全量特征的人工智能算法治大國如烹小鮮23現(xiàn)在是23頁\一共有75頁\編輯于星期五大數(shù)據(jù)時代的人工智能技術(shù)不斷涌現(xiàn)24互聯(lián)網(wǎng)搜索生物特征識別汽車自動駕駛智能機器人選舉結(jié)果預(yù)測智能客服系統(tǒng)現(xiàn)在是24頁\一共有75頁\編輯于星期五人工智能的應(yīng)用范圍和領(lǐng)域不斷拓展25人工智能應(yīng)用圖像識別語音識別文字識別其他信號識別無人駕駛?cè)四樧R別場景感知氣象預(yù)報文獻(xiàn)篩選污染預(yù)報醫(yī)學(xué)影像分析虹膜識別視頻監(jiān)控計算機春聯(lián)手寫數(shù)字識別智能交通智能客服智能庭審記錄小米基因篩選網(wǎng)絡(luò)安全計算機寫詩現(xiàn)在是25頁\一共有75頁\編輯于星期五內(nèi)容提綱人工智能基本概念與發(fā)展歷史人工智能與大數(shù)據(jù)人工智能在氣象領(lǐng)域的應(yīng)用案例人工智能在環(huán)保領(lǐng)域的應(yīng)用案例人工智能在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用案例人工智能面臨的機遇與挑戰(zhàn)總結(jié)與展望26現(xiàn)在是26頁\一共有75頁\編輯于星期五人機交互層基于人工智能技術(shù)的強對流天氣聚焦與推演方案目標(biāo):聚焦:輔助決策。從海量數(shù)據(jù)中聚焦關(guān)鍵特征和重點區(qū)域,輔助氣象專家進(jìn)行決策;推演:協(xié)助研判。提供智能推演,協(xié)助氣象專家對未來3小時的天氣形勢進(jìn)行研判。方案特點:采用人工智能技術(shù)綜合運用多種深度學(xué)習(xí)算法半結(jié)構(gòu)化與非結(jié)構(gòu)化大數(shù)據(jù)處理技術(shù)雷達(dá)反射圖核心模塊氣象數(shù)據(jù)展示效果模型算法多層神經(jīng)網(wǎng)絡(luò)Softmax線性模型卷積神經(jīng)網(wǎng)絡(luò)(CNN)循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)衛(wèi)星云圖GRIB2在分析預(yù)報場資料關(guān)鍵特征識別重點區(qū)域識別時空特征學(xué)習(xí)天氣變化推演未來3小時強對流天氣模擬推演關(guān)鍵特征和重點區(qū)域2維效果展示層系統(tǒng)層模型層數(shù)據(jù)層輔助人工決策提供智能推演氣象專家最終氣象預(yù)報結(jié)果歷史對流過程標(biāo)注數(shù)據(jù)現(xiàn)在是27頁\一共有75頁\編輯于星期五與傳統(tǒng)方法的比較擁有深度自學(xué)習(xí)能力。認(rèn)知計算無需先驗知識,即可從海量歷史數(shù)據(jù)中進(jìn)行訓(xùn)練學(xué)習(xí),并挖掘潛在的規(guī)律和模式。同時,認(rèn)知計算能夠根據(jù)每天產(chǎn)生的氣象數(shù)據(jù)進(jìn)行自動學(xué)習(xí),自我調(diào)整以適應(yīng)天氣變化的最新情況。擁有基于大數(shù)據(jù)的輔助決策能力。能夠充分利用氣象歷史數(shù)據(jù)。氣象數(shù)據(jù)越多,收集時間越長,認(rèn)知計算模型的分析結(jié)果越準(zhǔn)確。數(shù)據(jù)依賴程度低。認(rèn)知計算系統(tǒng)只需少量的觀察和再分析數(shù)據(jù)即可完成分析和推演?;诳諝鈩恿W(xué)進(jìn)行數(shù)值計算。傳統(tǒng)數(shù)值方法主要依賴空氣動力學(xué)公式對氣象數(shù)據(jù)進(jìn)行分析,計算開銷高?;谏倭繗v史數(shù)據(jù)進(jìn)行人工決策。傳統(tǒng)數(shù)值方法主要基于少量歷史數(shù)據(jù),進(jìn)行人工外推。其歷史氣象數(shù)據(jù)未得到充分利用。依賴專家經(jīng)驗。傳統(tǒng)數(shù)值方法依賴專家根據(jù)其掌握的經(jīng)驗進(jìn)行分析和調(diào)整。需要大量的物理變量組合分析。傳統(tǒng)數(shù)值方法很難處理物理變量缺失的情況。傳統(tǒng)數(shù)值方法人工智能方法現(xiàn)在是28頁\一共有75頁\編輯于星期五強對流天氣聚焦700mb高度垂直速度,地面能見度,10米風(fēng),80米風(fēng),地表溫度,歷史對流天氣標(biāo)注結(jié)果……輸入?yún)?shù)關(guān)鍵特征識別重點區(qū)域可視化子系統(tǒng)的構(gòu)成:氣象圖片資料的自動解析多層神經(jīng)網(wǎng)絡(luò)模型Softmax線性模型特征預(yù)測效果評估模塊多特征自動排序模塊重點區(qū)域可視化模塊子系統(tǒng)的特點:支持43+種氣象圖片的自動分析綜合運用領(lǐng)先的深度學(xué)習(xí)技術(shù)支持端到端的關(guān)鍵特征識別和排序支持基于計算機視覺技術(shù)的重點區(qū)域可視化氣象圖片資料歷史對流天氣標(biāo)注集多層神經(jīng)網(wǎng)絡(luò)模型單特征預(yù)測效果評估訓(xùn)練數(shù)據(jù)驗證數(shù)據(jù)多特征自動排序氣象圖片資料歷史對流天氣標(biāo)注集Softmax線性模型格網(wǎng)不同位置權(quán)重解析重點區(qū)域可視化待分析特征注:深度學(xué)習(xí)的結(jié)果只能揭示區(qū)域和預(yù)測目標(biāo)的相關(guān)性,但不能解釋區(qū)域和預(yù)測目標(biāo)的因果關(guān)系?,F(xiàn)在是29頁\一共有75頁\編輯于星期五關(guān)鍵技術(shù)1---關(guān)鍵特征識別與排序候選氣象特征(43個)地面對流有效位能2米露點溫度可降水相對濕度入射短波輻射地面對流抑制2米相對濕度700mb高度溫度行星邊界層高度混合對流有效位能累計降水700mb高度垂直速度雪水當(dāng)量最不穩(wěn)定對流有效位能降水類型500mb高度溫度1小時降雪最不穩(wěn)定層對流有效位能可降水500mb高度渦度雪深10米風(fēng)航空飛行規(guī)則250mb高度風(fēng)場2米位溫80米風(fēng)925mb高度溫度250mb高度風(fēng)速850mb高度相對濕度地面能見度850mb高度溫度云頂高度高層云量地表溫度850mb高度風(fēng)場云底高度低層云量2米溫度850mb高度風(fēng)速總云量中層云量模擬雷達(dá)反射率2米溫度-地表溫度850-500mb平均相對濕度高

低6-10月歷史對流天氣標(biāo)注集①針對2016年6月-10月間48個對流天氣過程,根據(jù)其中43個候選氣象特征,收集10w+張圖片。②針對每個候選特征,應(yīng)用深度學(xué)習(xí)中的多層神經(jīng)網(wǎng)絡(luò)模型對其預(yù)測對流天氣過程的能力進(jìn)行評估。③根據(jù)評估結(jié)果,對不同特征按照預(yù)測效果進(jìn)行排序。關(guān)鍵特征的識別與排序旨在從海量數(shù)據(jù)中提煉有效特征,協(xié)助氣象專家提升對流天氣過程的預(yù)報準(zhǔn)確率。輸入層輸出層隱層I隱層II隱層III誤差反向傳播信息正向傳播現(xiàn)在是30頁\一共有75頁\編輯于星期五重點區(qū)域31①針對待分析特征,按照發(fā)生對流過程的類型,對圖片進(jìn)行分別標(biāo)注。關(guān)鍵技術(shù)2---重點區(qū)域識別②根據(jù)對流過程的類型,應(yīng)用softmax線性模型對不同位置網(wǎng)格點(RGB取值)的重要性(權(quán)重)進(jìn)行評估,進(jìn)而識別出不同類型天氣的重點區(qū)域,如右圖所示。31③網(wǎng)格點權(quán)重可視化。示例250mb高度風(fēng)場(b)待分析圖片重點區(qū)域可視化旨在從海量地理氣象數(shù)據(jù)中快速發(fā)現(xiàn)重要區(qū)域,輔助氣象專家提升對流天氣過程的預(yù)報精度。如上圖所示,通過比較待分析圖片和標(biāo)準(zhǔn)模板,可以計算對應(yīng)區(qū)域的偏差。通過對偏差的分析比較,可以準(zhǔn)確地識別出待分析圖片未來1-3h內(nèi)可能發(fā)生的天氣過程的類型。(a)無對流過程標(biāo)準(zhǔn)模板無對流過程臺風(fēng)過程大尺度天氣系統(tǒng)降水過程局地對流天氣過程現(xiàn)在是31頁\一共有75頁\編輯于星期五32重點區(qū)域識別結(jié)果驗證(示例:250mb高度風(fēng)場)局地對流天氣2016年10月04日14:00~17:00偏差0.030.410.210.09偏差0.030.330.190.11偏差0.050.210.070.14偏差0.010.010.10.12重點區(qū)域無對流過程臺風(fēng)過程大尺度天氣系統(tǒng)降水過程局地對流天氣過程根據(jù)重點區(qū)域的分析結(jié)果,可以分析出未來出現(xiàn)不同天氣類型的概率。結(jié)果驗證:系統(tǒng)為預(yù)報員提供無對流天氣過程模板和重點區(qū)域具體位置。預(yù)報員可以通過比較重點區(qū)域的偏差情況,分析未來0-3h出現(xiàn)的天氣類型。2016年10月04日14:002016年10月04日15:002016年10月04日16:002016年10月04日17:00現(xiàn)在是32頁\一共有75頁\編輯于星期五強對流天氣推演強對流天氣推演子系統(tǒng)的構(gòu)成:衛(wèi)星云圖和雷達(dá)反射圖的自動解析卷積神經(jīng)網(wǎng)絡(luò)模型循環(huán)神經(jīng)網(wǎng)絡(luò)模型多層網(wǎng)絡(luò)的深度學(xué)習(xí)模型支持未來天氣的自動推演模塊系統(tǒng)特點:通過海量歷史數(shù)據(jù)訓(xùn)練模型時空特征認(rèn)知空間特征:卷積神經(jīng)網(wǎng)絡(luò)(CNN)時序特征:循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)利用深度學(xué)習(xí)優(yōu)化模型歷史衛(wèi)星云圖,雷達(dá)反射圖卷積神經(jīng)網(wǎng)絡(luò)層(空間特征提取)多層網(wǎng)絡(luò)連接數(shù)據(jù)集未來天氣自動推演循環(huán)神經(jīng)網(wǎng)絡(luò)層(時間特征提?。r空特征學(xué)習(xí)深度學(xué)習(xí)優(yōu)化輸出結(jié)果無監(jiān)督學(xué)習(xí)實時衛(wèi)星云圖,雷達(dá)反射圖現(xiàn)在是33頁\一共有75頁\編輯于星期五34關(guān)鍵技術(shù)3---基于多層卷積的時空特征學(xué)習(xí)技術(shù)路線

1.

通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取空間特征:在每一層神經(jīng)網(wǎng)絡(luò)中,空間數(shù)據(jù)做卷積等操作,并通過誤差反向傳播學(xué)習(xí)卷積核2. 通過循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)提取時間特征:循環(huán)利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)天氣變化的規(guī)律3. 采用多層卷積層,并循環(huán)利用參數(shù)空間進(jìn)行建模,優(yōu)化后的模型可以很好的掌握天氣在空間和時間上的變化規(guī)律1.卷積神經(jīng)網(wǎng)絡(luò)層:通過卷積學(xué)習(xí)天氣的空間特征天氣序列輸入天氣序列輸出3.多層網(wǎng)絡(luò)連接2.循環(huán)神經(jīng)網(wǎng)絡(luò)層:通過循環(huán)層學(xué)習(xí)天氣變化的時間特征現(xiàn)在是34頁\一共有75頁\編輯于星期五35示例:強對流天氣推演-雷達(dá)反射圖(示例一)觀測序列2016年8月1日00:00~04:00實際發(fā)生2016年8月1日05:00~07:00天氣推演2016年8月1日05:00~07:00利用模型推演未來3個小時的天氣變化模型推演到了臺風(fēng)登陸的位置和時間模型推演到了臺風(fēng)移動的方向和旋轉(zhuǎn)現(xiàn)在是35頁\一共有75頁\編輯于星期五36示例:強對流天氣推演-雷達(dá)反射圖(示例一)實時天氣2016年8月1日04:003小時后天氣2016年8月1日07:003小時后天氣推演2016年8月1日07:00模型可以推演出左上角逐漸消散的過程模型可以推演出左下角的從無到有模型可以推演出右下角臺風(fēng)中心的移動和旋轉(zhuǎn)利用模型推演未來3個小時的天氣變化推演到了臺風(fēng)登陸的位置和時間現(xiàn)在是36頁\一共有75頁\編輯于星期五37示例:強對流天氣推演-衛(wèi)星云圖(示例二)實時天氣2016年8月3日04:003小時后天氣2016年8月3日07:003小時后天氣推演2016年8月3日07:00模型可以推演出左上角的從無到有模型可以推演出右下角的移動推演出中心的消散利用模型推演未來3個小時的天氣變化推演出右上角向下方移動現(xiàn)在是37頁\一共有75頁\編輯于星期五內(nèi)容提綱人工智能基本概念與發(fā)展歷史人工智能與大數(shù)據(jù)人工智能在氣象領(lǐng)域的應(yīng)用案例人工智能在環(huán)保領(lǐng)域的應(yīng)用案例人工智能在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用案例人工智能面臨的機遇與挑戰(zhàn)總結(jié)與展望38現(xiàn)在是38頁\一共有75頁\編輯于星期五業(yè)務(wù)需求:需要利用大數(shù)據(jù)分析人工智能等技術(shù),以數(shù)據(jù)驅(qū)動業(yè)務(wù),以分析支持科研業(yè)務(wù)需求許多小的功能由于結(jié)合不同時期的需求自主開發(fā),較為零散,導(dǎo)致操作分散需要整合多維度數(shù)據(jù)輔助人工數(shù)據(jù)審核人工生成報表,查詢指定時間、指定維度數(shù)據(jù)困難、工作量大使用excel模板生成報表,易出錯分析層次1.多維度綜合查詢,從Excel中解放出來2.常規(guī)統(tǒng)計分析報表,業(yè)務(wù)輕松一覽統(tǒng)一的數(shù)據(jù)資源池3.高級模型挖掘,獲取深入洞察現(xiàn)在是39頁\一共有75頁\編輯于星期五**室**室空氣質(zhì)量監(jiān)測數(shù)據(jù)氣象監(jiān)測數(shù)據(jù)特殊VOC監(jiān)測數(shù)據(jù)監(jiān)測中心的綜合監(jiān)測站監(jiān)測數(shù)據(jù)各類設(shè)備運行狀態(tài)數(shù)據(jù)PM2.5/TSP/PM10采集稱重數(shù)據(jù)**室重金屬分析OC/EC分析有機組分分析陰陽離子分析**室空氣質(zhì)量監(jiān)測審核數(shù)據(jù)空氣質(zhì)量監(jiān)測統(tǒng)計數(shù)據(jù)潛勢預(yù)報產(chǎn)品數(shù)據(jù)**室PM2.5反演圖污染氣體反演圖沙塵反演圖火點反演圖簡報/月報數(shù)據(jù)**室區(qū)縣監(jiān)督性監(jiān)測數(shù)據(jù)區(qū)縣比對監(jiān)測數(shù)據(jù)中心監(jiān)督性監(jiān)測數(shù)據(jù)激光雷達(dá)監(jiān)測數(shù)據(jù)垂直氣象要素監(jiān)測數(shù)據(jù)FDMS分析監(jiān)測數(shù)據(jù)空氣環(huán)境遙感應(yīng)用監(jiān)測數(shù)據(jù)污染物化學(xué)組分監(jiān)測數(shù)據(jù)空氣質(zhì)量日報數(shù)據(jù)空氣質(zhì)量月報數(shù)據(jù)空氣質(zhì)量年報數(shù)據(jù)空氣質(zhì)量數(shù)值模型數(shù)據(jù)統(tǒng)計預(yù)報產(chǎn)品數(shù)據(jù)氣象模型預(yù)報產(chǎn)品數(shù)據(jù)空氣重污染預(yù)報預(yù)警污染源處理模型數(shù)據(jù)案例庫數(shù)據(jù)面源遙感數(shù)據(jù)激光雷達(dá)數(shù)據(jù)在線源解析結(jié)果情景模擬結(jié)果基準(zhǔn)污染源清單減排污染源清單國控污染物數(shù)據(jù)簡報/月報數(shù)據(jù)監(jiān)測數(shù)據(jù)庫業(yè)務(wù)產(chǎn)品數(shù)據(jù)庫輔助數(shù)據(jù)庫運行支撐管理數(shù)據(jù)庫目錄和元數(shù)據(jù)庫第三方數(shù)據(jù)GIS數(shù)據(jù)總站空氣監(jiān)測數(shù)據(jù)氣象數(shù)據(jù)。。。大氣環(huán)境業(yè)務(wù)數(shù)據(jù)和信息的數(shù)據(jù)視圖未來小型監(jiān)測設(shè)備京津冀數(shù)據(jù)現(xiàn)在是40頁\一共有75頁\編輯于星期五設(shè)計方案數(shù)據(jù)層模型層應(yīng)用層展示層內(nèi)部網(wǎng)站報表GIS曲線外部網(wǎng)站發(fā)布外部移動應(yīng)用報表GIS曲線社交圖像報表GIS曲線圖像模型特征業(yè)務(wù)規(guī)則綜合觀測實驗室數(shù)據(jù)應(yīng)用環(huán)境空氣質(zhì)量分析及業(yè)務(wù)應(yīng)用大氣污染源管理及應(yīng)用重污染過程分析與案例庫管理統(tǒng)計與數(shù)值模型預(yù)報綜合會商重污染應(yīng)急決策支持統(tǒng)計模型庫自動室分析室遙感室污染源室專家知識庫空氣質(zhì)量預(yù)報預(yù)警空氣質(zhì)量綜合分析NAQPMSCMAQMM5/WRFSMOKE

數(shù)值模型庫CAMxAQMDSSARIAWRF-CHEMADMS基于案例的推理認(rèn)知計算特征場挖掘時空模式分析模型融合深度學(xué)習(xí)關(guān)聯(lián)分析場分析誤差模式挖掘大氣室外部數(shù)據(jù)在線源解析數(shù)據(jù)審核,管理與融合基于情景的污染過程仿真污染控制方案效果評估空氣質(zhì)量大數(shù)據(jù)分析空氣質(zhì)量指標(biāo)體系空氣質(zhì)量高級統(tǒng)計分析工具集基于GIS的數(shù)據(jù)耦合展示業(yè)務(wù)知識積累現(xiàn)在是41頁\一共有75頁\編輯于星期五數(shù)值模型工作原理輸入數(shù)據(jù)模型庫MM5WRF源排放清單CMAQ重污染案例再分析數(shù)據(jù)空氣質(zhì)量預(yù)報(包括集合預(yù)報)NAQPMSCAMxWRF-CHEM源排放情景庫SMOKE衛(wèi)星遙感數(shù)據(jù)氣象觀測數(shù)據(jù)科研試驗數(shù)據(jù)空氣質(zhì)量觀測數(shù)據(jù)人工觀測數(shù)據(jù)ADMSAQMDSSARIA作業(yè)管理與調(diào)度優(yōu)化全球背景場數(shù)據(jù)(NCEP,ECMWF,JMA,CMC,etc.)在線源解析排放控制情景模擬重污染影響參數(shù)模擬…污染同化現(xiàn)在是42頁\一共有75頁\編輯于星期五統(tǒng)計模型工作原理數(shù)據(jù)層模型層應(yīng)用層展示層內(nèi)部網(wǎng)站報表GIS曲線外部網(wǎng)站發(fā)布外部移動應(yīng)用報表GIS曲線社交圖像報表GIS曲線圖像模型特征(氣象場、污染變化趨勢等)業(yè)務(wù)規(guī)則(平穩(wěn)天氣研判、逆溫識別等)綜合觀測實驗室數(shù)據(jù)應(yīng)用環(huán)境空氣質(zhì)量分析及業(yè)務(wù)應(yīng)用大氣污染源管理及應(yīng)用重污染過程分析與案例庫管理統(tǒng)計與數(shù)值模型預(yù)報綜合會商重污染應(yīng)急決策支持統(tǒng)計模型庫自動室分析室遙感室污染源室專家知識庫空氣質(zhì)量預(yù)報預(yù)警空氣質(zhì)量綜合分析NAQPMSCMAQMM5/WRFSMOKE

數(shù)值模型庫CAMxAQMDSSARIAWRF-CHEMADMS基于案例的推理認(rèn)知計算特征場挖掘時空模式分析多預(yù)報模型融合深度學(xué)習(xí)多污染物關(guān)聯(lián)分析氣象場關(guān)聯(lián)分析預(yù)報誤差模式挖掘大氣室外部數(shù)據(jù)在線源解析數(shù)據(jù)審核,管理與融合基于情景的污染過程仿真污染控制方案效果評估空氣質(zhì)量大數(shù)據(jù)分析空氣質(zhì)量指標(biāo)體系空氣質(zhì)量高級統(tǒng)計分析工具集基于GIS的數(shù)據(jù)耦合展示業(yè)務(wù)知識積累自動室分析室遙感室污染源室大氣室外部數(shù)據(jù)統(tǒng)計模型庫基于案例的推理認(rèn)知計算特征場挖掘時空模式分析多預(yù)報模型融合深度學(xué)習(xí)多污染物關(guān)聯(lián)分析氣象場關(guān)聯(lián)分析預(yù)報誤差模式挖掘空氣質(zhì)量大數(shù)據(jù)分析空氣質(zhì)量指標(biāo)體系空氣質(zhì)量高級統(tǒng)計分析工具集基于GIS的數(shù)據(jù)耦合展示業(yè)務(wù)知識積累重污染過程分析與案例庫管理現(xiàn)有業(yè)務(wù)提升個性業(yè)務(wù)分析技術(shù)方案設(shè)計現(xiàn)在是43頁\一共有75頁\編輯于星期五人工智能技術(shù)應(yīng)用-重污染案例分析相關(guān)分析區(qū)域傳輸分析氣象條件分析時序分析分布分析跨行業(yè)分析重污染案例設(shè)計預(yù)報會商設(shè)計現(xiàn)有業(yè)務(wù)提升個性業(yè)務(wù)分析技術(shù)方案設(shè)計現(xiàn)在是44頁\一共有75頁\編輯于星期五重污染案例展示人工智能技術(shù)應(yīng)用-重污染案例分析重污染案例設(shè)計預(yù)報會商設(shè)計現(xiàn)有業(yè)務(wù)提升個性業(yè)務(wù)分析技術(shù)方案設(shè)計現(xiàn)在是45頁\一共有75頁\編輯于星期五重污染案例匹配人工智能技術(shù)應(yīng)用-重污染案例匹配重污染案例設(shè)計預(yù)報會商設(shè)計現(xiàn)有業(yè)務(wù)提升個性業(yè)務(wù)分析技術(shù)方案設(shè)計現(xiàn)在是46頁\一共有75頁\編輯于星期五

人工智能技術(shù)應(yīng)用-預(yù)報預(yù)警重污染案例設(shè)計預(yù)報會商設(shè)計現(xiàn)有業(yè)務(wù)提升個性業(yè)務(wù)分析技術(shù)方案設(shè)計現(xiàn)在是47頁\一共有75頁\編輯于星期五人工智能技術(shù)應(yīng)用-個性化業(yè)務(wù)分析模型層應(yīng)用層展示層內(nèi)部網(wǎng)站報表GIS曲線外部網(wǎng)站發(fā)布外部移動應(yīng)用報表GIS曲線社交圖像報表GIS曲線圖像模型特征(氣象場、污染變化趨勢等)業(yè)務(wù)規(guī)則(平穩(wěn)天氣研判、逆溫識別等)綜合觀測實驗室數(shù)據(jù)應(yīng)用環(huán)境空氣質(zhì)量分析及業(yè)務(wù)應(yīng)用大氣污染源管理及應(yīng)用重污染過程分析與案例庫管理統(tǒng)計與數(shù)值模型預(yù)報綜合會商重污染應(yīng)急決策支持統(tǒng)計模型庫自動室分析室遙感室污染源室專家知識庫空氣質(zhì)量預(yù)報預(yù)警空氣質(zhì)量綜合分析NAQPMSCMAQMM5/WRFSMOKE

數(shù)值模型庫CAMxAQMDSSARIAWRF-CHEMADMS基于案例的推理認(rèn)知計算特征場挖掘時空模式分析多預(yù)報模型融合深度學(xué)習(xí)多污染物關(guān)聯(lián)分析氣象場關(guān)聯(lián)分析預(yù)報誤差模式挖掘大氣室外部數(shù)據(jù)在線源解析數(shù)據(jù)審核,管理與融合基于情景的污染過程仿真污染控制方案效果評估空氣質(zhì)量大數(shù)據(jù)分析空氣質(zhì)量指標(biāo)體系空氣質(zhì)量高級統(tǒng)計分析工具集基于GIS的數(shù)據(jù)耦合展示業(yè)務(wù)知識積累自動室分析室遙感室污染源室大氣室外部數(shù)據(jù)空氣質(zhì)量大數(shù)據(jù)分析空氣質(zhì)量指標(biāo)體系空氣質(zhì)量高級統(tǒng)計分析工具集基于GIS的數(shù)據(jù)耦合展示業(yè)務(wù)知識積累現(xiàn)有業(yè)務(wù)提升個性業(yè)務(wù)分析技術(shù)方案設(shè)計現(xiàn)在是48頁\一共有75頁\編輯于星期五1.選擇有效指標(biāo)進(jìn)行PM2.5等級與氣象條件的規(guī)律挖掘2.自動挖掘規(guī)律

3.語義化展示,業(yè)務(wù)人員根據(jù)專業(yè)知識總結(jié)結(jié)論人工智能技術(shù)應(yīng)用-個性化業(yè)務(wù)分析現(xiàn)有業(yè)務(wù)提升個性業(yè)務(wù)分析技術(shù)方案設(shè)計現(xiàn)在是49頁\一共有75頁\編輯于星期五模型全生命周期管理人工智能模式挖掘時空分布/演化特征多污染物關(guān)聯(lián)特征氣象場的關(guān)聯(lián)分析預(yù)報模型的誤差性能特征預(yù)報特征庫統(tǒng)計/數(shù)值模型(新建/更新)專家知識庫業(yè)務(wù)規(guī)則引擎業(yè)務(wù)經(jīng)驗?zāi)P腿诤仙疃葘W(xué)習(xí)算法統(tǒng)計/數(shù)據(jù)挖掘引擎神經(jīng)元網(wǎng)絡(luò)隨機森林C5.0,CART,CHAID廣義線性回歸SVMKNN…CasebasedReasoning模型評估模型上線模型歸檔模型升級知識集成統(tǒng)一數(shù)據(jù)資源池人工智能技術(shù)應(yīng)用-技術(shù)方案設(shè)計現(xiàn)有業(yè)務(wù)提升個性業(yè)務(wù)分析技術(shù)方案設(shè)計現(xiàn)在是50頁\一共有75頁\編輯于星期五內(nèi)容提綱人工智能基本概念與發(fā)展歷史人工智能與大數(shù)據(jù)人工智能在氣象領(lǐng)域的應(yīng)用案例人工智能在環(huán)保領(lǐng)域的應(yīng)用案例人工智能在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用案例人工智能面臨的機遇與挑戰(zhàn)總結(jié)與展望51現(xiàn)在是51頁\一共有75頁\編輯于星期五背景什么樣的網(wǎng)頁會被稱為惡意網(wǎng)頁?便利的網(wǎng)絡(luò)服務(wù)吸引了網(wǎng)絡(luò)攻擊者們通過釣魚網(wǎng)站[1-1],垃圾廣告[1-2]和惡意軟件[1-3]推廣等方式進(jìn)行非法牟利。盡管這些不法活動的目的和手段各不相同,但他們都需要不知情的用戶訪問攻擊者提供的網(wǎng)頁地址以達(dá)到攻擊目的。這些網(wǎng)頁因此被稱為惡意網(wǎng)頁。52現(xiàn)在是52頁\一共有75頁\編輯于星期五背景惡意網(wǎng)頁的威脅有多大?國際反釣魚組織APWG的數(shù)據(jù)顯示,2012下半年間,使用惡意網(wǎng)頁進(jìn)行網(wǎng)絡(luò)釣魚從93,462起攀升到123,486起??ò退够鶊蟾鎇1-4]顯示,惡意網(wǎng)頁在87.36%的網(wǎng)絡(luò)攻擊中出現(xiàn),并已成為黑客謀求經(jīng)濟利益的重要工具。Google的研究指出,其搜索結(jié)果中1.3%的頁面為被掛馬網(wǎng)頁[1-4.1]。53因此,如何有效地識別惡意網(wǎng)頁已經(jīng)成為亟待解決的網(wǎng)絡(luò)安全問題之一?,F(xiàn)在是53頁\一共有75頁\編輯于星期五背景惡意網(wǎng)頁識別的一些研究進(jìn)展觀點:惡意網(wǎng)頁的識別與檢測是一個攻防博弈問題。攻擊者視角:自動生成域名技術(shù)、隱匿技術(shù)。。。防御者視角:學(xué)術(shù)界:URL語法特征,DNS特征,網(wǎng)頁內(nèi)容特征等。工業(yè)界:SmartScreen篩選器和Safebrowsing采用的內(nèi)置黑白名單方法等。54下面分別從惡意網(wǎng)頁識別問題的基本概念,識別技術(shù)和面臨挑戰(zhàn)三個方面介紹。現(xiàn)在是54頁\一共有75頁\編輯于星期五目前,惡意網(wǎng)頁尚無一個明確的、統(tǒng)一的定義。Google[2-1]將惡意網(wǎng)頁限定為一種不安全的網(wǎng)站,發(fā)生的場景可以是惡意軟件自動下載[2-2],網(wǎng)頁彈窗[2-3]誘騙用戶輸入自己的用戶名和密碼等。BirhanuE.等人[2-3.1]將惡意網(wǎng)頁定義為一類通過利用漏洞對一次性的訪問行為發(fā)起攻擊的網(wǎng)頁。百度百科上[2-4]對惡意網(wǎng)站定義為故意在計算機系統(tǒng)上執(zhí)行惡意任務(wù)的病毒、蠕蟲和特洛伊木馬的非法網(wǎng)站,并指出他們的共同特征是采用網(wǎng)頁形式讓人們正常瀏覽頁面內(nèi)容,同時非法獲取電腦里的各種數(shù)據(jù)。一般來說,惡意網(wǎng)頁是以網(wǎng)頁木馬,釣魚網(wǎng)站為代表的一類網(wǎng)頁。不同于正常網(wǎng)頁,惡意網(wǎng)頁往往通過偽裝成合法網(wǎng)站或在網(wǎng)頁中嵌入惡意腳本,從而在用戶訪問時對其網(wǎng)絡(luò)安全構(gòu)成威脅。惡意網(wǎng)頁基本概念與評價指標(biāo)55因此,將惡意網(wǎng)頁定義為以網(wǎng)頁形式出現(xiàn),以訪問時竊取用戶隱私,安裝惡意程序或運行惡意代碼等惡意行為為目的的網(wǎng)頁集合?,F(xiàn)在是55頁\一共有75頁\編輯于星期五惡意網(wǎng)頁識別概述56惡意網(wǎng)頁識別概述惡意網(wǎng)頁識別系統(tǒng)基本框架包括網(wǎng)頁采集,特征抽取,網(wǎng)頁判別三個步驟。惡意網(wǎng)頁識別的應(yīng)用場景攻擊場景檢測位置主要識別特征現(xiàn)在是56頁\一共有75頁\編輯于星期五惡意網(wǎng)頁識別框架57惡意網(wǎng)頁識別系統(tǒng)基本框架圖1.惡意網(wǎng)頁識別的基本框架(1)網(wǎng)頁采集。負(fù)責(zé)對互聯(lián)網(wǎng)上的網(wǎng)頁進(jìn)行收集、去重和過濾。其中,按照網(wǎng)頁收集方式,一般可分為主動和被動兩種。(2)特征抽取。依據(jù)網(wǎng)頁自身特點和識別方法的不同,對網(wǎng)頁信息的特征進(jìn)行抽取,作為識別惡意網(wǎng)頁的依據(jù)。這些特征包括但不限于URL詞匯特征,主機信息特征,網(wǎng)頁內(nèi)容特征,URL(DNS)黑名單,鏈接關(guān)系以及跳轉(zhuǎn)關(guān)系等。

(3)網(wǎng)頁判別。主要判別方法包括:黑名單過濾法,規(guī)則匹配法,機器學(xué)習(xí)方法以及基于交互式主機行為的識別方法。現(xiàn)在是57頁\一共有75頁\編輯于星期五惡意網(wǎng)頁識別概述58惡意網(wǎng)頁識別概述惡意網(wǎng)頁識別的應(yīng)用場景攻擊場景:釣魚網(wǎng)頁,惡意軟件下載,跨站腳本執(zhí)行(XSS),SQL注入,網(wǎng)頁木馬檢測位置服務(wù)器端,客戶端,網(wǎng)關(guān)端主要識別特征此外,一些研究從HTTP會話[3-23],搜索引擎提供的相似網(wǎng)頁[3-24]出發(fā),對惡意網(wǎng)頁的識別提供了新的思路。圖2.識別惡意網(wǎng)頁的特征分類現(xiàn)在是58頁\一共有75頁\編輯于星期五惡意網(wǎng)頁識別研究進(jìn)展59惡意網(wǎng)頁識別的方法基于黑名單技術(shù)的識別方法基于啟發(fā)式規(guī)則的識別方法基于機器學(xué)習(xí)的識別方法基于交互式主機行為的識別方法?,F(xiàn)在是59頁\一共有75頁\編輯于星期五惡意網(wǎng)頁識別研究進(jìn)展60惡意網(wǎng)頁識別的方法基于黑名單技術(shù)的識別方法典型應(yīng)用:GoogleSafebrowsing,DNSBL,PhishTank等。存在問題:不能及時更新,容易漏判基于啟發(fā)式規(guī)則的識別方法基于機器學(xué)習(xí)的識別方法基于交互式主機行為的識別方法圖1 黑名單示例…現(xiàn)在是60頁\一共有75頁\編輯于星期五惡意網(wǎng)頁識別研究進(jìn)展61惡意網(wǎng)頁識別的方法基于黑名單技術(shù)的識別方法基于啟發(fā)式規(guī)則的識別方法典型應(yīng)用:火狐Firefox,IE存在問題:誤報率高,規(guī)則更新難?;跈C器學(xué)習(xí)的識別方法基于交互式主機行為的識別方法圖2 啟發(fā)式規(guī)則示例/[a-z]*[.]phish[.][a-z]*//[a-z]*[.]malicious[.][a-z]*//[a-z]*[.]y0utube[.][a-z]*/…圖1 黑名單示例…現(xiàn)在是61頁\一共有75頁\編輯于星期五惡意網(wǎng)頁識別研究進(jìn)展62惡意網(wǎng)頁識別的方法基于黑名單技術(shù)的識別方法基于啟發(fā)式規(guī)則的識別方法基于機器學(xué)習(xí)的識別方法常用分類算法:PA,CW,SVM存在問題:標(biāo)注數(shù)據(jù)集較少,過擬合?;诮换ナ街鳈C行為的識別方法圖3.分類算法的工作過程圖2 啟發(fā)式規(guī)則示例/[a-z]*[.]phish[.][a-z]*//[a-z]*[.]malicious[.][a-z]*//[a-z]*[.]y0utube[.][a-z]*/…圖3 特征示例Label Features0 1000101 0100101 011001現(xiàn)在是62頁\一共有75頁\編輯于星期五惡意網(wǎng)頁識別研究進(jìn)展63惡意網(wǎng)頁識別的方法基于黑名單技術(shù)的識別方法基于啟發(fā)式規(guī)則的識別方法基于機器學(xué)習(xí)的識別方法基于交互式主機行為的識別方法一般與蜜灌技術(shù),虛擬化技術(shù)相結(jié)合使用。按照檢測行為的不同,蜜罐技術(shù)可以細(xì)分為基于模擬的低交互式蜜罐和基于真實系統(tǒng)的高交互式蜜罐?,F(xiàn)在是63頁\一共有75頁\編輯于星期五惡意網(wǎng)頁識別研究進(jìn)展64不同類別惡意網(wǎng)頁識別方法的比較識別方法基于黑名單技術(shù)基于啟發(fā)式規(guī)則基于機器學(xué)習(xí)基于主機行為誤判率低高低低漏判率高低低低分類速度快一般一般慢優(yōu)點技術(shù)簡單,易操作,計算開銷小,分類速度快,可實時響應(yīng)。識別漏判率低,可以識別一些尚未收錄的惡意網(wǎng)頁準(zhǔn)確率較高,可擴展性強,能夠?qū)ι形词珍浀膼阂饩W(wǎng)頁進(jìn)行識別識別準(zhǔn)確率很高,可以對特定類別的惡意網(wǎng)頁(主要是網(wǎng)頁木馬等)進(jìn)行準(zhǔn)確分析缺點不能識別未收錄黑名單的惡意網(wǎng)頁,黑名單更新周期長規(guī)則生成和更新難,依賴于領(lǐng)域知識,且容易誤判需要事先了解網(wǎng)頁樣本集,容易出現(xiàn)“過擬合”現(xiàn)象。無法識別其他類別的惡意網(wǎng)頁。分類速度慢。適用場景實時在線環(huán)境實時在線環(huán)境實時在線環(huán)境離

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論