危害公共安全事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測_第1頁
危害公共安全事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測_第2頁
危害公共安全事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測_第3頁
危害公共安全事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測_第4頁
危害公共安全事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

危害公共平安事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測OmniEye,上海交通大學(xué)團隊:陳夏明〔隊長〕,強思維,王海洋,孫瑩,石開元指導(dǎo)老師:上海交通大學(xué)網(wǎng)絡(luò)信息中心 金耀輝教授

2賽題背景競賽任務(wù)3賽題背景2021年7月17日至24日,北京于7天內(nèi)發(fā)生6起危害公共平安事件。媒體大規(guī)模報道、網(wǎng)民輿論——負(fù)面信息傳播泛濫的溫床。了解危害公共平安事件在互聯(lián)網(wǎng)上的觸發(fā)、傳播機理,找到相關(guān)事件間的影響關(guān)系和共性,是意義重大的研究課題。4競賽任務(wù)根本任務(wù)數(shù)據(jù)清洗,剔除雜質(zhì)自定義標(biāo)簽,事件提取核心任務(wù)〔可選〕同系列事件間相互觸發(fā)關(guān)系研究不同系列事件間共性分析事件預(yù)測5原始數(shù)據(jù)集HDFS事件集CKAN特征集CKAN預(yù)測模型建立新聞/微博數(shù)據(jù)數(shù)據(jù)預(yù)處理Processing新聞分類Spark事件聚類Spark特征提取關(guān)聯(lián)分析可視分析異常點剔除特征降維模型訓(xùn)練模型預(yù)測預(yù)處理(任務(wù)1)事件提?。ㄈ蝿?wù)2)關(guān)聯(lián)分析(任務(wù)3、4)事件預(yù)測(任務(wù)5)6數(shù)據(jù)集數(shù)據(jù)預(yù)處理7數(shù)據(jù)集及預(yù)處理GDP民族節(jié)日城市坐標(biāo)新聞/微博數(shù)據(jù)(54萬條)媒體/用戶數(shù)據(jù)(24萬條)數(shù)據(jù)清洗:去重和糾錯數(shù)據(jù)擴充〔DataEnrichment〕8新聞分類事件聚類關(guān)聯(lián)分析事件預(yù)測9新聞分類公交車爆炸事件暴恐事件校園砍殺事件10媒體名稱發(fā)布時間新聞標(biāo)題新華網(wǎng)2013-12-14河南光山縣發(fā)生校園傷害案22名學(xué)生被砍傷新浪微博2013-12-15目前,22名被砍傷的學(xué)生中,有7名學(xué)生因傷勢嚴(yán)重轉(zhuǎn)院治療。此外,還有1名群眾及1名小學(xué)生因傷勢嚴(yán)重,仍在光山縣人民醫(yī)院的重癥監(jiān)護室進行治療。愿平安!新聞分類挑戰(zhàn)一:不同媒介(體)的報道方式不同公交車爆炸事件暴恐事件校園砍殺事件11新聞分類挑戰(zhàn)一:不同媒介(體)的報道方式不同挑戰(zhàn)二:新聞媒體報道角度不同媒體名稱發(fā)布時間新聞標(biāo)題網(wǎng)易新聞2013-07-28新疆莎車縣發(fā)生暴恐案件,造成37人死亡,13人受傷人民網(wǎng)2013-07-28新疆莎車:暴恐分子襲擊軍警擊斃暴徒59人四川在線2013-07-28新疆莎車暴恐襲擊案件告破公交車爆炸事件暴恐事件校園砍殺事件12媒體名稱發(fā)布時間新聞標(biāo)題第一金融網(wǎng)2013-04-26新疆巴楚15名警察社區(qū)工作人員遭暴徒襲殺人民網(wǎng)2013-04-26習(xí)近平批示新疆巴楚縣暴力事件對案件善后作指示人民網(wǎng)2013-04-27習(xí)近平:要使暴力恐怖分子成為"過街老鼠人人喊打"新聞分類挑戰(zhàn)一:不同媒介(體)的報道方式不同挑戰(zhàn)二:新聞媒體報道角度不同挑戰(zhàn)三:新聞事件和衍生事件的關(guān)聯(lián)公交車爆炸事件暴恐事件校園砍殺事件13語境過濾的新聞分類算法

NewsClassificationwithContextFiltering已分類新聞?wù)Z境過濾(相似度S>d)事件分類器擴充語料庫置信度>=CI置信度<CI人工標(biāo)注校驗事件關(guān)鍵詞提取新聞分類算法思想max(c)>pmax(c)>p14語境過濾事件描述的語境特征以無監(jiān)督的方式自主學(xué)習(xí)(基于Googleword2vec)從傳統(tǒng)詞頻統(tǒng)計到詞語語境關(guān)聯(lián)*word2vec:s15事件聚類算法獨立事件聚類及Spark并行處理多角度新聞要素提取采用并行和事件樹結(jié)構(gòu)進行優(yōu)化新聞當(dāng)事人新聞發(fā)生地特征向量新聞關(guān)鍵詞相似度計算新聞標(biāo)注類別提取的獨立事件0.30.20.70.7P0.510.90.80.80.6校園事件CC0.6未知新聞事件1事件2新聞要素提取16事件聚類結(jié)果可視化17特征提取18關(guān)聯(lián)分析同系列事件觸發(fā)關(guān)系時間觸發(fā)關(guān)系——事件頻次自相關(guān)分析空間觸發(fā)關(guān)系——最大信息量相關(guān)系數(shù)(MIC)新聞媒體傳播95%置信水平暴力恐怖事件每隔5天復(fù)發(fā)概率最高校園砍殺事件發(fā)生次數(shù)在臨近區(qū)域相似度較高*MIC:Reshefetal."DetectingNovelAssociationsinLargeDataSets".Science334(6062)19關(guān)聯(lián)分析不同系列事件共性分析時間特征媒體特征空間特征元旦,除夕,建黨節(jié)等是三類事件的多發(fā)時段三類事件在周末發(fā)生頻次低于工作日婦女節(jié)20校園砍殺事件公交車爆炸事件暴恐事件大事件報道會觸發(fā)同類型小事件的發(fā)生集中性的空間分布21事件預(yù)測預(yù)測目標(biāo)未來時間段內(nèi)事件是否發(fā)生(0/1)未來時間段內(nèi)事件發(fā)生的次數(shù)時間空間季節(jié)民族節(jié)日工作日、休息時間特征空間特征媒體特征省、市地理劃分城市GDP人口、民族組成新聞報道微博輿論正負(fù)情感時間相關(guān)性空間相關(guān)性

22事件預(yù)測預(yù)測模型建立多維度特征分類建模時間特征具有最好的預(yù)測效果時間特征子預(yù)測器空間特征子預(yù)測器媒體特征子預(yù)測器二級綜合預(yù)測器預(yù)測發(fā)生概率預(yù)測發(fā)生頻次模型選擇23算法評估可視化開放數(shù)據(jù)與眾包未來24算法評估事件類型誤報率漏報率公交車爆炸事件14.28%12.09%暴恐事件12.39%14.05%校園砍殺事件14.10%11.54%事件聚類算法評估評估方法準(zhǔn)確率預(yù)測頻次誤差測試集驗證64.50%0.8956留一驗證82.34%0.5250K-Fold82.34%0.5234滑動窗口75.27%0.5525新聞分類算法評估事件預(yù)測算法評估準(zhǔn)確度~95%媒體名稱發(fā)布時間新聞標(biāo)題事件類型搜狐新聞2013-12-16河南砍學(xué)生男子患20年癲癇病暴恐事件新華網(wǎng)2013-01-23面包車自燃公交司機徒手拔斷著火線路幫助滅火公交車爆炸天津在線2014-03-19烏魯木齊發(fā)生持械襲警案嫌犯被民警當(dāng)場擊斃暴恐事件校園砍殺無暴恐事件25眾包標(biāo)注26開放數(shù)據(jù)27未來CTDCHINATERRORISMDATABASE基于開放數(shù)據(jù)平臺自動爬取網(wǎng)絡(luò)新聞報道、微博媒介傳播語境過濾&事件聚類&眾包標(biāo)注中國地區(qū)數(shù)據(jù)稀缺!馬里蘭大學(xué)〔UMD〕/28致謝海量HYLANDA大數(shù)據(jù)情報效勞平臺的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論