




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于網(wǎng)絡(luò)敏感信息敏感詞違法犯罪線索研究摘要隨著21世紀(jì)信息技術(shù)的不斷研究和發(fā)展,促使著互聯(lián)網(wǎng)科技在不斷的強(qiáng)大和擴(kuò)展,以及網(wǎng)絡(luò)上的信息量也在迅速增加,并且相應(yīng)信息的內(nèi)容也變的多元化。各類社交網(wǎng)絡(luò)平臺新聞網(wǎng)站、微博、社交網(wǎng)絡(luò)等,已成為公眾了解現(xiàn)實(shí)社會的主要信息來源。因此,公安部門需要一種方式來獲取眾多網(wǎng)絡(luò)平臺的核心內(nèi)容。話題檢測技術(shù)可以幫助人們從海量的網(wǎng)絡(luò)數(shù)據(jù)中發(fā)現(xiàn)有價值的線索。與以往的網(wǎng)絡(luò)傳播方式不同,專題參考文獻(xiàn)分布在不同的網(wǎng)絡(luò)平臺上。一方面,在目前的情況下,各個平臺的線索特征是不同的。因此,傳統(tǒng)的主題識別方法只能依賴于信息文本的特征,不能完全應(yīng)用于各個網(wǎng)絡(luò)平臺。另一方面,專題是描述不同層次主題內(nèi)容的報(bào)告。因此,本研究成為一個熱門話題,執(zhí)法機(jī)關(guān)如何協(xié)助刑事犯罪的分類及相關(guān)犯罪信息的來源報(bào)告?;诿舾性~的語義和時間特征。首先,將語義特征與時間特征相結(jié)合,提出了一種計(jì)算敏感詞元素權(quán)重的方法。在此基礎(chǔ)上,提出了一種基于多矢量文本模型的子主題檢測模型。該方法在捕獲單個主題的過程中優(yōu)于其他算法,能有效提高證據(jù)的準(zhǔn)確性。從子主題識別的角度,研究了捕獲混合主題的子主題過程。關(guān)鍵詞:跨網(wǎng)絡(luò)平臺;話題檢測;特征選擇;詞性目錄TOC\o"1-3"\h\u32738摘要 緒論1.1課題研究的背景和意義1.1.1選題背景隨著互聯(lián)網(wǎng)發(fā)展規(guī)模的不斷擴(kuò)大,數(shù)據(jù)的更新速度和信息量的增長速度不斷提高。作為互聯(lián)網(wǎng)上各種信息的載體,新聞網(wǎng)站、微博等各種網(wǎng)絡(luò)平臺層出不窮。社交網(wǎng)絡(luò)和視頻分享網(wǎng)站導(dǎo)致人們對現(xiàn)實(shí)世界的認(rèn)知不斷變化,就在Web2.0時代到來之際,互聯(lián)網(wǎng)已經(jīng)成為社會各個領(lǐng)域獲取信息、發(fā)布信息、評論信息、傳播信息的重要渠道,而現(xiàn)實(shí)世界中的公共事件和熱點(diǎn)話題也在互聯(lián)網(wǎng)上迅速傳播。面對如此龐大的網(wǎng)絡(luò)信息,公安人員需要一種方式,網(wǎng)絡(luò)話題能夠描述網(wǎng)絡(luò)平臺與現(xiàn)實(shí)社會之間的互動信息,幫助執(zhí)法部門了解當(dāng)前各類社會動態(tài)。1.1.2選題意義網(wǎng)絡(luò)平臺上的數(shù)據(jù)是最新的,每個平臺上的報(bào)告內(nèi)容會隨著時間的推移而變化。對某一特定主題的報(bào)道總是側(cè)重于描述事件的最新動向,使主題呈現(xiàn)動態(tài)發(fā)展的現(xiàn)象。是研究主題動態(tài)發(fā)展的基礎(chǔ)。分主題偵破的任務(wù)是:在現(xiàn)有的主題中發(fā)現(xiàn)隱藏的分主題,協(xié)助公安人員厘清違法犯罪信息。然而,目前的檢測研究存在兩個不足。一方面,現(xiàn)有的研究主要集中在單一的網(wǎng)絡(luò)平臺上,而對網(wǎng)絡(luò)平臺的研究卻很少提及;然而,現(xiàn)有的研究并沒有充分考慮到不同平臺文本特征的特點(diǎn),僅僅依靠改進(jìn)的算法來提高主題識別的準(zhǔn)確率,針對上述問題,本文擬直面新聞和微生物學(xué)兩大網(wǎng)絡(luò)平臺,充分分析不同語言特征對犯罪信息偵查的影響,分析了詞特征隨時間變化的特點(diǎn),提出了一種基于多向量文本模型的子主題檢測方法,并結(jié)合LP的聚類算法提高了子主題化的準(zhǔn)確率。1.2國內(nèi)外研究現(xiàn)狀美國國防部提出一項(xiàng)要求,要求實(shí)現(xiàn)一種能夠自動識別新聞中隱藏話題的技術(shù)。然后由不同的研究機(jī)構(gòu)共同確定TDT的相關(guān)研究任務(wù),這些評估任務(wù)稱為TDT試點(diǎn)。話題檢測是TDT評價任務(wù)的一個子任務(wù),其主流方法來自Allan等人,研究人員建立了一個在線識別系統(tǒng)來驗(yàn)證報(bào)道流中是否有新的話題。2000年以后,國外研究機(jī)構(gòu)也參與了TDT專題發(fā)現(xiàn)和評價任務(wù)。鑒于資金問題,2004年以后的TDT評價可能沒有繼續(xù)進(jìn)行,但對TDT的研究還沒有結(jié)束。loulwah等人提出了一種基于LDA模型的新聞數(shù)據(jù)在線主題檢測方法,并取得了良好的實(shí)驗(yàn)結(jié)果。同時,Wartena等人提出了一種基于關(guān)鍵詞聚類的主題檢測算法。2014年,薛等對不同媒體平臺的主題識別進(jìn)行了研究,研究對象不再是傳統(tǒng)的新聞媒體平臺,國內(nèi)對TDT的研究起步較晚,而早期的研究來自賈紫妍等人,提出了一種結(jié)合中文自然語言處理技術(shù)的動態(tài)演示模型,實(shí)現(xiàn)中文新聞流的主題識別。Twitter是國外成熟的網(wǎng)絡(luò)平臺。其傳播手段和內(nèi)容結(jié)構(gòu)與中文微博相似,因此可以算是英文微博。Sakaki等人通過實(shí)時分析Twitter用戶的更新狀態(tài)來進(jìn)行地震預(yù)報(bào),提取相關(guān)事件的屬性,并使用分類算法對所有監(jiān)測到的用戶狀態(tài)進(jìn)行分類。將每個用戶視為一個傳感器信息源,通過濾波方法找到可能的震源。然而,本研究只能關(guān)注特定事件,不能完成主題識別的任務(wù),即在主題內(nèi)容未知的情況下不能自動刪除主題信息。1.3研究內(nèi)容本文通過三個實(shí)驗(yàn)考察了一個詞性對兩種網(wǎng)絡(luò)平臺的主題識別的影響。微博客和新聞的漢語詞匯是否一致,選取語言標(biāo)記的單個部分作為文本特征,考察不同語言部分對兩個網(wǎng)絡(luò)平臺主題識別的影響。最后,根據(jù)前面實(shí)驗(yàn)的分析結(jié)果,選取語言組合中的部分作為特征和語言組合中的最佳部分,實(shí)驗(yàn)表明不同的語言特征在兩個平臺上有不同的主題識別方式。本文對新聞微博平臺的子主題檢測進(jìn)行了研究,根據(jù)特征的語義和時間特性,設(shè)計(jì)了一種多向量文本模型的子主題檢測方法。實(shí)驗(yàn)表明,該方法在檢測的情況下優(yōu)于現(xiàn)有的檢測方法。2相關(guān)研究理論基礎(chǔ)介紹2.1跨網(wǎng)絡(luò)平臺話題檢測的定義與過程在主題識別過程中,演示模型的設(shè)計(jì)必須保證每個主題都是預(yù)先未知的,即模型不能獨(dú)立于某個特定的主題,一個主題由多個報(bào)告組成。只要報(bào)告與種子事件的問題直接相關(guān),就假定報(bào)告與主題相關(guān),如圖2-1所示,首先是確定當(dāng)前網(wǎng)絡(luò)報(bào)告的主題,而本報(bào)告的目的是:識別現(xiàn)有網(wǎng)絡(luò)報(bào)表數(shù)據(jù)庫中隱藏的主題。圖2-1話題檢測流程2.2文本預(yù)處理方法在主題識別過程中,首先應(yīng)當(dāng)對文本內(nèi)容進(jìn)行預(yù)處理,通過建立文本的形式進(jìn)一步表示模型。TDT任務(wù)要求主題識別過程必須獨(dú)立于文本的語言,但不同的語言有不同的預(yù)處理方法。國內(nèi)的話題識別研究才剛剛起步,早期的研究大多是以英語語料庫和少量其他語言語料庫為標(biāo)準(zhǔn)數(shù)據(jù)集,但中文文本的數(shù)據(jù)處理過程不同于其他語言,導(dǎo)致一些證據(jù)算法在中文語料庫上的評價結(jié)果不理想。分詞是中文文本預(yù)處理過程中最重要的一步,也是文本特征選擇的基礎(chǔ)。分詞的準(zhǔn)確性直接影響到主題識別的最終結(jié)果。目前常用的分詞方法有幾種1)常規(guī)方法基于規(guī)則的方法是指系統(tǒng)字符串適應(yīng)特定監(jiān)管策略的方法。這條規(guī)則通常指的是一本完整的詞典。系統(tǒng)將單詞處理過程中的單詞元素與詞典中的單詞相匹配。如果匹配成功,單詞元素將被視為文本的特征元素。2)統(tǒng)計(jì)程序基于統(tǒng)計(jì)的方法是指系統(tǒng)計(jì)算文本中相鄰單詞同時出現(xiàn)的概率,并考慮獲得由兩個或多個單詞組成的附加單詞的最佳概率。因?yàn)閮蓚€或更多的單詞同時出現(xiàn)的頻率越高,它們就越有可能形成單詞。如果概率值大于閾值,則可以將這兩個詞組合為一個附加詞。3)以理解為導(dǎo)向的方法該系統(tǒng)利用語義信息對文本中的單詞進(jìn)行評價。這種方法是基于多種自然語言技能的,因此又稱為基于知識的方法。該方法以詞典和知識庫為分詞基礎(chǔ),以推理機(jī)為分詞評價工具。期望分詞結(jié)果盡可能與原意保持一致。2.3文本表示模型文本表示模型的主要方向是計(jì)算屬于同一主題的兩個報(bào)表的相似度。主題檢測的面向?qū)ο笱芯繉ο笫俏谋緮?shù)據(jù),也是這個原因需要基于文本表示模型設(shè)計(jì)主題檢測模型,下面詳細(xì)介紹一些常見的模型:布爾模型BooleanModel,中文:布爾模型是一種相對簡單的主題發(fā)現(xiàn)模型。該模型以布爾代數(shù)和集合論為基礎(chǔ),整體框架直觀十分便于理解,也是這個原因經(jīng)常被使用于早期的主題檢測以及搜索引擎系統(tǒng)之中。在布爾模型中,如果兩個文檔之間同時出現(xiàn)更多的特征,則兩個報(bào)表的相似度會更高。該方法雖然相對簡單,但在計(jì)算共現(xiàn)特征時會丟失大量的文本信息。它只適用于少數(shù)特征項(xiàng)的情況,很容易造成只有部分特征項(xiàng)使用同一個詞來描述屬于同一主題的不同主題的兩篇報(bào)道。因此,不適合使用表示模型作為獨(dú)立的方法來計(jì)算兩個報(bào)表之間的相似度。布爾模型是早期提出的一種相對簡單的主題發(fā)現(xiàn)模型。該模型以布爾代數(shù)和集合論為基礎(chǔ),框架直觀易懂,因此在早期的搜索引擎系統(tǒng)和主題檢測中經(jīng)常使用。在布爾模型中,兩個文檔之間同時出現(xiàn)的特征越多,兩個報(bào)表之間的相似性就越高。該方法雖然簡單,但在計(jì)算共現(xiàn)特征項(xiàng)時會丟失大量的文本信息。它只適用于特征項(xiàng)個數(shù)較少的情況,很容易造成只有部分條目用同一個詞來描述屬于同一主題的兩篇不同主題的報(bào)道。因此,不適合將表示模型作為獨(dú)立的方法來計(jì)算兩個報(bào)表之間的相似度。2)向量空間模型Salton等人提出向量空間模型(VSM),首次應(yīng)用于智能信息檢索系統(tǒng)。在介紹向量空間模型之前,為了便于解釋,我們首先介紹以下基本概念特征項(xiàng):由字、詞或者詞組等構(gòu)成的模型最小語言單元。一篇報(bào)道S由多個特征項(xiàng)組成,可以表示為S(t1,t2,…,tn),其中ti代表特征項(xiàng)。項(xiàng)的權(quán)重:表示特征項(xiàng)在文檔中重要程度的數(shù)值。每一個特征項(xiàng)ti都會以某種規(guī)則設(shè)定權(quán)重值wi,一篇報(bào)道S可以用S(t1,w1;t2,w2;…,tn,wn)表示。每一篇文檔按照上述的概念表示后可以看作n維空間中的一個向量,因此被稱作向量空間模型。設(shè)報(bào)道S1和S2分別表示為空間模型的兩個n維向量:S1=S1(w11,w12,…,w1n) (2-5)S2=S2(w21,w22,….,w2n) (2-6)設(shè)這兩篇報(bào)道的相似度為Sim(S1,S2),可以借助空間中兩個向量間的距離公式來計(jì)算相似系數(shù),常見的方法有向量內(nèi)積法與余弦定理法。3)文檔主題生成模型文檔主題處于話題檢測之中,會被設(shè)計(jì)成三層貝葉斯概率模型,生成LDA(全稱:LatentDirichletAllocation),同時涵蓋報(bào)道、話題詞和特征的三層結(jié)構(gòu),在這之中從報(bào)道遞進(jìn)至話題比較于話題遞進(jìn)至詞特征全都需要遵從多項(xiàng)式分布。這種設(shè)計(jì)模型不對文本中的語法結(jié)構(gòu)以及語序成分進(jìn)行考慮,而是將主題空間和文本之間的映射關(guān)系實(shí)現(xiàn)至話題識別的程度。對于報(bào)道庫中的每篇報(bào)道,這種模型可以將每一篇處于報(bào)道庫之中的報(bào)道規(guī)范成為以下的過程:1.首先在報(bào)道集文檔中隨機(jī)抽取的一篇文檔,在主題分布的空間之中隨機(jī)獲取一個主題;2.進(jìn)一步將被隨機(jī)抽到的主題中包含的詞特征分布之中隨機(jī)獲取一個詞語;3.最后重復(fù)以上的兩個步驟直到報(bào)道集中的每一個詞特征都被遍歷到。整體模型的創(chuàng)建過程,如下圖2-1所示:圖2-1LDA模型
3敏感詞的違法犯罪線索發(fā)現(xiàn)方法研究特征選擇是在整個文本挖掘技術(shù)里的一個十分關(guān)鍵研究領(lǐng)域。文本挖掘的結(jié)果可能被不同的特征選擇方法直接影響到。新聞報(bào)道以及新浪微博是當(dāng)今社會流行的在線平臺。在其服務(wù)平臺上發(fā)布的文本內(nèi)容具有很大的科研價值。它是每個人快速了解社會焦點(diǎn)的關(guān)鍵信息內(nèi)容的來源,因此討論了該主題。大多數(shù)研究日常任務(wù)的研究主題都針對兩個在線平臺,即新聞報(bào)道和新浪微博。主題討論測試是文本挖掘日常任務(wù)的一種表達(dá)方式,必須選擇討論不同主題的能力的特征作為主題討論測試的基礎(chǔ)。眾所周知,不同在線平臺上的文本內(nèi)容通常具有不同的特征。傳統(tǒng)的數(shù)據(jù)預(yù)處理方法無法滿足所有服務(wù)平臺上話題討論和挖掘的日常任務(wù),因此考慮不同服務(wù)平臺特征和討論話題的能力是科學(xué)研究討論和測試話題的關(guān)鍵問題??缭诰€平臺。本章重點(diǎn)關(guān)注詞性特征部分對討論兩個在線平臺主題的危害,回顧詞性特征各個部分區(qū)分主題討論的能力,并找到適合于這兩個服務(wù)平臺的最好的詞性構(gòu)成部分。3.1文本特征對跨網(wǎng)絡(luò)平臺話題檢測的影響介紹3.1.1新聞和微博網(wǎng)絡(luò)平臺的報(bào)道特點(diǎn)在線媒體和微博網(wǎng)站上的報(bào)道內(nèi)容是每個人的認(rèn)知能力受到社會關(guān)注的關(guān)鍵來源。不同服務(wù)平臺上的報(bào)告內(nèi)容具有不同的特征。如表3-1所示。從長度的角度來看,新浪微博限制為140個字符,但新聞報(bào)道沒有此限制。從詞序的角度來看,新浪微博的語序不同于一般的語序,而新聞報(bào)道的語序是有序的;從敘事方法來看,微博大多是網(wǎng)民的主觀描述,而新聞則是專業(yè)記者撰寫的客觀報(bào)道。此外,新聞內(nèi)容中包含標(biāo)題,微博中還會包含一些特殊符號、URL鏈接、表情符號等新聞?wù)Z料庫中很少出現(xiàn)的字符。新聞微博網(wǎng)絡(luò)平臺文本內(nèi)容的特點(diǎn)有助于區(qū)分兩個平臺的報(bào)道,了解報(bào)道的來源。但由于話題線索分布廣泛,同一話題的報(bào)道分散在不同平臺,不同平臺內(nèi)容特征的差異會增加跨平臺檢測的難度。因此,我們需要在不同的網(wǎng)絡(luò)平臺上找到文本的一個共同特征,而這個特征對話題的區(qū)分能力不受網(wǎng)絡(luò)平臺來源的影響。該特征被選擇為新聞和微博網(wǎng)絡(luò)平臺的主題檢測特征,為跨網(wǎng)絡(luò)平臺的主題檢測奠定了基礎(chǔ)。表3-1新聞和微博網(wǎng)絡(luò)平臺的報(bào)道特點(diǎn)總結(jié)文本特點(diǎn)微博新聞字?jǐn)?shù)限定140字以內(nèi)無字?jǐn)?shù)限制標(biāo)題無標(biāo)題有標(biāo)題詞序較少詞序排列與正常詞序不同正常詞序排列錯別字與變異字較少很少特殊符號較多內(nèi)容存在@、#等特殊符號很少URL鏈接較多,例如\h/zQovRXU等很少中英文交叉出現(xiàn)較少很少表情較少,例如[高興][怒][汗][囧]等無描述方式較多主觀描述較多客觀描述3.1.2詞性特征對話題檢測的影響文本特征選擇是文本挖掘的一個重要步驟。不同的特征會嚴(yán)重影響文本挖掘的結(jié)果。作為文本特征的一種常見形式,詞性特征是許多研究中文本挖掘的標(biāo)準(zhǔn)特征,特別是在文本分類和文本聚類領(lǐng)域。主題檢測作為文本挖掘的一個分支,通常采用文本挖掘技術(shù)中的特征選擇方法來實(shí)現(xiàn)檢測任務(wù)的各個步驟。在描述話題的時侯,特征詞的不同詞性作用會完全不相同的。例如,動詞能夠描述話題事件的整體或部分發(fā)展過程,形容詞能夠?qū)⒃掝}中事件的發(fā)展?fàn)顟B(tài)以及社會性質(zhì)進(jìn)行刻畫。名詞則能夠扮演話題中的地點(diǎn)、主要參與者等一系列事件對象,詞性標(biāo)注與數(shù)據(jù)處理方法3.2.1詞性標(biāo)注方法實(shí)驗(yàn)的第一步是選取詞性標(biāo)注集。目前,中國科學(xué)院、北京大學(xué)以及復(fù)旦大學(xué)擁有較為權(quán)威的標(biāo)注集。表3-2合并后的根據(jù)數(shù)據(jù)集的規(guī)模,本文選擇復(fù)旦大學(xué)漢語文本詞性標(biāo)注集標(biāo)記新聞?wù)Z料和微博語料。為了能全面地觀察不同的特征詞對話題檢測的影響,本人將上述的詞性進(jìn)行了合并處理,合并后的詞性如表3-2所示。3.2.2數(shù)據(jù)處理過程經(jīng)過語料庫預(yù)處理后,如圖3-1所示,實(shí)驗(yàn)為這兩類語料庫構(gòu)建了兩個詞性空間。在數(shù)據(jù)處理的過程之中,首先利用復(fù)旦NLP對兩個數(shù)據(jù)集中的每個報(bào)表進(jìn)行分段,去除文本中沒有特殊符號的標(biāo)點(diǎn)符號、表情符號和運(yùn)算符號,構(gòu)建兩個,數(shù)據(jù)集中的報(bào)表詞集。下一步,實(shí)驗(yàn)根據(jù)表3-2中的組合詞性對報(bào)告詞集中的詞進(jìn)行標(biāo)注,形成已經(jīng)將詞性標(biāo)注好的兩個語料庫。圖3-1 聞微語處過程為了能準(zhǔn)確地觀察單一詞性特征在兩種數(shù)據(jù)集的分布情況,本文在數(shù)據(jù)預(yù)處理時并沒有進(jìn)行停用詞處理,盡量保持了文本語料的原貌。3.3實(shí)驗(yàn)結(jié)果與分析3.3.1實(shí)驗(yàn)數(shù)據(jù)集本章從新聞和微博兩個網(wǎng)絡(luò)平臺收集數(shù)據(jù),包括搜狐、騰訊、鳳凰網(wǎng)、新京報(bào)、21cn、新浪微博等十余個新聞網(wǎng)絡(luò)平臺。其中,主要收集“3.8馬航失聯(lián)”和“4.30烏魯木齊火車站恐怖襲擊”和“6.25陳光標(biāo)世界首善事件”的相關(guān)報(bào)道。在對數(shù)據(jù)進(jìn)行初步處理后,我們對數(shù)據(jù)集的具體信息進(jìn)行了統(tǒng)計(jì)。由于所收集的數(shù)據(jù)完全來自于現(xiàn)實(shí)世界,且報(bào)表數(shù)量龐大,因此數(shù)據(jù)集可以檢驗(yàn)本章提出的方法在實(shí)際應(yīng)用中的效果。3.3.2不同詞性特征在兩種數(shù)據(jù)集上的分布結(jié)果與分析基于特征語義和時間特征實(shí)現(xiàn)了主題檢測。通過動詞觸發(fā)話題的特點(diǎn),可以找到標(biāo)記話題發(fā)生的詞項(xiàng)。分析了詞項(xiàng)的時間突發(fā)性和連續(xù)性對話題識別的影響。采用多向量表示模型來削弱謎題效應(yīng)對話題檢測的影響,本文選取新聞和微博的話題數(shù)據(jù)作為研究對象,結(jié)合前一章詞性特征的實(shí)驗(yàn)結(jié)果,在這兩個平臺上進(jìn)行話題檢測研究,實(shí)現(xiàn)了一種適用于跨網(wǎng)絡(luò)平臺的子主題檢測方法。與已有研究相比,本文的研究有兩個優(yōu)點(diǎn):一是考慮到主題線索分布廣泛,可以克服不同網(wǎng)絡(luò)平臺上文本結(jié)構(gòu)不一致的問題;二是找到主題敏感詞元素并設(shè)計(jì)權(quán)重計(jì)算方法,充分考慮詞特征在子主題檢測中的作用,提高檢測效果。首先統(tǒng)計(jì)兩組語料的詞性分布,統(tǒng)計(jì)結(jié)果如表3-3所示。我們統(tǒng)計(jì)了兩組數(shù)據(jù)的字?jǐn)?shù)、字?jǐn)?shù)比例、每篇報(bào)告的平均字?jǐn)?shù)和每篇主題的平均字?jǐn)?shù)。通過對詞所占比例的統(tǒng)計(jì)結(jié)果可以看出,在這兩個數(shù)據(jù)集中,名詞所占的比例最大,其次是動詞特征和副詞特征,其他詞性特征所占的比例不到10%。如果我們比較兩個數(shù)據(jù)集中每個詞類的詞數(shù)所占的比例,如圖3-2所示,我們可以看到新聞數(shù)據(jù)集中定位詞、數(shù)字和量詞的詞數(shù)所占的比例高于微博。這是因?yàn)樾侣剤?bào)道會盡可能詳細(xì)地描述事件,所以上述描述事件發(fā)展過程的詞語會反復(fù)出現(xiàn)。助詞、介詞和連詞是新聞報(bào)道中保證句間和句內(nèi)連貫的詞性特征。由于微博報(bào)道的字?jǐn)?shù)限制,用戶往往用簡潔的單句來描述自己對事件的主觀看法。因此,這三種詞性特征在新聞報(bào)道中所占的比例要高于微博報(bào)道。微博數(shù)據(jù)集中形容詞的比例略高于新聞中的比例。這是因?yàn)槲⒉┪淖值拇蟛糠謨?nèi)容都是用戶對某一事件闡述自己的觀點(diǎn),所以他們經(jīng)常使用形容詞來表達(dá)對該事件的看法,而新聞大多是從第三方的角度客觀地描述某一事件的發(fā)展過程,所以形容詞的數(shù)量略少。此外,微博報(bào)道中出現(xiàn)了特殊的符號和網(wǎng)址,這是微博文本結(jié)構(gòu)的結(jié)果。其他詞性特征的比例沒有顯著差異。表3-3 兩語中詞性征計(jì)表新聞數(shù)據(jù)集 微博數(shù)據(jù)集詞性詞數(shù)比例/%每篇報(bào)道平均詞數(shù)每類話題平均詞數(shù)詞數(shù)比例/%每條微博平均詞數(shù)每類話題平均詞數(shù)命名實(shí)體181254.4719168144365.073902名詞13534833.3614212539410733.07225882動詞7793219.21827225961820.95143726形容詞90902.24108477852.742487副詞4291510.5845397267259.3961670代詞88982.1998260622.131379定位詞112012.761210446891.651293連詞41591.0343923300.821146介詞152463.761614183082.922519助詞203785.022118995053.342594數(shù)詞260286.4227241120324.233752量詞169004.171815686963.062544時間短語63951.5875969932.462437網(wǎng)址600.010115510.55097特殊符號2580.060235341.241221其它詞性227275.6024210141834.983886符號81552.01976184126.4741151總詞數(shù)405690100.004263756284530100.006717783圖3-2不同詞性特征在新聞與微博語料上的詞數(shù)比例對比圖圖3-3每類話題平均詞數(shù)在新聞與微博語料上的比例對比圖將兩個數(shù)據(jù)集進(jìn)行檢測,可以得出以下結(jié)論:1)動詞對新聞話題發(fā)現(xiàn)的影響較大。這是因?yàn)樾侣剤?bào)道是客觀描述事件過程的文獻(xiàn),動詞是用來描述或表達(dá)各種行為的詞語,是描述事件過程的關(guān)鍵詞。從內(nèi)容上看,微博是用戶對事件發(fā)展過程的主觀評價,對事件發(fā)展過程的描述并不多。因此,動詞辨別微博話題的能力不如新聞話題。2)數(shù)字和量詞對新聞話題檢測的貢獻(xiàn)略高于微博。這是因?yàn)楫?dāng)新聞客觀地描述事件時,為了通過文字準(zhǔn)確還原事件過程,需要大量的數(shù)字量詞和形容詞來描述事件的發(fā)展過程。在微博數(shù)據(jù)集上,人們往往關(guān)注一個或多個關(guān)鍵數(shù)據(jù),如“高溫持續(xù)7天”、“政府救助災(zāi)區(qū)1.5億人”、“今天”日表面溫度達(dá)到60℃.因此,數(shù)字和量詞對微博話題檢測有一定的貢獻(xiàn),但由于數(shù)據(jù)量小,對話題的辨別能力略弱于新聞。3)新聞報(bào)道中時間短語的話題檢測值高于微博。這是因?yàn)樾侣劸W(wǎng)站的編輯在撰寫新聞時通常會寫下具體的日期,比如“北京時間4月22日凌晨,2007年聯(lián)邦杯女子網(wǎng)球隊(duì)比賽四分之一決賽第一天結(jié)束”,注明這則新聞中描述的事件發(fā)生的時間。然而,微博用戶在描述事件時喜歡使用“最近”、“今天”、“明晚”等時間短語模糊地描述日期,因此單時間短語詞性詞的話題檢測時間價值不高。4)形容詞可以表達(dá)事物的形狀、性質(zhì)和狀態(tài)。它對微博話題檢測的貢獻(xiàn)略高于新聞,這是由于網(wǎng)民對事件主觀描述的特點(diǎn)。比如,“夏天,杭州一步步走過桑拿、燒烤、蒸籠,現(xiàn)在進(jìn)入‘抗日’模式,實(shí)在太熱了!”。由此可見,微博中的形容詞“熱”可以幫助微博區(qū)分熱點(diǎn)話題。同時,通過統(tǒng)計(jì)表中的數(shù)據(jù)可以看出,形容詞也具有很好的新聞話題辨別能力。5)網(wǎng)址和特殊符號具有區(qū)分微博數(shù)據(jù)主題的能力。微博平臺轉(zhuǎn)發(fā)其他網(wǎng)絡(luò)平臺的報(bào)道,微博內(nèi)容中經(jīng)常出現(xiàn)其他網(wǎng)站的鏈接。兩個鏈接相同的微博可以判斷其內(nèi)容有很強(qiáng)的話題聯(lián)系。由于微博內(nèi)容的特殊文本結(jié)構(gòu),特別括號內(nèi)的內(nèi)容一般是話題的一般信息,因此特別括號內(nèi)的內(nèi)容可以在一定程度上區(qū)分話題。符號@后的大部分內(nèi)容是指定用戶的姓名,表示微博中描述的內(nèi)容與指定用戶有關(guān),希望被指定用戶看到。如果有兩個微博有相同的指定用戶,則表明兩個微博討論的事件與指定用戶有關(guān),因此兩個微博有可能描述相同的話題。由于新聞數(shù)據(jù)中沒有類似微博的文本結(jié)構(gòu),內(nèi)容中的url和特殊符號數(shù)量很少,因此不具備區(qū)分新聞主題的能力。6)命名實(shí)體和名詞對兩個數(shù)據(jù)集的主題檢測都有很高的貢獻(xiàn)。這是因?yàn)槊麑?shí)體和名詞都是話題檢測領(lǐng)域中話題事件發(fā)展的主要對象,是區(qū)分話題能力最強(qiáng)的兩個詞。4相關(guān)研究應(yīng)用前景以及進(jìn)一步展望4.1相關(guān)研究應(yīng)用前景敏感話題在互聯(lián)網(wǎng)的日常中很大程度的可以反映甚至引發(fā)一段時間的社會各領(lǐng)域的關(guān)注焦點(diǎn)。從近期國際國內(nèi)一些重大事件的報(bào)道和反應(yīng)來看,網(wǎng)絡(luò)在傳播速度和規(guī)模、地域影響范圍、媒體表現(xiàn)等方面都遠(yuǎn)遠(yuǎn)超過了以往的大眾媒體,網(wǎng)絡(luò)給當(dāng)代社會的方方面面帶來了巨大的影響。由此產(chǎn)生的網(wǎng)絡(luò)內(nèi)容安全問題對社會乃至國家政治都是不可估量的。為了對網(wǎng)絡(luò)敏感詞進(jìn)行全面管理,發(fā)現(xiàn)相關(guān)犯罪的研究線索,及時準(zhǔn)確地識別網(wǎng)絡(luò)中的敏感信息,進(jìn)行控制或預(yù)警,研究犯罪現(xiàn)象并予以消除勢在必行。未來將朝著數(shù)字化、網(wǎng)絡(luò)化方向發(fā)展。然而,隨著網(wǎng)絡(luò)信息的爆發(fā),發(fā)現(xiàn)平臺對效率和準(zhǔn)確性的要求越來越高。系統(tǒng)的可靠性和穩(wěn)定性越來越重要,相關(guān)技術(shù)的發(fā)展也越來越迫切。4.2展望(1)然而,全面的敏感信息分析和管理還有很長的路要走。其他相應(yīng)的功能需要進(jìn)一步的研究和實(shí)現(xiàn)。(2)信息處理過程的每一部分都對結(jié)果有很大的影響。對整個敏感信息發(fā)現(xiàn)過程進(jìn)行改進(jìn)和集成,可以達(dá)到最佳的整體處理效果,從而進(jìn)一步提高系統(tǒng)的可用性和易用性(3)深入研究了基于語義的敏感詞識別方法。目前,基于語義的Web信息發(fā)現(xiàn)的研究還處于理論階段,尚未應(yīng)用到實(shí)踐中?;谒淖止C(jī)制的詞典還有待進(jìn)一步的研究和實(shí)驗(yàn)。在工藝優(yōu)化的同時,還應(yīng)進(jìn)行實(shí)驗(yàn),比較其效果和性能。在實(shí)際應(yīng)用中,需要考慮諸多因素,通過不斷的探索和實(shí)驗(yàn),達(dá)到優(yōu)化效果。(4)隨著網(wǎng)絡(luò)中圖像和音視頻信息的增多,相關(guān)的敏感信息發(fā)現(xiàn)技術(shù)也是我們研究的重點(diǎn)之一??偨Y(jié)隨著互聯(lián)網(wǎng)時代的不斷發(fā)展,信息分散在各種網(wǎng)絡(luò)平臺上。人們需要利用話題檢測技術(shù)從大量的網(wǎng)絡(luò)數(shù)據(jù)中發(fā)現(xiàn)有價值的話題線索。然而,傳統(tǒng)的話題檢測技術(shù)已經(jīng)不能滿足實(shí)際
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年魷魚針項(xiàng)目可行性研究報(bào)告
- 2025年軸向不銹鋼耐震表項(xiàng)目可行性研究報(bào)告
- 2025至2030年不銹鋼全自動電開水器項(xiàng)目投資價值分析報(bào)告
- 管接頭項(xiàng)目可行性研究報(bào)告
- 2025年除皺修護(hù)眼霜項(xiàng)目可行性研究報(bào)告
- 2025至2030年中國黑小豆數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年液體藍(lán)項(xiàng)目可行性研究報(bào)告
- 2025年移動式啟車電源項(xiàng)目可行性研究報(bào)告
- 半導(dǎo)體材料項(xiàng)目可行性研究報(bào)告建議書
- Unit 3 Welcome to the School Period 1 Welcome to the Unit 教學(xué)設(shè)計(jì) 2024-2025學(xué)年譯林版(2024)七年級英語上冊
- GB/T 1346-2024水泥標(biāo)準(zhǔn)稠度用水量、凝結(jié)時間與安定性檢驗(yàn)方法
- 2025年湖南中醫(yī)藥高等??茖W(xué)校高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 【歷史】金與南宋對峙課件-2024-2025學(xué)年統(tǒng)編版七年級歷史下冊
- 易制毒化學(xué)品理論考試試題及答案
- 2025年春新人教PEP版英語三年級下冊課件 Unit 1 Part C 第8課時 Reading time
- 《消防檢查指導(dǎo)手冊》(2024版)
- 2024年萍鄉(xiāng)衛(wèi)生職業(yè)學(xué)院單招職業(yè)技能測試題庫標(biāo)準(zhǔn)卷
- 2025年重慶三峰環(huán)境集團(tuán)招聘筆試參考題庫含答案解析
- 育嬰培訓(xùn)課件
- 《管理品牌資產(chǎn)》戴維·阿克著
- 藥品網(wǎng)絡(luò)交易服務(wù)三方平臺質(zhì)量管理體系文件-B2B平臺(完整版)
評論
0/150
提交評論