在線社會網(wǎng)絡(luò)虛假信息檢測關(guān)鍵技術(shù)研究綜述_第1頁
在線社會網(wǎng)絡(luò)虛假信息檢測關(guān)鍵技術(shù)研究綜述_第2頁
在線社會網(wǎng)絡(luò)虛假信息檢測關(guān)鍵技術(shù)研究綜述_第3頁
在線社會網(wǎng)絡(luò)虛假信息檢測關(guān)鍵技術(shù)研究綜述_第4頁
在線社會網(wǎng)絡(luò)虛假信息檢測關(guān)鍵技術(shù)研究綜述_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2016年4月19日,習(xí)近平總書記在網(wǎng)絡(luò)安全和信息化工作座談會上提到:“網(wǎng)絡(luò)空間是億萬民眾共同的精神家園。網(wǎng)絡(luò)空間天朗氣清、生態(tài)良好,符合人民利益。網(wǎng)絡(luò)空間烏煙瘴氣、生態(tài)惡化,不符合人民利益。誰都不愿生活在一個充斥著虛假、詐騙、攻擊、謾罵、恐怖、色情、暴力的空間?!秉h的十八大以來,習(xí)總書記高度重視網(wǎng)絡(luò)生態(tài)建設(shè),強(qiáng)調(diào)要營造一個風(fēng)清氣正的網(wǎng)絡(luò)空間。網(wǎng)絡(luò)虛假信息憑借數(shù)據(jù)挖掘、人工智能、深度偽造等技術(shù)手段,可以實(shí)現(xiàn)文字、圖片、音視頻的隨意嫁接、篡改和生成,可能會擾亂社會公眾的日常生活,影響社會輿論走向,甚至?xí)艺魏鸵庾R形態(tài)安全造成惡劣影響?!?018年虛假新聞研究報(bào)告》顯示,在線社交網(wǎng)絡(luò)是網(wǎng)絡(luò)虛假新聞的主要“溫床”,涉及體育、法治、教育、文化、財(cái)經(jīng)等多個領(lǐng)域,分布領(lǐng)域之廣為歷年之最。隨著社交媒體的發(fā)展,社交網(wǎng)絡(luò)中的信息呈指數(shù)級增長,而在這些信息中很有可能隱藏著各種各樣的虛假信息,這些消息通過微博、社交軟件、論壇、新聞?wù)军c(diǎn)等各類平臺以極快的速度傳播著。與傳統(tǒng)媒體,如報(bào)紙、電視等相比,在社交媒體上瀏覽或發(fā)布信息往往更及時(shí)、成本更低。與此同時(shí),大量未經(jīng)證實(shí)的信息以前所未有的速度傳播,影響輿論,欺騙大眾,對社會造成惡劣的影響。由于數(shù)據(jù)量越來越大,發(fā)現(xiàn)這些虛假信息變得越來越困難,而傳統(tǒng)依賴人工舉報(bào)和審核的方式只能檢測出其中的一小部分,大量虛假信息并沒有被檢測出來,而且由于數(shù)據(jù)量龐大,依賴人工的方式難以發(fā)現(xiàn)海量數(shù)據(jù)環(huán)境下的虛假信息。隨著人工智能(Artificial

Intelligence,AI)產(chǎn)品的應(yīng)用和流行,越來越多的人依賴AI輔助開展工作。用戶不用花費(fèi)大量的時(shí)間在網(wǎng)絡(luò)上尋找所需要的內(nèi)容,ChatGPT便可以給出高質(zhì)量的回答和內(nèi)容,這將極大地增加用戶的黏性。但是,這些AI工具在帶給人們工作便利的同時(shí)也可能會產(chǎn)生和傳遞錯誤的信息和觀點(diǎn),一旦被別有用心的人利用將產(chǎn)生不可估量的后果。目前,ChatGPT暴露出的一些問題已經(jīng)引起了國內(nèi)外廣大學(xué)者和工業(yè)界的關(guān)注和廣泛討論,甚至有人擔(dān)心這項(xiàng)技術(shù)的缺陷可能會導(dǎo)致虛假信息越來越多。虛假信息之所以如此泛濫,一方面是因?yàn)樘摷傩畔⑼c真實(shí)信息融合在一起,是不完全錯誤的信息,容易混淆視聽,而普通大眾缺乏對虛假信息的判斷能力,從傳播鏈上無法阻礙虛假信息的傳播;另一方面是因?yàn)樘摷傩畔⒁话闶莿e有用心之人為了達(dá)到某種目的而利用大眾心理故意編造的,由于利用了大眾的從眾心理和興趣愛好,一定程度上會加速虛假信息的傳播。社交網(wǎng)絡(luò)的不斷推廣和應(yīng)用加速了虛假信息的傳播,虛假信息已經(jīng)成為網(wǎng)絡(luò)空間安全應(yīng)用所普遍關(guān)注的熱點(diǎn)和難點(diǎn)問題,引起了不同領(lǐng)域?qū)W者的廣泛關(guān)注,復(fù)雜網(wǎng)絡(luò)、傳播學(xué)、社會學(xué)、心理學(xué)、人工智能等多個學(xué)科領(lǐng)域的學(xué)者從不同的角度揭示了虛假信息的傳播機(jī)理,研究了提升虛假信息的檢測準(zhǔn)確率的方法,以更好地在現(xiàn)實(shí)生活中幫助人們鑒別虛假信息。在產(chǎn)業(yè)應(yīng)用方面,Snopes、Politifact、ABCNews、FactC和FullFact提供了事實(shí)核查功能,以保證新聞質(zhì)量,提升媒體公信力。Facebook與獨(dú)立的事實(shí)核查機(jī)構(gòu)合作,依靠人工智能工具開發(fā)虛假信息檢測產(chǎn)品,以識別和限制虛假新聞的傳播;美國蘭德公司開發(fā)了一種基于人機(jī)混合智能的方案,以驗(yàn)證網(wǎng)絡(luò)新聞的真實(shí)性;騰訊推出了事實(shí)查證平臺“較真”,可查證醫(yī)療衛(wèi)生、社會新聞等消息,但查證過程主要依賴人工;中科睿鑒研發(fā)了基于內(nèi)容的人工智能識謠平臺“睿鑒識謠”,提供偽造識別和虛假判斷等功能,但最終的認(rèn)證分析還需人工輔助。學(xué)術(shù)界和產(chǎn)業(yè)界仍需共同努力,不斷提升虛假信息檢測的準(zhǔn)確率和效率,還網(wǎng)絡(luò)空間一片清朗。本文后續(xù)章節(jié)的內(nèi)容安排如下:首先介紹了虛假信息的定義;其次介紹了虛假信息研究使用的數(shù)據(jù)集及評價(jià)指標(biāo);再次從內(nèi)容特征和上下文特征兩個方面對虛假信息檢測的方法進(jìn)行了詳細(xì)描述;最后,對虛假信息檢測技術(shù)進(jìn)行了總結(jié),討論了不同檢測技術(shù)的適用場景,并對未來的工作進(jìn)行了展望。1虛假信息檢測1.1

相關(guān)概念了解虛假信息的概念和分類可以更好地實(shí)現(xiàn)虛假信息的檢測和治理。很多學(xué)者參考《牛津應(yīng)用詞典》對虛假信息的定義,認(rèn)為虛假信息(FakeInformation)是“錯誤的信息”(Misinformation)或“具有誤導(dǎo)性的信息”(Disinformation)。維基百科中指出Misinformation是指不正確或誤導(dǎo)性的信息,不管是否有意誤導(dǎo)。Disinformation是指故意誤導(dǎo)或有偏見的信息,一般是為了欺騙人們而故意傳播的虛假信息,尤其指政府機(jī)構(gòu)故意發(fā)布的虛假信息。有些學(xué)者則認(rèn)為虛假信息是指利益雙方為了達(dá)到一定目的而故意制造出來誤導(dǎo)人們的信息,信息內(nèi)容本身具有一定的表面性和片面性。綜合以上觀點(diǎn),不管是否有意誤導(dǎo),只要是能夠被證明為假的信息應(yīng)該都屬于虛假信息。虛假信息的產(chǎn)生可能是因?yàn)楫?dāng)事人的認(rèn)知有限或被表面現(xiàn)象所蒙蔽,與是否故意誤導(dǎo)無關(guān)。例如,新冠疫情期間的一些虛假信息可能僅僅是因?yàn)榘l(fā)布者的認(rèn)知片面所導(dǎo)致的,并非故意誤導(dǎo)大眾。因此,網(wǎng)絡(luò)虛假信息既包含錯誤的信息(Misinformation),也包括具有誤導(dǎo)性的信息(Disinformation),是指通過網(wǎng)絡(luò)傳播的不準(zhǔn)確、不真實(shí)或具有誤導(dǎo)性的網(wǎng)絡(luò)信息。在學(xué)術(shù)研究中,與虛假信息概念類似的還有謠言和虛假新聞。謠言往往沒有特定來源,通常是指不可靠的、未經(jīng)證實(shí)的,但結(jié)果可能為真也可能為假的信息。謠言是對人們感興趣或覺得重要的事情未經(jīng)證實(shí)的闡述,謠言具有不確定性、時(shí)效性和主觀性。例如,新冠疫情初期在網(wǎng)絡(luò)上傳播的很多信息都屬于謠言。虛假新聞是指以傳播虛假信息來誤導(dǎo)大眾,帶來政治、經(jīng)濟(jì)利益的新聞,是一種具有明顯傳播意圖的虛假信息,例如,2016年美國大選出現(xiàn)的大量虛假新聞。綜上所述,虛假信息、謠言、虛假新聞之間具有一定的聯(lián)系,但也存在一定的差別。區(qū)別這些概念,掌握這些概念的特征有助于更好地提升檢測的效能。虛假新聞是虛假信息的一種,是被編輯成了新聞的形式進(jìn)行發(fā)布和傳播,是有意制造出來誤導(dǎo)大眾的。謠言和虛假信息之間存在一定的交集,結(jié)果被認(rèn)定為假的謠言屬于虛假信息。虛假新聞因?yàn)樾问綖樾侣?,因此與謠言存在本質(zhì)上的差異。虛假信息、謠言、虛假新聞之間的關(guān)系如圖1所示。圖1虛假信息、謠言、虛假新聞的關(guān)系1.2公開數(shù)據(jù)集在虛假信息檢測研究中,研究者整理并公開了大量的數(shù)據(jù)集,包括中文數(shù)據(jù)集和英文數(shù)據(jù)集,旨在促進(jìn)虛假信息研究的發(fā)展。但是,這些數(shù)據(jù)集以英文數(shù)據(jù)集居多,中文數(shù)據(jù)集相對來說要少一些。這些數(shù)據(jù)集主要是從現(xiàn)有的主流社交媒體中收集的,例如新浪微博、Twitter、Facebook等?,F(xiàn)有的公開數(shù)據(jù)集如表1所示。表1?虛假信息公開數(shù)據(jù)集Weibo21是在新浪微博中收集的首個中文多領(lǐng)域虛假新聞檢測數(shù)據(jù)集,該數(shù)據(jù)集收集了從2014年12月到2021年3月,涉及科技、軍事、教育等9個領(lǐng)域的數(shù)據(jù),共包括4488條虛假新聞和4640條真實(shí)新聞,包括文本和圖像數(shù)據(jù)。虛假疫情新聞數(shù)據(jù)是北京市經(jīng)濟(jì)和信息化局、中國計(jì)算機(jī)學(xué)會大數(shù)據(jù)專家委員會聯(lián)合主辦的“科技戰(zhàn)疫·大數(shù)據(jù)公益挑戰(zhàn)賽”中提供的數(shù)據(jù),是一個多模態(tài)虛假新聞檢測數(shù)據(jù)集,包含文本和圖片兩種模態(tài)的信息,共有14930條虛假新聞。中文謠言數(shù)據(jù)是在新浪微博不實(shí)信息舉報(bào)平臺抓取的中文謠言數(shù)據(jù),包含與微博原文相關(guān)的轉(zhuǎn)發(fā)與評論信息。數(shù)據(jù)集包含兩部分:第1部分包含從2009年9月4日至2017年6月12日的31669條謠言;第2部分包含微博原文與微博原文相關(guān)的轉(zhuǎn)發(fā)和評論信息,數(shù)據(jù)集中共包含謠言1538條和非謠言1849條。COVID-19虛假新聞由SusanLi等人收集,共收集了1164篇有關(guān)COVID-19的新聞文章和社交網(wǎng)絡(luò)帖子,其中有575篇虛假新聞。Fakeandrealnewsdataset是由ClémentBisaillon在kaggle上發(fā)布的美國大選新聞?wù)婕俜诸悢?shù)據(jù)集,包括20826篇真新聞和17903篇假新聞。fact_checking_01為2021年人民網(wǎng)主辦的“人工智能算法挑戰(zhàn)賽”賽事一的數(shù)據(jù),每條數(shù)據(jù)包括作者和文本內(nèi)容數(shù)據(jù),數(shù)據(jù)標(biāo)簽根據(jù)虛假程度分為6個類別,分別為極度虛假、虛假、大部分虛假、半真半假、大部分真實(shí)、真實(shí)。該數(shù)據(jù)集共有18013條數(shù)據(jù),其中有15846條虛假信息。FakeNewsNet由PolitiFact和GossipCop兩個數(shù)據(jù)集組成,包括新聞內(nèi)容和社交上下文,新聞內(nèi)容包括作者、標(biāo)題、正文、圖片、視頻,社交上下文包括用戶畫像、關(guān)注、粉絲等。PolitiFact共有1056篇文章,其中虛假文章432篇。GossipCop共有22865篇文章,其中虛假文章6048篇。BuzzFeedNews為2016年美國大選期間相關(guān)的虛假新聞分類數(shù)據(jù)集,共有2528篇新聞,其中901篇為虛假新聞。BuzzFace數(shù)據(jù)集是在BuzzFeedNews的基礎(chǔ)上整理得到的數(shù)據(jù)集,包括文本、圖像和視頻數(shù)據(jù),共有2282篇文章,其中虛假文章有2018篇。LIAR數(shù)據(jù)集是從事實(shí)核查網(wǎng)站PolitiFact收集的數(shù)據(jù)集,包括內(nèi)容本身、內(nèi)容來源及正文。共有12743條數(shù)據(jù),其中有虛假信息10690條。1.3評價(jià)指標(biāo)虛假信息檢測算法常用的評價(jià)指標(biāo)包括精確率(Precision)、召回率(Recall)、(F1score),因此,需要使用混淆矩陣進(jìn)行計(jì)算?;煜仃囍姓骊栃?、真陰性、假陽性、假陰性的定義如下。(1)真陽性(TruePositive,TP):待預(yù)測信息為虛假信息,預(yù)測結(jié)果為虛假信息。(2)真陰性(TrueNegative,TN):待預(yù)測信息為真,預(yù)測結(jié)果為真。(3)假陽性(FalsePositive,F(xiàn)P):待預(yù)測信息為真,預(yù)測結(jié)果為虛假信息。(4)假陰性(FalseNegative,F(xiàn)N):待預(yù)測信息為虛假信息,預(yù)測結(jié)果為真。根據(jù)以上定義,精確率、召回率、可以定義為:(1)精確率P表示預(yù)測結(jié)果正確的虛假信息數(shù)量TP占總的被識別為虛假信息的比例,其表達(dá)式為:例如,共有10個待檢測的樣本,預(yù)測為假的有8個,其中預(yù)測正確的有6個,則精確率為66.67%。(2)召回率R表示識別出的虛假信息數(shù)量TP占總的虛假信息樣本數(shù)量的比例,其表達(dá)式為:例如,共有10個待檢測的樣本,其中共有虛假信息6個,預(yù)測為假的有8個,這8個包含樣本中的6個虛假信息,也就是說,所有的虛假信息都被識別了,則召回率為100%。(3)F1指標(biāo)綜合了精確率和召回率兩個指標(biāo),給予其相同的權(quán)重,其表達(dá)式為:2基于內(nèi)容特征的虛假信息檢測方法基于內(nèi)容特征的虛假信息檢測主要利用自然語言處理等技術(shù)挖掘虛假信息中的內(nèi)容和圖像等特征,以進(jìn)行虛假信息檢測。在進(jìn)行文本特征提取時(shí),首先需要將文本內(nèi)容處理成機(jī)器能夠理解的形式,主要采用詞頻-逆向文件頻率(TermFrequency–InverseDocumentFrequency,TF-IDF)、Word2Vec、來自變壓器的雙向編碼器表示(BidirectionalEncoderRepresentationsfromTransformers,BERT)[18]等方式進(jìn)行文本數(shù)據(jù)處理;其次基于處理好的文本向量利用傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法進(jìn)行特征提取和模型訓(xùn)練,以進(jìn)行虛假信息檢測。2.1傳統(tǒng)的機(jī)器學(xué)習(xí)方法傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行虛假信息檢測時(shí),先對原始數(shù)據(jù)進(jìn)行預(yù)處理,然后進(jìn)行特征提取和特征選擇,最后使用樸素貝葉斯、支持向量機(jī)(Support

VectorMachine,SVM)、決策樹等算法構(gòu)建分類模型,其流程如圖2所示。圖2傳統(tǒng)機(jī)器學(xué)習(xí)方法傳統(tǒng)的基于機(jī)器學(xué)習(xí)的虛假信息檢測方法主要依賴人工進(jìn)行特征提取。討論了各種利用機(jī)器學(xué)習(xí)檢測虛假新聞的方法。提出了一種基于機(jī)器學(xué)習(xí)的虛假新聞檢測模型,利用集成學(xué)習(xí)對支持向量機(jī)模型進(jìn)行集成,提升了虛假新聞的分類準(zhǔn)確率。陳燕方等人提出了一種基于文本情感特征的虛假信息檢測模型。通過構(gòu)建負(fù)面情感詞庫對虛假信息文本進(jìn)行分析,并構(gòu)建貝葉斯和支持向量機(jī)模型,取得了比較好的實(shí)驗(yàn)效果。但是,傳統(tǒng)的機(jī)器學(xué)習(xí)方法嚴(yán)重依賴特征工程,不僅耗時(shí)且需要針對不同的數(shù)據(jù)集進(jìn)行特征提取,存在不夠靈活、可擴(kuò)展性較差的問題。2.2深度學(xué)習(xí)方法由于深度學(xué)習(xí)技術(shù)的出現(xiàn)和應(yīng)用,可以自動地從虛假信息樣本中提取出學(xué)習(xí)特征來進(jìn)行虛假信息檢測,并能夠自動地捕獲文本內(nèi)容潛在語義特征,檢測效率和準(zhǔn)確率都有一定程度的提升。利用深度學(xué)習(xí)進(jìn)行基于內(nèi)容特征的虛假信息檢測的框架如圖3所示。圖3深度學(xué)習(xí)檢測框架利用深度學(xué)習(xí)進(jìn)行基于內(nèi)容特征的虛假信息檢測,首先需要將文本內(nèi)容處理成機(jī)器能夠理解的形式,其次將處理后的文本向量輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后訓(xùn)練好的模型就可以用來進(jìn)行虛假信息檢測。Chen等人[23]提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)的深度注意力模型,將注意力嵌入到遞歸神經(jīng)網(wǎng)絡(luò)中,以捕獲信息隨時(shí)間變化的特征。還有學(xué)者將卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)、BERT、長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)等模型應(yīng)用到虛假信息檢測中。此外,還有學(xué)者利用圖片和文本之間的多模態(tài)特征進(jìn)行虛假信息檢測,其框架如圖4所示。圖4多模態(tài)虛假信息檢測框架在針對多模態(tài)數(shù)據(jù)進(jìn)行虛假信息檢測時(shí),一般是將文本特征、圖片特征、圖文相似特征進(jìn)行拼接,利用圖片和文本之間的語義特征來提升檢測的準(zhǔn)確率。提出了一種多模態(tài)虛假新聞檢測框架,利用VGG19提取圖像特征,利用BERT提取文本特征。在另外一篇文獻(xiàn)中,利用VGG提取圖像特征,利用XLNET提取文本特征。利用VGG和Text-CNN提取圖像和文本特征。這些文獻(xiàn)都是使用不同的方法提取圖像和文本特征,然后將圖像特征和文本特征進(jìn)行拼接,進(jìn)行虛假信息檢測??紤]了圖片中的文本信息特征、圖像特征、原文文本特征,實(shí)現(xiàn)虛假新聞的檢測。提出從新聞的不同模態(tài)和不同角度提取特征,并通過自舉多元表征及優(yōu)化多模態(tài)特征學(xué)習(xí)方法實(shí)現(xiàn)具有更高準(zhǔn)確率和一定解釋性的虛假新聞檢測方案。3基于社交上下文特征的虛假信息檢測方法上文介紹的基于內(nèi)容特征進(jìn)行虛假信息檢測的方法大多數(shù)是有監(jiān)督的學(xué)習(xí)方法。有監(jiān)督的學(xué)習(xí)方法準(zhǔn)確率較高,但是需要大量的標(biāo)簽數(shù)據(jù)進(jìn)行學(xué)習(xí)。當(dāng)標(biāo)簽數(shù)據(jù)比較少或者沒有標(biāo)簽時(shí)則需要人工進(jìn)行數(shù)據(jù)標(biāo)注,或者采用無監(jiān)督或半監(jiān)督的學(xué)習(xí)方法,而人工進(jìn)行數(shù)據(jù)標(biāo)注耗時(shí)耗力,難以實(shí)施?;谏缃簧舷挛奶卣鞯奶摷傩畔z測主要基于信息在社交網(wǎng)絡(luò)中傳播和交互所產(chǎn)生的外部特征進(jìn)行虛假信息檢測,這些外部特征有信息的傳播結(jié)構(gòu)、用戶行為和來源可信度等,因此可以基于社交上下文信息實(shí)現(xiàn)無監(jiān)督或半監(jiān)督的虛假信息檢測。基于上下文的虛假信息檢測框架如圖5所示。圖5基于上下文的虛假信息檢測框架3.1基于傳播網(wǎng)絡(luò)的方法虛假信息傳播的深度、大小、最大或平均寬度等特征都會顯著區(qū)別于真實(shí)信息。因此,可以利用用戶的社交網(wǎng)絡(luò)結(jié)構(gòu)或虛假信息在社交網(wǎng)絡(luò)中的傳播特征實(shí)現(xiàn)虛假信息檢測。薛海濤等人提出了一種融合傳播鏈中的用戶屬性和消息內(nèi)容的虛假信息檢測模型,利用node2vec對用戶結(jié)構(gòu)進(jìn)行特征表示,基于用戶屬性、傳播結(jié)構(gòu)和消息內(nèi)容特征實(shí)現(xiàn)虛假信息檢測。Yang等人利用RNN和CNN對謠言的傳播和評論進(jìn)行建模,將兩個特征拼接進(jìn)行謠言檢測。基于傳播網(wǎng)絡(luò)提出了一種基于主動學(xué)習(xí)的虛假信息檢測方法,該方法是基于對抗主動學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò),其包括一個分類器和一個選擇器。分類器使用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,以預(yù)測未標(biāo)記信息的標(biāo)簽。選擇器評估預(yù)測標(biāo)簽的質(zhì)量,并根據(jù)查詢策略從它們中選擇高值候選節(jié)點(diǎn)。通過不斷查詢高值候選節(jié)點(diǎn)進(jìn)行分類器的訓(xùn)練和調(diào)優(yōu),從而利用少量的標(biāo)記數(shù)據(jù)就可以獲得良好的性能。3.2基于信息來源的方法不可信的用戶或平臺發(fā)布的信息更有可能是虛假信息,可信度高的用戶或平臺發(fā)布的信息更有可能是真實(shí)的信息?;诖?,可以通過對信息來源進(jìn)行可信度評估來實(shí)現(xiàn)虛假信息的檢測。信息來源可信度可以分為用戶可信度、內(nèi)容可信度和平臺可信度。信息來源的評分由三者加權(quán)融合計(jì)算得到,將信息源的可信度和內(nèi)容特征進(jìn)行拼接輸入神經(jīng)網(wǎng)絡(luò),就可以實(shí)現(xiàn)虛假信息的檢測。李璐旸提出了一種基于記憶神經(jīng)網(wǎng)絡(luò)的融合信息來源的虛假信息檢測模型,將信息源的可靠度視為外部知識,運(yùn)用記憶單元存儲多個信息源的可靠度,作為長期記憶輔助信息可信度的預(yù)測。利用用戶的歷史發(fā)文信息計(jì)算用戶的可信度,并結(jié)合新聞傳播特征進(jìn)行虛假新聞檢測。3.3基于用戶行為的方法用戶行為包括評論、點(diǎn)贊、轉(zhuǎn)發(fā)等,一般而言,虛假信息更有可能引起討論,且評論中包含大量的文本信息可以利用。因此,可以利用用戶行為實(shí)現(xiàn)虛假信息檢測。利用源推文的短文本內(nèi)容、社交上下文信息中的帖子評論內(nèi)容、傳播網(wǎng)絡(luò)、轉(zhuǎn)發(fā)用戶序列及用戶屬性和行為等異構(gòu)數(shù)據(jù),通過注意力機(jī)制,對異構(gòu)數(shù)據(jù)特征進(jìn)行有效融合,實(shí)現(xiàn)虛假信息檢測。分析了3個社會理論:(1)用戶對不實(shí)言論的看法有更多不同的情感極性,不太可能是中性的;(2)社會偏見較大的用戶分享的言論更有可能是假的;(3)不可信的用戶更有可能傳播不實(shí)言論?;谝陨?個理論提出了一種弱監(jiān)督虛假新聞檢測方法,利用少量手工標(biāo)注的數(shù)據(jù)和來自用戶參與社交活動的不同來源的大量弱注釋數(shù)據(jù)。引入啟發(fā)式標(biāo)記函數(shù)用以弱標(biāo)記大量數(shù)據(jù),同時(shí)由于并非所有弱實(shí)例都具有相同的信息量,引入標(biāo)簽加權(quán)網(wǎng)絡(luò)(LabelWeightingNetwork,LWN)來建模這些弱標(biāo)簽的權(quán)重以進(jìn)行優(yōu)化學(xué)習(xí),實(shí)現(xiàn)弱監(jiān)督條件下的虛假信息檢測。4結(jié)?語虛假信息一直是研究者們研究的熱點(diǎn)問題,在基于內(nèi)容的虛假信息檢測方面,傳統(tǒng)的機(jī)器學(xué)習(xí)方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論