基于B站視頻彈幕文本的情感分析_第1頁(yè)
基于B站視頻彈幕文本的情感分析_第2頁(yè)
基于B站視頻彈幕文本的情感分析_第3頁(yè)
基于B站視頻彈幕文本的情感分析_第4頁(yè)
基于B站視頻彈幕文本的情感分析_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于B站視頻彈幕文本的情感分析目錄TOC\o"1-2"\h\u298291引言 5254481.1研究背景 5111741.2研究意義 659921.3研究現(xiàn)狀 6156512相關(guān)理論和技術(shù)介紹 7116842.1基于情感詞典的情感值分析 784432.2基于Kmeans++聚類法的文本聚類 7313802.3基于LDA算法的主題模型 831642.4基于NMF算法的主題模型 838393數(shù)據(jù)采集與處理 8256173.1數(shù)據(jù)采集 8325403.2數(shù)據(jù)預(yù)處理 929843.3詞云圖設(shè)計(jì) 919613.4基于SnowNLP庫(kù)對(duì)文本內(nèi)容進(jìn)行情感分析 10160433.5正負(fù)面文本情感分析 11104354主題詞提取 12196034.1基于Kmeans++聚類法的文本聚類 12195954.2基于LDA模型的主題詞提取 1454724.3基于NMF模型提取主題詞 15327255總結(jié) 17215095.1分析與總結(jié) 17136905.2反思與不足 17279015.3建議與展望 174352參考文獻(xiàn) 1827335致謝 18摘要:彈幕是B站的一大視頻特色。通過(guò)彈幕,用戶可以更好的參與到視頻觀看當(dāng)中,這種互動(dòng)機(jī)制可有效改善平臺(tái)的用戶參與度,提高視頻的點(diǎn)播率及影響。彈幕評(píng)論中蘊(yùn)含豐富的情感信息,這些信息反應(yīng)了用戶觀看時(shí)的褒貶情感,積極消極情感以及情感需求等。本文將對(duì)B站知名up“逗比的雀巢”九條視頻中彈幕文本的進(jìn)行情感分析,可以幫助視頻創(chuàng)作者了解用戶對(duì)內(nèi)容的反饋和情感傾向,為內(nèi)容創(chuàng)作者和平臺(tái)運(yùn)營(yíng)提供指導(dǎo)意見。同時(shí)運(yùn)用LDA模型以及NMF模型對(duì)彈幕文本進(jìn)行主題詞提取,對(duì)視頻內(nèi)容進(jìn)行分類歸納分析,為用戶提供良好的觀前體驗(yàn)。幫助用戶更好的了解up“逗比的雀巢”的視頻類型及內(nèi)容。關(guān)鍵詞:B站彈幕文本;Kmeans聚類;LDA模型;NMF模型l1引言1.1研究背景“B站”是一家視頻網(wǎng)站,全稱“bilibili”,中文翻譯為“嗶哩嗶哩彈幕網(wǎng)”。B站是以動(dòng)漫,漫畫,以及游戲等二次元文化為內(nèi)容進(jìn)行視頻創(chuàng)作的網(wǎng)站,同時(shí)也涵蓋了游戲、生活、影視、科技等多個(gè)領(lǐng)域,為用戶提供豐富多樣的娛樂(lè)選擇。隨著B站的用戶數(shù)量越來(lái)越龐大,視頻創(chuàng)作領(lǐng)域也不斷擴(kuò)大,其B站特有的文化也越發(fā)豐富多彩,包括視頻類型也是多樣化,包括科普類視頻,“鬼畜”類視頻,影視游戲剪輯類視頻,長(zhǎng)短劇,同時(shí)B站也大量的引入影視劇,擁有大量的番劇和視頻的版權(quán),這些優(yōu)質(zhì)的視頻資源不但讓B站用戶共同參與到視頻當(dāng)中去,也可供許多創(chuàng)作者們進(jìn)行再創(chuàng)作。其中彈幕作為B站的一大視頻特色,彈幕評(píng)論系統(tǒng)和用戶創(chuàng)作平臺(tái)促進(jìn)了用戶之間的互動(dòng)和內(nèi)容的分享,形成了一個(gè)活躍的社區(qū)??傮w而言,Bilibili不僅是一個(gè)視頻分享平臺(tái),更是一個(gè)以二次元文化為核心的社區(qū),為用戶提供了豐富的娛樂(lè)體驗(yàn),同時(shí)也推動(dòng)了相關(guān)文化的發(fā)展。有了網(wǎng)絡(luò)視頻發(fā)展的產(chǎn)物,網(wǎng)絡(luò)流行文化。其內(nèi)容會(huì)因其趣味性、新穎性或共鳴力而被廣泛傳播和分享。網(wǎng)絡(luò)流行文化在社交媒體平臺(tái)、視頻分享網(wǎng)站、網(wǎng)絡(luò)和即時(shí)通訊應(yīng)用程序等各種在線平臺(tái)上快速流通,塑造了當(dāng)代社會(huì)的娛樂(lè)、交流和文化認(rèn)同。而在年輕用戶占比較多的B站視頻中,網(wǎng)絡(luò)流行文化最為鮮明,及時(shí),有特色。1.2研究意義彈幕作為用戶觀看視頻時(shí)基于視頻內(nèi)容等與各用戶實(shí)時(shí)交互的文本方式,研究彈幕可以對(duì)視頻內(nèi)容以及用戶觀看體驗(yàn)進(jìn)行分析,判斷用戶對(duì)于視頻的喜好程度以及對(duì)其內(nèi)容的評(píng)價(jià)與思考等。本文將結(jié)合彈幕特征建立情感分析中的主題模型,LDA模型,NMF模型,這兩個(gè)模型可以有效地計(jì)算并生成與視頻內(nèi)容相關(guān)的主題詞,從而進(jìn)一步分析視頻內(nèi)容等,結(jié)合模型的分析結(jié)果與視頻內(nèi)容做對(duì)比,可以清晰的主觀的對(duì)兩個(gè)模型以及算法進(jìn)行研究做對(duì)比。1.3研究現(xiàn)狀王力認(rèn)為,如今對(duì)于視頻彈幕的分析有如下幾個(gè)方向,彈幕網(wǎng)站,彈幕傳播方式,彈幕文化,彈幕用戶特征。同時(shí)也有對(duì)彈幕進(jìn)行多維度分類。這些研究都是基于定向方向的研究。其中分析彈幕領(lǐng)域的主要應(yīng)用的方法有統(tǒng)計(jì)學(xué)和人工智能。然而早期短文本情感分析作為彈幕文本分析的主要方法,研究成果多數(shù)用作視頻檢索。而隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)也應(yīng)用到了視頻彈幕的研究中。金丹丹則是基于多為情感詞典對(duì)B站視頻彈幕進(jìn)行傾向性分析。金丹丹認(rèn)為以往的情感分析將文本分為正負(fù)兩面,過(guò)于單一,于是改進(jìn)《知網(wǎng)》和《詞林》并進(jìn)行融合,構(gòu)建了情感分類更細(xì)致化的情感詞典,結(jié)合彈幕內(nèi)容中出現(xiàn)的程度副詞、否定詞、雙重否定詞進(jìn)行權(quán)值計(jì)算,再對(duì)彈幕中出現(xiàn)的感嘆詞、感嘆號(hào)、疑問(wèn)詞、疑問(wèn)號(hào)以及轉(zhuǎn)折詞做出相應(yīng)的權(quán)值化處理。最后將處理過(guò)的彈幕進(jìn)行最后,將經(jīng)過(guò)以上處理的彈幕數(shù)據(jù)歸類到不同的情感維度下,并且獲得該情感維度下本條彈幕內(nèi)容的情感值。邱全磊則提出了文本分析領(lǐng)域中的不足,彈幕作為流行的視頻文本,不同于傳統(tǒng)的短文本,分析彈幕文本需要考慮顏文字表情對(duì)情感分析的影響,同時(shí)沒(méi)有考慮語(yǔ)氣詞在情感表達(dá)中的作用。這影響了彈幕情感分析的效果,降低了情感分析的準(zhǔn)確率。因此構(gòu)造了顏文字與語(yǔ)氣詞的情感詞典。同樣的,莊須強(qiáng)也提出,彈幕視頻在國(guó)內(nèi)變得愈來(lái)愈流行,但彈幕文化的整體發(fā)展相對(duì)較短,還缺乏相應(yīng)的有效合理的管理與研究。且彈幕文本有著文本長(zhǎng)度較短、較口語(yǔ)化、網(wǎng)絡(luò)詞匯較多的特點(diǎn)。莊須強(qiáng)則是使用了LSTM模型進(jìn)行分析,從而突出文本關(guān)鍵信息。賈中昕,則認(rèn)為短文本的“短”導(dǎo)致了其特征的稀疏。這導(dǎo)致了文本任務(wù)中的效率難以提高。則運(yùn)用了一種基于情感特征的關(guān)聯(lián)詞聯(lián)想短文本擴(kuò)展算法,最后將情感關(guān)聯(lián)詞集合加入到原始文本集合達(dá)到擴(kuò)充文本特征的目的。然而洪慶使用彈幕常用詞詞典的基礎(chǔ)上通過(guò)改進(jìn)傳統(tǒng)的k-means聚類算法,對(duì)所有發(fā)表彈幕的用戶進(jìn)行基于情感值的分類,以此研究者可以更好的特定視頻的觀眾在情感上的異同點(diǎn)。2相關(guān)理論和技術(shù)介紹情感分析是自NLP即自然語(yǔ)言處理領(lǐng)域中特別重要的分支,也是數(shù)據(jù)分析中一種常見的實(shí)用的基于于文本數(shù)據(jù)的分析方法。是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程。目前進(jìn)行情感分析的方法很多,一下分別進(jìn)行介紹。2.1基于情感詞典的情感值分析該方法是一種通過(guò)統(tǒng)計(jì)文本中正面和負(fù)面情感詞語(yǔ)的出現(xiàn)頻率來(lái)判斷文本情感傾向的技術(shù)。原理:收集一個(gè)包含正面和負(fù)面情感詞語(yǔ)的情感詞典。對(duì)中文文本進(jìn)行分詞,統(tǒng)計(jì)每個(gè)詞語(yǔ)出現(xiàn)的頻率。根據(jù)情感詞典和詞頻,計(jì)算文本的情感值。2.2基于Kmeans++聚類法的文本聚類Kmeans是常見的能將多量數(shù)據(jù)進(jìn)行分類,分成不同組或簇的無(wú)監(jiān)督學(xué)習(xí)算法。其原理基于歐氏距離,即在數(shù)據(jù)分類過(guò)程中,兩個(gè)目標(biāo)的距離越近,二者相似度就越高,約有可能分為同意類型的數(shù)據(jù)。而Kmeans++聚類法,則是在Kmeans聚類法的基礎(chǔ)上進(jìn)行的升級(jí)。Kmeans聚類算法在正式分類之前,是將K個(gè)簇中心初始化,在此基礎(chǔ)下依賴簇中心進(jìn)行收斂。若在初始化的過(guò)程中,出現(xiàn)了將若干個(gè)簇中心同時(shí)初始化到一個(gè)簇中心的情況,就會(huì)導(dǎo)致簇中心初始化失誤與嚴(yán)重偏差,使得最后聚類出現(xiàn)較大誤差,聚類結(jié)果精確度降低。因此本文采用Kmeans++聚類法對(duì)文本進(jìn)行聚類,避免初始化簇中心出現(xiàn)失誤。Kmeans++聚類法與Kmeans聚類法只是在初始化簇中心的算法上不同,Kmeans++聚類法在該過(guò)程是逐個(gè)選取n個(gè)簇中心,且離其它簇中心越遠(yuǎn)的樣本點(diǎn)越有可能被選為下一個(gè)簇中心。2.3基于LDA算法的主題模型LDA模型是一種主題模型,其基本原理基于貝葉斯推理,LDA也稱之為潛在狄利克雷分配。該算法可以將文本文檔集中的每篇文檔的主題以概率分布的形式給出,從而通過(guò)分析一些文檔通過(guò)算法提取出它們的主題出來(lái)后,便可以根據(jù)主題進(jìn)行主題聚類或文本分類。假設(shè)在一個(gè)文檔集中,有N個(gè)文檔,在第n個(gè)文檔中的幾個(gè)詞匯中,出現(xiàn)了詞匯假設(shè)為“a”,該詞匯對(duì)應(yīng)的主題可以假設(shè)為“A”,則該文檔集的主題為“A”的概率就會(huì)上升,隨后對(duì)第“n+n”個(gè)文檔進(jìn)行處理時(shí),出現(xiàn)的詞匯所對(duì)應(yīng)的主題的概率也會(huì)上升。最后通過(guò)分析得到該文檔集最有可能出現(xiàn)的主題,以及各主題可能出現(xiàn)的概率。從而對(duì)該文檔集進(jìn)行主題歸類。其核心公式為:P(詞|文檔)=P(詞|主題)|P(主題|文檔)因此,LDA模型在最開始的主題確定步驟,是使用狄利克雷先驗(yàn)來(lái)約束主題分布。2.4基于NMF算法的主題模型NMF模型同樣是一種主題模型,不同于LDA的貝葉斯推理,NMF使用的是非負(fù)矩陣分解算法,將給定的矩陣分解為兩個(gè)非負(fù)矩陣,并且是使用乘法更新規(guī)則來(lái)更新主題。3數(shù)據(jù)采集與處理3.1數(shù)據(jù)采集本文中選取的數(shù)據(jù)全部來(lái)源于嗶哩嗶哩網(wǎng)站。通過(guò)python代碼獲取cid接口爬取了up“逗比的雀巢”的不同風(fēng)格,不同類型,不同內(nèi)容的視頻中的彈幕文本信息。如圖1所示。圖1彈幕信息圖3.2數(shù)據(jù)預(yù)處理首先對(duì)文本內(nèi)容進(jìn)行分詞處理,運(yùn)用jieba對(duì)輸入文本與詞典中的左右詞進(jìn)行匹配。再對(duì)每個(gè)匹配好的詞分別生成包含詞的即時(shí)位置,結(jié)束位置和詞本身的候選項(xiàng)。接著jieba使用已經(jīng)訓(xùn)練好的HMW模型來(lái)計(jì)算每個(gè)候選項(xiàng)的概率。最后根據(jù)概率得出句子開頭到結(jié)尾的最優(yōu)切分路徑,得出最有可能的分詞結(jié)果。對(duì)分詞處理后的文本內(nèi)容進(jìn)行去除停用詞處理。將詞語(yǔ)序列與停用詞表進(jìn)行匹配。刪除匹配的停用詞。得到去除停用詞后的詞條序列。每個(gè)詞條由原始詞分詞清洗后的詞匯構(gòu)成。如圖2所示。圖2數(shù)據(jù)清洗結(jié)果圖3.3詞云圖設(shè)計(jì)結(jié)合上文對(duì)數(shù)據(jù)的處理,對(duì)詞頻進(jìn)行統(tǒng)計(jì),生成詞云圖,詞頻越高,在詞云圖中字體越大。如圖3所示。圖3詞云圖3.4基于SnowNLP庫(kù)對(duì)文本內(nèi)容進(jìn)行情感分析基于上述對(duì)文本進(jìn)行的數(shù)據(jù)處理,得到較為干凈,具有較為明顯情感特征的詞條。接下來(lái)運(yùn)用SnowNLP庫(kù)將文本中的每個(gè)單詞與情感詞典中的單詞進(jìn)行匹配。基于SnowNLP庫(kù)中給定的每個(gè)詞的情得分,將匹配成功的文本信息進(jìn)行賦值計(jì)算,每個(gè)詞條的情感得分分為消極與積極兩類,每類情感得分的值為0到1之間的一個(gè)數(shù)k。積極類文本中的第i個(gè)詞條情感的分記為kpi,同理,消極類文本中記為kni。分別計(jì)算圖4詞條情感標(biāo)簽以及情感值信息圖圖5情感值信息圖可以看出,觀眾對(duì)于九條視頻的綜合情感主要以積極為主,積極情感得分遠(yuǎn)大于消極情感得分,且在文本內(nèi)容中,具有積極標(biāo)簽詞條是具有消極標(biāo)簽詞條的兩倍。3.5正負(fù)面文本情感分析在上文中,通過(guò)SnowNLP庫(kù)對(duì)文本賦予情感標(biāo)簽,將各詞條分為積極與消極兩類,并賦予情感值得分。本文將基于LDA模型對(duì)正負(fù)面詞條進(jìn)行主題尋優(yōu)。與主題詞提取研究側(cè)重點(diǎn)不同,該分析對(duì)象主要為情感值得分較高的詞條,能明顯體現(xiàn)用戶在觀看視頻時(shí)對(duì)內(nèi)容的消極或積極感受,主要提取正負(fù)面分類之后的文本中主題詞。研究主要目的為挖掘用戶對(duì)視頻某些內(nèi)容的正負(fù)面情感。從而做到情感分析。因此稱具有正面情感標(biāo)簽的詞條為正面評(píng)論,具有負(fù)面情感標(biāo)簽的詞條為負(fù)面評(píng)論。首先基于上文情感分析之后的數(shù)據(jù),建立詞典與語(yǔ)料庫(kù),構(gòu)建基于LDA算法的函數(shù),生成正負(fù)面詞條的主題詞,并計(jì)算所有成對(duì)主題詞向量的余弦相似度,和所有相似度值的平均值。通過(guò)選擇平均相似度較低的主題數(shù)量確定最佳主題數(shù)。如圖6所示,正面評(píng)論的最佳主題為4,負(fù)面評(píng)論的最佳主題數(shù)為3。圖6主題尋優(yōu)折線圖通過(guò)對(duì)上述分析對(duì)正負(fù)面評(píng)論進(jìn)行主題詞提取,兩類評(píng)論的每個(gè)主題各取4個(gè)主題詞。由得到的相關(guān)正負(fù)面評(píng)論主題詞可知,觀眾對(duì)于視頻中的演員,視頻本身以及視頻意義的態(tài)度積極。對(duì)于視頻中的涉及恐怖元素的內(nèi)容的態(tài)度消極,多以害怕為主。其中正負(fù)面評(píng)論主題詞提取結(jié)果由如下兩表所示。表1正面評(píng)論主題詞主題主題詞0好帥 演員 喜歡 主演1優(yōu)質(zhì) 高產(chǎn) 點(diǎn)贊 視頻2升華 深刻 意義 明確3高能 可愛 幽默 歡迎表2負(fù)面評(píng)論主題詞主題主題詞1后悔 地獄 懲罰 惡魔2細(xì)思極恐 害怕 嚇人 謀殺3撒謊 殺人 可惡 懷疑4主題詞提取4.1基于Kmeans++聚類法的文本聚類4.1.1數(shù)據(jù)預(yù)處理文本向量化基于TF-IDFTF-IDF算法通過(guò)分配權(quán)重來(lái)反映每個(gè)詞的重要程度,根據(jù)權(quán)重對(duì)文本內(nèi)容中的所有詞語(yǔ)從高到低進(jìn)行排序,權(quán)重越高說(shuō)明重要性越高,排在前幾位的詞就可以作為目標(biāo)文本的關(guān)鍵詞。所以TF-IDF算法可以用來(lái)提取關(guān)鍵詞。其中:(1)TF含義為詞頻,其計(jì)算公式為:詞頻(TF)=某個(gè)詞在文章中的出現(xiàn)次數(shù)/文章總詞數(shù)

(2)IDF含義逆文檔頻率,其計(jì)算公式為逆文檔頻率(IDF)=log(文章總數(shù)/(包含該詞的文章數(shù)+1))詞頻與最終的權(quán)重呈正比,逆文檔頻率與最終的權(quán)重呈反比。(3)計(jì)算TF-IDFTF-IDF=詞頻(TF)*逆文檔頻率(IDF)本文采用TF-IDF的方法將文本向量化構(gòu)建矩陣,在對(duì)文本進(jìn)行向量化之前,設(shè)置TF-IDF向量化器的參數(shù)0.8,即如果一個(gè)詞語(yǔ)出現(xiàn)在語(yǔ)料庫(kù)中超過(guò)80%的詞條中,它將被TF-IDF向量化器丟棄?;趐ython中的sklearn庫(kù)對(duì)其進(jìn)行向量化處理,并得到TF-IDF向量化后的稀疏矩陣。在下一步文本聚類中KMeans++聚類算法將使用這些向量表示來(lái)計(jì)算文檔之間的相似性并將其分配到簇中。因?yàn)門F-IDF矩陣為稀疏矩陣,由較大數(shù)量的詞條行與詞匯列構(gòu)成。每個(gè)詞條只包含所有詞匯列里的極少數(shù)詞匯,因此每行的眾多元素里絕大部分為0,只有極少數(shù)非零元素。當(dāng)某詞條行中的詞匯在總詞匯中只出現(xiàn)一到兩次時(shí),其對(duì)應(yīng)的權(quán)重值也為0。如圖7所示,展示了稀疏矩陣的部分信息。圖7TF-IDF向量化后的稀疏矩陣4.1.2Kmeans++模型的建立在該算法中,需要求出文本向量化之后的輪廓系數(shù)S(i)。首先需要求出各樣本點(diǎn)的內(nèi)聚度設(shè)為k(i),計(jì)算原理為n-1分之第i個(gè)樣本點(diǎn)到第j個(gè)樣本點(diǎn)之間的距離之和,再設(shè)K(i)作為遍歷所有樣本點(diǎn)計(jì)算k(i)之后的最小值。最后運(yùn)用求輪廓系數(shù)的公式S(i)=K(首先定義一個(gè)聚類數(shù)范圍

,由于實(shí)現(xiàn)KMeans++算法至少需要2個(gè)簇才能工作,因此設(shè)簇?cái)?shù)最小值為2,考慮到文本數(shù)據(jù)集來(lái)源于九個(gè)不同主題的情況,以及文本數(shù)據(jù)的維度,在最大值不低于9的情況下,增加4個(gè)簇?cái)?shù),因此設(shè)簇?cái)?shù)最大值為13,該范圍指定了訓(xùn)練KMeans++模型時(shí)的簇?cái)?shù)范圍。運(yùn)用python代碼實(shí)現(xiàn)Kmeans++聚類算法,對(duì)TF-IDF向量化的數(shù)據(jù)進(jìn)行聚類,同時(shí)計(jì)算輪廓系數(shù)尋找并確定最佳聚類數(shù)。如圖8所示。圖8輪廓系數(shù)與定義簇范圍信息圖由于在Kmean++算法生成簇時(shí),往往是從0開始,而0個(gè)簇時(shí)是不具備輪廓系數(shù)的,因此,最大輪廓系數(shù)值0.251對(duì)應(yīng)的實(shí)際生成的聚類數(shù)為10。如圖9所示。圖9輪廓系數(shù)與聚類點(diǎn)關(guān)系圖由圖9可以清晰的分?jǐn)喑霎?dāng)聚類點(diǎn)為10的情況下,輪廓系數(shù)越高,即對(duì)目標(biāo)文本聚類效果最好。4.2基于LDA模型的主題詞提取4.2.1主題分類基于Kmeans++對(duì)目標(biāo)文本內(nèi)容分類得出的10個(gè)主題,將目標(biāo)文本分為10類,每一類提取一個(gè)主題,每個(gè)主題選取10個(gè)主題詞。4.2.2LDA模型的構(gòu)建使用上文得到的最佳聚類數(shù)進(jìn)行Kmeans++聚類,選取出同一類主題特征的文本信息。構(gòu)建詞袋模型,基于python相關(guān)數(shù)據(jù)庫(kù)sklearn的TF-IDF向量器--“TfidfVectorizer”對(duì)各類文本信息進(jìn)行向量化,分析一個(gè)詞語(yǔ)在文檔中出現(xiàn)的頻率和它在整個(gè)語(yǔ)料庫(kù)中的普遍性,將文本信息轉(zhuǎn)化為數(shù)字信息便于進(jìn)行算法分析。輸入向量化文本并基于fit_transform函數(shù),運(yùn)用機(jī)器學(xué)習(xí)訓(xùn)練LDA模型,根據(jù)kmean++的聚類結(jié)果,隨機(jī)初始化每個(gè)文檔的主題分布。對(duì)于每個(gè)文檔中的每個(gè)詞語(yǔ),從主題分布中采樣一個(gè)主題。再?gòu)脑撝黝}的詞語(yǔ)分布中采樣一個(gè)詞語(yǔ)。更新主題和詞語(yǔ)分布,重復(fù)更新迭代步驟直到收斂或達(dá)到最大迭代次數(shù)。4.2.3提取主題最終基于python中的scikit-learn庫(kù)的LatentDirichletAllocation類對(duì)LDA模型進(jìn)行擬合并估計(jì)主題分布和詞語(yǔ)分布,在向量化文本中進(jìn)行LDA分析提取主題詞。主題詞提取如表3所示,其中以生成詞經(jīng)過(guò)算法計(jì)算出的出現(xiàn)概率由大到小順序出現(xiàn)。表3基于LDA模型提取的主題詞主題主題詞0:娛樂(lè)閃電俠魅魔幽默牛頭人恐怖穿越點(diǎn)贊星際狂喜1:耶穌天堂天使god救贖懺悔生死轉(zhuǎn)世永恒神圣2:謀殺懸疑震驚轉(zhuǎn)場(chǎng)嫌疑世界紅色消失探案血染3:ai文明小李人類三體機(jī)器證據(jù)懷疑偏見倫理4:戰(zhàn)爭(zhēng)未來(lái)沖突支持煉獄開槍害怕醫(yī)生和平休止5:教育希望家長(zhǎng)學(xué)校父親父母羨慕孩子成績(jī)考試6:地獄后悔罪惡主題惡魔懲罰撒旦可怕黑暗罪惡7:唐人街紐約深度美國(guó)不愧后室列強(qiáng)警察制服警長(zhǎng)8:真的幻覺(jué)幻想消失做夢(mèng)獎(jiǎng)勵(lì)地下真實(shí)聲音疑惑9:學(xué)習(xí)理論專注認(rèn)真時(shí)間意視思維評(píng)論具象化結(jié)局由上表可知,由九條視頻組成的文本數(shù)據(jù)集由LDA模型進(jìn)行主題詞提取之后,被分成了十個(gè)不同的主題,即視頻內(nèi)容被分為十個(gè)類型的主題,結(jié)合對(duì)視頻中內(nèi)容進(jìn)行對(duì)比,提取出來(lái)的主題詞與九個(gè)視頻相符,由于研究的up的視頻為搞笑視頻,有特別的一類關(guān)于娛樂(lè)主題作與視頻內(nèi)容相對(duì)應(yīng)。不同類型的主題詞較好的體現(xiàn)了視頻內(nèi)容,可以簡(jiǎn)單的突出視頻主題。4.3基于NMF模型提取主題詞4.3.1使用Kmeans++初始化NMF根據(jù)前文中Kmeans++算法得出的聚類結(jié)果,對(duì)文檔-單詞矩陣進(jìn)行初始化聚類,將文檔分配到10個(gè)簇。并將簇中心作為NMF主題-文檔矩陣的初始值。為NMF分析對(duì)分組后的文本進(jìn)行TF-IDF向量化。4.3.2訓(xùn)練NMF模型基于“fit_transform”函數(shù)運(yùn)用機(jī)器學(xué)習(xí)方法對(duì)NMF算法模型進(jìn)行擬合與訓(xùn)練,(1)初始化原始矩陣,原始矩陣由文檔行和單詞|X|列構(gòu)成,即文檔-單詞矩陣。將文檔-單詞矩陣隨機(jī)初始化為主題-文檔矩陣|W|以及主題-單詞矩陣|H|。(2)更新,即迭代更新兩個(gè)矩陣,直到收斂。(3)收斂,基于給定的參數(shù),即收斂閾值(ε)對(duì)兩個(gè)矩陣更新,當(dāng)更新幅度小于參數(shù)時(shí),即||W*H-X||<ε時(shí),算法收斂,從|H|矩陣中提取主題詞。算法完畢。其中主題數(shù)為Kmeans++聚類的到的聚類點(diǎn)值為10。4.3.3提取主題在已經(jīng)訓(xùn)練好的NMF模型中提取出主題,經(jīng)過(guò)NMF分析,得到兩個(gè)矩陣文本-主題矩陣與主題-單詞矩陣,由單詞構(gòu)成構(gòu)成的主題-單詞矩陣中,每個(gè)單詞與其對(duì)應(yīng)主題權(quán)重最高。提取結(jié)果共十個(gè)主題,每個(gè)主題10個(gè)主題詞。提取后的主題詞由表4所示。表4NMF主題模型的主題關(guān)鍵詞主題主題詞0:高能前方預(yù)警封神絲滑結(jié)局樓上有刀轉(zhuǎn)場(chǎng)后半段1:升華主題主旨強(qiáng)行三連背景失敗小黑子作者配音2:謀害視頻殺人證據(jù)小花間諜幻覺(jué)警長(zhǎng)恐怖綁架3:ai人類懷疑堅(jiān)信目標(biāo)感覺(jué)記憶識(shí)別測(cè)試研究員4:臥槽幻覺(jué)嚇?biāo)绤柡催^(guò)可怕真有毛骨悚然神作保護(hù)5:真的分不清動(dòng)畫可愛上帝家長(zhǎng)小李好帥天才喜歡6:淚目疫情世界結(jié)束和平地球流浪希望封神瘟疫7:穿越星際原野追逐科幻時(shí)間回溯理論研究科學(xué)8:影片致敬鋼琴家視頻敘事表演攝影剪輯震驚汗流浹背9:教育希望家長(zhǎng)老師人類孩子保護(hù)學(xué)習(xí)加油未來(lái)由上表分析可知,基于NMF模型對(duì)于主題的解釋性很差,對(duì)于主題詞的提取較為凌亂,分類模糊不清,只對(duì)極少數(shù)主題做到的較為清晰的提取,只有少數(shù)主題體現(xiàn)出視頻內(nèi)容。主題稀疏性過(guò)高,使得大部分主題出現(xiàn)許多分類不清的主題詞。5總結(jié)5.1分析與總結(jié)本文首先運(yùn)用了基于情感詞典的情感分析方法對(duì)對(duì)B站up“逗比的雀巢”的九個(gè)視頻進(jìn)行情感值分析,并對(duì)兩類評(píng)論的主題進(jìn)行簡(jiǎn)單分析。九個(gè)視頻的情感值均為積極大于消極,B站用戶對(duì)視頻的感受與評(píng)價(jià)多為積極的。再運(yùn)用LDA模型以及NMF模型分別對(duì)B站up的九個(gè)視頻進(jìn)行了主題詞提取。對(duì)兩個(gè)模型進(jìn)行了分析與對(duì)比。由上兩表可以得出,LDA模型的主題解釋性相較可觀,能較好的反應(yīng)視頻內(nèi)容以及彈幕主題。但是隨著主題詞的出現(xiàn)概率下降,一些主題中出現(xiàn)了少數(shù)與概率較高的主題詞相差較遠(yuǎn)的主題詞,出現(xiàn)了意義不明的詞匯。使得主題詞的稀疏性升高。由于B站彈幕具有短而口語(yǔ)化的特質(zhì),加之B站彈幕中大量的網(wǎng)絡(luò)用語(yǔ)和二次元詞匯,使得主題詞在各主題中出現(xiàn)難以體現(xiàn)主題的情況。對(duì)于NMF模型,其模型復(fù)雜度較低,且使用固定系數(shù)來(lái)表示主題詞與主題的關(guān)系,因此主題解釋度較差,在數(shù)據(jù)量較少且數(shù)據(jù)相關(guān)度較低的情況下,對(duì)主題提取的準(zhǔn)確度較低,十個(gè)主題中只有極少數(shù)主題中的主題詞能體現(xiàn)視頻內(nèi)容與觀眾的觀影體驗(yàn),態(tài)度。5.2反思與不足由于B站彈幕的特質(zhì),其文本預(yù)處理上會(huì)出現(xiàn)誤差。對(duì)于網(wǎng)絡(luò)用語(yǔ)難以準(zhǔn)確分詞。在去除停用詞方面,需要建立特殊的,針對(duì)性強(qiáng)的停用詞詞典,做到有效準(zhǔn)確的去除。在提取特征值的過(guò)程中,同樣需要對(duì)B站彈幕特有的詞匯進(jìn)行有效的特征值提取,尤其對(duì)于網(wǎng)絡(luò)文化衍生用語(yǔ)以及動(dòng)畫,游戲等領(lǐng)域的相關(guān)名詞在文本向量化時(shí)需要準(zhǔn)確賦值。5.3建議與展望基于LDA模型與NMF模型,都可以對(duì)較長(zhǎng),主體性較強(qiáng)的長(zhǎng)文本進(jìn)行主題分類以及主題提取。但是在數(shù)據(jù)量較少的情況下,LDA基于貝葉斯推斷技術(shù)可以較好的分析文本內(nèi)容。在短視頻彈幕以及評(píng)論方面,LDA可以有效提取相關(guān)主題。由于NMF模型的結(jié)構(gòu)簡(jiǎn)單,收斂速度快成為該模型的極大優(yōu)勢(shì),對(duì)于海量文本的主題分析能更好的處理,且主題數(shù)量可以預(yù)先指定,在某些情況下提取的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論