




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
摘要經(jīng)過多年的發(fā)展,網(wǎng)絡(luò)視頻已經(jīng)成為互聯(lián)網(wǎng)上的主要應(yīng)用之一。目前,網(wǎng)絡(luò)視頻具有數(shù)量大、發(fā)布快、影響多、影響力大的特點(diǎn)。BililiBarrageVideoNetwork(簡稱B站)作為當(dāng)下國內(nèi)首屈一指的彈幕視頻網(wǎng)站。對全平臺的視頻調(diào)查可知,B站用戶創(chuàng)作的視頻數(shù)量所占比例高達(dá)85%。而對于其中的視頻創(chuàng)作者而言,如何在互聯(lián)網(wǎng)繁雜的數(shù)據(jù)海洋中,進(jìn)一步分析和研究熱點(diǎn)視頻則成為了研究的難題所在。本文的數(shù)據(jù)取自2020年8月的B站,其主要涉及有關(guān)生活版塊的熱點(diǎn)視頻數(shù)據(jù),并選取了大量熱點(diǎn)詞、評論等數(shù)據(jù)進(jìn)行分析和研究,并最終實(shí)現(xiàn)了數(shù)據(jù)的可視化研究,不僅可以了解這段時間網(wǎng)絡(luò)輿情的總體趨勢,掌握用戶的心理態(tài)度,加強(qiáng)受眾的互動反饋,還可以激發(fā)用戶對于B站文化探索的興趣。關(guān)鍵詞嗶哩嗶哩;用戶行為分析;熱點(diǎn)視頻;ABSTRACTAfteryearsofdevelopment,onlinevideohasbecomeoneofthemainapplicationsontheInternet.Atpresent,onlinevideoshavethecharacteristicsoflargequantity,quickrelease,largeinfluenceandgreatinfluence.BililiBarrageVideoNetwork(abbreviatedasStationB)iscurrentlytheleadingbarragevideowebsiteinChina.Accordingtothevideosurveyonthewholeplatform,theproportionofvideoscreatedbyusersofstationBisashighas85%.Forthevideocreatorsamongthem,howtofurtheranalyzeandstudyhotvideosinthecomplexdataoceanoftheInternethasbecomeadifficultresearchproblem.ThedatainthisarticleistakenfromstationBinAugust2020,whichmainlyinvolveshotvideodatarelatedtolifesections,andselectedalargenumberofhotwords,commentsandotherdataforanalysisandresearch,andfinallyrealizedthevisualizationofthedata.Understandingthegeneraltrendofonlinepublicopinionduringthisperiod,graspingthepsychologicalattitudeofusers,andstrengtheningtheinteractivefeedbackoftheaudiencecanalsostimulateusers'interestinculturalexplorationatstationB.Keywords:Bilibilib;Userbehavioranalysis;Hotvideo;
目錄第1章緒論 第1章緒論1.1選題背景與意義 國內(nèi)用戶將Bilibili簡稱為B站,該平臺是自AcFun之后,國內(nèi)的第二家彈幕視頻網(wǎng)站。隨著平臺地不斷發(fā)展與壯大,B站已經(jīng)逐漸發(fā)展為集video、broadcast、game、blog、vlog等于一體的內(nèi)容分享化平臺。其不僅擁有國內(nèi)最大的視頻平臺體量,更是在questmobile評選的多項(xiàng)榜單中榮膺桂冠。2021年3月29日,嗶哩嗶哩第二次正式在港上市。嗶哩嗶哩的高互動性、時效性、娛樂性和較強(qiáng)的二級語言風(fēng)格使其不斷擴(kuò)大用戶群,成為中國最大的青年文化社區(qū)。該網(wǎng)站的前身是mikufans,該平臺創(chuàng)立于2009年,并于一年后改名為嗶哩嗶哩。2018年,經(jīng)過了近8年的努力之后,B站在美國納斯達(dá)克成功上市并發(fā)行配額股票。B站在權(quán)威網(wǎng)站alexa的排名也是水漲船高,在躋身全球前百名的基礎(chǔ)上仍然保持著穩(wěn)步上升。而在中國top網(wǎng)站排行榜中,B站作為碩果僅存的四家視頻網(wǎng)站之一,已經(jīng)成功闖入了前二十名,僅次于國外視頻分享平臺youtube,而與國內(nèi)的同類型網(wǎng)站對比中,B站更是超越了傳統(tǒng)視頻平臺霸主愛奇藝和youku。在其設(shè)計(jì)之初,B站的初衷僅僅在于視頻分享領(lǐng)域。而隨著平臺的發(fā)展和逐步升級,B站的觸手也廣泛地深入到了傳統(tǒng)的電影、音樂等領(lǐng)域。本文將B站作為研究對象的主要原因可以歸納為以下幾點(diǎn):市場潛力廣闊:通過數(shù)據(jù)可知,B站在國內(nèi)的視頻網(wǎng)站排行里獨(dú)占鰲頭,而根據(jù)其官方數(shù)據(jù)可知,僅2018年的前兩個季度,月活躍用戶的總量已經(jīng)高達(dá)近7700萬,而2017年的月上傳視頻數(shù)量更是高達(dá)近90萬。而就其移動端匯總的數(shù)據(jù)來看,僅2017年一年,每天使用移動端的用戶點(diǎn)擊次數(shù)更是高達(dá)約2億人次,而實(shí)際的用戶轉(zhuǎn)化率維持在80%上下。年輕群體的占比高:18歲—28歲之間的青年用戶在使用本站的總用戶中占比高達(dá)約82%,而該目標(biāo)群體在我國人口中所占比例更是高達(dá)約24%,18-28歲青年用戶被視作未來我國網(wǎng)絡(luò)消費(fèi)領(lǐng)域的主力軍。使用者互動水平較高:通過B站過去發(fā)布的ipo報(bào)告可知,2017年全年積極參加平臺設(shè)計(jì)的月活躍用戶人數(shù)在1500萬人次上下波動,其中互動次數(shù)更是高達(dá)近2.3億次。該報(bào)告細(xì)致分析了用戶互動的深層原因,即B站優(yōu)異的網(wǎng)站交互設(shè)計(jì)模式。該模式旨在讓用戶可以借內(nèi)容實(shí)現(xiàn)社交層面的基本互動。B站作為國內(nèi)最為成功的內(nèi)容分享網(wǎng)站之一,其用戶群體有著鮮明的用戶畫像,商業(yè)價(jià)值極高。而作為中國最大的彈幕網(wǎng)站,B站的用戶在使用過程中也保持了極為活躍的互動習(xí)慣。故而,本文選擇具有天然大數(shù)據(jù)屬性的B站作為研究對象。而視頻網(wǎng)站中也專門設(shè)立了包括動漫專區(qū)在內(nèi)的近12個專區(qū)以供研究。1.2研究目的及意義隨著互聯(lián)網(wǎng)技術(shù)的日益普及,人們的娛樂化需求也發(fā)生著悄然改變,其中在線視頻網(wǎng)站正扮演者愈發(fā)重要的角色。根據(jù)國外知名機(jī)構(gòu)emarket的預(yù)測,截止到2018年,在線視頻用戶數(shù)量將在2017年的基礎(chǔ)上井噴至22億。而到2020年年尾,在線視頻流量之于總流量的占比也會從現(xiàn)在的60%上升到80%。根據(jù)國家互聯(lián)網(wǎng)信息中心發(fā)布的一項(xiàng)報(bào)告顯示,中國互聯(lián)網(wǎng)用戶的近八成都是在線視頻用戶,用戶數(shù)高達(dá)約5.5億人次。而與國內(nèi)同類型的視頻網(wǎng)站進(jìn)行比較的過程中,其競爭也愈發(fā)激勵,為了提升服務(wù)品質(zhì)并維系新老用戶,B站等平臺開始逐步挖掘并推廣高質(zhì)量、高權(quán)重視頻內(nèi)容。與此同時,視頻博主也有意識的隱藏視頻中的關(guān)鍵信息,以獲取來自用戶的真實(shí)反饋數(shù)據(jù),這種手段極大的增強(qiáng)了用戶同up主之間的交互,并有利于視頻博主創(chuàng)作更高質(zhì)量的視頻內(nèi)容。它還可以激發(fā)用戶探索彈幕文化的興趣。使用戶保持新鮮感,延長軟件的使用壽命。1.3國內(nèi)外研究現(xiàn)狀當(dāng)下的學(xué)術(shù)界中,如雨后春筍般的涌現(xiàn)出了多種對于用戶的分析方式,其中較為常見的有用戶行為分析方式。由于該方式較為新穎,受眾相對較少,使得大多數(shù)研究人員對其認(rèn)知不足。然而這不能掩蓋其作為一項(xiàng)分析用戶行為的方式的特殊價(jià)值。作為研究用戶的手段之一,通過大量的數(shù)據(jù)作為佐證來驗(yàn)證該理論的可行性。美國IllinoisInstituteofTechnology的學(xué)者指出,通過觀察并研究人們的日常表現(xiàn),而進(jìn)行的一種新穎且特殊的設(shè)計(jì)研究方式。在我國香港進(jìn)行的一個項(xiàng)目,通過觀察記錄人們的日常,了解不同人群在生活過程中的興趣愛好,以此來挖掘人們的實(shí)際需求。這也是很多企業(yè)在進(jìn)行產(chǎn)品設(shè)計(jì)過程中的必由之路。這樣不僅可以吸引到用戶的注意力,更能按照用戶的實(shí)際需求開發(fā)令其滿意的產(chǎn)品。在進(jìn)行開發(fā)和設(shè)計(jì)的過程中,客戶的實(shí)際需求將成為產(chǎn)品設(shè)計(jì)的重中之重,而提升用戶的滿意度也將成為考核的環(huán)節(jié)之一。著名學(xué)者亨特曾經(jīng)深入研究用戶的行為并撰寫文章,其認(rèn)為心理學(xué)的變化從傳統(tǒng)的辯論時代發(fā)展到以實(shí)踐為基礎(chǔ)的實(shí)驗(yàn)時代,有必要從客觀的角度來研究和分析人類的行為。心理學(xué)系統(tǒng)地論述了有機(jī)體的定義和行為,描述了當(dāng)前社會環(huán)境下有機(jī)體的外顯行為?;趪鴥?nèi)的研究情況,江湘蕓教授在有關(guān)用戶行為分析的著作中也指出,用戶的行為模式可以與用戶的思維進(jìn)行深度融合,并引出一種嶄新的模式。這種模式的特點(diǎn)在于其對于產(chǎn)品的主體進(jìn)行了嚴(yán)格的劃分,一個是在其使用情境上運(yùn)用了大量的革新手段,一個是深化其具體的操作流程。
第2章關(guān)鍵技術(shù)1.1爬蟲技術(shù)基本上所有Python爬蟲初學(xué)者都會接觸到兩個工具庫,requests和BeautifulSoup,這二者作為最為常見的基礎(chǔ)庫,其使用方式也截然不同,其中request工具庫主要是用來獲取網(wǎng)頁的源代碼,其需要向服務(wù)器發(fā)送url請求指令;而beautifulsoup則主要用來對網(wǎng)頁的源語言,包括且不限于HTML\xml進(jìn)行讀取和解析,提取重要信息。這兩個庫模擬了人們訪問網(wǎng)頁、閱讀網(wǎng)頁以及復(fù)制粘貼相應(yīng)信息的過程,可以批量快速抓取數(shù)據(jù)。流程如圖1所示。圖1數(shù)據(jù)獲取及解析流程圖2.2PythonPython是荷蘭科學(xué)研究學(xué)會的GuidovanRossum的設(shè)計(jì)語言,其面世于1990年代,主要用于c語言的備選語言,Python語言本身具有顯著的特點(diǎn),其不僅提供了結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)結(jié)構(gòu),也可以如java、c++等語言進(jìn)行面向?qū)ο蟮拈_發(fā)與設(shè)計(jì)。Python的語法結(jié)構(gòu)和解釋器類型注定了其可以在多種平臺上進(jìn)行腳本的開發(fā)與設(shè)計(jì),也注定了其是一款用于進(jìn)行高效開發(fā)的程序語言。隨著python語言版本的不斷更新,越來越多項(xiàng)目的開發(fā)過程中,也開始選用高效便捷的Python語言進(jìn)行獨(dú)立化的開發(fā)設(shè)計(jì)。Python豐富的標(biāo)準(zhǔn)庫為各主要系統(tǒng)平臺提供了合適的源代碼或機(jī)器碼。第3章模塊設(shè)計(jì)本平臺的結(jié)構(gòu)如圖2所示:圖2平臺結(jié)構(gòu)圖3.1數(shù)據(jù)爬取模塊用python進(jìn)行數(shù)據(jù)挖掘的過程中,主要是通過爬蟲程序和數(shù)據(jù)的預(yù)處理來收集相應(yīng)的用戶數(shù)據(jù)信息。網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)往往是利用用戶在視頻上傳過程中使用到的aid碼進(jìn)行,并通過request來選擇B站的網(wǎng)址,從而最終收集到相關(guān)的數(shù)據(jù)。數(shù)據(jù)預(yù)處理很大程度上市用來爬取視頻收集過程中的基本數(shù)據(jù)信息,并進(jìn)行相關(guān)的操作。(1)數(shù)據(jù)清洗技術(shù)主要是通過使用python語言中的正則表達(dá)式技術(shù),通過其大量收集目標(biāo)數(shù)據(jù),并進(jìn)一步進(jìn)行提取。(2)數(shù)據(jù)轉(zhuǎn)換技術(shù)主要是通過加載法,將源數(shù)據(jù)中收集到的字符串按照相應(yīng)的規(guī)則和序列轉(zhuǎn)換成字典。(3)數(shù)據(jù)去重即用unique方法,返回沒有重復(fù)元素的數(shù)組或列表。預(yù)處理后保存到CSV文件中。3.2數(shù)據(jù)的挖掘與分析模塊數(shù)據(jù)挖掘主要是通過運(yùn)用設(shè)計(jì)好的算法對已有的數(shù)據(jù)進(jìn)行分析和匯總,并按照數(shù)據(jù)的特征進(jìn)行情感分析。統(tǒng)計(jì)數(shù)據(jù)過程中多使用snownlp類庫來實(shí)現(xiàn)這一基本的情感分析的操作,通過計(jì)算彈幕的數(shù)據(jù)值,來分析其中的傾向性。情感分析中長用sentiment來指明實(shí)際的情感值。其中,數(shù)據(jù)一旦越靠近1則越表明其正面屬性,越接近0越負(fù)面,相關(guān)的結(jié)果數(shù)據(jù)可以作為情感分析的基礎(chǔ)數(shù)據(jù)而得到。3.3數(shù)據(jù)可視化模塊數(shù)據(jù)可視化模塊主要采用餅圖、詞云和折線圖等手段來實(shí)現(xiàn)最終的數(shù)據(jù)可視化。并通過matplotlib庫等技術(shù)來進(jìn)一步地研究和分析數(shù)據(jù)的特點(diǎn),最終通過圖表的模式來展示數(shù)據(jù)的深層含義??梢暬K包括各時段視頻播放量比例圖、熱詞統(tǒng)計(jì)圖、每周不同時間視頻播放量線圖、情緒比例圖等可視化圖形。
第4章數(shù)據(jù)挖掘和分析4.1樣本選取與數(shù)據(jù)來源因?yàn)橐髷?shù)據(jù)集,所以不考慮熱榜排名,因?yàn)樗械膮^(qū)域加起來也就一千左右。本研究樣本來源于2020年8月嗶哩嗶哩網(wǎng)站搞笑生活領(lǐng)域視頻流行度排名,2020年8月1日至8月31日的30天的總數(shù)據(jù)。從視頻流行度排行中選擇時間段,查看熱點(diǎn)視頻信息,同時分析各種因素對視頻播放量的影響。雖然只是一個小分區(qū)的月度熱度排名,不包括所有視頻,但是數(shù)據(jù)量也是巨大的,近23萬條數(shù)據(jù)。4.1.1數(shù)據(jù)爬取首先webanalytics發(fā)現(xiàn)這里有一個難點(diǎn),就是雖然瀏覽器可以查看web源代碼,并且包含視頻相關(guān)信息,但是請求后web源代碼中沒有相關(guān)信息。所以前兩個版本我用的是selenium庫方法獲取信息,但是這種方法有一個缺點(diǎn),速度慢(因?yàn)樾枰駷g覽器一樣加載整個頁面信息),信息少(只有標(biāo)題、作者、視頻介紹、視頻頁面、個人主頁URL),非常麻煩。所以這次我切換到API調(diào)用的方法。當(dāng)我們選擇一個特定的號碼進(jìn)行搜索時,我們可以找到一個接口。點(diǎn)進(jìn)去后可以發(fā)現(xiàn)結(jié)果中有20條數(shù)據(jù),正好對應(yīng)每頁20個視頻??梢钥闯?,它包含了作者、標(biāo)題、標(biāo)簽、播放等一系列數(shù)據(jù)。接口是/cate/search?callback=main_ver=v3&search_type=video&view_type=hot_rank&order=click©_right=-1&cate_id=138&page=1&pagesize=20&jsonp=jsonp&time_from=20200801&time_to=20200831,view_type是排名類型,page是頁數(shù),pagesize是頁面上視頻的最大數(shù)量,上限好像是100。是時候結(jié)束了。但是我還是需要投幣、點(diǎn)贊和收藏的數(shù)據(jù)和UP的粉絲數(shù)。通過同樣的分析,得出得到三連的API接口:/x/web-interface/archive/stat?aid=371876135其中aid由BV轉(zhuǎn)換。粉絲數(shù)為/x/relation/stat?vmid=32172331mid可以在第一個界面獲得。這時候雖然可以啟動抓取,但是如果數(shù)據(jù)量稍微大一點(diǎn),訪問稍微頻繁一點(diǎn),IP就會被屏蔽。這時候就需要用代理IP了。雖然有免費(fèi)的代理IP,但是GITHUB上有專門的項(xiàng)目來搭建代理IP池。不過免費(fèi)IP畢竟麻煩,所以我選擇用日租專用的IP。/,將視頻數(shù)據(jù)與上傳者數(shù)據(jù)相結(jié)合,最終形成研究所需的樣本數(shù)據(jù)集。按照上面的數(shù)據(jù)采集流程,在近一個月的數(shù)據(jù)采集過程中,通過采集技術(shù)收集到了近23萬條視頻數(shù)據(jù)。其中,每個視頻數(shù)據(jù)都包含著其視頻的基本信息,比如視頻的實(shí)際播放次數(shù)、視頻的收藏次數(shù)、視頻的分享記錄、上傳者的基本信息、上傳者的好友動態(tài)、上傳者的粉絲列表等基本信息(見表1)。而對于收集到的具體數(shù)據(jù),則可以按照以下表1的描述方式進(jìn)行。包括作者ID和粉絲數(shù)。信息描述如表1所示:表1視頻主要信息描述原始信息描述視頻基本屬性日期視頻投稿日期標(biāo)題視頻標(biāo)題BV視頻BV號Mid標(biāo)簽視頻所屬范圍視頻互動屬性播放數(shù)視頻當(dāng)前的播放次數(shù)彈幕數(shù)視頻當(dāng)前的彈幕總條數(shù)評論數(shù)視頻當(dāng)前的用戶評論總條數(shù)點(diǎn)贊數(shù)視頻當(dāng)前的點(diǎn)贊總數(shù)硬幣數(shù)視頻當(dāng)前的投硬幣枚數(shù)收藏?cái)?shù)視頻當(dāng)前的收藏人數(shù)分享數(shù)視頻當(dāng)前的分享總次數(shù)當(dāng)前排名視頻當(dāng)前達(dá)到的排名(1-1000)上傳者特征作者上傳者ID粉絲數(shù)上傳者當(dāng)前的粉絲總?cè)藬?shù)接下來爬一下彈幕的詳細(xì)信息:一般情況下,在用戶瀏覽視頻的過程中,彈幕會自動浮現(xiàn)在視頻的觀影窗口。實(shí)際上,在技術(shù)操作層面,程序員會將彈幕內(nèi)置于源代碼中,通過xml來進(jìn)一步的加載,可以簡單理解為記錄數(shù)據(jù)的格式。XML和描述網(wǎng)頁的HTML很像。彈幕文件網(wǎng)址是:/92542241.xml它由一個固定的網(wǎng)址+視頻的cid+.XML組成,在實(shí)際抓取過程中,如果你想搜索到目的視頻的cid碼,你可以通過更換xml的方式來獲取視頻的彈幕信息,其中需要注意,B站網(wǎng)頁進(jìn)行數(shù)據(jù)挖掘過程中,彈幕的數(shù)據(jù)一般小于1000.獲取cid的方法相對簡單,選擇任意的瀏覽器(一般建議選擇Googlechrome),打開瀏覽器并進(jìn)入目標(biāo)網(wǎng)頁,在設(shè)置中逐一檢查網(wǎng)頁的源代碼,用“Ctrl+f”打開網(wǎng)頁自帶的搜索框并鍵入“cid”,發(fā)現(xiàn)cid是網(wǎng)頁源代碼中非常常見的短語,而我們實(shí)際尋找的cid通常會直接以“cid”數(shù)據(jù)串的模式出現(xiàn)。為了進(jìn)一步的減少范圍,通過標(biāo)準(zhǔn)通配符加引號進(jìn)行搜索可以提升搜索的效率,在獲取到了準(zhǔn)確的cid碼之后,就可以開始進(jìn)行基本的爬蟲操作。將視頻窗口內(nèi)的所有的彈幕信息內(nèi)置于tag之下,故而就需要設(shè)計(jì)一個專門的程序獲取視頻窗口下的標(biāo)簽信息:第一,通過request工具庫,來進(jìn)入彈幕網(wǎng)頁的網(wǎng)址url,從而獲取頁面數(shù)據(jù)。導(dǎo)入bs庫,使用lxml解析器解析頁面。因此你需要提前用安裝lxml庫,查詢所有頁面的d標(biāo)簽并打印出來。這個操作之后,d標(biāo)簽中隱藏的彈幕內(nèi)容全部被python抓取,對收集到的彈幕進(jìn)行數(shù)據(jù)分析,通過整理將收集到的彈幕信息、網(wǎng)址信息等編制成字典,并按照固定的格式添加到相應(yīng)的任務(wù)欄中,共計(jì)可以收集到近千條數(shù)據(jù),保存為CSV文件。做完數(shù)據(jù)后,我們還可以分析,比如詞匯出現(xiàn)的頻率等。,可以根據(jù)需要自由處理。示例:《花丸幼稚園》第六集url:/bangumi/play/ep17617,彈幕文件51816463.xml:/51816463.xml,參數(shù)略解、詳解分別如表2、表3所示:表2參數(shù)略解stime:彈幕出現(xiàn)時間(s)mode:彈幕類型(<7時為普通彈幕)size:字號color:文字顏色date:發(fā)送時間戳pool:彈幕池IDauthor:發(fā)送者IDdbid:數(shù)據(jù)庫記錄ID(單調(diào)遞增)表3參數(shù)詳解stime(float)彈幕出現(xiàn)時間,單位是秒;也就是在幾秒出現(xiàn)彈幕。mode(int)彈幕類型,有8種;小于8為普通彈幕,8是高級彈幕。1~3滾動彈幕4底端彈幕6頂端彈幕7逆向彈幕8高級彈幕size(int)字號12非常小16特小18小25中36大45很大64特別大color(int)文字顏色;十進(jìn)制表示的顏色。data(int)彈幕發(fā)送時間戳。也就是從基準(zhǔn)時間1970-1-108:00:00開始到發(fā)送時間的秒數(shù)。pool(int)彈幕池ID0普通池1字幕池2特殊池(高級彈幕專用)author(str)發(fā)送者ID,用于"屏蔽此發(fā)送者的彈幕"的功能。dbid(str)彈幕在數(shù)據(jù)庫中的行ID,用于"歷史彈幕"功能。獲取到彈幕數(shù)據(jù)后,將獲取到的數(shù)據(jù)按照固定的格式存儲到在danmus.csv文件:4.1.2數(shù)據(jù)預(yù)處理刪除空值,重復(fù)值,對數(shù)據(jù)進(jìn)行預(yù)處理,將None值換成0,只保留中文字符,將標(biāo)題分割成一個個短詞,同理處理標(biāo)簽,設(shè)置一個四舍五入代碼,計(jì)算三連等比率:點(diǎn)贊率=點(diǎn)贊/播放量*100%;硬幣率=硬幣/播放量*100%;收藏率=收藏/播放量*100%;轉(zhuǎn)發(fā)率=轉(zhuǎn)發(fā)/播放量*100%;彈幕率=彈幕/播放量*100%;評論率=評論/播放量*100%4.2各功能模塊的實(shí)現(xiàn)4.2.1熱點(diǎn)視頻的數(shù)據(jù)分析及可視化首先查看處理后的視頻數(shù)據(jù)信息,如圖3所示:圖3視頻數(shù)據(jù)信息共有88350位UP主,統(tǒng)計(jì)每個播放量區(qū)間的視頻數(shù)量,[0,9999]區(qū)間的共213115個,占樣本比例93.86%,[10000,99999]區(qū)間的共有10731個,占樣本比例4.73%,[100000,499999]區(qū)間的共有2436個,占樣本比例1.07%,[500000,999999]區(qū)間共有464個,占樣本比例0.14%,[1000000,∞]區(qū)間共有320個,占樣本區(qū)間0.02%,畫出餅圖,如圖4所示:圖4播放量占比圖如果只展示一萬播放量以上的內(nèi)容,統(tǒng)計(jì)每個播放量區(qū)間的視頻數(shù)量,[10000,99999]區(qū)間的共有10731個,占樣本比例76.92%,[100000,499999]區(qū)間的共有2436個,占樣本比例17.46%,[500000,999999]區(qū)間共有464個,占樣本比例3.33%,[1000000,∞]區(qū)間共有320個,占樣本區(qū)間2.29%,畫出餅圖,如圖5所示:圖5播放量占比圖(播放量1萬以上)統(tǒng)計(jì)展示播放量排名前二十的UP主,統(tǒng)計(jì)結(jié)果如圖6所示::圖6播放量排名按播放量排名前20的具體數(shù)據(jù)展示,結(jié)果如圖7所示:圖7具體數(shù)據(jù)展示根據(jù)UP主分組對每個UP八月的總播放量進(jìn)行排序,排序結(jié)果如圖8所示:圖8每個UP八月的總播放量展示圖還可以對每個UP主的彈幕數(shù)進(jìn)行排序,排序結(jié)果如圖9所示:圖9彈幕數(shù)排序?qū)γ總€UP主的評論數(shù)進(jìn)行排序,排序結(jié)果如圖10所示:圖10評論數(shù)排序?qū)γ總€UP主的視頻數(shù)等綜合進(jìn)行排序,排序結(jié)果如圖11所示:圖11視頻數(shù)排序繪制折線圖,對每周不同時間段發(fā)布的視頻播放量進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如圖12所示:圖12播放量統(tǒng)計(jì)對每周不同時間段發(fā)布的視頻播放量大于10000的視頻數(shù)量進(jìn)行匯總,結(jié)果如圖13所示:圖13播放量統(tǒng)計(jì)(視頻播放量大于10000)繪制詞云,用詞云顯示出來“題目”熱詞,如圖14所示:圖14題目熱詞用詞云顯示出來大于1萬播放視頻“題目”的熱詞,如圖15所示:圖15題目熱詞(播放量大于10000)用詞云顯示出來大于10萬播放視頻“題目”的熱詞,結(jié)果如圖16所示:圖16題目熱詞(播放量大于100000)用詞云顯示出來大于100萬播放視頻“題目”的熱詞,結(jié)果如圖17所示:圖17題目熱詞(播放量大于1000000)查看標(biāo)簽的熱詞,結(jié)果如圖18所示:圖18標(biāo)簽熱詞用詞云顯示出來大于1萬播放視頻“標(biāo)簽”的熱詞,結(jié)果如圖19所示:圖19標(biāo)簽熱詞(播放量大于10000)用詞云顯示出來大于10萬播放視頻“標(biāo)簽”的熱詞,排序結(jié)果如圖20所示:圖20標(biāo)簽熱詞(播放量大于100000)用詞云顯示出來大于100萬播放視頻“標(biāo)簽”的熱詞,結(jié)果如圖21所示:圖21標(biāo)簽熱詞(播放量大于1000000)統(tǒng)計(jì)標(biāo)題中包含“老師”的視頻數(shù)和播放數(shù)分別為3200和16610756;據(jù)統(tǒng)計(jì),標(biāo)題中包含“兄弟”字樣的視頻總數(shù)和播放數(shù)分別為1897和25270292。據(jù)統(tǒng)計(jì),標(biāo)題中有“老師”字樣的視頻總數(shù)和播放數(shù)分別為830和28265224。統(tǒng)計(jì)結(jié)果如圖22所示:圖22包含“女朋友”的標(biāo)題中包含“兄弟”的視頻信息統(tǒng)計(jì)標(biāo)題中包含“一旦”的視頻數(shù)和播放量的綜合分別為89和28302099;統(tǒng)計(jì)標(biāo)題中包含“吾輩”的視頻數(shù)和播放量的綜合分別為318和35563900;統(tǒng)計(jì)標(biāo)題中包含“歪嘴”的視頻數(shù)和播放量的綜合分別為1810和70787655;查看標(biāo)題帶有['老師','兄弟','女朋友','一旦','吾輩','歪嘴']熱詞的視頻個數(shù)餅狀圖,結(jié)果如圖23所示:圖23標(biāo)題熱詞數(shù)量占比繪制帶有標(biāo)題熱點(diǎn)的視頻播放量餅圖,如圖24所示:圖24帶有標(biāo)題熱點(diǎn)的視頻播放量餅圖處理標(biāo)簽的熱詞,繪制含有標(biāo)簽熱詞的視頻個數(shù)餅狀圖,結(jié)果如圖25所示:圖25含有標(biāo)簽熱詞的視頻個數(shù)餅狀圖繪制帶有標(biāo)簽熱詞的視頻播放量餅圖,結(jié)果如圖26所示:圖26帶有標(biāo)簽熱詞的視頻播放量餅圖通過公式點(diǎn)贊率=點(diǎn)贊/播放量*100%,計(jì)算視頻點(diǎn)贊率并進(jìn)行排序,排序結(jié)果如圖27所示:圖27點(diǎn)贊率排序(播放量大于10000)通過公式硬幣率=硬幣/播放量*100%,計(jì)算視頻硬幣率并進(jìn)行排序,排序結(jié)果如圖28所示:圖28硬幣率排序(播放量大于10000)通過公式收藏率=收藏?cái)?shù)/播放量*100%,計(jì)算視頻收藏率并進(jìn)行排序,排序結(jié)果如圖29所示:圖29收藏率排序(播放量大于10000)通過公式轉(zhuǎn)發(fā)率=轉(zhuǎn)發(fā)/播放量*100%,計(jì)算視頻轉(zhuǎn)發(fā)率并進(jìn)行排序,排序結(jié)果如圖30所示:圖30轉(zhuǎn)發(fā)率排序(播放量大于10000)通過公式彈幕率=彈幕/播放量*100%,計(jì)算視頻彈幕率并進(jìn)行排序,排序結(jié)果如圖31所示:圖31彈幕率排序(播放量大于10000)生活搞笑領(lǐng)域的視頻大多集中在10000以下,占93.86%。爆款視頻關(guān)鍵信息:粉絲數(shù)量、視頻質(zhì)量、視頻數(shù)量。每個月上傳大量視頻,出爆款視頻完全有可能。播放量排名最高的兩個UP,一個投稿154個視頻,另一個投稿528個視頻。彈幕和評論跟UP人氣相關(guān),粉絲數(shù)量越多,粉絲粘性越高。8月份視頻投稿最多的UP是老人誘捕大隊(duì)隊(duì)長,共6932個視頻。視頻主要在10:00-24:00播出,這個區(qū)間的總播出量也是最高的。八月份的高頻詞匯主要是龍王、七夕,與節(jié)日相關(guān)以及高人氣UP。Bilibili相關(guān)活動熱詞視頻播放量普遍較低,UP和月梗相關(guān)播放量最好。三重播放率、彈幕率、轉(zhuǎn)發(fā)率、評論率對視頻播放量影響不大。4.2.2視頻彈幕數(shù)據(jù)查看彈幕數(shù)據(jù)信息,如圖32所示:圖32彈幕數(shù)據(jù)對彈幕進(jìn)行詞頻分析,如圖33所示:圖33彈幕詞頻分析對彈幕進(jìn)行情感分析,如圖34所示圖34情感分析從圖34可以看出,3000個彈幕中,超過一半的是積極彈幕,超過30%是中性彈幕。關(guān)于彈幕調(diào)侃的內(nèi)容居中,梗多,會對情緒分析造成很大障礙。比如:>>>fromsnownlpimportSnowNLP>>>s=SnowNLP('阿偉死了')>>>s.sentiments0.1373666377744408“阿偉死了”有“死”字,所以判定為負(fù)面情緒。但實(shí)際上,它反映了積極的情緒,描述了看到可愛的東西時的興奮情緒。對視頻彈幕數(shù)進(jìn)行折線圖分析,如圖35所示:圖35折線圖分析高能時刻即更多時候,我們可能對精彩片段不太關(guān)注,而是想知道番劇的名場面出自幾分幾秒,即高能時刻。輸出:9m29s名場面:懷中抱妹鯊。我們?nèi)ヒ曨l中看一下,9m29s確實(shí)是名場面,如圖36所示:圖36名場面福利內(nèi)容指的是字體顏色為黃色且十進(jìn)制顏色值為16776960時出現(xiàn)的比較污的畫面。同時,為了防止出現(xiàn)異常,只有當(dāng)這一分鐘出現(xiàn)黃色彈幕的次數(shù)不低于3時,表示這一分鐘內(nèi)是福利內(nèi)容,輸出這一分鐘第一次出現(xiàn)黃色彈幕的秒數(shù)。如表4所示:表402m15s吼吼吼06m19s真的有那么Q彈嗎08m17s憋死09m10s前方萬惡之源10m54s噢噢噢噢11m02s這就是平常心12m34s這個我可以17m19s因?yàn)槟闶卿摻罨炷林迸?8m06s假面騎士ooo是你嗎19m00s警察叔叔就是這個人20m00s金色傳說的說。。。21m02s嘿嘿嘿~彈幕內(nèi)容的挖掘分析是一個非常有意義的方向。本文實(shí)現(xiàn)了彈幕數(shù)據(jù)的統(tǒng)計(jì)分析和內(nèi)容的情感分析。爬蟲過程中收集到的樣本數(shù)據(jù),其不僅包含了彈幕的基本數(shù)據(jù)信息,更包含了視頻的內(nèi)容數(shù)據(jù),這些數(shù)據(jù)對于研究彈幕的互動有著一定的借鑒價(jià)值,對用戶的行為模式分析也有一定的現(xiàn)實(shí)意義,這可以使得創(chuàng)作者從彈幕的內(nèi)容中獲取到有用的信息,并憑此創(chuàng)造出高質(zhì)量的視頻作品,這些操作將有助于我們了解用戶的交互模式。
第5章總結(jié)我們的研究基于來自嗶哩嗶哩網(wǎng)站的生活搞笑區(qū)視頻樣本數(shù)據(jù),運(yùn)用統(tǒng)計(jì)分析、情感分析對熱點(diǎn)視頻的數(shù)據(jù)以及用戶的類型進(jìn)行了深入的探討。本文按照預(yù)設(shè)模塊逐項(xiàng)進(jìn)行分析,基本模塊均已實(shí)現(xiàn)。對熱度視頻的熱詞,點(diǎn)贊,投幣,收藏,評論,彈幕等數(shù)據(jù)對視頻播放量的影響進(jìn)行可視化分析。本文僅選取Bilibili搞笑版塊的相關(guān)視頻作為研究對象,數(shù)據(jù)樣本的選取范圍也主要是單一類型的視頻,其單一性決定視頻不會受到其余主題視頻的影響。而B站的實(shí)際用戶群體多是90后,特定的用戶年齡段使得用戶屬性也相對獨(dú)特,這有別于企業(yè)的視頻平臺。在未來的深入研究中,一來可以收集多個主題的數(shù)據(jù)信息,二來可以進(jìn)行多平臺的調(diào)查研究,通過提升樣本多樣性來增加結(jié)論的真實(shí)性。
參考文獻(xiàn)陳格.青年亞文化視角下的彈幕視頻探析[D
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國單級吸懸臂力化工離心泵數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年中國鋼包頭皮鞋市場調(diào)查研究報(bào)告
- 2025年中國電子燃?xì)庋b置市場調(diào)查研究報(bào)告
- 2025年中國原油加工產(chǎn)品市場調(diào)查研究報(bào)告
- Unit5 Fun club Section A1a-1d 教學(xué)設(shè)計(jì) 2024-2025學(xué)年人教版(2024)七年級英語上冊
- 2025年中國剪叉式升高搬運(yùn)車市場調(diào)查研究報(bào)告
- 2025年中國乙烯合股線市場調(diào)查研究報(bào)告
- 2024-2025學(xué)年新教材高中生物課時雙測過關(guān)九細(xì)胞膜的功能和組成成分含解析新人教版必修第一冊
- 2024-2025學(xué)年高中數(shù)學(xué)第二章隨機(jī)變量及其分布2.2.1條件概率練習(xí)含解析新人教A版選修2-3
- 第15課 物聯(lián)系統(tǒng)原型的運(yùn)行與調(diào)試 -教學(xué)設(shè)計(jì) 2023-2024學(xué)年浙教版(2023)初中信息技術(shù)七年級下冊
- “高中英語閱讀課件-閱讀策略與技巧”
- 透明質(zhì)酸注射美容記錄
- 2023全國森林草原濕地生態(tài)系統(tǒng)外來入侵物種普查技術(shù)規(guī)程
- GB/T 25922-2023封閉管道中流體流量的測量用安裝在充滿流體的圓形截面管道中的渦街流量計(jì)測量流量
- 培訓(xùn)-責(zé)任心課件
- 播音主持外部技巧:停連重音語氣節(jié)奏課件講義
- 安徽杭富固廢環(huán)保有限公司10萬噸工業(yè)廢物(無機(jī)類)資源化利用及無害化處置項(xiàng)目環(huán)境影響報(bào)告書
- 商業(yè)綜合體市場調(diào)研報(bào)告
- 成渝經(jīng)濟(jì)區(qū)-區(qū)域規(guī)劃案例分析
- 急性心肌梗死的護(hù)理查房 課件
- GB/T 42096-2022飛機(jī)耐火電纜性能要求
評論
0/150
提交評論