




已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
本科生畢業(yè)論文開(kāi)題報(bào)告論文題目:跨社交媒體信息演化分析專(zhuān) 業(yè):計(jì)算機(jī)科學(xué)與技術(shù)姓 名:學(xué) 號(hào):指導(dǎo)教師:北京航空航天大學(xué)計(jì)算機(jī)學(xué)院2015年3月12日- 8 -北京航空航天大學(xué)計(jì)算機(jī)學(xué)院本科生畢業(yè)設(shè)計(jì)論文開(kāi)題報(bào)告目 錄1選題背景與意義- 1 -2國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展動(dòng)態(tài)- 2 -2.1基于共同用戶(hù)的跨網(wǎng)絡(luò)分析和多源數(shù)據(jù)知識(shí)關(guān)聯(lián)挖掘- 2 -2.2基于共詞網(wǎng)絡(luò)社群的子話題識(shí)別與關(guān)聯(lián)分析- 2 -2.2.1中文分詞- 3 -2.2.2話題特征詞識(shí)別- 3 -2.2.3基于社群發(fā)現(xiàn)的子話題識(shí)別與關(guān)聯(lián)分析- 3 -3論文的研究?jī)?nèi)容及擬采取的技術(shù)方案- 4 -3.1問(wèn)題描述及研究目的- 4 -3.2主要研究?jī)?nèi)容- 5 -3.3擬采取的技術(shù)方案- 5 -4關(guān)鍵技術(shù)與難點(diǎn)- 6 -5論文研究計(jì)劃- 7 -6主要參考文獻(xiàn)- 7 -跨社交媒體信息演化與關(guān)聯(lián)分析1 選題背景與意義隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,尤其Web2.0的壯大,互聯(lián)網(wǎng)上出現(xiàn)了大量由用戶(hù)主導(dǎo)生成內(nèi)容的互聯(lián)網(wǎng)產(chǎn)品、以用戶(hù)為中心的互動(dòng)型社區(qū),這類(lèi)網(wǎng)站或者服務(wù)同時(shí)具有社交性以及媒體傳播性,其中為我們熟知的包括新浪微博、天涯論壇以及網(wǎng)易新聞騰訊新聞等。在這一類(lèi)社交媒體中,每個(gè)人都可以是信息的制作者、發(fā)布者、傳播者和分享者,產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)不僅包含與每個(gè)人日常生活相關(guān)的信息,還有如針對(duì)社會(huì)熱點(diǎn)、區(qū)域事件的大量觀點(diǎn)和討論,使我們的生活由“信息時(shí)代”向“大數(shù)據(jù)時(shí)代”躍進(jìn)。然而正如大數(shù)據(jù)的多源多樣性(Variety)和高速增長(zhǎng)性(Velocity)所反映的,信息在不同社交媒體平臺(tái)下會(huì)體現(xiàn)出不同形態(tài)及演化規(guī)律,在不同時(shí)間段也會(huì)有不同反映,即使針對(duì)同一事件,不同平臺(tái)下所聚合的數(shù)據(jù)信息所表現(xiàn)的都會(huì)不同,例如,兩會(huì)期間微博上討論的主要熱點(diǎn)在各類(lèi)提案討論分析等,而天涯論壇上反饋出來(lái)的熱點(diǎn)在于對(duì)“兩會(huì)精神”報(bào)道的官方通稿;但是在不同社交媒體平臺(tái)下的信息又并非孤立存在發(fā)展得,而是相互聯(lián)通傳播演化的,然而在傳統(tǒng)研究中,往往只針對(duì)單一信息源的數(shù)據(jù)進(jìn)行分析,沒(méi)有能夠整合多源數(shù)據(jù)進(jìn)行對(duì)比研究,也就不能夠更好的揭示信息演變過(guò)程,更好的利用信息價(jià)值;而如果我們將這些跨媒體的數(shù)據(jù)綜合起來(lái)進(jìn)行分析,將能夠跟完整的表現(xiàn)這個(gè)世界,更好的貼近我們的生活;比如對(duì)微博網(wǎng)站的信息流、社交網(wǎng)站的評(píng)論、媒體分享網(wǎng)站的圖片和視頻進(jìn)行分析,可以從不同角度跟蹤一個(gè)事件的進(jìn)展和演變;所以對(duì)社交媒體多源現(xiàn)象進(jìn)行研究,理解社交媒體下的多源數(shù)據(jù),是挖掘社交媒體大數(shù)據(jù)價(jià)值的重要步驟;研究跨媒體下的信息演化和關(guān)聯(lián)情況對(duì)于發(fā)現(xiàn)新規(guī)律、更全面地利用社交媒體數(shù)據(jù)、設(shè)計(jì)復(fù)雜社交媒體分析和應(yīng)用等具有重要意義。論壇微博新聞時(shí)間對(duì)于同一事件,不同時(shí)間有a/b/c子話題aaaa、ba、bb、c、da、b、c跨媒體信息演化分析本文的工作在上述基礎(chǔ)上展開(kāi),基于多源信息對(duì)比演化分析的需求,主要對(duì)新浪微博、天涯論壇以及各類(lèi)門(mén)戶(hù)新聞?wù)军c(diǎn)間的數(shù)據(jù)信息進(jìn)行動(dòng)態(tài)演化和關(guān)聯(lián)分析,設(shè)計(jì)并實(shí)現(xiàn)一個(gè)基于共詞系統(tǒng)的跨社交媒體話題演化分析。2 國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展動(dòng)態(tài)2.1 基于共同用戶(hù)的跨網(wǎng)絡(luò)分析和多源數(shù)據(jù)知識(shí)關(guān)聯(lián)挖掘在現(xiàn)有技術(shù)中,我們可以利用一些已知用戶(hù)來(lái)分析多源數(shù)據(jù)。稱(chēng)同一個(gè)人在不同社交媒體網(wǎng)絡(luò)的用戶(hù)賬號(hào)為跨網(wǎng)絡(luò)的共同用戶(hù),同一個(gè)人在不同網(wǎng)絡(luò)的行為信息為分析和應(yīng)用社交媒體多源數(shù)據(jù)提供了可能。一方面,用戶(hù)是社交媒體數(shù)據(jù)分析和應(yīng)用的主要對(duì)象,整合分散在不同社交媒體網(wǎng)絡(luò)的行為信息對(duì)于深入理解用戶(hù)具有重要意義;另一方面,通過(guò)同一個(gè)人與社交媒體多源數(shù)據(jù)的行為交互,我們可以挖掘社交媒體多源數(shù)據(jù)知識(shí)關(guān)聯(lián),為協(xié)同分析和應(yīng)用提供了解決方案?;谶@樣一個(gè)跨社交媒體共同用戶(hù)的模型,我們可以通過(guò)對(duì)大量共同用戶(hù)在不同社交平臺(tái)下所產(chǎn)生的信息進(jìn)行分析,將能夠明確不同社交媒體平臺(tái)下信息之間的演化關(guān)聯(lián)情況。例如,用戶(hù)A在天涯論壇上發(fā)帖曝光某地強(qiáng)拆信息,同時(shí)在微博是上也提起申訴,那么我們可以知道在這一件事情在兩個(gè)社交媒體平臺(tái)下各自的演化過(guò)程,同時(shí)了解事件的更多細(xì)節(jié),最終反映出一個(gè)完整的輿情演化過(guò)程;再例如用戶(hù)B在天涯論壇上主要參與時(shí)政和體育類(lèi)帖子的討論,那么在微博平臺(tái)下我們可以更好的個(gè)性化服務(wù),推薦相關(guān)用戶(hù)給用戶(hù)。然而在對(duì)跨網(wǎng)絡(luò)用戶(hù)建模時(shí),前提是已知目標(biāo)用戶(hù)在不同社交媒體網(wǎng)絡(luò)的賬號(hào)對(duì)應(yīng)關(guān)系,在實(shí)際應(yīng)用時(shí),同一用戶(hù)的多網(wǎng)絡(luò)賬號(hào)對(duì)應(yīng)已知是個(gè)非??量痰臈l件。而且,不同社交媒體網(wǎng)絡(luò)的用戶(hù)不是一一對(duì)應(yīng)的,很多時(shí)候一個(gè)用戶(hù)并不會(huì)參與到所有的社交網(wǎng)絡(luò)中。出于這種考慮,人們提出通過(guò)采集的共同用戶(hù)對(duì)應(yīng)關(guān)系及其在各網(wǎng)絡(luò)的異質(zhì)行為,挖掘多源數(shù)據(jù)之間的知識(shí)層關(guān)聯(lián),從而在應(yīng)用時(shí)擺脫對(duì)顯性賬號(hào)對(duì)應(yīng)的限制。傳統(tǒng)多模態(tài)數(shù)據(jù)一般假設(shè)存在公共的語(yǔ)義子空間,如某張照片、某段語(yǔ)音和某段文本描述同一個(gè)語(yǔ)義概念。因此多模態(tài)的關(guān)聯(lián)可以從底層進(jìn)行,通過(guò)語(yǔ)義特征提取或子空間映射進(jìn)行跨模態(tài)分析;然而社交媒體多源數(shù)據(jù)的內(nèi)容和關(guān)聯(lián)模式要復(fù)雜得多,單一的關(guān)聯(lián)準(zhǔn)則很難普遍適用,因此需要利用采集的共同用戶(hù)賬號(hào)對(duì)應(yīng)關(guān)系及其在各網(wǎng)絡(luò)的交互行為作為高層監(jiān)督信息,來(lái)挖掘多源數(shù)據(jù)的知識(shí)關(guān)聯(lián),具體做法是為每個(gè)社交媒體平臺(tái)做一個(gè)知識(shí)空間,知識(shí)空間中可以分為多個(gè)討論話題,通過(guò)共同用戶(hù)進(jìn)行知識(shí)空間關(guān)聯(lián)挖掘的主要假設(shè)是: 如果有大量的用戶(hù)同時(shí)關(guān)注知識(shí)空間1 的主題A 和知識(shí)空間2 的主題B,那么主題A 和主題B 有很大可能是緊密關(guān)聯(lián)的。比如如果發(fā)現(xiàn)有大量的共同用戶(hù)在微博上轉(zhuǎn)發(fā)了A事件,同時(shí)又在天涯上討論了B事件,那么可以認(rèn)為A、B這兩事件間一定存在某種關(guān)聯(lián)。2.2 基于共詞網(wǎng)絡(luò)社群的子話題識(shí)別與關(guān)聯(lián)分析在針對(duì)單源數(shù)據(jù)情形下,分析一個(gè)事件的演化時(shí),我們以話題、子話題的形式對(duì)其進(jìn)行研究,這樣事件信息的演化過(guò)程就可以通過(guò)話題討論的情況來(lái)展示;例如就單源社交媒體而言,結(jié)合大量用戶(hù)發(fā)表的文本內(nèi)容與時(shí)間屬性,挖掘和分析其中同一事件在不同時(shí)間段的討論焦點(diǎn)話題,可以了解輿情的發(fā)展趨勢(shì),進(jìn)行輿情話題的演化分析。而話題演化分析的主要目的是分析在不同時(shí)間段內(nèi)話題討論的子話題構(gòu)成以及子話題重要程度、子話題發(fā)展趨勢(shì)和話題遷移等,主要方法是結(jié)合社交媒體的文本特征,將共關(guān)鍵詞網(wǎng)絡(luò)泛化為一般共詞網(wǎng)絡(luò),并以此為基礎(chǔ)利用共詞網(wǎng)絡(luò)社群表示子話題,探測(cè)和分析子話題演化過(guò)程,實(shí)現(xiàn)社交媒體話題演化分析。2.2.1 中文分詞中文分詞指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。中文分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動(dòng)識(shí)別語(yǔ)句含義的效果。例如對(duì)于詞語(yǔ)“二胎政策”,其包含兩個(gè)基本詞匯:“二胎”、“政策”。利用現(xiàn)已有的中文分詞技術(shù),已經(jīng)能夠較為準(zhǔn)確的實(shí)現(xiàn)中文分詞、中文姓名識(shí)別等效果,這為劃分特征詞提供的基本保障。2.2.2 話題特征詞識(shí)別因?yàn)樯缃幻襟w中的主要信息由普通用戶(hù)撰寫(xiě)得到,用詞較為口語(yǔ)化,也存在表情符號(hào)、網(wǎng)絡(luò)用語(yǔ)等不規(guī)范形式,所以社交媒體信息中的話題特征詞是指用戶(hù)生成內(nèi)容中能夠反映話題內(nèi)容、具有明確語(yǔ)義的詞匯。并且隨著時(shí)間推移,話題的關(guān)注點(diǎn)通常會(huì)有所變化,即在不同時(shí)間段事件的話題特征詞會(huì)發(fā)生變化。在識(shí)別話題特征詞時(shí),須從不同時(shí)間段的話題文檔集中針對(duì)性地選取特征詞,可以利用TF-IDF(term frequencyinverse document frequency, 一種用于信息搜索和信息挖掘的常用加權(quán)技術(shù))方法來(lái)計(jì)算特征詞的重要性權(quán)重,以此來(lái)選取不同話題時(shí)間段的話題特征詞。特征詞w的權(quán)重計(jì)算公式如下:tfidftsw=dDtstfw,d+0.5*logN+0.5dfw,Dts+0.5其中ts表示話題時(shí)間段,Dts表示話題時(shí)間段ts內(nèi)的文檔集,tfw,d表示文檔d中詞項(xiàng)w出現(xiàn)頻次,dfw,Dts表示話題文檔集Dts中詞項(xiàng)w出現(xiàn)的文檔數(shù),N表示整個(gè)話題文檔集的文檔數(shù)量。通過(guò)該權(quán)重公式,我們可以選擇那些在某一時(shí)間段出現(xiàn)次數(shù)較多,但在整個(gè)事件跨度內(nèi)出現(xiàn)較少的詞作為某一話題在某一時(shí)間段內(nèi)的特征詞。2.2.3 基于社群發(fā)現(xiàn)的子話題識(shí)別與關(guān)聯(lián)分析在識(shí)別出不同時(shí)間段話題特征詞后,根據(jù)特征詞在同一文本窗口中的共現(xiàn)關(guān)系,構(gòu)建共詞網(wǎng)絡(luò),由于話題文檔集數(shù)據(jù)具有時(shí)間屬性,相應(yīng)的話題共詞網(wǎng)絡(luò)則為動(dòng)態(tài)共詞網(wǎng)絡(luò),并可按子話題的時(shí)間段進(jìn)行切片。而按照人們的語(yǔ)言表達(dá)習(xí)慣,同一話題往往有一些類(lèi)同的核心詞匯進(jìn)行表達(dá),例如對(duì)于AppleWatch的討論,人們會(huì)有“續(xù)航”、“土豪”、以及“健康”等描述詞匯,那么我們可以通過(guò)挖掘共詞網(wǎng)絡(luò),發(fā)現(xiàn)用于表達(dá)同一事件或話題的核心詞匯集合我們稱(chēng)之為社群,目前較為流行的社群發(fā)現(xiàn)算法有許多種,例如Louvain算法,該算法是一種基于模塊度最優(yōu)化思想的啟發(fā)式算法,其特點(diǎn)在于:1.自底向上、層級(jí)性劃分社團(tuán),較為合乎客觀規(guī)律,所得結(jié)果的解釋性較強(qiáng);2.計(jì)算所支持的節(jié)點(diǎn)數(shù)量規(guī)模較大,蘋(píng)果奢侈品手表可穿戴設(shè)備續(xù)航屏幕健康可用于大規(guī)模網(wǎng)絡(luò)的社團(tuán)劃分且效率較高。通過(guò)對(duì)一段時(shí)間類(lèi)不同時(shí)間段下的信息進(jìn)行分析,會(huì)發(fā)現(xiàn)一些持續(xù)存在的話題特征詞以及一些相近的子話題,在分析話題演化的過(guò)程中,首先需要識(shí)別出不同時(shí)間段子話題的關(guān)聯(lián)關(guān)系,以探索子話題即事件脈絡(luò)的發(fā)展軌跡。利用共詞網(wǎng)絡(luò)社群來(lái)表示子話題還有另外一個(gè)方便,就是在社群模型中,只有點(diǎn)和邊兩個(gè)結(jié)構(gòu),只需通過(guò)節(jié)點(diǎn)和邊的匹配程度就可以計(jì)算兩個(gè)模型的相似性。在識(shí)別出不同時(shí)間段兩個(gè)不同社群后,可計(jì)算兩者之間的相似性大小,并設(shè)置一個(gè)具體的閥值,確定兩個(gè)社群是否相似,從而判斷子話題之間的相似性,將不同時(shí)間段的相同或者相關(guān)子話題識(shí)別出來(lái)。3 論文的研究?jī)?nèi)容及擬采取的技術(shù)方案3.1 問(wèn)題描述及研究目的通過(guò)對(duì)國(guó)內(nèi)外研究現(xiàn)狀的分析,針對(duì)現(xiàn)實(shí)需求,對(duì)跨社交媒體的信息演化提出以下問(wèn)題:1. 不同社交媒體的信息形式,傳播演化形式有何區(qū)別?對(duì)于各類(lèi)新聞網(wǎng)站的數(shù)據(jù),其格式較為統(tǒng)一:時(shí)間,地點(diǎn),人物,事件,來(lái)源等,且其標(biāo)題具有概括性,可以比較準(zhǔn)確的提取出關(guān)鍵信息,可以作為話題的一個(gè)劃分標(biāo)準(zhǔn)。對(duì)于論壇,大部分為長(zhǎng)內(nèi)容的帖子,通常描述較為口語(yǔ)化,信息含量較低,所以對(duì)于這一部分?jǐn)?shù)據(jù)信息,關(guān)鍵詞、話題的提取準(zhǔn)確度需要提高;對(duì)于微博,由于字?jǐn)?shù)限制,還有用戶(hù)群龐大,所以信息較雜,不過(guò)針對(duì)某一話題,往往帶有#話題標(biāo)簽#,所以能給話題分類(lèi)帶來(lái)幫助。另外,對(duì)于新聞,具有很強(qiáng)的時(shí)效性,往往一段時(shí)間之后人們的評(píng)論數(shù)就會(huì)下降,同樣對(duì)于論壇的帖子數(shù)據(jù),往往一段時(shí)間之后就會(huì)自動(dòng)排到熱度新鮮度排名較后的頁(yè)面,而對(duì)于微博數(shù)據(jù),由于轉(zhuǎn)發(fā)的影響,所以一個(gè)話題信息存在時(shí)間會(huì)更長(zhǎng)。2. 如何區(qū)分事件熱度?對(duì)于一個(gè)事件,如果僅在一個(gè)平臺(tái)下討論或者傳播,那么在本項(xiàng)目中認(rèn)為其信息價(jià)值較低,更關(guān)注那些在不同平臺(tái)下均有討論的事件。分別針對(duì)單一平臺(tái),我們可以保留選取諸如閱讀量,回復(fù)數(shù),點(diǎn)贊量,轉(zhuǎn)發(fā)量,評(píng)論數(shù)等,這樣可以更有效準(zhǔn)確的的表現(xiàn)事件的總體受關(guān)注度。3. 如何進(jìn)行子話題關(guān)聯(lián)?由于采集到的數(shù)據(jù)為文本信息,針對(duì)每一個(gè)平臺(tái),對(duì)文本進(jìn)行中文分詞,找出某一時(shí)間/某一文本段中的“熱詞”,在選取特征詞,進(jìn)而進(jìn)行特征詞匹配,如果在相近的時(shí)間閾值類(lèi),其特征詞匹配度高于某一值,則可認(rèn)為這是描述同一事件或者衍生話題。4. 如何突出信息演化的跨平臺(tái)特性?目前的技術(shù)往往針對(duì)單一社交媒體,并且技術(shù)已經(jīng)相當(dāng)成熟,例如針對(duì)微博的話題檢測(cè)與跟蹤(TDT, Topic Detection and Tracking)技術(shù)已經(jīng)有了充分運(yùn)用,但是對(duì)于多源數(shù)據(jù)的分析處理方面還有欠缺,例如一個(gè)新聞話題,可能最初在天涯上曝光,然后有人轉(zhuǎn)述到微博平臺(tái),然后新聞網(wǎng)站報(bào)道了此事,然后此事又在天涯、微博上引發(fā)二次討論和傳播,如果我們要梳理事件發(fā)展,那么必須要將三個(gè)平臺(tái)的信息集合起來(lái),才能得出準(zhǔn)確的脈絡(luò);并且由于用戶(hù)群的差別以及信息傳播的差異,不同平臺(tái)下人們對(duì)于某一事件的態(tài)度會(huì)有區(qū)別,通過(guò)分析可以找出這種差異。當(dāng)我們分析某一事件(話題、子話題)時(shí),需要結(jié)合其來(lái)源以及時(shí)間信息進(jìn)行深度對(duì)比。3.2 主要研究?jī)?nèi)容針對(duì)上述問(wèn)題和研究目標(biāo),有以下三點(diǎn)研究?jī)?nèi)容:1. 不同平臺(tái)信息性質(zhì)及演化機(jī)制差異采取爬蟲(chóng)方式,首先使獲取的數(shù)據(jù)格式統(tǒng)一(時(shí)間,事件,關(guān)注度,以及人們的討論等文本信息),同時(shí)分析其文本特性差異,方便提高特征詞(話題)識(shí)別時(shí)的準(zhǔn)確度和效率;同時(shí)針對(duì)不同社交媒體,其信息演化機(jī)制會(huì)存在差異,例如微博上某個(gè)子話題“上頭條”可能來(lái)自“大V效應(yīng)”,而天涯論壇可能需要貼合百姓生活,引發(fā)廣泛談?wù)摬⒈话嬷髦庙?,?duì)于新聞評(píng)論,則沒(méi)有明顯的可能導(dǎo)致廣泛關(guān)注的原因。2. 事件特征詞識(shí)別與子話題關(guān)聯(lián)分析針對(duì)同一事件,需要選取一定量的特征詞用于描述,并且在事件演化過(guò)程中隨時(shí)間推移,特征詞往往是動(dòng)態(tài)變化的,人們討論的子話題也是轉(zhuǎn)移和變換的,基于跨媒體的文本數(shù)據(jù),準(zhǔn)確的識(shí)別特征詞,關(guān)聯(lián)時(shí)間子話題,是分析研究時(shí)間演化的基礎(chǔ)。同時(shí),由于社交平臺(tái)差異,如何實(shí)現(xiàn)跨媒體的子話題關(guān)聯(lián)分析,不僅需要關(guān)鍵詞匹配,還要結(jié)合更多的信息,才能保證準(zhǔn)確度。3. 跨媒體的話題信息演化分析針對(duì)單一媒體的話題演化追蹤,我們只需要對(duì)其數(shù)據(jù)按時(shí)間切片即可,然后進(jìn)行特征詞選取,子話題關(guān)聯(lián)分析,然后進(jìn)行更深的信息演化分析,然而結(jié)合跨媒體信息,那么還要加入不同平臺(tái)數(shù)據(jù)的比對(duì)和關(guān)聯(lián)分析,所以在數(shù)據(jù)融合的同時(shí)又要考慮各平臺(tái)的獨(dú)立性和差異性。3.3 擬采取的技術(shù)方案根據(jù)研究的總體目標(biāo)并結(jié)合當(dāng)前的研究現(xiàn)狀,下面給出初步的設(shè)計(jì)思路和系統(tǒng)方案。上圖展示的是初步的系統(tǒng)設(shè)計(jì)結(jié)構(gòu)圖。主要分為三個(gè)層次;其作用分別如下:數(shù)據(jù)采集層:這一層主要是用于數(shù)據(jù)采集,在本項(xiàng)目中,我們不必采用實(shí)時(shí)系統(tǒng)方案,而只是采集一定時(shí)間段內(nèi)的跨平臺(tái)數(shù)據(jù),同時(shí)保證數(shù)據(jù)格式上的統(tǒng)一,并且人工分析各平臺(tái)的文本信息特點(diǎn),結(jié)合特點(diǎn)方便查找特征詞。話題關(guān)聯(lián)分析層:這一層主要工作是對(duì)于跨媒體文本信息的特征詞提取以及跨媒體間的子話題匹配關(guān)聯(lián)分析,對(duì)于不同社交媒體平臺(tái),可能需要不同的算法,以提高準(zhǔn)確度,在已有的技術(shù)基礎(chǔ)上,結(jié)合研究目的、平臺(tái)差異,思考事件的準(zhǔn)確表達(dá)形式??缑襟w的信息演化分析層:在分析完同一事件在不同社交媒體平臺(tái)下的話題關(guān)聯(lián)之后,以關(guān)聯(lián)話題為基準(zhǔn),融合跨平臺(tái)數(shù)據(jù),展示信息的演化過(guò)程,同時(shí)又要將各平臺(tái)特性區(qū)分開(kāi),使整個(gè)演化過(guò)程清晰、準(zhǔn)確。4 關(guān)鍵技術(shù)與難點(diǎn)根據(jù)論文第三章闡述得研究?jī)?nèi)容及擬采用技術(shù)方案,跨社交媒體信息演化分析中可能運(yùn)用的關(guān)鍵技術(shù)及難點(diǎn)包括以下幾點(diǎn):1. 數(shù)據(jù)采集及存儲(chǔ)由于網(wǎng)頁(yè)差異,以及文本內(nèi)容、格式差異,每個(gè)平臺(tái)的數(shù)據(jù)采集需要針對(duì)每一個(gè)平臺(tái)做出相應(yīng)調(diào)整。例如,針對(duì)新聞?wù)军c(diǎn),標(biāo)題比正文重要,而對(duì)于論壇內(nèi)容,需要對(duì)一些重復(fù)的樓層進(jìn)行剔除。2. 跨媒體的特征詞提取考慮平臺(tái)差異性,需要研究每個(gè)平臺(tái)下的文本特性,提高關(guān)鍵特征詞的準(zhǔn)確率。3. 跨媒體的話題關(guān)聯(lián)對(duì)于單源數(shù)據(jù)的話題關(guān)聯(lián)識(shí)別已經(jīng)有較為成功的方法,但跨媒體間數(shù)據(jù)存在本身的差異性,需要保證準(zhǔn)確度的情況下將不同平臺(tái)的數(shù)據(jù)融合,事件進(jìn)行關(guān)聯(lián)。4. 跨媒體信息對(duì)比由于各社交媒體的自身特性,及用戶(hù)群的差異,每個(gè)平臺(tái)下用戶(hù)所關(guān)注的時(shí)間存在差異,對(duì)同一事物的關(guān)心程度、關(guān)心方面以及個(gè)人意見(jiàn)和評(píng)價(jià)都不一樣,如何分析跨媒體的特點(diǎn)需要足夠的文本信息。5. 跨媒體的話題演化在演化過(guò)程中,需要結(jié)合事件或者話題的時(shí)間屬性,對(duì)于跨媒體的事件,需要融合數(shù)據(jù),統(tǒng)一展現(xiàn),需要分別表示其在各單源社交媒體下的特點(diǎn)。5 論文研究計(jì)劃周主題目標(biāo)2、3數(shù)據(jù)采集聯(lián)合組內(nèi)同學(xué),完善爬蟲(chóng)4整合數(shù)據(jù)數(shù)據(jù)融合5、6關(guān)鍵詞分析,子話題分析能較準(zhǔn)確找出關(guān)鍵詞并做到子話題的識(shí)別7、8話題演化分析結(jié)合平臺(tái)特征、時(shí)間特征,能分析事件跨平臺(tái)演化過(guò)程9、10、11設(shè)計(jì)展示論文撰寫(xiě)文章翻譯做基本優(yōu)化,并且能達(dá)到展示效果,完成論文6 主要參考文獻(xiàn)1. 王巍;基于關(guān)鍵詞和時(shí)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 股份保本協(xié)議書(shū)
- 花店入伙協(xié)議書(shū)
- 租賃終止協(xié)議書(shū)
- 玉器鑒定協(xié)議書(shū)
- 統(tǒng)一安裝協(xié)議書(shū)
- 土地入股合作社協(xié)議書(shū)
- 破除陰婚協(xié)議書(shū)
- 職工貸款協(xié)議書(shū)
- 資產(chǎn)調(diào)出協(xié)議書(shū)
- 藥店代銷(xiāo)協(xié)議書(shū)
- 2025年商法知識(shí)競(jìng)賽考試試卷及答案
- 2025年山東省臨沂市平邑縣中考一模語(yǔ)文試題(含答案)
- 2025年電子信息工程專(zhuān)業(yè)考試試題及答案
- 【威?!?025年山東省威海技師學(xué)院公開(kāi)招聘工作人員29人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 2025年第六屆全國(guó)國(guó)家版圖知識(shí)競(jìng)賽題庫(kù)及答案
- 機(jī)械租賃投標(biāo)服務(wù)方案
- 2025年烘焙師職業(yè)資格考試真題卷:烘焙師職業(yè)競(jìng)賽與評(píng)價(jià)試題
- 2025年北京市朝陽(yáng)區(qū)九年級(jí)初三一模英語(yǔ)試卷(含答案)
- Unit1-Unit2重點(diǎn)短語(yǔ)(背誦版+默寫(xiě)版)外研版英語(yǔ)新七年級(jí)下冊(cè)
- 《抗休克藥物治療》課件
- 《2024 3572-T-424 重大活動(dòng)食品安全保障規(guī)范 第 3 部分:供餐》知識(shí)培訓(xùn)
評(píng)論
0/150
提交評(píng)論