基于微博的用戶分析與個(gè)性化推薦系統(tǒng)(共12頁(yè))_第1頁(yè)
基于微博的用戶分析與個(gè)性化推薦系統(tǒng)(共12頁(yè))_第2頁(yè)
基于微博的用戶分析與個(gè)性化推薦系統(tǒng)(共12頁(yè))_第3頁(yè)
基于微博的用戶分析與個(gè)性化推薦系統(tǒng)(共12頁(yè))_第4頁(yè)
基于微博的用戶分析與個(gè)性化推薦系統(tǒng)(共12頁(yè))_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 1. 概念及應(yīng)用(yngyng)背景1.1 本文(bnwn)研究?jī)?nèi)容在過(guò)去的幾年時(shí)間里,無(wú)論從用戶數(shù)量還是(hi shi)內(nèi)容數(shù)量來(lái)看,互聯(lián)網(wǎng)都經(jīng)歷了爆炸式的增長(zhǎng)。人們逐漸從信息匱乏時(shí)代過(guò)渡到了信息過(guò)載(information overload)時(shí)代。無(wú)論作為想獲取信息的普通用戶,還是作為產(chǎn)生信息的內(nèi)容提供商或產(chǎn)品提供商,都面臨著新的挑戰(zhàn)。作為普通用戶,他們希望有一種從海量信息中方便實(shí)時(shí)快速地獲取有用的信息的方式。而作為內(nèi)容或產(chǎn)品提供商,他們希望把自己的信息及時(shí)準(zhǔn)確地傳播給希望接收這些信息的目標(biāo)群體。用戶獲取信息的方式經(jīng)歷了如下幾個(gè)階段:從原始靠人工記憶各種網(wǎng)站,并且人工查找所需的信息,推出

2、了按類別對(duì)網(wǎng)站進(jìn)行分類以方便用戶查詢,再到近年來(lái)以 為代表的搜索引擎的出現(xiàn)。雖然搜索引擎極大地方便了人們獲取信息的方式,但是依然存在不足。比如,當(dāng)用戶無(wú)法用一些關(guān)鍵詞準(zhǔn)確描述自己的需求時(shí),搜索引擎就無(wú)能為力了。而且對(duì)于互聯(lián)網(wǎng)信息的內(nèi)容提供商來(lái)說(shuō),搜索引擎也不能幫助他們主動(dòng)地把自己的內(nèi)容傳播給目標(biāo)人群。推薦系統(tǒng)的出現(xiàn)彌補(bǔ)了搜索引擎的不足。從用戶的角度出發(fā),搜索引擎是一個(gè) 拉 (pull)模型,即用戶主動(dòng)地查找自己感興趣的信息,而推薦系統(tǒng)是一個(gè) 推 (push)模型,即系統(tǒng)根據(jù)用戶的歷史行為記錄,推薦新的信息給用戶。一個(gè)好的推薦系統(tǒng),非常重要的一步就是對(duì)用戶的興趣進(jìn)行建模 。常用的方法是根據(jù)用戶的

3、歷史行為數(shù)據(jù)對(duì)用戶興趣進(jìn)行建模。用戶的歷史行為數(shù)據(jù)可以是用戶的在線購(gòu)買記錄,搜索記錄等。這些數(shù)據(jù)存在許多缺點(diǎn)。首先,數(shù)據(jù)的形式比較單一,只能反應(yīng)用戶的購(gòu)買喜好,或者搜索喜好,并不能全面地描述用戶的興趣。其次,這些數(shù)據(jù)更新緩慢,反應(yīng)的是用戶過(guò)去的興趣。而我們相信,用戶的興趣可能是經(jīng)常變化的。而且對(duì)于一個(gè)新的用戶,在沒(méi)有歷史行為數(shù)據(jù)的情況下,推薦系統(tǒng)就無(wú)法正常工作,這也稱為冷啟動(dòng)(cold start)問(wèn)題 。另外一種獲取用戶興趣的方式是讓用戶直接輸入一些關(guān)鍵詞列表來(lái)描述用戶的興趣。但是通常情況下,用戶并不愿意參與其中。并且,用戶可能不能完整地描述自己的興趣。另外,由于用戶的興趣會(huì)隨時(shí)間經(jīng)常變化,

4、這就需要用戶不停地更新關(guān)鍵詞列表。這些局限性大大降低了用戶體驗(yàn),也會(huì)影響推薦系統(tǒng)的質(zhì)量。微博作為一種新興的社交網(wǎng)絡(luò)和信息分享、傳播方式,在最近幾年變得尤為流行。常用的微博服務(wù),比如國(guó)外的 ,國(guó)內(nèi)的新浪微博,騰訊微博等,都有上億的注冊(cè)用戶。 最初的理念就是,讓用戶能夠更加簡(jiǎn)單地與好友、家人分享自己正在做什么 。實(shí)際中,用戶不僅使用微博發(fā)布 我正在做什么 之類的信息,還用它來(lái)與好友交流,轉(zhuǎn)播突發(fā)的一些新聞事件,對(duì)某件事發(fā)表自己的觀點(diǎn),甚至在危險(xiǎn)的時(shí)候作為一種求救的方式 。微博更像是傳統(tǒng)博客與社交網(wǎng)絡(luò)的一個(gè)結(jié)合體。微博服務(wù)的一個(gè)重要特性就是它的實(shí)時(shí)性。比如,傳統(tǒng)的博客用戶可能每過(guò)幾天會(huì)更新一次博客的

5、內(nèi)容。而微博用戶經(jīng)常會(huì)在一天內(nèi)發(fā)布多條微博內(nèi)容。而且用戶發(fā)布的微博內(nèi)容大部分都是跟用戶每天的活動(dòng)相關(guān)。因此,微博內(nèi)容可以被看做是基于人的信息聚合種子(RSS Feed) 。微博的這些特性讓我們有了新的途徑去獲取用戶的實(shí)時(shí)興趣。與傳統(tǒng)的獲取用戶興趣的方法相比,微博提供了更海量,更實(shí)時(shí)的數(shù)據(jù)。如何有效地從用戶的微博數(shù)據(jù)中挖掘出用戶的實(shí)時(shí)興趣,對(duì)于提高個(gè)性化推薦的質(zhì)量,提高用戶體驗(yàn),都具有重要意義。1.2 本文(bnwn)研究?jī)?nèi)容本文(bnwn)主要對(duì)從微博數(shù)據(jù)集上分析用戶興趣并進(jìn)行個(gè)性化推薦的過(guò)程中的一些關(guān)鍵問(wèn)題進(jìn)行分析(fnx)和探索:1.2.1 使用外部知識(shí)庫(kù)對(duì)微博文本進(jìn)行語(yǔ)義豐富針對(duì)微博文本

6、內(nèi)容都比較短,語(yǔ)義信息不夠充分的特點(diǎn),我們提出使用在外部知識(shí)庫(kù)上建立的主題模型分析微博內(nèi)容,從而對(duì)短文本的微博內(nèi)容進(jìn)行語(yǔ)義上的豐富。這樣也避免了直接在微博數(shù)據(jù)上構(gòu)建主題模型時(shí),主題數(shù)目不容易確定的缺點(diǎn)。1.2.2 過(guò)濾不能體現(xiàn)用戶興趣的微博用戶使用微博的目的多樣,因此并不是每條微博都能體現(xiàn)用戶興趣。那些不能體現(xiàn)用戶興趣的微博,會(huì)對(duì)基于詞袋的模型,包括主題模型等,產(chǎn)生負(fù)面的影響。我們稱這些微博為噪音微博。我們從多個(gè)方面分析了識(shí)別一條微博是否是噪音微博的特征,并使用樸素貝葉斯分類器和支持向量機(jī)分類器過(guò)濾掉這些噪音微博。1.2.3 用時(shí)間加權(quán)的主題分布表示用戶興趣我們認(rèn)為用戶的興趣并不是一成不變的,

7、而是隨時(shí)間變化的。因此,我們?cè)谟脩襞d趣的表達(dá)上,加上的時(shí)間的維度。并基于此描述了分析用戶興趣及個(gè)性化推薦的方法。2. 基于微博的用戶興趣分析及信息推薦方法研究21概述微博服務(wù)作為目前主流的信息傳播媒介,越來(lái)越多的用戶每天在上面發(fā)布自己的狀態(tài),分享信息,表達(dá)自己的觀點(diǎn)、想法和意圖。這使得微博服務(wù)成為一個(gè)有用的、信息量巨大的數(shù)據(jù)源,用來(lái)挖掘分析用戶的興趣。根據(jù)從微博數(shù)據(jù)中分析得到的用戶興趣,我們可以給用戶推薦他們感興趣的新聞、團(tuán)購(gòu)信息等。本文針對(duì)微博的特點(diǎn),提出了從微博數(shù)據(jù)中分析用戶興趣并建模的方法,然后使用挖掘出的用戶興趣,推薦個(gè)性化信息給用戶。本文的工作分為三個(gè)主要部分。首先是微博數(shù)據(jù)中噪音微

8、博的過(guò)濾,過(guò)濾掉那些跟用戶興趣無(wú)關(guān)的微博數(shù)據(jù)。然后,對(duì)過(guò)濾后的微博數(shù)據(jù)進(jìn)行主題分析??紤]到微博內(nèi)容一般比較短,因此本文使用維基百科作為知識(shí)庫(kù)進(jìn)行語(yǔ)義擴(kuò)充,通過(guò)主題模型分析用戶興趣。同時(shí)考慮到用戶興趣會(huì)隨時(shí)間經(jīng)常變化的特點(diǎn),提出了使用時(shí)間加權(quán)的主題分布來(lái)建模用戶興趣。最后,使用挖掘得到的用戶興趣,向用戶推薦個(gè)性化信息。22噪音(zoyn)微博的過(guò)濾每個(gè)用戶使用微博服務(wù)的方式不同。用戶使用微博服務(wù)主要用來(lái)記錄自己每天的活動(dòng),分享新聞及他們對(duì)新聞的評(píng)論,與好友聊天等 。還有很多用戶經(jīng)常發(fā)布一些笑話等娛樂(lè)內(nèi)容。因此,并不是每條微博都能體現(xiàn)用戶的興趣。但是,之前的很多研究,都是根據(jù)用戶發(fā)布的所有微博,使

9、用詞包模型分析用戶興趣 。這樣,那些與用戶感興趣的主題不相關(guān)的微博數(shù)據(jù),就成為了噪音數(shù)據(jù),嚴(yán)重影響了分析結(jié)果的準(zhǔn)確度。因此,本文提出在使用微博數(shù)據(jù)分析用戶興趣之前,先對(duì)微博數(shù)據(jù)進(jìn)行過(guò)濾(gul),去除那些與用戶興趣不相關(guān)的微博。噪音微博的過(guò)濾可以看做一個(gè)二分類問(wèn)題,即一條微博與用戶興趣的表達(dá)(biod)相關(guān)或者不相關(guān)。本文使用兩種經(jīng)典的文本分類方法,樸素貝葉斯和支持向量機(jī),分別采用不同的特征,訓(xùn)練得到兩個(gè)分類器。然后對(duì)這兩個(gè)分類器以線性加權(quán)的方式組合成聯(lián)合分類器,解決這個(gè)二分類問(wèn)題。2.2.1 構(gòu)建樸素貝葉斯分類器對(duì)于樸素貝葉斯分類器,我們采用一元語(yǔ)言模型作為特征進(jìn)行訓(xùn)練。樸素貝葉斯分類器的訓(xùn)

10、練非常簡(jiǎn)單。每條微博看做一篇文檔。首先人工標(biāo)注若干微博數(shù)據(jù),分別標(biāo)注為 相關(guān) 或 不相關(guān) ,得到訓(xùn)練集。然后,在訓(xùn)練集上,估計(jì)出 P(tk|c) 的概率以及 P (c) 的概率。P (c) 即訓(xùn)練集中,屬于類別 c 的文檔個(gè)數(shù)占總文檔數(shù)的比值。P(tk|c) 的計(jì)算方法為其中,Tctk表示單詞 tk出現(xiàn)在屬于類別 c 的文檔中的次數(shù),|Vc| 表示類別 c 中出現(xiàn)的所有單詞的個(gè)數(shù)??紤]到訓(xùn)練集的有限性,不能覆蓋所有的詞,因此本文采用加一平滑操作 。從訓(xùn)練集上得到 P(tk|c) 和 P (c) 的值后,就可以使用公式 對(duì)每個(gè)微博進(jìn)行分類,判斷每條微博是否是與用戶的興趣有關(guān)的。2.2.2 構(gòu)建支

11、持向量機(jī)分類器基于樸素貝葉斯的分類器把微博中的每個(gè)詞作為特征,進(jìn)行分類??紤]到微博數(shù)據(jù)的特殊性,每條微博的字?jǐn)?shù)都比較少,數(shù)據(jù)比較稀疏,這影響了樸素貝葉斯分類器的精度。為了提高分類的精度,本文考慮到微博服務(wù)中不僅包含文本數(shù)據(jù),還有很多其他豐富的數(shù)據(jù)資源,比如用戶與用戶之間組成的社會(huì)關(guān)系網(wǎng),微博的一些特殊語(yǔ)法等,做為分類依據(jù)。本文主要從四個(gè)方面抽取微博特征:1、微博本身的特征譬如該微博是否包含標(biāo)簽,是否包含 等。包含標(biāo)簽或者 的微博通常涉及的是用戶關(guān)注的話題。2、社會(huì)(shhu)關(guān)系網(wǎng)特征譬如該微博是否被好友轉(zhuǎn)發(fā),被好友評(píng)論的次數(shù)等。因?yàn)槲覀冋J(rèn)為,能夠(nnggu)體現(xiàn)用戶興趣的微博,也同樣會(huì)得到

12、好友的關(guān)注。3、時(shí)間(shjin)特征譬如微博發(fā)布日期是一周中的星期幾,是一天中的幾點(diǎn)鐘。我們認(rèn)為,用戶可能經(jīng)常會(huì)在一天中的某個(gè)時(shí)間段發(fā)布一些與用戶興趣無(wú)關(guān)的微博,而在另外一些時(shí)間段發(fā)布一些與興趣相關(guān)的微博。比如,一個(gè)上班族很可能在每天中午的時(shí)候會(huì)經(jīng)常發(fā)布一些類似 我好困啊 之類的微博,而在周末的時(shí)候可能會(huì)經(jīng)常發(fā)布一些 海賊王真好看 之類的微博。4、用戶的自然屬性特性譬如用戶的年齡、性別、教育情況、目前職業(yè)等本文用來(lái)訓(xùn)練支持向量機(jī)分類器的特征總結(jié)如表 所示。23用戶興趣分析2.3.1用戶興趣的表示用戶興趣的表示是個(gè)性化信息推薦、過(guò)濾等任務(wù)的一個(gè)非常重要的環(huán)節(jié),它直接關(guān)系到后續(xù)任務(wù)效果的好壞。但

13、是由于影響用戶興趣的因素眾多,如性別,年齡,性格等,因此很難從各個(gè)維度完整地描述用戶興趣。同時(shí),用戶的興趣經(jīng)常變化,這給用戶興趣的表達(dá)帶來(lái)了進(jìn)一步的難度(nd)。最基本的用戶興趣表示方法是用一組關(guān)鍵詞來(lái)表達(dá)。這些關(guān)鍵詞可以是用戶手動(dòng)輸入的,也可以是從用戶的一些線上行為,如發(fā)表的微博、評(píng)論等,通過(guò) 等文本處理技術(shù)挖掘得到的 。一些商品推薦系統(tǒng)則是通過(guò)用戶的自然屬性,如性別,年齡,身份等信息來(lái)刻畫用戶興趣,或者通過(guò)用戶之前購(gòu)買過(guò)的商品組成的向量構(gòu)建用戶興趣。其他一些用戶興趣的表達(dá)方式有使用微博中的標(biāo)簽 ,或者用維基百科中的層次分類 。這些方式都能在一定程度上反應(yīng)用戶的興趣,但是都有一定的局限性,要

14、么局限于 詞 的層面,要么不能表達(dá)用戶興趣多樣性這樣一個(gè)特點(diǎn)。而且,這些表達(dá)方法都沒(méi)有考慮到用戶興趣會(huì)隨時(shí)間變化的特點(diǎn)。本文針對(duì)微博的特點(diǎn),提出使用時(shí)間加權(quán)的主題分布來(lái)表達(dá)用戶興趣(xngq)。時(shí)間加權(quán)的主題分布是一組二元組,每個(gè)二元組是由用戶對(duì)一個(gè)主題感興趣的程度和該主題對(duì)用戶的時(shí)間權(quán)重表示的。形式化地講,假設(shè)用戶的興趣可以分為其中(qzhng),(P(k),wt(k) 表示一個(gè)時(shí)間加權(quán)的主題分布二元組。P (k) 表示用戶對(duì)主題 k 的感興趣程度,這是從用戶所有的微博歷史數(shù)據(jù)得到的。直觀上看,如果一個(gè)用戶發(fā)布的屬于主題 k 的內(nèi)容越多,計(jì)算得到的 P(k) 越大。這樣,如果用戶在一年前發(fā)布

15、了很多屬于主題 k 的微博,那么即使最近一年該用戶不再對(duì)主題 k 感興趣,P(k) 仍然會(huì)很大。為此,wt(k) 就起到了作用。wt(k) 表示主題k 對(duì)于用戶 u 的時(shí)間權(quán)重。用戶討論主題 k 的時(shí)間越久遠(yuǎn),wt(k) 就越小。這樣,Interest(u) 就從 主題 維度的層面上描述了用戶隨時(shí)間不斷變化的興趣。2.3.2用戶興趣的分析由于每條微博都很短,因此如果直接在微博數(shù)據(jù)上使用 等主題模型進(jìn)行分析,勢(shì)必會(huì)由于數(shù)據(jù)過(guò)于稀疏影響模型的精度 。同時(shí),考慮到可以使用外部知識(shí),比如維基百科等,對(duì)微博數(shù)據(jù)進(jìn)行語(yǔ)義擴(kuò)充,因此本文直接在維基百科數(shù)據(jù)上進(jìn)行主題分析。然后,把得到的主題模型,再用于分析每個(gè)

16、用戶的微博數(shù)據(jù)。在維基百科等外部知識(shí)庫(kù)數(shù)據(jù)上進(jìn)行 模型的學(xué)習(xí)和主題分析,與直接在微博數(shù)據(jù)集上進(jìn)行 分析,有如下優(yōu)點(diǎn)。1、可以彌補(bǔ)微博的文本較短,不能有效分析出有用信息的缺點(diǎn)。2、學(xué)習(xí)到的主題模型可以方便地應(yīng)用于微博數(shù)據(jù)上,同時(shí)能起到對(duì)微博內(nèi)容進(jìn)行語(yǔ)義擴(kuò)充的功能。3、在對(duì)微博用戶進(jìn)行個(gè)性化信息推薦的時(shí)候,可以用同樣的方法把學(xué)習(xí)到的 模型應(yīng)用于信息源中。這樣,可以用一個(gè)統(tǒng)一的主題模型進(jìn)行用興趣分析和個(gè)性化推薦,不用再訓(xùn)練多個(gè)主題模型,使得該算法更簡(jiǎn)潔,更高效。同時(shí),用戶興趣主題分布與信息源中每篇文檔的主題分布來(lái)自同一個(gè)主題模型,可以很方便地進(jìn)行相似度的計(jì)算。使用 模型對(duì)維基百科數(shù)據(jù)進(jìn)行主題分析相對(duì)

17、比較簡(jiǎn)單。把維基百科中的每個(gè)詞條看做一篇文檔,然后使用公式 迭代直到(zhdo)收斂,就可以得到維基百科數(shù)據(jù)的主題分布。同時(shí)還可以得到兩個(gè)矩陣 CWT和 CDT,分別表示在維基百科數(shù)據(jù)中,單詞 w 分配到主題 t 的次數(shù),和主題 t 被分配到文檔 d 中某個(gè)單詞的次數(shù)。根據(jù)這兩個(gè)矩陣(j zhn),就可以使用公式 和 計(jì)算得到 和 ,即每個(gè)主題在單詞維度上的概率分布,以及每篇文檔(維基百科的一個(gè)(y )詞條)在主題維度上的概率分布。對(duì)于分析用戶的微博數(shù)據(jù)來(lái)說(shuō),我們并不關(guān)心每個(gè)詞條在主題維度上的概率分布,只需要每個(gè)主題在單詞維度上的概率分布。有了 CWT和,以及模型的參數(shù) 和 ,我們就可以對(duì)任意

18、一個(gè)新的文檔d,得到它的主題分布。對(duì)于文檔 d,首先使用吉布斯采樣的方法,計(jì)算出文檔d 中每個(gè)主題出現(xiàn)的次數(shù),用向量 V 表示。采樣的過(guò)程如圖 。第 i 次迭代中,計(jì)算第 n 個(gè)詞所屬的主題時(shí),依賴于第 i 次迭代時(shí),前 n 1 個(gè)詞被分配的主題,以及第 i 1 次迭代時(shí),第n + 1 N 個(gè)詞被分配的主題。圖 3-124個(gè)性化信息推薦個(gè)性化信息推薦就是在一堆文本信息源中,找出用戶感興趣的文本,推薦給用戶。形式化地講,給定一個(gè)用戶的興趣,表示為一個(gè)特征向量 V (u),另外有 N 個(gè)候選文檔,每個(gè)文檔也在相同的特征空間表示為一個(gè)特征向量,即N = V (n1), V (n2), ., V (n

19、n)。個(gè)性化推薦算法通過(guò)計(jì)算 V (ni) 與 V (u) 的相似度,對(duì)這 N 個(gè)文檔進(jìn)行排序,返回相似度最大的前 K 個(gè)文檔。最簡(jiǎn)單且常用的相似度的計(jì)算方法是求兩個(gè)向量的余弦值。即本文中,用戶興趣 V (u) 的表示方法是時(shí)間加權(quán)的主題分布。因此,我們把候選的文本也表示為主題分布的形式,這很簡(jiǎn)單。對(duì)于一個(gè)候選文本 d,只需要使用(shyng)算法 和公式 即可得到該文本的主題分布。為了描述方便,我們給出一些形式化表示。用戶興趣可以表示為V (u) = (Pu(ki), w(ki)| f or i = 1 T 候選(hu xun)文檔 d 的特征向量表示為V (d) = Pd(ki)| f o

20、r i = 1 T 其中(qzhng) T 表示主題的個(gè)數(shù),Pu(ki) 表示在用戶興趣在主題上的概率分布,Pd(ki) 表示文檔 d 在主題上的概率分布。要計(jì)算 V (u) 和 V (d) 之間的相似度,可以通過(guò)計(jì)算它們?cè)谥黝} k 上的概率分布距離得到。衡量?jī)蓚€(gè)概率分布 p 和 q 的距離的常用方法是Kullback Leibler差異(KL divergence),即這是一個(gè)非負(fù)函數(shù),當(dāng)對(duì)所有的 j 都滿足 pj= qj時(shí),該函數(shù)等于0。該函數(shù)是非對(duì)稱的。我們可以把它變?yōu)閷?duì)稱的形式為由此,我們定義 V (u) 和 V (d) 之間的相似度計(jì)算方法為對(duì)于每個(gè)候選文檔 d,使用公式 計(jì)算它與用

21、戶興趣之間的相似度。然后按相似度大小排序,選取前面文檔的推薦給用戶即可。3. 實(shí)驗(yàn)結(jié)果與結(jié)果分析3.1主題模型的構(gòu)建3.1.1 實(shí)驗(yàn)設(shè)計(jì)主題(zht)模型的構(gòu)建是指在維基百科數(shù)據(jù)上用LDA模型進(jìn)行主題分析,最終得到(d do)每個(gè)主題在詞空間上的概率分布。我們使用的是中文維基百科2013年12月20號(hào)的數(shù)據(jù)庫(kù)鏡像文件2。去除掉了那些沒(méi)有實(shí)際意義的分類下的詞條,以及(yj)正文少于100個(gè)字的詞條。然后,對(duì)剩下的詞條進(jìn)行LDA分析,得到主題模型。3.1.2 實(shí)驗(yàn)結(jié)果及分析主題模型的構(gòu)建中,一個(gè)非常重要的問(wèn)題就是如何確定主題數(shù)目。目前,還沒(méi)有比較有效的方法來(lái)確定主題數(shù)目。49等提出使用貝葉斯方法,

22、但是我們依然使用經(jīng)驗(yàn)假定方法。即不斷枚舉主題的數(shù)目來(lái)觀察實(shí)驗(yàn)結(jié)果的好壞,比如觀察高概率的主題詞匯、語(yǔ)義是否一致等。經(jīng)過(guò)試驗(yàn),最終我們確定分為 100個(gè)主題。圖 4-4顯示了分配到每個(gè)主題中的單詞的個(gè)數(shù)。從該圖可以看出,分配到每個(gè)主題中的單詞數(shù)還是比較均勻的,每個(gè)主題中的單詞數(shù)在1000到5000之間。這也間接說(shuō)明,把中文維基百科數(shù)據(jù)分為 100個(gè)主題是比較合理的。圖4-5 顯示了在每個(gè)主題 k 中,P(w|k) = 0.001 的那些詞,占分配到該主題 k 中所有詞的比率。從圖中可以看出,平均每個(gè)主題都有 30% 40%的詞滿足屬于該主題的概率大于等于 0.001。我們從這100個(gè)主題中隨機(jī)挑

23、選了5個(gè)主題,表4-2展示了這5個(gè)主題中,每個(gè)主題中出現(xiàn)概率最高的10個(gè)詞,以及每個(gè)詞出現(xiàn)的概率。從這些主題在單詞空間上的概率分布可以看出,同一個(gè)主題下面的詞語(yǔ)(cy)都有比較明顯的語(yǔ)義關(guān)聯(lián)性,主題與主題之間也很少有重疊的情況。3.2 興趣(xngq)抽取和個(gè)性化推薦3.2.1 實(shí)驗(yàn)設(shè)計(jì)由于用戶興趣分析結(jié)果的好壞都具有很強(qiáng)的主觀性,并且目前沒(méi)有公開的中文測(cè)試(csh)集,因此,我們采用類似 中的實(shí)驗(yàn)方法。我們選取了三個(gè)新浪微博用戶,分析他們的興趣,比較這三種算法的結(jié)果。在這三個(gè)用戶中,其中兩個(gè)是選取的公眾人物,分別是 李開復(fù) 和 姚晨 。選取這兩個(gè)人是因?yàn)樗麄兊奈⒉┲黝}比較集中,比較容易驗(yàn)證。

24、另外隨機(jī)選取了一個(gè)匿名普通用戶,以研究算法的泛化能力。另外(ln wi),我們還隨機(jī)從Google新聞(xnwn) 上面抓取了100個(gè)新聞頁(yè)面,這些新聞內(nèi)容屬于 財(cái)經(jīng),科技,體育,娛樂(lè)(yl),健康,政治,社會(huì)等7個(gè)分類,每個(gè)分類下面有10篇左右的新聞。3.2.2 非負(fù)矩陣分解非負(fù)矩陣分解(Non-negation Matrix Factorization)是D.D.Lee 和H.S.Seung等提出。它與主成分分析(PCA),奇異值分解(SVD)等類似,都是通過(guò)尋求對(duì)原始矩陣的分解,得到原始矩陣的低維近似。但是,與這些矩陣分解算法不同,非負(fù)矩陣分解克服了傳統(tǒng)矩陣分解的許多問(wèn)題。它通過(guò)尋求上下

25、文有意義的解決方法,提供解釋數(shù)據(jù)的更深層的看法。傳統(tǒng)的矩陣分解,分解出的矩陣可能存在負(fù)的元素。而非負(fù)矩陣分解保證分解出的兩個(gè)矩陣的元素都是非負(fù)的。這在現(xiàn)實(shí)的應(yīng)用中有很多例子。例如,數(shù)字圖像中的像素一般是非負(fù)的,文本分析中的單詞頻率也是非負(fù)的。NMF可以形式化地表示為3.2.3 實(shí)驗(yàn)結(jié)果及分析這三種算法根據(jù)李開復(fù)的微博內(nèi)容,推薦的前20篇新聞所屬的類別如4-6圖 所示。從圖4-6中可以看出,這三種方法都比較集中地推薦了屬于 科技 分類下面的新聞,另外比較多的分類的是 財(cái)經(jīng) 、 娛樂(lè) 。而我們的算法推薦的新聞中屬于 科技 類的新聞的比例更多,其他分類如 體育 , 社會(huì) 等基本沒(méi)有。通過(guò)人工分析李開

26、復(fù)微博的內(nèi)容,我們發(fā)現(xiàn)他的微博中有討論到這方面的內(nèi)容,但是時(shí)間比較早,或者只提到了很少的幾次。因此,在我們的算法中,由于使用了時(shí)間權(quán)重,使得屬于這兩個(gè)分類下的新聞的得分會(huì)比較低。這說(shuō)明我們的算法能更好地發(fā)現(xiàn)用戶實(shí)時(shí)的興趣。圖4-7是三個(gè)算法對(duì)姚晨的微博進(jìn)行分析后推薦的結(jié)果。圖4-8是三個(gè)算法對(duì)匿名用戶 進(jìn)行分析后推薦的結(jié)果。匿名用戶A的微博內(nèi)容主要是轉(zhuǎn)發(fā)一些娛樂(lè)信息,籃球和足球比賽,和自己的一些日常活動(dòng)。從圖4-8中可以看出,NMF算法和PrimaryLDA 算法推薦的新聞沒(méi)有一個(gè)比較明確的分類,每個(gè)分類下面都會(huì)有一些。而我們的算法的推薦結(jié)果則比較集中于體育類別。造成這種結(jié)果的原因可能有以下兩個(gè)方面組成:1、與前面的兩個(gè)公眾人物,李開復(fù)和姚晨,發(fā)布的微博數(shù)量相比,匿名用戶A的微博數(shù)量很少。李開復(fù)和姚晨分別發(fā)布了6000多條和8000多條的微博,而用戶A只發(fā)布了100多條。這造成微博中包含的信息不足。而我們的算法則可以利用維基百科提供的外部知識(shí)進(jìn)行擴(kuò)展。2、與兩個(gè)公眾人物(rnw)的微博相比,用戶A的所有(suyu)微博中有很多與個(gè)人興趣不相關(guān)的微博。這對(duì)NMF算法(sun f)和PrimaryLDA算法造成了一定的干擾。而我們的算法由于

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論