新浪微博的用戶畫像是怎樣構(gòu)建的_第1頁(yè)
新浪微博的用戶畫像是怎樣構(gòu)建的_第2頁(yè)
新浪微博的用戶畫像是怎樣構(gòu)建的_第3頁(yè)
新浪微博的用戶畫像是怎樣構(gòu)建的_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、新浪微博的用戶畫像是如何建立的?1.概括從上一篇認(rèn)識(shí)每一個(gè)“你”:微博中的用戶模型里面對(duì)用戶模型維度的劃分能夠看出,屬性和興趣維度的用戶模型都能夠納入用戶畫像(UserProfile)的范圍。而所謂用戶畫像,簡(jiǎn)單來(lái)說(shuō)就是對(duì)用戶的信息進(jìn)行標(biāo)簽化。如圖1所示。一方面,標(biāo)簽化是對(duì)用戶信息進(jìn)行構(gòu)造化,方便計(jì)算機(jī)的辨別和辦理;另一方面,標(biāo)簽自己也擁有正確性和非二義性,也有益于人工的整理、剖析和統(tǒng)計(jì)。用戶屬性指相對(duì)靜態(tài)和穩(wěn)固的人口屬性,比如:性別、年紀(jì)區(qū)間、地區(qū)、受教育程度、學(xué)校、企業(yè)這些信息的采集和成立主要依賴產(chǎn)品自己的指引、調(diào)查、第三方供給等。微博自己就有比較完好的用戶注冊(cè)指引、用戶信息完美任務(wù)、認(rèn)證

2、用戶審查、以及大批的合作對(duì)象等,在采集和沖洗用戶屬性的過(guò)程中,需要注意的主假如標(biāo)簽的規(guī)范化以及不同根源信息的交錯(cuò)考證。用戶興趣則是更為動(dòng)向和易變化的特點(diǎn),第一興趣遇到人群、環(huán)境、熱門事件、行業(yè)等方面的影響,一旦這些要素發(fā)生變化,用戶的興趣簡(jiǎn)單產(chǎn)生遷徙;其次,用戶的行為(特指在互聯(lián)網(wǎng)上的行為)多樣且碎片化,不同行為反應(yīng)出來(lái)的興趣差別較大。接下來(lái)主要介紹一下微博畫像中興趣維度的建立方法。微博用戶興趣剖析標(biāo)簽根源用戶自標(biāo)簽、達(dá)人或認(rèn)證標(biāo)簽、企業(yè)、學(xué)校、微群標(biāo)簽、星座、微博重點(diǎn)詞這些根源都可能成為用戶的標(biāo)簽。而針對(duì)每個(gè)特定的用戶采集標(biāo)簽除了其自己之外,他關(guān)注用戶的標(biāo)簽也會(huì)傳達(dá)到該用戶身上。如圖2所示(

3、藍(lán)色實(shí)線代表關(guān)注關(guān)系,橙色虛線代表興趣標(biāo)簽根源)。權(quán)重計(jì)算在采集到一個(gè)用戶可能存在的標(biāo)簽后,還需要給標(biāo)簽賦必定的權(quán)重,用來(lái)劃分不同標(biāo)簽關(guān)于該用戶的重要程度。不同標(biāo)簽的根源用戶質(zhì)量,標(biāo)簽的傳達(dá)路徑,轉(zhuǎn)發(fā)關(guān)系,標(biāo)簽的自己,以及標(biāo)簽與用戶之間的共現(xiàn)關(guān)系都會(huì)考慮在內(nèi)。不同質(zhì)量的用戶自己產(chǎn)生的標(biāo)簽權(quán)重不同樣,質(zhì)量越高,以為該標(biāo)簽的可信度越高,不論是將該標(biāo)簽賦給自己仍是傳達(dá)出去的時(shí)候其權(quán)重值越高。標(biāo)簽的傳達(dá)路徑主假如針對(duì)鑒于關(guān)注關(guān)系的標(biāo)簽傳達(dá),親近度比較高的關(guān)注用戶傳達(dá)過(guò)來(lái)的標(biāo)簽權(quán)重值會(huì)比較高。標(biāo)簽是來(lái)自于用戶的原創(chuàng)仍是其轉(zhuǎn)發(fā)的微博,權(quán)重值會(huì)有差別,一般來(lái)說(shuō)原創(chuàng)的權(quán)重會(huì)高于轉(zhuǎn)發(fā)權(quán)重。假如標(biāo)簽自己是一個(gè)非常

4、常有的詞,那么它用于刻畫用戶的興趣的劃分性是比較差的,相反假如是一個(gè)長(zhǎng)尾詞,則劃分性較強(qiáng)。出于這樣的考慮,越是長(zhǎng)尾詞,標(biāo)簽的權(quán)重值會(huì)越高。標(biāo)簽與用戶的共現(xiàn)關(guān)系是指用戶和該標(biāo)簽?zāi)芊癯39餐霈F(xiàn),評(píng)論的是二者的關(guān)系性。關(guān)系性越高,則標(biāo)簽的權(quán)重值越高。綜合上述的要素,一個(gè)標(biāo)簽關(guān)于特定用戶的權(quán)重值能夠大概表示為:標(biāo)簽權(quán)重(根源因子+親近度因子+轉(zhuǎn)發(fā)因子+長(zhǎng)尾因子)共現(xiàn)因子。時(shí)效性跟著時(shí)間的變化,用戶的興趣會(huì)發(fā)生轉(zhuǎn)移,時(shí)間越長(zhǎng)遠(yuǎn),標(biāo)簽的權(quán)重應(yīng)當(dāng)相應(yīng)的降落,距離目前時(shí)間越近的興趣標(biāo)簽應(yīng)當(dāng)獲得適合突出。出于這樣的考慮,一般會(huì)在標(biāo)簽權(quán)重值上疊加一個(gè)時(shí)間衰減函數(shù),這個(gè)時(shí)間衰減函數(shù)被設(shè)計(jì)成如圖3所示的指數(shù)衰減的形

5、式,經(jīng)過(guò)定義衰減幅度和半衰期,調(diào)理衰減的程度,表現(xiàn)不同的時(shí)效性。別的,針對(duì)用戶的興趣,還會(huì)設(shè)定一個(gè)較小的時(shí)間窗口來(lái)獲得用戶的短期興趣。經(jīng)過(guò)用戶在短時(shí)間內(nèi)的原創(chuàng)、轉(zhuǎn)發(fā)和關(guān)注行為采集興趣標(biāo)簽,并計(jì)算標(biāo)簽的權(quán)重。短期興趣更新周期會(huì)較長(zhǎng)久興趣更短,興趣更集中,可是能夠比較實(shí)時(shí)地反響用戶興趣的變化。從興趣到能力但是,用戶擁有某方面的興趣,只代表了他愿意接受這方面的信息,其實(shí)不可以代表他擁有產(chǎn)生有關(guān)內(nèi)容的能力。所以,在發(fā)掘了用戶興趣標(biāo)簽的基礎(chǔ)上,還需要發(fā)掘哪些用戶能夠針對(duì)特定的標(biāo)簽擁有必定的內(nèi)容生產(chǎn)能力。微博中的關(guān)注關(guān)系能夠以為是一種認(rèn)證,擁有同樣興趣的用戶之間的關(guān)注則有可能是興趣相投(自然也可能不是,但畢竟有必定的指導(dǎo)性),那么將擁有

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論