基于文本分析的微博用戶性格獲取模型.doc_第1頁
基于文本分析的微博用戶性格獲取模型.doc_第2頁
基于文本分析的微博用戶性格獲取模型.doc_第3頁
基于文本分析的微博用戶性格獲取模型.doc_第4頁
基于文本分析的微博用戶性格獲取模型.doc_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于文本分析的微博用戶性格獲取模型 畢崇武 (華中師范大學(xué)信息管理學(xué)院湖北武漢430079) 摘要:微博在改變信息傳播方式的同時,受到社會各界的廣泛關(guān)注。如何通過用戶發(fā)布內(nèi)容確定用戶性格成為微博營銷所要解決的關(guān)鍵問題之一。文章依據(jù)現(xiàn)階段網(wǎng)絡(luò)爬蟲、文本分析、心理學(xué)性格分類研究的相關(guān)進(jìn)展,提出一種基于微博內(nèi)容分析確定微博用戶性格的方法,對微博營銷中基于用戶性格的個性化推薦方式提供了有力保障。 關(guān)鍵詞:微博用戶;文本分析;性格特征;模型 :F820:Adoi:103969jissn16652272xx05023 隨著21世紀(jì)信息技術(shù)的快速發(fā)展,以及人們對于電子產(chǎn)品的日益依賴,微博從早期傳播即時發(fā)布消息、用戶評論的輿論平臺,到如今新聞傳播的高效渠道,微博已經(jīng)成為了一個較為多元化的綜合平臺,并最終逐漸成為表達(dá)現(xiàn)代人精神乃至情感方面的媒體。 在企業(yè)日益認(rèn)識到微博對企業(yè)品牌價值影響這一背景下,微博作為近些年廣受歡迎的社交網(wǎng)絡(luò)平臺,其使用用戶的性格特征一直深受社會各界廣泛關(guān)注。目前通過微博內(nèi)容特征確定用戶性格的研究基本停留在表象層面,尚未合理深入到用戶的性格特征的研究層次。本文以傳統(tǒng)詞頻分析法生產(chǎn)用戶常用微博行為標(biāo)簽為基礎(chǔ),通過建立行為性格對照表以及用戶行為性格分析模型,提出一種基于用戶微博內(nèi)容的用戶性格分析方法。 1微博數(shù)據(jù)的獲取 獲取微博用戶發(fā)布內(nèi)容的方式主要有兩種:一是通過網(wǎng)絡(luò)爬蟲爬取客戶微博中所有的用戶數(shù)據(jù),然后在獲取數(shù)據(jù)中提取用戶發(fā)布內(nèi)容;二是通過新浪微博的開放平臺直接獲取站點服務(wù)器上的用戶數(shù)據(jù)和發(fā)布內(nèi)容。這兩種方法獲取微博數(shù)據(jù)都存在獲取數(shù)據(jù)有限的弊端,但整體看來利用編寫爬蟲程序獲取微博用戶發(fā)布內(nèi)容相對較好。該方法實施步驟為:注冊一個微博賬戶,然后用該注冊賬戶關(guān)注所需抓取的目標(biāo)用戶的微博;分析新浪微博網(wǎng)頁結(jié)構(gòu),利用編寫網(wǎng)絡(luò)爬蟲程序,并加載i庫;將抓取的微博用戶數(shù)據(jù)存入數(shù)據(jù)庫中。 通過以上步驟,最終可以實現(xiàn)通過模擬瀏覽器行為獲取頁面標(biāo)簽,抓取新浪微博用戶所發(fā)的微博內(nèi)容、用戶粉絲和關(guān)注數(shù)據(jù),并將獲取數(shù)據(jù)存儲在指定數(shù)據(jù)庫中。 2微博用戶性格分析的實現(xiàn) 21行為標(biāo)簽詞庫的構(gòu)建 微博用戶在微博中的行為無外乎轉(zhuǎn)發(fā)微博、發(fā)送原微博、評論、瀏覽這四種行為。用爬蟲軟件或開發(fā)商提供相應(yīng)的接口程序抓取的大量微博用戶數(shù)據(jù)后,可經(jīng)過數(shù)據(jù)提取的方式獲取用戶發(fā)布內(nèi)容,并選用特定的分詞系統(tǒng)將微博用戶發(fā)布內(nèi)容進(jìn)行分詞;然后依據(jù)用戶在微博中的行為,通過詞頻分析從用戶發(fā)布內(nèi)容中抽出能夠代表某一行為的名詞或者動作(可依據(jù)微博用戶行為動作相關(guān)的詞庫進(jìn)行人工判斷或者運(yùn)用相關(guān)軟件進(jìn)行抽詞分析);并根據(jù)行為行為學(xué)、心理學(xué)等相關(guān)理論基礎(chǔ)規(guī)范化這些抽取名詞或者表達(dá)動作(在不損壞該詞原有含義的情況下進(jìn)行修正或者規(guī)范化),從而形成具有一定表現(xiàn)用戶轉(zhuǎn)發(fā)、評論、發(fā)表某微博當(dāng)時動作或者心理狀態(tài)的標(biāo)簽詞。在創(chuàng)建行為標(biāo)簽詞庫過程中,如果某兩個詞之間具有近似含義,則可通過相關(guān)性程度判斷的方法進(jìn)行近似判斷,進(jìn)而規(guī)定其從屬范圍或者選用一個詞作為標(biāo)簽代表與其含意相近的一類詞。 22行為性格關(guān)系映射表的建立 通過行為標(biāo)簽詞庫的建立可以實現(xiàn)對微博用戶發(fā)布內(nèi)容及其行為的揭示,但微博用戶發(fā)布內(nèi)容及其行為與其性格的關(guān)系需要行為性格關(guān)系映射表進(jìn)行對應(yīng)闡釋。所建立的行為性格關(guān)系表,主要功能是可以實現(xiàn)針對人類發(fā)出某個社會性動作(包括評論、直接的言語表達(dá)、對部分微博轉(zhuǎn)發(fā)等動作),通過查找表中行為性格的對應(yīng)關(guān)系,反映當(dāng)時微博用戶心理的一種狀態(tài)或者反應(yīng)某人當(dāng)時的一種性格上的某種屬性值(諸如厭惡、喜愛、外向等)。 在行為性格關(guān)系表建立過程中,既可以根據(jù)某些實際的性格特征(如外向),又能依據(jù)心理學(xué)性格分類的相關(guān)理論(例如M、九型人格、霍蘭德職業(yè)興趣理論等),通過實踐與心理學(xué)理論相結(jié)合的方法,進(jìn)而更加具體地描述微博用戶擁有的性格特征。在行為心理學(xué)一個多世紀(jì)的發(fā)展過程中,行為與人類心理理論的研究成果已經(jīng)非常豐富,可以基本描述用戶的性格行為關(guān)系;并且在進(jìn)行行為性格表的制定的同時,還得可以運(yùn)用諸如信息組織方面的技術(shù)手段,將行為表達(dá)詞與性格表達(dá)詞的格式進(jìn)行規(guī)范化,以求最終得到符合使用要求的標(biāo)簽詞用來建立行為性格關(guān)系映射表。 23用戶性格獲取模型的構(gòu)建 行為標(biāo)簽詞庫與行為性格關(guān)系映射表的建立可以實現(xiàn)通過分析微博用戶發(fā)布內(nèi)容,抽取用戶微博行為標(biāo)簽(揭示微博用戶行為的標(biāo)簽可以是一個,也可以是多個);然后依據(jù)行為性格關(guān)系映射表中微博用戶行為與性格的對映關(guān)系,獲取用戶的性格。在此過程中,可以借鑒信息檢索中相關(guān)性判斷機(jī)理以及語義判定等方面的理論,將行為性格關(guān)系映射表中表示行為的詞與行為標(biāo)簽詞庫中的詞進(jìn)行語義上的匹配,并從量化的角度判斷兩個相似詞之間的相關(guān)程度,從而判斷該標(biāo)簽詞所能代表多大程度上的某種性格。該步驟的主要目的是將行為性格關(guān)系映射表中表示行為的詞與行為標(biāo)簽詞庫中的詞進(jìn)行統(tǒng)一規(guī)范化處理。在對同一用戶性格進(jìn)行描述時,一個用戶可能具有多種性格,用戶性格獲取模型對用戶性格分析的結(jié)果可以從多個方面進(jìn)行量化。當(dāng)然這一切必須在行為標(biāo)簽詞庫與行為性格關(guān)系映射表建立的基礎(chǔ)上,運(yùn)用數(shù)學(xué)建模方面的技術(shù)手段及其原理,將整個運(yùn)行機(jī)制生成一種可操作的模型,并將通過分析微博用戶發(fā)布內(nèi)容生成的行為標(biāo)簽詞輸入該模型,然后對應(yīng)輸出相關(guān)性格的排序。 總體來說,用戶性格獲取模型應(yīng)該包括:微博用戶發(fā)布內(nèi)容獲取工具(如爬蟲)、文本分詞系統(tǒng)、行為標(biāo)簽詞庫、行為性格關(guān)系映射表、用戶性格綜合判定模型,以及可視化輸入輸出界面。 3模型科學(xué)性的檢驗方法及優(yōu)化 使用用戶性格獲取模型判定微博用戶性格特征的科學(xué)性需要通過實際數(shù)據(jù)進(jìn)行檢驗。在此,本文提出一種模型合理性的檢驗方法,僅供讀者參考:使用編寫爬蟲程序抓取數(shù)據(jù)時,在抓取的用戶群中運(yùn)用統(tǒng)計學(xué)的方法進(jìn)行合理采樣,抽出在部分用戶作為樣本;將抽取的微博用戶發(fā)布的內(nèi)容進(jìn)行行為標(biāo)簽詞處理,輸入最終形成的模型當(dāng)中,得出相應(yīng)微博用戶的性格特征;采用心理學(xué)人物性格分析方法,對抽取的樣本用戶發(fā)送心理學(xué)中有關(guān)性格調(diào)查方面的問問卷,進(jìn)行用戶性格測試;問卷回收之后,采用心理學(xué)人物性格分析方法對問卷進(jìn)行分析,進(jìn)而得出較為準(zhǔn)確的用戶性格;將問卷調(diào)查結(jié)果與模型分析結(jié)果相比較。運(yùn)用相關(guān)性理論以及心理學(xué)方面對于兩個描述性格特征近義詞的相關(guān)理論進(jìn)行判斷,或者根據(jù)相關(guān)詞典中對于語義的解釋進(jìn)行人為主觀判斷專家打分法,得出模型分析結(jié)果與問卷調(diào)查結(jié)果匹配的相似度;依據(jù)得到的相似度對構(gòu)建模型的科學(xué)性進(jìn)行評判,并作為模型改進(jìn)的重要依據(jù)。 以上方法不僅可以作為評價構(gòu)建模型科學(xué)性、合理性的重要手段,而且可以作為模型改進(jìn)的重要依據(jù),但在選取調(diào)查用戶樣本和設(shè)計調(diào)查問卷時應(yīng)帶注意樣本選取的合理性以及問卷設(shè)計的科學(xué)性。 4基于用戶性格的個性化推薦方法 基于性格的推薦主要有兩種實施方法:一是只考慮用戶性格特征,指通過用戶性格來計算用戶相似度;二是通過在傳統(tǒng)的協(xié)同過濾模型中加入用戶性格這一指標(biāo),綜合考慮用戶性格特征和用戶評分,通過加權(quán)計算得出最終用戶相似度。 第一種方法首先需要獲取用戶的性格特征,然后考慮不同用戶性格特征之間的相似度,選取不同用戶之間相似值小于一定閥值的用戶進(jìn)行群體推銷。在推銷過程中可以選擇以用戶為角度、以對象為角度以及基于項目的不同推薦模式,最終實現(xiàn)基于用戶性格的個性化推薦方法,為微博營銷中的個性化推薦提供有力保障。第二種方法相比第一種略微復(fù)雜,需要綜合考慮不同的用戶屬性以加權(quán)的方式獲取用戶的總體特征,并計算用戶之間的相似值,但基本原理與第一種方法相當(dāng)。 5結(jié)語 從當(dāng)前企業(yè)不能很好結(jié)合微博用戶性格進(jìn)行微博營銷這一實際出發(fā),提出一種通過運(yùn)用傳統(tǒng)詞頻分析生成用戶微博行為標(biāo)簽(該標(biāo)簽揭示微博用戶發(fā)布某內(nèi)容所表達(dá)的行為及含義),構(gòu)建行為性格關(guān)系對映表的微博用戶性格

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論