情感詞獲取與分類評級_第1頁
情感詞獲取與分類評級_第2頁
情感詞獲取與分類評級_第3頁
情感詞獲取與分類評級_第4頁
情感詞獲取與分類評級_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、情感詞獲取與分類評級一、研究背景近年來BBS的迅速開展,主觀性的言論越來越多。如何構(gòu)建一個高效的系統(tǒng)對如此豐富的信息資源進(jìn)展分析和處理,成為一個重要的研究問題。而對BBS信息資源的分析和處理,可以通過中心詞和情感詞兩個維度進(jìn)展處理。對于中心詞的歸類已經(jīng)有了相對較為完好的分析體系,產(chǎn)生了很多有監(jiān)視的學(xué)習(xí)方法以及文本特征表示方法和特征選擇機(jī)制。而情感詞的分類和評級以主觀詞為主,因此針對中心詞的選擇機(jī)制及方法在情感詞上不能完全加以應(yīng)用。本文主要以中山大學(xué)BBS的帖子為研究內(nèi)容,選擇適宜的情感詞分類方法,對情感詞進(jìn)展細(xì)分及評級,從而得出一個滿足中大BBS輿情分析系統(tǒng)的情感詞分類體系。二、國內(nèi)外研究現(xiàn)狀

2、分析目前,基于語義的文本傾向性研究方法主要有兩種:一種是通過現(xiàn)有詞典構(gòu)建情感傾向詞典。如,Hiroya利用待測詞與褒義詞、貶義詞的語義間隔 計算待測詞匯的語義傾向性;Ku等利用WORDNET中的其他與詞匯相關(guān)的信息來判斷詞匯的語義傾向性;徐琳宏等采用HOWNET作為基準(zhǔn)詞,并在實驗中參加否認(rèn)詞和副詞的處理,計算待測詞與關(guān)聯(lián)度確定語義傾向,從語義理解方面對電影評論進(jìn)展了傾向性識別研究。另一種是建立一個語義形式庫,采用語義分析技術(shù)用于文本傾向性判斷。例如,復(fù)旦大學(xué)的朱嫣嵐等年提出的基于HOWNET的詞匯語義傾向計算方法,利用詞語間的相似度來計算詞的褒貶程度。路彬等設(shè)計了一種基于語義分析的信息過濾模

3、型,該模型針對不良信息的特點,以自然語句為處理單元,采用主題詞和語義分析的兩級過濾工作形式。但情感詞的分類和評級以主觀詞為主,因此針對中心詞的選擇機(jī)制及方法在情感詞上不能完全加以應(yīng)用。三、研究目的通過對帖子出現(xiàn)的情感的類型與強(qiáng)度進(jìn)展標(biāo)引,將情感詞進(jìn)展分類,把情感詞的強(qiáng)度按正面到負(fù)面分成等級進(jìn)展標(biāo)引。其中的軟件處理流程類似于中心詞的標(biāo)引。當(dāng)新詞解析字典沒有的詞發(fā)現(xiàn)以后,通過語義相近度計算軟件,比較與字典中詞匯的相近程度,通過人工干預(yù)半自動或全自動進(jìn)展中心詞與情感詞的添加。最后通過對帖子數(shù)據(jù)的分析和調(diào)查,對情感詞的分類和標(biāo)引,開發(fā)一個可以實現(xiàn)將中大bbs的帖子進(jìn)展實時抓取和自動分類的系統(tǒng)。四、研究

4、內(nèi)容帖子的分類標(biāo)引以及中心詞的主題分類標(biāo)引這兩個方面在去年師兄師姐的努力下已經(jīng)完成了44067個帖子的抓取和分類,因此今年我們主要針對帖子情感詞分類以及評級這一塊開始入手。情感心理學(xué)認(rèn)為,情感的根本類型可以分為以下四種:即快樂,憤怒,恐懼和悲傷。為進(jìn)一步解決這個問題,我們通過對人類情感有關(guān)資料的查找發(fā)現(xiàn):人的感情復(fù)雜多樣,由于不同事情引起的同一類情感也有許多不同,即使是同一個人對同一件事情在同一個環(huán)境下也可能會有不同的情感,而不同的視野角度對情感詞的分類也有所不同。因此通過對BBS中隨機(jī)抽取的詞語,我們除去可以分類的,根據(jù)無法準(zhǔn)確分類的進(jìn)展歸納,我們利用知網(wǎng)發(fā)布的wordsimilarity進(jìn)

5、展義項查找,發(fā)現(xiàn)一項出現(xiàn)頻率較高的情感類型:憐憫。古人云:人有七情六欲,對于心理學(xué)來說,七情分別是:喜怒哀樂驚慌憐。喜怒哀樂驚慌都可以在根本類型中找到位置,而憐似乎放在哪一個類型里面都不完全恰當(dāng)。綜上,我們把憐憫列為單獨的一項。情感大類分為:快樂,憤怒,恐懼,悲哀和憐憫五種。快樂是指一個人期望和追求的目的到達(dá)后產(chǎn)生的情緒體驗。由于需要得到滿足,愿望得以實現(xiàn),心理的急迫感和緊張感解除,快樂隨之而生:樂:指歡樂,身心愉悅,充滿幸福的一種情感;喜:包括喜歡、喜悅、愛好、喜歡、快樂、快樂等情感。憤怒是指需求受到抑制或阻礙,愿望無法實現(xiàn)時產(chǎn)生的情緒體驗。憤怒時緊張感增加,有時不能自我控制,甚至出現(xiàn)攻擊行

6、為:怒:包括憤怒、惱怒、發(fā)怒、怨恨、憤怒等情感??謶质钱?dāng)危險狀況出現(xiàn)時,人們企圖擺脫和逃避,而又無力應(yīng)付時產(chǎn)生的情緒體驗:驚:指驚咤、驚愕、驚慌、驚悸、驚奇、驚嘆、驚喜、驚訝等情感;恐:指恐慌、恐懼、害怕、擔(dān)憂、擔(dān)憂、畏懼等情感。悲哀是指心愛的事物失去時,或者夢想破滅時產(chǎn)生的情緒體驗:哀:包括悲傷、悲哀、悲哀、憐憫、哀憐、哀愁、哀憫、哀怨、哀思等情感。憐憫是指對肉體或精神上遭受痛苦的人或者對不幸的人表示同情的情緒體驗:憐:包括憐憫、哀憐、同情等情感。為了使分類體系可以更加標(biāo)準(zhǔn)準(zhǔn)確的劃分情感詞,我們利用知網(wǎng)發(fā)布的wordsimilarity對以上五類情感詞進(jìn)展義原判斷,得到以下結(jié)果:為了方便分類

7、,我們再把情感詞義原兩兩之間進(jìn)展間隔 計算,得到以下結(jié)果:對此,我們可以發(fā)現(xiàn)害怕,生氣,悲哀三個負(fù)面情感詞兩兩之間的間隔 和相似度是一樣的;而喜悅,憐憫分別與三個負(fù)面義原之間的間隔 和相似度是一樣的;憐憫與喜悅之間的間隔 和相似度與憐憫與其他三個負(fù)面義原之間的間隔 和相似度是一樣的。因此,我們先著手研究負(fù)面情感詞三個義原之間的關(guān)系,我們先根據(jù)義原間隔 構(gòu)建一個等邊三角形,三角形的三個頂點分別為三個義原,如圖:害怕生氣悲哀生氣害怕為了進(jìn)一步確認(rèn)分類體系,我們在上一屆同事的工作根底上,通過對他們抓取到部分中大BBS帖子共5578個人工挑選的情感詞進(jìn)展驗證,共342個。由4個成員獨立進(jìn)展情感詞的類型分類,從中獲得分類一致的結(jié)果,對于有歧義的情感詞,我們對其進(jìn)展再次分類,刪除無法得出一致結(jié)果的詞語。以同樣的步驟對正面情感詞進(jìn)展操作。這樣,結(jié)合HOWNET發(fā)布的,一共得到各類情感詞978個,分類如下表。即在此根底上,建立情感詞分類體系如下:五、結(jié)語本分類體系是根據(jù)已有研究成果和從中大BBS帖子中已抽取出并去重后的情感詞詞表的根底上確立的分類體系,通過人工分類和修正,將情感詞進(jìn)展有效分類,這個分類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論