版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、碩士學(xué)位論文中文產(chǎn)品評論的意見挖掘研究Research on Opinion Mining of Product Reviews in Chinese作者:嚴(yán)孫榮導(dǎo)師:瞿有利北京交通大學(xué)2010年5月學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解北京交通大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定。特授權(quán)北京交通大學(xué)能夠?qū)W(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,提供閱覽服務(wù),并采納影印、縮印或掃描等復(fù)制手段保存、匯編以供查閱和借閱。同意學(xué)校向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤。(保密的學(xué)位論文在解密后適用本授權(quán)講明)學(xué)位論文作者簽名: 導(dǎo)師簽名:簽字日期: 年 月 日 簽字日期: 年 月 日中
2、圖分類號:TP391.3UDC:620學(xué)校代碼:10004密級:公開北京交通大學(xué)碩士學(xué)位論文中文產(chǎn)品評論的意見挖掘研究Research on Opinion mining of Product Reviews in Chinese作者姓名:嚴(yán)孫榮 學(xué) 號:08120510導(dǎo)師姓名:瞿有利 職 稱:副教授學(xué)位類不:工學(xué) 學(xué)位級不:碩士 學(xué)科專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)研究方向:自然語言處理北京交通大學(xué)2010年5月致謝本論文的工作是在我的導(dǎo)師瞿有利副教授的悉心指導(dǎo)下完成的,瞿有利副教授嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度和科學(xué)的工作方法給了我極大的關(guān)心和阻礙。在此衷心感謝兩年來瞿有利老師對我的關(guān)懷和指導(dǎo)。尹傳環(huán)老師悉心指導(dǎo)
3、我們完成了實(shí)驗(yàn)室的科研工作,在學(xué)習(xí)上和生活上都給予了我專門大的關(guān)懷和關(guān)心,在此向尹傳環(huán)老師表示衷心的謝意。王志海和田盛豐教授關(guān)于我的科研工作和論文都提出了許多的寶貴意見,在此表示衷心的感謝。在實(shí)驗(yàn)室工作及撰寫論文期間,張美珍、張彥博和張尚超等同學(xué)對我論文中的意見挖掘研究工作給予了熱情關(guān)心,在此向他們表達(dá)我的感激之情。另外也感謝女朋友符蓉,他們的理解和支持使我能夠在學(xué)校用心完成我的學(xué)業(yè)。嚴(yán)孫榮2010年5月 于北京摘要隨著電子商務(wù)的迅猛進(jìn)展,用戶購買和使用產(chǎn)品之后會在Web上發(fā)表對產(chǎn)品的評論,產(chǎn)品評論的自動挖掘關(guān)于商家和潛在的消費(fèi)者有著重要意義。本文以中文產(chǎn)品評論為要緊研究對象,從評論的整體褒貶
4、分類和細(xì)顆粒的產(chǎn)品意見挖掘兩個層面進(jìn)行分析研究,論文要緊內(nèi)容如下:采納機(jī)器學(xué)習(xí)的方法對產(chǎn)品評論進(jìn)行整體褒貶分類研究。構(gòu)建用于產(chǎn)品評論褒貶分類的語料庫;采納基于N-Gram文本特征抽取(分為基于詞的 unigram,bigram和基于字的unigram,bigram,trigram),結(jié)合不同的特征權(quán)重計(jì)算方法(TF,BOOL,TFIDF),在不同的分類算法(樸素貝葉斯、最大熵和支持向量機(jī))進(jìn)行分類實(shí)驗(yàn)。實(shí)驗(yàn)表明使用基于字的bigram特征表示并結(jié)合基于詞頻的加權(quán)方法在支持向量機(jī)分類器下取得了最好的分類性能,準(zhǔn)確率為94.74%。在特征抽取上,采納基于后綴樹結(jié)構(gòu)的特征提取算法,提取關(guān)鍵子串組作為
5、文本特征。實(shí)驗(yàn)表明基于后綴樹的關(guān)鍵子串組的特征表現(xiàn)能力強(qiáng)而且特征維度低,分類的準(zhǔn)確率略高于基于N-Gram文本特征表示的分類效果。設(shè)計(jì)并實(shí)現(xiàn)了基于依存句法分析的細(xì)顆粒意見挖掘算法和基于關(guān)鍵字匹配的細(xì)顆粒意見挖掘算法,并構(gòu)建產(chǎn)品特征庫和中文極性詞典。實(shí)驗(yàn)表明關(guān)鍵字匹配方法好于基于依存句法分析方法。最后,設(shè)計(jì)并實(shí)現(xiàn)了一個產(chǎn)品評論意見挖掘系統(tǒng),該系統(tǒng)能夠自動抓取指定的評論頁面并抽取評論內(nèi)容,可從整體和細(xì)顆粒兩個層面對產(chǎn)品評論進(jìn)行意見分析,并將意見分析結(jié)果存入產(chǎn)品意見庫中,提供可視化的統(tǒng)計(jì)展現(xiàn)。關(guān)鍵詞:產(chǎn)品評論;情感分類;意見挖掘;自然語言處理分類號:TP391.3ABSTRACTNowadays,
6、the electronic commerce plays a more and more important role in our daily life. Consumers always express opinions on the product via the Web after using the product. The automatic mining on these comments is important for the potential consumers and enterprises. We focus on Chinese product reviews.
7、We analyzed the comments on two levels including document-level sentiment classification and feature-based product opinion mining. The main contents are as follows:We employ machine learning algorithm to perform the document-level sentiment classification of the product reviews. We collect corpus fr
8、om online reviews; investigate the N-Gram based feature representation including Word-Based Uigram, Bigram and Chinese Character-Based Unigram, Bigram, trigram; analysis different feature weighting approaches(TF, BOOL, TFIDF), compare different classification algorithms (Naive Bayes, Maximum Entropy
9、 and Support Vector Machine). The SVM using Chinese Character Bigram-based feature extraction method and word frequency based text representation has the best performance, of which the accuracy was 94.74%. We researched suffix tree based structure algorithm extracting the Key Substring Group feature
10、s. Experiments show that the Key Substring Group features have better description of the comments sentiment classification, lower dimension, and better accuracy than other text features represented in SVM.We investigated dependency parsing based algorithm and keyword matching based algorithm for fea
11、ture-based opinion mining. We construct a product features library and a Chinese polarity Dictionary. Experiments show that the keyword based method is better than the dependency parsing based method.We designed and implemented a product review opinion mining system. The system can automatically cra
12、wl and extract specified comments on review pages, then analysis the reviews, save the result into the products opinion library. Users can get visualized result which will be helpful for decision making.KEYWORDS:Product Review; Sentiment Classification; Opinion Minng; Natural Language ProcessingCLAS
13、SNO:TP391.3目錄 TOC o 1-3 h z u HYPERLINK l _Toc263864454 摘要 24中對SBV算法進(jìn)行了補(bǔ)充。算法如下:對每個利用SBV算法分析時計(jì)算的主題(subject),假如是產(chǎn)品特征詞,則記錄下來;關(guān)于使用過的極性詞,也作上標(biāo)記。在利用SBV算法分析之后,接著查找整個句子中沒有標(biāo)記過的產(chǎn)品特征詞,并查找它的ATT(定中結(jié)構(gòu))關(guān)系對,關(guān)于所有ATT關(guān)系對,查找含有極性詞的關(guān)系對,并將當(dāng)前的極性詞的上下文極性給予此產(chǎn)品特征。記錄以上所有算法步驟中(包括SBV分析算法)使用過極性詞,查找沒有使用過的極性詞UnHandledPolar。因?yàn)?,假如UnHan
14、dledPolar是一個修飾產(chǎn)品特征詞的前綴,那么在2)中就差不多使用了,因此UnHandledPolar不可能是前綴詞,因此,向前查找最鄰近的產(chǎn)品特征詞,將當(dāng)前的極性詞作為調(diào)整參數(shù),調(diào)整Topic的極性。經(jīng)婁德成改進(jìn)后的SBV算法,差不多能夠解決大部分的意見挖掘任務(wù)。然而依舊存在一個問題,算法將每個產(chǎn)品特征詞獨(dú)立的進(jìn)行計(jì)算,并沒有考慮特征詞之間的關(guān)系。當(dāng)多個特征詞連續(xù)出現(xiàn)的情況時,例如:“電池的待機(jī)時刻相當(dāng)長”,句子中出現(xiàn)兩個特征詞“電池”,“待機(jī)時刻”,算法將分不計(jì)算兩個特征詞的情感。那個地點(diǎn)本文添加對多特征詞連續(xù)出現(xiàn)的處理。假如兩個特征之間只有一個“的”字的情況,則查詢產(chǎn)品特征庫推斷是否
15、為從屬關(guān)系。假如特征之間無從屬關(guān)系,則分不進(jìn)行計(jì)算?;陉P(guān)鍵字匹配的意見挖掘基于依存句法的極性傳遞方法,專門好的利用了語義的特性,然而它最大的問題在于對依存句法分析器的依靠太高,假如語法分析錯誤,那么將直接導(dǎo)致分析結(jié)果的錯誤。為此,本文實(shí)現(xiàn)一種較為直觀的方法,要緊的思想確實(shí)是使用關(guān)鍵字進(jìn)行匹配,通過查找產(chǎn)品特征詞的最近出現(xiàn)的極性詞來計(jì)算極性。圖4.7為關(guān)鍵字匹配方法算法的整個挖掘流程。圖4.7關(guān)鍵字匹配算法流程圖Figure.4.7 The Flow chart of Key-Word based Mining Algorithm下面詳細(xì)介紹流程處理內(nèi)容。獵取評論文本。將評論文本按指定格式讀入
16、程序中。切分分句。得到評論文本之后,首先進(jìn)行適當(dāng)?shù)臄嗑?,以空格,分號,逗號,“”,“”為?biāo)記進(jìn)行切分。分詞和詞性標(biāo)記。調(diào)用ICTCLAS進(jìn)行中文分詞和詞性標(biāo)注。分析句子的句式。分析評論的句式,推斷句式類型,確定單句或復(fù)句,推斷是否為疑問句,感嘆句等。并過濾復(fù)句中出現(xiàn)了假設(shè)連詞和條件連詞的句子。關(guān)鍵詞標(biāo)記。借助于中文極性詞典和產(chǎn)品特征庫,將文中出現(xiàn)的產(chǎn)品特征詞,極性詞進(jìn)行標(biāo)記。所有關(guān)鍵詞匹配過程過中,要求詞的名稱和詞性都必須匹配。評論句子選擇。要緊是過濾那些沒有表達(dá)實(shí)際意見的句子。分為兩種情況:過濾那些句子中既沒有出現(xiàn)產(chǎn)品特征詞,也沒有出現(xiàn)極性詞的句子。過濾只表達(dá)了希望或者建議的態(tài)度和“沒有”、
17、“尚未”等句式,這些句子一般以“建議,強(qiáng)烈建議,沒有的情況”的形式出現(xiàn)。計(jì)算極性詞的上下文極性。借助于否定詞詞典和強(qiáng)調(diào)詞詞典。對每個分句中的極性詞,查找當(dāng)前分句中是否出現(xiàn)了否定詞和強(qiáng)調(diào)詞,假如有,則對當(dāng)前極性詞進(jìn)行極性調(diào)整。關(guān)鍵字匹配計(jì)算。以分句為單位進(jìn)行意見抽取。要緊分如下五種情況單產(chǎn)品特征詞和單極性詞。如“性價比高”,此類評論句子是評論的要緊表現(xiàn)形式。處理的方法也比較簡單,將當(dāng)前分句中極性詞的情感方向,賦于當(dāng)前分句中的產(chǎn)品特征,并將此關(guān)系對和情感結(jié)果存入意見結(jié)果庫中。單產(chǎn)品特征詞多個極性詞。如“這款手機(jī)漂亮又大方”,則分不計(jì)算每個極性詞,且分不保存產(chǎn)品特征和極性詞的關(guān)系對和情感結(jié)果。并列多
18、產(chǎn)品特征詞,也稱作多特征的情況?,F(xiàn)在需要推斷特征詞之間的關(guān)系,假如是從屬關(guān)系,本文處理兩個特征之間只有一個“的”字的情況,如“屏幕的尺寸”、“信號的強(qiáng)度”、“鍵盤的手感”等中的“屏幕”和“尺寸”、“信號”和“強(qiáng)度”、“鍵盤”和“手感”這些產(chǎn)品特征詞之間的關(guān)系確實(shí)是從屬關(guān)系。假如特征之間無從屬關(guān)系,例如“外觀和性價比都專門不錯”,則把評論句子中找到的所有特征連接上極性詞,獲得多個特征關(guān)系對。非連續(xù)的多產(chǎn)品特征詞。如“優(yōu)良的性能和超低的價格”,則推斷假如存在連詞則以連詞為分隔符。對每個特征詞,先查找特征詞前的極性詞再查找特征詞后的極性詞。只有特征詞無極性詞。如“九百多的價格,依舊比較劃算的”。推斷
19、下一個分句,假如下一個分句沒有出現(xiàn)新的特征詞,同時含有極性詞。則將下一個分句中的極性詞作為當(dāng)前分句中的產(chǎn)品特征詞的情感極性。只有極性詞。如“漂亮,大方,易操作”。嘗試查找隱式產(chǎn)品特征指示規(guī)則,如“漂亮”則對應(yīng)的產(chǎn)品的外觀等。統(tǒng)計(jì)分析結(jié)果。以產(chǎn)品特征為單位,統(tǒng)計(jì)所有的分析結(jié)果,并存入產(chǎn)品意見庫中。意見挖掘?qū)嶒?yàn)測試語料實(shí)驗(yàn)要緊選擇了京東網(wǎng)()上部分熱賣產(chǎn)品的相關(guān)評論作為測試數(shù)據(jù)集,選擇手機(jī)的相關(guān)評論作為研究對象。本文隨機(jī)選擇了500條句子進(jìn)行實(shí)驗(yàn),其中包含了280個褒義評論句,150個貶義評論句子,70條個褒貶都含有的評論句子。為了驗(yàn)證算法的性能,本文對所有句子進(jìn)行標(biāo)注,要緊包括產(chǎn)品特征詞、極性詞
20、、極性修飾詞、褒貶色彩和極性強(qiáng)度。在標(biāo)記的過程中也發(fā)覺,人工去發(fā)覺評論中的產(chǎn)品特征,并推斷出用戶所表達(dá)的意見,是一件特不耗時的工作。表4.3為人工標(biāo)注示例。表4.3意見挖掘手工標(biāo)注結(jié)果Table 4.3 Manual Labeling of Opinion Sentences評論句子內(nèi)容產(chǎn)品特征詞極性詞強(qiáng)度褒貶色彩Q8在運(yùn)行速度上的表現(xiàn),在目前同品牌的手機(jī)型號中絕對是最優(yōu)秀的!運(yùn)行速度優(yōu)秀+2支持它的外觀設(shè)計(jì)新穎,拿在手上相當(dāng)酷。外觀新穎酷+1+2支持相當(dāng)支持我昨天剛買了諾基亞5230,今天就降價了!只是它的性價比依舊相當(dāng)高的。諾基亞性價比高+2客觀相當(dāng)支持這款手機(jī)的屏幕專門炫,只是電池不如何
21、耐用!屏幕電池炫不耐用+1-1相當(dāng)支持反對實(shí)驗(yàn)結(jié)果和分析首先,本文對詞語的上下文極性計(jì)算進(jìn)行實(shí)驗(yàn)。我們在500個評論中,共標(biāo)注了904個極性詞。通過手工標(biāo)注,發(fā)覺句子中含有否定詞的比例為18%,含有強(qiáng)調(diào)詞的比例為35%,含有產(chǎn)品特征相關(guān)的極性詞為13%,這些詞假如只通過統(tǒng)計(jì)的方法是無法有效識不的,勢必會造成極性差不方向的錯誤和極性強(qiáng)度的失真,也講明本文中的極性詞典的構(gòu)建是比較合理的。接下來我們對評論中所涉及的產(chǎn)品特征進(jìn)行極性計(jì)算,實(shí)驗(yàn)要緊驗(yàn)證兩個內(nèi)容:一、產(chǎn)品特征和極性詞的關(guān)系匹配。如(性價比,高),(功能,強(qiáng)大)。產(chǎn)品特征是意見挖掘的主題,只要找到修飾它的極性詞,也確實(shí)是找到正確的關(guān)系匹配,
22、就能夠正確的分析產(chǎn)品特征的情感。二、產(chǎn)品特征的情感方向。情感方向由極性詞的上下文極性計(jì)算而得。由于手工標(biāo)注的主觀性,以及極性詞典、詞語權(quán)重的相對主觀性,我們專門難做到手工標(biāo)注的結(jié)果和系統(tǒng)自動計(jì)算的結(jié)果精確匹配,為了減少這些差異,本文只考慮極性方向分析是否正確,而沒有細(xì)究其極性強(qiáng)弱,因?yàn)闃O性強(qiáng)弱是能夠通過極性詞典調(diào)整的。為了測試意見挖掘的性能,本文保證了在實(shí)驗(yàn)語料中出現(xiàn)的產(chǎn)品特征詞和極性詞在產(chǎn)品特征詞庫和極性詞庫中基礎(chǔ)差不多構(gòu)建。因此借助于兩個基礎(chǔ)庫,能夠?qū)⒄Z料中出現(xiàn)的產(chǎn)品特征詞和極性詞進(jìn)行全部標(biāo)記。本文共標(biāo)記了953個產(chǎn)品特征詞,904個極性詞,其中對特征詞表達(dá)了有效的情感意見的關(guān)系對共有81
23、8對。表4.4意見挖掘關(guān)系對結(jié)果Table 4.4 the result of opinion mining relationship算法正確匹配數(shù)量準(zhǔn)確率依存句法51562.9%關(guān)鍵字匹配77796.2%從上表能夠看出,依存句法的準(zhǔn)確性較低,緣故是特征詞和真正修飾它的極性詞不能被正確的在依存句法中分析出來,也確實(shí)是在進(jìn)行依存句法分析時就差不多帶入了許多的錯誤。本文也深入地解了目前中文句法分析器的工作原理,了解到在構(gòu)建句法分析模型時使用的訓(xùn)練語料差不多上一些規(guī)范的,完整的句子。而本文研究的對象是互聯(lián)網(wǎng)上的產(chǎn)品評論,它的要緊特點(diǎn)是語句結(jié)構(gòu)不規(guī)范,口語化比較嚴(yán)峻,同時會有相當(dāng)多的網(wǎng)絡(luò)詞語,如“偶”
24、代表“我”,和其他一些網(wǎng)上的流行語等。標(biāo)點(diǎn)符號使用隨意,直接阻礙斷句不準(zhǔn)確,有時候一個句子過長,如此句法分析器就專門難分析句子的結(jié)構(gòu)。為了提高語法分析器的準(zhǔn)確率,本文進(jìn)行了一些處理,假如及時的斷句,使用盡量短的句子送入分析器,將一些網(wǎng)絡(luò)詞語進(jìn)行替換等,這在一定程序上提高了分析的準(zhǔn)確性。由于基于依存句法的極性傳遞算法過于依靠極性分析的準(zhǔn)確率,直接導(dǎo)致算法實(shí)際效果不是專門理想。基于關(guān)鍵字匹配的方法,獲得了較高的準(zhǔn)確率,達(dá)到96.2%。通過直觀的將最近出現(xiàn)的產(chǎn)品特征詞和極性詞進(jìn)行關(guān)聯(lián),在本實(shí)驗(yàn)語料中也有較好的表現(xiàn),同時關(guān)鍵字匹配的方法,不需要依靠語法等預(yù)處理,同時計(jì)算速度快,比較適合于實(shí)際的系統(tǒng)應(yīng)用
25、。本章小結(jié)本章從細(xì)顆粒的層面對產(chǎn)品評論進(jìn)行意見挖掘,分不介紹了產(chǎn)品特征庫的構(gòu)建,中文極性詞典的構(gòu)建,對中文產(chǎn)品評論語言的特點(diǎn)進(jìn)行分析,分不采納基于依存句法和基于關(guān)鍵字匹配的方法進(jìn)行評論的意見挖掘。最后設(shè)計(jì)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明基于關(guān)鍵字匹配的方法有較高的準(zhǔn)確率。產(chǎn)品評論意見挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)系統(tǒng)整體設(shè)計(jì)本文在整理了論文前部分的研究成果之后,將它們進(jìn)行整合,初步實(shí)現(xiàn)了一套比較完善的產(chǎn)品挖掘系統(tǒng),能夠?qū)崿F(xiàn)產(chǎn)品意見挖掘整個流程,并取得了不錯的效果。系統(tǒng)要緊包括評論下載與內(nèi)容提取、評論意見挖掘、人機(jī)交互可視化三部分內(nèi)容。系統(tǒng)的要緊結(jié)構(gòu)如下:圖5.1產(chǎn)品評論意見挖掘系統(tǒng)體系結(jié)構(gòu)Figure.5.1 The
26、Architecture of Product Reviews Opinion Mining System系統(tǒng)開發(fā)環(huán)境本系統(tǒng)開發(fā)使用Java語言來開發(fā)。Java是一種簡單的、面向?qū)ο蟮摹⑿阅軆?yōu)異、多線程的動態(tài)語言。Java由Sun公司于1995年5月正式推出,進(jìn)展到現(xiàn)在差不多有了專門長時刻,現(xiàn)現(xiàn)在差不多是當(dāng)今軟件開發(fā)的要緊語言。系統(tǒng)的開發(fā)環(huán)境匯總?cè)缦拢翰僮飨到y(tǒng):Windows xp2。硬件環(huán)境:CPU,Interl E4500;內(nèi)存,2G。開發(fā)平臺:Eclipse3.4,JDK1.6。WEB服務(wù)器:Tomcat6.0。前端展現(xiàn):Extjs 3.0, JFreeChart 1.0。數(shù)據(jù)庫:MyS
27、ql 5.0??梢暬缑嫔杀鞠到y(tǒng)采納基于B/S的結(jié)構(gòu)進(jìn)行開發(fā),應(yīng)用Extjs框架創(chuàng)建前端用戶界面。ExtJS能夠用來開發(fā)RIA也即富客戶端的AJAX應(yīng)用,是一個用Javascript寫的與后臺技術(shù)無關(guān)的前端AJAX框架。因此,能夠把ExtJS用在.Net、Java、Php等各種開發(fā)語言開發(fā)的應(yīng)用中。ExtJs最開始基于YUI技術(shù),由開發(fā)人員JackSlocum開發(fā),通過參考Java Swing等機(jī)制來組織可視化組件,不管從UI界面上CSS樣式的應(yīng)用,到數(shù)據(jù)解析上的異常處理,都可確實(shí)是一款不可多得的JavaScript客戶端技術(shù)的精品。為了讓用戶更方便和快速地了解產(chǎn)品評論的分析結(jié)果,本文使用圖
28、表的表現(xiàn)形式,借助于JFreeChart軟件展現(xiàn)圖形化。JFreeChart是Java平臺上的一個開放的圖表繪制類庫,它完全使用Java語言編寫,是為applications, applets, servlets以及JSP等使用所設(shè)計(jì)。JFreeChart可生成餅圖(pie charts)、柱狀圖(bar charts)、散點(diǎn)圖(scatter plots)、時序圖(time series)、甘特圖(Gantt charts)等等多種圖表,同時能夠產(chǎn)生PNG和JPEG格式的輸出,還能夠與PDF和EXCEL關(guān)聯(lián)。JFreeChart是目前比較常用的Java圖形解決方案,差不多能夠解決目前的圖形方
29、面的需求。產(chǎn)品特征庫和極性詞典的治理產(chǎn)品特征庫維護(hù)產(chǎn)品特征包括兩類:產(chǎn)品類型和產(chǎn)品屬性?,F(xiàn)代科技的發(fā)達(dá),致使各種產(chǎn)品更新?lián)Q代的速度特不快,不斷有新產(chǎn)品上市,新功能公布,尤其是IT產(chǎn)品、手機(jī)數(shù)碼產(chǎn)品等。這也要求我們必須不斷完善系統(tǒng)的產(chǎn)品特征庫,保證產(chǎn)品特征庫盡可能高的覆蓋率。系統(tǒng)設(shè)計(jì)了產(chǎn)品類型表和產(chǎn)品特征詞表,本文在系統(tǒng)開發(fā)中,手工整理了手機(jī)相關(guān)的179個特征詞。表5.1產(chǎn)品類型表Table 5.1 The Table of Product Type字段名稱類型長度講明product_type_idint4產(chǎn)品類型IDtype_namevarchar50類型名稱type_levelint4類型層
30、次,1為產(chǎn)品類型,2為品牌,3為型號parent_idint4父級ID表5.2產(chǎn)品特征表Table 5.2 The Table of Product Feature字段名稱類型長度講明feature_idint4特征IDfeature _namevarchar50特征詞名稱feature _levelint4類型層次 parent_idint4父級IDfeature_synonymvarchar500特征同義詞,以“”隔開,如電池和電板,外觀和外形。極性詞庫維護(hù)中文極性詞的數(shù)量是龐大的。極性詞典構(gòu)建在第四章中差不多提到,它包括了基礎(chǔ)極性詞典、網(wǎng)絡(luò)極性詞典、領(lǐng)域極性詞典,產(chǎn)品特征相關(guān)極性詞典四個
31、部分和兩部極性修飾詞典,即否定詞詞典和強(qiáng)調(diào)詞詞典。要求系統(tǒng)必須定期對這些詞典進(jìn)行維護(hù)更新,以保證系統(tǒng)分析的正確性。第四章中具體介紹了極性詞的構(gòu)建過程,本文將第四章中手工整理的極性詞大約900個導(dǎo)入極性詞庫中。數(shù)據(jù)表的設(shè)計(jì)如下所示。表5.3極性詞詞典表Table 5.3 The Table of Polarity dictionary字段名稱類型長度講明polarity_idint4極性詞典IDword_namevarchar50極性詞posvarchar10詞性,如動詞,形容詞typeint4詞類型,1基礎(chǔ)極性詞,2網(wǎng)絡(luò)極性詞,3領(lǐng)域極性詞 strengthfloat4極性強(qiáng)度,假如極性詞,值
32、為正代表褒義,負(fù)代表貶義,區(qū)間為(-2,2)表5.4否定詞詞典表Table 5.4 The Table of Negation Dictionary字段名稱類型長度講明negation_idint4否定詞典IDword_namevarchar50否定詞表5.5強(qiáng)調(diào)詞詞典表Table 5.5 The Table of Intensive Dictionary字段名稱類型長度講明intensifier_idint4強(qiáng)調(diào)詞IDword_namevarchar50極性詞posvarchar10詞性strengthfloat4極性強(qiáng)度,區(qū)間為(0, 3)表5.6產(chǎn)品特征相關(guān)極性詞詞典表Table 5.6
33、 The Table of Product Feature Related Polarity Dictionary字段名稱類型長度講明feature_relate_idint4強(qiáng)調(diào)詞IDfeature_idint4特征詞IDword_namevarchar50極性詞posvarchar10詞性strengthfloat4極性強(qiáng)度,區(qū)間為(0, 3)評論頁面下載與內(nèi)容提取評論的頁面下載本系統(tǒng)的第一個任務(wù)是下載指定產(chǎn)品相關(guān)的網(wǎng)頁,JAVA語言提供了對網(wǎng)絡(luò)資源的操作功能,只需要指定網(wǎng)址,就能夠?qū)⒄麄€網(wǎng)頁以數(shù)據(jù)流的形式提取出來。當(dāng)同一產(chǎn)品的評論數(shù)量較多時,一般的網(wǎng)頁會采取分頁的形式展現(xiàn),那個地點(diǎn)系統(tǒng)也
34、需要將同一產(chǎn)品的所有分頁下載下來,而同一產(chǎn)品不同的頁面的URL地址差不多相似,URL的部分內(nèi)容體現(xiàn)了分頁的信息。以京東網(wǎng)某產(chǎn)品的評論頁面的URL為例,“/review/208158-1-7-0.html ”其中的數(shù)字7表示當(dāng)前頁為第7頁,為了方便程序自動下載全部的網(wǎng)頁,本文采納了“/ review/208158-1-(*)-0.html”的URL規(guī)則,其中的(*)代表頁面的當(dāng)前分頁,如總頁數(shù)20頁,則(*)確實(shí)是1到20。在程序中就能夠編寫循環(huán)語句進(jìn)行所有產(chǎn)品相關(guān)的評論頁面的下載。系統(tǒng)為了方便用戶定制下載評論,提供了評論下載定制功能,同意用戶指定產(chǎn)品評論頁面,指定抽取結(jié)點(diǎn)的規(guī)則,將所有下載的規(guī)
35、則存入數(shù)據(jù)庫表5.7中。 表5.7產(chǎn)品評論抽取規(guī)則表Table 5.7 The Table of Product Review Extract Rule 字段名稱類型長度講明rule_idint4規(guī)則IDproduct_type_idint4評論所屬產(chǎn)品類型url_pathvarchar50評論頁面URL規(guī)則page_numberint4分頁數(shù)目xpath_pros_nodevarchar200評論內(nèi)容中優(yōu)點(diǎn)XPath路徑規(guī)則xpath_cons_nodevarchar200評論內(nèi)容中缺點(diǎn)XPath路徑規(guī)則xpath_free_nodevarchar200評論內(nèi)容中總評XPath路徑規(guī)則xpa
36、th_comment_timevarchar200評論發(fā)表時刻XPath路徑規(guī)則xpath_comment_uservarchar200評論發(fā)表用戶名XPath路徑規(guī)則review_numberint4頁面評論的數(shù)量site_fromvarchar50評論網(wǎng)站名稱,如京東網(wǎng)review_typevarchar50評論類型add_timebigint20規(guī)則添加時刻讀取規(guī)則表中的用戶新增的規(guī)則,即可完成評論頁面的下載,為了方便治理,系統(tǒng)將下載的產(chǎn)品評論頁面按產(chǎn)品類型結(jié)構(gòu)存入指定文件目錄中,目錄結(jié)構(gòu)為:產(chǎn)品類型品牌具體型號評論來源網(wǎng)站,文件名稱為當(dāng)前的URL路徑,如:筆記本聯(lián)想(Thinkpad)
37、SL400(2743- GZC)京東網(wǎng)。評論內(nèi)容抽取在得到評論的原始頁面之后,接下來就需要將評論內(nèi)容進(jìn)行提取。網(wǎng)頁大部分以HTML形式存在,HTML(HyperText Mark-up Language)即超文本標(biāo)記語言或超文本鏈接標(biāo)示語言,是目前網(wǎng)絡(luò)上應(yīng)用最為廣泛的語言,也是構(gòu)成網(wǎng)頁文檔的要緊語言。網(wǎng)頁上的HTML元素之間存在著層次結(jié)構(gòu)和嵌套關(guān)系,能夠依據(jù)這種關(guān)系生成一個樹狀結(jié)構(gòu)。用如此的樹描述網(wǎng)頁,可達(dá)到網(wǎng)頁表示的目的。其中HTML標(biāo)簽為樹的根結(jié)點(diǎn),網(wǎng)頁上的不同信息處于不同的子樹中。 為了完成確定區(qū)域的內(nèi)容提取,也確實(shí)是本文實(shí)驗(yàn)需要的產(chǎn)品評論內(nèi)容,必須將HTML表示成易于計(jì)算機(jī)處理的形式,
38、本文稱之為標(biāo)記樹。這通常是能夠依據(jù)網(wǎng)頁HTML代碼的標(biāo)記嵌套關(guān)系直接構(gòu)建標(biāo)記樹的,圖5.2顯示了這種轉(zhuǎn)化過程。圖5.2依據(jù)網(wǎng)頁的HTML代碼嵌套關(guān)系構(gòu)建標(biāo)記樹Figure.5.2 Tag tree built based on the nested tags of the HTML code 為了準(zhǔn)確的定位指定結(jié)點(diǎn),本文使用了XPath。XPath 是一門在 XML 文檔中查找信息的語言,可用來在 XML 文檔中對元素和屬性進(jìn)行遍歷。XPath 是 W3C XSLT 標(biāo)準(zhǔn)的要緊元素,同時 XQuery 和 XPointer 同時被構(gòu)建于 XPath 表達(dá)之上。本文以京東網(wǎng)中的筆記本電腦Thin
39、kpad(2743-GZC)的評論頁面為例。圖5.3京東網(wǎng)評論頁面例子Figure.5.3 An Example of Jingdongs Product Review Page在Firefox掃瞄器下,通過安裝插件Firebug,能夠快速的定位HTML任何結(jié)點(diǎn),同時能夠計(jì)算出當(dāng)前結(jié)點(diǎn)的XPath路徑。系統(tǒng)只需要提取圖5.3中紅框里的內(nèi)容,為方便描述,本文分不進(jìn)行了編號,表5.8是計(jì)算出的XPath路徑信息。表5.8 Xpath結(jié)點(diǎn)信息表Table 5.8 The Table of XPath node information編號XPath路徑1/html/body/form/div7/div
40、2/ul2/li2/div2/dl/dd2/html/body/form/div7/div2/ul2/li2/div2/dl2/dd3/html/body/form/div7/div2/ul2/li2/div2/dl3/dd4/html/body/form/div7/div3/div/p2/a一般的評論是以列表的形式展現(xiàn)。通過對標(biāo)簽樹結(jié)構(gòu)分析發(fā)覺,它們的DOM表現(xiàn)形式差不多上一樣,即只有一組結(jié)點(diǎn)在循環(huán)展現(xiàn)。如圖5.3中編號為1的結(jié)點(diǎn),它的XPath為/html/body/form/div7/div2/ul2/li2/div2/dl/dd,其中以重復(fù)結(jié)點(diǎn).*,因此只要設(shè)定列表循環(huán)讀取/html/
41、body/form/div7/div2/ ul(*)/li2/div2/dl/dd,(*)為通配符。本頁面中的評論一頁顯示20條,因此(*)是從數(shù)字1到數(shù)字20。如此就能夠的獵取到所有結(jié)點(diǎn)的具體內(nèi)容,將所有評論內(nèi)容按指定格式存入評論的原始數(shù)據(jù)庫。數(shù)據(jù)表設(shè)計(jì)如表5.9所示。表5.9產(chǎn)品評論表Table 5.9 The Table of Product Reviews字段名稱類型長度講明review_idint4評論IDrule_idint4對應(yīng)規(guī)則表中的IDpros_contentvarchar4000評論中優(yōu)點(diǎn)文本內(nèi)容cons_contentvarchar4000評論中缺點(diǎn)文本內(nèi)容free_c
42、ontentvarchar4000評論中自由評論的文本內(nèi)容review-timebigint20評論內(nèi)容review-user-varchar 100評論用戶名通過指定下載的URL,抽取的XPath規(guī)則并指定評論所屬產(chǎn)品型號,就能夠?qū)崿F(xiàn)下載并抽取系統(tǒng)所需要的評論文本,用戶能夠通過評論治理功能,查看所有抓取的評論內(nèi)容。圖5.4產(chǎn)品評論查詢界面Figure.5.4 The Interface of Product Reviews Management圖5.4為抽取出的內(nèi)容在系統(tǒng)中的界面,用戶能夠查詢所有產(chǎn)品相關(guān)的產(chǎn)品評論。系統(tǒng)界面以表格的形式展現(xiàn),點(diǎn)擊表格的某行,在表格的下方顯示評論的詳細(xì)內(nèi)容。評
43、論意見挖掘整體褒貶分類目前網(wǎng)上的評論格式要緊分為二種格式,格式(1):區(qū)分優(yōu)點(diǎn)和缺點(diǎn),用戶需要分不對優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行描述。如京東網(wǎng),中關(guān)村在線等;格式(2):自由格式,沒有區(qū)分優(yōu)點(diǎn)和缺點(diǎn),用戶能夠?qū)Ξa(chǎn)品進(jìn)行自由的描述。如淘寶網(wǎng)等。那個地點(diǎn)系統(tǒng)只對格式(2)進(jìn)行整體褒貶分類。在第三章中,本文對評論的褒貶分類進(jìn)行了實(shí)驗(yàn),并取得了較高的分類準(zhǔn)確率,實(shí)驗(yàn)表明基于后綴樹的特征提取方法獲得了相對較高的分類性能。但由于在使用后綴樹分類器時,需要在訓(xùn)練分類模型時加入測試語料,如此就需要在每次進(jìn)行分類時重新建立分類模型,需要耗費(fèi)較多的時刻??紤]到實(shí)際應(yīng)用的有用性,系統(tǒng)中沒有采納基于后綴樹的特征提取,而是采納傳統(tǒng)的
44、文本分類的方法。經(jīng)實(shí)驗(yàn)發(fā)覺使用基于字的bigram特征提取方法結(jié)合使用基于詞頻的文本表示,在SVM分類器下能夠取得最高的分類性能,準(zhǔn)確率可達(dá)94.74%。那個地點(diǎn)本文應(yīng)用第三章構(gòu)建的分類模型,對評論進(jìn)行整體褒貶分類。并將分類結(jié)果更新到產(chǎn)品意見庫中。表5.10產(chǎn)品評論整體意見結(jié)果表Table 5.10 The Table of Entire Opinion Result of Product Reviews字段名稱類型長度講明entire_idint4IDreview_idint4評論IDentire_polaritybit1整體褒貶分類結(jié)果0表示貶義,1表示褒義細(xì)顆粒評論分析在第四章中,本文論
45、述了評論細(xì)顆粒分析的內(nèi)容,介紹了構(gòu)建產(chǎn)品特征庫和極性詞典兩個基礎(chǔ)資源的方法。并實(shí)驗(yàn)分析了兩種意見挖掘方法,即基于依存句法的意見挖掘方法和基于關(guān)鍵字匹配的意見挖掘。實(shí)驗(yàn)表明基于關(guān)鍵字的方法,在產(chǎn)品評論中有較好的表現(xiàn),而且具有不需要依存句法分析過程、計(jì)算速度快等優(yōu)點(diǎn)。因此本系統(tǒng)采納這種方法進(jìn)行細(xì)顆粒的評論分析。系統(tǒng)對評論中有明顯情感意見表達(dá)的產(chǎn)品特征和極性詞關(guān)系對進(jìn)行抽取,并分不計(jì)算各個產(chǎn)品特征的極性方向。最后以產(chǎn)品特征為差不多單位,將所有分析結(jié)果存入細(xì)顆粒分析結(jié)果數(shù)據(jù)表中。將得到的所有評論進(jìn)行意見分析并得出結(jié)果后,我們就能夠進(jìn)行各種形式的統(tǒng)計(jì)展現(xiàn)。表5.11產(chǎn)品評論細(xì)顆粒結(jié)果表Table 5.1
46、1 The Table of Detailed Opinion Result of Product Reviews字段名稱類型長度講明detail_result_idint4IDreview_idint4評論IDfeature_idint4產(chǎn)品特征詞IDpolarity_idint4特征詞IDpolarity_resultfloat4情感方向評論意見查詢評論分析是本系統(tǒng)的核心功能,用戶將通過搜索指定產(chǎn)品的品牌、型號來得到其他用戶對該產(chǎn)品的詳細(xì)評價,包括對產(chǎn)品的整體褒貶和對產(chǎn)品的細(xì)顆粒分析。用戶不僅能夠從一種產(chǎn)品的評論中獲得有價值的信息,還能夠?qū)Χ鄠€同類產(chǎn)品進(jìn)行比較,為購買到最優(yōu)產(chǎn)品做參考。產(chǎn)品
47、意見查詢產(chǎn)品意見查詢,即從系統(tǒng)庫中搜索產(chǎn)品評論并獲得意見分析結(jié)果。在我們的系統(tǒng)庫中,通過上述評論采集、文本清洗、意見抽取等后端處理過程,能夠存放多個產(chǎn)品的意見庫。用戶只要依照需要,選擇感興趣的某種產(chǎn)品的名稱(或產(chǎn)品型號),即可得到關(guān)于該產(chǎn)品的評論分析結(jié)果。界面左側(cè)部分為系統(tǒng)的菜單,點(diǎn)擊“產(chǎn)品意見查詢”菜單,界面的右側(cè)將出現(xiàn)相應(yīng)的功能界面。圖5.5意見查詢界面Figure.5.5 The Interface of Product Opinion Query如圖5.5,在查詢條件的表單中,選擇產(chǎn)品類型為手機(jī),品牌為諾基亞,型號為N70,點(diǎn)擊查看產(chǎn)品分析結(jié)果按鈕,在頁面的下半部分將顯示出分析結(jié)果。分
48、析結(jié)果分為兩部分:評論整體褒貶分析結(jié)果和評論細(xì)顆粒分析結(jié)果。整體褒貶分析結(jié)果中顯示了褒貶的比重,藍(lán)色表示褒義,紅色表示貶義。從圖5.5能夠清晰地看出86.67%的評論對當(dāng)前產(chǎn)品表達(dá)了確信的意思。細(xì)顆粒分析結(jié)果在板塊的左側(cè),以樹型菜單的形式,列出了所有評論中所涉及的產(chǎn)品特征,用戶能夠勾選感興趣的產(chǎn)品特征,點(diǎn)擊“顯示所選特征分析結(jié)果”按鈕,右側(cè)將顯示指定特征的分析結(jié)果,從圖5.5的柱狀圖能夠看出,當(dāng)前的評論對性價比的評價專門高,對電池的評論相對較低。其中要講明的是,為了方便圖表的展現(xiàn),系統(tǒng)要緊計(jì)算褒貶觀點(diǎn)分不所占的百分比。產(chǎn)品意見比較查詢在用戶選擇購買商品的過程中,往往有比較多種同類商品的過程。同
49、樣,通過評論分析了解了一種產(chǎn)品的優(yōu)劣,還需要了解其他產(chǎn)品的優(yōu)劣,同時通過比較,得知誰更有優(yōu)勢,更受用戶好評。而多產(chǎn)品評論比較分析功能則滿足了用戶的這種需求。圖5.6多產(chǎn)品意見查詢界面Figure.5.6 The Interface of Multiple Product Opinion Query用戶能夠在查詢條件中,添加多個產(chǎn)品,查看多個產(chǎn)品之間分析比較結(jié)果。值的注意的是,那個地點(diǎn)要求是同類型的產(chǎn)品才能夠進(jìn)行比較分析。通過柱形圖,能夠?qū)iT明顯的看出不同產(chǎn)品在不同特征上的表現(xiàn),這對用戶深入了解產(chǎn)品提供了專門大的關(guān)心。文本評論分析查詢文本評論分析,即用戶自主輸入文本評論,系統(tǒng)將對其進(jìn)行分析。那個
50、地點(diǎn)提供了一個便捷的評論分析器,用戶能夠?qū)⒃诨ヂ?lián)網(wǎng)上看到的任何評論,通過該評論分析器分析,不再需要將每條評論都閱讀完畢,即可得出一些圖形化的直觀的結(jié)論,方便快捷,讓用戶在眾多的文字中解放出來。意見結(jié)果的展現(xiàn)同上面兩個查詢功能,不同的是將選擇產(chǎn)品的下拉框換成了文本輸入框。本章小結(jié)本章論述了產(chǎn)品評論意見挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),分不介紹了系統(tǒng)的整體設(shè)計(jì)、系統(tǒng)的開發(fā)環(huán)境和要緊模塊的詳細(xì)功能。該系統(tǒng)能夠自動抓取指定的評論頁面并抽取評論內(nèi)容,可從整體和細(xì)顆粒兩個層面對產(chǎn)品評論進(jìn)行意見分析,并將意見分析結(jié)果存入產(chǎn)品意見庫中,提供可視化的界面供用戶進(jìn)行操作,查看系統(tǒng)的意見分析結(jié)果。總結(jié)本章總結(jié)了本文的工作,并指
51、出了本文算法中尚存在的不足之處,為進(jìn)一步的改進(jìn)工作指明了方向研究工作總結(jié)近年來,網(wǎng)絡(luò)上的產(chǎn)品評論正以驚人的速度增長,這類文本在一定程度上體現(xiàn)了人們對產(chǎn)品的主觀態(tài)度,表現(xiàn)出鮮亮的褒貶極性。本文選擇中文產(chǎn)品評論為要緊研究對象,進(jìn)行情感分析和意見挖掘,從兩個層面對產(chǎn)品評論進(jìn)行分析,要緊分為評論的整體情感分類和細(xì)顆粒的產(chǎn)品意見抽取。采納機(jī)器學(xué)習(xí)的方法對產(chǎn)品評論進(jìn)行整體褒貶自動分類研究,構(gòu)建用于產(chǎn)品評論褒貶分類的語料庫;采納基于N-Gram文本特征的表示(分為基于詞的 unigram,bigram;基于字的unigram,bigram,trigram)、不同的特征加權(quán)方法(TF,BOOL,TFIDF三種
52、特征)、不同的分類算法(樸素貝葉斯、最大熵和支持向量機(jī)三種分類算法)進(jìn)行分類實(shí)驗(yàn)。從整體的分類性能來看,在特征表示上,排列順序如下:CBB WBB WBU CBU CBT;在特征加權(quán)方法上,排列順序如下:TF BOOL TFID;分類器的排列順序如下:SVM ME NB。其中使用基于字的unigram特征提取方法、基于詞頻的文本表示在SVM分類器下取得了最高的分類性能,準(zhǔn)確率為94.74%。本文實(shí)現(xiàn)了基于后綴樹結(jié)構(gòu)的特征提取算法,提取關(guān)鍵子串組作為文本特征。實(shí)驗(yàn)表明基于后綴樹的關(guān)鍵子串組的特征表現(xiàn)能力強(qiáng)而且特征維度低,分類的準(zhǔn)確率高于基于N-Gram特征抽取的分類效果。只是為了覆蓋未見測試集的
53、字符串模式,需要在構(gòu)建后綴樹的任務(wù)中,添加未標(biāo)注的語料。設(shè)計(jì)并實(shí)現(xiàn)了基于依存句法分析的細(xì)顆粒意見挖掘算法和關(guān)鍵字匹配的細(xì)顆粒意見挖掘算法,并構(gòu)建產(chǎn)品特征庫和中文極性詞典。實(shí)驗(yàn)表明中文極性詞典的構(gòu)建和產(chǎn)品特征詞庫的構(gòu)建關(guān)于細(xì)顆粒的意見挖掘是專門有必要的,同時由于依存句法的意見挖掘方法對句法分析的依靠過重,導(dǎo)致分析準(zhǔn)確率不理想,與基于關(guān)鍵字匹配的意見挖掘方法相比之下,分析性能要好于依存句法的方法。最后,設(shè)計(jì)并實(shí)現(xiàn)了一個產(chǎn)品評論意見挖掘系統(tǒng)原型,該系統(tǒng)能夠自動抓取指定的評論頁面并抽取評論內(nèi)容,可從整體和細(xì)顆粒兩個層面對產(chǎn)品評論進(jìn)行意見挖掘,并將意見分析結(jié)果存入產(chǎn)品意見庫中,提供可視化的統(tǒng)計(jì)展現(xiàn)。通過
54、系統(tǒng)能夠方便用戶進(jìn)行產(chǎn)品評論意見挖掘相關(guān)操作。進(jìn)一步工作當(dāng)前對產(chǎn)品評論挖掘的研究差不多取得了一些成果,然而離成熟和完善仍有專門長的距離,下一步我將致力以下幾個方面的研究:1、中文產(chǎn)品評論語料庫的完善。作為一個新興的研究領(lǐng)域,目前還沒有一個公開的、標(biāo)準(zhǔn)的語料庫,便于后來者能夠在這些基礎(chǔ)之上進(jìn)行對產(chǎn)品評論的深入挖掘和研究。評論語料庫還要考慮到領(lǐng)域內(nèi)資料的完整性,應(yīng)該包括那個領(lǐng)域中用戶關(guān)懷的大部分內(nèi)容,需要從不同的網(wǎng)站、不同的板塊中去抓取數(shù)據(jù)、分析內(nèi)容,獵取用戶真正的產(chǎn)品體驗(yàn)。還需要能獵取網(wǎng)上實(shí)時更新的評論數(shù)據(jù),既要有新產(chǎn)品的評論出現(xiàn),同樣也要跟蹤產(chǎn)品在使用過程中的質(zhì)量變化情況。2、進(jìn)一步挖掘適用于
55、文本情感分類的文本特征,提取出有較強(qiáng)表現(xiàn)能力的文本特征,嘗試結(jié)合中文語言的更多的語義相關(guān)的特征。3、增強(qiáng)對更加復(fù)雜評論的處理能力。由于中文語言的表達(dá)方式多樣化如比喻、附和、諷刺、正話反講等,句式的復(fù)雜性如比較型句子、各種不同的適應(yīng)用語、句式的不同搭配等,因此評論的挖掘工作還有專門長的路要走。參考文獻(xiàn)Han JW, Kambr M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers. 2002.韓家煒, 孟小峰, 王靜. Web挖掘研究. 計(jì)算機(jī)研究與進(jìn)展. 2001. 4. 405-414.Appelt DE, I
56、srael DJ. Introduction to Information Extraction Technology. A Communications. 1999. Hu M, Liu B. Mining Opinion Features in Customer Reviews. Proceedings of 19th National Conference on Artificial Intelligence (AAAI-2004). 2004.Pang B, Lee L, Vaithyanathan S: Thumbs up? Sentiment Classification usin
57、g Machine Learning Techniques. In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing, University of Pennsylvania. 2002.Pang B, Lee L. A sentimental education: sentiment analysis using subjectivity summarization based on minimum cuts. In Proc. of the 42nd Meeting o
58、f the Assocication for Computation Languages. 2004. 271-278.Goldberg AB, Zhu X. Seeing stars when there arent many stars: Graph-based semi-supervised learning for sentiment categorization. In Proc. of HLT-NAACL 2006 Workshop on Textgraphs: Graph-based Algorithms for Natural Language Processing. 2006
59、. 45-52.NI X, Xue G, Ling X. Exploring in the Weblog space by detecting informative and affective articles. In Proc. of the 16th Int. Conf. on World Wide Web. 2007. 281-290.Whitelaw C, Garg N, Argamon S. Using appraisal groups for sentiment analysis. In Proc. of the 14th ACM Int. Conf. on Informatio
60、n and Knowledge Management. 2005. 625-631.Bruce R, Wiebe J. Recognizing subjectivity: a case study in manual tagging. Natural Language Engineering. 1999. 5(2). 1-16.Wiebe J, Riloff E. Greating subjective and objective sentence classifiers from unannotated texts. In Proc. of the 6th Int. Conf. on Com
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 泰康協(xié)議存款合同的稅務(wù)影響
- 股權(quán)投資對賭協(xié)議范本
- 林木選購合同
- 降水井施工勞務(wù)外包合同
- 城市綠化花卉承包合同
- 以租代售設(shè)備合同樣本
- 購銷合同中的商業(yè)秘密保護(hù)
- 食堂承包經(jīng)營合同協(xié)議
- 教育咨詢服務(wù)網(wǎng)站建設(shè)協(xié)議
- 隨身護(hù)衛(wèi)人員管理服務(wù)合同
- 吉利NPDS流程和PPAP介紹
- 專題02:名著導(dǎo)讀-2022-2023學(xué)年八年級語文下學(xué)期期中專題復(fù)習(xí)(北京專用)
- 男朋友無償贈與車輛協(xié)議書怎么寫
- 高考語文新題型+“文學(xué)短評”相關(guān)寫作(真題+技法+練習(xí))
- 汽車認(rèn)識實(shí)訓(xùn)課件
- 輪機(jī)工程材料18章總結(jié)
- 公路管理行業(yè)支撐性科研課題立項(xiàng)評審評分標(biāo)準(zhǔn)表
- 單招面試技巧范文
- GB/T 5195.1-2006螢石氟化鈣含量的測定
- (職高)高一語文期末測試題及答案解析
- 2023年自考傳播學(xué)概論試題及答案
評論
0/150
提交評論