




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第11章: 觀點(diǎn)挖掘廣東外語外貿(mào)大學(xué)杜劍峰Web數(shù)據(jù)挖掘2簡介 事實(shí)和觀點(diǎn)n萬維網(wǎng)中兩類文本信息q事實(shí)q觀點(diǎn)n目前的搜索引擎查找事實(shí) (假設(shè)它們是正確的)q事實(shí)可以使用主題詞表示.n搜索引擎不查找觀點(diǎn)q觀點(diǎn)難以使用數(shù)個(gè)關(guān)鍵詞表示n人們怎樣看Motorola手機(jī)?q目前的搜索排序策略不適合觀點(diǎn)檢索或搜索.Web數(shù)據(jù)挖掘3簡介 用戶生成內(nèi)容n萬維網(wǎng)中的口水話(Word-of-mouth)q網(wǎng)民可以在評論站點(diǎn)、論壇、討論組、博客和微博等地方就任何事件闡述個(gè)人的經(jīng)歷或觀點(diǎn) (稱作用戶生成內(nèi)容)q包含有價(jià)值的信息n我們感興趣的是: 在用戶生成內(nèi)容中挖掘觀點(diǎn) q一個(gè)智能的很具挑戰(zhàn)性的問題.q實(shí)踐中很有用.
2、Web數(shù)據(jù)挖掘4簡介 應(yīng)用n商務(wù)和組織: 市場情報(bào).q工商企業(yè)花費(fèi)大量的金錢搜集顧客的意見和觀點(diǎn).n顧問、調(diào)查組, 等等n個(gè)人: 在下列情況下會(huì)對他人的觀點(diǎn)感興趣q購買產(chǎn)品或使用服務(wù)q尋找政治話題的觀點(diǎn)n廣告放置: 在用戶生成內(nèi)容中放置廣告q當(dāng)用戶稱贊某個(gè)產(chǎn)品時(shí)放置廣告. q當(dāng)用戶批判某個(gè)產(chǎn)品時(shí)放置競爭品牌的廣告.n觀點(diǎn)檢索/搜索: 提供觀點(diǎn)的全面搜索Web數(shù)據(jù)挖掘5兩類評價(jià)n直接觀點(diǎn): 關(guān)于某個(gè)對象諸如產(chǎn)品、事件、主題和個(gè)人的情感表達(dá)q比如, “the picture quality of this camera is great”q主觀的n比較觀點(diǎn): 表示多于一個(gè)對象的不同點(diǎn)或相同點(diǎn)的關(guān)系
3、. 通常表示一種次序.q比如, “car x is cheaper than car y.”q客觀的或主觀的Web數(shù)據(jù)挖掘6觀點(diǎn)搜索 (Liu, Web Data Mining book, 2007)n能夠像通常的Web搜索一樣方便地搜索觀點(diǎn)嗎?n當(dāng)你需要決策時(shí), 你可能需要知道他人的觀點(diǎn)q你可以向搜索系統(tǒng)提出諸如下面的問題, 立即找到相關(guān)觀點(diǎn)n直接觀點(diǎn): “Motorola cell phones”n比較觀點(diǎn): “Motorola vs. Nokia”n現(xiàn)在還沒有這種搜索方式!Web數(shù)據(jù)挖掘7典型的觀點(diǎn)搜索問題n查找觀點(diǎn)持有者(個(gè)人或組織)對某個(gè)特定對象或?qū)ο蟮哪硞€(gè)特征的觀點(diǎn). q比如, B
4、ill Clinton對婚外戀的觀點(diǎn)是什么?n查找關(guān)于某個(gè)對象(或?qū)ο蟮哪承┨卣?的正面或負(fù)面的觀點(diǎn), 比如, q關(guān)于某個(gè)數(shù)字相機(jī)的顧客觀點(diǎn).q某個(gè)政治話題的大眾觀點(diǎn).n查找關(guān)于某個(gè)對象的觀點(diǎn)的變化情況.n對象A比較對象B的觀點(diǎn)是什么?qGmail vs. HotmailWeb數(shù)據(jù)挖掘8查找關(guān)于某個(gè)對象的某個(gè)人的觀點(diǎn)n在某些情況下, 通用的搜索引擎能夠處理這個(gè)問題, 比如通過提供合適的關(guān)鍵字qBill Clinton對婚外戀的看法n理由:q個(gè)人或組織通常對某個(gè)主題持有唯一的觀點(diǎn). q該觀點(diǎn)通常包含于一個(gè)文檔中.q因此, 可以使用合適的關(guān)鍵字找到該觀點(diǎn). Web數(shù)據(jù)挖掘9查找關(guān)于某個(gè)對象的觀點(diǎn)以
5、產(chǎn)品評論為例以產(chǎn)品評論為例:n搜索產(chǎn)品評論與一般的Web搜索是不同的.q比如, 搜索關(guān)于“Motorola RAZR V3”的觀點(diǎn)n一般的Web搜索 (關(guān)于事實(shí)): 基于某種權(quán)威和相關(guān)性分?jǐn)?shù)對頁面排序q用戶瀏覽首頁 (如果搜索是完美的)q一個(gè)事實(shí)一個(gè)事實(shí) = 多個(gè)事實(shí)多個(gè)事實(shí)n觀點(diǎn)搜索: 排序是可取的, 但是q讀取排在首位的評論是不夠的, 因?yàn)樗鼉H是某個(gè)人的觀點(diǎn).q一個(gè)觀點(diǎn)一個(gè)觀點(diǎn) 多個(gè)觀點(diǎn)多個(gè)觀點(diǎn)Web數(shù)據(jù)挖掘10觀點(diǎn)匯總問題n評論可以看作是傳統(tǒng)的調(diào)查報(bào)告.q在傳統(tǒng)的調(diào)研中, 返回的調(diào)查問卷可以用作原始數(shù)據(jù). q對調(diào)研結(jié)果做匯總分析. n比如, 支持或反對某個(gè)問題的百分比, 等等. n在觀點(diǎn)
6、搜索中,q能夠產(chǎn)生匯總嗎? q匯總應(yīng)該是什么?Web數(shù)據(jù)挖掘11提綱n觀點(diǎn)挖掘觀點(diǎn)挖掘 問題定義問題定義n文檔層次的情感分類n句子層次的情感分類n基于特征的觀點(diǎn)挖掘n比較句子的觀點(diǎn)挖掘n總結(jié)Web數(shù)據(jù)挖掘12觀點(diǎn)挖掘(Hu and Liu, KDD-04; Liu, Web Data Mining book 2007)n觀點(diǎn)的基本要素q觀點(diǎn)持有者: 對于特定對象持有特定觀點(diǎn)的個(gè)人或組織.q對象: 觀點(diǎn)表達(dá)的作用者q觀點(diǎn): 觀點(diǎn)持有者對一個(gè)對象的一種看法、態(tài)度或評價(jià). n觀點(diǎn)挖掘的目標(biāo): 很多 . q文檔層次的目標(biāo): 評論的情感分類q句子層次的目標(biāo): 主觀或客觀句子的識(shí)別, 主觀句子的情感分類q
7、特征層次的目標(biāo): 識(shí)別對象特征, 找對象特征的同義詞, Web數(shù)據(jù)挖掘13目標(biāo)對象 (Liu, Web Data Mining book, 2006)n對象對象 (object): 一個(gè)對象 o 是產(chǎn)品、個(gè)人、事件、組織或主題. o 表示為q部件和子部件的一個(gè)概念層次.q每個(gè)結(jié)點(diǎn)表示一個(gè)部件及其關(guān)聯(lián)的屬性.n觀點(diǎn)可以針對任意結(jié)點(diǎn)或結(jié)點(diǎn)的任意屬性. n為了簡化討論, 我們統(tǒng)一使用特征特征 (features) 表示部件和屬性.Web數(shù)據(jù)挖掘什么是觀點(diǎn)? (Liu, Ch. in NLP handbook)n觀點(diǎn)是一個(gè)五元組 (oj, fjk, soijkl, hi, tl),其中qoj 是目標(biāo)對
8、象.qfjk 是oj的一個(gè)特征.qsoijkl 是觀點(diǎn)持有者h(yuǎn)i在時(shí)刻tl對對象oj的特征fjk作評價(jià)的情感值. soijkl 等于 +ve, -ve, 或neu.qhi 是觀點(diǎn)持有者.qtl 是觀點(diǎn)表達(dá)的時(shí)刻.14Web數(shù)據(jù)挖掘15目標(biāo) 觀點(diǎn)挖掘n目標(biāo): 給定一個(gè)含有觀點(diǎn)的文檔, q找出所有的五元組 (oj, fjk, soijkl, hi, tl), n即挖掘五元組中五個(gè)部分的對應(yīng)信息q或者, 解決一些更簡單的問題n觀點(diǎn)挖掘的作用q無結(jié)構(gòu)文本 結(jié)構(gòu)數(shù)據(jù)n傳統(tǒng)的數(shù)據(jù)和可視化工具能夠以各種方式對得到的數(shù)據(jù)作切片, 切塊和可視化處理.n允許定性和定量分析.Web數(shù)據(jù)挖掘16基于特征的觀點(diǎn)匯總 (
9、Hu & Liu, KDD-2004) “I bought an iPhone a few days ago. It was such a nice phone. The touch screen was really cool. The voice quality was clear too. Although the battery life was not long, that is ok for me. However, my mother was mad with me as I did not tell her before I bought the phone. She also
10、 thought the phone was too expensive, and wanted me to return it to the shop. ” 基于特征的匯總基于特征的匯總:特征特征1: Touch screenPositive: 212nThe touch screen was really cool. nThe touch screen was so easy to use and can do amazing things. Negative: 6nThe screen is easily scratched.nI have a lot of difficulty in
11、removing finger marks from the touch screen. 特征特征2: battery life注意: 這里忽略觀點(diǎn)持有者Web數(shù)據(jù)挖掘17可視化比較 (Liu et al. WWW-2005)n觀點(diǎn)匯總nCell Phone 1Voice ScreenSize Weight Battery+_n觀點(diǎn)比較 Cell Phone 1 Cell Phone 2_+Web數(shù)據(jù)挖掘觀點(diǎn)挖掘是一個(gè)難題!n(oj, fjk, soijkl, hi, tl),qoj 目標(biāo)對象: 命名實(shí)體抽取 (或更多問題)qfjk oj的特征: 信息抽取qsoijkl 情感值: 情感判定qh
12、i 觀點(diǎn)持有者: 信息/數(shù)據(jù)抽取qtl 時(shí)刻: 數(shù)據(jù)抽取n共指消解 (比如“馬爾可夫模型”=“馬氏模型”=“它”)n同義詞匹配 (比如voice = sound quality) n上述問題沒有一個(gè)是完全解決好的!18Web數(shù)據(jù)挖掘19觀點(diǎn)挖掘任務(wù)n在文檔(或評論)層次:任務(wù): 對整個(gè)評論作情感分類n類: 正面, 負(fù)面, 中立n假設(shè): 每個(gè)文檔 (或評論) 僅針對單一對象并且僅包含單一觀點(diǎn)持有者的觀點(diǎn).n在句子層次:任務(wù)1: 識(shí)別主觀的/含觀點(diǎn)的句子n類: 客觀的, 主觀的(含觀點(diǎn)的)任務(wù)2: 句子的情感分類n類: 正面, 負(fù)面, 中立n假設(shè): 一個(gè)句子僅含有一個(gè)觀點(diǎn)q在很多情況下不成立, 我
13、們可以進(jìn)一步考慮分句或短語.Web數(shù)據(jù)挖掘20觀點(diǎn)挖掘任務(wù) (續(xù))n在特征層次:任務(wù)1: 識(shí)別和抽取被觀點(diǎn)持有者(即評論人)評價(jià)的對象特征. 任務(wù)2: 判定針對該特征的觀點(diǎn)是正面的, 負(fù)面的還是中立的.任務(wù)3: 對特征的同義詞作分組, 產(chǎn)生多個(gè)評論的基于特征的觀點(diǎn)匯總. Web數(shù)據(jù)挖掘21提綱n觀點(diǎn)挖掘 問題定義n文檔層次的情感分類文檔層次的情感分類n句子層次的情感分類n基于特征的觀點(diǎn)挖掘n比較句子的觀點(diǎn)挖掘n總結(jié)Web數(shù)據(jù)挖掘22情感分類n基于觀點(diǎn)持有者(作者)表達(dá)的總體情感對文檔(即評論)歸類, q正面, 負(fù)面, 或中立q因?yàn)樵谖覀兊哪P椭? 對象 O 本身就是一個(gè)特征, 所以 情感分類
14、本質(zhì)上判定每個(gè)文檔(即評論)中表達(dá)O的觀點(diǎn).n與基于主題的文本分類相似但不同.q在基于主題的文本分類中, 主題詞是很重要的. q在情感分類中, 情感詞更重要, 比如great, excellent, horrible, bad, worst, 等等. Web數(shù)據(jù)挖掘23非監(jiān)督評論分類(Turney, ACL-02)n數(shù)據(jù): 從中獲取的汽車, 銀行, 電影, 和旅游目的地的評論.n方法: 三步n步驟1:q詞性(Part of Speech, POS)標(biāo)注q從評論中抽取詞性滿足某些模式, 比如(1) JJ, (2) NN 的連續(xù)兩個(gè)詞 (雙詞短語).Web數(shù)據(jù)挖掘24n步驟2: 估計(jì)抽取出的短語的
15、情感傾向 (SO)q使用逐點(diǎn)的互信息q情感傾向 (SO): SO(phrase) = PMI(phrase, “excellent”) - PMI(phrase, “poor”)q使用AltaVista的near操作進(jìn)行搜索, 根據(jù)命中的信息個(gè)數(shù)計(jì)算PMI和SO. )()()(log),(2121221wordPwordPwordwordPwordwordPMIWeb數(shù)據(jù)挖掘25n步驟3: 計(jì)算所有短語的平均SOq如果SO是正的, 則將評論歸類為推薦的, 否則歸類為不推薦的. n最終的分類準(zhǔn)確率:q汽車 - 84%q銀行 - 80%q電影 - 65.83% q旅游目的地 - 70.53%Web
16、數(shù)據(jù)挖掘26使用機(jī)器學(xué)習(xí)方法的情感分類 (Pang et al, EMNLP-02)n該論文直接應(yīng)用多個(gè)機(jī)器學(xué)習(xí)技術(shù)對電影評論歸類為正面的和反面的. n嘗試了三個(gè)分類技術(shù):q樸素貝葉斯q最大熵q支持向量機(jī)n預(yù)處理操作: 否定標(biāo)注, 一元語法 (單詞), 二元語法, 詞性標(biāo)注, 定位.n支持向量機(jī): 最高準(zhǔn)確率83% (一元語法) Web數(shù)據(jù)挖掘27根據(jù)評分特征的評論分類 (Dave, Lawrence and Pennock, WWW-03) n選擇一組特征 F = f1, f2, q注意: 是機(jī)器學(xué)習(xí)技術(shù)中使用的特征, 不是產(chǎn)品特征. n對特征評分 qC和C是類n使用符號(hào)函數(shù)對評論 dj 分
17、類: n準(zhǔn)確率在 84-88% 之間) |()|() |()|()(CfPCfPCfPCfPfscoreiiiiiiijjjjfscoredevaldevalCdevalCdclass)()(0)(0)()(Web數(shù)據(jù)挖掘28提綱n觀點(diǎn)挖掘 問題定義n文檔層次的情感分類n句子層次的情感分類句子層次的情感分類n基于特征的觀點(diǎn)挖掘n比較句子的觀點(diǎn)挖掘n總結(jié)Web數(shù)據(jù)挖掘29句子層次的情感分析n文檔層次的情感分類對于大部分的應(yīng)用來說太粗糙了. n考慮句子層次. n句子層次情感分析的絕大部分工作重點(diǎn)在于從新聞文章中識(shí)別主觀句子.q分類: 客觀的和主觀的q所有技術(shù)使用機(jī)器學(xué)習(xí)的某些形式.q比如, 使用樸
18、素貝葉斯分類器 (Wiebe et al. ACL-99).Web數(shù)據(jù)挖掘30使用學(xué)習(xí)模式 (Rilloff and Wiebe, EMNLP-03)n自舉方法.q首先使用一個(gè)高查準(zhǔn)率的分類器自動(dòng)識(shí)別一些主觀的和客觀的句子.n使用兩個(gè)高查準(zhǔn)率(但低查全率) 的分類器,q一個(gè)高查準(zhǔn)率的主觀分類器q一個(gè)高查準(zhǔn)率的客觀分類器q基于人工搜集的單詞, 那些是好的主觀線索.q然后從這些識(shí)別到的主觀和客觀句子中學(xué)習(xí)模式集. n需要定義一些句法模板限制發(fā)現(xiàn)的模式類型.比如, passive-verb.q然后使用學(xué)到的模式進(jìn)一步抽取主觀的和客觀的句子 (該過程可以反復(fù)進(jìn)行). Web數(shù)據(jù)挖掘31主觀性和極性(傾
19、向) (Yu and Hazivassiloglou, EMNLP-03)n對于主觀句子或觀點(diǎn)句子識(shí)別, 嘗試三種方法:q句子相似度q樸素貝葉斯分類q多個(gè)樸素貝葉斯分類器n對于觀點(diǎn)傾向 (正面, 負(fù)面或中立) (又稱極性) 分類, 使用與 (Turney, ACL-02)相似的方法, 但 q使用更多的種子詞 (不是兩個(gè)) 并基于對數(shù)似然比 (log-likelihood ratio, LLR).q對于每個(gè)詞的分類, 以句子中單詞的LLR分?jǐn)?shù)平均值作為度量, 使用閾值確定正面, 負(fù)面或中立.Web數(shù)據(jù)挖掘32下一步考慮什么?n在文檔和句子層次的情感分類是有用的, 但是q仍然不能發(fā)現(xiàn)觀點(diǎn)持有者喜歡
20、什么和不喜歡什么.n對于對象的一個(gè)負(fù)面情感 q不能說明觀點(diǎn)持有者不喜歡對象的任何方面.n對于對象的一個(gè)正面情感 q不能說明觀點(diǎn)持有者喜歡對象的所有方面.n我們需要深入到特征層次我們需要深入到特征層次.Web數(shù)據(jù)挖掘33提綱n觀點(diǎn)挖掘 問題定義n文檔層次的情感分類n句子層次的情感分類n基于特征的觀點(diǎn)挖掘基于特征的觀點(diǎn)挖掘n比較句子的觀點(diǎn)挖掘n總結(jié)Web數(shù)據(jù)挖掘34在深入到特征層次之前n討論一下觀點(diǎn)詞或短語觀點(diǎn)詞或短語 (也稱作極性單詞, 觀點(diǎn)支撐單詞, 等等). 比如, q正面的: beautiful, wonderful, good, amazing, q負(fù)面的: bad, poor, ter
21、rible, cost someone an arm and a leg (idiom). n這些詞明顯對觀點(diǎn)挖掘起作用n編譯該列表的三種方法:q人工方法: 可行, 僅是一次性的工作q基于文集的方法q基于詞典的方法n重要提示重要提示: q一些觀點(diǎn)詞是上下文獨(dú)立的一些觀點(diǎn)詞是上下文獨(dú)立的 (比如比如, good).q一些觀點(diǎn)詞是上下文依賴的一些觀點(diǎn)詞是上下文依賴的 (比如比如, long).Web數(shù)據(jù)挖掘35基于文集的方法n依賴于大規(guī)模文集的句法或共現(xiàn)模式. (Hazivassiloglou and McKeown, ACL-97; Turney, ACL-02; Yu and Hazivass
22、iloglou, EMNLP-03; Kanayama and Nasukawa, EMNLP-06; Ding and Liu SIGIR-07)q能夠找到領(lǐng)域 (非上下文!) 依賴的傾向 (正面, 負(fù)面, 或中立). n(Turney, ACL-02) 和 (Yu and Hazivassiloglou, EMNLP-03) 是相似的. q對于單詞或短語賦予觀點(diǎn)傾向. q(Yu and Hazivassiloglou, EMNLP-03) 與 (Turney, ACL-02) 不同在于:n使用更多的種子詞 (非兩個(gè)) 和使用對象似然比 (非PMI).Web數(shù)據(jù)挖掘36基于文集的方法 (續(xù))
23、n使用連接詞的約束(或慣例)識(shí)別觀點(diǎn)詞 (Hazivassiloglou and McKeown, ACL-97; Kanayama and Nasukawa, EMNLP-06; Ding and Liu, 2007). 比如,n合取: 一起使用的形容詞通常具有相同的傾向 (Hazivassiloglou and McKeown, ACL-97). n比如, “This car is beautiful and spacious.” (合取)qAND, OR, BUT, EITHER-OR, NEITHER-NOR具有相似的約束.q使用下面方法學(xué)習(xí) n對象線性模型: 判定兩個(gè)一起使用的形容詞
24、具有相同的傾向還是不同的傾向. n聚類: 產(chǎn)生兩組詞: 正面的和負(fù)面的q文集: 1987 Wall Street Journal 文集的2100萬單詞. Web數(shù)據(jù)挖掘37基于文集的方法 (續(xù))n(Kanayama and Nasukawa, EMNLP-06) 使用與 (Hazivassiloglou and McKeown, ACL-97) 類似的方法, 但針對日文單詞:q不使用學(xué)習(xí)方法, 它使用兩個(gè)標(biāo)準(zhǔn)決定是否將一個(gè)單詞加入到正面或負(fù)面詞典中.q使用一個(gè)初始的正面的和負(fù)面的種子單詞庫. n(Ding and Liu, 2007) 同樣使用連接詞約束, 但有兩個(gè)不同點(diǎn)q使用連接詞約束對產(chǎn)品
25、特征賦予觀點(diǎn)傾向. n同一領(lǐng)域的一個(gè)單詞可能表示不同的觀點(diǎn)傾向. q“The battery life is long” (+) and “It takes a long time to focus” (-).n找出領(lǐng)域的觀點(diǎn)詞是不足夠的找出領(lǐng)域的觀點(diǎn)詞是不足夠的. q當(dāng)沒有大規(guī)模的文集時(shí)仍可使用.Web數(shù)據(jù)挖掘基于文集的方法 (續(xù))nQiu et al. IJCAI-2009提出一種雙向傳播方法n使用觀點(diǎn)和特征的依賴關(guān)系抽取觀點(diǎn)詞.q觀點(diǎn)詞修飾對象特征, 比如,q“This camera has long battery life”n算法本質(zhì)上從一組種子的觀點(diǎn)詞自舉q通過某些依賴關(guān)系的幫助3
26、8Web數(shù)據(jù)挖掘39基于詞典的方法n一般使用WordNet的同義詞和概念層次獲取觀點(diǎn)詞q從觀點(diǎn)詞的一個(gè)小的種子集合開始.q使用該集合從WordNet中搜索同義詞和反義詞 (Hu and Liu, KDD-04; Kim and Hovy, COLING-04).q事后可能需要人工檢查.n使用WordNet的附加信息 (比如注釋) (Andreevskaia and Bergler, EACL-06) 和學(xué)習(xí)方法 (Esuti and Sebastiani, CIKM-05).n基于詞典方法的弱點(diǎn): 不能找到上下文依賴的觀點(diǎn)詞, 比如, small, long, fast.Web數(shù)據(jù)挖掘40基于
27、特征的觀點(diǎn)挖掘和匯總 (Hu and Liu, KDD-04)n聚焦于評論n目標(biāo): 找出評論者 (觀點(diǎn)持有者) 喜歡什么不喜歡什么q產(chǎn)品特征及其觀點(diǎn)n由于關(guān)于特定對象的評論很多,所以必須生成 觀點(diǎn)匯總.q值得期待的是一個(gè)結(jié)構(gòu)化的匯總.q易于可視化和比較.q類似但不同于多文檔匯總.Web數(shù)據(jù)挖掘41任務(wù)n具有三個(gè)任務(wù)任務(wù)1: 抽取在每個(gè)評論中評價(jià)的對象特征.任務(wù)2: 判定關(guān)于特征的觀點(diǎn)是正面的, 反面的還是中立的.任務(wù)3: 對特征同義詞分組, 生成一個(gè)匯總.Web數(shù)據(jù)挖掘42特征抽取 (Hu and Liu, KDD-04; Liu, Web Data Mining book 2007)n頻繁特
28、征: 被多個(gè)評論者多次提及的特征.n使用序列模式挖掘n為什么使用基于頻率的方法? q不同的評論者談?wù)摬煌?不相關(guān)的)事情q當(dāng)討論產(chǎn)品特征是, 他們使用趨向于相同的單詞. q它們是主要的特征.n序列模式挖掘?qū)ふ翌l繁的短語.nFroogle(Google的對比購物網(wǎng)站)已經(jīng)實(shí)現(xiàn)了該方法 (無詞性約束).Web數(shù)據(jù)挖掘43不頻繁的特征抽取n如何尋找不頻繁的特征?n觀察點(diǎn): 相同的觀點(diǎn)詞可以用于描述不同的特征和對象.q“The pictures are absolutely amazing.”q“The software that comes with it is amazing.”n頻繁的特征n觀
29、點(diǎn)詞n不頻繁的特征Web數(shù)據(jù)挖掘使用依賴關(guān)系n使用相同的雙向傳播 方法 (Qiu et al. IJCAI-2009).n使用觀點(diǎn)和特征的依賴關(guān)系抽取特征.q觀點(diǎn)詞修飾對象特征比如, “This camera has long battery life”n算法使用一組種子觀點(diǎn)詞自舉 (不需要輸入特征詞).q抽取特征 (和觀點(diǎn)詞)44Web數(shù)據(jù)挖掘45識(shí)別特征同義詞nLiu et al (WWW-05) 作了一個(gè)僅使用WordNet的嘗試.nCarenini et al (K-CAP-05)提出了基于若干相似性度量的更復(fù)雜的方法, 但需要給定特征的概念層次. q系統(tǒng)映射每個(gè)發(fā)現(xiàn)的特征到概念層次的
30、特征中. q相似性度量基于字符串相似度以及WordNet中的同義詞.q基于數(shù)字相機(jī)和DVD評論的實(shí)驗(yàn)結(jié)果說明了該方法很有前景.n可以使用信息集成領(lǐng)域的很多思想.Web數(shù)據(jù)挖掘46識(shí)別關(guān)于特征的觀點(diǎn)傾向n對于每個(gè)特征, 識(shí)別評論者表達(dá)的情感或觀點(diǎn)傾向. n基于句子處理, 同時(shí)考慮到q一個(gè)句子可能包含多個(gè)特征. q不同的特征可能具有不同的觀點(diǎn).q比如,The battery life and picture quality are great (+), but the screen is small (-). n幾乎所有的方法都使用觀點(diǎn)詞. 但需要注意: q某些觀點(diǎn)詞具有上下文獨(dú)立的傾向, 比如,
31、 “great”.q某些觀點(diǎn)詞具有上下文依賴的傾向, 比如, “small”Web數(shù)據(jù)挖掘47觀點(diǎn)詞的聚集 (Hu and Liu, KDD-04; Ding and Liu, 2008)n輸入: 對子 (f, s), 其中f 是產(chǎn)品特征, s 是包含 f 的句子.n輸出: s中關(guān)于f的觀點(diǎn)是正面的, 負(fù)面的還是中立的.n兩步方法: q步驟1: 基于轉(zhuǎn)折詞(but, except that等等)切分句子. q步驟2: 處理包含f的部分sf. 設(shè)sf中的觀點(diǎn)詞為w1, ., wn. 對它們的傾向(1, -1, 0)求總和, 并對(f, s)賦予傾向值. n在(Ding and Liu, SIGIR-07)中, 步驟2改為 得到更好的結(jié)果. wi.o 是wi的觀點(diǎn)傾向值. d(wi, f)是從 f 到wi 的距離.niiifwdow1),(.Web數(shù)據(jù)挖掘48提綱n觀點(diǎn)挖掘 問題定義n文檔層次的情感分類n句子層次的情感分類n基于特征的觀點(diǎn)挖掘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)生產(chǎn)管理與調(diào)度方案手冊
- 公司電話客服勞動(dòng)合同
- 防雷接地施工方案例
- 2025年人力資源制度:全日制從業(yè)人員勞動(dòng)合同
- 咨詢產(chǎn)品服務(wù)合同
- 環(huán)氧樹脂注漿施工方案
- 晉城房屋糾偏施工方案
- 泄爆吊頂施工方案
- 鋼欄桿安裝工程施工方案
- 濱城區(qū)七上數(shù)學(xué)試卷
- 南大版一年級(jí)心理健康第5課《校園“紅綠燈”》課件
- 婦女節(jié)女性健康知識(shí)講座關(guān)愛女性健康主題宣教課件
- 2024年浙江省煙草專賣局(公司)管理類崗位招聘筆試真題
- 廣東省惠州市惠東縣2022年小升初語文試卷(學(xué)生版+解析)
- 《木蘭詩》歷年中考古詩欣賞試題匯編(截至2024年)
- 新人教版(2025春季版)七年級(jí)下冊英語單詞表(可編輯一表解決所有需求)
- 智能建筑監(jiān)理例會(huì)會(huì)議記錄
- 中國稀土熱障涂層材料行業(yè)分類、市場運(yùn)行態(tài)勢及產(chǎn)業(yè)鏈全景圖譜分析報(bào)告
- 2025年九年級(jí)上冊道德與法治核心知識(shí)點(diǎn)梳理匯編
- 2024年河南省鄭州某中學(xué)小升初數(shù)學(xué)試卷(含答案)
- 七年級(jí)數(shù)學(xué)新北師大版(2024)下冊第一章《整式的乘除》單元檢測習(xí)題(含簡單答案)
評論
0/150
提交評論