下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第6章基于文本挖掘的消費者情感分析教學(xué)內(nèi)容一、問題的提出二、文本分析法三、消費者情感分析案例示范教學(xué)要求【知識目標(biāo)】了解什么是文本分析法;了解文本情感分析的優(yōu)劣?!炯寄苣繕?biāo)】掌握文本挖掘在商品評論情感分析中的應(yīng)用。教學(xué)重點文本分析法在商品評論情感分析中的運用;利用文本分析法進行精準(zhǔn)營銷。教學(xué)難點文本分析法在相關(guān)領(lǐng)域中的運用;文本分析與用戶需求數(shù)據(jù)的匹配銜接度。教學(xué)方法講授法、案例法、任務(wù)驅(qū)動法、演示法課時數(shù)6課時教學(xué)內(nèi)容問題的提出一、商品評論中的情感隨著計算機技術(shù)的不斷升級,文本分析方法的出現(xiàn),實現(xiàn)了借助計算機獨立地對文本中的信息進行分類、排序和提取、并輸出相關(guān)的模式、關(guān)系、觀點。因此,文本分析方法迅速在政治、營銷、傳播、社會科學(xué)和心理學(xué)等領(lǐng)域引起了廣大研究者的關(guān)注。分析評論文本的情感傾向也成為研究在線購物網(wǎng)站和社交媒體用戶行為的一個重要研究方向。問題設(shè)計現(xiàn)某家經(jīng)營烤腸的電商店鋪為了提升自己的產(chǎn)品和服務(wù),想要調(diào)查自己店鋪的烤腸在消費者中的輿情。店鋪數(shù)據(jù)運營專員采集了自己店鋪烤腸的所有客戶的評論數(shù)據(jù),利用文本分析法進行用戶情感分析,從好詞和壞詞兩個維度去分別計算詞頻,從而制作出輿情分析詞云圖,分析評價情況,看消費者對產(chǎn)品的夸贊主要在哪些方面,并且調(diào)查在哪些方面對產(chǎn)品提出了質(zhì)疑或者差評,從而幫助產(chǎn)品的更新迭代。另外分析員又導(dǎo)出了近期的店鋪交易數(shù)據(jù),希望還能夠從中挖掘出用戶情感走向與用戶行為之間的關(guān)聯(lián)。問題解決思路使用評價內(nèi)容,對其進行數(shù)據(jù)預(yù)處理,處理內(nèi)容主要包括去除重復(fù)值、空值處理等操作,也就是將評價內(nèi)容中重復(fù)評價和為空的評價去除;獲得每個評論的情感得分;拆分評價內(nèi)容,進行分詞;匯總詞在文本出現(xiàn)的次數(shù);將數(shù)據(jù)導(dǎo)出到關(guān)系目標(biāo)源,再進行可視化展現(xiàn),分析消費者的情感,給賣家以參考建議。文本分析法一、文本分析原理文本主要是指由一些符號或代碼組成的信息結(jié)構(gòu)體,可通過語言、文本、圖像等不同的形式進行表達。文本是由特定的人制定的,其含義必然反映了人們特定的觀點、價值和利益等意識形態(tài)的內(nèi)容。一般來說,文本分析是一種針對文本類型數(shù)據(jù)的處理方法,就是從海量的文本數(shù)據(jù)中提取出有價值的數(shù)據(jù),并通過分析利用這些數(shù)據(jù)來重組信息。文本分析作為探討信息內(nèi)容本質(zhì)的有力研究方法被廣泛應(yīng)用于包括商業(yè)管理的各個領(lǐng)域。分詞分詞是根據(jù)一定的規(guī)范對連續(xù)的單詞序列進行重組的過程。它將句子準(zhǔn)確地劃分為單詞,在詞典中進行搜索和匹配,并根據(jù)匹配結(jié)果將句子劃分為常用短語或單詞。它通常用于文本挖掘和分析。分詞既簡單又復(fù)雜。分詞算法的研究已經(jīng)非常成熟。大多數(shù)單詞(如HMM分詞[HMM:是指隱馬爾可夫模型,是一種用于描述參數(shù)未知的馬爾可夫過程的統(tǒng)計模型,該模型結(jié)合字標(biāo)注的思想,能夠在不依賴詞典下自主識別未登錄詞。]和CRF分詞[CRF:是指條件隨機場,是一種基于遵循馬爾可夫性的概率圖模型的數(shù)學(xué)算法,該算法結(jié)合了最大熵模型和隱馬爾可夫模型的特點,是一種無向圖模型。])的準(zhǔn)確率可以達到95%以上,因此相對簡單。復(fù)雜的是,剩下的5%很難取得突破,原因可以概括為以下幾點:①不同的應(yīng)用程序?qū)α6扔胁煌囊?。其中,粒度是指分割的最小單位。例如,“保證金交易”可以是一個詞(“保證金交易”)或兩個詞(“保證金”和“交易”);②歧義,如“恒生”一詞。它可以參考恒生公司和恒生指數(shù);③未登錄詞,即未出現(xiàn)在算法使用詞典中的單詞,如不常見的專業(yè)金融術(shù)語和各種上市公司的名稱。詞袋詞袋是將句子按分隔符分成獨立的單詞。簡單地說,每個文檔都被視為一個包(因為它包含單詞,所以稱為單詞包),通過查看包中的單詞,可對它們進行分類。詞頻統(tǒng)計詞頻統(tǒng)計是詞匯分析的一種研究方法。這是一種通過計算出一定長度的語言材料中每個單詞的出現(xiàn)次數(shù)來分析統(tǒng)計結(jié)果,從而描述詞匯規(guī)則的方法。這種方法有助于評估作品,確定一種語言或?qū)W科的基本詞匯。簡而言之,詞頻統(tǒng)計用于計算單詞在文本中出現(xiàn)的次數(shù)。詞頻統(tǒng)計通常用于顯示單詞云。詞頻統(tǒng)計的原理是,如果在給定的文檔中,詞頻通常是標(biāo)準(zhǔn)化的,以防止它偏向長文檔。同時,詞頻統(tǒng)計是自然語言處理的重要基礎(chǔ)。信息熵、詞概率等參數(shù)只是詞頻的映射變換,但分析的實質(zhì)基礎(chǔ)沒有改變。文本數(shù)據(jù)的分析類型與一般流程文本統(tǒng)計分析:對文本中出現(xiàn)的詞語進行統(tǒng)計分析,運用場景主要有詞云、輿情分析、簡易版的智能客服;文本建模分析:通過將文本進行數(shù)字數(shù)據(jù)化之后,再和機器學(xué)習(xí)等算法進行結(jié)合,包括情感分析和詞語網(wǎng)絡(luò)分析;文本語義分析:通過采取深度學(xué)習(xí)等復(fù)制算法進行訓(xùn)練,使得可以從文本中挖掘出來具有語法信息的文本信息,包括主題模型LDA、RNN(遞歸神經(jīng)網(wǎng)絡(luò))等。完整的文本數(shù)據(jù)分析的一般流程包括:數(shù)據(jù)收集、除去數(shù)據(jù)中非文本部分、處理中文編碼問題、中文分詞、引入停用詞、特征處理、建立分析模型等7個步驟。文本情感分析的三種方法方法定義優(yōu)勢劣勢基于情感詞典的分析方法根據(jù)不同詞典所提供的情感詞的情感極限進行學(xué)習(xí)的方法可有效反應(yīng)文本的結(jié)構(gòu)特征,易于理解,在情感詞多時效果更優(yōu)受制于情感詞典的限制,情感詞典需要及時更新擴充基于傳統(tǒng)機器學(xué)習(xí)的分析方法一種通過給定的模型預(yù)測結(jié)果的學(xué)習(xí)方法可根據(jù)情感特征的選取和情感分類器的組合對文本進行情感分析無法考慮上下文文本的整體語境信息;數(shù)據(jù)量大時效率低基于深度學(xué)習(xí)的分析方法借助神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力進行情感分析的方法??杉毞譃閱我簧窠?jīng)網(wǎng)絡(luò)的情感分析、混合(組合、融合)神經(jīng)網(wǎng)絡(luò)的情感分析、引入注意力機制的情感分析和使用預(yù)訓(xùn)練模型的情感分析可充分利用上下文語境、可主動學(xué)習(xí)文本特征,能根據(jù)詞語的順序,提取較為精確的語義信息,從而實現(xiàn)情感分析要求大量數(shù)據(jù),比較耗時、對操作人員的技術(shù)要求高消費者情感分析案例示范探索數(shù)據(jù)源獲取2020年8月1日—2020年9月6日,共1599條店鋪烤腸評價數(shù)據(jù)以及2020年9月14日—2020年9月21日,共723條店鋪的銷售數(shù)據(jù)。數(shù)據(jù)預(yù)處理在對數(shù)據(jù)進行基礎(chǔ)探索之后,發(fā)現(xiàn)數(shù)據(jù)存在無效評價和重復(fù)值,因此需要對其進行過濾和去重復(fù)值操作。在平臺節(jié)點“過濾”中,將“此用戶沒有填寫評論!”作為篩選條件,以此篩除無效數(shù)據(jù)。再用“去除重復(fù)值”節(jié)點,選擇“評論”字段,進行去除重復(fù)值操作,處理后數(shù)據(jù)條數(shù)為1540條。計算情感得分使用經(jīng)處理后的數(shù)據(jù),計算情感得分。在“計算情感得分”的節(jié)點中,調(diào)用snownlp庫中的SnowNLP(job).Sentiments代碼,輸入相關(guān)代碼可計算出消費者的情感得分。好評與差評的詞頻統(tǒng)計將得到的情感得分進行劃分,得分>=0.5為好詞,得分<0.5為壞詞。在此基礎(chǔ)上統(tǒng)計各詞詞頻,以好詞為例,將屬于好詞的評論數(shù)據(jù)整合成一個長的字符串“good”,再運用jieba分詞庫對“good”進行分詞操作,最后使用Counter函數(shù)進行數(shù)據(jù)統(tǒng)計,并針對統(tǒng)計后的數(shù)據(jù)格式對“分詞”和對應(yīng)的“詞頻”進行數(shù)據(jù)提取,獲得最終的好詞詞頻統(tǒng)計數(shù)據(jù)。詞頻數(shù)據(jù)可視化兩張詞頻統(tǒng)計數(shù)據(jù)存至平臺后,首先將數(shù)據(jù)轉(zhuǎn)為平臺數(shù)據(jù)集,再利用自助儀表盤繪制詞云圖,在“智能配圖”中選擇詞云圖,將“分詞”拖入“標(biāo)簽”區(qū),“詞頻”拖入“大小”區(qū),即可獲得兩張詞云圖。規(guī)律探索觀察這些用戶的評論數(shù)據(jù)可以了解到,大部分用戶對該產(chǎn)品較為滿意,但不可否認產(chǎn)品在運輸、品質(zhì)、味道等方面有待優(yōu)化。對于包裝問題,只要沒有影響到產(chǎn)品本身,用戶基本能夠接受。再結(jié)合差評詞云圖,可以合理猜測情感得分較低且沒有復(fù)購的用戶大多是因為產(chǎn)品味道出現(xiàn)了問題,而這個問題有可能是因為用戶個人口味的不同導(dǎo)致;此外,由于該產(chǎn)品是冷鮮產(chǎn)品需要冷鏈輸送,所以也有可能是因為運輸不當(dāng)導(dǎo)致產(chǎn)品變質(zhì)、有酸味,引起用戶反感。對于前者,商家可以做一個基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度大理石石材行業(yè)知識產(chǎn)權(quán)保護合同12篇
- 2024年高風(fēng)險項目利息支付借款協(xié)議3篇
- 2024蔬菜種子研發(fā)與推廣合作協(xié)議范本3篇
- 2024版維修改造施工合同
- 二零二五年度高壓開關(guān)設(shè)備采購及調(diào)試合同
- 二零二五年電力公司運維檢修人員勞動合同范本3篇
- 2025年度核電站設(shè)備安裝施工合同協(xié)議3篇
- 二零二五年度醫(yī)療設(shè)備租賃與維修一體化服務(wù)合同3篇
- 2025年度新型電子商務(wù)平臺安全協(xié)議應(yīng)用指南合同3篇
- 2024聘用至退休合同續(xù)簽書:醫(yī)療行業(yè)專家續(xù)聘6篇
- 第二章 運營管理戰(zhàn)略
- 《三本白皮書》全文內(nèi)容及應(yīng)知應(yīng)會知識點
- 專題14 思想方法專題:線段與角計算中的思想方法壓軸題四種模型全攻略(解析版)
- 醫(yī)院外來器械及植入物管理制度(4篇)
- 圖像識別領(lǐng)域自適應(yīng)技術(shù)-洞察分析
- 港口與港口工程概論
- 《念珠菌感染的治療》課件
- 門店裝修設(shè)計手冊
- 新概念英語第二冊考評試卷含答案(第49-56課)
- 商業(yè)倫理與企業(yè)社會責(zé)任(山東財經(jīng)大學(xué))智慧樹知到期末考試答案章節(jié)答案2024年山東財經(jīng)大學(xué)
- 【奧運會獎牌榜預(yù)測建模實證探析12000字(論文)】
評論
0/150
提交評論