下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第6章基于文本挖掘的消費(fèi)者情感分析教學(xué)內(nèi)容一、問(wèn)題的提出二、文本分析法三、消費(fèi)者情感分析案例示范教學(xué)要求【知識(shí)目標(biāo)】了解什么是文本分析法;了解文本情感分析的優(yōu)劣?!炯寄苣繕?biāo)】掌握文本挖掘在商品評(píng)論情感分析中的應(yīng)用。教學(xué)重點(diǎn)文本分析法在商品評(píng)論情感分析中的運(yùn)用;利用文本分析法進(jìn)行精準(zhǔn)營(yíng)銷。教學(xué)難點(diǎn)文本分析法在相關(guān)領(lǐng)域中的運(yùn)用;文本分析與用戶需求數(shù)據(jù)的匹配銜接度。教學(xué)方法講授法、案例法、任務(wù)驅(qū)動(dòng)法、演示法課時(shí)數(shù)6課時(shí)教學(xué)內(nèi)容問(wèn)題的提出一、商品評(píng)論中的情感隨著計(jì)算機(jī)技術(shù)的不斷升級(jí),文本分析方法的出現(xiàn),實(shí)現(xiàn)了借助計(jì)算機(jī)獨(dú)立地對(duì)文本中的信息進(jìn)行分類、排序和提取、并輸出相關(guān)的模式、關(guān)系、觀點(diǎn)。因此,文本分析方法迅速在政治、營(yíng)銷、傳播、社會(huì)科學(xué)和心理學(xué)等領(lǐng)域引起了廣大研究者的關(guān)注。分析評(píng)論文本的情感傾向也成為研究在線購(gòu)物網(wǎng)站和社交媒體用戶行為的一個(gè)重要研究方向。問(wèn)題設(shè)計(jì)現(xiàn)某家經(jīng)營(yíng)烤腸的電商店鋪為了提升自己的產(chǎn)品和服務(wù),想要調(diào)查自己店鋪的烤腸在消費(fèi)者中的輿情。店鋪數(shù)據(jù)運(yùn)營(yíng)專員采集了自己店鋪烤腸的所有客戶的評(píng)論數(shù)據(jù),利用文本分析法進(jìn)行用戶情感分析,從好詞和壞詞兩個(gè)維度去分別計(jì)算詞頻,從而制作出輿情分析詞云圖,分析評(píng)價(jià)情況,看消費(fèi)者對(duì)產(chǎn)品的夸贊主要在哪些方面,并且調(diào)查在哪些方面對(duì)產(chǎn)品提出了質(zhì)疑或者差評(píng),從而幫助產(chǎn)品的更新迭代。另外分析員又導(dǎo)出了近期的店鋪交易數(shù)據(jù),希望還能夠從中挖掘出用戶情感走向與用戶行為之間的關(guān)聯(lián)。問(wèn)題解決思路使用評(píng)價(jià)內(nèi)容,對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,處理內(nèi)容主要包括去除重復(fù)值、空值處理等操作,也就是將評(píng)價(jià)內(nèi)容中重復(fù)評(píng)價(jià)和為空的評(píng)價(jià)去除;獲得每個(gè)評(píng)論的情感得分;拆分評(píng)價(jià)內(nèi)容,進(jìn)行分詞;匯總詞在文本出現(xiàn)的次數(shù);將數(shù)據(jù)導(dǎo)出到關(guān)系目標(biāo)源,再進(jìn)行可視化展現(xiàn),分析消費(fèi)者的情感,給賣家以參考建議。文本分析法一、文本分析原理文本主要是指由一些符號(hào)或代碼組成的信息結(jié)構(gòu)體,可通過(guò)語(yǔ)言、文本、圖像等不同的形式進(jìn)行表達(dá)。文本是由特定的人制定的,其含義必然反映了人們特定的觀點(diǎn)、價(jià)值和利益等意識(shí)形態(tài)的內(nèi)容。一般來(lái)說(shuō),文本分析是一種針對(duì)文本類型數(shù)據(jù)的處理方法,就是從海量的文本數(shù)據(jù)中提取出有價(jià)值的數(shù)據(jù),并通過(guò)分析利用這些數(shù)據(jù)來(lái)重組信息。文本分析作為探討信息內(nèi)容本質(zhì)的有力研究方法被廣泛應(yīng)用于包括商業(yè)管理的各個(gè)領(lǐng)域。分詞分詞是根據(jù)一定的規(guī)范對(duì)連續(xù)的單詞序列進(jìn)行重組的過(guò)程。它將句子準(zhǔn)確地劃分為單詞,在詞典中進(jìn)行搜索和匹配,并根據(jù)匹配結(jié)果將句子劃分為常用短語(yǔ)或單詞。它通常用于文本挖掘和分析。分詞既簡(jiǎn)單又復(fù)雜。分詞算法的研究已經(jīng)非常成熟。大多數(shù)單詞(如HMM分詞[HMM:是指隱馬爾可夫模型,是一種用于描述參數(shù)未知的馬爾可夫過(guò)程的統(tǒng)計(jì)模型,該模型結(jié)合字標(biāo)注的思想,能夠在不依賴詞典下自主識(shí)別未登錄詞。]和CRF分詞[CRF:是指條件隨機(jī)場(chǎng),是一種基于遵循馬爾可夫性的概率圖模型的數(shù)學(xué)算法,該算法結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn),是一種無(wú)向圖模型。])的準(zhǔn)確率可以達(dá)到95%以上,因此相對(duì)簡(jiǎn)單。復(fù)雜的是,剩下的5%很難取得突破,原因可以概括為以下幾點(diǎn):①不同的應(yīng)用程序?qū)α6扔胁煌囊?。其中,粒度是指分割的最小單位。例如,“保證金交易”可以是一個(gè)詞(“保證金交易”)或兩個(gè)詞(“保證金”和“交易”);②歧義,如“恒生”一詞。它可以參考恒生公司和恒生指數(shù);③未登錄詞,即未出現(xiàn)在算法使用詞典中的單詞,如不常見的專業(yè)金融術(shù)語(yǔ)和各種上市公司的名稱。詞袋詞袋是將句子按分隔符分成獨(dú)立的單詞。簡(jiǎn)單地說(shuō),每個(gè)文檔都被視為一個(gè)包(因?yàn)樗瑔卧~,所以稱為單詞包),通過(guò)查看包中的單詞,可對(duì)它們進(jìn)行分類。詞頻統(tǒng)計(jì)詞頻統(tǒng)計(jì)是詞匯分析的一種研究方法。這是一種通過(guò)計(jì)算出一定長(zhǎng)度的語(yǔ)言材料中每個(gè)單詞的出現(xiàn)次數(shù)來(lái)分析統(tǒng)計(jì)結(jié)果,從而描述詞匯規(guī)則的方法。這種方法有助于評(píng)估作品,確定一種語(yǔ)言或?qū)W科的基本詞匯。簡(jiǎn)而言之,詞頻統(tǒng)計(jì)用于計(jì)算單詞在文本中出現(xiàn)的次數(shù)。詞頻統(tǒng)計(jì)通常用于顯示單詞云。詞頻統(tǒng)計(jì)的原理是,如果在給定的文檔中,詞頻通常是標(biāo)準(zhǔn)化的,以防止它偏向長(zhǎng)文檔。同時(shí),詞頻統(tǒng)計(jì)是自然語(yǔ)言處理的重要基礎(chǔ)。信息熵、詞概率等參數(shù)只是詞頻的映射變換,但分析的實(shí)質(zhì)基礎(chǔ)沒(méi)有改變。文本數(shù)據(jù)的分析類型與一般流程文本統(tǒng)計(jì)分析:對(duì)文本中出現(xiàn)的詞語(yǔ)進(jìn)行統(tǒng)計(jì)分析,運(yùn)用場(chǎng)景主要有詞云、輿情分析、簡(jiǎn)易版的智能客服;文本建模分析:通過(guò)將文本進(jìn)行數(shù)字?jǐn)?shù)據(jù)化之后,再和機(jī)器學(xué)習(xí)等算法進(jìn)行結(jié)合,包括情感分析和詞語(yǔ)網(wǎng)絡(luò)分析;文本語(yǔ)義分析:通過(guò)采取深度學(xué)習(xí)等復(fù)制算法進(jìn)行訓(xùn)練,使得可以從文本中挖掘出來(lái)具有語(yǔ)法信息的文本信息,包括主題模型LDA、RNN(遞歸神經(jīng)網(wǎng)絡(luò))等。完整的文本數(shù)據(jù)分析的一般流程包括:數(shù)據(jù)收集、除去數(shù)據(jù)中非文本部分、處理中文編碼問(wèn)題、中文分詞、引入停用詞、特征處理、建立分析模型等7個(gè)步驟。文本情感分析的三種方法方法定義優(yōu)勢(shì)劣勢(shì)基于情感詞典的分析方法根據(jù)不同詞典所提供的情感詞的情感極限進(jìn)行學(xué)習(xí)的方法可有效反應(yīng)文本的結(jié)構(gòu)特征,易于理解,在情感詞多時(shí)效果更優(yōu)受制于情感詞典的限制,情感詞典需要及時(shí)更新擴(kuò)充基于傳統(tǒng)機(jī)器學(xué)習(xí)的分析方法一種通過(guò)給定的模型預(yù)測(cè)結(jié)果的學(xué)習(xí)方法可根據(jù)情感特征的選取和情感分類器的組合對(duì)文本進(jìn)行情感分析無(wú)法考慮上下文文本的整體語(yǔ)境信息;數(shù)據(jù)量大時(shí)效率低基于深度學(xué)習(xí)的分析方法借助神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力進(jìn)行情感分析的方法。可細(xì)分為單一神經(jīng)網(wǎng)絡(luò)的情感分析、混合(組合、融合)神經(jīng)網(wǎng)絡(luò)的情感分析、引入注意力機(jī)制的情感分析和使用預(yù)訓(xùn)練模型的情感分析可充分利用上下文語(yǔ)境、可主動(dòng)學(xué)習(xí)文本特征,能根據(jù)詞語(yǔ)的順序,提取較為精確的語(yǔ)義信息,從而實(shí)現(xiàn)情感分析要求大量數(shù)據(jù),比較耗時(shí)、對(duì)操作人員的技術(shù)要求高消費(fèi)者情感分析案例示范探索數(shù)據(jù)源獲取2020年8月1日—2020年9月6日,共1599條店鋪烤腸評(píng)價(jià)數(shù)據(jù)以及2020年9月14日—2020年9月21日,共723條店鋪的銷售數(shù)據(jù)。數(shù)據(jù)預(yù)處理在對(duì)數(shù)據(jù)進(jìn)行基礎(chǔ)探索之后,發(fā)現(xiàn)數(shù)據(jù)存在無(wú)效評(píng)價(jià)和重復(fù)值,因此需要對(duì)其進(jìn)行過(guò)濾和去重復(fù)值操作。在平臺(tái)節(jié)點(diǎn)“過(guò)濾”中,將“此用戶沒(méi)有填寫評(píng)論!”作為篩選條件,以此篩除無(wú)效數(shù)據(jù)。再用“去除重復(fù)值”節(jié)點(diǎn),選擇“評(píng)論”字段,進(jìn)行去除重復(fù)值操作,處理后數(shù)據(jù)條數(shù)為1540條。計(jì)算情感得分使用經(jīng)處理后的數(shù)據(jù),計(jì)算情感得分。在“計(jì)算情感得分”的節(jié)點(diǎn)中,調(diào)用snownlp庫(kù)中的SnowNLP(job).Sentiments代碼,輸入相關(guān)代碼可計(jì)算出消費(fèi)者的情感得分。好評(píng)與差評(píng)的詞頻統(tǒng)計(jì)將得到的情感得分進(jìn)行劃分,得分>=0.5為好詞,得分<0.5為壞詞。在此基礎(chǔ)上統(tǒng)計(jì)各詞詞頻,以好詞為例,將屬于好詞的評(píng)論數(shù)據(jù)整合成一個(gè)長(zhǎng)的字符串“good”,再運(yùn)用jieba分詞庫(kù)對(duì)“good”進(jìn)行分詞操作,最后使用Counter函數(shù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì),并針對(duì)統(tǒng)計(jì)后的數(shù)據(jù)格式對(duì)“分詞”和對(duì)應(yīng)的“詞頻”進(jìn)行數(shù)據(jù)提取,獲得最終的好詞詞頻統(tǒng)計(jì)數(shù)據(jù)。詞頻數(shù)據(jù)可視化兩張?jiān)~頻統(tǒng)計(jì)數(shù)據(jù)存至平臺(tái)后,首先將數(shù)據(jù)轉(zhuǎn)為平臺(tái)數(shù)據(jù)集,再利用自助儀表盤繪制詞云圖,在“智能配圖”中選擇詞云圖,將“分詞”拖入“標(biāo)簽”區(qū),“詞頻”拖入“大小”區(qū),即可獲得兩張?jiān)~云圖。規(guī)律探索觀察這些用戶的評(píng)論數(shù)據(jù)可以了解到,大部分用戶對(duì)該產(chǎn)品較為滿意,但不可否認(rèn)產(chǎn)品在運(yùn)輸、品質(zhì)、味道等方面有待優(yōu)化。對(duì)于包裝問(wèn)題,只要沒(méi)有影響到產(chǎn)品本身,用戶基本能夠接受。再結(jié)合差評(píng)詞云圖,可以合理猜測(cè)情感得分較低且沒(méi)有復(fù)購(gòu)的用戶大多是因?yàn)楫a(chǎn)品味道出現(xiàn)了問(wèn)題,而這個(gè)問(wèn)題有可能是因?yàn)橛脩魝€(gè)人口味的不同導(dǎo)致;此外,由于該產(chǎn)品是冷鮮產(chǎn)品需要冷鏈輸送,所以也有可能是因?yàn)檫\(yùn)輸不當(dāng)導(dǎo)致產(chǎn)品變質(zhì)、有酸味,引起用戶反感。對(duì)于前者,商家可以做一個(gè)基
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 5G通信設(shè)備制造行業(yè)市場(chǎng)調(diào)研分析報(bào)告
- 云物流服務(wù)行業(yè)市場(chǎng)調(diào)研分析報(bào)告
- 建筑風(fēng)能利用行業(yè)市場(chǎng)調(diào)研分析報(bào)告
- 寵物用首飾產(chǎn)品供應(yīng)鏈分析
- 牙科用貴金屬合金商業(yè)機(jī)會(huì)挖掘與戰(zhàn)略布局策略研究報(bào)告
- 假發(fā)粘貼膠水產(chǎn)品供應(yīng)鏈分析
- 醫(yī)用拐杖產(chǎn)品供應(yīng)鏈分析
- 卸妝霜產(chǎn)品供應(yīng)鏈分析
- 制飲料用機(jī)器人出租行業(yè)經(jīng)營(yíng)分析報(bào)告
- 墊席產(chǎn)品供應(yīng)鏈分析
- 2024二十屆三中全會(huì)知識(shí)競(jìng)賽題庫(kù)及答案
- 高中數(shù)學(xué)考點(diǎn)思維導(dǎo)圖(總圖)
- 三才配置一覽表
- 2022年6月大學(xué)英語(yǔ)四級(jí)考試真題第一套
- 業(yè)績(jī)合同模板
- 國(guó)內(nèi)旅游景點(diǎn)英文PPT
- 二年級(jí)數(shù)學(xué)乘法口算練習(xí)題100道
- 學(xué)前教育-幼兒園環(huán)境創(chuàng)設(shè)對(duì)幼兒創(chuàng)造力和審美性影響研究
- 【專業(yè)資訊】人體成分分析在臨床中的應(yīng)用
- 隧道照明工程設(shè)計(jì)方案詳解
- 腳本理論觀照下的電影字幕翻譯
評(píng)論
0/150
提交評(píng)論