大數(shù)據(jù)分析方法與應(yīng)用 課件 第6章 文本挖掘_第1頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第6章 文本挖掘_第2頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第6章 文本挖掘_第3頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第6章 文本挖掘_第4頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第6章 文本挖掘_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)分析方法與應(yīng)用上海理工大學(xué)主講人:耿秀麗

教授第6章文本挖掘6.1文本挖掘的應(yīng)用價值目錄CONTENTS6.2文本挖掘的流程6.3LDA主題模型6.4模型評估第6章文本挖掘6.5基于LDA主題模型的客戶需求挖掘案例分析6.1文本挖掘的應(yīng)用價值數(shù)據(jù)挖掘(DataMining)這一詞最早由UsamaFayaadg,于1995年在加拿大蒙特利爾召開的第一屆“知識發(fā)現(xiàn)和數(shù)據(jù)挖掘”國際學(xué)術(shù)會議上提出,它是一門很廣泛的交叉學(xué)科,匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。結(jié)合人工智能研究領(lǐng)域中的自然語言理解和計算機語言學(xué),從數(shù)據(jù)挖掘中派生了兩類新興的數(shù)據(jù)挖掘研究領(lǐng)域:網(wǎng)絡(luò)挖掘和文本挖掘。6.1文本挖掘的應(yīng)用價值

網(wǎng)絡(luò)挖掘側(cè)重于分析和挖掘網(wǎng)頁相關(guān)的數(shù)據(jù),包括文本、鏈接結(jié)構(gòu)和訪問統(tǒng)計(最終形成用戶網(wǎng)絡(luò)導(dǎo)航)。一個網(wǎng)頁中包含了多種不同的數(shù)據(jù)類型,因此網(wǎng)絡(luò)挖掘就包含了文本挖掘、數(shù)據(jù)庫中數(shù)據(jù)挖掘、圖像挖掘等。網(wǎng)絡(luò)挖掘6.1文本挖掘的應(yīng)用價值

文本挖掘,是指以數(shù)理統(tǒng)計學(xué)和計算機語言學(xué)為理論基礎(chǔ),利用信息檢索技術(shù)從大量文本數(shù)據(jù)中提取未知的、隱含的、可能有用的信息的過程,也被稱為自然語言處理。文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程。目的:在于把文本信息轉(zhuǎn)化為人可利用的知識。它需要多學(xué)科的融合才能達到最好的效果,一般涵蓋了統(tǒng)計學(xué)、數(shù)據(jù)可視化、文本分析、模式識別、數(shù)據(jù)庫、機器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù)。用途:作為信息挖掘的一個研究分支,文本挖掘用于基于文本信息的知識發(fā)現(xiàn)。它利用智能算法,如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源,抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對文檔進行分類,獲取有用的知識和信息。文本挖掘6.1文本挖掘的應(yīng)用價值

隨著人工智能研究的發(fā)展,文本挖掘技術(shù)被廣泛地應(yīng)用到很多場景,比如智能語音,機器翻譯,文本分析,語音助手,問答系統(tǒng)等等。下面將分別詳細介紹文本挖掘技術(shù)在機器翻譯、文本分析以及問答系統(tǒng)場景中的應(yīng)用價值。6.1文本挖掘的應(yīng)用價值機器翻譯的應(yīng)用價值如何克服語言障礙,實現(xiàn)不同語言的人之間可以自由地交流,已成為國際社會共同面對的問題?;ヂ?lián)網(wǎng)的高速發(fā)展擴大了對于機器翻譯的需求。機器翻譯可以為人工翻譯減輕負擔(dān),提高翻譯效率,在部分場景和任務(wù)下可替代人工,有極其廣闊的應(yīng)用前景。6.1文本挖掘的應(yīng)用價值文本分析的應(yīng)用價值隨著大數(shù)據(jù)的發(fā)展,文本分析被廣泛地應(yīng)用到問卷調(diào)研的處理、新媒體熱點采集追蹤及預(yù)測、企業(yè)品牌和產(chǎn)品的口碑管理等各個方面。此外,文本分析在輿情監(jiān)測方面也受到越來越多的重視。利用基于大數(shù)據(jù)的文本分析,可以清晰地知曉事件從始發(fā)到發(fā)酵期、發(fā)展期、高漲期、回落期和反饋期等階段的演變過程,分析輿情的傳播路徑、傳播節(jié)點、發(fā)展態(tài)勢和受眾反饋等情報。6.1文本挖掘的應(yīng)用價值問答系統(tǒng)的應(yīng)用價值問答系統(tǒng)是信息檢索系統(tǒng)的一種高級形式,它能用準(zhǔn)確、簡潔的自然語言回答用戶用自然語言提出的問題。相對于傳統(tǒng)搜索引擎來說,問答系統(tǒng)更加智能,效率也更高,被看作是未來信息服務(wù)的顛覆性技術(shù)之一。隨著人工智能第三次熱潮的到來,問答系統(tǒng)的應(yīng)用領(lǐng)域更加廣泛。6.1文本挖掘的應(yīng)用價值除了在現(xiàn)實生活中應(yīng)用以外,許多學(xué)者對文本挖掘也進行了廣泛的研究。①廖玉清在量化分析后從政策制定側(cè)重點及政策內(nèi)容上對文本進行總結(jié)。②孫寶生等構(gòu)建游客滿意度評價指標(biāo)體系和評價模型,定量評價游客的生態(tài)旅游滿意度,為相關(guān)生態(tài)旅游政策的制定提供參考。③張敏等采用共詞分析和聚類分析這兩種定量方法剖析了文本挖掘研究現(xiàn)狀,表明文本挖掘在信息檢索、生物醫(yī)學(xué)和經(jīng)濟管理領(lǐng)域應(yīng)用廣泛;④史航等通過聚類分析得出結(jié)論,未來文本挖掘在生物醫(yī)學(xué)領(lǐng)域應(yīng)用的主要研究熱點為文本挖掘的基本技術(shù)研究、文本挖掘在生物信息學(xué)領(lǐng)域的應(yīng)用、文本挖掘在藥物相關(guān)事實抽取中的應(yīng)用三個方面。⑤李建蘭等也表明,未來將其應(yīng)用于網(wǎng)絡(luò)新媒體及輿情分析、商業(yè)流程優(yōu)化、醫(yī)療健康分析等領(lǐng)域會越來越成熟。6.2文本挖掘的流程文本挖掘的流程通常我們得到的原始文本數(shù)據(jù)冗余、復(fù)雜,因此文本挖掘處理是分析文本信息非常重要的一部分。將重復(fù)、多余、無意義的文本信息剔除,可以提高文本分析的精確度,保證文本信息的質(zhì)量,使之后得出的分析結(jié)果更準(zhǔn)確。文本挖掘流程如圖所示。6.2文本挖掘的流程1)文檔集獲取該過程包括網(wǎng)絡(luò)數(shù)據(jù)抓取、文件讀入及圖片OCR的轉(zhuǎn)化等??梢酝ㄟ^編寫爬蟲代碼或利用爬蟲軟件方式獲取數(shù)據(jù)。2)數(shù)據(jù)清洗對文檔集通過丟棄、替換、去重等操作,達到去除異常、糾正錯誤、補足缺失的目的。6.2文本挖掘的流程3)分詞與去除停用詞分詞:把文檔集中的每句話分成無數(shù)個孤立的詞,作為最小的信息單位,即分詞。停用詞:在分詞處理后解析的文本中常常會有很多無效的詞,比如“著”、“和”以及一些標(biāo)點符號,由于在文本分析時這些詞一般是我們不想引入的,因此我們需要去除這些冗余的詞及無意義的停用詞。對于這些停用詞的處理可以從網(wǎng)上下載常用的一些停用詞表對其進行處理。詞性:指以詞的特點作為劃分詞類的根據(jù)。詞性標(biāo)注:就是在給定句子中判定每個詞的語法范疇,確定其詞性并加以標(biāo)注的過程,這也是自然語言處理中一項非常重要的基礎(chǔ)性工作。詞性標(biāo)注主要有以下兩種常見的方法:6.2文本挖掘的流程①基于規(guī)則的詞性標(biāo)注方法

基于規(guī)則的詞性標(biāo)注方法是人們提出較早的一種詞性標(biāo)注方法,基本思想:按兼類詞搭配關(guān)系和上下文語境建造詞類消歧規(guī)則。早期的詞類標(biāo)注規(guī)則一般由人工構(gòu)建。隨著標(biāo)注語料庫規(guī)模的增大,可利用的資源也變得越來越多,這時候以人工提取規(guī)則的方法變得不現(xiàn)實。②基于統(tǒng)計模型的詞性標(biāo)注方法

統(tǒng)計模型的詞性標(biāo)注方法將詞性標(biāo)注看作是一個序列標(biāo)注問題?;舅枷胧牵航o定帶有各自標(biāo)注的詞的序列,我們可以確定下一個詞最可能的詞性?,F(xiàn)在已經(jīng)有隱馬爾可夫模型、條件隨機場等統(tǒng)計模型,這些模型可以使用有標(biāo)記數(shù)據(jù)的大型語料庫進行訓(xùn)練,而有標(biāo)記的數(shù)據(jù)則是指其中每一個詞都分配了正確的詞性標(biāo)注的文本。6.2文本挖掘的流程5)內(nèi)在信息挖掘與展示數(shù)據(jù)化后,我們即可對信息進行挖掘與展示,包括關(guān)鍵詞提取、自動摘要、文本聚類等。4)相關(guān)字典編制與信息的轉(zhuǎn)換將處理后的文檔集編制成“文檔-詞條”矩陣;必要的情況下還需進行相應(yīng)的信息轉(zhuǎn)換,如信息的濃縮。6.2文本挖掘的流程6.2.1文本挖掘的關(guān)鍵技術(shù)文本聚類文本分類自動文摘情感分析1)文本聚類

文本聚類是指在沒有預(yù)先定義主題類別的前提下,將文本集合分為若干個類或簇,要求同一簇內(nèi)文本內(nèi)容的相似度盡可能地大,而不同簇間的相似度盡可能地小。2)文本分類

文本分類是指對給定的文本片段給出合適的類別標(biāo)記,屬于一個非常典型的機器學(xué)習(xí)分類問題。從輸入文本的長度來說,可以分成文檔級、句子級、短語搭配級的文本分類。從應(yīng)用的領(lǐng)域區(qū)分來說,文本分類可以分成話題分類、情感分類、意圖分類、關(guān)系分類。文本分類的研究意義是不言而喻的,它常常作為自然語言處理系統(tǒng)的前置模塊出現(xiàn),同時在許多任務(wù)中,文本分類往往可以達到工業(yè)級產(chǎn)品應(yīng)用的要求,因而也成為使用系統(tǒng)中最重要的算法模塊之一。因此,其重要意義不僅體現(xiàn)在學(xué)術(shù)研究中,還體現(xiàn)在工業(yè)應(yīng)用中。6.2文本挖掘的流程3)自動文摘自動文摘是指通過自動分析給定的單篇或多篇文檔,提煉總結(jié)其中的要點信息,最終輸出一段長度較短、可讀性良好的摘要,該摘要中的句子可直接出自原文,也可重新撰寫。通過不同的劃分標(biāo)準(zhǔn),自動文摘任務(wù)可以包括以下幾種類型:①根據(jù)處理的文檔數(shù)量,自動文摘可以分為單文檔自動摘要和多文檔自動摘要。單文檔自動摘要只針對單篇文檔生成摘要,而多文檔自動摘要則為一個文檔集生成摘要。②根據(jù)是否提供上下文環(huán)境,自動文摘可以分為與主題或查詢相關(guān)的自動摘要以及普通自動摘要。前者要求在給定的某個主題或查詢下,所產(chǎn)生的摘要能夠詮釋該主題或回答該查詢;而后者則指在不給定主題或查詢的情況下對文檔或文檔集進行自動摘要。6.2文本挖掘的流程③根據(jù)摘要的不同應(yīng)用場景,自動文摘可以分為傳記摘要、觀點摘要、對話摘要等。這些摘要通常為滿足特定的應(yīng)用需求,例如傳記摘要的目的是為某個人生成一個概述性的描述,通常包含該人的各種基本屬性,用戶通過瀏覽某個人的傳記摘要就能對這個人有一個總體的了解;觀點摘要則是總結(jié)用戶提出的評論文本中的主要觀點信息,以供管理層人士更加高效地了解輿情概貌、制訂決策;對話摘要則是通過對兩人或多人參與的多輪對話進行總結(jié),方便其他人員了解對話中所討論的主要內(nèi)容。4)情感分析情感分析,也稱為觀點挖掘,旨在分析人們研究所表達的對于實體及其屬性的觀點、情感、評價、態(tài)度和情感,其中實體可以是產(chǎn)品、個人、事件或主題。在這一研究領(lǐng)域中包含許多相關(guān)但又略不相同的任務(wù),例如情感分析、觀點挖掘、觀點抽取、主觀性分析、情緒分析及評論挖掘等,這些研究問題或任務(wù)都屬于情感分析的研究范疇。在情感分析領(lǐng)域中主客觀句子都是研究者的研究對象,挖掘文本中表達或暗示的正面或負面的觀點及情緒是情感分析的最終目標(biāo)。6.2文本挖掘的流程6.2.2文檔收集方法文本挖掘的第一步是獲取原始文本,原始文本的獲取可以通過編寫爬蟲代碼或者利用爬蟲軟件方式獲取。其中,常用的爬蟲軟件是八爪魚采集器。八爪魚采集器分為簡易采集和自定義采集兩種模式,簡易采集方式是對如淘寶、微博等主流網(wǎng)站利用固定模板對網(wǎng)頁中的數(shù)據(jù)進行采集;自定義采集是用戶對任一網(wǎng)址中的數(shù)據(jù),定義其采集流程與內(nèi)容來進行采集的方法。下面舉例說明兩種模式的使用。6.2文本挖掘的流程1、簡易采集假設(shè)采集京東平臺某鼠標(biāo)的商品評論數(shù)據(jù),利用簡易采集方式步驟如下:1)選擇簡易采集下的“立即使用”6.2文本挖掘的流程2)選擇“京東”6.2文本挖掘的流程3)單擊“京東商品評論”模板6.2文本挖掘的流程4)單擊“立即使用”,就可以利用該模板獲取有關(guān)左側(cè)相關(guān)內(nèi)容的數(shù)據(jù)了6.2文本挖掘的流程5)初始數(shù)據(jù)設(shè)置①將京東平臺中某鼠標(biāo)的商品評論頁面網(wǎng)址復(fù)制到商品詳情鏈接的空白框內(nèi);②設(shè)置最大翻頁次數(shù);③最后單擊“保存并啟用”,便開始采集數(shù)據(jù)。6.2文本挖掘的流程6)單擊“啟用本地采集”6.2文本挖掘的流程7)采集運行頁面如下圖所示6.2文本挖掘的流程8)采集完成6.2文本挖掘的流程9)最終,便得到了評價內(nèi)容、用戶名等一系列數(shù)據(jù)存儲在excel中6.2文本挖掘的流程2、自定義采集假設(shè)采集豆瓣網(wǎng)中某電影的評論,利用自定義采集方式步驟如下:1)選擇自定義采集下的“立即使用”6.2文本挖掘的流程2)輸入豆瓣網(wǎng)某電影評論的網(wǎng)址,并保存6.2文本挖掘的流程3)單擊“流程”6.2文本挖掘的流程4)單擊下面的某個評論,就會彈出本頁面的所有評論內(nèi)容6.2文本挖掘的流程5)單擊鼠標(biāo),便可以選中全部內(nèi)容6.2文本挖掘的流程6)單擊“保存并開始采集”,便可以把所有評論都采集下來了6.2文本挖掘的流程7)單擊“啟用本地采集”6.2文本挖掘的流程8)采集完成,導(dǎo)出excel表格即可6.2文本挖掘的流程6.2.3分詞技術(shù)分詞就是將句子、段落、文章這種長文本,分解為以字詞為單位的數(shù)據(jù)結(jié)構(gòu),方便后續(xù)的處理分析工作。英文文本:對英文文本而言,由于英文單詞存在豐富的變形變換,因此需要對其進行詞還原和詞干提取。中文文本:中文需要不同的場景和要求選擇不同的粒度。中文分詞的難點主要表現(xiàn)在沒有統(tǒng)一的標(biāo)準(zhǔn)、歧義詞如何切分、新詞的識別。歧義切分指的是通過詞典匹配給出的切詞結(jié)果和原來語句所要表達的意思不相符或差別較大,在機械切分中比較常見,比如“這梨不大好吃”,通過機械切分的方式會有兩種切分結(jié)果:①“這梨/不大/好吃”;②“這梨/不大好吃”。將兩種切分方式對比可以發(fā)現(xiàn),兩者表達的意思不相符,單純的機械切分很難避免這種問題。6.2文本挖掘的流程未登錄詞識別也稱作新詞發(fā)現(xiàn),指的是在詞典中沒有出現(xiàn)過的一些詞,比如一些新的網(wǎng)絡(luò)詞匯“尾款人”“杠精”;命名實體,包括人名、地名、組織結(jié)構(gòu)名等;專有名詞,如新出現(xiàn)的電影名、書籍名等。解決該問題最簡單的方法是可以在詞典中加詞,但是隨著字典的增大,可能會出現(xiàn)一些其他的問題,并且系統(tǒng)的運算復(fù)雜度也會增加。目前,典型的分詞方法大致分為三類:6.2文本挖掘的流程1、基于字符串匹配的方法基于字符串匹配的方法又稱為機械分詞方法或字典匹配方法,其基本思想是基于詞典匹配,將待分詞的中文文本根據(jù)一定規(guī)則切分和調(diào)整,然后跟詞典中的詞語進行匹配,匹配成功則按照詞典的詞分詞,匹配失敗通過調(diào)整或者重新選擇,如此反復(fù)循環(huán)即可。

但是基于詞典的機械切分會遇到多種問題,最為常見的包括歧義切分問題和未登錄詞識別問題。

在中文分詞上解決歧義切分方法:常見的包括基于正向最大匹配、基于逆向最大匹配、雙向最大匹配法、最少切分分詞法等。6.2文本挖掘的流程(1)正向及逆向匹配方法正向和逆向最大匹配依據(jù)詞典以及設(shè)定的最大長度劃分詞語。例:我們經(jīng)常有意見分歧詞典:“我們”、“經(jīng)?!薄ⅰ坝小?、“意見”、“分歧”假定max-len=5,在正向最大匹配中首先劃分的詞語為“我們經(jīng)常有”,對照詞典發(fā)現(xiàn)不存在這個詞語,接著劃分的詞語為“我們經(jīng)?!?,對照詞典發(fā)現(xiàn)仍然沒有該詞語,以此類推,對照詞典直至劃分出來的詞語在詞典中出現(xiàn);

逆向最大匹配是從句子的結(jié)尾開始選擇“有意見分析”,與正向最大匹配的處理方法一樣,對照詞典劃分詞語。這種方法得到的結(jié)果屬于局部最優(yōu),效率低且不能考慮語義。6.2文本挖掘的流程(2)雙向最大匹配法這種方法側(cè)重于分詞過程中檢錯和糾錯的應(yīng)用基本原理:對待切分字符串采用正向最大匹配和逆向最大匹配分別進行正向和逆向掃描和初步切分;并將正向最大匹配初步切分結(jié)果和逆向最大匹配初步切分結(jié)果進行比較;如果兩組結(jié)果一致,則判定分詞結(jié)果正確,如果存在不一致,則判定存在著切分歧義,需要進一步采取技術(shù)手段來消解歧義。6.2文本挖掘的流程(3)最少切分分詞法該分詞算法依據(jù)最少切分原則,從幾種分詞算法切分結(jié)果中取切分詞數(shù)最少一種的。比如,從正向最大匹配和逆向最大匹配兩者中選擇詞數(shù)較少的方案,當(dāng)詞數(shù)相同時,采取某種策略,選擇其中一個。6.2文本挖掘的流程2、基于統(tǒng)計模型的分詞方法基于統(tǒng)計的中文分詞算法通常使用序列標(biāo)注模型建模,在一段文字中,可以將每個字按照他們在詞中的位置進行標(biāo)注。

常用的標(biāo)記有以下四個標(biāo)記:B,Begin,表示這個字是一個詞的首字;M,Middle,表示這是一個詞中間的字;E,End,表示這是一個詞的尾字;S,Single,表示這是單字成詞。分詞的過程就是將一段字符輸入模型,然后得到相應(yīng)的標(biāo)記序列,再根據(jù)標(biāo)記序列進行分詞。優(yōu)點:不受待處理文本領(lǐng)域的限制,不需要專門的詞典。統(tǒng)計分詞以概率論為理論基礎(chǔ),將上下文中字組合串的出現(xiàn)抽象成隨機過程,隨機過程的參數(shù)可以通過大規(guī)模語料庫訓(xùn)練得到?;诮y(tǒng)計的分詞可以采用統(tǒng)計模型如:隱馬爾可夫模型、條件隨機場模型、神經(jīng)網(wǎng)絡(luò)模型及最大熵模型等。以條件隨機場(CRF)模型為例,基本思路就是對漢字進行標(biāo)注訓(xùn)練,不僅考慮了詞語出現(xiàn)的頻率,還考慮上下文,具備較好的學(xué)習(xí)能力。因此針對基于詞典的機械切分所面對的問題,尤其是未登錄詞識別,使用基于統(tǒng)計模型的分詞方法能夠取得更好的效果。6.2文本挖掘的流程3、基于深度學(xué)習(xí)方式的分詞方法

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,許多中文分詞算法會采用神經(jīng)網(wǎng)絡(luò)模型。

分詞的基礎(chǔ)思想還是使用序列標(biāo)注問題,將一個句子中的每個字標(biāo)記成BEMS四種標(biāo)記。

例如,將雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)和條件隨機場模型(CRF)結(jié)合使用進行分詞處理?;贐i-LSTM+CRF的神經(jīng)網(wǎng)絡(luò)分詞模型是融合了LSTM和CRF的一種常用于序列標(biāo)注任務(wù)的框架,可以有效地結(jié)合結(jié)構(gòu)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的特點,在分詞應(yīng)用上可以取得很好的效果,提高分詞的準(zhǔn)確率。6.2文本挖掘的流程6.2.4詞的表示形式

文本是一種非結(jié)構(gòu)化的數(shù)據(jù)信息,是不可以直接被計算的。

文本表示:將這些非結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息,這樣就可以針對文本信息做計算,來完成我們?nèi)粘K芤姷降奈谋痉诸?、情感判斷等任?wù)。

文本表示的方法主要有三類,如圖所示6.2文本挖掘的流程1、one-hotrepresentation與整數(shù)編碼詞向量最初是用one-hotrepresentation表征的,也就是向量中每一個元素都關(guān)聯(lián)著詞庫中的一個單詞,指定詞的向量表示為:其在向量中對應(yīng)的元素設(shè)置為1,其他元素設(shè)置為0。獨熱編碼和整數(shù)編碼正是基于詞典將詞語用向量來表示,這兩種方法都無法表達詞語之間的關(guān)系,且過于稀疏的向量容易導(dǎo)致計算和存儲的效率不高,后來就出現(xiàn)了分布式表征。6.2文本挖掘的流程2、詞嵌入模型(wordsembedding)歷史上先后提出了詞袋模型(bagofwords)和詞嵌入模型(wordsembedding)。

詞袋模型的基本思想是假定一篇文檔中的詞之間是相互獨立的,只需要將其視為是一組詞的組合,就像一個袋子一樣,無須考慮次序、句法、語法。詞袋只是記錄了詞的出現(xiàn)次數(shù),并沒有先后關(guān)系;

而詞嵌入模型的基本思想是詞袋模型的改進版,其基本實現(xiàn)會根據(jù)中心詞預(yù)測上下文詞或者根據(jù)上下文詞預(yù)測中心詞,所以詞嵌入模型訓(xùn)練出來的特征表示有一個特點就是語義相近的詞其分布式向量距離也相似。6.2文本挖掘的流程3、Word2vec在Word2vec中采用分布式表征,在向量維數(shù)比較大的情況下,每一個詞都可以用元素的分布式權(quán)重來表示,因此,向量的每一維都表示一個特征向量,作用于所有的單詞,而不是簡單的元素和值之間的一一映射。這種方式抽象地表示了一個詞的“意義”。Word2vec中最重要的兩個模型是CBOW(ContinuousBagOfWords)模型和Skip-gram(ContinuousSkip-gram)模型。CBOW模型的作用是已知當(dāng)前詞Wt的上下文環(huán)境(Wt-2,Wt-1,Wt+1,Wt+2)來預(yù)測當(dāng)前詞。Skip-gram模型的作用是根據(jù)當(dāng)前詞Wt來預(yù)測上下文(Wt-2,Wt-1,Wt+1,Wt+2)。這兩個模型都包含三層:輸入層、投影層、輸出層。6.2文本挖掘的流程Word2vec模型如圖所示使用Word2vec進行關(guān)鍵特征提取原理:將每一個詞映射到一個特定維度的實數(shù)空間中,越相似的詞在向量空間中越相近,將每個詞看作一個隨機k維向量通過訓(xùn)練后輸出對應(yīng)每個詞的最優(yōu)向量。優(yōu)點:不僅能避免使用向量空間模型帶來的特征向量“維度災(zāi)難”,同時考慮了文本中的同義詞問題。6.2文本挖掘的流程6.2.5文本特征屬性處理文本被分詞之后存在這樣的問題:并不是所有的詞都是有用的,語料庫的詞量非常大而傳統(tǒng)的文本挖掘方法又是基于向量空間模型表示的,會造成數(shù)據(jù)過于稀疏。比如對詞語或者句子向量化可以用獨熱編碼(one-hot)來表示,但這種方法不能具體表達出一個詞語的含義且會造成維度災(zāi)難。因此在用向量表示的時候需要把單詞的權(quán)重考慮進來,常用的方法是TF-IDF。其中,TF表示詞頻,IDF反映了一個詞在所有文本中出現(xiàn)的頻率。這里給出一個詞w的TF-IDF的公式:6.2文本挖掘的流程但此處存在一個問題:如果一個詞語在所有文檔中都沒有出現(xiàn),則式(6-2)的分母為0,此時就需要對IDF作平滑處理。平滑的方法有很多種,最常見的IDF平滑后的計算公式之一如下:

有了每段文本的TF-IDF的特征向量,我們就可以利用這些數(shù)據(jù)建立分類模型或者聚類模型了,或者進行主題模型的分析。除了上述介紹的特征選擇方法外,常見的方法還有以下幾種:1、詞頻方法(WordFrequency),2、DF(DocumentFrequency),3、互信息法(MutualInformation,MI),4、信息增益法(InformationGain,IG),5、CHI(Chi-square)。6.2文本挖掘的流程(1)詞頻方法(WordFrequency)詞頻是一個詞在文檔中出現(xiàn)的次數(shù)。通過詞頻進行特征選擇就是將詞頻小于某一閾值的詞刪除,從而降低特征空間的維數(shù)。這個方法是基于這樣一種假設(shè),即出現(xiàn)頻率小的詞對過濾的影響也較小。但是在信息檢索的研究中認為,有時頻率小的詞含有更多的信息。因此,在特征選擇的過程中不宜簡單地根據(jù)詞頻大幅度刪詞。6.2文本挖掘的流程(2)DF(DocumentFrequency)DF指的是統(tǒng)計特征詞出現(xiàn)的文檔數(shù)量,用來衡量某個特征詞的重要性。如果某些特征詞在文檔中經(jīng)常出現(xiàn),那么這個詞就可能很重要。而對于在文檔中很少出現(xiàn)的特征詞攜帶了很少的信息量,甚至是“噪聲”,這些特征詞對分類器學(xué)習(xí)影響也是很小。DF特征選擇方法屬于無監(jiān)督的學(xué)習(xí)算法,僅考慮了頻率因素而沒有考慮類別因素。因此,DF算法將會引入一些沒有意義的詞。如中文的“的”“是”“個”等,常常具有很高的DF分,但是對分類并沒有多大的意義。6.2文本挖掘的流程(3)互信息法(MutualInformation,MI)互信息法用于衡量特征詞與文檔類別直接的信息量。特征項和類別的互信息體現(xiàn)了特征項與類別的相關(guān)程度,是一種廣泛用于建立詞關(guān)聯(lián)統(tǒng)計模型的標(biāo)準(zhǔn)。(4)信息增益法(InformationGain,IG)

信息增益法是機器學(xué)習(xí)的常用方法,它是衡量某個特征劃分數(shù)據(jù)集所能獲得的收益大小。通過計算信息增益可以得到那些在正例樣本(屬于某一類別的樣本)中出現(xiàn)頻率高而在反例樣本(不屬于某一類別的樣本)中出現(xiàn)頻率低的特征,以及那些在反例樣本中出現(xiàn)頻率高而在正例樣本中出現(xiàn)頻率低的特征。6.2文本挖掘的流程(5)CHI(Chi-square)CHI特征選擇算法利用了統(tǒng)計學(xué)中的“假設(shè)檢驗”的基本思想。首先假設(shè)特征詞與類別直接是不相關(guān)的,如果利用CHI分布計算出的檢驗值偏離閾值越大,那么更有信息否定原假設(shè),接受原假設(shè)的備擇假設(shè),即特征詞與類別有著很高的關(guān)聯(lián)度。CHI特征選擇方法綜合考慮了文檔頻率與類別比例兩個因素。6.3LDA主題模型主題模型是對文本中隱含主題的一種建模方法,每個主題其實是詞表上單詞的概率分布。主題模型其實是一種生成模型,一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語這樣一個過程”得到的。主題建模還是一種統(tǒng)計方法,它通過分析原文本中的詞以發(fā)現(xiàn)蘊藏于其中的主題、主題間的聯(lián)系以及主題隨時間的演變,而且不需要事前對文檔進行標(biāo)記。6.3LDA主題模型主題模型的基本假設(shè)是:文章和主題是多對多的關(guān)系,每一個主題又由一組詞進行表示。經(jīng)常使用的主題模型包括:潛在語義分析(LatentSemanticAnalysis,LSA)、概率潛在語義分析(ProbabilisticLatentSemanticAnalysis,PLSA)、隱含狄利克雷分布(LatentDirichletAllocation,LDA)、層次狄利克雷過程(HierarchicalDirichletProcess,HDP)、主題模型向量化(LatentDirichletAllocationVector,LDA2vec)。6.3LDA主題模型6.3.1LDA主題模型介紹6.3LDA主題模型LDA主題模型全稱為隱含狄利克雷分配模型(LatentDirichletallocation,LDA),它是由文檔與主題、主題與特征詞、前兩者的聯(lián)合分布三種元素所構(gòu)成的三層貝葉斯概率模型。構(gòu)建該模型的基本思路是根據(jù)文檔集分析出主題分布,然后根據(jù)各主題歸類出該主題下特征詞的分布,最終得到文本集的主題分布及各主題的特征詞分布。6.3.1LDA主題模型介紹6.3LDA主題模型6.3.2吉布斯采樣

計算LDA模型中未知的隱含變量的主要算法分為精確推斷和近似推斷兩類。LDA用精確推斷解起來很困難,所以常常采用近似推斷方法。近似推斷方法的其中一類便是采樣(Sampling),它是通過使用隨機化方法完成近似推斷。吉布斯采樣(GibbsSampling)是近似推斷方法中最常使用的一種方法。它使用馬爾科夫鏈讀取樣本,通過條件分布采樣模擬聯(lián)合分布,再通過模擬的聯(lián)合分布直接推導(dǎo)出條件分布,以此循環(huán)。通俗的說,就是以一定的概率分布預(yù)測要發(fā)生什么事件。下面舉一個關(guān)于吉布斯采樣的例子,以便于更好的理解吉布斯采樣。6.3LDA主題模型吉布斯采樣示例現(xiàn)已知了三件事的條件分布,即p(E|T,W),p(T|E,W),p(W|E,T),利用Gibbssampling求三件事的聯(lián)合分布矩陣。首先隨機初始化一個組合,如“學(xué)習(xí)+晚上+刮風(fēng)”,然后依條件概率改變其中的一個變量。具體說,假設(shè)知道“晚上+刮風(fēng)”發(fā)生的概率后,給E生成一個變量,如將“學(xué)習(xí)”變?yōu)椤俺燥垺保蟆俺燥?晚上+刮風(fēng)”的概率。再依條件概率改變下一個變量,類似地,由“學(xué)習(xí)+晚上+刮風(fēng)”求得“吃飯+上午+刮風(fēng)”的概率。以此類推,求得三件事發(fā)生的聯(lián)合分布矩陣。6.3LDA主題模型吉布斯采樣過程初始時,隨機給文本中的每個單詞w分配主題Z(0);然后統(tǒng)計每個主題z下出現(xiàn)w的數(shù)量分布以及每個文檔m下主題z的數(shù)量分布;根據(jù)其他所有詞的主題分配,來估計當(dāng)前詞的主題;用同樣的方法不斷更新下一個詞的主題,直至每個文檔下主題的分布以及每個主題下詞的分布收斂,算法停止;Gibbs采樣就是利用計算公式,來根據(jù)其他所有詞的主題分配估計當(dāng)前詞的主題。6.3LDA主題模型6.3.3LDA主題模型訓(xùn)練過程LDA主題模型中文檔的生成過程假設(shè)語料庫D為由M篇文檔構(gòu)成的文檔集合,該文檔被挖掘出K個主題。第m篇文檔中包含詞匯Wm,n,其中m=1,2,...,M,n=1,2,...,Nm,Nm為第m篇文檔的詞匯總數(shù),且。在LDA模型中,文檔中詞項的生成過程如圖所示。6.3LDA主題模型LDA主題模型訓(xùn)練過程對于圖中LDA主題模型的文檔生成過程,具體步驟解釋如下。該模型中所有取樣均依據(jù)Gibbs取樣原理。1)從文檔Dirichlet分布中取樣生成文檔的主題分布,即“文檔-主題”矩陣;2)從“文檔-主題”矩陣取樣生成文檔m第n個詞的主題Zm,n;3)取樣生成主題k的詞分布,即“主題-詞語”矩陣;4)將詞語歸類到對應(yīng)的主題中,遍歷文檔集合中所有的詞。6.4模型評估

模型評估是對訓(xùn)練好的模型性能進行評估,模型評估是模型開發(fā)過程不可或缺的一部分。它有助于發(fā)現(xiàn)表達數(shù)據(jù)的最佳模型和所選模型的工作性能如何。

機器學(xué)習(xí)模型需要有量化的評估指標(biāo)來評估哪種模型的效果更好常用的評估指標(biāo)有:準(zhǔn)確率、精確率、召回率、F1、ROC曲線、AUC曲線?;煜仃囀潜O(jiān)督學(xué)習(xí)中的一種可視化工具,主要用于模型的分類結(jié)果和實例的真實信息的比較。矩陣中的每一行代表實例的預(yù)測類別,每一列代表實例的真實類別。6.4模型評估1)準(zhǔn)確率(Accuracy)準(zhǔn)確率是指預(yù)測正確的結(jié)果占總樣本的百分比,公式如下,雖然準(zhǔn)確率可以判斷總的正確率,但是在樣本不平衡的情況下,并不能作為很好的指標(biāo)來衡量結(jié)果。6.4模型評估2)精確率(Precision)精確率是指所有被預(yù)測為正的樣本中實際為正的樣本的概率,公式如下,需要注意的是精準(zhǔn)率和準(zhǔn)確率看上去有些類似,但是完全不同的兩個概念。6.4模型評估3)召回率(Recall)召回率(查全率)是指實際為正的樣本中被預(yù)測為正樣本的概率,公式如下。召回率越高,代表實際用戶被預(yù)測出來的概率越高。6.4模型評估4)F1分數(shù)F1分數(shù)主要用于評估模型的穩(wěn)健性,F(xiàn)值是精確率和召回率的調(diào)和值,更接近這兩個數(shù)較小的那個,所以精確率和召回率接近時,F(xiàn)值最大。公式如下6.4模型評估5)ROC(接受者操作特征曲線)ROC曲線又稱接受者操作特征曲線,主要用于評價模型的預(yù)測能力。ROC曲線中的主要兩個指標(biāo)就是真正率和假正率。6.4模型評估6)AUC(曲線下的面積)AUC(AreaUnderCurve)被定義為ROC曲線下的面積,通常大于0.5小于1。隨機挑選一個正樣本以及一個負樣本,分類器判定正樣本的值高于負樣本的概率就是AUC值。AUC的一般判斷標(biāo)準(zhǔn):0.5–0.7:效果較低;0.7–0.85:效果一般;0.85–0.95:效果很好;0.95–1:效果非常好,但一般不太可能。6.5基于LDA主題模型的客戶需求挖掘案例分析隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能的飛速發(fā)展,互聯(lián)網(wǎng)應(yīng)用正在不斷創(chuàng)新中演化。同時,隨著各種各樣的網(wǎng)絡(luò)社交平臺的建立,人們越來越傾向于在各大社交平臺及網(wǎng)購平臺上發(fā)布評論信息,每天都將會生成大量的用戶評論數(shù)據(jù),而這些數(shù)據(jù)有著十分重要的用戶需求信息,有著十分重要的價值。這些文本數(shù)據(jù),一方面給用戶提供了發(fā)表意見的途徑,另一方面用戶也可以在社交平臺上了解到相關(guān)的信息,同時企業(yè)可以通過用戶的在線評論以及用戶的特征對產(chǎn)品進行改進,從而生產(chǎn)出更加符合用戶需求的產(chǎn)品。然而,這些在線評論數(shù)據(jù)數(shù)量龐大、結(jié)構(gòu)混亂、更新快捷,傳統(tǒng)的文本處理方法不能從中快速地獲取有價值的信息。因此,通過文本挖掘與處理數(shù)據(jù),從在線評論中獲取用戶需求,可以幫助企業(yè)準(zhǔn)確地把握用戶的需求,為企業(yè)后續(xù)發(fā)展提供一定的依據(jù)。6.5基于LDA主題模型的客戶需求挖掘案例分析D公司是一家智能網(wǎng)聯(lián)汽車(IntelligentConnectedVehicle,ICV)制造廠商,主要從事ICV整車制造及其車聯(lián)網(wǎng)系統(tǒng)的自主研發(fā)。

為了提升公司的行業(yè)競爭力與服務(wù)保障能力,D公司考慮將市場定位從ICV制造廠商升級為集ICV整車制造、車聯(lián)網(wǎng)系統(tǒng)研發(fā)及其配套服務(wù)系統(tǒng)為一體的制造服務(wù)型廠商。不僅為客戶提供ICV,還搭建從ICV產(chǎn)品支持、車聯(lián)網(wǎng)系統(tǒng)技術(shù)培訓(xùn)到ICV汽車服務(wù)系統(tǒng)的全產(chǎn)業(yè)鏈營銷策略。其中,該公司研發(fā)的智能服務(wù)系統(tǒng)采用車聯(lián)網(wǎng)技術(shù),通過車身的傳感器、攝像頭等零件對客戶的ICV進行監(jiān)控,獲取大量汽車運行、車輛周圍環(huán)境、駕駛員行為等數(shù)據(jù),并上傳至云端進行運算分析,來監(jiān)控汽車安全駕駛狀態(tài),進而制定智慧出行、安全駕駛、維修保養(yǎng)等全方位服務(wù)方案。1、客戶需求挖掘6.5基于LDA主題模型的客戶需求挖掘案例分析1)客戶在線評論數(shù)據(jù)收集

D公司自主開發(fā)的社群化交互平臺符合本章基于LDA模型獲取客戶需求的研究需要。因此,本章選取D公司社群化交互平臺中車主的評價作為數(shù)據(jù)源。本章利用“八爪魚采集器”從D公司社群化交互平臺中爬取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論