《基于酒店評論特征向量的用戶畫像預(yù)測探究》15000字(論文)_第1頁
《基于酒店評論特征向量的用戶畫像預(yù)測探究》15000字(論文)_第2頁
《基于酒店評論特征向量的用戶畫像預(yù)測探究》15000字(論文)_第3頁
《基于酒店評論特征向量的用戶畫像預(yù)測探究》15000字(論文)_第4頁
《基于酒店評論特征向量的用戶畫像預(yù)測探究》15000字(論文)_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

10-基于酒店評論特征向量的用戶畫像預(yù)測研究摘要 …………Ⅰ第1章緒論1.1課題背景及研究的目的和意義 51.2用戶畫像及其相關(guān)理論的發(fā)展概況 61.4論文的組織結(jié)構(gòu) 8第2章理論基礎(chǔ) 102.1酒店營銷理論 102.2用戶畫像基礎(chǔ) 102.3用戶畫像原理 102.4用戶畫像原則 112.5用戶畫像框架 122.6詞向量 13第3章酒店用戶屬性畫像的預(yù)測 153.1引言 153.2數(shù)據(jù)來源 153.3基于酒店評論特征向量進(jìn)行分類預(yù)測 163.4Doc2Vec方法和酒店入住用戶評論文本的植入 213.5酒店的特征向量生成 223.6用戶特征畫像部分屬性預(yù)測 233.7本章小結(jié) 24第4章酒店用戶興趣畫像 254.1基于融合標(biāo)簽抽取算法的酒店標(biāo)簽抽取 254.2基于Textrank的關(guān)鍵詞提取 254.3基于酒店入住標(biāo)簽體系的用戶興趣畫像構(gòu)建 264.4本章小結(jié) 27結(jié)論 28參考文獻(xiàn) 29第1章緒論1.1課題背景及研究的目的和意義互聯(lián)網(wǎng)浪潮澎湃前進(jìn),AI與大數(shù)據(jù)頻頻出現(xiàn)在科技熱詞的前列,宣告者AI大數(shù)據(jù)時代的到來。近年來移動通信發(fā)展迅速,5G通信時代的到來,數(shù)據(jù)傳輸速度飛速增長,使得人們?nèi)巳硕寄芟硎?G帶來的便捷,人們的生活和工作形式也因此變得越來越多樣化,無論是娛樂還是辦公,從原先的文字、語音的向圖像、視頻,從單一到多樣發(fā)展。移動互聯(lián)網(wǎng)的飛速發(fā)展是不可逆的大趨勢,也給人們的生活帶來的巨大的數(shù)據(jù)流量。數(shù)據(jù)流量的爆炸式增長,同時互聯(lián)網(wǎng)內(nèi)容提供者的壯大,也讓人們的出行從線下延伸到線上。大量酒店住宿信息展現(xiàn)在人們面前,人們的入住酒店的信息需求得以滿足。伴隨著酒店入住用戶的增長,酒店用戶也產(chǎn)生了越來越多的相關(guān)數(shù)據(jù),酒店的經(jīng)營者可以得到入住用戶的行為數(shù)據(jù),進(jìn)而獲悉更多關(guān)于用戶的信息,以酒店入住用戶的相關(guān)數(shù)據(jù)為基礎(chǔ),精確地同時更有針對性地分析出用戶的偏好習(xí)慣,從而發(fā)掘出用戶的潛在商業(yè)行為傾向,將用戶的使用舒適度獲得提升,這樣與用戶畫像有關(guān)系的科學(xué)技術(shù)便一并迸發(fā)開來。用戶畫像是一門依據(jù)用戶需求采用特定策略從互聯(lián)網(wǎng)搜隨處信息給用戶的技術(shù)、推薦系統(tǒng),精準(zhǔn)營銷的前期工作。用戶畫像有時也被稱之為用戶角色,可以用來準(zhǔn)確的發(fā)現(xiàn)目標(biāo)用戶、獲悉用戶的需求的工具,具有非常高的商業(yè)價值,因此用戶畫像在各個方面得到了廣泛的應(yīng)用。對用戶畫像進(jìn)行分析要做的是推求推斷用戶的一系列屬性和特點。一般會將用戶畫像進(jìn)行分類,最流行的分類是把用戶畫像分為用戶的靜態(tài)畫像和用戶的動態(tài)畫像。靜態(tài)的用戶畫像包括用戶基本的特性、屬性等元素。用畫畫像的重點是動態(tài)的用戶畫像,它又被稱之為用戶興趣畫像。把用戶的愛好做標(biāo)記展示同時對用戶的所作所為的隱藏的意愿進(jìn)行發(fā)掘。存在這樣業(yè)務(wù)的場景:一個用戶準(zhǔn)備使用一個新的APP或者使用一個新網(wǎng)站,他要先填寫自己的一系列信息,這其中就包含了他的用戶畫像,但是他可能考慮自己的隱私的問題,或者習(xí)慣不填寫自己的個人信息,導(dǎo)致用戶和自己所填寫的個人信息根本不匹配。這使得通過用戶所填寫的個人信息獲得完整或者令人信服的信息總是困難重重、例如用戶為了個人隱私著想,不想填寫自己的相關(guān)信息甚至填寫虛構(gòu)的信息,又或是因為這個過程被網(wǎng)絡(luò)供應(yīng)商弄得特別臃腫冗余,使得用戶乏于填寫,再或企業(yè)抱著迅速吸引住用戶,簡化這一過程,沒有進(jìn)行用戶信息的確認(rèn)。企業(yè)對用戶進(jìn)行分類分析,這一過程一般采用人工設(shè)計特性的方法,接著相關(guān)人員研究人們的所作作為,構(gòu)筑創(chuàng)建標(biāo)簽,描述用戶的相關(guān)偏好習(xí)慣。再或者可以直截了當(dāng)?shù)貥?gòu)筑創(chuàng)建向量,更能直觀地描述用戶的偏好。當(dāng)下流行的用戶畫像分析的不可或缺的步驟就是進(jìn)行特點項目和標(biāo)簽系統(tǒng)設(shè)計,極大程度使得用戶被引導(dǎo)到提供產(chǎn)品的反饋信息上來,還使得無法直接獲得用戶的偏好。這樣如何方便快捷的構(gòu)筑創(chuàng)建,標(biāo)簽系統(tǒng),獲得直接顯示可以描述用戶的用戶畫像成為近些年重點關(guān)注的對象。1.2用戶畫像及其相關(guān)理論的發(fā)展概況1.2.1用戶畫像的研究現(xiàn)狀用戶畫像一般分為用戶的靜態(tài)畫像和用戶的動態(tài)畫像,用戶的靜態(tài)畫像一般包括用戶的基本屬性,以及本身的特性等可以進(jìn)行量化的特征,這其中包括性別,年齡,所在地,學(xué)歷等長遠(yuǎn)來看基本不變的數(shù)據(jù),因為用戶靜態(tài)畫像包括這些統(tǒng)計信息,所以用戶靜態(tài)畫像也被叫做人口統(tǒng)計學(xué)信息。最近隨著機器學(xué)習(xí)和大數(shù)據(jù)的興起,在數(shù)據(jù)挖掘領(lǐng)域,用戶畫像越來越被提及?,F(xiàn)在要想對用戶特征進(jìn)行預(yù)測,基本都是借助機器學(xué)習(xí)的手段對用戶的社交情況和所作所為進(jìn)行發(fā)掘,建立模型并進(jìn)行研究,使得對用戶的基本信息預(yù)測推斷變得可行。對于微博,短視頻平臺以及貼吧等交互性強的社區(qū)用戶,借助自然語言處理技術(shù)將問題轉(zhuǎn)化為文本分類是常用的手段。通過研究用戶所產(chǎn)生的信息,借助文本分析和自然語言處理技術(shù),預(yù)先推測用戶的年齡、性別、所在地、學(xué)歷等基本信息。在最近的科學(xué)研究中,比較有代表性的研究方法主要是以邏輯斯蒂,線性回歸、以及支持向量機等機器學(xué)習(xí)分類器為主流。Zhang的研究團隊記住長短時間交替記憶循環(huán)神經(jīng)網(wǎng)絡(luò),對博客等不同的信息,將用戶的性別和年齡分類[1]。Wang的研究團隊借助多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),通過對用戶的社交軟件所產(chǎn)生的信息,可以得兼預(yù)算推測年齡和性別[2]。Wu的研究團隊,研究用戶在搜索引擎上的記錄信息,來預(yù)先推測用戶的性別和年齡[3]。Farnadi的研究團隊以Facebook的信息,構(gòu)筑創(chuàng)建多模型擬態(tài)相融結(jié)合網(wǎng)絡(luò),預(yù)先推測用戶的性別和年齡[4]。假設(shè)指注重用戶的行為信息,就不能以特點的形式,借助機器學(xué)習(xí)分類器進(jìn)行研究,那么怎么才能得到用戶的特征向量成了分析的重中之重。通過構(gòu)筑創(chuàng)建產(chǎn)品和用戶之間的相關(guān)關(guān)系,例如用戶-軟件相關(guān)矩陣,用戶-網(wǎng)頁兩部分圖表等形式,再進(jìn)行特性的獲取從而預(yù)先推測用戶的信息[5][6]。Malmi的研究團隊通過研究用戶APP的數(shù)據(jù)運用奇異值分解等多種方法簡化產(chǎn)品的信息,并利用邏輯斯蒂回歸,從而預(yù)先推測用戶的年齡和性別等信息[7]。由此可見,有兩種方法可以獲得用戶的屬性信息,一種是使用算法例如自然語言的相關(guān)處理方法,對用戶的文本信息進(jìn)行再處理,從而預(yù)先推測用戶的屬性信息;如果獲得用戶的信息比較困難,或是本身就無法獲得用戶的信息,導(dǎo)致部分用戶的信息缺失,要想解決這種問題,那么獲得用戶的特點屬性就變成了重中之重,這樣才能進(jìn)行用戶的特征預(yù)測,許多分析從這問題的各方面著手,但是都沒有避免進(jìn)行特性工程這種容易造成偏差的工作。它們都有一些缺點,即比較依賴相關(guān)知識、需要較大人力物力投入。1.2.2標(biāo)簽推薦算法的研究現(xiàn)狀表示用戶動態(tài)畫像有多種方法,當(dāng)下比較常用的是多標(biāo)簽方法,使用也比較多的是向量表示法。多標(biāo)簽表示方法要先獲得用戶的標(biāo)簽,這一般是先研究用戶的文本,從中提取多個關(guān)鍵詞,根據(jù)這些詞匯得到用戶的標(biāo)簽,可以根據(jù)這些標(biāo)簽來獲悉用戶的愛好,有解釋更加明確,直截了當(dāng)?shù)膬?yōu)勢,用于廣告,商務(wù)研究,推薦系統(tǒng)等方面。得到所研究對象的標(biāo)簽顯然是構(gòu)建用戶畫像最重要的工作,意識就是是所謂的標(biāo)簽推薦?,F(xiàn)存的標(biāo)簽推薦算法包括借助物品的,借助矩陣的,借助聚類的等內(nèi)容。本文借助評論的文本數(shù)據(jù)作標(biāo)簽推薦,使用的是借助物品的方法。標(biāo)簽抽取指從文本中抽選提取取出重要的語句詞匯,并給關(guān)鍵詞以一個權(quán)重,考察詞語的權(quán)重,最高的就是物品的標(biāo)簽??梢越柚~頻-逆文檔頻率作標(biāo)簽推薦的研究。Tu等人利用詞頻-逆文檔算法和TextRank算法抽取用戶的關(guān)鍵詞[8][9][10]。標(biāo)簽抽取算法,借助詞袋模型,但也有些避免不了的問題,比如概括能力差,不能聯(lián)系前后文,難以進(jìn)行總結(jié),嚴(yán)重影響標(biāo)簽的正確性,也產(chǎn)生很多無意義的標(biāo)簽。標(biāo)簽分配算法是標(biāo)簽推薦的另一種形式。其在預(yù)先設(shè)定的一個詞語表庫中挑選keyword。最初流行的也是初級的方法是使用詞頻-逆向文件頻率方法,獲得文本的關(guān)鍵詞后,在進(jìn)行聚類分析等分類方法。人工智能和大數(shù)據(jù)的技術(shù)的再次被關(guān)注,也使得標(biāo)簽分類有了更多方法可以使用。Liu的研究團隊借助CNN[11]方法成功構(gòu)筑創(chuàng)建標(biāo)簽并進(jìn)行分類[12]。傳統(tǒng)的方法是使用向量機進(jìn)行文本分類[13]。Gong的研究團隊借助CNN對博客等社交平臺得到標(biāo)簽并進(jìn)行后續(xù)的推薦研究[14]。Li的研究團隊借助循環(huán)神經(jīng)網(wǎng)絡(luò),研究了國外社交軟件的數(shù)據(jù),并以此得到標(biāo)簽并進(jìn)行推薦分類[15]。Li的研究團隊和Zhang的研究團隊借助主題模型和多模態(tài)注意力網(wǎng)絡(luò),研究了新浪微博的文本信息,完成標(biāo)簽的構(gòu)建[16][17]。1.3本文的主要研究內(nèi)容本文做的主要研究是基于哈爾濱市酒店評論,對酒店用戶進(jìn)行用戶畫像的構(gòu)建工作。首先是進(jìn)行酒店評論用戶的屬性畫像的屬性預(yù)測,通過網(wǎng)絡(luò)爬取工具,可以比較容易的獲得酒店入住用戶的相關(guān)入住記錄,這些用戶一般也會留下對酒店的文字評價,我們就可以借助這些信息進(jìn)行預(yù)先推測一些用戶的一些基礎(chǔ)信息。與傳統(tǒng)的研究方法不同的是:本文采用的方法避免了一個關(guān)鍵問題,基于用戶的入住記錄和酒店的評論文本構(gòu)筑創(chuàng)建視頻特征向量,回避了特征工程這一步驟,同時考慮多維情況,增強了酒店向量的正確性和可解釋性。然后是酒店評論用戶興趣畫像的構(gòu)建工作,要想獲悉用戶的興趣和偏好,就要構(gòu)建用戶的相關(guān)標(biāo)簽并進(jìn)行分類。本文采用的方法與傳統(tǒng)的標(biāo)簽構(gòu)建方法相比有一定的改良。首先是成功回避了人工標(biāo)簽設(shè)計工作,采用機器標(biāo)簽設(shè)計,再者是采用的是對流行的兩種標(biāo)簽抽取算法進(jìn)行改良后的標(biāo)簽抽取算法,解決了原本無意義項多的問題,同時也能獲得正確性更高更能體現(xiàn)用戶特征的標(biāo)簽。1.4論文的組織結(jié)構(gòu)本文的章節(jié)結(jié)構(gòu)如下:第一章是論文的緒論,這一章節(jié)主要介紹的是課題背景和研究的目的和意義、國內(nèi)外的研究現(xiàn)狀、論文的主要研究內(nèi)容、論文的組織結(jié)構(gòu)。第二章是論文的理論基礎(chǔ),這一章節(jié)主要介紹了本文學(xué)習(xí)的酒店營銷理論,用戶畫像的基礎(chǔ)、用戶畫像的原則、用戶畫像的原理、用戶畫像的原則、用戶畫像的框架、關(guān)鍵詞相關(guān)理論、和詞向量理論。第三章是用戶屬性畫像的屬性預(yù)測,基于酒店入住用戶的入住記錄,生成酒店入住用戶的評論向量和酒店入住向量,基于這兩個向量利用機器學(xué)習(xí)模型進(jìn)行用戶評分的預(yù)測第四章是主要介紹了本文的酒店用戶興趣畫像。主要包括基于機器標(biāo)簽抽取方法和基于融合標(biāo)簽抽取算法的酒店標(biāo)簽提取?;陉P(guān)鍵詞構(gòu)建的酒店標(biāo)簽,生成用戶的興趣畫像第五章是本文的研究結(jié)論。第2章理論基礎(chǔ)2.1酒店營銷理論隨著時代的發(fā)展,每個酒店乃至企業(yè)都更加關(guān)注自己的品牌和消費者的連接,品牌都需要顧客的參與,金杯銀杯不如口碑。要以顧客為本,樹立維護酒店的品牌。進(jìn)入信息社會,網(wǎng)絡(luò)在人們生活的占比越來越大,愈發(fā)不可逆了。而這種新的溝通和交流的方式,占據(jù)了主流。酒店也應(yīng)該通過互聯(lián)網(wǎng)方式宣傳自己的企業(yè),擴大自己品牌的影響力。利用例如微信、微博、抖音、美團等網(wǎng)絡(luò)平臺,重視并快速適應(yīng)網(wǎng)絡(luò)營銷模式,獲得更過利潤,黃麗莎等人設(shè)計出了基于網(wǎng)絡(luò)的酒店商業(yè)營銷模式。杜群的團隊研究了如家快捷酒店的營銷模式[18]。2.2用戶畫像基礎(chǔ)用戶畫像可以簡單地說是用戶標(biāo)簽地集合。要先描述一個用戶,全方面的展現(xiàn)他的相關(guān)信息是不可能的,一般是選他具有代表性的特征來代表這個用戶,這種特征一般會包括用戶的性別、年齡、身高,職業(yè)、興趣愛好等等多方面的屬性。用戶的所作所為對比用戶的屬性更能體現(xiàn)時間性質(zhì),包括任務(wù)、時間等。例如用戶入住了一家酒店,可以闡述為:哪一位用戶在哪一段時間,在哪家酒店進(jìn)行入住。用戶畫像應(yīng)用在許多方面,行業(yè)的營銷、相關(guān)預(yù)測、推薦算法等等,在不同領(lǐng)域用戶畫像的用途是不太一樣的,一般會選擇該行業(yè)緊缺獲取的資源或者可以解決關(guān)鍵問題所用的方法進(jìn)行側(cè)重研究。例如華為集團的營銷戰(zhàn)略,通過用戶畫像的研究,對用戶進(jìn)行細(xì)分,確定了低端、中端、高端以及年輕和年長用戶的市場情況,并針對不同的用戶群體推薦不同檔次且滿足他們需求的手機,取得不錯的營收成效。當(dāng)然在構(gòu)建用戶畫像之前,首先要明確什么是用戶,即購買或使用產(chǎn)品或服務(wù)的群體。接著要明確是什么是用戶需求,一般考慮和采取馬斯洛需求理論即可。當(dāng)然最重要的還是研究用戶的特征在上文已經(jīng)詳細(xì)講述了。2.3用戶畫像原理用戶畫像的主流方法一般是進(jìn)行標(biāo)簽化處理。這里的標(biāo)簽指的是網(wǎng)絡(luò)化標(biāo)簽,一般是一些關(guān)鍵字,能夠直接展現(xiàn)內(nèi)容,并進(jìn)行分類處理。對用戶而言,這種標(biāo)簽要求能夠?qū)⒂脩魵w納分類,并描述用戶的偏好。目前的標(biāo)簽也分為很多種類例如人工標(biāo)簽、機器標(biāo)簽、也可以分為屬性標(biāo)簽、興趣標(biāo)簽、行為標(biāo)簽等等。除此之外最接近用戶畫像的是個性化標(biāo)簽方法人工標(biāo)簽:自然屬性標(biāo)簽體重、年齡等;社會屬性標(biāo)簽例如工作、學(xué)生等;關(guān)系屬性標(biāo)簽例如愛好、特長等。機器標(biāo)簽:根據(jù)用戶行為產(chǎn)生的相關(guān)文本、語音、視頻數(shù)據(jù),由機器自動生成用戶的偏好,興趣標(biāo)簽。表2.1機器標(biāo)簽分類表標(biāo)簽任務(wù)方法機器標(biāo)簽關(guān)鍵詞標(biāo)簽關(guān)鍵詞提取TF-IDF、TextRank實體實體識別CRF、BiLSTM類別分類LR、SVM、fastText聚合聚合K-means主題主題提取LDAEmbeddingEmbeddingWord2Vec個性化標(biāo)簽可以全面?zhèn)€性化地展示用戶的特征。個性化標(biāo)簽生成的方法主要包括了人工打標(biāo)簽、機器打標(biāo)簽、將人工和機器結(jié)合的混合打標(biāo)簽。工業(yè)界比較常用的是混合打標(biāo)簽。本文要進(jìn)行對用戶的標(biāo)簽生成,這種標(biāo)簽的生成主要的依據(jù)就就是文本的關(guān)鍵詞。在用戶在文本中獲得信息的的過程中,無需考慮詞語的順序,也可獲得有效且完整的信息,在這種理論基礎(chǔ)上,可以采用通過關(guān)鍵詞表征的方法。我們考慮計算機對關(guān)鍵詞的查找方法,計算機認(rèn)為某個詞在這段文本中相對比較重要會將該詞語的位置為1。在這基礎(chǔ)上,為了更好的找到這些重要的詞語,研究人員發(fā)明了TF-IDF算法。TF-IDF對關(guān)鍵詞是這樣判斷的,考察一個詞在某文本中出現(xiàn)的頻率,如果詞的頻率在文本中出現(xiàn)的頻率越高那么這個詞也就更重要。換句話來說,一個冷門詞語大量出現(xiàn),基本可以判斷這個詞在這個文本之中有特殊的意義。這個頻率一般稱之為詞頻,可以描述一個詞在文本中的頻繁程度。當(dāng)然為了避免文本長度這一無關(guān)變量,本文又采取了反文本頻率,即文本頻率的倒數(shù)??梢杂脙烧叩某朔e來表示所抽取關(guān)鍵詞的權(quán)重。2.4用戶畫像原則用戶畫像構(gòu)建一般遵循五大原則。有效性指的是可以有效地描述用戶的需求。真實性指的是基于客觀的數(shù)據(jù)得到的用戶畫像,而不是想當(dāng)然的得到一個想象的畫像。獨立性指的是關(guān)鍵詞等有明確區(qū)分,有獨立意義。全面性指的是采用的數(shù)據(jù)一般要包含多種形式,如文本,語音,視頻等。統(tǒng)一性是指用戶和物品的標(biāo)簽相互對應(yīng)。2.5用戶畫像框架表2.1百度用戶畫像框架類別示例百度用戶畫像通用維度人口學(xué)特征短期意圖位置屬性垂直維度情況愛好習(xí)慣從百度的用戶畫像框架中可以看出其將自然標(biāo)簽和社會標(biāo)簽合并為通用維度,將關(guān)系屬性標(biāo)簽稱之為垂直維度,采用的是人工標(biāo)簽的標(biāo)簽化處理方法。其中人口學(xué)特征是自然屬性,短期意圖和位置屬性是社會屬性,情況、愛好和習(xí)慣是用戶的關(guān)系屬性。表2.2微博用戶畫像類別示例微博用戶畫像用戶興趣對其他用戶對內(nèi)容用戶能力自身信息針對內(nèi)容用戶親密度用戶A對用戶B的行為用戶基礎(chǔ)畫像身份信息屬性信息關(guān)系信息定位信息直接來看,在微博的用戶畫像框架中個性化標(biāo)簽體現(xiàn)得較為明顯。用戶興趣、用戶基礎(chǔ)畫像可以歸納為人工打標(biāo)簽,用戶能力和用戶親密度則更貼近機器打標(biāo)簽表2.3頭條標(biāo)簽概覽類別示例頭條用戶標(biāo)簽概覽興趣特征感興趣的類別和主題感興趣的關(guān)鍵詞感興趣的來源基于興趣的用戶聚類各種垂直興趣特征身份特征性別年齡常駐地點行為特征晚上看視頻頭條標(biāo)簽更關(guān)注用戶的興趣標(biāo)簽,也考慮到了用戶的自然屬性標(biāo)簽,這可能魚頭條的內(nèi)容服務(wù)和推送業(yè)務(wù)有關(guān)。本文要進(jìn)行對用戶的標(biāo)簽生成,這種標(biāo)簽的生成主要的依據(jù)就就是文本的關(guān)鍵詞。在用戶在文本中獲得信息的的過程中,大部分時候找到一句話的主謂賓就可以確定句子的中心思想?;谶@種理念,可以采用通過關(guān)鍵詞表征的方法。在這基礎(chǔ)上,為了更好的找到這些重要的詞語,研究人員發(fā)明了TF-IDF算法。TF-IDF對關(guān)鍵詞是這樣判斷的,考察一個詞在某文本中出現(xiàn)的頻率,如果詞的頻率在文本中出現(xiàn)的頻率越高那么這個詞也就更重要。換句話來說,一個冷門詞語大量出現(xiàn),基本可以判斷這個詞在這個文本之中有特殊的意義。這個頻率一般稱之為詞頻,可以描述一個詞在文本中的頻繁程度。當(dāng)然為了避免文本長度這一無關(guān)變量,本文又采取了反文本頻率,即文本頻率的倒數(shù)??梢杂脙烧叩某朔e來表示所抽取關(guān)鍵詞的權(quán)重。2.6詞向量本文采用的模型最終的輸出結(jié)果就是詞向量。要詞向量是指自然語言處理(NLP)先進(jìn)行文本切割,并進(jìn)行語言建模之后,將詞表達(dá)為一個向量的形式。.大多數(shù)自然語言處理任務(wù)都會將文本切分為詞,由于機器做運算最底層是通過0-1實現(xiàn)的,要想借助機器進(jìn)行相關(guān)的運算,就要將自然界的事務(wù)抽象化,并將抽象過后的數(shù)學(xué)語言輸入到機器之中,利用機器進(jìn)行運算,而多維數(shù)據(jù)最常用的數(shù)學(xué)語言就是向量了。Word2Vec,F(xiàn)astText,Glove等等方法都是學(xué)術(shù)界中常用的的詞向量計算方法,被使用最廣泛的是Word2Vec方法。算法的主要原理是在一篇文檔中,詞可以被它周圍的詞語進(jìn)行指代。那么可以在一段文本中取若干個連續(xù)的詞語,將中間的詞作為一個節(jié)點,周圍其他詞語可以視為與之相關(guān)的詞,它們之間存在相關(guān)性是默認(rèn)的前提假設(shè)。對這種相關(guān)關(guān)系進(jìn)行建模就可以得到詞語的表征。Google提出了自己的思路,建立了Skip-gram模型與CBoW模型。Word2Vec—般配合層次softmax使用,來提高構(gòu)造詞向量的效率,提高向量表征的準(zhǔn)確性,softmax技術(shù)通過研究特征對概率的影響,對存在互斥的分類比較適用。第3章酒店用戶屬性畫像的預(yù)測3.1引言章節(jié)主要介紹酒店入住戶用戶屬性的預(yù)測方法。通過上文的調(diào)查,我們已經(jīng)知道不是用戶在填寫個人信息都足夠認(rèn)真,為了便于研究,可以對用戶屬性進(jìn)行預(yù)測。在先前的章節(jié)中,我們已經(jīng)獲得了酒店入住用戶的入住記錄,基于這些數(shù)據(jù)我們可以預(yù)算推測酒店入住用戶的一些基本屬性。在進(jìn)行用戶畫像的研究時,將之概括為一種分類也不為過,在研究這種分類問題時,機器學(xué)習(xí)方法是常用的方法之一。以往要進(jìn)行酒店評論屬性預(yù)測之前,為了構(gòu)建相關(guān)的模型,需要先設(shè)計所要用到的屬性,需要統(tǒng)計酒店入住用戶的入住記錄、統(tǒng)計酒店入住用戶的社交軟件數(shù)據(jù),最后研究得到的酒店用戶的相關(guān)屬性特性,對用戶的相關(guān)數(shù)據(jù)進(jìn)行模擬,這一過程一般要借助相關(guān)的分類器,最終實現(xiàn)預(yù)算推測用戶的相關(guān)屬性。本文先是利用詞頻方法進(jìn)行初級的畫像分析,之后主要采用的方法是研究酒店入住用戶的入住記錄,得到相關(guān)酒店的向量,一般是使用Skip-gram方法;接著基于酒店入住用戶的評論信息,和相關(guān)的酒店評論向量,一般是使用Doc2Vcc方法;基于入住酒店的特征向量,利用常用的分類器,可以得到我們想要的酒店入住用戶的屬性預(yù)算推測結(jié)果。主要采用的方法有以下步驟組成:利用酒店用戶的入住記錄和skip-gram模型得到酒店的入住向量,可以得到用戶的偏好;利用酒店的評論文本數(shù)據(jù)和DocVcc模型,得到酒店的評論向量,基于酒店用戶的評論,獲得酒店的評論向量;利用視頻特征向量預(yù)測未知用戶的屬性信息。3.2數(shù)據(jù)來源本小節(jié)展示的是在研究過程中所用到的一些數(shù)據(jù),這些數(shù)據(jù)主要是在攜程網(wǎng)上通過爬取工具進(jìn)行爬取得到,可以從此網(wǎng)站上的酒店預(yù)訂板塊獲得酒店入住用戶的入住記錄以及用戶的相關(guān)評論文本。本章節(jié)主要列出的是用戶的屬性數(shù)據(jù)和酒店評論的文本數(shù)據(jù)。其中用戶屬性數(shù)據(jù)如表3.1所示。用戶屬性數(shù)據(jù)包括一些用戶的基本信息如性別,出生年份等,不可避免的是有些數(shù)據(jù)的缺失。表3.1用戶屬性數(shù)據(jù)示例用戶編號性別出生年份地區(qū)用戶1男1985地區(qū)1用戶2女缺失地區(qū)2…………用戶3缺失1973地區(qū)3出于向其他用戶展示自己的入住體驗,以及鼓勵其他用戶進(jìn)行分享體驗的想法,酒店入住用戶一般會留下自己對酒店的文字評價,表達(dá)自己的想法。這些文本評價一般都能反映用戶的偏好,了解到用戶潛在的商業(yè)需求,這些有效的商業(yè)信息能幫助酒店改善經(jīng)營現(xiàn)狀。通過這些信息的進(jìn)一步挖掘和研究,可以幫助酒店提升用戶的入住體驗,進(jìn)而營造自己的品牌價值,提高自己的品牌影響力,獲得更多的經(jīng)濟效益。在爬取酒店的評論文本之后,由于在線酒店評論的數(shù)據(jù)冗雜,基本沒有結(jié)構(gòu)化的形式,所以要對其進(jìn)行分詞處理,同時要考慮去除標(biāo)點符號、停用詞、錯別字等情況。3.3基于酒店評論特征向量進(jìn)行分類預(yù)測對酒店數(shù)據(jù)進(jìn)行爬取時,可以發(fā)現(xiàn)不僅會獲得酒店入住數(shù)據(jù),還會獲得酒店本身的一些文本,例如酒店的均價,自我簡介等。初步采用的方法以哈爾濱市酒店推薦為背景,借助后裔爬取軟件來得到獲取攜程網(wǎng)上的酒店入住用戶的酒店入住記錄、酒店入住用戶對所入住酒店的評分以及評論信息和酒店信息。其中酒店信息包括:酒店地址、酒店名稱、附近站點、附近景點、等基本信息;用戶基本信息包括:用戶ID、房間類型,入住時間,訂購原因等基本信息;用戶評分和評論包括:用戶對酒店的打分、用戶對酒店進(jìn)行的文字評價等信息。通過用戶的在線評論信息,明確用戶對產(chǎn)品細(xì)節(jié)屬性特征的偏好。使用向量空間模型進(jìn)行用戶畫像模擬。借助向量,可以將酒店入住用戶的特征用{(q1,w1),(q2,w2),...(qn,w本文主要的方法基于用戶入住的記錄和skip-gram模型得出酒店入住向量,基于酒店入住用戶的評論文本和DocVcc模型的出酒店評論向量,將兩個向量結(jié)合作為酒店的特征向量。3.3.1詞頻分析與聚類分析本文在研究過程中先是采用了初級的方法通過用戶的在線評論信息,明確用戶對產(chǎn)品細(xì)節(jié)屬性特征的偏好。使用向量空間模型進(jìn)行用戶畫像模擬。在向量空間模型中,每個用戶可以用{(q1,w1),(q2,w2),...(qn,wn)}來表示,其中TFIJ=反文檔頻率(IDF)是為了降低所有推薦文檔中常見關(guān)鍵詞的權(quán)重。假設(shè)可推薦文檔數(shù)為N,出現(xiàn)關(guān)鍵詞i的文檔數(shù)量為ni,那么iIDFi=logNni文檔j中關(guān)鍵詞的i組合可以用公式(3.3)計算TF-IDF的權(quán)值:wij=TFij*IDFi=f表3.2部分詞頻數(shù)據(jù)用戶房間寬敞前臺服務(wù)干凈整潔早餐情況地理位置環(huán)境設(shè)施齊全10.080.080.080.000.000.000.0020.170.170.000.000.170.000.0030.000.250.000.000.000.000.0050.170.000.000.000.170.000.1460.000.170.000.170.000.000.0070.110.000.110.000.110.000.1780.140.140.000.140.000.140.00通過表3.2可以發(fā)現(xiàn)有很多關(guān)鍵詞在用戶的評論文本中的詞頻是0,主要原因是用戶可能只是關(guān)注特別感興趣的方面,對不感興趣或者是在可有可無的方面不會關(guān)注,也就不會留下評論。為了解決數(shù)據(jù)中0過多的問題,一般是進(jìn)行+1后去對數(shù)處理。這里為了直觀展示關(guān)鍵詞在用戶評論中的詞頻情況。在獲得詞頻數(shù)據(jù)之后就可以對起進(jìn)行分類。用戶畫像聚類是根據(jù)用戶畫像本身特征進(jìn)行分類的一種方法。在聚類算法中,K-means算法是典型的基于距離的聚類函數(shù),認(rèn)為距離越大,兩者之間的相似度越小。在進(jìn)行分類之前要先進(jìn)行數(shù)據(jù)預(yù)處理:在數(shù)據(jù)處理的過程中要考慮到變量之間的相關(guān)性情況,如果變量間的相關(guān)性較強,就要對其進(jìn)行便令的處理,一般考慮主成分分析、因子分析等對變量降維常用的方法。如表3.2所示,對得到的關(guān)鍵詞進(jìn)行相關(guān)性檢驗,得到的kmo檢驗值為0.394,說明各個變量之間的相關(guān)性很弱,無相關(guān)性,可以做后續(xù)分析表3.1KMO和Bartlett的檢驗取足夠度的Kaiser-Meyer-Olkin度量.394Bartlett的球形度檢驗近似卡方18.372df21.000Sig..625關(guān)鍵詞相關(guān)性較低可能是因為一般酒店入住用戶對酒店進(jìn)行評價時,會選取不同的方面進(jìn)行評價,一般這些方面只會給出一個詞進(jìn)行評價。同時用戶對酒店評論的關(guān)鍵詞進(jìn)行了人工處理,將干凈和整潔合并為干凈整潔一個關(guān)鍵詞,這也使得避免了重復(fù)意義的關(guān)鍵詞。除此之外,TF-IDF方法有自己獨特的優(yōu)勢是會自動過濾掉如“真的”“非?!钡葻o意義的詞語。在確認(rèn)關(guān)鍵詞無明顯相關(guān)性之后,就可以進(jìn)行分類處理了表3.2歷史迭代記錄迭代歷史記錄迭代聚類中心內(nèi)的更改12313.4701.0353.4652.095.000.1543.216.000.3894.349.000.6275.106.000.2596.000.000.000考察歷史迭代記錄,由于生成的簇都要被規(guī)劃到與之相異度最低的簇中,所以簇的中心一直在改變,要重新計算簇中各個元素與簇中心的距離,這樣要進(jìn)行多次迭代,迭代記錄顯示迭代了6次之后聚類中心不再改變。表3.3聚類分析顯著程度方差A(yù)VONA聚類誤差FSig.均方df均方df房間寬敞.16021.06227.151.861前臺服務(wù)2.4182.895272.701.085干凈整潔1.5962.956271.669.207早餐情況1.5052.963271.563.228地理位置11.2932.2382747.536.000環(huán)境1.1122.992271.122.340設(shè)施齊全13.4302.07927169.400.000聚類方差圖顯示上述關(guān)鍵詞中地理位置和設(shè)施齊全對分類比較顯著。表3.5聚類中的案例數(shù)每個聚類中的案例數(shù)聚類119.00022.00039.000有效30.000缺失.000最終分類為三類,每種類別包含的案例分別為19、2和9個。分類的主要依據(jù)是用戶對地理位置和設(shè)施齊全的評論,產(chǎn)生這種結(jié)果的原因可能是由于這兩種關(guān)鍵詞被提及的頻率相對較少,所以會成為分類的較關(guān)鍵因素3.3.2屬性畫像預(yù)測方案概述本文采用的方法是基于酒店入住記錄借助skip-gram模型得到酒店入住向量,基于酒店評論文本借助doc2vec模型得到酒店評論向量;根據(jù)酒店的特征向量,輸入到向量機進(jìn)行分類預(yù)測。圖3.1屬性預(yù)測流程圖3.3.2skip-gram模型與酒店入住用戶的分析Word2Vcc模型是向量分類常用的方法。該模型思想的延伸是可以利用酒店用戶的入住記錄,基于酒店入住記錄中的一條入住記錄生成周圍的入住記錄。設(shè)??是??個用戶酒店入住記錄集合。每個用戶酒店入住記錄??=(??0,??1,…,????)∈??記錄了一個用戶的酒店入住記錄,其中??為序列的長度。我們的目標(biāo)是學(xué)習(xí)到一個??維的實數(shù)向量來表示酒店??。對于相似的酒店距離,會變得越來越小。為了學(xué)習(xí)到目標(biāo)向量,通過最大似然估計的思想,我們定義一個需要最大化的損失函數(shù):E=s∈公式中m是窗口的大小,對任意Vi,讓在窗口內(nèi)的Vi+jP(Vi+j|Vi)=公式中vi表示酒店i作為背景對象時所對應(yīng)的向量,vi+圖3.2skip-gram模型示意圖Skip-gram方法的過程一般是要先研究一個酒店入住用戶的酒店入住記錄,利用窗口滑動的方法,先用一個窗口以第一家酒店為起點,然后往后滑動,這個窗口的長度一般為2k+1。在窗口進(jìn)行滑動時,中央酒店Vi3.4Doc2Vec方法和酒店入住用戶評論文本的植入我們可以利用用戶的入住記錄來學(xué)習(xí)獲取酒店的特征向量。我們可以利用酒店評論的產(chǎn)生的大量文本數(shù)據(jù),進(jìn)行深入地分類。Word2Vec告訴我們,將一個單詞表示成向量是完全可以的,自然而然文檔也可以表示成向量。Word2Vec的作者M(jìn)ikolov提出了Doc2Vec。同樣Doc2Vec有兩種基本的實現(xiàn)方法:PV-DM和PV-DBOW。PV-DM方法過程一般是,現(xiàn)將所研究的文檔初始化,改成向量的形式,可以定義為向量D,文檔中的單詞也會進(jìn)行初始化,改成一個向量W。向量和它周圍的詞向量做一些數(shù)學(xué)上的處理,可以是取均值,作為中間向量,進(jìn)而預(yù)測句子中的下一個單詞,并構(gòu)建形式同公式3.2的損失函數(shù),最后利用優(yōu)化算法反向傳播更新文檔向量??和每個單詞的詞向量??。文檔向量也可以看作是一個詞,它相當(dāng)于上下文的記憶單位或文檔隱含的主題。在PV-DM模型中,當(dāng)窗口滑動時,以文檔為中心向量,利用窗口中的文檔向量和其他詞向量預(yù)測中心詞;不同的是,PV-DBOW模型在窗口滑動訓(xùn)練時,直接利用文檔向量預(yù)測窗口中的其他單詞,類似于Skip-gram模型。不同的是Skip-gram使用中心詞來預(yù)測背景詞,而DBOW使用文檔向量來預(yù)測背景詞。圖4.3PV-DM模型圖3.4PV-DBOW模型3.5酒店的特征向量生成基于Skip-gram模型,我們將每個用戶一個月內(nèi)的酒店記錄整理成一個序列,所有用戶的入住記錄形成一個集合。在進(jìn)行接下來步驟之前要先進(jìn)行數(shù)據(jù)的處理工作,去除一些標(biāo)點符號、無關(guān)詞、同義詞的處理等工作。??和Skip-gram模型用于訓(xùn)練酒店入住率向量。酒店入住向量的維度一般可以采用200,訓(xùn)練窗口一般采用5的大小。使用文檔集和Doc2vec模型訓(xùn)練酒店評論向量。酒店評論向量的訓(xùn)練模型為PV-DM,維度一般采用200,訓(xùn)練窗口一般采用5的大小。訓(xùn)練向量是一個密集的200維矩陣,無法直觀顯示,利用余弦相似度,計算與目標(biāo)酒店向量余弦距離最近的相似酒店。訓(xùn)練后得到的向量如表3-6所示。表3-6向量示意表示例向量酒店入住向量酒店評論向量相似酒店相似度相似酒店相似度哈爾濱哈布斯堡酒店振寧精品酒店0.5976振寧精品酒店0.6731美豪麗致酒店0.5674美豪麗致酒店0.6558希爾頓歡朋酒店0.5439希爾頓歡朋酒店0.6472新巴黎大酒店0.5328哈爾濱萬達(dá)文華酒店0.6438雪黎酒店0.4939金爵精品酒店0.63873.6用戶特征畫像部分屬性預(yù)測完成前面的工作之后,我們得到了兩個用于表示酒店特征的特征向量。本文基于酒店的特征向量,將用戶觀看記錄中所有酒店的特征向量加權(quán)求均值,得到的向量作為用戶特征向量,即用戶的特征畫像。此特征向量可以用抽象向量的形式表征用戶的酒店入住偏好,之后能夠完成用戶評分預(yù)測任務(wù)。本實驗采用的傳統(tǒng)的機器學(xué)習(xí)模型分別是常用的LR、SVM、xgboost模型。本文預(yù)測的是酒店入住用戶對酒店的評分,可以轉(zhuǎn)化為一個二分問題,對酒店評分3分及其以上為一類,3分以下為一類。本文采用的評價指標(biāo)分別是F1-score,precision,以及recall即F1分?jǐn)?shù)、精確率和召回率。得到的結(jié)果如下圖表所示。表3.7評分預(yù)測結(jié)果表LRSVMxgboostprecision0.9606260.9731580.916469recall0.8498760.8300090.789972F1-score0.9018640.8959020.848532圖3.5評分預(yù)測結(jié)果機器學(xué)習(xí)模型LR、SVM、xgboost三種預(yù)測方法中LR相較而言更好的完成了預(yù)測任務(wù)。F1-score相差較小,具有更高的召回率。成功實現(xiàn)的用戶的評分預(yù)測。3.7本章小結(jié)本章節(jié)先是采用了基礎(chǔ)的詞頻抽取算法和K-均值聚類分類方法,對酒店進(jìn)行分類,體現(xiàn)了用戶對酒店體驗最感興趣的方面。接著采用了首先本文基于用戶的觀看序列和skip-gram模型,得到酒店入住向量。此外本文基于酒店的評論文檔和Doc2Vec模型,得到酒店評論向量。最后基于酒店的特征向量和用戶評論數(shù)據(jù)得到了用戶特征向量。在以上的基礎(chǔ)上,利用LR、SVM、Xgboost模型算法對酒店用戶對酒店的評分成功進(jìn)行了預(yù)測。第4章酒店用戶興趣畫像4.1基于融合標(biāo)簽抽取算法的酒店標(biāo)簽抽取可以將標(biāo)簽的抽取考慮為一下下問題,要想得到酒店的標(biāo)簽,需要先研究酒店入住用戶的評論文本數(shù)據(jù),從中抽取出關(guān)鍵字,一般使用無監(jiān)督文本關(guān)鍵字抽取方法。現(xiàn)在主流的無監(jiān)督文本關(guān)鍵字抽取算法包括統(tǒng)計、隨機游走、主題等方法。本文采用統(tǒng)計詞頻和隨機游走的Textrank算法,結(jié)合兩者的結(jié)果和優(yōu)劣勢,基于這兩種算法,改良為融合標(biāo)簽抽取算法進(jìn)行關(guān)鍵字提取。4.2基于Textrank的關(guān)鍵詞提取Textrank也是常用的一種關(guān)鍵詞提取方法。這里著重介紹TextRank關(guān)鍵詞的提取方法。該算法在PageRank算法的基礎(chǔ)上被改進(jìn)并不斷發(fā)展,PageRank是衡量一個網(wǎng)頁重要程度并對之進(jìn)行排序的算法,該算法是由谷歌發(fā)明的。借助詞義之間的關(guān)系構(gòu)筑創(chuàng)建相關(guān)關(guān)系,基于PageRank方法,得到所抽取出關(guān)鍵詞的排名值,依據(jù)這個排名值,對其進(jìn)行降序排序處理,自然排序越高越能代表關(guān)鍵詞。具體流程如下。依然是對文檔要先進(jìn)行分詞處理;給定一個長度為N的滑動窗口,所有窗口中的詞視為詞節(jié)點的相鄰節(jié)點,將窗口從文檔頭滑動到文檔尾部;迭代計算公式如下,WSVi是節(jié)點Vi的權(quán)重,InVi是節(jié)點Vi的輸入節(jié)點集,WSVi=表4.1兩種算法的標(biāo)簽情況酒店名稱標(biāo)簽TF-IDFTextRank希爾頓歡朋酒店房間、服務(wù)、早餐房間寬敞、整潔、沒有、干凈、方便非常、地理位置新巴黎大酒店服務(wù)、早餐、滿意、服務(wù)、早餐情況、滿意度、性價比、舒服地理位置、停車方便根據(jù)實驗結(jié)果TF-IDF會提取高頻出現(xiàn)的詞,表示用戶討論的熱點。Text算法也會提取出高頻出現(xiàn)的詞,但是更偏總結(jié)性一點,會出現(xiàn)“沒有”“非常”這種地含義的詞4.2.3基于融合標(biāo)簽抽取算法的關(guān)鍵詞提取TextRank有無關(guān)關(guān)鍵詞影響,但是可以進(jìn)行抽象總結(jié),TF-IDF能夠提取出高頻關(guān)鍵詞,但是沒有總結(jié)性,可以結(jié)合兩者的優(yōu)勢,進(jìn)行融合標(biāo)簽算法抽取關(guān)鍵詞。融合標(biāo)簽算法的具體流程包括以下5個步驟:對文本進(jìn)行預(yù)先的處理,不限于分詞等步驟;計算每個文檔中的TF和IDF值,利用TextRank算法計算每個詞權(quán)重;將每個詞TF值和IDF值相乘得到對應(yīng)的TF-IDF值,排序后得到topK個關(guān)鍵詞;將每個詞的TextRank權(quán)重和IDF值相乘,排序得到topK個關(guān)鍵詞;基于投票法,選擇兩組關(guān)鍵詞中權(quán)重高的topK個詞作為最終的酒店標(biāo)簽。將TextRank算法中排名值的計算考慮了IDF值,這樣大大降低了最終結(jié)果出現(xiàn)的無關(guān)詞,再利用投票法,得到最終權(quán)重值高的關(guān)鍵詞。表4.2融合算法抽取的標(biāo)簽酒店名稱標(biāo)簽希爾頓歡朋酒店房間寬敞、早餐、整潔干凈、地理位置、服務(wù)、新巴黎大酒店服務(wù)、早餐、性價比、地理位置、停車方便美豪麗致酒店房間寬敞、設(shè)施齊全、整潔干凈、性價比、服務(wù)經(jīng)過以上步驟可以使得無關(guān)詞的出現(xiàn)頻率大大降低,并且利用兩種算法,考慮到了更多因素的影響,使得可信度和準(zhǔn)確程度大大提高。4.3基于酒店入住標(biāo)簽體系的用戶興趣畫像構(gòu)建在已經(jīng)得到的酒店標(biāo)簽基礎(chǔ)上,可以依據(jù)用戶的歷史數(shù)據(jù),借助用戶入住過得酒店的標(biāo)簽,給用戶打上標(biāo)簽,從而構(gòu)建用戶的畫像,進(jìn)一步預(yù)測出用戶的酒店入住偏好。其中用戶畫像構(gòu)建生成包括以下倆個步驟,根據(jù)用戶的酒店入住記錄序列,以及每家酒店對應(yīng)的標(biāo)簽,得到標(biāo)簽序列;對序列中的標(biāo)簽求和并歸一化排序,得到最終用戶興趣畫像。圖4.1用戶畫像詞云示意4.4本章小結(jié)第一部分主要介紹了酒店標(biāo)簽挖掘,研究酒店評論文本,利用無監(jiān)督算法的方法進(jìn)行關(guān)鍵詞的提取工作。再接著闡述了TF-IDF和TextRank算法的原理,,基于兩種算法的優(yōu)缺點,本文采用了一種融合標(biāo)簽抽取算法,利用IDF值改進(jìn)TextRank算法,再結(jié)合TF-IDF算法投票得到關(guān)鍵詞。最后闡述了用戶興趣畫像的構(gòu)筑創(chuàng)建方法。根據(jù)酒店入住用戶的酒店入住記錄,加權(quán)求和用戶所入住酒店的相關(guān)標(biāo)簽,得到最終用戶的興趣畫像,并進(jìn)行展示。結(jié)論(1)總結(jié)隨著互聯(lián)網(wǎng)絡(luò)時代的到來,網(wǎng)絡(luò)技術(shù)迅猛發(fā)展,越來越多的用戶會通過在線評論的方式對入住過的酒店進(jìn)行文字評價甚至圖片評價。僅僅酒店入住用戶的評分來判斷酒店入住用戶的入住體驗是不夠全面客觀的,根據(jù)酒店入住用戶對酒店的文字評價可以更清晰地反應(yīng)用戶的入住體驗,同時能更好的得知用戶的偏好,挖掘用戶的潛在需求,便于酒店對其進(jìn)行精準(zhǔn)營銷和推薦。為了實現(xiàn)這一目的,用戶畫像作為基礎(chǔ)性工作,收到廣泛關(guān)注,研究用戶畫像可以更全面的獲悉酒店入住用戶的偏好,提高酒店入住用戶的入住體驗,使酒店獲得更多利潤。本文基于酒店入住用戶的入住記錄和互聯(lián)網(wǎng)酒店預(yù)定平臺的用戶評論,對酒店入住用戶的屬性畫像和酒店入住用戶的興趣畫像兩方面進(jìn)行研究。酒店入住向量通過研究酒店的入住記錄產(chǎn)生,酒店評論向量通過研究酒店入住用戶的評論文本數(shù)據(jù)產(chǎn)生。為了達(dá)到避免人工設(shè)計用戶的標(biāo)簽這一嚴(yán)重影響正確性的過程,采用了無監(jiān)督算法進(jìn)行向量生成。為了構(gòu)建用戶興趣標(biāo)簽畫像,本文采用了一個改良的酒店標(biāo)簽挖掘方法,基于酒店入住用戶的評論文本,采用融合標(biāo)簽抽取的算法進(jìn)行關(guān)鍵詞的提取。將所入住酒店的標(biāo)簽加權(quán)求和,可以得到最終用戶的興趣畫像,方便展示用戶的偏好。(2)展望本次研究通過研究通過攜程網(wǎng)進(jìn)行酒店預(yù)訂的相關(guān)用戶在酒店入住這一過程產(chǎn)生的數(shù)據(jù),即酒店入住記錄和留下的評論,構(gòu)筑創(chuàng)建用戶畫像。為了使得構(gòu)建的屬性畫像和興趣畫像更全面,更有價值,可以考慮引入注意力機制,使得獲取關(guān)鍵詞更準(zhǔn)確更具代表性;可以嘗試對用戶的其他行為或是信息進(jìn)行預(yù)測,例如地區(qū)預(yù)測,支付形式預(yù)測等;可以嘗試考慮更多系統(tǒng)外的因素進(jìn)行研究,例如季節(jié)變化,節(jié)假日等。將用戶畫像應(yīng)用于推薦系統(tǒng)是將用戶畫像理論進(jìn)行應(yīng)用實現(xiàn)的重要過程,研一過程可以更好的理解用戶畫像相關(guān)理論。參考文獻(xiàn)[1]ZhangD,LiS,WangH,etal.Userclassificationwithmultipletextualperspectives[C]//ProceedingsofCOLING2016,the26thInternationalConferenceonComputationalLinguistics:TechnicalPapers.2016:2112-2121.[2]WangL,LiQ,ChenX,etal.Multi-taskLearningforGenderandAgePredictiononaChineseMicroblog[M]//NaturalLanguageUnderstandingandIntelligentApplications.Springer,Cham,2016:189-200.[3]WuC,WuF,LiuJ,etal.NeuralDemographicPredictionusingSearchQuery[C]//ProceedingsoftheTwelfthACMInternationalConferenceonWebSearchandDataMining.ACM,2019:654-662.[4]FarnadiG,TangJ,DeCockM,etal.Userprofilingthroughdeepmultimodalfusion[C]//ProceedingsoftheEleventhACMInternationalConferenceonWebSearchandDataMining.ACM,2018:171-179.[5]HuJ,ZengHJ,LiH,etal.Demographicpredictionbasedonuser'sbrowsingbehavior[C]//Proceedingsofthe16thinternationalconferenceonWorldWideWeb.ACM,2007:151-160.[6]QinZ,WangY,XiaY,etal.Demographicinformationpredictionbasedonsmartphoneapplicationusage[C]//2014InternationalConferenceonSmartComputing.IEEE,2014:183-190.[7]MalmiE,WeberI.Youarewhatappsyouuse:Demographicpredictionbasedonuser'sapps[C]//TenthInternationalAAAIConferenceonWebandSocialMedia.2016.[8]ShouzhongT,MinlieH.MiningmicrobloguserinterestsbasedonTextRankwithTF-IDFfactor[J].TheJournalofChinaUniversitiesofPostsandTelecommunications,2016,23(5):40-46.[9]PengL,BinW,ZhiweiS,etal.Tag-TextRank:awebpagekeywordextractionmethodbasedontags[J].JournalofComputerResearchandDevelopment,2012,49(11):2344-2351.[10]WuW,ZhangB,OstendorfM.Automaticgenerationofpersonalizedannotationtagsfortwitterusers[C]//Humanlanguagetechnologies:The2010annualconferenceoftheNorthAmerican

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論