版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)分析方法與應用上海理工大學主講人:耿秀麗
教授第5章推薦算法5.1協(xié)同過濾推薦算法目錄CONTENTS5.2協(xié)同過濾算法常見的問題以及對策5.3基于內容的推薦算法5.4基于模型的推薦算法5.7信息污染與信任推薦算法第5章推薦算法5.6信息隱私與基于信息隱私的推薦算法5.5基于關聯(lián)規(guī)則的推薦算法5.8信息繭房5.1協(xié)同過濾推薦算法概念分類協(xié)同過濾算法基于用戶的協(xié)同過濾算法(User-basedCollaborativeFiltering)基于物品的協(xié)同過濾算法(Item-basedCollaborativeFiltering)
協(xié)同過濾就是根據(jù)一個用戶對其他項目的評分以及整個用戶群過去的評分記錄,來預測這個用戶對某一未評分項目的評分。基本思想是根據(jù)具有類似觀點的用戶的行為來對用戶進行推薦或者預測。
基于用戶的協(xié)同過濾算法是通過用戶的歷史行為數(shù)據(jù)發(fā)現(xiàn)用戶對商品或內容的喜好(如商品購買,收藏,內容評論或分享),并對這些喜好進行度量和打分。
根據(jù)不同用戶對相同商品或內容的態(tài)度和偏好程度計算用戶之間的關系,在有相同喜好的用戶間進行商品推薦。概念獲取用戶數(shù)據(jù)計算用戶相似度選取近鄰集合預測目標用戶未評分項目值采用top-m算法為目標用戶推薦方案圖5?1協(xié)同過濾算法——基于用戶的推薦算法流程圖該算法流程如圖5-1所示。5.1協(xié)同過濾推薦算法5.1.1基于用戶的協(xié)同過濾算法
在示例中,5個用戶分別對2件商品進行了評分(這里的分值可能表示真實的購買,也可以是用戶對商品不同行為的量化指標)。如表5-1所示。(1)尋找偏好相似的用戶1)歐幾里得距離評價表5?1用戶和商品評分表該方法是一種用戶關系評價方法,原理是通過計算兩個用戶在散點圖中的距離來判斷不同的用戶是否有相同的偏好。
系數(shù)越小,表示兩個用戶間的距離越近,偏好越接近。如表5-2所示。
表5?2歐幾里得距離評價結果二維:n維:歐幾里得距離評價計算公式:(5-1)(5-2)5.1協(xié)同過濾推薦算法5.1.1基于用戶的協(xié)同過濾算法2)皮爾遜相關度評價
皮爾遜相關度評價是另一種用戶關系評價方法。當評分數(shù)據(jù)不規(guī)范時,皮爾遜相關度評價相比歐幾里得距離評價能夠給出更好的結果。
兩個變量之間的皮爾遜相關度定義為:兩個變量之間的協(xié)方差和標準差之間的商,如公式(5-3)所示。
上式定義了總體相關系數(shù),估算樣本的協(xié)方差和標準差,可得到皮爾遜相關系數(shù),常用r表示。(5-3)(5-4)表5?4皮爾遜相關系數(shù)結果分類皮爾遜相關系數(shù)的結果是一個在-1與1之間的系數(shù),該系數(shù)用來說明兩個用戶間聯(lián)系的強弱程度。5.1協(xié)同過濾推薦算法5.1.1基于用戶的協(xié)同過濾算法
本章通過皮爾遜相關度評價對用戶進行分組,并推薦商品。
以下是一個多用戶對多個商品進行評分的示例。用戶和商品的評分表如表5-3所示。表5?3多用戶和商品評分表
通過計算5個用戶對5件商品的評分本章獲得了用戶間的相似度數(shù)據(jù)。這里可以看到用戶A&B,C&D,C&E和D&E之間相似度較高,如表5-5所示。表5?5用戶相似度數(shù)據(jù)5.1協(xié)同過濾推薦算法5.1.1基于用戶的協(xié)同過濾算法5.1協(xié)同過濾推薦算法5.1.1基于用戶的協(xié)同過濾算法(4)對用戶進行商品推薦推薦用戶C還沒有瀏覽或購買過的商品檢查相似度列表:用戶C和用戶D和E的相似度較高,可以對用戶C推薦用戶D和E的商品提取用戶D和用戶E評價過的另外5件商品A—商品F按加權后的結果對5件商品進行排序對不同商品的評分進行相似度加權用戶C獲得了與其偏好相似的用戶D和E評價的商品表5?5用戶相似度數(shù)據(jù)表5?6推薦結果5.1協(xié)同過濾推薦算法5.1.2基于物品的協(xié)同過濾算法
通過計算不同用戶對不同物品的評分獲得物品間的關系,基于物品間的關系對用戶進行相似物品的推薦。這里的評分代表用戶對商品的態(tài)度和偏好。
簡單來說就是如果用戶A同時購買了商品1和商品2,那么說明商品1和商品2的相關度較高。當用戶B也購買了商品1時,可以推斷他也有購買商品2的需求。概念流程圖圖5?2協(xié)同過濾算法——基于物品的推薦算法該算法流程圖如圖5-2所示。5.1協(xié)同過濾推薦算法5.1.2基于物品的協(xié)同過濾算法(1)尋找相似的物品通過兩個用戶的評分來獲得5件商品之間的相似度情況。在表5-7中將用戶和商品的位置進行了互換,通過兩個用戶的評分來獲得5件商品之間的相似度情況。單從表格中依然很難發(fā)現(xiàn)其中的聯(lián)系,因此通過散點圖進行展示,如圖5-3所示。商品1,3,4在用戶A和B中有著近似的評分,說明這三件商品的相關度較高。而商品5和2則在另一個群體中。表5?7商品—用戶表圖
5?3用戶—商品評分散點圖5.1協(xié)同過濾推薦算法5.1.2基于物品的協(xié)同過濾算法1)歐幾里得距離評價
通過歐幾里得系數(shù)可以發(fā)現(xiàn),商品間的距離和關系與前面散點圖中的表現(xiàn)一致,商品1,3,4距離較近關系密切。商品2和商品5距離較近,如表5-8所示。表5?8歐幾里得距離評價結果5.1協(xié)同過濾推薦算法5.1.2基于物品的協(xié)同過濾算法2)皮爾遜相關度評價選擇使用皮爾遜相關度評價來計算多用戶與多商品的關系計算。下表5-9是5個用戶對5件商品的評分表。通過這些評分計算出商品間的相關度。通過計算可以發(fā)現(xiàn),商品1&2,商品3&4,商品3&5和商品4&5相似度較高,如表5-10所示。表5?9多用戶—商品評分表表5?10皮爾遜相關系數(shù)結果5.1協(xié)同過濾推薦算法5.1.2基于物品的協(xié)同過濾算法(4)為用戶提供基于相似物品的推薦用戶C已經購買過商品4和商品5,將用戶C對商品4和商品5的評分作為權重。對新商品A,B,C進行加權排序。商品C被優(yōu)先推薦。如表5-12所示。表5—12新商品與已有商品間的相似度數(shù)據(jù)5.1協(xié)同過濾推薦算法5.1.3案例分析1-二手汽車交易平臺推薦
選取二手汽車交易平臺的案例分別對基于用戶和基于物品的推薦進行了分析。使用的數(shù)據(jù)是由某線上二手汽車平臺中2500名用戶對7200種方案的整體評分以和屬性評分組成,約有100萬次評價。隨機選取了20名用戶U={U1,U2,…,U20}以及部分具有代表性的方案A1、A2、…、A12,具體如表5-13所示。表5?13平臺二手汽車方案5.1協(xié)同過濾推薦算法5.1.3案例分析1-二手汽車交易平臺推薦用戶對二手汽車方案的興趣特征有:價格(萬元/輛)(C1)、車齡(C2)、里程(萬公里)(C3)、變速箱(C4)、空間(C5)、過戶次數(shù)(C6)、噪音(C7)、耗油/電經濟性(C8)。表5-14是這20名用戶對相應二手汽車的滿意度評價,其中分值1~5分別表示非常不滿意、不滿意、一般、滿意、非常滿意。其中U20是目標用戶。表5?14用戶對二手汽車的評價5.1協(xié)同過濾推薦算法5.1.3案例分析1-二手汽車交易平臺推薦1.基于用戶的推薦(1)計算修正的余弦相似度
余弦相似度采用空間中兩個向量夾角的余弦值表示,用于衡量向量間的相似性。而在協(xié)同過濾推薦算法中,余弦相似度可以表示用戶間的相似性。其計算公式如下:(5-5)用戶對各個項目的評分可以看作多維空間中的一個點,坐標原點與這個點的連線是用戶的向量,因此可以使用用戶向量之間夾角的余弦值表示用戶相似度。用戶間的相似度取值范圍為[-1,1],用戶間相似度越接近于1,代表著相似度越高。傳統(tǒng)的余弦相似度算法并未考慮到用戶標準的差異,即用戶評分的主觀性,可以采用修正的余弦相似度來解決,計算公式如下:(5-6)5.1協(xié)同過濾推薦算法5.1.3案例分析1-二手汽車交易平臺推薦1.基于用戶的推薦使用MATLAB的環(huán)境編寫代碼,根據(jù)公式(5-6)得出修正的余弦相似度計算結果。首先選取類簇的大小并確定近鄰數(shù)量,將相似度數(shù)量賦值給近鄰用戶數(shù)量,定義修正的余弦相似度中的分子分母,并確定sim2作為修正的余弦相似度的輸出,通過for循環(huán)求出近鄰集用戶和目標用戶的相似度,圖5-4和表5-15分別為計算修正的余弦相似度的核心代碼和輸出結果。表5?15修正的余弦相似度計算結果圖
5?4修正的余弦相似度5.1協(xié)同過濾推薦算法5.1.3案例分析1-二手汽車交易平臺推薦2.基于皮爾遜相似度的預測方法基于皮爾遜相似度的預測則是在計算皮爾遜相似度后,采用基于用戶評分的加權平均值法為用戶預測未評分項目的分值,其公式如下:(5-7)根據(jù)公式(5-7)進行預測用戶未評分項目的分值:定義position為目標用戶空缺值所在的位置,mean_U和cha_JL分別為目標用戶已有評分均值和每個目標用戶空缺值所在行。5.1協(xié)同過濾推薦算法5.1.3案例分析1-二手汽車交易平臺推薦2.基于皮爾遜相似度的預測方法表5?16用戶預測未評分項目的分值結果設推薦項目數(shù)為3,向目標用戶U10推薦油電電動跑車(A4)、汽油MPV(A6)、油電混動SUV(A9),推薦結果如下表:表
5-17用戶對二手汽車的評分(排序后)5.1協(xié)同過濾推薦算法5.1.4案例分析2-著名電影推薦使用的數(shù)據(jù)是著名電影數(shù)據(jù)集MovieLens-100數(shù)據(jù)集。MoviesLens數(shù)據(jù)集是實現(xiàn)和測試電影推薦最常用得數(shù)據(jù)集之一,包含943個用戶為精選得1682部電影給出的100,000個電影評分。主要文件為:u.data、u.item以及u.user。u.data主要包含用戶id、電影id、評分以及時間戳等數(shù)據(jù),是用戶數(shù)據(jù)以及電影數(shù)據(jù)交互產生關聯(lián)的一個數(shù)據(jù)表,里面有用戶對某部電影的評分。u.item包含電影id、電影標題以及上映時間等,主要是電影的一些信息。u.user包含用戶id、年齡、性別、職業(yè)以及郵編,是針對用戶的一些信息。5.1協(xié)同過濾推薦算法5.1.4案例分析2-著名電影推薦1.將描述用戶的數(shù)據(jù)集、評分數(shù)據(jù)集以及描述電影的數(shù)據(jù)集讀取并連接起來;2.進行獲取電影詳細信息的操作,根據(jù)電影id獲取電影的詳細信息;3.獲取目標電影的屬性,計算出電影和該目標電影的皮爾遜相似度,棄去缺失值,將相關數(shù)與評論數(shù)合并,篩選出對應數(shù)量的高關聯(lián)性電影,輸出評分由高到低的電影推薦結果(數(shù)據(jù)來源于CSDN官方)。表
5-21電影推薦結果(按評分排序)5.2協(xié)同過濾算法常見的問題以及對策5.2.1冷啟動問題及對策
冷啟動問題是指在沒有大量用戶數(shù)據(jù)的情況下設計個性化推薦系統(tǒng)并且讓用戶對推薦結果滿意從而愿意使用推薦系統(tǒng)。
冷啟動問題分為系統(tǒng)冷啟動、用戶冷啟動和項目冷啟動。
系統(tǒng)冷啟動問題主要解決如何在一個新開發(fā)的網(wǎng)站上設計個性化推薦系統(tǒng),從而網(wǎng)站剛發(fā)布時就能讓用戶體驗到個性化推薦服務。
用戶冷啟動問題主要解決的是在沒有新用戶的行為數(shù)據(jù)時如果為其提供個性化推薦服務。
項目冷啟動問題主要解決將新上架的項目推薦給可能對它感興趣的用戶。
5.2協(xié)同過濾算法常見的問題以及對策5.2.1冷啟動問題及對策針對這三類冷啟動問題,有以下幾種解決方案:1)提供非個性化推薦,比如說熱門排行榜,等用戶數(shù)據(jù)收集到一定的時候,切換為個性化推薦。2)利用用戶注冊信息,人口統(tǒng)計學信息;用戶興趣描述;從其他網(wǎng)站導入的用戶站外行為等。3)選擇合適的物品啟動用戶的興趣,用戶登錄時對一些物品進行反饋,收集用戶對這些物品的興趣信息,然后給用戶推薦和這些物品相似的物品,一般要具有以下特點:比較熱門,(ii)具有代表性和區(qū)分性(不能是大眾化或老少皆宜的,興趣無可分性),(iii)啟動物品集合需要有多樣性,在不知道用戶興趣的情況下,需要提供很高覆蓋率的啟動物品集合,幾乎覆蓋所有主流的用戶興趣。4)利用物品的內容信息,userCF算法需要解決第一推動力的問題,第一個用戶從哪里發(fā)現(xiàn)新物品。考慮利用物品的內容信息,將新物品先投放給曾經喜歡過和它內容相似的其他物品的用戶。對于itemCF,只能利用物品的內容信息計算物品的相關程度?;舅悸肪褪菍⑽锲忿D換為關鍵詞向量,通過計算向量之間的相似度(如余弦相似度),得到物品的相關程度。5)采用專家標注,針對很多系統(tǒng)在建立的時候,既沒有用戶的行為數(shù)據(jù),也沒有充足的物品內容信息來計算物品相似度,這時就需要利用專家標注。6)利用用戶在其他地方已經沉淀的數(shù)據(jù)進行冷啟動,比如引導用戶通過社交網(wǎng)絡賬號登錄,一方面降低注冊成本提高轉化率,另一方面獲取用戶的社交網(wǎng)絡信息,解決冷啟動問題。7)利用用戶的手機等興趣偏好進行冷啟動:Android手機開放度比較高,所以在安裝自己的app時,就可以順路了解下手機上還安裝了什么其他的app。然后可以總結用戶的特點和類型。5.2協(xié)同過濾算法常見的問題以及對策5.2.1冷啟動問題及對策5.2協(xié)同過濾算法常見的問題以及對策5.2.2稀疏性問題及對策
交易平臺上每天有大量的數(shù)據(jù)記錄,但通常情況下這些數(shù)據(jù)存在一定量的空缺值,用戶不可能對平臺上所有的項目都感興趣,更不可能對所有項目都進行評分,所以平臺收集到的數(shù)據(jù)是稀疏的。例如,淘寶上有著數(shù)億的商品,而用戶會購買的商品是有限的,購買后再去評價的商品的也是少數(shù)。這些數(shù)據(jù)并不是無用數(shù)據(jù),只是信息不夠完整,需要進一步處理才能使用。問題產生原因以大型網(wǎng)站亞馬遜為例,用戶評價過的項目質量相對網(wǎng)站中總項目數(shù)量可謂是冰山一角,這就導致了用戶項目評分矩陣的數(shù)據(jù)極端稀疏,在計算用戶或項目的最近鄰時準確率就會比較低,從而使得推薦系統(tǒng)的推薦質量下降。影響基于熵權法的灰色關聯(lián)預測法基于皮爾遜相似度的預測法對策5.2協(xié)同過濾算法常見的問題以及對策5.2.2稀疏性問題及對策1.灰色關聯(lián)預測法
灰色關聯(lián)分析是灰色關聯(lián)預測法的核心,其基本原理是依據(jù)數(shù)列曲線幾何形狀的相似程度判斷其聯(lián)系是否緊密。曲線越相似,對應數(shù)列間的關聯(lián)度就越大,反之,關聯(lián)度越小?;疑P聯(lián)預測法對數(shù)據(jù)的要求較低,即使數(shù)據(jù)量較少且沒有規(guī)律,也一樣能進行預測,計算過程如下:將所有用戶Ui對項目A={A1,A2,A3,…,An}的評分rij表示為一個數(shù)列,其中i=1,2,3,…,m,j=1,2,3,…,n,則參考數(shù)列X0和比較數(shù)列Xi如(5-8)和(5-9)所示。(5-8)(5-9)由于存在量綱的影響,需要在計算灰色關聯(lián)系數(shù)之前,對數(shù)據(jù)進行標準化,其計算公式如下:(5-10)(5-11)其中,Yij是由評分rij標準化后得到的數(shù)值,X0(i)表示第i個用戶對項目的評分均值。將標準值Yij表示為一個數(shù)列,則參考數(shù)列和比較數(shù)列如下:(5-12)(5-13)5.2協(xié)同過濾算法常見的問題以及對策5.2.2稀疏性問題及對策Y0(k)和Yi(k)都是所對應數(shù)列的第k個元素的值,則參考和比較數(shù)列的灰色關聯(lián)系數(shù)表示為:(5-14)其中,和分別表示Y0(k)和Yi(k)差值的絕對最小值和絕對最大值,ρ∈(0,1),未評分的不予參與計算?;疑P聯(lián)度γi代表參考數(shù)列和比較數(shù)列之間關系的緊密程度,其公式如下:(5-15)在灰色關聯(lián)預測法中,評分矩陣為R=(rij)m×n,則用戶間所對應的灰色關聯(lián)度τ為:τ=(γ1,γ2,…,
γm-1)
(5-16)根據(jù)目標用戶Ut的近鄰用戶,預測用戶Ut對項目Aj的評分,計算公式如下所示:pred(Ut,Aj)
=X0(i)+γi×(rij-X0(i))(5-17)5.2協(xié)同過濾算法常見的問題以及對策5.2.2稀疏性問題及對策2.基于皮爾遜相似度的預測方法灰色關聯(lián)分析適用于探索非線性相關性,而皮爾遜相似度適用于處理線性關系數(shù)據(jù),可以反映出兩個變量之間的線性相關度。其計算公式如下:(5-26)其中,Iuv表示用戶u和用戶v都有評分記錄的項目集合,rui和rvi分別表示用戶u和用戶v對項目i的評分,和分別表示用戶u和用戶v的項目評分的均值,sim(u,v)∈[-1,1]。|sim(u,v)|的值越接近1,則u和v的相關性越強?;谄栠d相似度的預測方法則是在計算皮爾遜相似度后,采用基于用戶評分的加權平均值法為用戶預測未評分項目的分值,其公式如下:(5-27)5.3基于內容的推薦算法
基于內容的推薦算法核心思想起源于信息過濾和信息檢索領域,采用了大量信息過濾和信息檢索方面的技術,不考慮用戶的行為信息,直接利用項目間的固有屬性數(shù)據(jù)產生推薦。
該算法首先是建立項目的特征模型以及用戶的興趣模型,然后采用某一種相似性計算方法,來計算用戶的興趣模型與每一個項目的特征模型之間的相似性,最后將相似性較高的項目推薦給目標用戶。因此該算法的核心部分是項目的屬性表示和用戶興趣模型的建立,以及適用的相似性計算方法。
基于內容的推薦算法一般只依賴于用戶及物品自身的內容屬性和行為屬性,而不涉及其他用戶的行為,在冷啟動的情況下(即新用戶或者新物品)依然可以做出推薦,具體流程如圖5-6所示。圖
5-6基于內容的推薦算法5.3基于內容的推薦算法基于內容推薦的優(yōu)勢:1)用戶之間不相互依賴,每個用戶的特征只依賴其本身對物品的喜歡,與他人的行為無關。2)便于解釋在某些場景中,能夠告訴用戶被推薦物品具有某種屬性,而這些屬性經常在用戶喜歡的物品中出現(xiàn),從而對推薦結果進行解釋。3)不受新用戶或新物品的約束,當一個新用戶進入推薦系統(tǒng)時,可以基于用戶的個人屬性信息,來進行內容的推薦,而不受冷啟動的影響。基于內容推薦的局限:1)特征抽取比較困難,如果物品描述是非結構化的,難以準確且全面地抽取物品特征。2)難以挖掘出用戶潛在的其他興趣,缺乏多樣性,基于內容推薦僅依賴于用戶的個人屬性及歷史偏好,因此產生的推薦結果會與用戶歷史交互過的物品具有非常高的相似性,從而使推薦缺乏多樣性和新鮮感。由于不同的數(shù)據(jù)有不同的格式,所以推薦系統(tǒng)中的內容主要包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)。針對不同的數(shù)據(jù),有不同的推薦算法。5.3.1基于結構化內容的推薦5.3基于內容的推薦算法基于結構化內容的推薦包括:基于內容的推薦算法、最近鄰分類算法和基于線性分類的內容推薦算法。1.基于內容的推薦算法基于內容的推薦算法只關注結構化數(shù)據(jù)。在基于內容的推薦算法中,最重要的步驟就是抽取物品和用戶的特征,通過計算物品特征向量和用戶偏好向量之間的相似度進行推薦,如圖5-7所示。圖
5-7基本的基于內容的推薦算法2.最近鄰分類算法
K近鄰(K-NearestNeighbor,KNN)是一種非常有效且易掌握的算法,目前廣泛應用于推薦系統(tǒng)中。KNN算法是監(jiān)督學習,有分類的輸出。KNN算法基本沒有訓練過程,其原理是根據(jù)測試集的結果選擇距離訓練集前K個最近的值,簡單來說,根據(jù)K個最近鄰的狀態(tài)來決定樣本的狀態(tài),即“物以類聚,人以群分”。K近鄰算法使用的模型實際上對應于對特征空間的劃分。5.3.1基于結構化內容的推薦5.3基于內容的推薦算法2.最近鄰分類算法K值的選擇,距離度量和分類決策規(guī)則是該算法的三個基本要素:1)K值的選擇會對算法的結果產生重大影響。K值較小意味著只有與輸入實例較近的訓練實例才會對預測結果起作用,但容易發(fā)生過擬合;K值較大,優(yōu)點是可以減少學習的估計誤差,但缺點是學習的近似誤差增大,這時與輸入實例較遠的訓練實例也會對預測起作用,使預測發(fā)生錯誤。在實際應用中,K值一般選擇一個較小的數(shù)值,通常采用交叉驗證的方法來選擇最優(yōu)的K值。隨著訓練實例數(shù)目趨向于無窮和K=1時,誤差率不會超過貝葉斯誤差率的2倍,如果K也趨向于無窮,則誤差率趨向于貝葉斯誤差率。2)該算法中的分類決策規(guī)則往往是多數(shù)表決,即由輸入實例的K個最臨近的訓練實例中的多數(shù)類決定輸入實例的類別。3)距離度量一般采用Lp距離,當p=2時,即為歐氏距離,在度量之前,應該將每個屬性的值規(guī)范化,這樣有助于防止具有較大初始值域的屬性比具有較小初始值域的屬性的權重過大。實現(xiàn)K近鄰算法時,主要考慮的問題是如何對訓練數(shù)據(jù)進行快速K近鄰搜索,這在特征空間維數(shù)大及訓練數(shù)據(jù)容量大時非常必要。ccc5.3.1基于結構化內容的推薦5.3基于內容的推薦算法3.基于線性分類的內容推薦算法機器學習中經典的線性分類器可以很好地對推薦算法進行分類。如圖5-8所示,假設輸入的電影的特征為,其中fi表示電影的第i個特征分量,輸出的結果Y表示用戶是否喜歡該電影。線性模型的目標就是嘗試在特征空間F中找到一個平面Y=W·F+b,希望將用戶喜歡和不喜歡的電影分開。圖
5-8線性分類圖5.3.2基于非結構化內容的推薦5.3基于內容的推薦算法
非結構化是指數(shù)據(jù)結構不清晰甚至沒有預先定義的數(shù)據(jù),包括文本,圖片,音頻和視頻等,這些數(shù)據(jù)難以用數(shù)據(jù)庫中的表結構來表示。
相較于結構化數(shù)據(jù),非結構化數(shù)據(jù)具有的不規(guī)則性和模糊性,令計算機難以理解。
雖然非結構化數(shù)據(jù)具有結構復雜、不標準和處理門檻高等缺點,但較高的數(shù)據(jù)存量和豐富的內涵信息決定了非結構化數(shù)據(jù)是待被推薦系統(tǒng)發(fā)掘的寶藏。各類非結構化數(shù)據(jù)都有其獨特的表征方式,但處理思路是彼此相通的。
基于非結構化內容的推薦有以下幾種形式:1.文本表示常見的文本表示技術路線有兩類,一種為經典機器學習中的離散式表示,另一種為深度學習中的分布式表示。分布式表示的思路是通過機器學習建立一個從單詞到低維連續(xù)向量空間的映射,使得語義相似的單詞在向量空間中被映射到較為接近的區(qū)域,而語義無關的單詞則被映射到較遠的區(qū)域。2.非文本表示(1)圖像表示在深度學習興起之前,圖像的特征提取通常依賴于手工的特征提取。一類是通用特征,包括像素級別特征(像素的顏色和位置)、局部特征(圖像上部分區(qū)域特征的匯總)和全局特征(圖像全部特征的匯總);另一類是領域相關特征,這些特征與應用類型強相關,如人臉和指紋等??梢詫⒂脩艚换ミ^的條目的圖像特征看作是用戶興趣的表示,然后訓練一個分類器來區(qū)分用戶喜歡的條目或者不喜歡的條目。5.3.2基于非結構化內容的推薦5.3基于內容的推薦算法(2)視頻表示視頻的表示通過視頻的標題、描述等長文本和標簽等稀疏文本屬性等進行。而在深度學習興起之前,標簽是視頻推薦任務的核心,YouTube的User-Video圖游歷算法是解決視頻標簽推薦一個優(yōu)秀案例。User-Video算法的核心為共同觀看關系(有點協(xié)同過濾的雛形),首先構建用戶-視頻二部圖,然后基于同時觀看過兩個視頻的用戶數(shù)目等規(guī)則生成視頻之間的連邊,最后在生成的視頻關系圖上進行標簽吸附。在標簽吸附過程中,各節(jié)點首先根據(jù)鄰居傳遞的標簽計算自己的新標簽,然后將新標簽傳播回鄰居,在此過程中,標簽逐漸擴散并最終收斂,在所有與任意原始節(jié)點有通路的節(jié)點上形成穩(wěn)定平滑的分布。(3)音頻表示音頻的表示同樣有兩種:借助關聯(lián)文本進行表示和針對音頻本身進行表示。以音樂表征為例,音樂的元數(shù)據(jù)可以分為三類:Editorialmetadata(由音樂發(fā)布者聲稱對該音樂的一些標簽)、Culturalmetadata(歌曲的消費規(guī)律、共現(xiàn)關系等)和acousticmetadata(對音頻信號的分析,例如beat、tempo、pitch、mood等)。
前兩種元數(shù)據(jù)分別以標簽、長文本的形式呈現(xiàn),可用樸素貝葉斯分類器、支持向量機和卷積神經網(wǎng)絡等方法進行計算;而音頻信號則可以用哼唱檢索進行處理,該技術從音頻信號中提取信息,與數(shù)據(jù)庫對比,然后按相似度進行排序和檢索。5.4基于模型的推薦算法基于模型的推薦算法是通過訓練數(shù)學模型來預測用戶對未交互的項目評分情況,通常包括概率矩陣分解(ProbabilisticMatrixFactorization,PMF)。PMF大體思路是先對用戶與項目的歷史交互數(shù)據(jù)記錄建立適當?shù)哪P?,然后產生符合用戶需求的推薦列表,其中應用較為廣泛的是基于矩陣分解的推薦。
矩陣分解是協(xié)同過濾算法中一種十分有效的方法,它應用不同的數(shù)學或機器學習方法從用戶—物品的打分矩陣中分解出潛在特征來解釋并預測打分,其中包括概率潛在語義分析和潛在狄利克雷分布等。具有較好的可解釋性和評分預測準確性。但是PMF沒有將隱式反饋信息考慮進來,只考慮到了顯示反饋信息。矩陣分解:u是第i個用戶的興趣向量,v是第j個電影的參數(shù)向量。(5-28)(5-29)可以用u和v的點積來估算x(第i個用戶對第j個電影的評分)。我們用已知的分數(shù)構建這些向量,并使用它們來預測未知的得分。例如,在矩陣分解之后,Ted的向量是(1.4;0.9),電影A的向量是(1.4;0.8),現(xiàn)在,我們可以通過計算(1.4;0.9)和(1.4;0.8)的點積,來還原電影A-Ted的得分。結果,我們得到2.68分,如圖5-9所示。圖
5-9基于模型的推薦算法結果5.5基于關聯(lián)規(guī)則的推薦算法由于傳統(tǒng)推薦算法中未能考慮到物品與物品之間的深層關系,IBM公司于1993年首次提出了關聯(lián)規(guī)則模型后,Manchanda等人緊接著于1999年在實際的商業(yè)交易數(shù)據(jù)應用中指出,消費者在多選項場景下,一個共同主線上所供選擇的項目之間可能以某種特殊的關系進行關聯(lián),即用戶會在不同情況下做出不同選擇。因此在實際應用中,研究人員將關聯(lián)規(guī)則技術運用到推薦算法中來提高推薦性能,從而彌補傳統(tǒng)推薦算法的不足。背景
基于關聯(lián)規(guī)則的推薦是利用數(shù)據(jù)挖掘領域的關聯(lián)規(guī)則從大量數(shù)據(jù)集中發(fā)現(xiàn)不同項集之間的相關聯(lián)性,進而根據(jù)用戶已購買或評價過的項目為其產生推薦的過程。
最典型的關聯(lián)規(guī)則效應就是應用在電子商務領域中的購物籃效應,通過研究分析哪些是被用戶頻繁購買的商品,發(fā)現(xiàn)商品之間的關系,然后利用商品之間的這種關聯(lián)關系為其他用戶產生推薦。
關聯(lián)規(guī)則是一種使用較為廣泛的模式識別方法,例如購物分析、網(wǎng)絡分析等,其中購物分析典型的應用場景就是在商場中找出共同購買的集合。
該方法用于表述數(shù)據(jù)內隱含的關聯(lián)性,一般用三個指標來衡量關聯(lián)規(guī)則,分別是置信度、支持度和提升度。置信度表示A、B同時出現(xiàn)的概率;支持度表示規(guī)則中兩者同時出現(xiàn)的概率,無先后順序之分;提升度描述了關聯(lián)規(guī)則中A與B的相關性。概念5.6信息隱私與基于隱私保護的方案推薦方法5.6.1信息隱私大數(shù)據(jù)時代,通過對簡單數(shù)據(jù)進行分析,實施復合運算就能夠有意或者無意對用戶的隱私進行披露。由此,大數(shù)據(jù)時代,信息隱私將面臨前所未有的挑戰(zhàn)。(1)運用復雜運算法則進行數(shù)據(jù)挖掘侵害信息隱私隨著大數(shù)據(jù)技術的發(fā)展,大量的個人私人信息如出行記錄、健康信息、購物記錄等通過數(shù)據(jù)挖掘技術而被廣泛收集和分析,進而能獲悉用戶更多隱私信息。例如,為了實現(xiàn)精準營銷,追求更大的商業(yè)利益,商家利用大數(shù)據(jù)挖掘出消費者的數(shù)據(jù)足跡,包括瀏覽記錄、購物記錄等內容。通過分析用戶搜索、瀏覽和購買等行為產生的數(shù)據(jù),就能知曉用戶購物偏好,以此高效、精準地向用戶投遞經過篩選的廣告。用戶數(shù)據(jù)在不知情的情況下被第三方收集和使用,這直接對用戶隱私帶來極大挑戰(zhàn)。(2)大數(shù)據(jù)預測侵害信息隱私,表現(xiàn)為利用大數(shù)據(jù)來預測個人隱私信息例如,美國塔吉特公司通過女性顧客的購物數(shù)據(jù)來預測客戶是否懷孕,并成功獲取到一名在校女生的妊娠隱私,這比她的家人知悉這一隱私還要早一個月。(3)大數(shù)據(jù)監(jiān)控侵害信息隱私如今人們全天候生活在“數(shù)據(jù)監(jiān)控”之中,公共空間與私人空間的界限愈加模糊,人們的隱私也更容易受到侵害。例如,央視2021年“315”晚會曝光的“人臉識別漏洞”的案例中,多家企業(yè)在消費者不知情的情況下,通過安裝的人臉識別攝像頭大量采集客戶的人臉等數(shù)據(jù),并對采集到的數(shù)據(jù)進行分析,已侵害到消費者隱私安全。這種人臉識別攝像頭已經遍及各大商場超市,在“監(jiān)控”的掩飾下,肆意侵害消費者隱私安全,導致個人信息泄露防不勝防。5.6信息隱私與基于隱私保護的方案推薦方法5.6.2基于隱私保護的方案推薦方法1.個性化推薦及隱私保護個性化推薦個性化推薦系統(tǒng)可以根據(jù)用戶的線上歷史信息挖掘用戶興趣偏好,根據(jù)興趣特征推薦給用戶真正感興趣的信息內容,并且去除用戶不感興趣的信息內容,使得用戶即使在不能準確定位自身需求的情況下,依然能獲取感興趣的信息。個性化推薦系統(tǒng)是被廣泛應用在電子商務等領域。例如,網(wǎng)易云音樂收集用戶的聽歌記錄并挖掘用戶興趣,通過“每日歌曲推薦”欄目向用戶推薦感興趣的歌單;抖音是通過小視頻瀏覽記錄分析挖掘用戶的潛在興趣點,并為用戶推薦其更為感興趣視頻集。隱私保護大數(shù)據(jù)時代下,數(shù)據(jù)蘊含著巨大的商業(yè)價值。很多公司專門開設免費用戶體驗服務,收集用戶網(wǎng)絡信息和個人信息,或者使用爬蟲技術在網(wǎng)上肆意收集并過濾有效信;有些組織專門竊取數(shù)據(jù)信息并建立數(shù)據(jù)庫進行售賣;很多境外惡勢力通過網(wǎng)絡手段收集各個國家公民的個人信息,然后打包售賣給詐騙團伙。例如,20世紀末,馬薩諸塞州曾通過匿名技術公開了一段醫(yī)療數(shù)據(jù),內容只包含病人的病情信息,不涉及名字等身份信息。但是Sweeney利用政府發(fā)布涉及這些病人信息的數(shù)據(jù)集,通過差分攻擊手段破解了這份醫(yī)療數(shù)據(jù),獲取到病人的身份信息以及病歷信息。
在大數(shù)據(jù)時代下,如果大量用戶開始質疑企業(yè)對信息保護的能力,那么該企業(yè)的產品難以得到認同,企業(yè)也將難以經營。因此,保護用戶隱私安全勢在必行。5.6信息隱私與基于隱私保護的方案推薦方法5.6.2基于隱私保護的方案推薦方法2.基于差分隱私保護的推薦方案
差分隱私最早是由Dwork提出,是一種對數(shù)據(jù)添加噪音的隱私保護方法。它的使用建立在嚴格數(shù)學理論推導的基礎上,只要算法步驟滿足差分隱私要求,無論攻擊者擁有多少背景知識都無法獲取原始數(shù)據(jù)。
目前差分隱私主要應用于數(shù)據(jù)發(fā)布領域、推薦系統(tǒng)領域和位置隱私領域。概念背景隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)信息越來越具有商業(yè)價值,一些國內組織或者境外勢力從事數(shù)據(jù)經營生意。有些企業(yè)通過提供線上免費提供服務來收集用戶信息并進行販賣,甚至有些企業(yè)直接將用戶數(shù)據(jù)打包和其他企業(yè)進行利益交換。目前政府已經意識到用戶隱私安全保護的重要性,也陸續(xù)出臺并實施了相關政策。但是違法分子依然可以通過“合法手段”來竊取用戶隱私,如通過鏈式攻擊破解匿名數(shù)據(jù),通過差分攻擊獲取推薦系統(tǒng)后臺數(shù)據(jù)。
差分隱私的出現(xiàn)有效改善了隱私泄漏的情況。步驟1)根據(jù)用戶興趣偏好,采用K-Means++將用戶劃分成不同類簇,并找到目標類簇;2)調節(jié)K值,選取適合的目標類簇尺寸;3)計算目標類簇的用戶相似度時,考慮評分差異和興趣傾向;4)采用差分隱私的指數(shù)機制為目標用戶選取近鄰集合;5)根據(jù)近鄰集合,預測目標用戶未評分方案的分值,并采用top-m算法為其推薦適合的方案。5.6信息隱私與基于隱私保護的方案推薦方法5.6.2基于隱私保護的方案推薦方法2.基于差分隱私保護的推薦方案圖
5-10基于差分隱私的個性化推薦5.6信息隱私與基于隱私保護的方案推薦方法5.6.2基于隱私保護的方案推薦方法2.基于差分隱私保護的推薦方案基于差分隱私的推薦方案主要圍繞用戶興趣和隱私保護兩個部分進行研究,具體內容如下:(1)考慮用戶興趣分析。主要體現(xiàn)在兩個方面:
一是用戶-方案屬性評分數(shù)據(jù)是用戶根據(jù)自身興趣偏好對方案屬性的評分,K-Means++則根據(jù)用戶偏好將用戶劃分為不同的類簇,同類簇中用戶之間興趣相似,不同類簇用戶之間興趣相異;
二是在計算用戶相似度時,融入興趣傾向因子,用戶之間興趣偏好越接近,興趣傾向因子數(shù)值越大,反之,越小,從而促使具有相似興趣的用戶之間相似度越大,具有不同興趣的用戶之間相似度越小。(2)保護用戶隱私安全。假設攻擊者已經擁有除了目標信息外所有的數(shù)據(jù)信息,就可以注冊新用戶并輸入已有的目標用戶信息從而“仿造”目標用戶,利用協(xié)同過濾算法的漏洞獲取目標信息,這就是差分攻擊。
而差分隱私的指數(shù)機制可以隨機選擇近鄰集合,使得攻擊者獲取到的數(shù)據(jù)帶有一定量的噪音,從而保護用戶隱私。5.7信息污染與信任推薦算法5.7.1信息污染信息資源共享意味著原本獨享的信息資源成為公共產品,任何信息行為主體都可以享用,信息資源的所有者由此將失去資源的“壟斷”特權,某些所有者因此可能會對網(wǎng)絡信息進行處理,使原有的網(wǎng)絡信息資源會出現(xiàn)不同程度的“污染”。
一般認為信息污染是指在信息活動中,混入有害性、誤導性和無用的信息元素,它是對信息生態(tài)系統(tǒng)產生的負效應。它主要表現(xiàn)在三個方面。(1)虛假信息。信息在生產和傳播過程中由于多種因素導致其內容失去“原貌”,缺少可信度,由此導致信息內容的虛假化。(2)信息超載。大量信息被網(wǎng)站重復轉載、大量復制和傳播,致使信息本身的價值屬性逐漸流失,產生大量信息廢棄物,擠占大量網(wǎng)絡存儲空間,造成信息通道梗塞,出現(xiàn)信息超載。(3)信息騷擾。信息騷擾主要是指一些沒有價值的、無用的信息傳播給用戶,對網(wǎng)絡信息活動正常秩序構成干擾,不利于用戶更好地體驗信息資源。例如,大數(shù)據(jù)技術的發(fā)展,用戶時常受到垃圾郵件、“短信炸彈”的信息騷擾。一些保險公司在做宣傳營銷時,不間斷隨機推送營銷短信和電子郵件,對于沒有購買保險、需求的用戶來說,接受這種推送已經構成信息騷擾。5.7信息污染與信任推薦算法5.7.2信任推薦算法1.信任推薦原理在龐大的社交網(wǎng)絡中,包含著大量的現(xiàn)實世界真實的用戶關系和屬性信息,以及在虛擬網(wǎng)絡中根據(jù)興趣等彼此交互產生的信任關系等信息,這些都可以作為推薦系統(tǒng)的重要輔助要素。
同時,在社交網(wǎng)絡中建立完善的信任關系體系有利于抵御常見的惡意攻擊和行為,如共謀攻擊和惡評攻擊等。
因此,工業(yè)界的主流在線社交網(wǎng)站都將一部分研究重心放在如何實現(xiàn)社交網(wǎng)絡和推薦系統(tǒng)的有機結合。同時,將社交網(wǎng)絡中產生的信任關系作為附加信息引入到推薦系統(tǒng)中,已經被學術界證實能夠有效地緩解傳統(tǒng)推薦系統(tǒng)中存在的一系列問題,以此提升模型的準確性和可擴展性。傳統(tǒng)的社交網(wǎng)絡信任模型主要包括直接信任評估和間接信任推理,它們與社會化推薦系統(tǒng)的關系如圖5-11所示。圖
5-11社會化推薦系統(tǒng)(1)直接信任評估根據(jù)兩用戶之間的直接交互信息(常見的如點贊、轉發(fā)和收藏等)及屬性信息(共同屬性等)計算得出的信任評分或評級。(2)間接信任推理對于沒有直接交互信息的兩個用戶,根據(jù)社交網(wǎng)絡拓撲和信任路徑信息計算得出的未知信任評分或評級。5.7信息污染與信任推薦算法5.7.2信任推薦算法2.信任推薦發(fā)展現(xiàn)狀由于缺乏對評分域和社會域的深入挖掘和有效利用,以往的研究通常面臨一些關鍵的問題和挑戰(zhàn):(1)信任預測和評估的準確性問題:在社交網(wǎng)絡中,用戶間存在大量的直接關系和間接關系,在信任傳播和聚合過程中存在很多分歧和不一致。(2)數(shù)據(jù)稀疏性問題:一方面,大數(shù)據(jù)環(huán)境下,用戶對商品等的評分存在稀疏性的問題,即單一用戶只能評估少量的商品。另一方面,直接信任關系也存在數(shù)據(jù)稀疏的問題,即在社交網(wǎng)絡中用戶與用戶之間直接交互行為太少的問題。(3)大數(shù)據(jù)環(huán)境下的用戶及其設備都面臨可靠性不足和資源約束等問題。例如在開放的移動網(wǎng)絡環(huán)境下,隨著信息和數(shù)據(jù)的爆炸式增長,用戶數(shù)量與商品和服務的數(shù)量飛漲,隨著用戶-項目評分矩陣規(guī)模的擴大,傳統(tǒng)推薦系統(tǒng)的效率將會大大降低。(4)推薦系統(tǒng)與信任預測模型結合問題:傳統(tǒng)的推薦系統(tǒng)只采用單一的“用戶-項目”的評分矩陣產生推薦,并不一定能夠產生讓用戶滿意的結果,雖然社交網(wǎng)絡中的信任關系能有效解決這一問題,但如何將社交網(wǎng)絡中的信任信息與傳統(tǒng)的評分數(shù)據(jù)相結合成為一大焦點難題。
在國內外,有大量關于信任預測的研究,可大致分為四類:基于圖論的模型、基于機器學習的模型、基于矩陣分解的模型和基于主觀邏輯的模型。
5.8信息繭房1.大數(shù)據(jù)背景下的“信息繭房”“信息繭房”是美國學者桑斯坦對現(xiàn)代互聯(lián)網(wǎng)環(huán)境的描述,指的是個人或群體被包含在一個信息壁壘之內,進而自主或不自主地把所進行的信息選擇行為固定在對前述特定種類信息的選擇之內,進而在思想和情感方面產生對這一類信息的親近和對其他類型信息的排斥,久而久之,人們在信息選擇上愈發(fā)局限。在發(fā)達的網(wǎng)絡環(huán)境中,桑斯坦認為,公眾更傾向于選擇自己原本就感興趣的東西,并更愿意與自己志趣相投的人交流,所以人們的行為活動會局限在各自的小團體甚至個人建造的“孤島”中。
在數(shù)字化時代下,大數(shù)據(jù)作為其產物,體量巨大、類型繁多,各行各業(yè)的數(shù)據(jù)量正呈幾何式增加,海量數(shù)據(jù)包含了無數(shù)的商業(yè)秘密。于是,移動資訊類平臺利用大數(shù)據(jù)開創(chuàng)了一種新的傳播模式——基于用戶興趣的個性化新聞服務。個性化新聞推薦服務通過收集用戶的獨特偏好向其推薦可能勾起其興趣的內容。在這樣的背景下,人們往往只關注興趣基礎范圍內的信息,導致人們認知領域逐漸縮小,并且與外界的互動越來越少,進而逐漸陷入自我封閉的狀態(tài),“繭房”效應不斷增強。5.8信息繭房2.“信息繭房”的形成原因(1)個性化信息服務的負效應數(shù)據(jù)挖掘分析用戶的閱讀喜好并預測用戶將來可能關注的內容,給每一個用戶提供有差別、有針對性的內容。但它也是一把雙刃劍,這種隱形的個性化服務方式讓用戶在不知不覺中只能接受特定的內容,并且自己很難意識到這個問題。
除了直接獲取系統(tǒng)推薦的內容外,用戶還能通過主動訂閱獲得自己需要的信息。各大新聞類網(wǎng)站、客戶端都提供了“訂閱”或“關注”功能,用戶可以選擇自己感興趣的內容進行免費或付費訂閱。用戶偏向于瀏覽自己關注的內容,但這些內容的覆蓋面比較小,視線長期固定會造成個人的信息環(huán)境越來越封閉,最后因對其他領域疏于關注而脫離外部世界。(2)受眾的選擇性心理選擇性心理是指受眾在選擇媒介信息時所表現(xiàn)出來的思維方式,具有主觀能動的特質。人們希望自己能及時了解外界事物的變動,這種求知欲望讓他們更為主動地使用各種媒介獲取信息。但這種搜索并非漫無目的,他們在海量信息中主要選擇自己最感興趣的,涉獵的領域逐漸固定,并呈現(xiàn)出不斷縮小的態(tài)勢。(3)新聞資訊類平臺之間的利益角逐為了實現(xiàn)傳播效果,以個性化推薦為特色的新聞客戶端應運而生。今日頭條在2018年3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 滬科版八年級數(shù)學上冊專項素養(yǎng)綜合練(七)證明兩個三角形全等的常考模型課件
- 北師大版八年級生物上冊第6單元生命的延續(xù)第20章素養(yǎng)綜合檢測課件
- 魚塘租賃合同范本
- 七年級第七單元語法及課文
- 課型初二年級語法課
- 化 學物質組成的表示第一課時 2024-2025學年九年級化學人教版2024上冊
- 山東省滕州市滕東中學2024-2025學年九年級上學期期中監(jiān)測化學試題
- 青島版三年級下冊科學備課
- 門頭設計安裝合同模板
- 英國員工合同模板
- 2024-2025學年七年級上學期數(shù)學期中模擬試卷(蘇科版2024)(含答案解析)
- 科大訊飛促銷活動方案
- 醫(yī)務人員授權、再授權管理辦法
- 2022年1月浙江首考英語讀后續(xù)寫精深分析與下水范例
- 油水井調剖堵水劑
- 網(wǎng)絡直播平臺的營銷策略研究——以起點直播公司為例
- 年處理10000輛報廢新能源汽車拆解再生利用項目可行性研究報告-模板
- 供應商送貨要求規(guī)范
- 投標書標準格式
- 殘疾人的心理輔導方案計劃
- 民航飛機維修措施與成本分析
評論
0/150
提交評論