大數(shù)據(jù)分析方法與應(yīng)用 課件 第5章 推算法_第1頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課件 第5章 推算法_第2頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課件 第5章 推算法_第3頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課件 第5章 推算法_第4頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課件 第5章 推算法_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析方法與應(yīng)用上海理工大學(xué)主講人:耿秀麗

教授第5章推薦算法5.1協(xié)同過(guò)濾推薦算法目錄CONTENTS5.2協(xié)同過(guò)濾算法常見的問(wèn)題以及對(duì)策5.3基于內(nèi)容的推薦算法5.4基于模型的推薦算法5.7信息污染與信任推薦算法第5章推薦算法5.6信息隱私與基于信息隱私的推薦算法5.5基于關(guān)聯(lián)規(guī)則的推薦算法5.8信息繭房5.1協(xié)同過(guò)濾推薦算法概念分類協(xié)同過(guò)濾算法基于用戶的協(xié)同過(guò)濾算法(User-basedCollaborativeFiltering)基于物品的協(xié)同過(guò)濾算法(Item-basedCollaborativeFiltering)

協(xié)同過(guò)濾就是根據(jù)一個(gè)用戶對(duì)其他項(xiàng)目的評(píng)分以及整個(gè)用戶群過(guò)去的評(píng)分記錄,來(lái)預(yù)測(cè)這個(gè)用戶對(duì)某一未評(píng)分項(xiàng)目的評(píng)分?;舅枷胧歉鶕?jù)具有類似觀點(diǎn)的用戶的行為來(lái)對(duì)用戶進(jìn)行推薦或者預(yù)測(cè)。

基于用戶的協(xié)同過(guò)濾算法是通過(guò)用戶的歷史行為數(shù)據(jù)發(fā)現(xiàn)用戶對(duì)商品或內(nèi)容的喜好(如商品購(gòu)買,收藏,內(nèi)容評(píng)論或分享),并對(duì)這些喜好進(jìn)行度量和打分。

根據(jù)不同用戶對(duì)相同商品或內(nèi)容的態(tài)度和偏好程度計(jì)算用戶之間的關(guān)系,在有相同喜好的用戶間進(jìn)行商品推薦。概念獲取用戶數(shù)據(jù)計(jì)算用戶相似度選取近鄰集合預(yù)測(cè)目標(biāo)用戶未評(píng)分項(xiàng)目值采用top-m算法為目標(biāo)用戶推薦方案圖5?1協(xié)同過(guò)濾算法——基于用戶的推薦算法流程圖該算法流程如圖5-1所示。5.1協(xié)同過(guò)濾推薦算法5.1.1基于用戶的協(xié)同過(guò)濾算法

在示例中,5個(gè)用戶分別對(duì)2件商品進(jìn)行了評(píng)分(這里的分值可能表示真實(shí)的購(gòu)買,也可以是用戶對(duì)商品不同行為的量化指標(biāo))。如表5-1所示。(1)尋找偏好相似的用戶1)歐幾里得距離評(píng)價(jià)表5?1用戶和商品評(píng)分表該方法是一種用戶關(guān)系評(píng)價(jià)方法,原理是通過(guò)計(jì)算兩個(gè)用戶在散點(diǎn)圖中的距離來(lái)判斷不同的用戶是否有相同的偏好。

系數(shù)越小,表示兩個(gè)用戶間的距離越近,偏好越接近。如表5-2所示。

表5?2歐幾里得距離評(píng)價(jià)結(jié)果二維:n維:歐幾里得距離評(píng)價(jià)計(jì)算公式:(5-1)(5-2)5.1協(xié)同過(guò)濾推薦算法5.1.1基于用戶的協(xié)同過(guò)濾算法2)皮爾遜相關(guān)度評(píng)價(jià)

皮爾遜相關(guān)度評(píng)價(jià)是另一種用戶關(guān)系評(píng)價(jià)方法。當(dāng)評(píng)分?jǐn)?shù)據(jù)不規(guī)范時(shí),皮爾遜相關(guān)度評(píng)價(jià)相比歐幾里得距離評(píng)價(jià)能夠給出更好的結(jié)果。

兩個(gè)變量之間的皮爾遜相關(guān)度定義為:兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差之間的商,如公式(5-3)所示。

上式定義了總體相關(guān)系數(shù),估算樣本的協(xié)方差和標(biāo)準(zhǔn)差,可得到皮爾遜相關(guān)系數(shù),常用r表示。(5-3)(5-4)表5?4皮爾遜相關(guān)系數(shù)結(jié)果分類皮爾遜相關(guān)系數(shù)的結(jié)果是一個(gè)在-1與1之間的系數(shù),該系數(shù)用來(lái)說(shuō)明兩個(gè)用戶間聯(lián)系的強(qiáng)弱程度。5.1協(xié)同過(guò)濾推薦算法5.1.1基于用戶的協(xié)同過(guò)濾算法

本章通過(guò)皮爾遜相關(guān)度評(píng)價(jià)對(duì)用戶進(jìn)行分組,并推薦商品。

以下是一個(gè)多用戶對(duì)多個(gè)商品進(jìn)行評(píng)分的示例。用戶和商品的評(píng)分表如表5-3所示。表5?3多用戶和商品評(píng)分表

通過(guò)計(jì)算5個(gè)用戶對(duì)5件商品的評(píng)分本章獲得了用戶間的相似度數(shù)據(jù)。這里可以看到用戶A&B,C&D,C&E和D&E之間相似度較高,如表5-5所示。表5?5用戶相似度數(shù)據(jù)5.1協(xié)同過(guò)濾推薦算法5.1.1基于用戶的協(xié)同過(guò)濾算法5.1協(xié)同過(guò)濾推薦算法5.1.1基于用戶的協(xié)同過(guò)濾算法(4)對(duì)用戶進(jìn)行商品推薦推薦用戶C還沒(méi)有瀏覽或購(gòu)買過(guò)的商品檢查相似度列表:用戶C和用戶D和E的相似度較高,可以對(duì)用戶C推薦用戶D和E的商品提取用戶D和用戶E評(píng)價(jià)過(guò)的另外5件商品A—商品F按加權(quán)后的結(jié)果對(duì)5件商品進(jìn)行排序?qū)Σ煌唐返脑u(píng)分進(jìn)行相似度加權(quán)用戶C獲得了與其偏好相似的用戶D和E評(píng)價(jià)的商品表5?5用戶相似度數(shù)據(jù)表5?6推薦結(jié)果5.1協(xié)同過(guò)濾推薦算法5.1.2基于物品的協(xié)同過(guò)濾算法

通過(guò)計(jì)算不同用戶對(duì)不同物品的評(píng)分獲得物品間的關(guān)系,基于物品間的關(guān)系對(duì)用戶進(jìn)行相似物品的推薦。這里的評(píng)分代表用戶對(duì)商品的態(tài)度和偏好。

簡(jiǎn)單來(lái)說(shuō)就是如果用戶A同時(shí)購(gòu)買了商品1和商品2,那么說(shuō)明商品1和商品2的相關(guān)度較高。當(dāng)用戶B也購(gòu)買了商品1時(shí),可以推斷他也有購(gòu)買商品2的需求。概念流程圖圖5?2協(xié)同過(guò)濾算法——基于物品的推薦算法該算法流程圖如圖5-2所示。5.1協(xié)同過(guò)濾推薦算法5.1.2基于物品的協(xié)同過(guò)濾算法(1)尋找相似的物品通過(guò)兩個(gè)用戶的評(píng)分來(lái)獲得5件商品之間的相似度情況。在表5-7中將用戶和商品的位置進(jìn)行了互換,通過(guò)兩個(gè)用戶的評(píng)分來(lái)獲得5件商品之間的相似度情況。單從表格中依然很難發(fā)現(xiàn)其中的聯(lián)系,因此通過(guò)散點(diǎn)圖進(jìn)行展示,如圖5-3所示。商品1,3,4在用戶A和B中有著近似的評(píng)分,說(shuō)明這三件商品的相關(guān)度較高。而商品5和2則在另一個(gè)群體中。表5?7商品—用戶表圖

5?3用戶—商品評(píng)分散點(diǎn)圖5.1協(xié)同過(guò)濾推薦算法5.1.2基于物品的協(xié)同過(guò)濾算法1)歐幾里得距離評(píng)價(jià)

通過(guò)歐幾里得系數(shù)可以發(fā)現(xiàn),商品間的距離和關(guān)系與前面散點(diǎn)圖中的表現(xiàn)一致,商品1,3,4距離較近關(guān)系密切。商品2和商品5距離較近,如表5-8所示。表5?8歐幾里得距離評(píng)價(jià)結(jié)果5.1協(xié)同過(guò)濾推薦算法5.1.2基于物品的協(xié)同過(guò)濾算法2)皮爾遜相關(guān)度評(píng)價(jià)選擇使用皮爾遜相關(guān)度評(píng)價(jià)來(lái)計(jì)算多用戶與多商品的關(guān)系計(jì)算。下表5-9是5個(gè)用戶對(duì)5件商品的評(píng)分表。通過(guò)這些評(píng)分計(jì)算出商品間的相關(guān)度。通過(guò)計(jì)算可以發(fā)現(xiàn),商品1&2,商品3&4,商品3&5和商品4&5相似度較高,如表5-10所示。表5?9多用戶—商品評(píng)分表表5?10皮爾遜相關(guān)系數(shù)結(jié)果5.1協(xié)同過(guò)濾推薦算法5.1.2基于物品的協(xié)同過(guò)濾算法(4)為用戶提供基于相似物品的推薦用戶C已經(jīng)購(gòu)買過(guò)商品4和商品5,將用戶C對(duì)商品4和商品5的評(píng)分作為權(quán)重。對(duì)新商品A,B,C進(jìn)行加權(quán)排序。商品C被優(yōu)先推薦。如表5-12所示。表5—12新商品與已有商品間的相似度數(shù)據(jù)5.1協(xié)同過(guò)濾推薦算法5.1.3案例分析1-二手汽車交易平臺(tái)推薦

選取二手汽車交易平臺(tái)的案例分別對(duì)基于用戶和基于物品的推薦進(jìn)行了分析。使用的數(shù)據(jù)是由某線上二手汽車平臺(tái)中2500名用戶對(duì)7200種方案的整體評(píng)分以和屬性評(píng)分組成,約有100萬(wàn)次評(píng)價(jià)。隨機(jī)選取了20名用戶U={U1,U2,…,U20}以及部分具有代表性的方案A1、A2、…、A12,具體如表5-13所示。表5?13平臺(tái)二手汽車方案5.1協(xié)同過(guò)濾推薦算法5.1.3案例分析1-二手汽車交易平臺(tái)推薦用戶對(duì)二手汽車方案的興趣特征有:價(jià)格(萬(wàn)元/輛)(C1)、車齡(C2)、里程(萬(wàn)公里)(C3)、變速箱(C4)、空間(C5)、過(guò)戶次數(shù)(C6)、噪音(C7)、耗油/電經(jīng)濟(jì)性(C8)。表5-14是這20名用戶對(duì)相應(yīng)二手汽車的滿意度評(píng)價(jià),其中分值1~5分別表示非常不滿意、不滿意、一般、滿意、非常滿意。其中U20是目標(biāo)用戶。表5?14用戶對(duì)二手汽車的評(píng)價(jià)5.1協(xié)同過(guò)濾推薦算法5.1.3案例分析1-二手汽車交易平臺(tái)推薦1.基于用戶的推薦(1)計(jì)算修正的余弦相似度

余弦相似度采用空間中兩個(gè)向量夾角的余弦值表示,用于衡量向量間的相似性。而在協(xié)同過(guò)濾推薦算法中,余弦相似度可以表示用戶間的相似性。其計(jì)算公式如下:(5-5)用戶對(duì)各個(gè)項(xiàng)目的評(píng)分可以看作多維空間中的一個(gè)點(diǎn),坐標(biāo)原點(diǎn)與這個(gè)點(diǎn)的連線是用戶的向量,因此可以使用用戶向量之間夾角的余弦值表示用戶相似度。用戶間的相似度取值范圍為[-1,1],用戶間相似度越接近于1,代表著相似度越高。傳統(tǒng)的余弦相似度算法并未考慮到用戶標(biāo)準(zhǔn)的差異,即用戶評(píng)分的主觀性,可以采用修正的余弦相似度來(lái)解決,計(jì)算公式如下:(5-6)5.1協(xié)同過(guò)濾推薦算法5.1.3案例分析1-二手汽車交易平臺(tái)推薦1.基于用戶的推薦使用MATLAB的環(huán)境編寫代碼,根據(jù)公式(5-6)得出修正的余弦相似度計(jì)算結(jié)果。首先選取類簇的大小并確定近鄰數(shù)量,將相似度數(shù)量賦值給近鄰用戶數(shù)量,定義修正的余弦相似度中的分子分母,并確定sim2作為修正的余弦相似度的輸出,通過(guò)for循環(huán)求出近鄰集用戶和目標(biāo)用戶的相似度,圖5-4和表5-15分別為計(jì)算修正的余弦相似度的核心代碼和輸出結(jié)果。表5?15修正的余弦相似度計(jì)算結(jié)果圖

5?4修正的余弦相似度5.1協(xié)同過(guò)濾推薦算法5.1.3案例分析1-二手汽車交易平臺(tái)推薦2.基于皮爾遜相似度的預(yù)測(cè)方法基于皮爾遜相似度的預(yù)測(cè)則是在計(jì)算皮爾遜相似度后,采用基于用戶評(píng)分的加權(quán)平均值法為用戶預(yù)測(cè)未評(píng)分項(xiàng)目的分值,其公式如下:(5-7)根據(jù)公式(5-7)進(jìn)行預(yù)測(cè)用戶未評(píng)分項(xiàng)目的分值:定義position為目標(biāo)用戶空缺值所在的位置,mean_U和cha_JL分別為目標(biāo)用戶已有評(píng)分均值和每個(gè)目標(biāo)用戶空缺值所在行。5.1協(xié)同過(guò)濾推薦算法5.1.3案例分析1-二手汽車交易平臺(tái)推薦2.基于皮爾遜相似度的預(yù)測(cè)方法表5?16用戶預(yù)測(cè)未評(píng)分項(xiàng)目的分值結(jié)果設(shè)推薦項(xiàng)目數(shù)為3,向目標(biāo)用戶U10推薦油電電動(dòng)跑車(A4)、汽油MPV(A6)、油電混動(dòng)SUV(A9),推薦結(jié)果如下表:表

5-17用戶對(duì)二手汽車的評(píng)分(排序后)5.1協(xié)同過(guò)濾推薦算法5.1.4案例分析2-著名電影推薦使用的數(shù)據(jù)是著名電影數(shù)據(jù)集MovieLens-100數(shù)據(jù)集。MoviesLens數(shù)據(jù)集是實(shí)現(xiàn)和測(cè)試電影推薦最常用得數(shù)據(jù)集之一,包含943個(gè)用戶為精選得1682部電影給出的100,000個(gè)電影評(píng)分。主要文件為:u.data、u.item以及u.user。u.data主要包含用戶id、電影id、評(píng)分以及時(shí)間戳等數(shù)據(jù),是用戶數(shù)據(jù)以及電影數(shù)據(jù)交互產(chǎn)生關(guān)聯(lián)的一個(gè)數(shù)據(jù)表,里面有用戶對(duì)某部電影的評(píng)分。u.item包含電影id、電影標(biāo)題以及上映時(shí)間等,主要是電影的一些信息。u.user包含用戶id、年齡、性別、職業(yè)以及郵編,是針對(duì)用戶的一些信息。5.1協(xié)同過(guò)濾推薦算法5.1.4案例分析2-著名電影推薦1.將描述用戶的數(shù)據(jù)集、評(píng)分?jǐn)?shù)據(jù)集以及描述電影的數(shù)據(jù)集讀取并連接起來(lái);2.進(jìn)行獲取電影詳細(xì)信息的操作,根據(jù)電影id獲取電影的詳細(xì)信息;3.獲取目標(biāo)電影的屬性,計(jì)算出電影和該目標(biāo)電影的皮爾遜相似度,棄去缺失值,將相關(guān)數(shù)與評(píng)論數(shù)合并,篩選出對(duì)應(yīng)數(shù)量的高關(guān)聯(lián)性電影,輸出評(píng)分由高到低的電影推薦結(jié)果(數(shù)據(jù)來(lái)源于CSDN官方)。表

5-21電影推薦結(jié)果(按評(píng)分排序)5.2協(xié)同過(guò)濾算法常見的問(wèn)題以及對(duì)策5.2.1冷啟動(dòng)問(wèn)題及對(duì)策

冷啟動(dòng)問(wèn)題是指在沒(méi)有大量用戶數(shù)據(jù)的情況下設(shè)計(jì)個(gè)性化推薦系統(tǒng)并且讓用戶對(duì)推薦結(jié)果滿意從而愿意使用推薦系統(tǒng)。

冷啟動(dòng)問(wèn)題分為系統(tǒng)冷啟動(dòng)、用戶冷啟動(dòng)和項(xiàng)目冷啟動(dòng)。

系統(tǒng)冷啟動(dòng)問(wèn)題主要解決如何在一個(gè)新開發(fā)的網(wǎng)站上設(shè)計(jì)個(gè)性化推薦系統(tǒng),從而網(wǎng)站剛發(fā)布時(shí)就能讓用戶體驗(yàn)到個(gè)性化推薦服務(wù)。

用戶冷啟動(dòng)問(wèn)題主要解決的是在沒(méi)有新用戶的行為數(shù)據(jù)時(shí)如果為其提供個(gè)性化推薦服務(wù)。

項(xiàng)目冷啟動(dòng)問(wèn)題主要解決將新上架的項(xiàng)目推薦給可能對(duì)它感興趣的用戶。

5.2協(xié)同過(guò)濾算法常見的問(wèn)題以及對(duì)策5.2.1冷啟動(dòng)問(wèn)題及對(duì)策針對(duì)這三類冷啟動(dòng)問(wèn)題,有以下幾種解決方案:1)提供非個(gè)性化推薦,比如說(shuō)熱門排行榜,等用戶數(shù)據(jù)收集到一定的時(shí)候,切換為個(gè)性化推薦。2)利用用戶注冊(cè)信息,人口統(tǒng)計(jì)學(xué)信息;用戶興趣描述;從其他網(wǎng)站導(dǎo)入的用戶站外行為等。3)選擇合適的物品啟動(dòng)用戶的興趣,用戶登錄時(shí)對(duì)一些物品進(jìn)行反饋,收集用戶對(duì)這些物品的興趣信息,然后給用戶推薦和這些物品相似的物品,一般要具有以下特點(diǎn):比較熱門,(ii)具有代表性和區(qū)分性(不能是大眾化或老少皆宜的,興趣無(wú)可分性),(iii)啟動(dòng)物品集合需要有多樣性,在不知道用戶興趣的情況下,需要提供很高覆蓋率的啟動(dòng)物品集合,幾乎覆蓋所有主流的用戶興趣。4)利用物品的內(nèi)容信息,userCF算法需要解決第一推動(dòng)力的問(wèn)題,第一個(gè)用戶從哪里發(fā)現(xiàn)新物品??紤]利用物品的內(nèi)容信息,將新物品先投放給曾經(jīng)喜歡過(guò)和它內(nèi)容相似的其他物品的用戶。對(duì)于itemCF,只能利用物品的內(nèi)容信息計(jì)算物品的相關(guān)程度?;舅悸肪褪菍⑽锲忿D(zhuǎn)換為關(guān)鍵詞向量,通過(guò)計(jì)算向量之間的相似度(如余弦相似度),得到物品的相關(guān)程度。5)采用專家標(biāo)注,針對(duì)很多系統(tǒng)在建立的時(shí)候,既沒(méi)有用戶的行為數(shù)據(jù),也沒(méi)有充足的物品內(nèi)容信息來(lái)計(jì)算物品相似度,這時(shí)就需要利用專家標(biāo)注。6)利用用戶在其他地方已經(jīng)沉淀的數(shù)據(jù)進(jìn)行冷啟動(dòng),比如引導(dǎo)用戶通過(guò)社交網(wǎng)絡(luò)賬號(hào)登錄,一方面降低注冊(cè)成本提高轉(zhuǎn)化率,另一方面獲取用戶的社交網(wǎng)絡(luò)信息,解決冷啟動(dòng)問(wèn)題。7)利用用戶的手機(jī)等興趣偏好進(jìn)行冷啟動(dòng):Android手機(jī)開放度比較高,所以在安裝自己的app時(shí),就可以順路了解下手機(jī)上還安裝了什么其他的app。然后可以總結(jié)用戶的特點(diǎn)和類型。5.2協(xié)同過(guò)濾算法常見的問(wèn)題以及對(duì)策5.2.1冷啟動(dòng)問(wèn)題及對(duì)策5.2協(xié)同過(guò)濾算法常見的問(wèn)題以及對(duì)策5.2.2稀疏性問(wèn)題及對(duì)策

交易平臺(tái)上每天有大量的數(shù)據(jù)記錄,但通常情況下這些數(shù)據(jù)存在一定量的空缺值,用戶不可能對(duì)平臺(tái)上所有的項(xiàng)目都感興趣,更不可能對(duì)所有項(xiàng)目都進(jìn)行評(píng)分,所以平臺(tái)收集到的數(shù)據(jù)是稀疏的。例如,淘寶上有著數(shù)億的商品,而用戶會(huì)購(gòu)買的商品是有限的,購(gòu)買后再去評(píng)價(jià)的商品的也是少數(shù)。這些數(shù)據(jù)并不是無(wú)用數(shù)據(jù),只是信息不夠完整,需要進(jìn)一步處理才能使用。問(wèn)題產(chǎn)生原因以大型網(wǎng)站亞馬遜為例,用戶評(píng)價(jià)過(guò)的項(xiàng)目質(zhì)量相對(duì)網(wǎng)站中總項(xiàng)目數(shù)量可謂是冰山一角,這就導(dǎo)致了用戶項(xiàng)目評(píng)分矩陣的數(shù)據(jù)極端稀疏,在計(jì)算用戶或項(xiàng)目的最近鄰時(shí)準(zhǔn)確率就會(huì)比較低,從而使得推薦系統(tǒng)的推薦質(zhì)量下降。影響基于熵權(quán)法的灰色關(guān)聯(lián)預(yù)測(cè)法基于皮爾遜相似度的預(yù)測(cè)法對(duì)策5.2協(xié)同過(guò)濾算法常見的問(wèn)題以及對(duì)策5.2.2稀疏性問(wèn)題及對(duì)策1.灰色關(guān)聯(lián)預(yù)測(cè)法

灰色關(guān)聯(lián)分析是灰色關(guān)聯(lián)預(yù)測(cè)法的核心,其基本原理是依據(jù)數(shù)列曲線幾何形狀的相似程度判斷其聯(lián)系是否緊密。曲線越相似,對(duì)應(yīng)數(shù)列間的關(guān)聯(lián)度就越大,反之,關(guān)聯(lián)度越小?;疑P(guān)聯(lián)預(yù)測(cè)法對(duì)數(shù)據(jù)的要求較低,即使數(shù)據(jù)量較少且沒(méi)有規(guī)律,也一樣能進(jìn)行預(yù)測(cè),計(jì)算過(guò)程如下:將所有用戶Ui對(duì)項(xiàng)目A={A1,A2,A3,…,An}的評(píng)分rij表示為一個(gè)數(shù)列,其中i=1,2,3,…,m,j=1,2,3,…,n,則參考數(shù)列X0和比較數(shù)列Xi如(5-8)和(5-9)所示。(5-8)(5-9)由于存在量綱的影響,需要在計(jì)算灰色關(guān)聯(lián)系數(shù)之前,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,其計(jì)算公式如下:(5-10)(5-11)其中,Yij是由評(píng)分rij標(biāo)準(zhǔn)化后得到的數(shù)值,X0(i)表示第i個(gè)用戶對(duì)項(xiàng)目的評(píng)分均值。將標(biāo)準(zhǔn)值Yij表示為一個(gè)數(shù)列,則參考數(shù)列和比較數(shù)列如下:(5-12)(5-13)5.2協(xié)同過(guò)濾算法常見的問(wèn)題以及對(duì)策5.2.2稀疏性問(wèn)題及對(duì)策Y0(k)和Yi(k)都是所對(duì)應(yīng)數(shù)列的第k個(gè)元素的值,則參考和比較數(shù)列的灰色關(guān)聯(lián)系數(shù)表示為:(5-14)其中,和分別表示Y0(k)和Yi(k)差值的絕對(duì)最小值和絕對(duì)最大值,ρ∈(0,1),未評(píng)分的不予參與計(jì)算。灰色關(guān)聯(lián)度γi代表參考數(shù)列和比較數(shù)列之間關(guān)系的緊密程度,其公式如下:(5-15)在灰色關(guān)聯(lián)預(yù)測(cè)法中,評(píng)分矩陣為R=(rij)m×n,則用戶間所對(duì)應(yīng)的灰色關(guān)聯(lián)度τ為:τ=(γ1,γ2,…,

γm-1)

(5-16)根據(jù)目標(biāo)用戶Ut的近鄰用戶,預(yù)測(cè)用戶Ut對(duì)項(xiàng)目Aj的評(píng)分,計(jì)算公式如下所示:pred(Ut,Aj)

=X0(i)+γi×(rij-X0(i))(5-17)5.2協(xié)同過(guò)濾算法常見的問(wèn)題以及對(duì)策5.2.2稀疏性問(wèn)題及對(duì)策2.基于皮爾遜相似度的預(yù)測(cè)方法灰色關(guān)聯(lián)分析適用于探索非線性相關(guān)性,而皮爾遜相似度適用于處理線性關(guān)系數(shù)據(jù),可以反映出兩個(gè)變量之間的線性相關(guān)度。其計(jì)算公式如下:(5-26)其中,Iuv表示用戶u和用戶v都有評(píng)分記錄的項(xiàng)目集合,rui和rvi分別表示用戶u和用戶v對(duì)項(xiàng)目i的評(píng)分,和分別表示用戶u和用戶v的項(xiàng)目評(píng)分的均值,sim(u,v)∈[-1,1]。|sim(u,v)|的值越接近1,則u和v的相關(guān)性越強(qiáng)?;谄栠d相似度的預(yù)測(cè)方法則是在計(jì)算皮爾遜相似度后,采用基于用戶評(píng)分的加權(quán)平均值法為用戶預(yù)測(cè)未評(píng)分項(xiàng)目的分值,其公式如下:(5-27)5.3基于內(nèi)容的推薦算法

基于內(nèi)容的推薦算法核心思想起源于信息過(guò)濾和信息檢索領(lǐng)域,采用了大量信息過(guò)濾和信息檢索方面的技術(shù),不考慮用戶的行為信息,直接利用項(xiàng)目間的固有屬性數(shù)據(jù)產(chǎn)生推薦。

該算法首先是建立項(xiàng)目的特征模型以及用戶的興趣模型,然后采用某一種相似性計(jì)算方法,來(lái)計(jì)算用戶的興趣模型與每一個(gè)項(xiàng)目的特征模型之間的相似性,最后將相似性較高的項(xiàng)目推薦給目標(biāo)用戶。因此該算法的核心部分是項(xiàng)目的屬性表示和用戶興趣模型的建立,以及適用的相似性計(jì)算方法。

基于內(nèi)容的推薦算法一般只依賴于用戶及物品自身的內(nèi)容屬性和行為屬性,而不涉及其他用戶的行為,在冷啟動(dòng)的情況下(即新用戶或者新物品)依然可以做出推薦,具體流程如圖5-6所示。圖

5-6基于內(nèi)容的推薦算法5.3基于內(nèi)容的推薦算法基于內(nèi)容推薦的優(yōu)勢(shì):1)用戶之間不相互依賴,每個(gè)用戶的特征只依賴其本身對(duì)物品的喜歡,與他人的行為無(wú)關(guān)。2)便于解釋在某些場(chǎng)景中,能夠告訴用戶被推薦物品具有某種屬性,而這些屬性經(jīng)常在用戶喜歡的物品中出現(xiàn),從而對(duì)推薦結(jié)果進(jìn)行解釋。3)不受新用戶或新物品的約束,當(dāng)一個(gè)新用戶進(jìn)入推薦系統(tǒng)時(shí),可以基于用戶的個(gè)人屬性信息,來(lái)進(jìn)行內(nèi)容的推薦,而不受冷啟動(dòng)的影響?;趦?nèi)容推薦的局限:1)特征抽取比較困難,如果物品描述是非結(jié)構(gòu)化的,難以準(zhǔn)確且全面地抽取物品特征。2)難以挖掘出用戶潛在的其他興趣,缺乏多樣性,基于內(nèi)容推薦僅依賴于用戶的個(gè)人屬性及歷史偏好,因此產(chǎn)生的推薦結(jié)果會(huì)與用戶歷史交互過(guò)的物品具有非常高的相似性,從而使推薦缺乏多樣性和新鮮感。由于不同的數(shù)據(jù)有不同的格式,所以推薦系統(tǒng)中的內(nèi)容主要包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。針對(duì)不同的數(shù)據(jù),有不同的推薦算法。5.3.1基于結(jié)構(gòu)化內(nèi)容的推薦5.3基于內(nèi)容的推薦算法基于結(jié)構(gòu)化內(nèi)容的推薦包括:基于內(nèi)容的推薦算法、最近鄰分類算法和基于線性分類的內(nèi)容推薦算法。1.基于內(nèi)容的推薦算法基于內(nèi)容的推薦算法只關(guān)注結(jié)構(gòu)化數(shù)據(jù)。在基于內(nèi)容的推薦算法中,最重要的步驟就是抽取物品和用戶的特征,通過(guò)計(jì)算物品特征向量和用戶偏好向量之間的相似度進(jìn)行推薦,如圖5-7所示。圖

5-7基本的基于內(nèi)容的推薦算法2.最近鄰分類算法

K近鄰(K-NearestNeighbor,KNN)是一種非常有效且易掌握的算法,目前廣泛應(yīng)用于推薦系統(tǒng)中。KNN算法是監(jiān)督學(xué)習(xí),有分類的輸出。KNN算法基本沒(méi)有訓(xùn)練過(guò)程,其原理是根據(jù)測(cè)試集的結(jié)果選擇距離訓(xùn)練集前K個(gè)最近的值,簡(jiǎn)單來(lái)說(shuō),根據(jù)K個(gè)最近鄰的狀態(tài)來(lái)決定樣本的狀態(tài),即“物以類聚,人以群分”。K近鄰算法使用的模型實(shí)際上對(duì)應(yīng)于對(duì)特征空間的劃分。5.3.1基于結(jié)構(gòu)化內(nèi)容的推薦5.3基于內(nèi)容的推薦算法2.最近鄰分類算法K值的選擇,距離度量和分類決策規(guī)則是該算法的三個(gè)基本要素:1)K值的選擇會(huì)對(duì)算法的結(jié)果產(chǎn)生重大影響。K值較小意味著只有與輸入實(shí)例較近的訓(xùn)練實(shí)例才會(huì)對(duì)預(yù)測(cè)結(jié)果起作用,但容易發(fā)生過(guò)擬合;K值較大,優(yōu)點(diǎn)是可以減少學(xué)習(xí)的估計(jì)誤差,但缺點(diǎn)是學(xué)習(xí)的近似誤差增大,這時(shí)與輸入實(shí)例較遠(yuǎn)的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用,使預(yù)測(cè)發(fā)生錯(cuò)誤。在實(shí)際應(yīng)用中,K值一般選擇一個(gè)較小的數(shù)值,通常采用交叉驗(yàn)證的方法來(lái)選擇最優(yōu)的K值。隨著訓(xùn)練實(shí)例數(shù)目趨向于無(wú)窮和K=1時(shí),誤差率不會(huì)超過(guò)貝葉斯誤差率的2倍,如果K也趨向于無(wú)窮,則誤差率趨向于貝葉斯誤差率。2)該算法中的分類決策規(guī)則往往是多數(shù)表決,即由輸入實(shí)例的K個(gè)最臨近的訓(xùn)練實(shí)例中的多數(shù)類決定輸入實(shí)例的類別。3)距離度量一般采用Lp距離,當(dāng)p=2時(shí),即為歐氏距離,在度量之前,應(yīng)該將每個(gè)屬性的值規(guī)范化,這樣有助于防止具有較大初始值域的屬性比具有較小初始值域的屬性的權(quán)重過(guò)大。實(shí)現(xiàn)K近鄰算法時(shí),主要考慮的問(wèn)題是如何對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行快速K近鄰搜索,這在特征空間維數(shù)大及訓(xùn)練數(shù)據(jù)容量大時(shí)非常必要。ccc5.3.1基于結(jié)構(gòu)化內(nèi)容的推薦5.3基于內(nèi)容的推薦算法3.基于線性分類的內(nèi)容推薦算法機(jī)器學(xué)習(xí)中經(jīng)典的線性分類器可以很好地對(duì)推薦算法進(jìn)行分類。如圖5-8所示,假設(shè)輸入的電影的特征為,其中fi表示電影的第i個(gè)特征分量,輸出的結(jié)果Y表示用戶是否喜歡該電影。線性模型的目標(biāo)就是嘗試在特征空間F中找到一個(gè)平面Y=W·F+b,希望將用戶喜歡和不喜歡的電影分開。圖

5-8線性分類圖5.3.2基于非結(jié)構(gòu)化內(nèi)容的推薦5.3基于內(nèi)容的推薦算法

非結(jié)構(gòu)化是指數(shù)據(jù)結(jié)構(gòu)不清晰甚至沒(méi)有預(yù)先定義的數(shù)據(jù),包括文本,圖片,音頻和視頻等,這些數(shù)據(jù)難以用數(shù)據(jù)庫(kù)中的表結(jié)構(gòu)來(lái)表示。

相較于結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)具有的不規(guī)則性和模糊性,令計(jì)算機(jī)難以理解。

雖然非結(jié)構(gòu)化數(shù)據(jù)具有結(jié)構(gòu)復(fù)雜、不標(biāo)準(zhǔn)和處理門檻高等缺點(diǎn),但較高的數(shù)據(jù)存量和豐富的內(nèi)涵信息決定了非結(jié)構(gòu)化數(shù)據(jù)是待被推薦系統(tǒng)發(fā)掘的寶藏。各類非結(jié)構(gòu)化數(shù)據(jù)都有其獨(dú)特的表征方式,但處理思路是彼此相通的。

基于非結(jié)構(gòu)化內(nèi)容的推薦有以下幾種形式:1.文本表示常見的文本表示技術(shù)路線有兩類,一種為經(jīng)典機(jī)器學(xué)習(xí)中的離散式表示,另一種為深度學(xué)習(xí)中的分布式表示。分布式表示的思路是通過(guò)機(jī)器學(xué)習(xí)建立一個(gè)從單詞到低維連續(xù)向量空間的映射,使得語(yǔ)義相似的單詞在向量空間中被映射到較為接近的區(qū)域,而語(yǔ)義無(wú)關(guān)的單詞則被映射到較遠(yuǎn)的區(qū)域。2.非文本表示(1)圖像表示在深度學(xué)習(xí)興起之前,圖像的特征提取通常依賴于手工的特征提取。一類是通用特征,包括像素級(jí)別特征(像素的顏色和位置)、局部特征(圖像上部分區(qū)域特征的匯總)和全局特征(圖像全部特征的匯總);另一類是領(lǐng)域相關(guān)特征,這些特征與應(yīng)用類型強(qiáng)相關(guān),如人臉和指紋等??梢詫⒂脩艚换ミ^(guò)的條目的圖像特征看作是用戶興趣的表示,然后訓(xùn)練一個(gè)分類器來(lái)區(qū)分用戶喜歡的條目或者不喜歡的條目。5.3.2基于非結(jié)構(gòu)化內(nèi)容的推薦5.3基于內(nèi)容的推薦算法(2)視頻表示視頻的表示通過(guò)視頻的標(biāo)題、描述等長(zhǎng)文本和標(biāo)簽等稀疏文本屬性等進(jìn)行。而在深度學(xué)習(xí)興起之前,標(biāo)簽是視頻推薦任務(wù)的核心,YouTube的User-Video圖游歷算法是解決視頻標(biāo)簽推薦一個(gè)優(yōu)秀案例。User-Video算法的核心為共同觀看關(guān)系(有點(diǎn)協(xié)同過(guò)濾的雛形),首先構(gòu)建用戶-視頻二部圖,然后基于同時(shí)觀看過(guò)兩個(gè)視頻的用戶數(shù)目等規(guī)則生成視頻之間的連邊,最后在生成的視頻關(guān)系圖上進(jìn)行標(biāo)簽吸附。在標(biāo)簽吸附過(guò)程中,各節(jié)點(diǎn)首先根據(jù)鄰居傳遞的標(biāo)簽計(jì)算自己的新標(biāo)簽,然后將新標(biāo)簽傳播回鄰居,在此過(guò)程中,標(biāo)簽逐漸擴(kuò)散并最終收斂,在所有與任意原始節(jié)點(diǎn)有通路的節(jié)點(diǎn)上形成穩(wěn)定平滑的分布。(3)音頻表示音頻的表示同樣有兩種:借助關(guān)聯(lián)文本進(jìn)行表示和針對(duì)音頻本身進(jìn)行表示。以音樂(lè)表征為例,音樂(lè)的元數(shù)據(jù)可以分為三類:Editorialmetadata(由音樂(lè)發(fā)布者聲稱對(duì)該音樂(lè)的一些標(biāo)簽)、Culturalmetadata(歌曲的消費(fèi)規(guī)律、共現(xiàn)關(guān)系等)和acousticmetadata(對(duì)音頻信號(hào)的分析,例如beat、tempo、pitch、mood等)。

前兩種元數(shù)據(jù)分別以標(biāo)簽、長(zhǎng)文本的形式呈現(xiàn),可用樸素貝葉斯分類器、支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行計(jì)算;而音頻信號(hào)則可以用哼唱檢索進(jìn)行處理,該技術(shù)從音頻信號(hào)中提取信息,與數(shù)據(jù)庫(kù)對(duì)比,然后按相似度進(jìn)行排序和檢索。5.4基于模型的推薦算法基于模型的推薦算法是通過(guò)訓(xùn)練數(shù)學(xué)模型來(lái)預(yù)測(cè)用戶對(duì)未交互的項(xiàng)目評(píng)分情況,通常包括概率矩陣分解(ProbabilisticMatrixFactorization,PMF)。PMF大體思路是先對(duì)用戶與項(xiàng)目的歷史交互數(shù)據(jù)記錄建立適當(dāng)?shù)哪P停缓螽a(chǎn)生符合用戶需求的推薦列表,其中應(yīng)用較為廣泛的是基于矩陣分解的推薦。

矩陣分解是協(xié)同過(guò)濾算法中一種十分有效的方法,它應(yīng)用不同的數(shù)學(xué)或機(jī)器學(xué)習(xí)方法從用戶—物品的打分矩陣中分解出潛在特征來(lái)解釋并預(yù)測(cè)打分,其中包括概率潛在語(yǔ)義分析和潛在狄利克雷分布等。具有較好的可解釋性和評(píng)分預(yù)測(cè)準(zhǔn)確性。但是PMF沒(méi)有將隱式反饋信息考慮進(jìn)來(lái),只考慮到了顯示反饋信息。矩陣分解:u是第i個(gè)用戶的興趣向量,v是第j個(gè)電影的參數(shù)向量。(5-28)(5-29)可以用u和v的點(diǎn)積來(lái)估算x(第i個(gè)用戶對(duì)第j個(gè)電影的評(píng)分)。我們用已知的分?jǐn)?shù)構(gòu)建這些向量,并使用它們來(lái)預(yù)測(cè)未知的得分。例如,在矩陣分解之后,Ted的向量是(1.4;0.9),電影A的向量是(1.4;0.8),現(xiàn)在,我們可以通過(guò)計(jì)算(1.4;0.9)和(1.4;0.8)的點(diǎn)積,來(lái)還原電影A-Ted的得分。結(jié)果,我們得到2.68分,如圖5-9所示。圖

5-9基于模型的推薦算法結(jié)果5.5基于關(guān)聯(lián)規(guī)則的推薦算法由于傳統(tǒng)推薦算法中未能考慮到物品與物品之間的深層關(guān)系,IBM公司于1993年首次提出了關(guān)聯(lián)規(guī)則模型后,Manchanda等人緊接著于1999年在實(shí)際的商業(yè)交易數(shù)據(jù)應(yīng)用中指出,消費(fèi)者在多選項(xiàng)場(chǎng)景下,一個(gè)共同主線上所供選擇的項(xiàng)目之間可能以某種特殊的關(guān)系進(jìn)行關(guān)聯(lián),即用戶會(huì)在不同情況下做出不同選擇。因此在實(shí)際應(yīng)用中,研究人員將關(guān)聯(lián)規(guī)則技術(shù)運(yùn)用到推薦算法中來(lái)提高推薦性能,從而彌補(bǔ)傳統(tǒng)推薦算法的不足。背景

基于關(guān)聯(lián)規(guī)則的推薦是利用數(shù)據(jù)挖掘領(lǐng)域的關(guān)聯(lián)規(guī)則從大量數(shù)據(jù)集中發(fā)現(xiàn)不同項(xiàng)集之間的相關(guān)聯(lián)性,進(jìn)而根據(jù)用戶已購(gòu)買或評(píng)價(jià)過(guò)的項(xiàng)目為其產(chǎn)生推薦的過(guò)程。

最典型的關(guān)聯(lián)規(guī)則效應(yīng)就是應(yīng)用在電子商務(wù)領(lǐng)域中的購(gòu)物籃效應(yīng),通過(guò)研究分析哪些是被用戶頻繁購(gòu)買的商品,發(fā)現(xiàn)商品之間的關(guān)系,然后利用商品之間的這種關(guān)聯(lián)關(guān)系為其他用戶產(chǎn)生推薦。

關(guān)聯(lián)規(guī)則是一種使用較為廣泛的模式識(shí)別方法,例如購(gòu)物分析、網(wǎng)絡(luò)分析等,其中購(gòu)物分析典型的應(yīng)用場(chǎng)景就是在商場(chǎng)中找出共同購(gòu)買的集合。

該方法用于表述數(shù)據(jù)內(nèi)隱含的關(guān)聯(lián)性,一般用三個(gè)指標(biāo)來(lái)衡量關(guān)聯(lián)規(guī)則,分別是置信度、支持度和提升度。置信度表示A、B同時(shí)出現(xiàn)的概率;支持度表示規(guī)則中兩者同時(shí)出現(xiàn)的概率,無(wú)先后順序之分;提升度描述了關(guān)聯(lián)規(guī)則中A與B的相關(guān)性。概念5.6信息隱私與基于隱私保護(hù)的方案推薦方法5.6.1信息隱私大數(shù)據(jù)時(shí)代,通過(guò)對(duì)簡(jiǎn)單數(shù)據(jù)進(jìn)行分析,實(shí)施復(fù)合運(yùn)算就能夠有意或者無(wú)意對(duì)用戶的隱私進(jìn)行披露。由此,大數(shù)據(jù)時(shí)代,信息隱私將面臨前所未有的挑戰(zhàn)。(1)運(yùn)用復(fù)雜運(yùn)算法則進(jìn)行數(shù)據(jù)挖掘侵害信息隱私隨著大數(shù)據(jù)技術(shù)的發(fā)展,大量的個(gè)人私人信息如出行記錄、健康信息、購(gòu)物記錄等通過(guò)數(shù)據(jù)挖掘技術(shù)而被廣泛收集和分析,進(jìn)而能獲悉用戶更多隱私信息。例如,為了實(shí)現(xiàn)精準(zhǔn)營(yíng)銷,追求更大的商業(yè)利益,商家利用大數(shù)據(jù)挖掘出消費(fèi)者的數(shù)據(jù)足跡,包括瀏覽記錄、購(gòu)物記錄等內(nèi)容。通過(guò)分析用戶搜索、瀏覽和購(gòu)買等行為產(chǎn)生的數(shù)據(jù),就能知曉用戶購(gòu)物偏好,以此高效、精準(zhǔn)地向用戶投遞經(jīng)過(guò)篩選的廣告。用戶數(shù)據(jù)在不知情的情況下被第三方收集和使用,這直接對(duì)用戶隱私帶來(lái)極大挑戰(zhàn)。(2)大數(shù)據(jù)預(yù)測(cè)侵害信息隱私,表現(xiàn)為利用大數(shù)據(jù)來(lái)預(yù)測(cè)個(gè)人隱私信息例如,美國(guó)塔吉特公司通過(guò)女性顧客的購(gòu)物數(shù)據(jù)來(lái)預(yù)測(cè)客戶是否懷孕,并成功獲取到一名在校女生的妊娠隱私,這比她的家人知悉這一隱私還要早一個(gè)月。(3)大數(shù)據(jù)監(jiān)控侵害信息隱私如今人們?nèi)旌蛏钤凇皵?shù)據(jù)監(jiān)控”之中,公共空間與私人空間的界限愈加模糊,人們的隱私也更容易受到侵害。例如,央視2021年“315”晚會(huì)曝光的“人臉識(shí)別漏洞”的案例中,多家企業(yè)在消費(fèi)者不知情的情況下,通過(guò)安裝的人臉識(shí)別攝像頭大量采集客戶的人臉等數(shù)據(jù),并對(duì)采集到的數(shù)據(jù)進(jìn)行分析,已侵害到消費(fèi)者隱私安全。這種人臉識(shí)別攝像頭已經(jīng)遍及各大商場(chǎng)超市,在“監(jiān)控”的掩飾下,肆意侵害消費(fèi)者隱私安全,導(dǎo)致個(gè)人信息泄露防不勝防。5.6信息隱私與基于隱私保護(hù)的方案推薦方法5.6.2基于隱私保護(hù)的方案推薦方法1.個(gè)性化推薦及隱私保護(hù)個(gè)性化推薦個(gè)性化推薦系統(tǒng)可以根據(jù)用戶的線上歷史信息挖掘用戶興趣偏好,根據(jù)興趣特征推薦給用戶真正感興趣的信息內(nèi)容,并且去除用戶不感興趣的信息內(nèi)容,使得用戶即使在不能準(zhǔn)確定位自身需求的情況下,依然能獲取感興趣的信息。個(gè)性化推薦系統(tǒng)是被廣泛應(yīng)用在電子商務(wù)等領(lǐng)域。例如,網(wǎng)易云音樂(lè)收集用戶的聽歌記錄并挖掘用戶興趣,通過(guò)“每日歌曲推薦”欄目向用戶推薦感興趣的歌單;抖音是通過(guò)小視頻瀏覽記錄分析挖掘用戶的潛在興趣點(diǎn),并為用戶推薦其更為感興趣視頻集。隱私保護(hù)大數(shù)據(jù)時(shí)代下,數(shù)據(jù)蘊(yùn)含著巨大的商業(yè)價(jià)值。很多公司專門開設(shè)免費(fèi)用戶體驗(yàn)服務(wù),收集用戶網(wǎng)絡(luò)信息和個(gè)人信息,或者使用爬蟲技術(shù)在網(wǎng)上肆意收集并過(guò)濾有效信;有些組織專門竊取數(shù)據(jù)信息并建立數(shù)據(jù)庫(kù)進(jìn)行售賣;很多境外惡勢(shì)力通過(guò)網(wǎng)絡(luò)手段收集各個(gè)國(guó)家公民的個(gè)人信息,然后打包售賣給詐騙團(tuán)伙。例如,20世紀(jì)末,馬薩諸塞州曾通過(guò)匿名技術(shù)公開了一段醫(yī)療數(shù)據(jù),內(nèi)容只包含病人的病情信息,不涉及名字等身份信息。但是Sweeney利用政府發(fā)布涉及這些病人信息的數(shù)據(jù)集,通過(guò)差分攻擊手段破解了這份醫(yī)療數(shù)據(jù),獲取到病人的身份信息以及病歷信息。

在大數(shù)據(jù)時(shí)代下,如果大量用戶開始質(zhì)疑企業(yè)對(duì)信息保護(hù)的能力,那么該企業(yè)的產(chǎn)品難以得到認(rèn)同,企業(yè)也將難以經(jīng)營(yíng)。因此,保護(hù)用戶隱私安全勢(shì)在必行。5.6信息隱私與基于隱私保護(hù)的方案推薦方法5.6.2基于隱私保護(hù)的方案推薦方法2.基于差分隱私保護(hù)的推薦方案

差分隱私最早是由Dwork提出,是一種對(duì)數(shù)據(jù)添加噪音的隱私保護(hù)方法。它的使用建立在嚴(yán)格數(shù)學(xué)理論推導(dǎo)的基礎(chǔ)上,只要算法步驟滿足差分隱私要求,無(wú)論攻擊者擁有多少背景知識(shí)都無(wú)法獲取原始數(shù)據(jù)。

目前差分隱私主要應(yīng)用于數(shù)據(jù)發(fā)布領(lǐng)域、推薦系統(tǒng)領(lǐng)域和位置隱私領(lǐng)域。概念背景隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)信息越來(lái)越具有商業(yè)價(jià)值,一些國(guó)內(nèi)組織或者境外勢(shì)力從事數(shù)據(jù)經(jīng)營(yíng)生意。有些企業(yè)通過(guò)提供線上免費(fèi)提供服務(wù)來(lái)收集用戶信息并進(jìn)行販賣,甚至有些企業(yè)直接將用戶數(shù)據(jù)打包和其他企業(yè)進(jìn)行利益交換。目前政府已經(jīng)意識(shí)到用戶隱私安全保護(hù)的重要性,也陸續(xù)出臺(tái)并實(shí)施了相關(guān)政策。但是違法分子依然可以通過(guò)“合法手段”來(lái)竊取用戶隱私,如通過(guò)鏈?zhǔn)焦羝平饽涿麛?shù)據(jù),通過(guò)差分攻擊獲取推薦系統(tǒng)后臺(tái)數(shù)據(jù)。

差分隱私的出現(xiàn)有效改善了隱私泄漏的情況。步驟1)根據(jù)用戶興趣偏好,采用K-Means++將用戶劃分成不同類簇,并找到目標(biāo)類簇;2)調(diào)節(jié)K值,選取適合的目標(biāo)類簇尺寸;3)計(jì)算目標(biāo)類簇的用戶相似度時(shí),考慮評(píng)分差異和興趣傾向;4)采用差分隱私的指數(shù)機(jī)制為目標(biāo)用戶選取近鄰集合;5)根據(jù)近鄰集合,預(yù)測(cè)目標(biāo)用戶未評(píng)分方案的分值,并采用top-m算法為其推薦適合的方案。5.6信息隱私與基于隱私保護(hù)的方案推薦方法5.6.2基于隱私保護(hù)的方案推薦方法2.基于差分隱私保護(hù)的推薦方案圖

5-10基于差分隱私的個(gè)性化推薦5.6信息隱私與基于隱私保護(hù)的方案推薦方法5.6.2基于隱私保護(hù)的方案推薦方法2.基于差分隱私保護(hù)的推薦方案基于差分隱私的推薦方案主要圍繞用戶興趣和隱私保護(hù)兩個(gè)部分進(jìn)行研究,具體內(nèi)容如下:(1)考慮用戶興趣分析。主要體現(xiàn)在兩個(gè)方面:

一是用戶-方案屬性評(píng)分?jǐn)?shù)據(jù)是用戶根據(jù)自身興趣偏好對(duì)方案屬性的評(píng)分,K-Means++則根據(jù)用戶偏好將用戶劃分為不同的類簇,同類簇中用戶之間興趣相似,不同類簇用戶之間興趣相異;

二是在計(jì)算用戶相似度時(shí),融入興趣傾向因子,用戶之間興趣偏好越接近,興趣傾向因子數(shù)值越大,反之,越小,從而促使具有相似興趣的用戶之間相似度越大,具有不同興趣的用戶之間相似度越小。(2)保護(hù)用戶隱私安全。假設(shè)攻擊者已經(jīng)擁有除了目標(biāo)信息外所有的數(shù)據(jù)信息,就可以注冊(cè)新用戶并輸入已有的目標(biāo)用戶信息從而“仿造”目標(biāo)用戶,利用協(xié)同過(guò)濾算法的漏洞獲取目標(biāo)信息,這就是差分攻擊。

而差分隱私的指數(shù)機(jī)制可以隨機(jī)選擇近鄰集合,使得攻擊者獲取到的數(shù)據(jù)帶有一定量的噪音,從而保護(hù)用戶隱私。5.7信息污染與信任推薦算法5.7.1信息污染信息資源共享意味著原本獨(dú)享的信息資源成為公共產(chǎn)品,任何信息行為主體都可以享用,信息資源的所有者由此將失去資源的“壟斷”特權(quán),某些所有者因此可能會(huì)對(duì)網(wǎng)絡(luò)信息進(jìn)行處理,使原有的網(wǎng)絡(luò)信息資源會(huì)出現(xiàn)不同程度的“污染”。

一般認(rèn)為信息污染是指在信息活動(dòng)中,混入有害性、誤導(dǎo)性和無(wú)用的信息元素,它是對(duì)信息生態(tài)系統(tǒng)產(chǎn)生的負(fù)效應(yīng)。它主要表現(xiàn)在三個(gè)方面。(1)虛假信息。信息在生產(chǎn)和傳播過(guò)程中由于多種因素導(dǎo)致其內(nèi)容失去“原貌”,缺少可信度,由此導(dǎo)致信息內(nèi)容的虛假化。(2)信息超載。大量信息被網(wǎng)站重復(fù)轉(zhuǎn)載、大量復(fù)制和傳播,致使信息本身的價(jià)值屬性逐漸流失,產(chǎn)生大量信息廢棄物,擠占大量網(wǎng)絡(luò)存儲(chǔ)空間,造成信息通道梗塞,出現(xiàn)信息超載。(3)信息騷擾。信息騷擾主要是指一些沒(méi)有價(jià)值的、無(wú)用的信息傳播給用戶,對(duì)網(wǎng)絡(luò)信息活動(dòng)正常秩序構(gòu)成干擾,不利于用戶更好地體驗(yàn)信息資源。例如,大數(shù)據(jù)技術(shù)的發(fā)展,用戶時(shí)常受到垃圾郵件、“短信炸彈”的信息騷擾。一些保險(xiǎn)公司在做宣傳營(yíng)銷時(shí),不間斷隨機(jī)推送營(yíng)銷短信和電子郵件,對(duì)于沒(méi)有購(gòu)買保險(xiǎn)、需求的用戶來(lái)說(shuō),接受這種推送已經(jīng)構(gòu)成信息騷擾。5.7信息污染與信任推薦算法5.7.2信任推薦算法1.信任推薦原理在龐大的社交網(wǎng)絡(luò)中,包含著大量的現(xiàn)實(shí)世界真實(shí)的用戶關(guān)系和屬性信息,以及在虛擬網(wǎng)絡(luò)中根據(jù)興趣等彼此交互產(chǎn)生的信任關(guān)系等信息,這些都可以作為推薦系統(tǒng)的重要輔助要素。

同時(shí),在社交網(wǎng)絡(luò)中建立完善的信任關(guān)系體系有利于抵御常見的惡意攻擊和行為,如共謀攻擊和惡評(píng)攻擊等。

因此,工業(yè)界的主流在線社交網(wǎng)站都將一部分研究重心放在如何實(shí)現(xiàn)社交網(wǎng)絡(luò)和推薦系統(tǒng)的有機(jī)結(jié)合。同時(shí),將社交網(wǎng)絡(luò)中產(chǎn)生的信任關(guān)系作為附加信息引入到推薦系統(tǒng)中,已經(jīng)被學(xué)術(shù)界證實(shí)能夠有效地緩解傳統(tǒng)推薦系統(tǒng)中存在的一系列問(wèn)題,以此提升模型的準(zhǔn)確性和可擴(kuò)展性。傳統(tǒng)的社交網(wǎng)絡(luò)信任模型主要包括直接信任評(píng)估和間接信任推理,它們與社會(huì)化推薦系統(tǒng)的關(guān)系如圖5-11所示。圖

5-11社會(huì)化推薦系統(tǒng)(1)直接信任評(píng)估根據(jù)兩用戶之間的直接交互信息(常見的如點(diǎn)贊、轉(zhuǎn)發(fā)和收藏等)及屬性信息(共同屬性等)計(jì)算得出的信任評(píng)分或評(píng)級(jí)。(2)間接信任推理對(duì)于沒(méi)有直接交互信息的兩個(gè)用戶,根據(jù)社交網(wǎng)絡(luò)拓?fù)浜托湃温窂叫畔⒂?jì)算得出的未知信任評(píng)分或評(píng)級(jí)。5.7信息污染與信任推薦算法5.7.2信任推薦算法2.信任推薦發(fā)展現(xiàn)狀由于缺乏對(duì)評(píng)分域和社會(huì)域的深入挖掘和有效利用,以往的研究通常面臨一些關(guān)鍵的問(wèn)題和挑戰(zhàn):(1)信任預(yù)測(cè)和評(píng)估的準(zhǔn)確性問(wèn)題:在社交網(wǎng)絡(luò)中,用戶間存在大量的直接關(guān)系和間接關(guān)系,在信任傳播和聚合過(guò)程中存在很多分歧和不一致。(2)數(shù)據(jù)稀疏性問(wèn)題:一方面,大數(shù)據(jù)環(huán)境下,用戶對(duì)商品等的評(píng)分存在稀疏性的問(wèn)題,即單一用戶只能評(píng)估少量的商品。另一方面,直接信任關(guān)系也存在數(shù)據(jù)稀疏的問(wèn)題,即在社交網(wǎng)絡(luò)中用戶與用戶之間直接交互行為太少的問(wèn)題。(3)大數(shù)據(jù)環(huán)境下的用戶及其設(shè)備都面臨可靠性不足和資源約束等問(wèn)題。例如在開放的移動(dòng)網(wǎng)絡(luò)環(huán)境下,隨著信息和數(shù)據(jù)的爆炸式增長(zhǎng),用戶數(shù)量與商品和服務(wù)的數(shù)量飛漲,隨著用戶-項(xiàng)目評(píng)分矩陣規(guī)模的擴(kuò)大,傳統(tǒng)推薦系統(tǒng)的效率將會(huì)大大降低。(4)推薦系統(tǒng)與信任預(yù)測(cè)模型結(jié)合問(wèn)題:傳統(tǒng)的推薦系統(tǒng)只采用單一的“用戶-項(xiàng)目”的評(píng)分矩陣產(chǎn)生推薦,并不一定能夠產(chǎn)生讓用戶滿意的結(jié)果,雖然社交網(wǎng)絡(luò)中的信任關(guān)系能有效解決這一問(wèn)題,但如何將社交網(wǎng)絡(luò)中的信任信息與傳統(tǒng)的評(píng)分?jǐn)?shù)據(jù)相結(jié)合成為一大焦點(diǎn)難題。

在國(guó)內(nèi)外,有大量關(guān)于信任預(yù)測(cè)的研究,可大致分為四類:基于圖論的模型、基于機(jī)器學(xué)習(xí)的模型、基于矩陣分解的模型和基于主觀邏輯的模型。

5.8信息繭房1.大數(shù)據(jù)背景下的“信息繭房”“信息繭房”是美國(guó)學(xué)者桑斯坦對(duì)現(xiàn)代互聯(lián)網(wǎng)環(huán)境的描述,指的是個(gè)人或群體被包含在一個(gè)信息壁壘之內(nèi),進(jìn)而自主或不自主地把所進(jìn)行的信息選擇行為固定在對(duì)前述特定種類信息的選擇之內(nèi),進(jìn)而在思想和情感方面產(chǎn)生對(duì)這一類信息的親近和對(duì)其他類型信息的排斥,久而久之,人們?cè)谛畔⑦x擇上愈發(fā)局限。在發(fā)達(dá)的網(wǎng)絡(luò)環(huán)境中,桑斯坦認(rèn)為,公眾更傾向于選擇自己原本就感興趣的東西,并更愿意與自己志趣相投的人交流,所以人們的行為活動(dòng)會(huì)局限在各自的小團(tuán)體甚至個(gè)人建造的“孤島”中。

在數(shù)字化時(shí)代下,大數(shù)據(jù)作為其產(chǎn)物,體量巨大、類型繁多,各行各業(yè)的數(shù)據(jù)量正呈幾何式增加,海量數(shù)據(jù)包含了無(wú)數(shù)的商業(yè)秘密。于是,移動(dòng)資訊類平臺(tái)利用大數(shù)據(jù)開創(chuàng)了一種新的傳播模式——基于用戶興趣的個(gè)性化新聞服務(wù)。個(gè)性化新聞推薦服務(wù)通過(guò)收集用戶的獨(dú)特偏好向其推薦可能勾起其興趣的內(nèi)容。在這樣的背景下,人們往往只關(guān)注興趣基礎(chǔ)范圍內(nèi)的信息,導(dǎo)致人們認(rèn)知領(lǐng)域逐漸縮小,并且與外界的互動(dòng)越來(lái)越少,進(jìn)而逐漸陷入自我封閉的狀態(tài),“繭房”效應(yīng)不斷增強(qiáng)。5.8信息繭房2.“信息繭房”的形成原因(1)個(gè)性化信息服務(wù)的負(fù)效應(yīng)數(shù)據(jù)挖掘分析用戶的閱讀喜好并預(yù)測(cè)用戶將來(lái)可能關(guān)注的內(nèi)容,給每一個(gè)用戶提供有差別、有針對(duì)性的內(nèi)容。但它也是一把雙刃劍,這種隱形的個(gè)性化服務(wù)方式讓用戶在不知不覺(jué)中只能接受特定的內(nèi)容,并且自己很難意識(shí)到這個(gè)問(wèn)題。

除了直接獲取系統(tǒng)推薦的內(nèi)容外,用戶還能通過(guò)主動(dòng)訂閱獲得自己需要的信息。各大新聞?lì)惥W(wǎng)站、客戶端都提供了“訂閱”或“關(guān)注”功能,用戶可以選擇自己感興趣的內(nèi)容進(jìn)行免費(fèi)或付費(fèi)訂閱。用戶偏向于瀏覽自己關(guān)注的內(nèi)容,但這些內(nèi)容的覆蓋面比較小,視線長(zhǎng)期固定會(huì)造成個(gè)人的信息環(huán)境越來(lái)越封閉,最后因?qū)ζ渌I(lǐng)域疏于關(guān)注而脫離外部世界。(2)受眾的選擇性心理選擇性心理是指受眾在選擇媒介信息時(shí)所表現(xiàn)出來(lái)的思維方式,具有主觀能動(dòng)的特質(zhì)。人們希望自己能及時(shí)了解外界事物的變動(dòng),這種求知欲望讓他們更為主動(dòng)地使用各種媒介獲取信息。但這種搜索并非漫無(wú)目的,他們?cè)诤A啃畔⒅兄饕x擇自己最感興趣的,涉獵的領(lǐng)域逐漸固定,并呈現(xiàn)出不斷縮小的態(tài)勢(shì)。(3)新聞資訊類平臺(tái)之間的利益角逐為了實(shí)現(xiàn)傳播效果,以個(gè)性化推薦為特色的新聞客戶端應(yīng)運(yùn)而生。今日頭條在2018年3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論