![07embedding進階如何利用圖結(jié)構(gòu)數(shù)據(jù)生成graphembedding_第1頁](http://file4.renrendoc.com/view/546421330761c63660f6bf5feef4185b/546421330761c63660f6bf5feef4185b1.gif)
![07embedding進階如何利用圖結(jié)構(gòu)數(shù)據(jù)生成graphembedding_第2頁](http://file4.renrendoc.com/view/546421330761c63660f6bf5feef4185b/546421330761c63660f6bf5feef4185b2.gif)
![07embedding進階如何利用圖結(jié)構(gòu)數(shù)據(jù)生成graphembedding_第3頁](http://file4.renrendoc.com/view/546421330761c63660f6bf5feef4185b/546421330761c63660f6bf5feef4185b3.gif)
![07embedding進階如何利用圖結(jié)構(gòu)數(shù)據(jù)生成graphembedding_第4頁](http://file4.renrendoc.com/view/546421330761c63660f6bf5feef4185b/546421330761c63660f6bf5feef4185b4.gif)
![07embedding進階如何利用圖結(jié)構(gòu)數(shù)據(jù)生成graphembedding_第5頁](http://file4.renrendoc.com/view/546421330761c63660f6bf5feef4185b/546421330761c63660f6bf5feef4185b5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
下載下載 2020-10-16 進入課16:52大小上一節(jié)課,我們一起學習了Emeding技術。我們知道,只要是能夠被序列數(shù)據(jù)表示的物品,都可以通過Iem2ec方法訓練出Emeding。但是,互聯(lián)網(wǎng)的數(shù)據(jù)可不僅僅是序列數(shù)據(jù)那么簡單,越來越多的數(shù)據(jù)被我們以圖的形式展現(xiàn)出來。這個時候,基于序列數(shù)據(jù)的Emeding方法就顯得“不夠用”了。但在推薦系統(tǒng)中放棄圖結(jié)構(gòu)數(shù)據(jù)是非??上mbedding于圖結(jié)構(gòu)的Embedding方法,它也被稱為GraphEmbedding。可能有的同學還不太清楚圖結(jié)構(gòu)中到底包含了哪些重要信息,為什么我們希望好好利用它們,并以它們?yōu)榛A生成Emeding?下面,我就先帶你認識一下互聯(lián)網(wǎng)中那些非常典型的圖結(jié)構(gòu)數(shù)據(jù)(如圖1)。圖1事實上,圖結(jié)構(gòu)數(shù)據(jù)在互聯(lián)網(wǎng)中幾乎無處不在,最典型的就是我們每天都在使用的社交網(wǎng)絡(如圖1-a)。從社交網(wǎng)絡中,我們可以發(fā)現(xiàn)意見領袖,可以發(fā)現(xiàn)社區(qū),再根據(jù)這些“社交”特性進行社交化的推薦,如果我們可以對社交網(wǎng)絡中的節(jié)點進行知識圖譜也是近來非?;馃岬难芯亢蛻梅较颉O駡D1-b中描述的那樣,知識圖譜中包含了不同類型的知識主體(如人物、地點等),附著在知識主體上的屬性(如人物描述,物品特點),以及主體和主體之間、主體和屬性之間的關系。如果我們能夠?qū)χR圖譜中的主體進行Emeding化,就可以發(fā)現(xiàn)主體之間的潛在關系,這對于基于內(nèi)容和知識的推薦系統(tǒng)是非常有幫助的。還有一類非常重要的圖數(shù)據(jù)就是行為關系類圖數(shù)據(jù)。這類數(shù)據(jù)幾乎存在于所有互聯(lián)網(wǎng)應用中,它事實上是由用戶和物品組成的“二部圖”(也稱二分圖,如圖1c)。用戶和物品之間的相互行為生成了行為關系圖。借助這樣的關系圖,我們自然能夠利用Emeding技EmbeddingGraphEmbedding方法。GraphEmbedding方法,Deep我們先來學習一種在業(yè)界影響力比較大,應用也很廣泛的GraphEmbedding方法,DeepWalk,2014Word2vecEmbedding。因此,DeepWalkEmbeddingGraphEmbedding2DeepWalk圖2DeepWalk接下來,我就參照圖2中4個示意圖,來為你詳細講解一下DeepWalk的算法流程。首先,我們基于原始的用戶行為序列(2(a)),比如用戶的購買物品序列、觀看視頻序列等等,來構(gòu)建物品關系圖(圖2(b))。從中,我們可以看出,因為用戶U1物品A和物品B,所以產(chǎn)生了一條由A到B的有向邊。如果后續(xù)產(chǎn)生了多條相同的有向邊,則有向邊的權(quán)重被加強。在將所有用戶行為序列都轉(zhuǎn)換成物品相關圖中的邊之后,全局的物品相關圖就建立起來了。然后,我們采用隨機游走的方式隨機選擇起始點,重新產(chǎn)生物品序列(圖2?)。其中,最后,我們將這些隨機游走生成的物品序列輸入圖2(d)的Word2vec模型,生成最終的物品Embedding向量。在上述DeepWalk的算法流程中,唯一需要形式化定義的就是隨機游走的跳轉(zhuǎn)概率,也就是到達節(jié)點vi后,下一步遍歷vi的鄰接點vj的概率。如果物品關系圖是有向有權(quán)圖,那么從節(jié)點vi跳轉(zhuǎn)到節(jié)點vj的概率定義如下:P(vj∣vi)={
,
∈
(vi) e_ij/j∈N+(Vi其中,N+(i)是節(jié)點i所有的出邊集合,Mij是節(jié)點i到節(jié)點j邊的權(quán)重,即DeepWalk的跳轉(zhuǎn)概率就是跳轉(zhuǎn)邊的權(quán)重占所有相關出邊權(quán)重之和的比例。如果物品相關圖是無向無權(quán)重圖,那么跳轉(zhuǎn)概率將是(式1)的一個特例,即權(quán)重Mij將為常數(shù)1,且N+i)應是節(jié)點i所有“邊”的集合,而不是所有“出邊”的集合。再通過隨機游走得到新的物品序列,我們就可以通過經(jīng)典的word2vec的方式生成物品Embeddingword2vec2016年,斯坦福大學的研究人員在DeepWalk的基礎上更進一步,他們提出了Node2vecNode2vecGraphEmbedding的結(jié)果在網(wǎng)絡的同質(zhì)性(Homophily)和結(jié)構(gòu)性(StructuralEquivalence)中進行權(quán)Embedding我這里所說的網(wǎng)絡的“同質(zhì)性”指的是距離相近節(jié)點的Embdding應該盡量近似,如圖3所示,節(jié)點u與其相連的節(jié)點1、2、s3、4的Emeding表達應該是接近的,這就是網(wǎng)絡“同質(zhì)性“的體現(xiàn)。在電商網(wǎng)站中,同質(zhì)性的物品很可能是同品類、同屬性,或者經(jīng)常被一同購買的物品。而“結(jié)構(gòu)性”指的是結(jié)構(gòu)上相似的節(jié)點的Embeddng應該盡量接近,比如圖3中節(jié)點u和節(jié)點s6都是各自局域網(wǎng)絡的中心節(jié)點,它們在結(jié)構(gòu)上相似,所以它們的Emeding表達也應該近似,這就是“結(jié)構(gòu)性”的體現(xiàn)。在電商網(wǎng)站中,結(jié)構(gòu)性相似的物品一般是各品類的爆款、最佳湊單商品等擁有類似趨勢或者結(jié)構(gòu)性屬性的物品。圖3網(wǎng)絡的BFS和DFS理解了這些基本概念之后,那么問題來了,GraphEmbedding首先,為了使GraphEmeding的結(jié)果能夠表達網(wǎng)絡的“結(jié)構(gòu)性”,在隨機游走的過程中,我們需要讓游走的過程更傾向于BFS(BradthFrstSearch,寬度優(yōu)先搜索),因為BFS會更多地在當前節(jié)點的鄰域中進行游走遍歷,相當于對當前節(jié)點周邊的網(wǎng)絡結(jié)構(gòu)進行一次“微觀掃描”。當前節(jié)點是“局部中心節(jié)點”,還是“邊緣節(jié)點”,亦或是“連接性節(jié)點”,其生成的序列包含的節(jié)點數(shù)量和順序必然是不同的,從而讓最終的Emedding抓取到更多結(jié)構(gòu)性信息。而為了表達“同質(zhì)性”,隨機游走要更傾向于DFS(DepthFirstSearch,深度優(yōu)先搜索)DFSDFSEmbedding更為相似,從而更多地表達網(wǎng)絡的“同質(zhì)性”。那在Node2vecBFS和DFS其實,它主要是通過節(jié)點間的跳轉(zhuǎn)概率來控制跳轉(zhuǎn)的傾向性。圖4所示為Node2vec算法從節(jié)點t跳轉(zhuǎn)到節(jié)點v后,再從節(jié)點v跳轉(zhuǎn)到周圍各點的跳轉(zhuǎn)概率。這里,你要注意這幾個節(jié)點的特點。比如,節(jié)點t是隨機游走上一步訪問的節(jié)點,節(jié)點v是當前訪問的節(jié)點,節(jié)點x1、x2、x3是與v相連的非t節(jié)點,但節(jié)點x1還與節(jié)點t相連,這些不同的特點決定了圖4Node2vec這些概率我們還可以用具體的公式來表示,從當前節(jié)點v跳轉(zhuǎn)到下一個節(jié)點xπvxαpq(txωvx,其中wvx是邊vx的原始權(quán)重,αpq(tx)是Node2vec定義的一個跳轉(zhuǎn)權(quán)重。到底是傾向于DFS還是BFS,主要就與這個跳轉(zhuǎn)權(quán)重的定義有關了。這里? dtx?p 如果 =αpq(tx)里的dtx是指節(jié)點t到節(jié)點x的距離,比如節(jié)點x1其實是與節(jié)點t直接相連的,所以這個距離dtx就是1,節(jié)點t到節(jié)點t自己的距離dtt就是0,而x2、x3這些不與t相連的節(jié)點,dtx就是2。此外,αpq(tx)中的參數(shù)p和qp(returnparameter),p越小,隨機游走回節(jié)點t的可能性越大,Node2vec就更注重表達網(wǎng)絡的結(jié)構(gòu)性。參數(shù)q被稱為進出參數(shù)(in-outparameter),q越小,隨機游走到遠方節(jié)點的可能性越大,Node2vec近節(jié)點游走。你可以自己嘗試給p和q設置不同大小的值,算一算從v跳轉(zhuǎn)到t、x1、x2和x3的跳轉(zhuǎn)概率。這樣一來,應該就不難理解我剛才所說的隨機游走傾向性的問題啦。Node2vec這種靈活表達同質(zhì)性和結(jié)構(gòu)性的特點也得到了實驗的證實,我們可以通過調(diào)整p和q參數(shù)讓它產(chǎn)生不同的Embedding結(jié)果。圖5上就是Node2vec更注重同質(zhì)性的體現(xiàn),從中我們可以看到,距離相近的節(jié)點顏色更為接近,圖5下則是更注重結(jié)構(gòu)性的體圖5Node2vec毫無疑問,Node2vec表達。由于Node2vec的這種靈活性,以及發(fā)掘不同圖特征的能力,我們甚至可以把不EmbeddingEmbedding方法,Word2vec和Item2vec,以及圖數(shù)據(jù)的Embedding方法,DeepWalk和Node2vecEmbeddingEmbedding又是是怎么應用到推薦系統(tǒng)中的呢?這里,我就來做一個統(tǒng)一的解答。第一個問題不難回答,由于Embedding的產(chǎn)出就是一個數(shù)值型特征向量,所以Embedding技術本身就可以視作特征處理方式的一種。只不過與簡單的One-hot編碼等方式不同,Embedding而第二個問題的答案有三個。Embedding是“直接應用”、“預訓練應用”和“End2End應用”。其中,“直接應用”最簡單,就是在我們得到Emeding向量之后,直接利用Emeding向量的相似性實現(xiàn)某些推薦系統(tǒng)的功能。典型的功能有,利用物品Emeding間的相似性實現(xiàn)相似物品推薦,利用物品Emeding和用戶Emeding的相似性實現(xiàn)“猜你喜歡”等經(jīng)典推薦功能,還可以利用物品Emeding實現(xiàn)推薦系統(tǒng)中的召回層等。當然,如果你還不熟悉這些應用細節(jié),也完全不用擔心,我們在之后的課程中都會講到?!邦A訓練應用”指的是在我們預先訓練好物品和用戶的Embedding之后,不直接應用,而是把這些Embeding向量作為特征向量的一部分,跟其余的特征向量拼接起來,作為推薦模型的輸入?yún)⑴c訓練。這樣做能夠更好的把其他特征引入進來,讓推薦模型作出更為全面且準確的預測。第三種應用叫做“End2End應用”。看上去這是個新的名詞,它的全稱叫做“endtoendtraining”,也就是端到端訓練。不過,它其實并不神秘,指的是我們不預先訓練Embedding,而是把Embedding的訓練與深度學習推薦模型結(jié)合起來,采用統(tǒng)一的、端到端的方式一起訓練,直接得到包含Embedding圖6就展示了三個包含Embedding層的經(jīng)典模型,分別是微軟的DeepCrossing,UCLFNNGoogleWide&Deep。它們的實現(xiàn)細節(jié)我們也會在后續(xù)課程里面圖6帶有EmbeddingGraphEmbeddingDeepWalk學習DeepWalk方法關鍵在于理解它的算法流程,首先,我們基于原始的用戶行為序列來構(gòu)建物品關系圖,然后采用隨機游走的方式隨機選擇起始點,重新產(chǎn)生物品序列,最后將這些隨機游走生成的物品序列輸入Wor2vec模型,生成最終的物品Embeding向量。而Node2vec相比于DeepWalk,增加了隨機游走過程中跳轉(zhuǎn)概率的傾向性。如果傾向于寬度優(yōu)先搜索,則Embedding結(jié)果更加體現(xiàn)“結(jié)構(gòu)性”。如果傾向于深度優(yōu)先搜索,最后,我們介紹了Embedding技術在深度學習推薦系統(tǒng)中的三種應用方法,“直接應用”“預訓練”和“End2End訓練”。這些方法各有特點,它們都是業(yè)界主流的應用方至此,我們就完成了所有Embedding理論部分的學習。下節(jié)課,我們再一起進入EmbeddingGraphEmbeddingSparrowRecsysSpark實現(xiàn)Embedding的訓練,希望你到時能跟我一起動起手來!EmbeddingEmbeddingEnd2EndEmbeddingEmbeddingEnd2EndGraphEmbedding?上一 下一 08|Embedding實戰(zhàn):如何使用Spark生成Item2vec和Graph寫言寫言93 31程中,我們需要讓游走的過程更傾向于BFS(BreadthFirstSearch,寬度優(yōu)先搜索)”WeobservethatBFSandDFSstrategiesplayakeyroleinproducingrepresentationsthatreflecteitheroftheaboveequivalences.Inparticular,theneighborhoodssampledbyBFSleadtoembeddingsthatcorrespondcloselytostructuralequivalence.TheoppositeistrueforDFSwhichcanexplorelargerpartsofthenetworkasitcanmovefurtherawayfromthesourcenodeu(withsamplesizekbeingfixed).InDFS,thesamplednodesmoreaccuratelyreflectamacro-viewoftheneighborhoodwhichisessentialininferringcommunitie
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國茶制床墊行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國石榴干紅葡萄酒行業(yè)投資前景及策略咨詢研究報告
- 2025年油壓壓彎床項目可行性研究報告
- 2025年有色金屬連桿項目可行性研究報告
- 2025年攪拌機攪拌臂項目可行性研究報告
- 2025年小體視棱鏡項目可行性研究報告
- 2025至2031年中國內(nèi)置式伺服放大器模塊行業(yè)投資前景及策略咨詢研究報告
- 2025年沖裁拉伸模具項目可行性研究報告
- 2025至2030年中國雞藥數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年香油紅尖椒項目投資價值分析報告
- 2025年酒店總經(jīng)理崗位職責與薪酬協(xié)議
- 綠色能源項目融資計劃書范文
- 大樹扶正施工方案
- 2024年全國職業(yè)院校技能大賽中職組(母嬰照護賽項)考試題庫(含答案)
- 課題申報參考:全齡友好視角下的社區(qū)語言景觀評估及空間優(yōu)化研究
- 小學一年級數(shù)學20以內(nèi)的口算題(可直接打印A4)
- 自動化設備技術合作協(xié)議書范文
- 作文紙(網(wǎng)格600字A4)
- 專利糾紛行政調(diào)解辦案指南
- 經(jīng)編工藝基本樣布的分析
- 完整版陸河客家請神書
評論
0/150
提交評論