




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Spark應(yīng)用開發(fā)技術(shù)本章主要講述SparkGraphX:圖計(jì)算框架。通過學(xué)習(xí)本節(jié)將能夠?qū)W習(xí)SparkGraphX:圖計(jì)算框架。通過本節(jié)學(xué)習(xí)可以:理解圖與圖計(jì)算的基本概念掌握GraphX圖的創(chuàng)建方法掌握GraphX的基本操作掌握以GraphX進(jìn)行關(guān)聯(lián)聚合操作認(rèn)識(shí)SparkGraphX圖的基本概念、圖計(jì)算的應(yīng)用、GraphX的基礎(chǔ)概念、GraphX的發(fā)展了解GraphX常用API圖的創(chuàng)建與存儲(chǔ)、數(shù)據(jù)查詢與數(shù)據(jù)轉(zhuǎn)換、結(jié)構(gòu)轉(zhuǎn)換與關(guān)聯(lián)聚合構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶構(gòu)建網(wǎng)站信任網(wǎng)絡(luò)、找出需要支付稿酬的用戶、找出進(jìn)入熱門榜的用戶1.背景W網(wǎng)站是一個(gè)面向廣大用戶的消費(fèi)品信息聚合網(wǎng)站,主要向用戶提供各類日常消費(fèi)品的點(diǎn)評(píng)信息,以幫助用戶選到滿意的商品。當(dāng)用戶登錄網(wǎng)站后,可以發(fā)表對(duì)某件商品的點(diǎn)評(píng),也可以參考其他點(diǎn)評(píng)者的點(diǎn)評(píng)信息。如果覺得某個(gè)點(diǎn)評(píng)信息的質(zhì)量?jī)?yōu)秀,則可以將這個(gè)點(diǎn)評(píng)者納入自己的信任列表。這樣一來,在用戶與用戶之間就產(chǎn)生了一個(gè)基于信任關(guān)系的網(wǎng)絡(luò)。如果某用戶被其他用戶納入到信任列表的次數(shù)越多,則表明其信任值就越高。W網(wǎng)站為了鼓勵(lì)用戶做出優(yōu)質(zhì)的商品點(diǎn)評(píng),會(huì)向信任值很高的用戶支付一定的稿酬以鼓勵(lì)點(diǎn)評(píng),對(duì)于極受歡迎且達(dá)到一定活躍度的用戶,可以進(jìn)入熱門點(diǎn)評(píng)榜,增加知名度構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶1.
背景目前網(wǎng)站已經(jīng)積累了大量的用戶數(shù)據(jù),其中包括用戶的個(gè)人信息,基本格式如表所示,Id表示用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶1.背景用戶間的信任關(guān)系數(shù)據(jù)如表所示,F(xiàn)romNodeId為收藏信任點(diǎn)評(píng)人的用戶Id,ToNodeId為被加入信任列表的用戶Id,每一行數(shù)據(jù)表示左邊的用戶將右邊的用戶納入了信任列表構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶2.分析目標(biāo)主要是根據(jù)網(wǎng)站的需求,結(jié)合采集到的數(shù)據(jù),利用SparkGraphX圖計(jì)算工具完成以下任務(wù)構(gòu)建網(wǎng)站信任網(wǎng)絡(luò)找出網(wǎng)站需要支付稿酬的用戶找出有資格進(jìn)熱門點(diǎn)評(píng)榜的用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶3.構(gòu)建網(wǎng)絡(luò)信任圖構(gòu)建網(wǎng)絡(luò)信任圖的步驟如下所示先將數(shù)據(jù)上傳到HDFS文件系統(tǒng)導(dǎo)入圖計(jì)算所需要的包通過graph.fromEdges的方法創(chuàng)建信任網(wǎng)絡(luò)圖,頂點(diǎn)與邊的屬性設(shè)為常用的替代屬性1L構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶4.找出需要支付稿酬的用戶為了鼓勵(lì)用戶點(diǎn)評(píng),所以對(duì)于信任度比較高的前50名用戶會(huì)支付一定的稿酬。想要找出信任度比較高的用戶,首先需要計(jì)算每個(gè)用戶的被信任度,也就是計(jì)算每個(gè)頂點(diǎn)的入度數(shù)。計(jì)算完入度數(shù)之后,需要根據(jù)入度數(shù)進(jìn)行排序,排序按照從高到低的順序,然后從排序后的頂點(diǎn)數(shù)據(jù)中取出前50名作為獎(jiǎng)勵(lì)用戶,這50名用戶就是網(wǎng)站需要支付稿酬的用戶了構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶5.找出進(jìn)入熱門榜的用戶熱門排行榜是用于對(duì)網(wǎng)站用戶進(jìn)行一個(gè)排名的,想上排行榜需要滿足一定的要求才有資格進(jìn)入。第一點(diǎn)就是用戶的信任度必須在網(wǎng)站用戶信任度排名中排在前3%;第二點(diǎn)就是用戶的活躍度在滿足第一點(diǎn)的用戶中排在前5%,其中信任度表示入度數(shù),活躍度表示出度數(shù)。根據(jù)以上要求,要找出滿足條件的用戶,第一點(diǎn)需要計(jì)算入度數(shù)并排列取出前3%的用戶,然后再計(jì)算這3%的用戶的出度數(shù),取出前5%的用戶,這部分用戶即為可上榜用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶5.找出進(jìn)入熱門榜的用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶5.找出進(jìn)入熱門榜的用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶5.找出進(jìn)入熱門榜的用戶進(jìn)入熱門榜的用戶如圖所示構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶6.給用戶推薦可信任用戶一個(gè)用戶對(duì)另一個(gè)用戶表示信任,那么他/她可能對(duì)于另一個(gè)用戶所信任的其他用戶的點(diǎn)評(píng)同樣也比較信任。將信任人的信任人推薦給這個(gè)用戶,屬于二度關(guān)系推薦,這是常用的一種最簡(jiǎn)單的推薦方法。這個(gè)過程可以稱為二度關(guān)系或二跳鄰居,二度關(guān)系推薦可抽象成在有向圖中尋找到指定頂點(diǎn)的最短距離為2的所有頂點(diǎn)。具體求解過程如下先構(gòu)造一個(gè)屬性圖,為了存儲(chǔ)符合關(guān)系的鍵值對(duì)(用戶Id->度數(shù)),每個(gè)頂點(diǎn)的屬性Attr初始化為Map(),然后進(jìn)行兩次迭代求解二度關(guān)系構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶6.給用戶推薦可信任用戶二度關(guān)系求解過程使用aggregateMessages把VerticeID和第幾度鄰居的度數(shù)N作為一個(gè)鍵值對(duì)傳播到出度點(diǎn)上,出度點(diǎn)把收集到的信息合成一個(gè)大Map構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶6.給用戶推薦可信任用戶二度關(guān)系求解過程更新后的Vertice與原圖進(jìn)行“Join”,更新圖中的變化過的點(diǎn)屬性,將Map數(shù)據(jù)加入到圖中進(jìn)行下一輪的分析構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶6.給用戶推薦可信任用戶構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶給用戶推薦可信任用戶重復(fù)1,2步,此時(shí)N值改為2,輸出更新了2輪之后的有關(guān)系的Vertice,去掉其中已經(jīng)被頂點(diǎn)所信任過的用戶6.給用戶推薦可信任用戶二度關(guān)系求解過程數(shù)據(jù)類型為(頂點(diǎn)Id,2度鄰居頂點(diǎn)Id),現(xiàn)在將同一個(gè)用戶的所有推薦用戶Id合并成一個(gè)List,選取其中的10個(gè)作為推薦結(jié)果并且輸出到HDFS構(gòu)建信任網(wǎng)絡(luò)并找出目標(biāo)用戶6.給用戶推薦可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年游泳救生員職業(yè)訓(xùn)繩方法及試題及答案
- 2024年足球裁判員考試特色試題及答案
- 2024年足球裁判員等級(jí)考試沖刺復(fù)習(xí)技巧試題及答案
- 關(guān)于裁判員考試的深度解析與試題及答案
- 2024年裁判員考試知識(shí)拓寬試題及答案
- 深入淺出 體育經(jīng)紀(jì)人考試試題及答案
- 種子繁育員考試趨勢(shì)試題及答案
- 種子繁育員的基層實(shí)踐試題及答案
- 2024年農(nóng)作物種子繁育員考試重難點(diǎn)解析與試題答案
- 解析體育經(jīng)紀(jì)人資格考試的復(fù)習(xí)難點(diǎn) 試題及答案
- 英語練習(xí)漢譯英100句
- 六年級(jí)下冊(cè)經(jīng)典誦讀DOC
- 來料檢驗(yàn)指導(dǎo)書鋁型材
- 基于單片機(jī)的無線射頻收發(fā)系統(tǒng)
- 工程項(xiàng)目監(jiān)理常用臺(tái)賬記錄表格(最新整理)
- Purchase Order模板參考模板
- 質(zhì)量保證體系調(diào)查表
- -腦梗死臨床路徑2016
- OVATION培訓(xùn)教材資料
- 財(cái)綜[2001]94號(hào)
- 發(fā)電機(jī)組防腐保溫施工方案
評(píng)論
0/150
提交評(píng)論