內(nèi)容文本案例10490c_第1頁
內(nèi)容文本案例10490c_第2頁
內(nèi)容文本案例10490c_第3頁
內(nèi)容文本案例10490c_第4頁
內(nèi)容文本案例10490c_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)學(xué)建模資料請關(guān)注微店“數(shù)學(xué)建模學(xué)習(xí)交流”評委一評分,簽名及備注隊號:10490評委三評分,簽名及備注評委二評分,簽名及備注選題:B評委四評分,簽名及備注題目:基于復(fù)雜網(wǎng)絡(luò)和因子分析的智能推薦隨著互聯(lián)網(wǎng)的飛速發(fā)展,基于社交網(wǎng)絡(luò)的評價系統(tǒng)在網(wǎng)絡(luò)推薦中扮演者越來越重要的 。本文致力于通過復(fù)雜網(wǎng)絡(luò)算法和因子分析法進行用戶-書籍評分預(yù)測和智能推薦。首先,本文建立了用戶-書籍有向分層復(fù)雜網(wǎng)絡(luò)。第一層用戶關(guān)系網(wǎng)絡(luò)以用戶之間的社交關(guān)系為基礎(chǔ),以用戶間的公共閱讀 數(shù)目作為權(quán)重形成有向網(wǎng)絡(luò)層;第二層則以用戶評分為權(quán)重形成用戶與書籍之間的有向交叉網(wǎng)絡(luò)?;谶@一復(fù)雜網(wǎng)絡(luò),我們定義了網(wǎng)絡(luò)中結(jié)點之間的距離為所經(jīng)過邊權(quán)重

2、的倒數(shù)和,采用Floyd 最短路徑算法求解結(jié)點之間的最短距離,并且定義書籍結(jié)點和用戶結(jié)點的距離為用戶和書籍的適應(yīng)度指標。其次,我們根據(jù)可能影響用戶對書籍的評分的因素,還定義了網(wǎng)絡(luò)結(jié)點的強度,網(wǎng)絡(luò)結(jié)點影響力,相對強度,適應(yīng)度等指標以便更好地衡量用戶與書籍間的有向 。結(jié)點強度分為閱讀強度和評價強度問題一和問題二,本文把影響用戶對書籍評價的因素分為用戶評價特征,書籍受評特征和用戶書籍特征三大類;其中用戶評價特征和書籍受評特征分別包括用戶評分均值,用戶評分偏移均值,書籍受評均值,書籍受評偏移量等四項指標,而用戶-書籍主要是基于網(wǎng)絡(luò)評價產(chǎn)生的強度影響力,相對強度和適應(yīng)度等九項指標。隨后采用SPSS 對上

3、述 13 項因素進行因子分析,提取出四共因子,以方差貢獻率為權(quán)重把四共因子綜合指標。在對綜合指標做了無量綱化運算后,結(jié)合書籍評價的極大值與極小值區(qū)間產(chǎn)生用戶對書籍的評價。問題三,本文建立了智能推薦算法進行最佳書籍推薦。在問題二的基礎(chǔ)上,依靠復(fù)雜網(wǎng)絡(luò)算法和因子分析法,建立起以四共因子為基礎(chǔ)的綜合指標, 用來生成用戶對書籍的評價矩陣。然后依照評分矩陣和閱讀對未讀書籍進行擇優(yōu)篩選,產(chǎn)生了最優(yōu)推薦結(jié)果,題目中六位讀者第一推薦書籍 ID 分別為: 698573,698573,794171,702699,698573,776002。最后,我們評價模型的優(yōu)缺點,提出了復(fù)雜網(wǎng)絡(luò)算法的降維聚類處理,用戶評分的標

4、準化以及冷啟動推薦等拓展性算法。關(guān)鍵字:復(fù)雜網(wǎng)絡(luò)算法 最短路徑算法 適應(yīng)度指標 因子分析 智能推薦算法基于復(fù)雜網(wǎng)絡(luò)和因子分析的智能推薦1. 問題重述和互聯(lián)網(wǎng)的發(fā)展已經(jīng)充斥著我們的生活,人類形色各異的信息隨著也早已從信息匱乏的信息過載的。在處理信息的過程中,信息消費者還是信息生產(chǎn)者都遇到了很大的:信息消費者從大量信息中找到感興趣的信息開始變得越來越;同樣的,信息生產(chǎn)者需要解決的最大的問題則是如何讓生產(chǎn)的信息脫穎而出在大量信息檢索和推薦的過程中脫穎而出,醒目的呈現(xiàn)在需求者的面前,得到消費者的認可。人們開始探索各種可能解決這一的工具,推薦由此應(yīng)運而生。在互聯(lián)網(wǎng)的和應(yīng)用中被廣泛采用,包括大家經(jīng)常使用的

5、相關(guān)搜索、話題推薦、電子商務(wù)的各種推薦、社交網(wǎng)絡(luò)上的交友推薦等。在本題中,我們首先獲得了一個著名網(wǎng)店的大量的用戶及用戶行為信息,包括對于書籍的評分數(shù)據(jù),書籍的息。我們需要解決如下的問題:信息以及用戶的社交關(guān)系等大量的數(shù)據(jù)信(1)分析影響用戶對書籍評分的因素;(2)建立一個模型,predict.txt 附件中的用戶對未看過書籍的評分;(3)predict.txt 附件中的用戶,給每個用戶推薦 3 本沒看過的書籍。2. 模型假設(shè)假設(shè)一:用戶對書籍的評價是客觀且僅僅對其有偏好的書籍評價假設(shè)二:用戶社交網(wǎng)絡(luò)的形成是基于用戶對相似度的人群的偏好,即用戶社交網(wǎng)絡(luò)能較為準確地反映用戶群的偏好特征。假設(shè)三:用

6、戶對書的偏好受其他讀者的影響,用戶群體的偏好是趨同的。3.符號說明1符號意義𝑒𝑖Nb i j𝑑𝑖𝑗𝐼𝑒𝑃𝑎𝑡𝑖𝑗𝑋1𝑋2𝑋3𝑋4𝑋6用戶 i 對于書籍的評價次數(shù)用戶書籍網(wǎng)絡(luò)的有向權(quán)重i 和 j 結(jié)點間的緊密程度用戶評價影響力i 到 j 路徑上的后繼點用戶 i 的評價均值用戶 i 的評價偏移量第 j 本書籍的被評價的均值第 j

7、本書籍的被評價的偏移量用戶 i 對用戶 j 的影響力4. 問題分析基于社交網(wǎng)絡(luò)關(guān)系的數(shù)據(jù)挖掘是當前研究的熱點。社交網(wǎng)絡(luò)的構(gòu)建使得互聯(lián)網(wǎng)中多因素的數(shù)據(jù)有機的結(jié)合起來,形成了一個巨型多層次數(shù)據(jù)網(wǎng)絡(luò),如何有效的管理這些數(shù)據(jù)網(wǎng)絡(luò)和利用這些數(shù)據(jù)網(wǎng)絡(luò)的信息創(chuàng)造最大的效益是數(shù)據(jù)挖掘的意義所在。本題基于有向復(fù)雜網(wǎng)絡(luò)模型,在分析解決客戶關(guān)系和書籍信息的系統(tǒng)評價問題中,嘗試尋找各個已知數(shù)據(jù)之間的,把所有已知因素綜合性地表現(xiàn)在復(fù)雜網(wǎng)絡(luò)算法中,以實現(xiàn)書籍評分系統(tǒng)的全面化、客觀化和智能化。在書籍評分的中,我們必須考慮所有可能影響用戶對書籍評分的因素,主要包括用戶個人的評分結(jié)構(gòu),用戶對該書籍現(xiàn)有的評分結(jié)構(gòu),用戶與書籍的匹

8、配程度。本文對上述三種因素進行分析,在分析過程中,用戶評分結(jié)構(gòu)與書籍的評分結(jié)構(gòu)比較容易衡量,而用戶與書籍的匹配程度則是該系統(tǒng)評價的,也是算法設(shè)計中的重點和難點,它是基于用戶社交網(wǎng)絡(luò)和書籍的網(wǎng)絡(luò)進行提取的。用戶與書籍的匹配程度主要考慮用戶與書籍在網(wǎng)絡(luò)中的距離,用戶的影響力,書籍本身的影響力等指標。所以本題的總體思路分為社交網(wǎng)絡(luò)的構(gòu)建、指標分析以及部分,其中,社交網(wǎng)絡(luò)構(gòu)建是解決該問題的基礎(chǔ)。4.1 復(fù)雜網(wǎng)絡(luò)構(gòu)建和智能推薦三基于社交關(guān)系的復(fù)雜網(wǎng)絡(luò)系統(tǒng)是構(gòu)建評分模型的基礎(chǔ),本文采用的網(wǎng)絡(luò)構(gòu)架在傳統(tǒng)的有向圖的基礎(chǔ)上實現(xiàn)合理的網(wǎng)絡(luò)分層,每層網(wǎng)絡(luò)結(jié)點包括讀者和書籍,除了讀者與讀者的網(wǎng)絡(luò),書籍與書籍的網(wǎng)絡(luò),還

9、包括讀者與書籍之間單向關(guān)系,由此組成雙層有向圖,并依照改進的復(fù)雜網(wǎng)絡(luò)算法進行計算。4.2 讀者有向網(wǎng)絡(luò)讀者層的網(wǎng)絡(luò)依照讀者之間的關(guān)注進行構(gòu)建,并以讀者之間相同的閱讀歷史次數(shù)作為兩讀者之間的有向權(quán)重,其含義為兩個讀者的偏好相似度。網(wǎng)絡(luò)圖主要體現(xiàn)在閱讀過程中,讀者之間通過關(guān)注這個行為產(chǎn)生的相互影響關(guān)系。并且在實際中,讀者之間相同越多,其產(chǎn)生的影響越大,在讀者層網(wǎng)絡(luò)中體現(xiàn)的共同閱讀越多,讀者結(jié)點權(quán)重值越大,結(jié)點間距離越小。4.3 讀者書籍交叉網(wǎng)絡(luò)材料中的信息包括讀者閱讀的歷史和評價,依據(jù)這兩項數(shù)據(jù)可建立讀者與書籍間的有向整個系統(tǒng)中評價網(wǎng)絡(luò)圖。但通過對題中所給數(shù)據(jù)的簡單分析可以發(fā)現(xiàn),總數(shù)遠遠大于閱讀即

10、有些讀者沒有閱讀該書籍但是卻對該書籍進行評分),因此,這些評價數(shù)據(jù)是無法直接應(yīng)用的,必須剔除不合適評價邏輯的虛假評價(無閱讀單有評價),將剩余的有效數(shù)據(jù)進行讀者書籍的交叉網(wǎng)絡(luò)評價。所有書籍的信息位于不同于讀者有向2網(wǎng)絡(luò)的新的網(wǎng)絡(luò)𝑋7𝑋10F𝑆𝑐𝑜𝑟𝑒(𝑖, 𝑗)用戶 i 的強度用戶評價均值的調(diào)整量綜合指標矩陣評價分數(shù)的修正值層,書籍之間暫不建立有向關(guān)聯(lián)關(guān)系。讀者書籍的交叉網(wǎng)絡(luò)拓撲圖以讀者對書籍的評分為基礎(chǔ)進行構(gòu)建,評分反映了讀者對該書籍的喜愛程度。通過

11、評分,將讀者與各書籍起來,進而形成交叉的雙層網(wǎng)絡(luò)圖。而書籍自身的影響力通過書籍被評價次數(shù)來反映,定義其為書籍結(jié)點強度。4.4 Floyd 最短路徑算法基于上述讀者分層網(wǎng)絡(luò)拓撲結(jié)構(gòu),采用數(shù)據(jù)挖掘的方法分析該有向利用Floyd 最短距離算法計算第一層用戶結(jié)點和第二層書籍結(jié)點的最短網(wǎng)絡(luò)路徑,以此來表現(xiàn)書籍對讀者喜好的適應(yīng)度大小。4.5 因子分析法及網(wǎng)絡(luò),本文采用復(fù)雜網(wǎng)絡(luò)模型求解出書籍對不同讀者喜好的最佳適應(yīng)度。但通過行 為學(xué)分析,讀者對書籍的評價還取決于讀者的評分習(xí)慣,書籍的內(nèi)容,書籍自身的影響力等指標。因此我們需要對所有可能影響到評價的各種因素進行綜合考慮。由于因素間可能的共線和重疊關(guān)系,導(dǎo)致綜合

12、評估指標難以量化,所以我們采用因子分析法提取公共因子,通過計算各因子的貢獻率來確定各個因素的權(quán)重體系,出讀者對書籍和評價。經(jīng)過前面的算法和 后為用戶進行書籍推薦。評價,問題三的解決方法主要是對評價結(jié)果進行排序網(wǎng)絡(luò)Floyd圖 1 系統(tǒng)流程圖5. 模型建立5.1 模型一:復(fù)雜網(wǎng)絡(luò)模型基于社交關(guān)聯(lián)關(guān)系建立書籍和讀者的有向網(wǎng)絡(luò),根據(jù)結(jié)點的兩大種類進行分層,設(shè)定網(wǎng)絡(luò)系統(tǒng)可以通過最短路徑算法來求解出書籍對讀者的最佳適應(yīng)度指標。適應(yīng)度指標是評價系統(tǒng)中較為重要的決定因素。評價的另一基本因素結(jié)點強度與影響力指標可以通過社交網(wǎng)絡(luò)來定義。3書籍被評價特征智能推薦模型均值偏移量等指標用戶評價特征影響力指標書籍推薦用

13、戶-書籍網(wǎng)絡(luò)最短路徑用戶書籍評價因子分析法強度指標分層有向加權(quán)網(wǎng)絡(luò)5.1.1 用戶層網(wǎng)絡(luò)記用戶間網(wǎng)絡(luò)拓撲結(jié)構(gòu)的有向鄰接矩陣為𝑈𝑅URUR111 jUR= ( )URURi 1i j其中,UR 表示第 i 個用戶對第j 個用戶鄰接關(guān)系的強弱程度。i j定義:UR = 表示結(jié)點自身之間強度最強;。i j當UR = 0時表示結(jié)點之間無i j在讀者用戶網(wǎng)絡(luò)中,用戶的結(jié)點強度用來反映用戶的活躍情況和用戶自身的影響力,共分為評價強度和閱讀強度,分別用𝑒𝑖和𝑣𝑖來表示。定義:矩陣E = (𝑒1 &

14、#119890;2 𝑒𝑛)𝑇 和矩陣V = (𝑣1 𝑣2 𝑣𝑛)𝑇其中𝑒𝑖:用戶的評價次數(shù)𝑣𝑖:用戶的閱讀次數(shù)𝑒𝑖和𝑣𝑖在一定程度上可反映用戶的影響力及活躍程度。5.1.2 用戶書籍交叉層網(wǎng)絡(luò)同理,依照用戶和書籍之間的關(guān)聯(lián)情況建立用戶和書籍之間的關(guān)聯(lián)網(wǎng)絡(luò)。設(shè)鄰接矩陣為𝑈𝐵𝑈𝑏&#

15、119880;𝑏111 𝑗𝑈𝐵 = 𝛼 ( )𝑈𝑏𝑈𝑏𝑖 1𝑖 𝑗矩陣中𝑈𝑏 為用戶書籍間的鄰接。𝑖 𝑗同理我們定義:Nb= b sI jI jijNb用戶書籍網(wǎng)絡(luò)的有向權(quán)重,它反映用戶i 對書籍 j 的偏好程度。i jb= 0第 i 個用戶未閱讀第j 本書第 i 個用戶已閱讀第j 本書i j1si j表示第 i 個用戶對第j 個書籍的評分,

16、無評價則默認為是平均值。書籍結(jié)點的強度分別表示為評價強度𝑒和閱讀強度𝑣。𝑖𝑖其中𝑒為第 i 本書籍被評價的次數(shù)(校正后);v為第 i 本書籍的書簽數(shù)目。𝑖i評價強度𝑒和閱讀強度𝑣能反映出第i 本書籍的受歡迎程度,其中𝑒必須為校𝑖𝑖𝑖正后的評價次數(shù),因為在題目中的數(shù)據(jù)存在虛假評價(前文中已解釋)。4圖 2 交叉網(wǎng)絡(luò)示意圖5.1.3 最短路徑算法(Floyd)(1)混合網(wǎng)絡(luò)用戶網(wǎng)絡(luò)和用戶書籍網(wǎng)絡(luò)可以組一個分層

17、的有向網(wǎng)絡(luò),把書籍和用戶等效成同一類結(jié)點,則新的網(wǎng)絡(luò)拓撲架構(gòu)的鄰接矩陣為U = 𝑈𝑅𝑈𝐵 00Ui j表示 i 結(jié)點到 j 結(jié)點的權(quán)重;其中,UR表示用戶的之間的結(jié)點權(quán)重;UB表示用戶與每一個書籍之間的結(jié)點權(quán)重。定義Ci j為網(wǎng)絡(luò)任意相鄰兩點間的距離。0i = j1Ui j U 0 且 i jC=i ji jUi j 0則任意兩點之間的最短距離為dij = minCik1 + Ck1 k2 + + Ckn jdij可以準確衡量i 和j 結(jié)點間的緊密程度,如果 i 為用戶編號,j 為書籍編號,則dij(iusers,jbooks)表

18、示書籍為用戶偏好的適應(yīng)度。(2)Floyd 算法Floyd 算法是求解有向圖結(jié)點間最短路徑的法,它的思想是在鄰接矩陣中用定點的方法依次遞推地構(gòu)造出 n 個矩陣 D(1),D(2)D(n),D(n)為網(wǎng)絡(luò)模型的距離矩陣。同時引入一個后繼點矩陣Floyd 算法兩個重要屬性矩陣為D 和 Path。兩點間的最短距離。其中Pathij 為 i 到 j 路徑上的后繼點,算法如下:Step1:輸入鄰接矩陣CStep2:賦初值,令dij = cij,Pathij = j,k=1.Step3:更新 D 和 Path;對一組 i 和 j,如果滿足D(i,k) + D(k,j) <D(i,j); 則 D(i,

19、j)=D(i,k) + D(k,j) ;5Path(i,j)=Path(i,k);Step4:K 值加 1 返回 Step3 直至 k=n+1(n 為總結(jié)點數(shù))。依據(jù)上述步驟,可準確求解出D 和 Path。5.1.4 結(jié)點影響力和結(jié)點強度評定在混合網(wǎng)絡(luò)中,各個結(jié)點的影響力可以通過網(wǎng)絡(luò)中每個結(jié)點的強度和網(wǎng)絡(luò)的拓撲結(jié)構(gòu)來進行描述。對上述復(fù)雜網(wǎng)絡(luò)而言,每個結(jié)點均有兩種強度𝑒𝑖和𝑣𝑖,所有兩種,記𝐼𝑒為評價影響力,𝐼𝑣為閱讀影響力。n以結(jié)點eieI = (i j)jdiji=

20、1𝑛𝑝𝑖𝑣𝐼 = (i j)𝑗𝑑𝑖𝑗𝑖=1結(jié)點的影響要考慮了其他結(jié)點通過網(wǎng)絡(luò)傳遞效應(yīng)后對目標結(jié)點影響程度的總和,而結(jié)點的強度則主要為目標結(jié)點對外部的影響,用戶的強度采用用戶對書籍的有效評價次數(shù)來表示,書籍的強度則采籍被有效評價的次數(shù)。結(jié)點影響力和結(jié)點強度指標既適用于用戶結(jié)點,也適用于書籍結(jié)點。5.2 因子分析法5.2.1. 因素提取用戶對書籍的評價主要受各種因素制約,如下圖所示評價均值X1評價偏移量X2用戶評價特征評價調(diào)整均值X10評價

21、調(diào)整偏移量X11受評均值X3受評偏移量X4評價影響因素書籍受評特征受評調(diào)整均值X12受評調(diào)整偏移量X13用戶書籍適應(yīng)度X5用戶影響力X6用戶書籍特征用戶強度X7書籍影響力X8書籍強度X9圖 3 因素分解圖6其中,𝑋1(i,j):第 i 個用戶的所有評價的均值;𝑋2(i,j):第 i 個用戶的所有評價的偏移量;𝑋3(i,j):第 j 本書籍的被評價的均值;𝑋4(i,j):第 j 本書籍的被評價的偏移量;且|𝑇|𝑅 𝑋 (𝑖, 𝑗)|𝑋2(

22、i, j) = 𝑘=1𝑖𝑘1|𝑇|𝑖|𝑈|𝑅 𝑋 (𝑖, 𝑗)|𝑋4(i, j) = 𝑘=1𝑘𝑗3|𝑈|𝑖其中𝑅𝑖𝑘表示第 i 個用戶對第 k 本書籍打分(來自評價歷史),|𝑇|和|𝑈|分別指評價書籍的總個數(shù)和評價用戶的總數(shù)。𝑋5(𝑖

23、;, 𝑗) = 𝑑𝑖𝐼𝑓 𝑚𝑖𝑛(𝐼𝑓)𝐼𝑒 𝑚𝑖𝑛(𝐼𝑒)𝑋6(𝑖, 𝑗) =𝑖+𝑖max(𝐼𝑒) 𝑚𝑖𝑛(𝐼𝑒)max(Ү

24、68;𝑓) 𝑚𝑖𝑛(𝐼𝑓)為用戶 i 對用戶 j 的影響力,定義為相對閱讀影響力和相對評價影響力之𝑋6和。𝑒𝑖 𝑚𝑖𝑛(𝐸)𝑓𝑖 𝑚𝑖𝑛𝐹𝑋 (𝑖, 𝑗) =+7max(𝐸) 𝑚𝑖𝑛(

25、𝐸)max(𝐹) 𝑚𝑖𝑛(𝐹)𝑋7為用戶 i 的強度,定義為相對閱讀強度和相對評價強度之和;𝑋8和𝑋9分別是書籍的影響力和強度,其定義方式如同𝑋6𝑋7;= 𝑋1𝑑𝑋10𝑋10是用戶評價均值的調(diào)整值,定義為;𝑖,𝑗= 𝑋2𝑑 ;𝑖 ,𝑗𝑋11是用戶評

26、價偏移量的調(diào)整值,定義為𝑋11= 𝑋3𝑑𝑋12是書籍被評價均值的調(diào)整值,定義為𝑋12;𝑖 ,𝑗= 𝑋4𝑑𝑋13是書籍被評價偏移量的調(diào)整值,定義為𝑋13。𝑖 ,𝑗上述十三大因素是影響評價結(jié)果的最主要的5.2.2 因子分析法基本理論,下面將對其進行因子分析。因子分析法是從研究變量內(nèi)部相關(guān)的依賴關(guān)系出發(fā),把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的一種多變量統(tǒng)計分析方法。采用這種方法我們

27、就可以對原始數(shù)據(jù)進行分類歸并性的分析提取,將相關(guān)度較為密切的變量歸納為多個綜合指標,同時令這些綜合指標所綜合的信息相互不重疊。我們則把這些7綜合指標定義為公共因子。因子分析法的基本思路是對研究變量進行分類,將關(guān)聯(lián)度較高,比較緊密的人為的一起,相應(yīng)的,不同類變量之間的關(guān)聯(lián)度較低。在這樣的方法下,每一類變量實際上就代表了一個基本結(jié)構(gòu),即公共因子.我們需要研究的就是試圖用最少個數(shù)的不可測的所謂公共因子的擬定函數(shù)與特殊因子之和來描述原來觀測的每一分量。這樣,就能相對容易地以較少的幾個因子反映原資料的大部分信息,從而達到濃縮數(shù)據(jù),提取數(shù)據(jù)的作用和目的。因子分析法的是對若干綜合指標進行因子分析并提取公共因

28、子,再以每個因子的方差貢獻率作為與該因子的得分乘數(shù)之和構(gòu)造得分函數(shù)。因子分析法的數(shù)學(xué)表示為矩陣:X=AF+B,即:𝑥1 = 𝑎11 𝑓1 + 𝑎12𝑓2 + 𝑎13𝑓3 + + 𝑎1𝑘 𝑓𝑘 + 𝛽1𝑥2 = 𝑎21𝑓1 + 𝑎22𝑓2 + 𝑎23 𝑓3 + + 𝑎2Ү

29、96; 𝑓𝑘 + 𝛽2𝑥3 = 𝑎31𝑓1 + 𝑎32𝑓2 + 𝑎33 𝑓3 + + 𝑎3𝑘 𝑓𝑘 + 𝛽3𝑥𝑝 = 𝑎𝑝1𝑓1 + 𝑎𝑝2𝑓2 + 𝑎𝑝3𝑓3 + + ⻔

30、6;𝑝𝑘 𝑓𝑘 + 𝛽𝑝模型中,向量X = (x1, x2 , x3, , xp)是可觀測隨機向量,即原始觀測變量。F = (f1, f2, f3, , fk)是X = (x1, x2 , x3, , xp) 的公共因子,即各個原觀測變量的表共同出現(xiàn)的因子,是相互的不可觀測的理論變量。公共因子的具體含義必須結(jié)合實際研究問題來界定。A(ij)是公共因子F = (f1, f2, f3, , fk)的系數(shù), 稱為因子載荷矩陣,ij(i = 1,2, . . . , p; j = 1,2, . . . ,

31、k)稱為因子載荷,是第i 個原有變量在第j 個因子上的負荷,或可將ij看作第 i 個變量在第 j 公共因子上的權(quán)重。ij是 xi和𝑓𝑗的協(xié)方差,也是xi和fj的相關(guān)系數(shù),表示xi對fj的依賴程度或相關(guān)程度。ij的絕對值越大,表明公共因子fj 對于xi的載荷量越= (1, 2, 3, , p)是X = (x1, x2 , x3, , xp)的特殊因子,是不能被前 k 個公共因子包含的部分,這種因子也是不可觀測的。各特殊因子之間以及特殊因子與所有公共因子之間都是相互的。5.2.3 模型的數(shù)學(xué)含義因子載荷矩陣A 中包含了兩個統(tǒng)計量,分別是變量共同度和公共因子的方差貢獻

32、度。(1)變量共同度變量共同度是因子載荷矩陣A 的第 i 行的元素的平方和。記為:h2 = k2(i = 1,2,3 p)。ij=1 ij它衡量全部公共因子對xi的方差所做出的貢獻,反映全部公共因子對變量 xi的影響。h2越大,表明X 對于 F 每一分量的依賴程度大。i(2)方差貢獻度方差貢獻度因子載荷矩陣中各列元素的平方和。記為:g2 = p2(j = 1,2,. . . , k)。jiji=1g2稱為公共因子F = (f , f , f , , f )對X = (x , x , x , , x )的方差貢獻,表j1 2 3k123p示第 j 個公共因子𝑓𝑗對

33、于 x 的每一個分量𝑥𝑖 (i=1,2,.,p)所提供的方差的總和,是衡量公共因子相對重要性的指標。(3)綜合指標我們采用上述各因子的貢獻率占總貢獻率的比重作為權(quán)重w,對上述個影響因子,定義F,如下。8𝑓1𝑛𝑓2F = 𝑤1, 𝑤2, 𝑤𝑛 = 𝑤𝑖 𝑓𝑖𝑖=1𝑓𝑛f(i,j)為綜合指標,它是做評價系統(tǒng)的參考指標。𝑓(

34、9894;, 𝑗) min(𝑓)max(𝑓) min(𝑓)𝑓(𝑖, 𝑗) =𝑓為 f 的修正指標,數(shù)值的含義為f(i,j)在所有 f 取值的相對位置。同理定義:評價分數(shù)的修正值,表達式如下:𝑆𝑐𝑜𝑟𝑒(𝑖, 𝑗) = min(𝑆𝑐𝑜𝑟𝑒𝑗) + 𝑓

35、(𝑖, 𝑗)max(𝑆𝑐𝑜𝑟𝑒) min(𝑆𝑐𝑜𝑟𝑒)我們采用修正的綜合指標作為分數(shù)修正值的,數(shù)值的含義為某個具體分數(shù)在整體評分中的一個相對位置,數(shù)值范圍在所有評分的最大與最小值之間。5.3 智能推薦模型定義矩陣 History 表示用戶對書籍的閱讀情況。𝐻𝑖𝑠𝑡𝑜𝑟𝑦(𝑖, &

36、#119895;) = 0用戶 i 未閱讀書籍j1用戶 i 已閱讀書籍j𝐻11𝐻𝑖1𝐻1𝑗𝐻𝑖𝑠𝑡𝑜𝑟𝑦 = 𝐻𝑖𝑗定義矩陣Score 為得分矩陣。Score(i,j) 表示用戶 i 對書籍 j 的評價值。記 M 為一新矩陣,其中m(i, j) = score(i, j) × history(i, j)智能推薦系統(tǒng)致力于為用戶推薦 K(k=1,2,

37、3,n)個從未閱讀過的書籍。推薦系統(tǒng)的主要思想為,對所有的可能推薦的書籍的打分項進行排序,根據(jù)排序結(jié)果系統(tǒng)自動進行推薦。詳細步驟如下:Step1:賦值 i,j,k=1,maxStep2:M 矩陣第 i 列最大值列表,并設(shè)為第K 個推薦結(jié)果。Step3:第 i 行第 C 列清零,并使k=k+1 直至 k>max Step4:返回 Step26. 模型求解6.1 問題一:評分因素經(jīng)過建立復(fù)雜網(wǎng)絡(luò)模型和因子分析模型,影響用戶評分的因素主要有三大類,分別是用戶評價特征、書籍受評特征、用戶書籍釋如下:1、用戶評價特征特征。它們的細分指標解(1) 評價均值:目標用戶所產(chǎn)生的歷史評價(2) 評價偏移量

38、:目標用戶所產(chǎn)生的各歷史評價的均值。的離差絕對值的平均數(shù)。(3) 評價調(diào)整均值:評價均值與復(fù)雜網(wǎng)絡(luò)中任意兩個結(jié)點的最短距離的比值。(4) 評價調(diào)整偏移量:評價偏移量與復(fù)雜網(wǎng)絡(luò)任意兩結(jié)點的最短距離的比值。2、書籍受評特征9(1) 受評均值:目標書籍被用戶評價的歷史(2) 受評偏移量:目標書籍被用戶評價的歷史的均值。的離差絕對值的平均數(shù)。(3) 受評調(diào)整均值:受評均值與復(fù)雜網(wǎng)絡(luò)中任意兩個結(jié)點的最短距離的比值。(4) 受評調(diào)整偏移量:受評偏移量與復(fù)雜網(wǎng)絡(luò)任意兩結(jié)點的最短距離的比值。3、用戶書籍特征(1) 用戶書籍適應(yīng)度:在交叉網(wǎng)絡(luò)模型中目標用戶與目標書籍兩結(jié)點之間的緊密程度,即兩結(jié)點之間的最短距離。

39、(2) 用戶影響力:分為用戶閱讀影響力和評價影響力,該影響力即為其他結(jié)點用過網(wǎng)絡(luò)關(guān)聯(lián)傳遞效應(yīng)后對目標結(jié)點所產(chǎn)生的影響程度總和。(3) 用戶強度:為相對閱讀強度和相對評價強度之和,取自于用戶閱讀次數(shù)和用戶評價次數(shù)。(4) 書籍影響力:為書籍被閱讀和被評價的影響力的總和,即其他結(jié)點用過網(wǎng)絡(luò)關(guān)聯(lián)傳遞效應(yīng)后對目標結(jié)點所產(chǎn)生的影響程度總和。(5) 書籍強度:為書籍的相對閱讀強度和相對評價強度之和,取自于目標書籍被用戶閱讀次數(shù)和評價次數(shù)。6.2 問題二:評價6.2.1 復(fù)雜網(wǎng)絡(luò)構(gòu)建題目中數(shù)據(jù)建立分層復(fù)雜網(wǎng)絡(luò)模型,由于數(shù)據(jù)用戶數(shù)和書籍數(shù)目較大, 不利于畸形完整網(wǎng)絡(luò)的計算。由于模型中只是利用結(jié)點間的最短路徑進

40、行評估, 所以局部拓撲圖 的構(gòu)建已 經(jīng)是以進行 結(jié)點間路徑 的評估。 我們選取7245481 ,7625225, 4156658, 5997834, 9214078 和 251537 六個待評價結(jié)點以及與它們相隔結(jié)點不超過兩個的所有用戶共 1168 個,選取待評價的 34 本書籍為第二層結(jié)點,對它們進行統(tǒng)一編號如下表:表 1 編號分類6.2.2 數(shù)據(jù)準備基于上述復(fù)雜網(wǎng)絡(luò)模型,利用Floyd 算法求解出用戶書籍的最短距離,并基于此可求得結(jié)點影響力以及結(jié)點的相對強度等指標,部分的計算數(shù)據(jù)如下所示(完整表格見附錄):表 2 因素一覽表10編號X1X2X3X4X5X6X7X8X9X10X11X12X1

41、313.350.544.220.5314.580.630.580.770.860.230.040.290.0423.350.543.930.3817.140.630.580.490.370.20.030.230.0233.350.544.280.4916.250.630.5810.850.210.030.260.0343.350.544.230.4416.250.630.580.850.730.210.030.260.0353.350.543.930.1622.50.630.580.010.20.150.020.170.0163.350.543.870.5516.250.630.580.420

42、.490.210.030.240.0373.890.723.830.3919.640.830.60.010.130.20.040.190.02結(jié)點類型編號用戶11168書籍11681202注 1:X1,X2,X3,X13 為 13 個相關(guān)因素的指標,具體含義前文中已經(jīng)解釋過; 注 2:表格中編號依次表示題目中要求的評價組合序列;注 3:完整表格見附錄。6.2.3 因子分析對上述 13 列數(shù)據(jù)利用 SPSS 進行因子分析,首先對其進行相關(guān)系數(shù)及 KMO 和 Bartlett 檢驗,相關(guān)矩陣及相關(guān)矩陣的逆矩陣的詳細結(jié)果見附錄。KMO 和Bartlett 的檢驗如下表所示:表 3 KMO 和 Bar

43、tlett 的檢驗在附錄的相關(guān)矩陣的表格中可以得到相關(guān)系數(shù)絕大多數(shù)均在 0.4 以上,具有相關(guān)性,且 KMO 和 Bartlett 的檢驗中的 sig 值為 0,所以拒絕相關(guān)系數(shù)為 0 的原假設(shè)。說明變量間存在相關(guān)性,可以做因子分析處理。表 4 公因子方差由上表可知,公共因子對各項指標方差的反應(yīng)程度都達到了 0.85 以上,用因子來表示 13 項指標是可行的且程度較高。下表為 SPSS 提取因子解釋的總方差。表 5 解釋的總方差四11成份初始特征值提取平方和載入合計方差的 %累積 %合計方差的 %累積 %15.08539.11539.1155.08539.11539.11523.44226.4

44、7965.5943.44226.47965.59431.42210.93576.5291.42210.93576.52941.39110.70287.2311.39110.70287.2315.8856.80494.0356.4243.26597.3007.2051.57998.8798.070.53899.417指標初始提取指標初始提取x11.0000.739x81.0000.729x21.0000.877x91.0000.893x31.0000.753x101.0000.924x41.0000.872x111.0000.929x51.0000.931x121.0000.984x61.000

45、0.926x131.0000.895x71.0000.888取樣足夠度的 Kaiser-Meyer-Olkin 度量。0.577近似卡方789.969Bartlett 的球形度檢驗Df78Sig.0.00083.890.724.040.214.220.830.60.780.540.270.050.280.0193.890.723.730.4915.880.830.60.350.150.240.050.230.03103.890.723.80.3818.330.830.60.250.010.210.040.210.02上表中第一列為特征值(主成分的方差),第二列為各個主成分的貢獻率,第三列為累積

46、貢獻率,由上表看出前 4 個主成分的累計貢獻率就達到了87.231%>85%,所以選取主成分個數(shù)為 4。選 x1 為第一主成分,x2 為第二主成分,x3 為第三主成分。且這四個主成分的方差和占全部方差的 87.231%,即基本上保留了原來指標的信息。這樣由原來的 13 個指標變?yōu)榱?4 個指標。圖 4 碎石圖上圖為因子分析法碎石圖,可見因子數(shù)達到 4 以上時,特征值小于 1,特征值的變化曲線趨于平緩,所以由碎石圖也可大致確定出主成分個數(shù)為 4。與按累計貢獻率確定的主成分個數(shù)是一致的。表 6成份得分系數(shù)矩陣12成份1234x1-0.0980.0540.317-0.363x2-0.024-0

47、.1850.4380.187x30.0700.227-0.085-0.026x40.0840.1320.1960.459x5-0.1820.051-0.0390.137x60.141-0.150-0.2590.062x70.153-0.113-0.2560.005x80.0850.2000.130-0.126x90.0590.2550.116-0.041x100.143-0.0370.183-0.402x110.097-0.1800.3840.027x120.189-0.001-0.013-0.172x130.1470.0850.1400.3309.051.38999.80610.014.11

48、199.91711.006.04499.96112.004.03299.99213.001.008100.00上述表格代表了各指標與公共因子的線性關(guān)系,上述數(shù)據(jù)了A 矩陣的元素,由上述表格可求得各公共因子見表 7。為了評價各項用戶-書籍評分,取各因子的方差貢獻率為權(quán)重對因子加總得到各評分如下表所示:表 7公共因子和評分結(jié)果表6.3 智能推薦13用戶 ID書籍 IDf1f2f3f4ff 修正后評價得分2515537900197 1.200.780.751.281.030.994.982515537680158 -0.16-0.47-0.461.07-0.140.483.9625155377703

49、09 0.771.050.291.160.850.914.822515537424691 0.570.650.050.950.580.804.602515537573732 -1.68-1.10-2.120.78-1.260.004.002515537210973 0.32-0.240.252.080.360.704.404156658175031 -0.79-1.660.601.38-0.610.282.564156658422711 0.63-1.171.74-1.63-0.060.524.044156658585783 0.28-1.621.911.210.020.564.1241566

50、58412990 -0.53-1.760.870.96-0.540.314.004156658134003 0.64-1.512.03-0.640.000.553.204156658443948 -0.81-1.830.24-0.42-0.940.143.145997834346935 -1.300.950.86-1.73-0.400.373.745997834144718 -0.882.071.360.100.420.734.465997834827305 -1.480.620.90-0.01-0.360.394.395997834219560 -0.731.731.49-0.210.360

51、.704.405997834242057 -1.351.100.84-0.28-0.200.463.925997834803508 -1.860.130.35-0.93-0.870.173.177245481794171 1.05-0.25-0.74-0.170.280.674.347245481381060 1.620.47-0.29-0.320.800.894.787245481776002 1.491.31-0.400.301.051.005.007245481980705 1.72-0.14-0.15-0.460.660.834.667245481354292 1.30-0.65-0.

52、36-1.440.160.624.247245481738735 1.27-0.54-0.71-2.140.050.574.147625225473690 0.12-0.28-0.651.160.030.564.127625225929118 -0.09-0.31-1.270.26-0.260.434.437625225235338 0.280.32-0.850.290.150.614.227625225424691 0.590.82-0.580.800.540.784.567625225916469 0.48-0.17-0.56-0.300.050.574.147625225793936 0

53、.160.12-1.06-0.14-0.040.534.069214078310411 0.320.950.050.010.440.744.489214078727635 -0.82-0.74-1.20-1.12-0.880.164.009214078724917 -1.680.34-1.660.51-0.800.203.409214078325721 -0.46-0.22-0.82-1.49-0.560.303.609214078105962 0.100.53-0.17-0.310.150.614.229214078235338 -0.320.73-0.54-0.56-0.060.524.0

54、46.3.1 構(gòu)建網(wǎng)絡(luò)題目中的六個用戶進行推薦活動,首先需要構(gòu)建基于用戶社交的復(fù)雜分層網(wǎng)絡(luò),有于距離太遠的書籍和用戶適應(yīng)度較差,對智能推薦效果不佳,所以建立局部的拓撲網(wǎng)絡(luò)進行智能推薦。選取與目標用戶相鄰的用戶結(jié)點以及所有與其關(guān)林的書籍結(jié)點情如下:一個網(wǎng)絡(luò),其中書籍結(jié)點 2434 個,用戶結(jié)點 78 個,詳表 8 編號分配網(wǎng)絡(luò)的局部鄰接矩陣(局部) 5631731312318318888931910386910 31 3131 𝑃𝑎𝑡(𝑖, 𝑗) = 5610 10 10 10 362 6 38656最短距離矩陣(局

55、部): 17.1412.507.1410.008.3333.336.670.0012.5014.2917.6945.8310.0012.500.006.678.3338.604.7614.296.670.0011.1141.307.1417.69 7.148.33 min𝑑(𝑖, 𝑗) = 10.0011.11 0.00 40.00 9.09 11.11 40.48 8.33通過進行復(fù)雜網(wǎng)絡(luò)計算,根據(jù) 13 類因素指標并沿用問題二中的權(quán)重比例預(yù)測出用戶對所有書籍的評分。利用智能推薦算法進行推薦,結(jié)果如下表:表 9 推薦結(jié)果表7. 模型總結(jié)7.1

56、模型優(yōu)點(1) 該模型充分利用社交網(wǎng)絡(luò)信息對書籍和用戶的適應(yīng)性進行評價,能夠在評價和推薦過程中基于數(shù)據(jù)關(guān)聯(lián)分析。14用戶 ID推薦一推薦二推薦三書籍 ID最短路徑書籍 ID最短路徑書籍 ID最短路徑251553769857316.2551601218.7570964418.75415665869857315.8851601218.3870964418.38599783479417123.4528455034.3228455036.74724548170269924.5696272929.1364225631.78762522569857316.2551601218.7570964418.759

57、21407877600227.2555164332.2551037232.25結(jié)點類型編號用戶178書籍792512(2) 本文在書籍關(guān)聯(lián)評分過程中綜合考慮,用戶打分習(xí)慣,書籍受評特征,用戶和面共計 13 種指標,較全面地反映了用戶與書籍間的關(guān)聯(lián)強度,且對每一個結(jié)點根據(jù)網(wǎng)絡(luò)重要性賦予強度值,立足于社交網(wǎng)絡(luò)來評價書籍。(3) 本文在評分模型中采用因子分析法,解決了指標間多重共線性的問題生成了 4共因子,并以其對方差的貢獻率為權(quán)重得到綜合指標,較準確地衡量了讀者對書籍的評價。(4) 智能推薦模型中,建立局部網(wǎng)絡(luò)拓撲結(jié)構(gòu)先便利整個拓撲圖對指定用戶利用綜合指標評價,再優(yōu)先選擇評價較高的書籍作為推薦結(jié)果,實現(xiàn)了推薦的智能, 客觀,全面。7.2 模型缺點(1)模型是基于社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)進行的評價撲結(jié)構(gòu)較為復(fù)雜且很難實現(xiàn)全網(wǎng)的最有評估。和智能推薦,但社交網(wǎng)絡(luò)拓(2)該

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論