基于本體結(jié)構(gòu)的新聞個性化推薦_第1頁
基于本體結(jié)構(gòu)的新聞個性化推薦_第2頁
基于本體結(jié)構(gòu)的新聞個性化推薦_第3頁
基于本體結(jié)構(gòu)的新聞個性化推薦_第4頁
基于本體結(jié)構(gòu)的新聞個性化推薦_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于本體結(jié)構(gòu)的新聞個性化推薦目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本體結(jié)構(gòu)基于本體結(jié)構(gòu)的相似度模型詞條相似度新聞-用戶相似度基于X-Ontology的相似度模型X-meansX-Ontology新聞用戶相似度實驗及評估總結(jié)利用本體結(jié)構(gòu)的特性引入語義相關(guān)性模型現(xiàn)有研究&本文創(chuàng)新基于內(nèi)容的過濾被廣泛應(yīng)用于新聞個性化推薦中利用本體結(jié)構(gòu)中的詞條對新聞和用戶進(jìn)行建模使用余弦相似度或者Jaccard相關(guān)系數(shù)來衡量新聞和用戶之間的相關(guān)度研究缺陷沒有考慮兩者之間的語義聯(lián)系本體結(jié)構(gòu)針對特定領(lǐng)域,覆蓋面有限研究現(xiàn)狀本文創(chuàng)新在本體結(jié)構(gòu)上對新聞和用戶建模,利用本體結(jié)構(gòu)衡量二者之間的語義相似度設(shè)計X-Ontology聚類算法進(jìn)行去噪處理,在此基礎(chǔ)上提出基于X-Ontology的相似度模型,在保證模型更加準(zhǔn)確的同時,降低模型計算的復(fù)雜度利用在線的百科知識庫自動構(gòu)建大型的、覆蓋面廣的本體結(jié)構(gòu)余弦相似度最常見的應(yīng)用就是計算文本相似度。將兩個文本根據(jù)他們詞,建立倆個向量,計算這兩個向量的余弦值,就可以知道兩個文本在統(tǒng)計學(xué)方法中他們的相似度情況

目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本體結(jié)構(gòu)基于本體結(jié)構(gòu)的相似度模型詞條相似度新聞-用戶相似度基于X-Ontology的相似度模型X-meansX-Ontology新聞用戶相似度實驗及評估總結(jié)本體是共享的概念模型的形式化的規(guī)范說明1

基于在線百科的本體結(jié)構(gòu)本體結(jié)構(gòu)定義給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義概念模型的明確的規(guī)范說明共享概念模型的明確的形式化規(guī)范說明四個主要方面:

概念化:客觀世界的現(xiàn)象的抽象模型

明確:概念及它們之間聯(lián)系都被精確定義

形式化:精確的數(shù)學(xué)描述

共享:本體中反映的知識是其使用者共同認(rèn)可的

目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本體結(jié)構(gòu)基于本體結(jié)構(gòu)的相似度模型詞條相似度新聞-用戶相似度基于X-Ontology的相似度模型X-meansX-Ontology新聞用戶相似度實驗及評估總結(jié)將詞條投影到本體結(jié)構(gòu)上計算其相似度2

基于本體機構(gòu)的相似度模型Inside&OutsideSources將本體結(jié)構(gòu)中所有的詞條組成一個詞典,利用該詞典對新聞和用戶閱讀歷史進(jìn)行分詞,并分別表示成兩個詞條的集合;總體思路將本體結(jié)構(gòu)中所有的詞條組成一個詞典,利用該詞典對新聞和用戶閱讀歷史進(jìn)行分詞,并分別表示成兩個詞條的集合將兩個詞條集合分別投影到本體結(jié)構(gòu)上在本體結(jié)構(gòu)上比較兩個詞條集合的相似度建立詞條假設(shè)本體結(jié)構(gòu)包含n個詞條,將本體結(jié)構(gòu)表示成:對于每一篇新聞,只考慮該新聞中包含的詞條:對于每個用戶,將該用戶閱讀過的新聞集合作為其興趣內(nèi)容:將詞條投影到本體結(jié)構(gòu)上計算其相似度2

基于本體機構(gòu)的相似度模型兩個詞條的語義相似度:詞條相似度將詞條投影到本體結(jié)構(gòu)上計算其相似度2.1詞條相似度&2.2新聞-用戶相似度新聞用戶相似度:新聞-用戶相似度目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本體結(jié)構(gòu)基于本體結(jié)構(gòu)的相似度模型詞條相似度新聞-用戶相似度基于X-Ontology的相似度模型X-meansX-Ontology新聞用戶相似度實驗及評估總結(jié)用聚類方法降低重復(fù)節(jié)點3基于X-Ontology的相似度模型重復(fù)節(jié)點用戶感興趣的內(nèi)容投影到本體結(jié)構(gòu),多個重復(fù)節(jié)點被標(biāo)記,由于重復(fù)節(jié)點所在的位置不同,每個重復(fù)節(jié)點都會被用于比較,降低算法效率孤立節(jié)點出現(xiàn)次數(shù)低的詞條在本體結(jié)構(gòu)上,詞條周圍一步以內(nèi)的詞條都沒有出現(xiàn)在用戶興趣內(nèi)容中算法改進(jìn)引入聚類分析3.1X-meansK均值算法步驟隨機選取k個對象作為初始的聚類中心計算每個對象與各個聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心,聚類中心以及分配給它們的對象就代表一個聚類根據(jù)聚類中現(xiàn)有的對象重新計算聚類中心不斷重復(fù)步驟3、4直到聚類中心不再變化K均值不足需要人工指定K值及初始聚類中心,只得到局部最優(yōu)解改進(jìn)的X均值算法

引入聚類分析3.2X-OntologyX-means不足X-means中的聚類中心定義為所有數(shù)據(jù)點的幾何中心,但是在本體結(jié)構(gòu)上卻無法直接這樣定義所處理的數(shù)據(jù)點之間沒有任何聯(lián)系,而在本體結(jié)構(gòu)中,結(jié)點之間存在若干聯(lián)系提出X-Ontology在X-Ontology算法中,聚類中心被定義為該類中所有結(jié)點的最近公共祖先步驟:初始聚類,將根結(jié)點下的每一個分支作為一個類,并更新每個類的聚類中心聚類分裂,計算每個類的BIC(K=1),然后嘗試將其分裂成兩類,并計算BIC(K=2)模型評估,如果BIC(K=2)>BIC(K=1),則分裂成兩類;否則嘗試失敗,不對該類進(jìn)行分裂X-Ontology具體步驟3.2X-Ontology用詞條聚類更新2.2的相似度模型3.3新聞用戶相似度新聞-用戶相似度目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本體結(jié)構(gòu)基于本體結(jié)構(gòu)的相似度模型詞條相似度新聞-用戶相似度基于X-Ontology的相似度模型X-meansX-Ontology新聞用戶相似度實驗及評估總結(jié)選取實驗數(shù)據(jù)和對比模型4實驗及評估實驗數(shù)據(jù)英文數(shù)據(jù)集利用DBPedia構(gòu)建英文本體結(jié)構(gòu),該本體結(jié)構(gòu)中包含360萬個詞條。實驗所用新聞數(shù)據(jù)收集自NewYorkTimes(http://)2006—2007年的6000篇新聞,涵蓋國際、社會、體育、科技、教育、醫(yī)療、時尚等多個領(lǐng)域中文數(shù)據(jù)集基于互動百科構(gòu)建中文本體結(jié)構(gòu),該本體結(jié)構(gòu)包含500萬個詞條。中文新聞數(shù)據(jù)通過網(wǎng)絡(luò)爬蟲,每天從新浪網(wǎng)(http://)收集6000條新聞,并覆蓋了多個領(lǐng)域,截至目前為止,系統(tǒng)共擁有中文新聞10.8萬條實驗對比算法OntologyX-OntologyCF-IDFJaccardCF-IDF和Jaccard算法利用詞袋模型對用戶興趣內(nèi)容和新聞內(nèi)容建模,并用余弦相似度和Jaccard相關(guān)系數(shù)衡量新聞和用戶相似度4.1實驗設(shè)置

實驗步驟系統(tǒng)隨機選擇400篇新聞給用戶,用戶根據(jù)自己的興趣愛好標(biāo)記每一篇新聞為感興趣或不感興趣400篇標(biāo)記了感興趣和不感興趣的新聞被系統(tǒng)隨機分為兩部分,60%作為訓(xùn)練集,40%作為測試集對于每個用戶,系統(tǒng)將訓(xùn)練集中用戶標(biāo)記為感興趣的新聞作為該用戶的興趣內(nèi)容。使用不同模型計算測試集中的新聞與該用戶的相似度,并根據(jù)給定的閾值,將相似度超過閾值的新聞標(biāo)記為感興趣對于測試集中的每一篇新聞,對比人工標(biāo)記和機器標(biāo)記的數(shù)據(jù),計算準(zhǔn)確率、召回率和F值為了使實驗結(jié)果更加準(zhǔn)確,系統(tǒng)重復(fù)上述步2000次,每一次隨機劃分的訓(xùn)練集和測試集都不一樣

OBSM和X-OBSM利用本體結(jié)構(gòu),提供了更加合理的相似度計算4.2準(zhǔn)確率、召回率、F值對比

4.2準(zhǔn)確率、召回率、F值對比

設(shè)置不同的推薦閾值,使用F值曲線展現(xiàn)各模型的效果。X-OBSM具有最好的效果中文本體結(jié)構(gòu)含有更多重復(fù)節(jié)點4.3準(zhǔn)確率-召回率曲線在英文試驗中,X-OBSM比OBSM效果略好一些,但在中文試驗中有明顯優(yōu)勢;OBSM在中文實驗中比英文效果略差一些。本體構(gòu)造的中文本體結(jié)構(gòu)比英文本體結(jié)構(gòu)質(zhì)量稍差,前者具有更多的重復(fù)節(jié)點目錄背景介紹:現(xiàn)有研究&本文創(chuàng)新相似度模型基于在線百科的本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論