基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型研究_第1頁(yè)
基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型研究_第2頁(yè)
基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型研究_第3頁(yè)
基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型研究_第4頁(yè)
基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型研究_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、    基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型研究          摘要:數(shù)字圖書(shū)館傳統(tǒng)信息過(guò)濾技術(shù)有很大的局限性?;陬I(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型最大的特點(diǎn)在于它保留了概念之間以及概念屬性之間的關(guān)系,能夠在復(fù)雜語(yǔ)義層次進(jìn)行邏輯推理。該模型實(shí)現(xiàn)的關(guān)鍵問(wèn)題在于基于領(lǐng)域本體的資源評(píng)價(jià)值轉(zhuǎn)化和基于領(lǐng)域本體的匹配。 關(guān)鍵詞:數(shù)字圖書(shū)館,信息過(guò)濾,領(lǐng)域本體 1.數(shù)字圖書(shū)館傳統(tǒng)信息過(guò)濾技術(shù)的局限性 針對(duì)數(shù)字圖書(shū)館“信息過(guò)載”的問(wèn)題,如何幫助用戶

2、濾除與興趣無(wú)關(guān)的資源已成為當(dāng)前研究的重點(diǎn)課題。近幾年,在國(guó)外興起的信息過(guò)濾技術(shù)成為解決這一問(wèn)題的重要手段。目前,信息過(guò)濾技術(shù)主要分為兩類(lèi):一類(lèi)是基于內(nèi)容的過(guò)濾;另一類(lèi)是協(xié)作過(guò)濾。 基于內(nèi)容的過(guò)濾假定每個(gè)用戶是相互獨(dú)立操作的,因此,過(guò)濾的結(jié)果只取決于資源與用戶興趣模型的匹配程度,即利用資源與用戶興趣的相似性來(lái)過(guò)濾資源。系統(tǒng)通過(guò)學(xué)習(xí)用戶評(píng)價(jià)過(guò)的資源特征來(lái)獲得對(duì)用戶興趣的描述。這種技術(shù)的優(yōu)點(diǎn)是簡(jiǎn)單、有效,缺點(diǎn)是難以發(fā)現(xiàn)用戶新的興趣,只能發(fā)現(xiàn)和用戶已有興趣相似的資源。另外,從實(shí)現(xiàn)方法來(lái)看,基于內(nèi)容的過(guò)濾通常利用關(guān)鍵詞來(lái)表征資源,進(jìn)而基于關(guān)鍵詞來(lái)描述用戶興趣。然而,關(guān)鍵詞無(wú)法深層次地揭示資源所

3、涉及的各種對(duì)象之間的復(fù)雜關(guān)系,如數(shù)字圖書(shū)館中的圖書(shū)、作者和出版社之間的關(guān)系就會(huì)被丟失。由此,這種方法所描述的用戶興趣模型存在很多盲區(qū),而一些有價(jià)值的資源就可能被錯(cuò)誤過(guò)濾。 協(xié)作過(guò)濾的出發(fā)點(diǎn)在于任何人的興趣不是孤立的,而是處于某個(gè)群體中。這種技術(shù)的關(guān)鍵是根據(jù)用戶對(duì)資源的評(píng)價(jià)進(jìn)行用戶聚類(lèi),進(jìn)而依據(jù)與用戶興趣最為相似的用戶組的共同興趣來(lái)判斷該用戶的興趣。其最大優(yōu)點(diǎn)是能夠發(fā)現(xiàn)用戶新的興趣,而且由于不依賴(lài)于資源內(nèi)容,不僅適用于文本資源,而且還可以廣泛應(yīng)用于多媒體資源。但是,從方法層次來(lái)看,協(xié)作過(guò)濾技術(shù)并沒(méi)有對(duì)資源作更為細(xì)致的表征,始終是基于資源層次來(lái)描述用戶興趣,最終所生成的用戶興趣模型的盲區(qū)

4、會(huì)更多。同時(shí),也導(dǎo)致該種技術(shù)面臨一些難以解決的問(wèn)題:“稀疏性”問(wèn)題,即如果用戶一般都只對(duì)很少的資源進(jìn)行評(píng)價(jià),那么整個(gè)數(shù)據(jù)陣將變得非常稀疏,這種情況帶來(lái)的問(wèn)題就是用戶間相似性的比較不準(zhǔn)確;“冷開(kāi)始”問(wèn)題,又稱(chēng)新資源問(wèn)題,即如果一個(gè)新資源沒(méi)有用戶評(píng)價(jià),那么這個(gè)資源就往往被系統(tǒng)過(guò)濾了,無(wú)論它對(duì)當(dāng)前用戶是否有價(jià)值;“灰色綿羊”問(wèn)題,即一位用戶游離于不同用戶組之間,無(wú)法對(duì)該用戶的興趣進(jìn)行準(zhǔn)確定位;“可擴(kuò)展性”問(wèn)題,即隨著用戶和資源的增多,系統(tǒng)性能會(huì)越來(lái)越低。 同時(shí),基于內(nèi)容的過(guò)濾和協(xié)作過(guò)濾都不能實(shí)現(xiàn)領(lǐng)域之間的相似性比較。主要原因是,在不同的領(lǐng)域,資源的表示方法很可能是不同的,從而增加了跨領(lǐng)域相

5、似性比較的難度。比如,在描述圖書(shū)時(shí),就可能不會(huì)采用與電影相同的表示方法。然而,用戶的興趣在某個(gè)范圍內(nèi)是基本一致的,比如喜歡科幻圖書(shū)的用戶可能對(duì)科幻電影也感興趣。 此外,有學(xué)者綜合基于內(nèi)容的過(guò)濾和協(xié)作過(guò)濾兩種技術(shù)的優(yōu)點(diǎn),提出了在數(shù)字圖書(shū)館中采用基于混合模式的信息過(guò)濾模型。雖然這種混合模式在一定程度上能夠提高信息過(guò)濾系統(tǒng)的性能,但是兩種技術(shù)自身所存在的問(wèn)題還是沒(méi)有得到根本解決。 2.基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型 領(lǐng)域本體是用于描述指定領(lǐng)域知識(shí)的一種專(zhuān)門(mén)本體,它給出了領(lǐng)域?qū)嶓w概念及相互關(guān)系、領(lǐng)域活動(dòng)以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述。領(lǐng)域本體確定了該領(lǐng)

6、域內(nèi)共同認(rèn)可的概念的明確定義,通過(guò)概念之間的關(guān)系描述了概念的語(yǔ)義,這使得用戶之間以及用戶與機(jī)器之間的交互不僅能夠基于語(yǔ)法層次,而且還可以基于復(fù)雜的語(yǔ)義層次。將領(lǐng)域本體應(yīng)用到信息過(guò)濾中,可以有效彌補(bǔ)傳統(tǒng)過(guò)濾技術(shù)的諸多不足。圖1描述了基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型,該模型揭示了三種過(guò)濾函數(shù)的生成方法。其中,過(guò)濾函數(shù)和的產(chǎn)生,類(lèi)似于協(xié)作過(guò)濾,過(guò)濾函數(shù)的生成,類(lèi)似于基于內(nèi)容的過(guò)濾。  首先,利用本體理論構(gòu)建數(shù)字圖書(shū)館領(lǐng)域本體。這一環(huán)節(jié)是模型的基礎(chǔ)。其次,依據(jù)不同用戶對(duì)資源庫(kù)中相關(guān)資源的評(píng)價(jià)值(如果對(duì)某種資源的評(píng)價(jià)為空,即用戶沒(méi)有評(píng)價(jià),則需要進(jìn)行一定的技術(shù)處理),對(duì)用戶進(jìn)行聚類(lèi)

7、,形成A個(gè)用戶組,使得用戶興趣的相似性在同一用戶組之間最大化,而在不同用戶組之間最小化,并利用每個(gè)聚類(lèi)的質(zhì)心點(diǎn)矢量來(lái)表征該用戶組對(duì)資源庫(kù)中相關(guān)資源的評(píng)價(jià)值。再次,利用數(shù)字圖書(shū)館領(lǐng)域本體,將不同用戶組對(duì)資源庫(kù)中相關(guān)資源的評(píng)價(jià)值轉(zhuǎn)化為對(duì)概念集中不同概念的評(píng)價(jià)值。同樣,用戶A對(duì)資源庫(kù)中相關(guān)資源的評(píng)價(jià)值也可以轉(zhuǎn)化為對(duì)概念集中不同概念的評(píng)價(jià)值。最后,基于對(duì)不同概念的評(píng)價(jià),將用戶A與不同的用戶組進(jìn)行匹配,找到與用戶A興趣最為相似的用戶組,并利用該用戶組對(duì)各種概念的評(píng)價(jià)值來(lái)判斷用戶A的興趣,進(jìn)而生成過(guò)濾函數(shù)。 當(dāng)然,還可以考慮利用數(shù)字圖書(shū)館領(lǐng)域本體,直接將不同用戶對(duì)資源庫(kù)中相關(guān)資源的評(píng)價(jià)值轉(zhuǎn)化為對(duì)

8、概念集中不同概念的評(píng)價(jià)值,然后再對(duì)用戶進(jìn)行聚類(lèi),形成k個(gè)用戶組,并利用聚類(lèi)的質(zhì)心點(diǎn)矢量來(lái)表征該用戶組對(duì)概念集中相關(guān)概念的評(píng)價(jià)值。同樣,基于對(duì)不同概念的評(píng)價(jià),將用戶A與不同的用戶組進(jìn)行匹配,找到與用戶A興趣最為相似的用戶組,并利用該用戶組對(duì)各種概念的評(píng)價(jià)值來(lái)判斷用戶A的興趣,進(jìn)而生成過(guò)濾函數(shù)。 此外,還可以依據(jù)用戶A對(duì)概念集中不同概念的評(píng)價(jià)值,直接在數(shù)字圖書(shū)館領(lǐng)域本體中尋找相似或相關(guān)的概念及其實(shí)例,以形成對(duì)用戶A興趣的判斷,進(jìn)而生成過(guò)濾函數(shù)。 過(guò)濾函數(shù)產(chǎn)生之后,數(shù)字圖書(shū)館信息過(guò)濾系統(tǒng)便可以幫助用戶A濾掉沒(méi)有價(jià)值的資源。同時(shí),該模型還會(huì)利用反饋功能進(jìn)行學(xué)習(xí),不斷優(yōu)化過(guò)濾函數(shù)。&

9、#160;3.基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型的優(yōu)勢(shì) 基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型最大的特點(diǎn),在于它保留了概念之間以及概念屬性之間的關(guān)系,能夠在復(fù)雜語(yǔ)義層次進(jìn)行邏輯推理。由此,相對(duì)于傳統(tǒng)的信息過(guò)濾技術(shù)而言,它具有以下優(yōu)勢(shì): 第一,基于內(nèi)容的過(guò)濾主要是利用關(guān)鍵詞來(lái)揭示資源庫(kù)中資源的特征,協(xié)作過(guò)濾中沒(méi)有對(duì)資源作任何層次的細(xì)分,而基于領(lǐng)域本體的過(guò)濾將資源以概念及其關(guān)系的形式進(jìn)行表示,由此形成的用戶興趣模型能夠更深刻地描述用戶興趣,進(jìn)而減少過(guò)濾函數(shù)的盲區(qū)。比如,在一個(gè)包含網(wǎng)絡(luò)課程資源的數(shù)字圖書(shū)館中,用戶的歷史評(píng)價(jià)已經(jīng)表明他對(duì)Java感興趣,如果基于領(lǐng)域本體進(jìn)行邏輯推理,

10、那么用戶的興趣應(yīng)當(dāng)包含“學(xué)習(xí)Java課程所必需的先行課程”和“最好的Java課程老師”等方面,而不是簡(jiǎn)單地理解為“Java這門(mén)課程”。 第二,基于領(lǐng)域本體的過(guò)濾可以減輕協(xié)作過(guò)濾中的“稀疏性”問(wèn)題,因?yàn)樗试S用戶之間、用戶和用戶組之間進(jìn)行模糊匹配,提供了更大的靈活性。用戶之間、用戶和用戶組之間相似性的比較可以是基于有相似屬性的不同對(duì)象(例如,同一作者的不同小說(shuō),同一類(lèi)型的電影和圖書(shū))。由此,在原始評(píng)價(jià)數(shù)據(jù)比較稀少的情形下,利用協(xié)作過(guò)濾方法計(jì)算用戶之間、用戶和用戶組之間的相似性,其準(zhǔn)確度相對(duì)較低,如果能夠利用部分資源的語(yǔ)義屬性進(jìn)行相似性比較,無(wú)疑可以提高其準(zhǔn)確度,進(jìn)而減輕“稀疏性”問(wèn)題。

11、 第三,基于領(lǐng)域本體的過(guò)濾可以依據(jù)用戶對(duì)概念集中不同概念的評(píng)價(jià)值,直接在數(shù)字圖書(shū)館領(lǐng)域本體中尋找相似或相關(guān)的概念及其實(shí)例,由此可以解決協(xié)作過(guò)濾中的“冷開(kāi)始”問(wèn)題。比如,當(dāng)用戶對(duì)某本圖書(shū)做出了較高的評(píng)價(jià)后,基于領(lǐng)域本體的過(guò)濾模型可以利用該圖書(shū)的類(lèi)型、作者以及出版社等屬性來(lái)推導(dǎo)該用戶的興趣(例如,同一出版社的相關(guān)圖書(shū)、同一類(lèi)型的其他圖書(shū))。由此,基于領(lǐng)域本體的過(guò)濾模型可以直接分析當(dāng)前用戶的興趣,即使某本圖書(shū)沒(méi)有被任何用戶評(píng)價(jià)過(guò),只要它屬于當(dāng)前用戶的興趣范圍,就不會(huì)被過(guò)濾掉,進(jìn)而避免“冷開(kāi)始”問(wèn)題。 第四,協(xié)作過(guò)濾中主要是依據(jù)用戶對(duì)資源的評(píng)價(jià)來(lái)進(jìn)行相似性的比較,在實(shí)際應(yīng)用過(guò)程中,

12、可能會(huì)產(chǎn)生“灰色綿羊”問(wèn)題。而基于領(lǐng)域本體的過(guò)濾,將不同用戶(組)對(duì)資源庫(kù)中相關(guān)資源的評(píng)價(jià)值轉(zhuǎn)化為對(duì)概念集中不同概念的評(píng)價(jià)值之后,能夠利用概念之間以及概念屬性之間的關(guān)系全面深刻地揭示用戶(組)的興趣,以此為基礎(chǔ)進(jìn)行的相似性比較也將更為準(zhǔn)確,進(jìn)而可以在很大程度上避免“灰色綿羊”問(wèn)題的出現(xiàn)。 第五,基于領(lǐng)域本體的過(guò)濾能夠?qū)崿F(xiàn)跨領(lǐng)域的匹配,有效彌補(bǔ)了傳統(tǒng)過(guò)濾技術(shù)在該方面的不足。當(dāng)用戶關(guān)注屬于數(shù)字圖書(shū)館領(lǐng)域本體的一個(gè)子領(lǐng)域(次本體)時(shí),通常由于興趣的相關(guān)性,該用戶可能對(duì)該領(lǐng)域本體下的其他子領(lǐng)域同樣感興趣。例如,用戶當(dāng)前關(guān)注的分支領(lǐng)域?yàn)閳D書(shū)時(shí),由于圖書(shū)、電影同屬于一個(gè)數(shù)字圖書(shū)館領(lǐng)域本體,基于領(lǐng)

13、域本體的過(guò)濾模型也可以推斷該用戶在電影分支領(lǐng)域的潛在興趣:當(dāng)用戶對(duì)戰(zhàn)爭(zhēng)題材的圖書(shū)感興趣時(shí),可以認(rèn)為該用戶也可能會(huì)對(duì)戰(zhàn)爭(zhēng)題材的電影感興趣。從技術(shù)角度來(lái)看,正是由于兩個(gè)子領(lǐng)域同屬于一個(gè)領(lǐng)域本體,它們?cè)诒硎痉椒ㄉ暇痛嬖谀撤N程度的相似性,這就為跨領(lǐng)域的匹配提供了可能。 4.基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)濾模型實(shí)現(xiàn)的關(guān)鍵問(wèn)題 考慮到過(guò)濾函數(shù)、的生成方法在本質(zhì)上是一致的,為了便于研究,本文重點(diǎn)分析過(guò)濾函數(shù)的相關(guān)問(wèn)題。 4.1 基于領(lǐng)域本體的資源評(píng)價(jià)值轉(zhuǎn)化 假設(shè)數(shù)字圖書(shū)館有n個(gè)用戶,資源庫(kù)中有m種資源,其領(lǐng)域本體的概念集中有g(shù)個(gè)概念。依據(jù)基于領(lǐng)域本體的數(shù)字圖書(shū)館信息過(guò)

14、濾模型,過(guò)濾函數(shù)的生成,需要首先對(duì)用戶進(jìn)行聚類(lèi)以形成k個(gè)用戶組,并利用每個(gè)聚類(lèi)的質(zhì)心點(diǎn)矢量來(lái)表征該用戶組對(duì)資源庫(kù)中相關(guān)資源的評(píng)價(jià)值。由此,給定了用戶組質(zhì)心點(diǎn)矢量之后,利用數(shù)字圖書(shū)館領(lǐng)域本體,通過(guò)在每種資源中抽取實(shí)例,可以將k個(gè)用戶組對(duì)資源庫(kù)中相關(guān)資源的評(píng)價(jià)值進(jìn)行轉(zhuǎn)化。經(jīng)過(guò)轉(zhuǎn)化后,將形成k個(gè)pr,pr=<o1,w1>,<o2,w2>,<ox,wx>。其中,o是領(lǐng)域本體中的各個(gè)概念的實(shí)例,w為轉(zhuǎn)化后的評(píng)價(jià)值。 需要強(qiáng)調(diào)的是,此時(shí)并沒(méi)有完成資源庫(kù)中相關(guān)資源的評(píng)價(jià)值向概念集中不同概念的評(píng)價(jià)值的轉(zhuǎn)化,因?yàn)樵诿總€(gè)pr中,一個(gè)概念可能包含多個(gè)概念實(shí)例。所以,需要

15、將屬于同一概念的實(shí)例進(jìn)行整合,才能將資源庫(kù)中相關(guān)資源的評(píng)價(jià)值轉(zhuǎn)化為概念集中不同概念的評(píng)價(jià)值。事實(shí)上,這樣處理的目的是為了提高信息過(guò)濾模型的計(jì)算效率。因?yàn)閷?duì)于數(shù)字圖書(shū)館而言,每個(gè)pr可能包含成千上萬(wàn)的實(shí)例。 由此,問(wèn)題就轉(zhuǎn)化為如何整合每個(gè)概念ci中的各個(gè)實(shí)例。在實(shí)現(xiàn)過(guò)程中,可以為概念ci的每個(gè)屬性賦予一個(gè)整合函數(shù),利用來(lái)完成整合任務(wù)。經(jīng)過(guò)整合之后,每個(gè)pr將轉(zhuǎn)化為對(duì)應(yīng)的spr,spr=<so1,sw1>,<so2,sw2>,<sog,swg>。其中,so為概念ci的整合實(shí)例,sw為對(duì)應(yīng)的評(píng)價(jià)值。同樣,可以將用戶A對(duì)資源庫(kù)中相關(guān)資源的評(píng)價(jià)值轉(zhuǎn)化為對(duì)概念

16、集中不同概念的評(píng)價(jià)值,UserA=<uo1,uw1>,<uo2,uw2>,<uog,uwg>。 表1給出了概念“Book”的一個(gè)實(shí)例集,共有4個(gè)關(guān)于概念“Book”的實(shí)例,為每個(gè)實(shí)例在概念“Book”中的權(quán)重。針對(duì)概念“Book”擁有的不同屬性,需要構(gòu)造不同的整合函數(shù),進(jìn)行整合之后,概念“Book”將只有1個(gè)實(shí)例,表2提供了一個(gè)示例。   4.2 基于領(lǐng)域本體的匹配 將用戶組和用戶A對(duì)資源庫(kù)中相關(guān)資源的評(píng)價(jià)值轉(zhuǎn)化為概念集中不同概念的評(píng)價(jià)值之后,剩下的一個(gè)重要任務(wù)就是基于對(duì)相關(guān)概念的評(píng)價(jià),將用戶A與不同用戶組進(jìn)

17、行匹配以找到與用戶A興趣最為相似的用戶組,即比較UserA=<uo1,uw1>,<uo2,uw2>,<uog,uwg>和A個(gè)spr=<so1,sw1>,<so2,sw2>,<sog,swg>的相似性??紤]到語(yǔ)義對(duì)象的復(fù)雜性,傳統(tǒng)的匹配方法不能直接應(yīng)用于兩者相似性的計(jì)算,需要進(jìn)行一定的處理。比如,語(yǔ)義矢量UserA和spr的相似性Sim(Usera,spr)應(yīng)該取決于各概念實(shí)例對(duì)的語(yǔ)義相似性SemSim(uoi,soi):  其中,i為概念ci在數(shù)字圖書(shū)館領(lǐng)域本體中的重要性。同理,各概念實(shí)例對(duì)的語(yǔ)義相似性SemSim(uoi,oi)應(yīng)該取決于每個(gè)概念中各屬性實(shí)例對(duì)的語(yǔ)義相似性Si

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論