



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一種多代理模式的數(shù)字圖書館定題情報(bào)服務(wù)模型
1sdi服務(wù)機(jī)制信息服務(wù)(sdi)是滿足文獻(xiàn)信息個(gè)性化需求的重要服務(wù)形式,由ibm于20世紀(jì)50年代首次提出。SDI服務(wù)有兩種方式:一種是提供文獻(xiàn)跟蹤服務(wù),同時(shí)對(duì)課題研究進(jìn)程,根據(jù)國(guó)內(nèi)外相關(guān)文獻(xiàn)進(jìn)行關(guān)注;另一種是文獻(xiàn)跟蹤與專題情報(bào)研究相結(jié)合,對(duì)收集的資料進(jìn)行加工,生成進(jìn)展、動(dòng)態(tài)等研究報(bào)告,指導(dǎo)課題的研究。本文分析了一個(gè)基于模糊語(yǔ)義建模技術(shù)的多代理模式的數(shù)字圖書館SDI模型,旨在幫助情報(bào)工作人員更好的進(jìn)行文獻(xiàn)信息管理,方便地與用戶溝通,及時(shí)為使用者提供準(zhǔn)確的信息。2相關(guān)技術(shù)介紹2.1信息篩選和推薦系統(tǒng)數(shù)字圖書館為了滿足不同用戶對(duì)信息的需求,需要對(duì)文獻(xiàn)信息進(jìn)行篩選和推薦。通常的做法是使用多代理系統(tǒng),根據(jù)已注冊(cè)用戶的信息偏好,對(duì)XML或Html形式的文本信息進(jìn)行評(píng)估篩選,并把結(jié)果推薦給用戶,以提高檢索信息的精確性。當(dāng)前對(duì)信息過(guò)濾和推薦的系統(tǒng)有兩種:一種是基于內(nèi)容的信息過(guò)濾推薦系統(tǒng),通過(guò)比較一組由某用戶定義的表示所需文獻(xiàn)的關(guān)鍵詞,對(duì)文獻(xiàn)進(jìn)行過(guò)濾,而忽略其他用戶的需求。另一種是聯(lián)合過(guò)濾系統(tǒng),同時(shí)分析多個(gè)用戶提供的請(qǐng)求信息的關(guān)鍵詞,生成推薦信息,而不考慮文獻(xiàn)內(nèi)容的特征。目前的研發(fā)趨勢(shì)是結(jié)合兩種方式的優(yōu)點(diǎn),開(kāi)發(fā)混合型的信息過(guò)濾推薦系統(tǒng)。2.2語(yǔ)義技術(shù)網(wǎng)絡(luò)語(yǔ)義指的是文本的含義,也就是文本的意思和結(jié)構(gòu),語(yǔ)義網(wǎng)是一種能夠理解人類語(yǔ)言的智能化的計(jì)算機(jī)網(wǎng)絡(luò),使得人機(jī)交流變得非常容易。語(yǔ)義技術(shù)通過(guò)在信息中加入表示語(yǔ)義的內(nèi)容,改變目前網(wǎng)絡(luò)僅靠文字來(lái)共享資源的模式,提高網(wǎng)絡(luò)智能化的程度。語(yǔ)義網(wǎng)主要有兩個(gè)技術(shù)解決方案:一個(gè)是對(duì)資源進(jìn)行語(yǔ)義標(biāo)引,使信息可以同時(shí)被人類和計(jì)算機(jī)識(shí)別;另一個(gè)是發(fā)展智能代理,對(duì)資源進(jìn)行語(yǔ)義層次的開(kāi)發(fā),推導(dǎo)出新的知識(shí)。將語(yǔ)義網(wǎng)技術(shù)應(yīng)用于數(shù)字圖書館,可以提高文獻(xiàn)信息檢索的精度和質(zhì)量,有利于信息的共享和交流。2.3模糊的語(yǔ)義模式語(yǔ)義網(wǎng)使用的是自然語(yǔ)言編寫的能被機(jī)器識(shí)別的結(jié)構(gòu)化的程序,因此最有效的方法是使用模糊語(yǔ)言技術(shù)建模。模糊語(yǔ)言建模需要用到模糊集技術(shù)處理方法,通常的做法是通過(guò)一系列奇數(shù)的標(biāo)簽集來(lái)定義標(biāo)簽的標(biāo)度值。每個(gè)語(yǔ)言標(biāo)度的語(yǔ)義根據(jù)事先定義的標(biāo)度集來(lái)確定,一般分配0-1之間的模糊值。為了對(duì)語(yǔ)義信息進(jìn)行綜合,還需要使用元加權(quán)平局(LWA)算法。本模型采用了詞庫(kù)作為輔助工具,來(lái)實(shí)現(xiàn)對(duì)敘詞表半自動(dòng)化的自然語(yǔ)言處理。2.4自動(dòng)建立敘詞表技術(shù)自然語(yǔ)言處理技術(shù),包含了語(yǔ)言技術(shù)、統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)算法(主要是群集技術(shù)),可以實(shí)現(xiàn)對(duì)文本文件自動(dòng)翻譯、語(yǔ)音識(shí)別,并建立語(yǔ)音識(shí)別庫(kù)等功能。自動(dòng)建立敘詞表技術(shù),是自然語(yǔ)言處理技術(shù)的典型應(yīng)用,可以自動(dòng)對(duì)文本中的字詞進(jìn)行管理,提取更有代表性的表示文獻(xiàn)具體領(lǐng)域的詞。WordNet是一個(gè)功能強(qiáng)大的多語(yǔ)種詞匯數(shù)據(jù)庫(kù)??梢院芎玫闹С秩杭夹g(shù),方便地通過(guò)相似性分析從很多文獻(xiàn)中提取一組同義詞,或根據(jù)相似性收集特征詞相近的文獻(xiàn)。3圖書館文獻(xiàn)綜述基于語(yǔ)義的SDI服務(wù)模型主要由兩個(gè)代理組成:界面代理和任務(wù)代理,共分成四層結(jié)構(gòu):用戶層、界面層、任務(wù)層和資源層。模型的核心組件是數(shù)字圖書館的文獻(xiàn)全文數(shù)據(jù)庫(kù)和一系列基于RDF詞匯的基本元素。下面將系統(tǒng)介紹模型的主要組件和功能模塊。構(gòu)成SDI服務(wù)模型的主要模塊有四個(gè),分別是詞庫(kù)管理模塊、用戶配置文件管理模塊、RSS發(fā)布管理模塊和文獻(xiàn)推薦管理模塊。3.1文本預(yù)處理階段作為SDI服務(wù)必不可少的組件,詞庫(kù)在傳統(tǒng)圖書館中起到了對(duì)專業(yè)領(lǐng)域概念的組織及定義它們的語(yǔ)義關(guān)系的作用。本模型中對(duì)詞庫(kù)進(jìn)行定義的作用是,建立RSS接口詞語(yǔ)索引和產(chǎn)生推薦信息。模型使用語(yǔ)義相似性計(jì)量和處理詞典,代替?zhèn)鹘y(tǒng)的詞匯匹配(如兩個(gè)字符串進(jìn)行比較)作為知識(shí)組織的工具。創(chuàng)建詞庫(kù)的技術(shù)分為四個(gè)步驟:對(duì)文本進(jìn)行預(yù)處理,進(jìn)行參數(shù)化,對(duì)詞匯進(jìn)行概念化,最后是對(duì)已經(jīng)確定的概念之間的關(guān)系通過(guò)圖標(biāo)進(jìn)行顯示。文本預(yù)處理階段的目標(biāo)是對(duì)文本進(jìn)行標(biāo)準(zhǔn)化并刪除多余元素。首先,將所收集文檔(HTML、XML等)的標(biāo)簽,然后將文檔進(jìn)行標(biāo)準(zhǔn)化,方便進(jìn)行參數(shù)化。所有文檔中出現(xiàn)的的首字母縮寫詞將被顯示在排除列表中,而其余符合規(guī)則的文本已經(jīng)被標(biāo)準(zhǔn)化了,日期和數(shù)值被替換為腳本標(biāo)識(shí),所有的字詞都被變成小寫,標(biāo)簽被刪除。然后,自動(dòng)刪除文檔中所有的虛詞,如限定詞、助動(dòng)詞、連接詞、介詞、代詞、感嘆詞、副詞等。在參數(shù)化過(guò)程中,為了提高運(yùn)算速度,模型將所有的詞詞干化。模型采用了墨菲算法,利用了基于認(rèn)知語(yǔ)言的詞典。算法提供了一組函數(shù)檢測(cè),是否文檔中有無(wú)需處理的詞,然后將剩下的所有詞轉(zhuǎn)換為基本詞性。為了定義各組詞語(yǔ)之間的關(guān)系,模型運(yùn)用了網(wǎng)格理論確定。一旦文件被參數(shù)化,就可以通過(guò)簡(jiǎn)單知識(shí)組織系統(tǒng)(SKOS)對(duì)每個(gè)詞之間的聯(lián)系進(jìn)行提取。3.2生成相似性估計(jì)用戶配置文件是對(duì)用戶信息結(jié)構(gòu)化的描述,隨著用戶注冊(cè)完成便自動(dòng)產(chǎn)生。用戶配置文件一般包含用戶公開(kāi)的信息,包括用戶身份、特性和屬性以及用戶隱私信息,如興趣、愛(ài)好,訂閱的文獻(xiàn)提醒、圖書推薦等。用戶輸入喜好信息的關(guān)鍵詞之后,系統(tǒng)自動(dòng)把這些詞與系統(tǒng)詞典自動(dòng)比對(duì),生成相似性估計(jì)算法樹(shù),然后提供一些參考詞給用戶。如果用戶對(duì)提供的代表他們偏好的關(guān)鍵詞不滿意,可以進(jìn)行修改。模型允許用戶選擇對(duì)不同類型文獻(xiàn)的偏好程度,對(duì)文獻(xiàn)瀏覽量的模糊語(yǔ)言變量取值范圍為:總是、幾乎總是、經(jīng)常、偶爾、很少、幾乎不、從不,偶爾作為中間值也是默認(rèn)值。由于SDI服務(wù)功能的實(shí)現(xiàn),必須從儲(chǔ)存的用戶配置文件中獲取偏好信息,所以必須經(jīng)常對(duì)系統(tǒng)進(jìn)行升級(jí)。雖然用戶的偏好短時(shí)間不會(huì)發(fā)生大的變化,但系統(tǒng)也必須對(duì)微小變化產(chǎn)生響應(yīng),提供準(zhǔn)確的信息。模型既采用了使用模糊語(yǔ)言技術(shù)對(duì)用戶隱含的偏好進(jìn)行分析,也考慮了用戶提供的反饋信息。用戶對(duì)提供文獻(xiàn)推薦的滿意度有5個(gè)標(biāo)度:非常滿意、滿意、中等滿意、不太滿意、很不滿意。隨著用戶訪問(wèn)資源的增加,系統(tǒng)會(huì)更精確。3.3通過(guò)半自動(dòng)化技術(shù)實(shí)現(xiàn)個(gè)性化信息貿(mào)易R(shí)SS發(fā)布也叫聚合RSS,是在線共享內(nèi)容的一種簡(jiǎn)易方式(也叫聚合內(nèi)容,ReallySimpleSyndication)。一個(gè)RSS文件就是一段規(guī)范的XML數(shù)據(jù),該文件一般以RSS、XML或者RDF作為后綴。通常在時(shí)效性比較強(qiáng)的內(nèi)容上使用RSS訂閱能更快速獲取信息,數(shù)字圖書館提供RSS發(fā)布,有利于讓用戶獲取文獻(xiàn)內(nèi)容的最新信息。而且隨著RSS文件發(fā)布,其中包含的信息可以被其他的數(shù)字圖書館調(diào)用,不同服務(wù)器相互交換彼此的RSS信息,會(huì)導(dǎo)致站內(nèi)信息更新加快,形成良性互動(dòng)。由于模塊的配置文件中有關(guān)于用戶偏好的信息,因此系統(tǒng)會(huì)顯示滿足用戶需求的個(gè)性化信息提醒。這個(gè)過(guò)程包括4個(gè)步驟:(1)用戶通過(guò)用戶名、密碼登錄系統(tǒng)。(2)任務(wù)代理系統(tǒng)自動(dòng)呈現(xiàn)給用戶符合他們偏好的資源的列表(如果存在超過(guò)一個(gè)RSS接口,所有的接口獲得的信息會(huì)累積成總的列表。如果沒(méi)有發(fā)現(xiàn)相關(guān)文獻(xiàn),系統(tǒng)將及時(shí)告知用戶)。(3)界面代理系統(tǒng)在網(wǎng)站首頁(yè)產(chǎn)生提醒,告知使用者他或她喜歡的新的文檔的存在。(4)用戶通過(guò)訪問(wèn)列表,獲得自己所需的文獻(xiàn)的全文信息。模型使用RSS1.0技術(shù)建立信息發(fā)布公告欄,方便用戶及時(shí)得到需要的信息。為了加強(qiáng)對(duì)超鏈接的管理,采用RDF/XML語(yǔ)法和數(shù)據(jù)模型,易于擴(kuò)展和管理此表,能夠擴(kuò)展詞匯,不需要每次添加新詞匯都修改整個(gè)數(shù)據(jù)庫(kù)。模型中數(shù)字圖書館的RSS發(fā)布模塊(可能多于一個(gè),具體根據(jù)數(shù)字圖書館需求而定)采用半自動(dòng)化技術(shù)生成和升級(jí)。因此,系統(tǒng)管理員只需要通過(guò)輸入界面定義描述每個(gè)RSS發(fā)布內(nèi)容的簡(jiǎn)單信息和本地或網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的文獻(xiàn)的特征,系統(tǒng)會(huì)先自動(dòng)對(duì)文獻(xiàn)進(jìn)行分析,產(chǎn)生一些對(duì)文獻(xiàn)的描述,如標(biāo)題、摘要、關(guān)鍵詞、語(yǔ)言數(shù)據(jù)等,然后由管理員對(duì)信息主題進(jìn)行核對(duì),如果不正確,便手動(dòng)進(jìn)行修改。3.4文獻(xiàn)推薦和被推薦的信息文獻(xiàn)推薦是對(duì)數(shù)據(jù)庫(kù)中的文獻(xiàn)進(jìn)行分析,找出符合用戶研究興趣的文章的過(guò)程。模塊通過(guò)使用一種基于數(shù)字圖書館用戶偏好和文獻(xiàn)信息相似度比較的文獻(xiàn)聯(lián)合推薦系統(tǒng),除了提供用戶的偏好之外還能顯示關(guān)于被推薦資源的其它信息。任務(wù)代理系統(tǒng)首先檢索每個(gè)文獻(xiàn)的摘要和相關(guān)的推薦,然后比較每個(gè)用戶的配置文件和當(dāng)前用戶的配置文件,類似于信息推送的過(guò)程(但只與偏好匹配而不是主題和偏好同時(shí)匹配)。最
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45429-2025法庭科學(xué)偽造人像檢驗(yàn)通則
- 手部的解剖及相關(guān)知識(shí)
- 上海商學(xué)院《食品營(yíng)養(yǎng)與產(chǎn)品開(kāi)發(fā)》2023-2024學(xué)年第一學(xué)期期末試卷
- 華北理工大學(xué)輕工學(xué)院《社會(huì)分層與流動(dòng)》2023-2024學(xué)年第二學(xué)期期末試卷
- 學(xué)生如何規(guī)范答題
- 教育家的故事
- 2025年二月份拼貼課件量子相干性色彩保持研究
- 保安主管培訓(xùn)課件
- 浙江省醫(yī)療衛(wèi)生事業(yè)單位招聘-影像技術(shù)類歷年考試真題庫(kù)(含答案)
- 2024-2025學(xué)年下學(xué)期高一英語(yǔ)人教版同步經(jīng)典題精練之閱讀理解
- 7不甘屈辱 奮勇抗?fàn)?圓明園的訴說(shuō)(教學(xué)設(shè)計(jì))-部編版道德與法治五年級(jí)下冊(cè)
- GB/T 20424-2025重有色金屬精礦產(chǎn)品中有害元素的限量規(guī)范
- 2024年黑龍江省水利投資集團(tuán)招聘筆試真題
- 2025年蘭考三農(nóng)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年(2019-2024年)真題考點(diǎn)試卷含答案解析
- 2025電動(dòng)自行車集中充電設(shè)施第2部分:充換電服務(wù)信息交換
- 2025年長(zhǎng)沙軌道交通職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試題庫(kù)完美版
- 血管導(dǎo)管相關(guān)感染預(yù)防與控制指南課件
- TSG 23-2021 氣瓶安全技術(shù)規(guī)程 含2024年第1號(hào)修改單
- 李豐黃金K線理論(圖文版)
- 精品資料(2021-2022年收藏的)畢業(yè)設(shè)計(jì)水電站的水輪機(jī)設(shè)計(jì)
- 最新中文版ISO 9001-2015質(zhì)量管理體系標(biāo)準(zhǔn)(精準(zhǔn)完整整理版)
評(píng)論
0/150
提交評(píng)論