版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
信息過濾哈工大信息檢索研究室2007這一部分講述……了解信息過濾的需求和概念信息過濾的基本結(jié)構(gòu)信息過濾的方法信息過濾需求、發(fā)展現(xiàn)狀和趨勢背景隨著互聯(lián)網(wǎng)內(nèi)容的極大豐富,信息海量化正在導(dǎo)致信息垃圾化個性化服務(wù)改變獲取方式,提高人們獲取信息的效率...文檔……背景信息過濾的需求信息過濾是改善Internet信息查詢技術(shù)的需要信息過濾是信息個性化服務(wù)的基礎(chǔ)發(fā)展信息過濾技術(shù)是國家信息安全的迫切需求信息過濾也是信息中介(信息服務(wù)供應(yīng)商)開展網(wǎng)絡(luò)增值服務(wù)的手段定義什么是信息過濾?是指計算機(jī)根據(jù)用戶提供的一個過濾需求(userProfile),從動態(tài)變化的信息流(比如Web)中自動檢索出滿足用戶個性化需求的信息Profile:一組對用戶過濾需求的描述,這種“profile”描述了用戶長期的、穩(wěn)定的興趣愛好近義術(shù)語信息的選擇分發(fā)(SelectiveDisseminationofInformation,SDI),來自圖書館領(lǐng)域路由(Routing),來自MessageUnderstanding最新資料公告(CurrentAwareness),來自數(shù)據(jù)挖掘信息過濾的主要特點(diǎn)無結(jié)構(gòu)的或半結(jié)構(gòu)化的數(shù)據(jù)電子郵件是典型的半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化的郵件頭無結(jié)構(gòu)的郵件正文文本數(shù)據(jù)大數(shù)據(jù)量典型的信息過濾系統(tǒng)一般要處理十億字節(jié)的文本數(shù)據(jù)對用戶過濾需求的描述既可以用來屏蔽有害信息,也可以用來收集有益信息信息檢索和信息過濾信息檢索信息過濾“query”“userprofile”信息流靜態(tài)動態(tài)需求動態(tài)變化靜態(tài)需要了解用戶的情況否是涉及社會背景否是和其它概念的區(qū)別和文本分類(Categorization)的區(qū)別分類系統(tǒng)中的類不會經(jīng)常改變相對而言,UserProfile會動態(tài)變化和信息抽取(InformationExtraction)區(qū)別IF關(guān)心相關(guān)性IE只關(guān)心抽取的那些部分,不管相關(guān)性信息過濾的三個子任務(wù)(TREC)分流(routing)用戶需求固定、訓(xùn)練文本充足、無需設(shè)定相關(guān)度閾值批過濾(batchfiltering)用戶需求固定、訓(xùn)練文本充足、需要設(shè)定相關(guān)度閾值自適應(yīng)過濾(adaptivefiltering)用戶需求變化、訓(xùn)練文本很少、不斷調(diào)整相關(guān)度閾值例子:基于向量空間模型的文本過濾系統(tǒng)復(fù)旦大學(xué)2000年TREC-9自適應(yīng)過濾平均準(zhǔn)確率:26.5%;排名:3批過濾平均準(zhǔn)確率:31.7%;排名:1主要技術(shù)特點(diǎn)向量空間模型訓(xùn)練、過濾兩個主要過程形成初始用戶模板主題向量、正例特征向量、偽正例特征向量自適應(yīng)的閾值調(diào)整自適應(yīng)的模板修改主題向量、正例特征向量、反例特征向量引入NLP技術(shù)自然語言描述的“userprofile”詞義消歧指代消解轉(zhuǎn)述(paraphrasing)當(dāng)前狀態(tài)信息過濾是不可缺少的,個性化服務(wù)但是過濾系統(tǒng)不可靠商業(yè)的過濾系統(tǒng)的相關(guān)性在50%左右TREC實驗的結(jié)果很差用戶可以忍受閱讀不相關(guān)的信息,但是擔(dān)心丟失相關(guān)的重要信息要開發(fā)出有效的過濾系統(tǒng),還有很多事情需要做評價過濾系統(tǒng)的方法準(zhǔn)確率和召回率統(tǒng)計評價 相關(guān)性(用戶評價vs系統(tǒng)評價):等級向量基于集合的評價Utility=(A*R+)+(B*N+)+(C*R-)+(D*N-)
這里的R+/R-/N+/N-指的是每個主題四種文本的數(shù)量。參數(shù)A,B,C,D決定了每種情況的代價。顯然A,D>=0,B,C<=0。Utility值越大,系統(tǒng)的過濾性能就越好。
需要解決的問題以什么樣的形式描述用戶需求?如何判斷待過濾信息是否符合用戶的過濾需求?如何在過濾的過程中實現(xiàn)用戶需求文檔的學(xué)習(xí)和更新?用戶需求的描述用戶需求的描述實際上是建立一個反應(yīng)用戶客觀需要的模型,簡稱用戶模型(Profile)從內(nèi)容上劃分:基于興趣的,加權(quán)矢量模型等基于行為的,用戶瀏覽和訪問模式從組織形式上:
用關(guān)鍵詞表達(dá)用戶過濾需求:歧義性,關(guān)系的表達(dá)用文檔集表達(dá)用戶過濾需求:覆蓋性不夠過濾資源的描述資源描述與用戶描述密切相關(guān),采用同一機(jī)制基于內(nèi)容的方法基于分類的方法用戶模型的學(xué)習(xí)和更新用戶興趣的變化漸進(jìn)式突發(fā)式常見的模型更新方法顯示:用戶提供相關(guān)反饋隱式:根據(jù)用戶的行為用戶文檔高級交互Google推出新聞過濾:/accounts/Login其他隱式反饋信息:歷史查詢GRE考試Clickthrough瀏覽記錄、瀏覽時間、…信息過濾的應(yīng)用克服重復(fù)查詢網(wǎng)絡(luò)信息是動態(tài)變化的,用戶時常關(guān)心這種變化而在搜索引擎中,用戶只能不斷地在網(wǎng)絡(luò)上查詢同樣的內(nèi)容,以獲得變化的信息,這花費(fèi)了用戶大量的時間提供個性化信息服務(wù)對不同的用戶采取不同的服務(wù)策略,提供不同的服務(wù)內(nèi)容。實現(xiàn)“主動服務(wù)”,“信息找人”實現(xiàn)有害信息的過濾反動言論,保護(hù)國家安全謠言,保護(hù)社會穩(wěn)定色情內(nèi)容,保護(hù)青少年身心健康信息過濾的應(yīng)用(續(xù))垃圾信息過濾垃圾郵件垃圾短信信息中介開展網(wǎng)絡(luò)增值服務(wù)建立最初的客戶資料庫建立標(biāo)準(zhǔn)豐富檔案內(nèi)容利用客戶檔案獲取價值推薦(Recommendation)根據(jù)不同用戶之間需求的相關(guān)性推薦信息信息過濾分類體系信息過濾系統(tǒng)分類示意圖信息過濾系統(tǒng)分類系統(tǒng)的主動性主動過濾主動向用戶推送相關(guān)信息被動過濾比如垃圾郵件過濾過濾操作的位置在信息源在過濾服務(wù)器上在客戶端如:Outlook郵件過濾信息過濾系統(tǒng)分類(續(xù))過濾的策略基于內(nèi)容的信息過濾用戶需求文檔的形成及相關(guān)度的計算僅依靠信息的內(nèi)容協(xié)作信息過濾合作式信息過濾被定義為“通過掌握一個用戶群體的諸個體間的相互聯(lián)系及組織關(guān)系來實現(xiàn)的信息過濾方法?!痹S多人將合作式信息過濾的方法解釋為“‘相似’用戶之間相互合作的過程?!?/p>
信息過濾系統(tǒng)分類(續(xù))用戶知識獲取顯式獲取用戶信息用戶直接填表用關(guān)鍵詞表達(dá)用戶過濾需求用文檔集表達(dá)用戶過濾需求隱式獲取用戶信息無需用戶直接參與,通過觀察用戶的動作行為判斷用戶需求用戶閱讀文檔的時間可以作為衡量該文檔相關(guān)度的一個指標(biāo)。其他的一些用戶行為——諸如用戶是否保存、刪除或是打印某篇文檔也可以作為度量文檔相關(guān)度的一個指標(biāo)。顯式和隱式并用的方法文檔空間(基于案例的方法)推理(預(yù)先定義默認(rèn)的profile,在掃描過程中再改變)
信息過濾系統(tǒng)的組成一般組成信息分析模塊接近信息提供者從信息提供者處獲得和整理數(shù)據(jù)分析和表示文檔例如:布爾模型,VSM等把表示結(jié)果傳遞給過濾單元
過濾模塊過濾模塊是信息過濾系統(tǒng)的核心部分,它采用的算法直接決定了過濾結(jié)果的好壞主要作用是匹配用戶模型(Profile)和信息的特征向量通常只作二值判斷,即判定的信息或者與用戶模型相關(guān),或者不相關(guān)對于被判定相關(guān)的信息還將由用戶最終決定其相關(guān)性,用戶判定的結(jié)果將作為反饋信息被系統(tǒng)應(yīng)用于對用戶模型Profile的更新過濾模型布爾模型向量空間模型概率推理模型隱性語義標(biāo)引關(guān)聯(lián)論方法學(xué)習(xí)模塊目的改進(jìn)過濾的性能發(fā)現(xiàn)用戶興趣的轉(zhuǎn)移更新用戶模型學(xué)習(xí)方法通過觀察來學(xué)習(xí)通過相關(guān)反饋學(xué)習(xí)用戶訓(xùn)練學(xué)習(xí)學(xué)習(xí)的頻度臨時學(xué)習(xí)周期式的學(xué)習(xí)用戶建模收集關(guān)于用戶的信息(顯式的and/or隱式的)創(chuàng)建用戶profile,用戶模型用來保存每個用戶的Profile(規(guī)則,VSM,文檔中心)把用戶模型傳遞給過濾單元,當(dāng)動態(tài)信息流輸入過濾模塊時,系統(tǒng)提取用戶的Profile并與文檔的特征向量進(jìn)行匹配用戶模型必須與文檔的表示相適應(yīng)當(dāng)用戶興趣發(fā)生變化時,系統(tǒng)根據(jù)相關(guān)反饋使用學(xué)習(xí)模塊將初始Profile和反饋信息的特征向量進(jìn)行融合,并將新生成的Profile覆蓋原來的Profile用戶建模為建模獲取數(shù)據(jù)隱式方法:觀察用戶的行為顯示方法:請用戶填表,與用戶交互模型中的數(shù)據(jù)淺層語義:關(guān)鍵詞增強(qiáng)的用戶模型,關(guān)于用戶的高層知識用語義網(wǎng)絡(luò)/傳統(tǒng)的推理/統(tǒng)計推理獲得文檔中詞匯之間的關(guān)系架構(gòu)用Agent/神經(jīng)網(wǎng)絡(luò)進(jìn)行自動推理用VSM/LSI進(jìn)行顯式推理智能系統(tǒng)的概念模型統(tǒng)計過濾的關(guān)鍵詞系統(tǒng)信息過濾的方法方法基于內(nèi)容的過濾基于規(guī)則的過濾基于統(tǒng)計的過濾協(xié)作過濾基于內(nèi)容的信息過濾(規(guī)則)規(guī)則可以用戶制定,也可以通過關(guān)聯(lián)規(guī)則挖掘基于內(nèi)容的過濾系統(tǒng)(統(tǒng)計)用戶和資源之間關(guān)鍵是相似度計算如果用戶描述文件不好,得到的資源很可能不相關(guān)優(yōu)點(diǎn):簡單缺點(diǎn):只能找到與用戶已有興趣相似的資源協(xié)作過濾用戶和用戶之間關(guān)鍵問題是聚類優(yōu)點(diǎn):提供用戶資源的新穎性兩個問題:稀疏性可擴(kuò)展性基于內(nèi)容的過濾(統(tǒng)計)特征表示提取關(guān)鍵詞的形式文本分類的形式訓(xùn)練模型與分類方法相似相關(guān)反饋協(xié)作過濾相關(guān)概念協(xié)作信息過濾中,當(dāng)前獲得推薦結(jié)果的用戶通常稱為活動用戶(Activeuser)參與過濾的信息資源統(tǒng)稱為項目(Item)假設(shè)所有參與協(xié)作過濾的用戶集為
項目集為
用戶對項目的評價集為用戶ui對tk的評價為rik,如果rik>0,說明用戶感興趣,rik<0說明用戶不感興趣,rik=0沒有明確判斷可以互相推薦大于零的項目協(xié)作過濾樣例用戶(a)反饋集:反饋(a)(i)用戶(a)背景信息(a)用戶(b)反饋集:反饋(b)(j)反饋(b)(k)用戶(b)背景信息(b)協(xié)作過濾模型反饋(a)(i)反饋(b)(j)反饋(b)(k)主要實現(xiàn)方法基于用戶的協(xié)作過濾基于模型的協(xié)作過濾基于項目的協(xié)作過濾基于用戶的協(xié)作過濾通?;谟脩舻膮f(xié)作過濾采用最近鄰方法。即對活動用戶ua
,獲取按照相關(guān)度大小排列的相似“近鄰”集U={u1,u2…un}用戶ua
對項目ti
的評價定義為近鄰集U中所有用戶對項目
ti評價指標(biāo)的加權(quán)和用戶之間的近鄰關(guān)系具備兩種特征,即非對稱性和非傳遞性非對稱性和非傳遞性產(chǎn)生的原因在于用戶之間共同評價過的項目過少,從而造成對稱關(guān)系和傳遞關(guān)系的置信度很低近鄰集的規(guī)模近鄰選擇步驟中,過濾系統(tǒng)需要預(yù)先設(shè)置近鄰集
的規(guī)模。通常近鄰用戶數(shù)量的設(shè)置采用閾值設(shè)置或定值設(shè)置兩種方法閾值設(shè)置:系統(tǒng)選擇相關(guān)性大于閾值的用戶作為活動用戶的近鄰定值設(shè)置:預(yù)先確定近鄰集
的規(guī)模用戶之間的相似度基于用戶的協(xié)作過濾方法中最主要的問題是如何獲取最近鄰用戶常用的用戶間相似度評價方法余弦相似度計算法相關(guān)相似性計算法相似度計算相似性計算法主要從用戶興趣是否相似的角度選擇活動用戶的近鄰優(yōu)點(diǎn)提高了協(xié)作過濾系統(tǒng)推薦項目的準(zhǔn)確性缺點(diǎn)過分相似的用戶共有的項目集規(guī)模相對很大,削弱了用戶間可以互相推薦的未知項目空間反流行度通常協(xié)作過濾系統(tǒng)可以采用項目的反流行度為候選用戶賦予權(quán)值,反流行度公式如下:一個項目的流行程度越大,則其反流行度
越小,從而包含該項目的候選用戶獲得的權(quán)值越低;反之,候選用戶的權(quán)值則得到加強(qiáng)活動用戶可以簡化地選擇經(jīng)過反流行度加權(quán)后權(quán)值相對較高的用戶作為鄰居優(yōu)點(diǎn)在于最近鄰居可以向活動用戶推薦更多新穎的項目參與評價的用戶總數(shù)基于用戶的協(xié)作過濾優(yōu)缺點(diǎn)基于用戶的協(xié)作過濾系統(tǒng)在實驗環(huán)境下可以獲得較高的性能,但在實際應(yīng)用中的效果卻普遍偏低主要原因在于評分機(jī)制的稀疏性實際應(yīng)用中的用戶很少主動提供項目的評價,從而造成“用戶”與“評分”對應(yīng)的二元關(guān)系相對稀疏,導(dǎo)致協(xié)作過濾系統(tǒng)無法有效識別相似用戶基于模型的協(xié)作過濾基于模型的協(xié)作過濾方法,通過挖掘數(shù)據(jù)之間的相互關(guān)系建立需求模型,并利用該模型過濾后續(xù)的信息資源基于模型的方法需要預(yù)先分析大量數(shù)據(jù),使模型的建立需要花費(fèi)大量的時間模型生成后,后續(xù)協(xié)作過濾的效率和準(zhǔn)確率都可以得到顯著的提高隱含語義索引基于模型的協(xié)作過濾研究中最重要的方法是隱含語義索引Sarwar等學(xué)者將LSI引入?yún)f(xié)作過濾領(lǐng)域關(guān)系矩陣由活動用戶和項目組成;語義關(guān)系由用戶與用戶之間、項目與項目之間、用戶與項目之間的相關(guān)性組成LSI協(xié)作過濾的流程建立用戶-項目關(guān)系矩陣R;采用奇異值分解技術(shù)將矩陣R分解為U,S和V將V降維成維數(shù)為k的矩陣VKk<r),并采用相同方法簡化矩陣U和S為Uk
和Sk
;計算矩陣Vk
的平方根
,并相應(yīng)計算
和預(yù)測用戶a對項目i的評分,公式如下:
優(yōu)缺點(diǎn)重要的用戶-項目關(guān)系結(jié)構(gòu)被映射到低維空間中,消除了關(guān)系上的細(xì)微差別而保留了重要的潛在關(guān)聯(lián)性K值太大會導(dǎo)致結(jié)果趨近于原始矩陣而失去挖掘潛在關(guān)聯(lián)的能力K值太小則會使得關(guān)聯(lián)信息丟失太多,以至于對于用戶和項目的分辨能力不足基于項目的協(xié)作過濾基于用戶的協(xié)作過濾系統(tǒng)通過遍歷整個用戶群建立用戶之間的相似關(guān)系,并推薦項目,對用戶規(guī)模龐大的過濾系統(tǒng)而言,這種方法極大影響推薦效率基于項目的協(xié)作過濾系統(tǒng)只針對目標(biāo)項目和活動用戶已有項目之間進(jìn)行協(xié)作性檢測,從而在保證過濾效果的同時,大大提高了系統(tǒng)效率基于項目的協(xié)作過濾系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《證券交易概論》課件
- 《信號的描述和分類》課件
- 酒渣鼻樣結(jié)核疹的臨床護(hù)理
- 選擇性lgA缺乏癥的臨床護(hù)理
- 單純性外陰炎的健康宣教
- 《機(jī)床電氣線路的安裝與調(diào)試》課件-第9章
- 奶稀的健康宣教
- 孕期抗磷脂抗體綜合征的健康宣教
- 子宮壁妊娠的健康宣教
- 小腿皮炎的臨床護(hù)理
- 圍墻拆除重建施工方案
- 國開(陜西)2024年秋《社會調(diào)查》形考作業(yè)1-4答案
- 2023年廣東省高等職業(yè)院校招收中等職業(yè)學(xué)校畢業(yè)生考試數(shù)學(xué)含答案
- 人力資源許可證制度(服務(wù)流程、服務(wù)協(xié)議、收費(fèi)標(biāo)準(zhǔn)、信息發(fā)布審查和投訴處理)
- 礦漿管道施工組織設(shè)計
- 大學(xué)美育-美育賞湖南智慧樹知到期末考試答案章節(jié)答案2024年湖南高速鐵路職業(yè)技術(shù)學(xué)院
- 犯罪學(xué)智慧樹知到期末考試答案章節(jié)答案2024年云南司法警官職業(yè)學(xué)院
- xxx軍分區(qū)安保服務(wù)項目技術(shù)方案文件
- 國家開放大學(xué)電大《11662會計信息系統(tǒng)(本)》期末終考題庫及標(biāo)準(zhǔn)參考答案
- 2023年高二組重慶市高中學(xué)生化學(xué)競賽試題
- 物流配送合作協(xié)議書范本
評論
0/150
提交評論