版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
信息過濾哈工大信息檢索研究室2007這一部分講述……了解信息過濾的需求和概念信息過濾的基本結(jié)構(gòu)信息過濾的方法信息過濾需求、發(fā)展現(xiàn)狀和趨勢(shì)背景隨著互聯(lián)網(wǎng)內(nèi)容的極大豐富,信息海量化正在導(dǎo)致信息垃圾化個(gè)性化服務(wù)改變獲取方式,提高人們獲取信息的效率...文檔……背景信息過濾的需求信息過濾是改善Internet信息查詢技術(shù)的需要信息過濾是信息個(gè)性化服務(wù)的基礎(chǔ)發(fā)展信息過濾技術(shù)是國家信息安全的迫切需求信息過濾也是信息中介(信息服務(wù)供應(yīng)商)開展網(wǎng)絡(luò)增值服務(wù)的手段定義什么是信息過濾?是指計(jì)算機(jī)根據(jù)用戶提供的一個(gè)過濾需求(userProfile),從動(dòng)態(tài)變化的信息流(比如Web)中自動(dòng)檢索出滿足用戶個(gè)性化需求的信息Profile:一組對(duì)用戶過濾需求的描述,這種“profile”描述了用戶長(zhǎng)期的、穩(wěn)定的興趣愛好近義術(shù)語信息的選擇分發(fā)(SelectiveDisseminationofInformation,SDI),來自圖書館領(lǐng)域路由(Routing),來自MessageUnderstanding最新資料公告(CurrentAwareness),來自數(shù)據(jù)挖掘信息過濾的主要特點(diǎn)無結(jié)構(gòu)的或半結(jié)構(gòu)化的數(shù)據(jù)電子郵件是典型的半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化的郵件頭無結(jié)構(gòu)的郵件正文文本數(shù)據(jù)大數(shù)據(jù)量典型的信息過濾系統(tǒng)一般要處理十億字節(jié)的文本數(shù)據(jù)對(duì)用戶過濾需求的描述既可以用來屏蔽有害信息,也可以用來收集有益信息信息檢索和信息過濾信息檢索信息過濾“query”“userprofile”信息流靜態(tài)動(dòng)態(tài)需求動(dòng)態(tài)變化靜態(tài)需要了解用戶的情況否是涉及社會(huì)背景否是和其它概念的區(qū)別和文本分類(Categorization)的區(qū)別分類系統(tǒng)中的類不會(huì)經(jīng)常改變相對(duì)而言,UserProfile會(huì)動(dòng)態(tài)變化和信息抽取(InformationExtraction)區(qū)別IF關(guān)心相關(guān)性IE只關(guān)心抽取的那些部分,不管相關(guān)性信息過濾的三個(gè)子任務(wù)(TREC)分流(routing)用戶需求固定、訓(xùn)練文本充足、無需設(shè)定相關(guān)度閾值批過濾(batchfiltering)用戶需求固定、訓(xùn)練文本充足、需要設(shè)定相關(guān)度閾值自適應(yīng)過濾(adaptivefiltering)用戶需求變化、訓(xùn)練文本很少、不斷調(diào)整相關(guān)度閾值例子:基于向量空間模型的文本過濾系統(tǒng)復(fù)旦大學(xué)2000年TREC-9自適應(yīng)過濾平均準(zhǔn)確率:26.5%;排名:3批過濾平均準(zhǔn)確率:31.7%;排名:1主要技術(shù)特點(diǎn)向量空間模型訓(xùn)練、過濾兩個(gè)主要過程形成初始用戶模板主題向量、正例特征向量、偽正例特征向量自適應(yīng)的閾值調(diào)整自適應(yīng)的模板修改主題向量、正例特征向量、反例特征向量引入NLP技術(shù)自然語言描述的“userprofile”詞義消歧指代消解轉(zhuǎn)述(paraphrasing)當(dāng)前狀態(tài)信息過濾是不可缺少的,個(gè)性化服務(wù)但是過濾系統(tǒng)不可靠商業(yè)的過濾系統(tǒng)的相關(guān)性在50%左右TREC實(shí)驗(yàn)的結(jié)果很差用戶可以忍受閱讀不相關(guān)的信息,但是擔(dān)心丟失相關(guān)的重要信息要開發(fā)出有效的過濾系統(tǒng),還有很多事情需要做評(píng)價(jià)過濾系統(tǒng)的方法準(zhǔn)確率和召回率統(tǒng)計(jì)評(píng)價(jià) 相關(guān)性(用戶評(píng)價(jià)vs系統(tǒng)評(píng)價(jià)):等級(jí)向量基于集合的評(píng)價(jià)Utility=(A*R+)+(B*N+)+(C*R-)+(D*N-)
這里的R+/R-/N+/N-指的是每個(gè)主題四種文本的數(shù)量。參數(shù)A,B,C,D決定了每種情況的代價(jià)。顯然A,D>=0,B,C<=0。Utility值越大,系統(tǒng)的過濾性能就越好。
需要解決的問題以什么樣的形式描述用戶需求?如何判斷待過濾信息是否符合用戶的過濾需求?如何在過濾的過程中實(shí)現(xiàn)用戶需求文檔的學(xué)習(xí)和更新?用戶需求的描述用戶需求的描述實(shí)際上是建立一個(gè)反應(yīng)用戶客觀需要的模型,簡(jiǎn)稱用戶模型(Profile)從內(nèi)容上劃分:基于興趣的,加權(quán)矢量模型等基于行為的,用戶瀏覽和訪問模式從組織形式上:
用關(guān)鍵詞表達(dá)用戶過濾需求:歧義性,關(guān)系的表達(dá)用文檔集表達(dá)用戶過濾需求:覆蓋性不夠過濾資源的描述資源描述與用戶描述密切相關(guān),采用同一機(jī)制基于內(nèi)容的方法基于分類的方法用戶模型的學(xué)習(xí)和更新用戶興趣的變化漸進(jìn)式突發(fā)式常見的模型更新方法顯示:用戶提供相關(guān)反饋隱式:根據(jù)用戶的行為用戶文檔高級(jí)交互Google推出新聞過濾:/accounts/Login其他隱式反饋信息:歷史查詢GRE考試Clickthrough瀏覽記錄、瀏覽時(shí)間、…信息過濾的應(yīng)用克服重復(fù)查詢網(wǎng)絡(luò)信息是動(dòng)態(tài)變化的,用戶時(shí)常關(guān)心這種變化而在搜索引擎中,用戶只能不斷地在網(wǎng)絡(luò)上查詢同樣的內(nèi)容,以獲得變化的信息,這花費(fèi)了用戶大量的時(shí)間提供個(gè)性化信息服務(wù)對(duì)不同的用戶采取不同的服務(wù)策略,提供不同的服務(wù)內(nèi)容。實(shí)現(xiàn)“主動(dòng)服務(wù)”,“信息找人”實(shí)現(xiàn)有害信息的過濾反動(dòng)言論,保護(hù)國家安全謠言,保護(hù)社會(huì)穩(wěn)定色情內(nèi)容,保護(hù)青少年身心健康信息過濾的應(yīng)用(續(xù))垃圾信息過濾垃圾郵件垃圾短信信息中介開展網(wǎng)絡(luò)增值服務(wù)建立最初的客戶資料庫建立標(biāo)準(zhǔn)豐富檔案內(nèi)容利用客戶檔案獲取價(jià)值推薦(Recommendation)根據(jù)不同用戶之間需求的相關(guān)性推薦信息信息過濾分類體系信息過濾系統(tǒng)分類示意圖信息過濾系統(tǒng)分類系統(tǒng)的主動(dòng)性主動(dòng)過濾主動(dòng)向用戶推送相關(guān)信息被動(dòng)過濾比如垃圾郵件過濾過濾操作的位置在信息源在過濾服務(wù)器上在客戶端如:Outlook郵件過濾信息過濾系統(tǒng)分類(續(xù))過濾的策略基于內(nèi)容的信息過濾用戶需求文檔的形成及相關(guān)度的計(jì)算僅依靠信息的內(nèi)容協(xié)作信息過濾合作式信息過濾被定義為“通過掌握一個(gè)用戶群體的諸個(gè)體間的相互聯(lián)系及組織關(guān)系來實(shí)現(xiàn)的信息過濾方法。”許多人將合作式信息過濾的方法解釋為“‘相似’用戶之間相互合作的過程。”
信息過濾系統(tǒng)分類(續(xù))用戶知識(shí)獲取顯式獲取用戶信息用戶直接填表用關(guān)鍵詞表達(dá)用戶過濾需求用文檔集表達(dá)用戶過濾需求隱式獲取用戶信息無需用戶直接參與,通過觀察用戶的動(dòng)作行為判斷用戶需求用戶閱讀文檔的時(shí)間可以作為衡量該文檔相關(guān)度的一個(gè)指標(biāo)。其他的一些用戶行為——諸如用戶是否保存、刪除或是打印某篇文檔也可以作為度量文檔相關(guān)度的一個(gè)指標(biāo)。顯式和隱式并用的方法文檔空間(基于案例的方法)推理(預(yù)先定義默認(rèn)的profile,在掃描過程中再改變)
信息過濾系統(tǒng)的組成一般組成信息分析模塊接近信息提供者從信息提供者處獲得和整理數(shù)據(jù)分析和表示文檔例如:布爾模型,VSM等把表示結(jié)果傳遞給過濾單元
過濾模塊過濾模塊是信息過濾系統(tǒng)的核心部分,它采用的算法直接決定了過濾結(jié)果的好壞主要作用是匹配用戶模型(Profile)和信息的特征向量通常只作二值判斷,即判定的信息或者與用戶模型相關(guān),或者不相關(guān)對(duì)于被判定相關(guān)的信息還將由用戶最終決定其相關(guān)性,用戶判定的結(jié)果將作為反饋信息被系統(tǒng)應(yīng)用于對(duì)用戶模型Profile的更新過濾模型布爾模型向量空間模型概率推理模型隱性語義標(biāo)引關(guān)聯(lián)論方法學(xué)習(xí)模塊目的改進(jìn)過濾的性能發(fā)現(xiàn)用戶興趣的轉(zhuǎn)移更新用戶模型學(xué)習(xí)方法通過觀察來學(xué)習(xí)通過相關(guān)反饋學(xué)習(xí)用戶訓(xùn)練學(xué)習(xí)學(xué)習(xí)的頻度臨時(shí)學(xué)習(xí)周期式的學(xué)習(xí)用戶建模收集關(guān)于用戶的信息(顯式的and/or隱式的)創(chuàng)建用戶profile,用戶模型用來保存每個(gè)用戶的Profile(規(guī)則,VSM,文檔中心)把用戶模型傳遞給過濾單元,當(dāng)動(dòng)態(tài)信息流輸入過濾模塊時(shí),系統(tǒng)提取用戶的Profile并與文檔的特征向量進(jìn)行匹配用戶模型必須與文檔的表示相適應(yīng)當(dāng)用戶興趣發(fā)生變化時(shí),系統(tǒng)根據(jù)相關(guān)反饋使用學(xué)習(xí)模塊將初始Profile和反饋信息的特征向量進(jìn)行融合,并將新生成的Profile覆蓋原來的Profile用戶建模為建模獲取數(shù)據(jù)隱式方法:觀察用戶的行為顯示方法:請(qǐng)用戶填表,與用戶交互模型中的數(shù)據(jù)淺層語義:關(guān)鍵詞增強(qiáng)的用戶模型,關(guān)于用戶的高層知識(shí)用語義網(wǎng)絡(luò)/傳統(tǒng)的推理/統(tǒng)計(jì)推理獲得文檔中詞匯之間的關(guān)系架構(gòu)用Agent/神經(jīng)網(wǎng)絡(luò)進(jìn)行自動(dòng)推理用VSM/LSI進(jìn)行顯式推理智能系統(tǒng)的概念模型統(tǒng)計(jì)過濾的關(guān)鍵詞系統(tǒng)信息過濾的方法方法基于內(nèi)容的過濾基于規(guī)則的過濾基于統(tǒng)計(jì)的過濾協(xié)作過濾基于內(nèi)容的信息過濾(規(guī)則)規(guī)則可以用戶制定,也可以通過關(guān)聯(lián)規(guī)則挖掘基于內(nèi)容的過濾系統(tǒng)(統(tǒng)計(jì))用戶和資源之間關(guān)鍵是相似度計(jì)算如果用戶描述文件不好,得到的資源很可能不相關(guān)優(yōu)點(diǎn):簡(jiǎn)單缺點(diǎn):只能找到與用戶已有興趣相似的資源協(xié)作過濾用戶和用戶之間關(guān)鍵問題是聚類優(yōu)點(diǎn):提供用戶資源的新穎性兩個(gè)問題:稀疏性可擴(kuò)展性基于內(nèi)容的過濾(統(tǒng)計(jì))特征表示提取關(guān)鍵詞的形式文本分類的形式訓(xùn)練模型與分類方法相似相關(guān)反饋協(xié)作過濾相關(guān)概念協(xié)作信息過濾中,當(dāng)前獲得推薦結(jié)果的用戶通常稱為活動(dòng)用戶(Activeuser)參與過濾的信息資源統(tǒng)稱為項(xiàng)目(Item)假設(shè)所有參與協(xié)作過濾的用戶集為
項(xiàng)目集為
用戶對(duì)項(xiàng)目的評(píng)價(jià)集為用戶ui對(duì)tk的評(píng)價(jià)為rik,如果rik>0,說明用戶感興趣,rik<0說明用戶不感興趣,rik=0沒有明確判斷可以互相推薦大于零的項(xiàng)目協(xié)作過濾樣例用戶(a)反饋集:反饋(a)(i)用戶(a)背景信息(a)用戶(b)反饋集:反饋(b)(j)反饋(b)(k)用戶(b)背景信息(b)協(xié)作過濾模型反饋(a)(i)反饋(b)(j)反饋(b)(k)主要實(shí)現(xiàn)方法基于用戶的協(xié)作過濾基于模型的協(xié)作過濾基于項(xiàng)目的協(xié)作過濾基于用戶的協(xié)作過濾通?;谟脩舻膮f(xié)作過濾采用最近鄰方法。即對(duì)活動(dòng)用戶ua
,獲取按照相關(guān)度大小排列的相似“近鄰”集U={u1,u2…un}用戶ua
對(duì)項(xiàng)目ti
的評(píng)價(jià)定義為近鄰集U中所有用戶對(duì)項(xiàng)目
ti評(píng)價(jià)指標(biāo)的加權(quán)和用戶之間的近鄰關(guān)系具備兩種特征,即非對(duì)稱性和非傳遞性非對(duì)稱性和非傳遞性產(chǎn)生的原因在于用戶之間共同評(píng)價(jià)過的項(xiàng)目過少,從而造成對(duì)稱關(guān)系和傳遞關(guān)系的置信度很低近鄰集的規(guī)模近鄰選擇步驟中,過濾系統(tǒng)需要預(yù)先設(shè)置近鄰集
的規(guī)模。通常近鄰用戶數(shù)量的設(shè)置采用閾值設(shè)置或定值設(shè)置兩種方法閾值設(shè)置:系統(tǒng)選擇相關(guān)性大于閾值的用戶作為活動(dòng)用戶的近鄰定值設(shè)置:預(yù)先確定近鄰集
的規(guī)模用戶之間的相似度基于用戶的協(xié)作過濾方法中最主要的問題是如何獲取最近鄰用戶常用的用戶間相似度評(píng)價(jià)方法余弦相似度計(jì)算法相關(guān)相似性計(jì)算法相似度計(jì)算相似性計(jì)算法主要從用戶興趣是否相似的角度選擇活動(dòng)用戶的近鄰優(yōu)點(diǎn)提高了協(xié)作過濾系統(tǒng)推薦項(xiàng)目的準(zhǔn)確性缺點(diǎn)過分相似的用戶共有的項(xiàng)目集規(guī)模相對(duì)很大,削弱了用戶間可以互相推薦的未知項(xiàng)目空間反流行度通常協(xié)作過濾系統(tǒng)可以采用項(xiàng)目的反流行度為候選用戶賦予權(quán)值,反流行度公式如下:一個(gè)項(xiàng)目的流行程度越大,則其反流行度
越小,從而包含該項(xiàng)目的候選用戶獲得的權(quán)值越低;反之,候選用戶的權(quán)值則得到加強(qiáng)活動(dòng)用戶可以簡(jiǎn)化地選擇經(jīng)過反流行度加權(quán)后權(quán)值相對(duì)較高的用戶作為鄰居優(yōu)點(diǎn)在于最近鄰居可以向活動(dòng)用戶推薦更多新穎的項(xiàng)目參與評(píng)價(jià)的用戶總數(shù)基于用戶的協(xié)作過濾優(yōu)缺點(diǎn)基于用戶的協(xié)作過濾系統(tǒng)在實(shí)驗(yàn)環(huán)境下可以獲得較高的性能,但在實(shí)際應(yīng)用中的效果卻普遍偏低主要原因在于評(píng)分機(jī)制的稀疏性實(shí)際應(yīng)用中的用戶很少主動(dòng)提供項(xiàng)目的評(píng)價(jià),從而造成“用戶”與“評(píng)分”對(duì)應(yīng)的二元關(guān)系相對(duì)稀疏,導(dǎo)致協(xié)作過濾系統(tǒng)無法有效識(shí)別相似用戶基于模型的協(xié)作過濾基于模型的協(xié)作過濾方法,通過挖掘數(shù)據(jù)之間的相互關(guān)系建立需求模型,并利用該模型過濾后續(xù)的信息資源基于模型的方法需要預(yù)先分析大量數(shù)據(jù),使模型的建立需要花費(fèi)大量的時(shí)間模型生成后,后續(xù)協(xié)作過濾的效率和準(zhǔn)確率都可以得到顯著的提高隱含語義索引基于模型的協(xié)作過濾研究中最重要的方法是隱含語義索引Sarwar等學(xué)者將LSI引入?yún)f(xié)作過濾領(lǐng)域關(guān)系矩陣由活動(dòng)用戶和項(xiàng)目組成;語義關(guān)系由用戶與用戶之間、項(xiàng)目與項(xiàng)目之間、用戶與項(xiàng)目之間的相關(guān)性組成LSI協(xié)作過濾的流程建立用戶-項(xiàng)目關(guān)系矩陣R;采用奇異值分解技術(shù)將矩陣R分解為U,S和V將V降維成維數(shù)為k的矩陣VKk<r),并采用相同方法簡(jiǎn)化矩陣U和S為Uk
和Sk
;計(jì)算矩陣Vk
的平方根
,并相應(yīng)計(jì)算
和預(yù)測(cè)用戶a對(duì)項(xiàng)目i的評(píng)分,公式如下:
優(yōu)缺點(diǎn)重要的用戶-項(xiàng)目關(guān)系結(jié)構(gòu)被映射到低維空間中,消除了關(guān)系上的細(xì)微差別而保留了重要的潛在關(guān)聯(lián)性K值太大會(huì)導(dǎo)致結(jié)果趨近于原始矩陣而失去挖掘潛在關(guān)聯(lián)的能力K值太小則會(huì)使得關(guān)聯(lián)信息丟失太多,以至于對(duì)于用戶和項(xiàng)目的分辨能力不足基于項(xiàng)目的協(xié)作過濾基于用戶的協(xié)作過濾系統(tǒng)通過遍歷整個(gè)用戶群建立用戶之間的相似關(guān)系,并推薦項(xiàng)目,對(duì)用戶規(guī)模龐大的過濾系統(tǒng)而言,這種方法極大影響推薦效率基于項(xiàng)目的協(xié)作過濾系統(tǒng)只針對(duì)目標(biāo)項(xiàng)目和活動(dòng)用戶已有項(xiàng)目之間進(jìn)行協(xié)作性檢測(cè),從而在保證過濾效果的同時(shí),大大提高了系統(tǒng)效率基于項(xiàng)目的協(xié)作過濾系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 7948-2024滑動(dòng)軸承塑料軸套極限PV試驗(yàn)方法
- 受眾定向技術(shù)行業(yè)經(jīng)營分析報(bào)告
- 芯片讀卡器產(chǎn)品供應(yīng)鏈分析
- 電壓力鍋高壓鍋市場(chǎng)發(fā)展前景分析及供需格局研究預(yù)測(cè)報(bào)告
- 手機(jī)游戲開發(fā)行業(yè)經(jīng)營分析報(bào)告
- 皮制錢包項(xiàng)目運(yùn)營指導(dǎo)方案
- 室內(nèi)裝潢的消毒行業(yè)市場(chǎng)調(diào)研分析報(bào)告
- 玻璃鋼軸流風(fēng)機(jī)項(xiàng)目營銷計(jì)劃書
- 坐便器產(chǎn)業(yè)鏈招商引資的調(diào)研報(bào)告
- 斷布機(jī)產(chǎn)品供應(yīng)鏈分析
- 4.4.1 對(duì)數(shù)函數(shù)的概念 課時(shí)教學(xué)設(shè)計(jì)
- 2023屆高考寫作指導(dǎo):漫畫作文 課件24張
- YS/T 1022-2015偏釩酸銨
- GB/T 9574-2001橡膠和塑料軟管及軟管組合件試驗(yàn)壓力、爆破壓力與設(shè)計(jì)工作壓力的比率
- 馬工程《刑法學(xué)(下冊(cè))》教學(xué)課件 第19章 破壞社會(huì)主義市場(chǎng)經(jīng)濟(jì)秩序罪
- GB/T 1740-2007漆膜耐濕熱測(cè)定法
- 校園突發(fā)事件及危機(jī)應(yīng)對(duì)
- 《必修上第六單元》教案【高中語文必修上冊(cè)】
- 立體構(gòu)成的基本要素及形式美法則備課講稿課件
- 廣東省房屋建筑工程概算定額說明及計(jì)算規(guī)則樣本
- 汽車文化知識(shí)考試參考題庫400題(含答案)
評(píng)論
0/150
提交評(píng)論