




已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀
(計算機應(yīng)用技術(shù)專業(yè)論文)農(nóng)業(yè)智能問答系統(tǒng)中的用戶偏好研究.pdf.pdf 免費下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
獨創(chuàng)性聲明 本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究 成果 據(jù)我所知 除了文中特別加以標注和致謝的地方外 論文中不包含其他人已經(jīng) 發(fā)表或撰寫過的研究成果 也不包含為獲得塑皇墾盔些盤堂或其他教育機構(gòu)的學(xué) 位或證書而使用過的材料 與我一同工作的同志對本研究所做的任何貢獻均已在論文 中作了明確的說明并表示謝意 學(xué)位論文作者簽名 趙全糸簽字日期 d 7 年f 月7 日 關(guān)于論文使用授權(quán)的說明 本學(xué)位論文作者完全了解塑耋墾盔些盤鱟有關(guān)保留 使用學(xué)位論文的規(guī)定 有權(quán)保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和磁盤 允許論文被查閱和借 閱 本人授權(quán)塑皇墾盔些盤堂可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行 檢索 可以采用影印 縮印或掃描等復(fù)制手段保存 匯編學(xué)位論文 保密的學(xué)位論文在解密后適用本授權(quán)書 學(xué)位論文作者簽名 起金糸 簽字日期 函 7 年i 月7 日 學(xué)位論文作者畢業(yè)后去向 工作單位 通訊地址 導(dǎo)師簽名 紗 簽字日期 d f 年 月7 日 電話 郵編 摘要 i i i i l lq l l l l l l l l t l l l l l l l t l l l l l l l l l l ll m 洲i y 18 9 7 3 6 2 隨著i n t e r n e t 的發(fā)展 傳統(tǒng)搜索引擎查準率低下的缺點不斷的暴露出來 個性化 服務(wù)便應(yīng)運而生 用戶偏好作為個性化系統(tǒng)的核心 逐漸受到了重視 本文對用戶偏 好的建模以及更新方法等進行了深入的學(xué)習(xí)研究 構(gòu)建了基于用戶偏好的農(nóng)業(yè)智能問 答系統(tǒng)的原型系統(tǒng) 該原型系統(tǒng)將用戶的訪問頁面和w e b 日志作為挖掘分析對象 并不需要客戶端 用戶過多的參與 可以由系統(tǒng)自動的分析推斷出用戶的興趣來構(gòu)建偏好模型并更新 之 另外系統(tǒng)仿照人類遺忘規(guī)律對不同種類的偏好進行不同程度的遺忘 通過不斷的 更新用戶模型 使之越來越貼近用戶的真j 下意圖 本文著重從以下幾個方面進行了學(xué)習(xí)和研究 1 全面研究了信息檢索系統(tǒng)的關(guān)鍵技術(shù) 重點研究了構(gòu)建基于本體的用戶偏 好模型的關(guān)鍵技術(shù)和核心問題 2 對用戶偏好模型進行了重點研究 探討了用戶偏好模型的表示方法 建模 方法 更新方法等關(guān)鍵技術(shù) 并提出了一種新的用戶模型更新算法 3 在充分學(xué)習(xí)和研究了傳統(tǒng)的農(nóng)業(yè)相關(guān)網(wǎng)站的基礎(chǔ)上 構(gòu)建了農(nóng)業(yè)智能問答 系統(tǒng)的原型系統(tǒng) 4 認真設(shè)計了測試數(shù)據(jù) 對文中的算法和用戶偏好模型進行試驗和分析 驗 證了其有效性 關(guān)鍵詞 用戶偏好 智能問答 農(nóng)業(yè)本體 o n t o l o g y a b s t r a c t systeermgs y s t e m w i t ht h ed e v e l o p m e n to fi n t e r a c t t h es h o r t c o m i n g so fl o w e rp r e c i s i o no ft r a d i t i o n a l s e a r c h e n g i n e s h a v eb e e nr e v e a l e d i n d i v i d u a t i o ns e r v i c e e m e r g e s 雒t h et i m e s r e q u i r e 1 1 1 et i g e rp r o f i l e a st h ec o r eo fp e r s o n a l i z e ds y s t e m i sg r o w i n gr e c o g n i t i o n 眥s p a p e rs t u d ya n dr e s e a r c ho nt h em o d e l i n ga n du p d a t i n gm e t h o do fu s e rp r o f i l e a n db u l i d s t h ea g r i c u l t u r a li n t e l l i g e n t q u e s t i o na n s w e r i n gs y s t e m t h es y s t e me x c a v a t e sa n da n a l y z e st h et h ea c c e s s e dp a g e sa n dw e bl o g s d o e s n ta s k t h ec l i e n tu s e r st op a r t i c i p a t ei ni tt o om u c h i tc a n a u t o m a t i c a l l ya n a l y z e sa n dd e d u c e su s e r p r o f i l e s u b s e q u e n t l yb u i l d sa n du p d a t et h em o d e lo fp r o f i l e b e s i d e st h i ss y s t e mi m i t a t e h u m a no b l i v i o u sr u l e st of o r g e t st h ed i f f e r e n tk i n d so fi n t e r e s t si nv a r y i n gd e g r e e s t h r o u g h r e g u l a ru p d a t i n gt h em o d e l m a k i n gi tm o r ea n dm o r et og e tc l o s et h eu s e r s r e a li n t e n t i o n s t 1 1 i sa r t i c l em a i n l ys t u d i e sa n dr e s e a r c h e so nf r o mt h ef o l l o w i n g a s p e c t s 1 t h ek e yt e c h n o l o g yo fi n f o r m a t i o nr e t r i e v a ls y s t e mi sc o m p r e h e n s i v e l ys t u d i e d i nt h i sp a p e r t h ec o r ep r o b l e ma n dt h ek e yt e c h n i q u e sh o wt oc o n s t r u c to n t o l o g y b a s e d p r e f e r e n c em o d e li sm a i n l ys t u d i e d 2 1 1 1 e u s e rp r o f i l e m o d e li s m a i n l y s t u d i e di nt h i s p a p e r a n d t h e r e p r e s e n t a t i o n m o d e l i n gm e t h o d u p d a t i n gm e t h o da n ds oo ni sd i s c u s s e d f i n a l l yan e w a l g o r i t h mf o ru p d a t i n gt h em o d e li sp u tf o r w a r d 3 b a s e do ns t u d y i n ga n dr e s e a r c ho nt h et r a d i t i o n a la g r i c u l t u r a lw e b s i t e s t h e a g r i c u l t u r a li n t e l l i g e n tq u e s t i o na n s w e r i n gs y s t e mi sb u i l d 4 t e s td a t ai sd e s i g n e di ne a r n e s tt h ea l g o r i t h ma n dt h em o d e li s e x p e r i m e n t e da n d a n a l y s i s e d i t se f f e c t i v e n e s si sv e r i f i e d k e y w o r d s u s e rp r o f i l e i n t e l l i g e n tq u e s t i o na n s w e r i n g g r i c u l t u r a lo n t o l o g y o n t o l o g y l l 2 4 5 6 6 6 2 1 2 搜索引擎的分類 6 2 1 3 傳統(tǒng)搜索引擎的不足 厶 i7 2 2 個性化搜索引擎 7 2 2 1 個性化搜索引擎 7 2 2 2 個性化搜索引擎的關(guān)鍵技術(shù) 8 3 智能問答系統(tǒng)中用戶偏好的分析與設(shè)計 1 0 3 1 用戶偏好挖掘技術(shù) 一1 0 3 1 1 數(shù)據(jù)挖掘技術(shù)簡介 1 0 3 1 2w 曲日志挖掘過程 l l 3 2 用戶偏好模型研究 1 3 3 2 1 用戶興趣模型的含義 1 3 3 2 2 偏好模型的形式 1 4 3 2 3 興趣模型的創(chuàng)建方法 1 5 3 2 4 興趣模型更新方法介紹 1 5 3 2 5 本體偏好模型的定義和原理 1 6 3 2 6 偏好模型的分類 1 7 3 2 7 偏好模型生成算法 l7 3 2 8 本體偏好模型的具體更新算法 18 3 2 9 短期興趣向長期興趣的轉(zhuǎn)換 1 9 3 2 1 0 本體相似度的計算 1 9 3 3 興趣存儲方式 2 0 4 基于本體的智能問答系統(tǒng)的實現(xiàn) 2 5 4 1 原型系統(tǒng)綜述 2 5 4 2 提問模塊的實現(xiàn) 2 7 4 3 偏好應(yīng)用 2 8 4 4 分類模塊 3 0 4 5 答案檢索 3 3 4 6 回答模塊 3 7 4 7 知識挖掘 4 0 4 8 高級檢索 4l 4 9 管理員后臺管理 4 6 5 農(nóng)業(yè)智能問答系統(tǒng)測試 4 9 5 1 實驗環(huán)境 4 9 5 2 數(shù)據(jù)集和偏好建模 4 9 5 3 評測標準 5 2 5 4 實驗結(jié)果與分析 5 2 6 總結(jié)與展望 5 4 參考文獻 5 5 作者簡介 5 7 在讀期間發(fā)表的學(xué)術(shù)論文 5 8 就讀碩士期間參加的研究項目 5 8 致謝 5 9 農(nóng)業(yè)智能問答系統(tǒng)中的用戶偏好研究 1 1 研究的背景和意義 1 引言 互聯(lián)網(wǎng)的發(fā)展為人們帶來了巨大的驚喜與變革 也為人類帶來了許多難題和挑 戰(zhàn) 隨著i n t e m e t 網(wǎng)絡(luò)在全球的迅速蔓延 計算機軟 硬件技術(shù)的飛速發(fā)展以及人們 利用信息技術(shù)傳播資訊的能力大幅度提高 萬維網(wǎng)自從1 9 9 1 年出現(xiàn)以來已經(jīng)發(fā)展成 為一個巨大的全球化的信息空間 新摩爾定律 指出 i n t e m e t 上的信息正以每六個 月翻一番的速度爆炸性地增長著 信息變得極大豐富在為互聯(lián)網(wǎng)用戶帶來極大的便利 和樂趣的同時 也使他們陷入了 信息過載 的困境當(dāng)中 在現(xiàn)實生活中 人們發(fā)現(xiàn)要 找到自己所需的信息正變的越來越困難 功能強大的搜索引擎的廣泛使用可以緩解這 樣的困境 但搜索引擎由用戶手動觸發(fā) 用戶通常一次只輸入很少的關(guān)鍵字進行查詢 搜索的結(jié)果往往數(shù)據(jù)量巨大而命中率卻很低 需要用戶再花費大量的時間和精力進行 二次查找 無法滿足用戶準確 快速的需求 可見 目前的信息檢索技術(shù)還具有很大 的局限性 具體表現(xiàn)在 1 2 1 查詢返回集繁雜 導(dǎo)致查準率低下 互聯(lián)網(wǎng)上的信息巨大 增加速度迅猛 而傳統(tǒng)的檢索只是根據(jù)用戶輸入的簡單 的關(guān)鍵詞返回相關(guān)的結(jié)果 這樣繁雜的結(jié)果集導(dǎo)致查準率低下 用戶很難迅速準確的 得到所需信息 2 不能提供個性化的服務(wù) 由于用戶的年齡 學(xué)歷 職業(yè) 性別 地域的不同 對搜索的風(fēng)格和內(nèi)容也要 求不同 傳統(tǒng)的搜索只針對檢索詞 沒有考慮用戶的真正需求 導(dǎo)致了較低的查準率 3 互聯(lián)網(wǎng)信息的隨機變化性 網(wǎng)絡(luò)信息的的發(fā)布具有隨意性和自由性 任何人和機構(gòu)都既是信息的發(fā)布者又 可能是信息的檢索者 每天都有海量的信息發(fā)布 同時也會有大量的信息失效或者更 改 這都使網(wǎng)絡(luò)信息表現(xiàn)出隨機性 4 互聯(lián)網(wǎng)信息的無序性 不同的網(wǎng)絡(luò)通過t c p i p 協(xié)議連接在一起 但對信息資源并沒有統(tǒng)一的組織規(guī) 范 雖然對于每個網(wǎng)站或者網(wǎng)頁來說 信息具有一定的組織規(guī)則 但通觀整個信息網(wǎng) 絡(luò) 資源卻處于無序和分散狀態(tài) 面臨以上種種困惑 對于一個網(wǎng)站來說 如何從中脫穎而出得到用戶的認可 只有提高自己的服務(wù)質(zhì)量 提供更符合用戶偏好 充分體現(xiàn)用戶個性化要求的信息服 務(wù) 為用戶提供個性化服務(wù) 一般有三種方法 基于內(nèi)容的方法 基于規(guī)則的方法 協(xié)作過濾的方法 基于內(nèi)容的方法 該方法主要是根據(jù)網(wǎng)頁的內(nèi)容與得到的用戶檔案的相似度確定 個性化服務(wù)的內(nèi)容 河北農(nóng)業(yè)大學(xué)碩士學(xué)位 畢業(yè) 論文 基于規(guī)則的方法 該方法是指網(wǎng)絡(luò)管理者以統(tǒng)計學(xué)的方法建立規(guī)則來確定個性化 服務(wù)的內(nèi)容 協(xié)作過濾的方法 該方法是指在直接或者間接的取得信息的基礎(chǔ)上將客戶分為不 同的類型 然后通過同類客戶群的評級確定發(fā)送給客戶那些服務(wù)內(nèi)容 這些方法使得網(wǎng)絡(luò)服務(wù)提供商能夠?qū)τ脩籼峁﹤€性化的服務(wù)形式和服務(wù)內(nèi)容 然 后 基于規(guī)則的方法在規(guī)則數(shù)量較多時經(jīng)常很難管理 而協(xié)作過濾的方法的評價數(shù)據(jù) 又有很大的片面性 為此越來越多的研究焦點聚集在基于內(nèi)容的方法 也就是我們所 說的依據(jù)用戶偏好 為用戶定制個性化服務(wù) 基于內(nèi)容的方法 如果直接獲得用戶檔 案 其實就是一種靜態(tài)方法 它不能及時體現(xiàn)用戶偏好的變化 間接的用戶檔案管理 通常是指通過自動分類技術(shù)和聚類技術(shù)得到的 即我們所說的根據(jù)用戶訪問的數(shù)據(jù)內(nèi) 容挖掘用戶偏好的過程 它是一種動態(tài)方法 可以及時的跟蹤用戶的興趣變化 用戶 訪問過的數(shù)據(jù) 集中反映了用戶的個性偏好 為此我們就可以通過對w e b 日志文件 和相關(guān)數(shù)據(jù)進行分析挖掘 進而得到用戶的個性偏好 據(jù)此為用戶提供個性化服務(wù) 例如針對性的信息推送等等 近年來 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展 農(nóng)業(yè)服務(wù)和信息的查詢也越來越多的依靠網(wǎng)絡(luò)服 務(wù) 目前農(nóng)民的文化知識增長很快 農(nóng)民的文化素質(zhì)也在不斷的提高 很多農(nóng)村已經(jīng) 接入了寬帶網(wǎng)絡(luò) 這對于農(nóng)民對農(nóng)業(yè)相關(guān)知識的獲取提供了良好的平臺 隨著信息技術(shù)的發(fā)展 雖然國內(nèi)外也涌現(xiàn)出了很多農(nóng)業(yè)相關(guān)網(wǎng)站 如農(nóng)搜網(wǎng)和神 州蔬菜網(wǎng)等百余家 但這些傳統(tǒng)的搜索引擎依然繼承了傳統(tǒng)網(wǎng)絡(luò)信息服務(wù)的弊病 極 低的查準率讓本來不怎么習(xí)慣網(wǎng)絡(luò)的農(nóng)民更為煩惱 為此為用戶提供個性化服務(wù)在農(nóng) 業(yè)網(wǎng)站上顯得更為迫切和重要 鑒于以上種種原因 本文結(jié)合用戶偏好進行了農(nóng)業(yè)智能問答系統(tǒng)的研究 這具有 一定的實用意義 1 2 國內(nèi)外研究現(xiàn)狀 在個性化服務(wù)研究的早期 建模技術(shù)并沒有得到應(yīng)有的重視 大量的研究集中在 實現(xiàn)個性化服務(wù)的技術(shù)上 如推薦技術(shù) 信息檢索技術(shù) 用戶聚類技術(shù)等 用戶建模 技術(shù)只是這些研究中幾筆帶過的陪襯 然而隨著個性化服務(wù)的發(fā)展和研究的深入 研 究者逐漸意識到 個性化服務(wù)的質(zhì)量不僅僅取決于具體的推薦技術(shù) 檢索技術(shù)等 還 取決于用戶興趣和偏好等特點的可計算描述 而后者尤其重要 所以 近年來 有關(guān) 用戶建模技術(shù)的研究開始從具體的個性化服務(wù)形式中脫離出來 作為個性化服務(wù)的基 礎(chǔ)技術(shù)來研究 s y s l d l l w e b e r t 是加州大學(xué)的p a z z a n i 等人開發(fā)的一個輔助用戶瀏覽w e b 的導(dǎo)航 工具 是針對單用戶的系統(tǒng) 在用戶瀏覽w e b 的過程中 s y s k i l l w e b e r t 要求用戶對 每一個瀏覽過的頁面標注 感興趣 不感興趣 或者 一般 而后系統(tǒng)通過計算頁面 中單字與類別的互信息 m u t u a li n f o r m a t i o n 找出反映用戶興趣的關(guān)鍵詞 構(gòu)成用戶 2 農(nóng)業(yè)智能問答系統(tǒng)中的用戶偏好研究 模型 比如 如果用戶保存某個頁面 則推測用戶對該頁面感興趣 如果用戶經(jīng)常訪 問某頁面 則可推測用戶對該頁面感興趣 如果用戶點擊頁面中某個超鏈接而后又快 速返回 則可推測用戶對該超鏈接的鏈宿頁面不感興趣 假設(shè)用戶瀏覽習(xí)慣是從左至 右 從上至下 如果用戶跳過某個超鏈接 則可推測用戶對該超鏈接的鏈宿頁面不感 興趣 這種建立用戶偏好模型的方法太過籠統(tǒng) 也極大的干預(yù)了用戶的使用 導(dǎo)致系 統(tǒng)的效率較低 用戶使用起來較為不方便 l e t i z i a 是由m i t 的h e n r yl i e b e r m a n 開發(fā)的w e ba g e n t 該系統(tǒng)通過收集用戶的 操作和瀏覽行為 運用啟發(fā)式規(guī)則集 對用戶的瀏覽行為建模 從而產(chǎn)生用戶的偏好 模型 系統(tǒng)并不要求用戶給出顯式的評價 主要通過分析用戶在客戶端的瀏覽行為推 斷用戶的個性偏好 這樣偏好模型的建立比s y s k i l l w e b e r t 更加人性化 p e r s o n a lw e b w a t c h e r 是由卡內(nèi)基 梅隆大學(xué)推出的個性化系統(tǒng) p e r s o n a l w e b w a t c h e r 的個性化服務(wù)是在服務(wù)器端提供的 它主要由兩部分組成 代理服務(wù)器 p r o x ys e r v e r 和學(xué)習(xí)器 1 e a r n e r 代理服務(wù)器是用戶w e b 瀏覽器與w e b 之間的橋梁 它 保存了所有訪問過的u r l 地址 學(xué)習(xí)器主要是為系統(tǒng)提供用戶模型 整個系統(tǒng)用p e r l 語言和c 語言編寫 代理服務(wù)器主要由3 部分組成 代理 p r o x y 建議器 a d v i s e r 和分類 器 c l a s s i f e r 當(dāng)代理接到一個請求時 先下載請求的文檔 如果該文檔是h t m l 格式 將會加上一些 建議并將結(jié)果發(fā)給用戶 增加建議的過程是這樣的 代理將下載的文檔發(fā)給建議器 建議器先從文檔抽取超鏈 接著將結(jié)果發(fā)給分類器 分類器利用學(xué)習(xí)器產(chǎn)生的用戶模型 推薦滿足某一閾值的超鏈返回給用戶 學(xué)習(xí)器有兩種版本 從頭開始創(chuàng)建一個新模型的學(xué)習(xí)器和更新一個已存在模型的 學(xué)習(xí)器 它們之間的差別是 前一個不得不定義好領(lǐng)域信息 同時從一個空模型開始學(xué) 習(xí) 后一個可以利用已定義好的領(lǐng)域信息 同時修改已存在的模型 系統(tǒng)假定被用戶訪 問過的文檔是揭示用戶興趣的 也就是正面的例子 所有其他被忽略的文檔就是負面的 例子 這個假定可以省去用戶參與系統(tǒng)學(xué)習(xí)的過程 用戶的興趣模型很簡單 系統(tǒng)是根 據(jù)指向文檔的超鏈來預(yù)測文檔的興趣度 而不是真正文檔的內(nèi)容 因為檢索文檔是一 個非常耗時的過程 在系統(tǒng)空閑的時候 比如晚間 也可以根據(jù)文檔的內(nèi)容來預(yù)測文檔 的興趣度 這樣會更準確一些 此外 也可以利用超鏈來預(yù)測文檔內(nèi)容 然后利用這些文 檔內(nèi)容來預(yù)測真正文檔的興趣度 僅僅通過超鏈接來推斷用戶的興趣 可能導(dǎo)致系統(tǒng) 不能很好的理解用戶的意圖 當(dāng)然也就不能準確的推斷出用戶的興趣所在 建立起較 為精確的用戶偏好模型 2 0 0 7 年西安工業(yè)大學(xué)計算機科學(xué)與工程學(xué)院的李寶敏 韓岳松在本體環(huán)境下用 戶偏好庫的查詢算法擴展一文中 依據(jù)本體論 采用用戶興趣剖像算法 擴展查詢算 法 使得在基于本體的智能搜索中更多更準確地體現(xiàn)出用戶興趣愛好 進而大大提高 了檢索的速度和查準率 但其實驗系統(tǒng)的關(guān)鍵詞只是果品方面的詞匯 并且在單機的 條件下進行了測試 其結(jié)果具有一定的局限性 2 0 0 9 年曲阜師范大學(xué)的孔繁超在個 性化信息服務(wù)中用戶偏好的動態(tài)挖掘一文中采用聚類 關(guān)聯(lián)規(guī)則等技術(shù) 對用戶偏好 進行了動態(tài)的挖掘 通過追蹤用戶需求序列 最終產(chǎn)生t o p n 產(chǎn)品推薦 提高了推薦 3 河北農(nóng)業(yè)大學(xué)碩士學(xué)位 畢業(yè) 論文 系統(tǒng)的推薦質(zhì)量 該推薦系統(tǒng)目前被廣泛應(yīng)用于電子商務(wù) 數(shù)字圖書館等領(lǐng)域 但隨 著進一步的應(yīng)用 原有算法暴露出許多缺點 2 0 0 5 年蘭州大學(xué)的蔣萍 崔志明在基于 用戶興趣挖掘的個性化模型研究與設(shè)計一文中 采用遺忘因子的概念對用戶的興趣進 行了有選擇的平等的遺忘 將用戶模型應(yīng)用于p m s e 提高的查詢效率 但系統(tǒng)的遺 忘算法存在一定的弊端 對不同的興趣類型采取了一致的遺忘算法 這樣影響了用戶 主要興趣的體現(xiàn) 2 0 0 9 年鹽城工學(xué)院的趙雪梅 朱恩亮在網(wǎng)站用戶偏好度的數(shù)據(jù)挖 掘模型一文中 基于統(tǒng)計學(xué)的觀點討論了網(wǎng)站用戶偏好度的數(shù)據(jù)挖掘模型 設(shè)計了一 個網(wǎng)站用戶信息瀏覽偏好度的數(shù)據(jù)挖掘模型并應(yīng)用于通用商品銷售系統(tǒng) 也在一定程 度上提高了產(chǎn)品的查準率 除此之外 很多學(xué)者還對用戶模型的表示和更新進行了大量的研究和探索 然而 總的來說 用戶偏好建模技術(shù)的研究還處于起步階段 依然沒有形成完整的技術(shù)體系 很多關(guān)鍵技術(shù)善待解決和探索 與現(xiàn)存的偏好模型相比 本文所設(shè)計的用戶偏好模型具有以下特點 1 模型中不但保存了用戶的興趣主題信息以及其興趣度 還保存了該興趣主 題所對應(yīng)的特征詞信息與其權(quán)重 將個人偏好進行了細化 2 將用戶偏好分為靜態(tài)偏好 短期偏好 長期偏好 對不同的類型的偏好采取 不同的遺忘算法和不同的結(jié)構(gòu)模式 3 提出了一種新的遺忘算法 加入了遺忘因子修正值 使用戶偏好更有效的 服務(wù)于信息檢索 1 3 研究內(nèi)容和設(shè)計目標 論文采用面向?qū)ο蟮乃枷敕椒?結(jié)合本體技術(shù) 對農(nóng)業(yè)智能問答系統(tǒng)中的用戶偏 好問題經(jīng)行詳細的分析 并采用j a v a 技術(shù) 結(jié)合目前比較流行的s s h 框架對農(nóng)業(yè) 智能問答原型系統(tǒng)進行了實現(xiàn)和相關(guān)分析 論文完成了以下幾個方面的工作 1 全面研究了信息檢索系統(tǒng)的關(guān)鍵技術(shù) 重點研究了構(gòu)建基于本體的用戶偏 好模型的關(guān)鍵技術(shù)和核心問題 2 對用戶偏好模型進行了重點研究 探討了用戶偏好模型的表示方法 建模 方法 更新方法等關(guān)鍵技術(shù) 并提出了一種新的用戶模型更新算法 3 在充分學(xué)習(xí)和研究了傳統(tǒng)的用戶偏好模型和構(gòu)建技術(shù)的基礎(chǔ)上 搭建了農(nóng) 業(yè)智能問答系統(tǒng)的原型系統(tǒng) 4 認真設(shè)計了測試數(shù)據(jù) 對文中的算法和用戶偏好模型進行了試驗和分析 驗證了其有效性 4 農(nóng)業(yè)智能問答系統(tǒng)中的用戶偏好研究 1 4 論文的結(jié)構(gòu) 第一章 引言 主要介紹了論文研究課題的背景 來源 意義及作者的主要工作 第二章 檢索技術(shù)研究以及相關(guān)技術(shù)介紹 本章主要介紹了傳統(tǒng)搜索引擎的原理 分類和不足 以及個性化服務(wù)的特點和關(guān)鍵技術(shù) 第三章 對農(nóng)業(yè)智能問答系統(tǒng)中的用戶偏好進行了詳細分析和設(shè)計 本章探討了 偏好挖掘技術(shù) 偏好建模技術(shù) 模型的分類和構(gòu)建方法 以及模型的更新方法等 并 對用戶偏好的存儲進行了詳細設(shè)計 第四章 智能問答系統(tǒng)的詳細設(shè)計和實現(xiàn) 本章結(jié)合給出的原型系統(tǒng)框架圖對其 進行了詳細的功能模塊設(shè)計實現(xiàn) 并對關(guān)鍵模塊進行了流程和效果截圖的說明 第五章 系統(tǒng)測試 測試了短期興趣和長期興趣的遺忘機制和短期興趣向長期興 趣的轉(zhuǎn)換 并且在采用模型和不采用模型的情況下對原型系統(tǒng)進行了測試 根據(jù)實驗 數(shù)據(jù)和結(jié)果證明了該系統(tǒng)在使用偏好模型后 在保證查全率的前提下 提高了其查準 率 體現(xiàn)了用戶的個性化 需要符合選題要求 5 河北農(nóng)業(yè)大學(xué)碩士學(xué)位 畢業(yè) 論文 2 1 搜索引擎概述 2 個性化搜索引擎簡介 為了更好的理解個性的問答系統(tǒng) 在此我們有必要先對搜索引擎做必要的介紹 那么什么是搜索引擎呢 搜索引擎 s e a r c he n g i n e 是指根據(jù)一定的策略 運用特定的 計算機程序從互聯(lián)網(wǎng)上搜集信息 在對信息進行組織和處理后 為用戶提供檢索服務(wù) 將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng) 2 1 1 搜索引擎工作原理 抓取網(wǎng)頁 每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序 s p i d e r s p i d e r 順著 網(wǎng)頁中的超鏈接 連續(xù)地抓取網(wǎng)頁 被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照 由于互聯(lián)網(wǎng)中 超鏈接的應(yīng)用很普遍 理論上 從一定范圍的網(wǎng)頁出發(fā) 就能搜集到絕大多數(shù)的網(wǎng)頁 處理網(wǎng)頁 搜索引擎抓到網(wǎng)頁后 還要做大量的預(yù)處理工作 才能提供檢索服務(wù) 其中 最重要的就是提取關(guān)鍵詞 建立索引文件 其他還包括去除重復(fù)網(wǎng)頁 分詞 中 文 判斷網(wǎng)頁類型 分析超鏈接 計算網(wǎng)頁的重要度 豐富度等 提供檢索服務(wù) 用戶輸入關(guān)鍵詞進行檢索 搜索引擎從索引數(shù)據(jù)庫中找到匹配該 關(guān)鍵詞的網(wǎng)頁 為了用戶便于判斷 除了網(wǎng)頁標題和u r l 外 還會提供一段來自網(wǎng) 頁的摘要以及其他信息 2 1 2 搜索引擎的分類 圖片搜索圖片 圖片搜索引擎是全新的搜索引擎 目前國內(nèi)有安圖搜 基于圖像 形式特征的抽取 由圖像分析軟件自動抽取圖像的顏色 形狀 紋理等特征 建立特 征索引庫 用戶只需將要查找的圖像的大致特征描述出來 就可以找出與之具有相近 特征的圖像 這是一種基于圖像特征層次的機械匹配 特別適用于檢索目標明確的查 詢要求 例如對商標的檢索 產(chǎn)生的結(jié)果也是最接近用戶要求的 但目前這種較成 熟的檢索技術(shù)主要應(yīng)用于圖像數(shù)據(jù)庫的檢索 在網(wǎng)上圖像搜索引擎中應(yīng)用這種檢索技 術(shù)還具有一定的困難 全文索引 全文索引引擎是名副其實的搜索引擎 國外代表有g(shù) o o g l e 國內(nèi)知 名的百度搜索 它們從互聯(lián)網(wǎng)提取各個網(wǎng)站的信息 以網(wǎng)頁文字為主 建立起數(shù)據(jù) 庫 并能檢索與用戶查詢條件相匹配的記錄 按一定的排列順序返回結(jié)果 根據(jù)搜索 結(jié)果來源的不同 全文搜索引擎可分為兩類 一類擁有自己的網(wǎng)頁抓取 索引 檢索 系統(tǒng) i n d e x e r 有獨立的 蜘蛛 s p i d e r 程序 或爬蟲 c r a w l e r 或 機器人 r o b o t 程序 這三種稱法意義相同 能自建網(wǎng)頁數(shù)據(jù)庫 搜索結(jié)果直接從自身的 數(shù)據(jù)庫中調(diào)用 上面提到的g o o g l e 和百度就屬于此類 另一類則是租用其他搜索引 6 農(nóng)業(yè)智能問答系統(tǒng)中的用戶偏好研究 擎的數(shù)據(jù)庫 并按自定的格式排列搜索結(jié)果 如l y e o s 搜索引擎 目錄索引 目錄索引雖然有搜索功能 但嚴格意義上不能稱為真正的搜索引擎 只是按目錄分類的網(wǎng)站鏈接列表而已 用戶完全可以按照分類目錄找到所需要的信 息 不依靠關(guān)鍵詞 k e y w o r d s 進行查詢 目錄索引中最具代表性的莫過于大名鼎鼎 的y a h o o 新浪分類目錄搜索 元搜索引擎 元搜索引擎 m e t as e a r c he n g i n e 接受用戶查詢請求后 同時在 多個搜索引擎上搜索 并將結(jié)果返回給用戶 著名的元搜索引擎有i n f o s p a c e d o g p i l e v i v i s i m o 等 中文元搜索引擎中具代表性的是搜星搜索引擎 在搜索結(jié)果排列方面 有的直接按來源排列搜索結(jié)果 如d o g p i l e 有的則按自定的規(guī)則將結(jié)果重新排列組 合 如v i v i s i m o 垂直搜索引擎 垂直搜索引擎為2 0 0 6 年后逐步興起的一類搜索引擎 不同于通 用的網(wǎng)頁搜索引擎 垂直搜索專注于特定的搜索領(lǐng)域和搜索需求 例如 機票搜索 旅游搜索 生活搜索 小說搜索 視頻搜索等等 在其特定的搜索領(lǐng)域有更好的用 戶體驗 相比通用搜索動輒數(shù)千臺檢索服務(wù)器 垂直搜索需要的硬件成本低 用戶需 求特定 查詢的方式多樣 2 1 3 傳統(tǒng)搜索引擎的不足 搜索引擎在信息檢索方面存在的許多不足主要表現(xiàn)在 查全率比較低 每個引 擎的覆蓋面都相當(dāng)有限 據(jù)統(tǒng)計 沒有一個搜索引擎的索引量超過整個網(wǎng)絡(luò)網(wǎng)頁總數(shù) 的1 6 由此可見 每個搜索引擎雖然相對查全率比較高 而實際查全率則比較低 查準率比較低 目前通過搜索引擎檢索的網(wǎng)絡(luò)信息資源相關(guān)性非常差 浪費了用戶 大量的相關(guān)判斷時間 每一個搜索引擎都有自己的檢索規(guī)則 用戶利用不同的搜索 引擎需要進行不同的適應(yīng)過程 增加了用戶的負擔(dān) 多數(shù)搜索引擎采用關(guān)鍵詞檢索 并提供高級檢索功能 但用戶很難通過組配關(guān)鍵詞來準確表達自己的信息需求 導(dǎo)致 檢索效率低下 更新速度比較慢 搜索引擎機器人只能在由系統(tǒng)管理員確定的一定 時間間隔內(nèi)跟蹤特定信息 不能保證信息的及時更新 導(dǎo)致產(chǎn)生錯鏈和死鏈 隨著網(wǎng) 絡(luò)信息數(shù)量的指數(shù)增長 引擎數(shù)據(jù)庫急劇膨脹 檢索速度也將會變慢 為了解決單個 搜索引擎信息覆蓋面小 信息收集量有限 用戶需要對不同搜索引擎進行適應(yīng)的缺點 人們提出了個性化搜索引擎的概念 2 2 個性化搜索引擎 2 2 1 個性化搜索引擎 通過上述介紹 我們了解了什么是搜索引擎 由于傳統(tǒng)搜索引擎的不足 我們必 須來構(gòu)建個性的搜索引擎來彌補它的缺點 個性化搜索引擎最終要為用戶提供個性化 服務(wù) 根據(jù)目前個性化搜索技術(shù)實現(xiàn)的現(xiàn)狀 搜索引擎要實現(xiàn)個性化搜索服務(wù) 可以 7 河北農(nóng)業(yè)大學(xué)碩士學(xué)位 畢業(yè) 論文 從以下幾方面考慮哺蘆j 1 根據(jù)用戶個性特征以及用戶搜索的歷史信息 建立用戶興趣模型 只有構(gòu)建 了用戶興趣模型 搜索引擎才能根據(jù)用戶的興趣特征來提供個性化服務(wù) 用戶興趣模 型是個性化搜索引擎實現(xiàn)的基礎(chǔ) 2 還要有一個合理的機制來完善和更新用戶興趣 用戶跟蹤的方法可以分為顯 式跟蹤和隱式跟蹤 顯式跟蹤是指系統(tǒng)要求用戶提交自己感興趣的信息 而隱式跟蹤 不要求用戶提供信息 所有跟蹤都是由系統(tǒng)自動完成 隱式跟蹤又可分為日志挖掘和 行為跟蹤 3 用戶查詢通常具有歧義性 而用戶真正的查詢意圖大部分是直接讓成員引擎 去推理識別 但是不同的成員引擎有不同的推理機制 從而導(dǎo)致搜索引擎返回大量與 用戶不相關(guān)的結(jié)果 因此 為了給用戶提供個性化搜索 個性化的搜索引擎需要對提 供的用戶查詢進行查詢優(yōu)化 并參考用戶興趣模型最大可能地識別用戶的查詢意圖 4 個性化元搜索引擎應(yīng)該能夠參考用戶興趣模型選擇最合適用戶查詢的成員引 擎來為用戶提供搜索服務(wù) 5 個性化搜索引擎獲得各個成員引擎返回的結(jié)果后 在合成結(jié)果時參照用戶興 趣模型 過濾與用戶查詢不相關(guān)的結(jié)果和對結(jié)果重新進行排序 這樣 即使成員引擎 返回結(jié)果一樣 但對于不同的用戶 最終返回給用戶的結(jié)果也是不一樣的 充分體現(xiàn) 用戶個性化搜索 2 2 2 個性化搜索引擎的關(guān)鍵技術(shù) 個性化元搜索引擎涉及的技術(shù)較多 如用戶建模技術(shù) 個性化推薦技術(shù) 網(wǎng)站自 適應(yīng)技術(shù) 用戶隱私保護技術(shù)等 但目前研究較多 也是最為關(guān)鍵的技術(shù)是用戶建模 技術(shù)和個性化推薦技術(shù)i g g j 1 推薦技術(shù)研究目前主要的推薦技術(shù)包括基于內(nèi)容過濾和協(xié)同過濾兩種 由于 基于內(nèi)容過濾自身局限性 協(xié)同過濾推薦技術(shù)是當(dāng)前研究主流 2 實時性研究在大型個性化推薦系統(tǒng)中 推薦系統(tǒng)的伸縮能力和實時性要求越 來越難以保證 如何有效滿足推薦系統(tǒng)的實時性要求得到了越來越多研究者的關(guān)注 3 推薦質(zhì)量研究在大型個性化服務(wù)系統(tǒng)中 用戶評分數(shù)據(jù)極端稀疏 用戶評分 數(shù)據(jù)的極端稀疏性使得推薦系統(tǒng)無法產(chǎn)生有效的推薦 推薦系統(tǒng)的推薦質(zhì)量難以保 證 4 多種數(shù)據(jù)多種技術(shù)的集成當(dāng)前大部分的電子商務(wù)推薦系統(tǒng)都只利用了一部分 可用信息來產(chǎn)生推薦 隨著研究的深入 新型個性化推薦系統(tǒng)應(yīng)該利用盡可能多的信 息 收集多種類型的數(shù)據(jù) 有效集成多種推薦技術(shù) 從而提供更加有效的推薦服務(wù) 5 數(shù)據(jù)挖掘技術(shù)在推薦系統(tǒng)中的應(yīng)用隨著研究的深入 各種數(shù)據(jù)挖掘技術(shù) 主要 包括關(guān)聯(lián)規(guī)則挖掘 序列模式挖掘 聚類分析等 在推薦系統(tǒng)中得n t 廣泛的應(yīng)用 基于w e b 挖掘推薦系統(tǒng)得到了越來越多研究者關(guān)注 6 用戶隱私保護研究由于推薦系統(tǒng)需要分析用戶的興趣愛好 涉及到用戶隱私 8 農(nóng)業(yè)智能問答系統(tǒng)中的用戶偏好研究 問題 如何在提供推薦服務(wù)的同時有效保護用戶隱私值得做迸一步深入的研究 7 推薦系統(tǒng)可視化研究推薦系統(tǒng)的目的是為用戶提供服務(wù) 因此必須為用戶提 供友好的可視化界面服務(wù) 主要包括推薦結(jié)果可視化研究和推薦結(jié)果解釋研究等方面 的內(nèi)容 無論何種形式的個性化服務(wù) 都需要首先建立對用戶的描述 然后才能據(jù)此提供 針對不同用戶的個性化服務(wù) 因此 用戶模型是個性化服務(wù)的基礎(chǔ)和核心 在接下來 的第三章 我們將具體介紹用戶偏好的建模技術(shù) 更新技術(shù) 持久化技術(shù)和方法等 9 3 智能問答系 3 1 用戶偏好挖掘技術(shù) 3 1 1 數(shù)據(jù)挖掘技術(shù)簡介 的 技術(shù)不太發(fā)達的情況下 各種數(shù)據(jù)都統(tǒng)統(tǒng)的被存儲在數(shù)據(jù)庫或者文件當(dāng)中 隨著信息 技術(shù)的發(fā)展 人們可對數(shù)據(jù)庫進行查詢和訪問操作 隨后發(fā)展到對各種數(shù)據(jù)庫的即時 遍歷 數(shù)據(jù)挖掘技術(shù)將數(shù)據(jù)庫技術(shù)推到了一個更高點 它不僅能對以前的數(shù)據(jù)進行正 常的查詢乃至遍歷 還可以找出這些 過時 數(shù)據(jù)之間的潛在聯(lián)系 從而促進信息的傳 遞 數(shù)據(jù)挖掘是 i j 綜合學(xué)科 有許多的功能 現(xiàn)將主要功能如下 1 分類 通過分析對象的屬性和某些主要特征 為對象分門別類來描述之 例如 網(wǎng)站可以根據(jù)以前的用戶的訪問數(shù)據(jù)進行分析 可將用戶分成不同的類別 比如玉米 種植組 土豆種植組 水稻種植組 甲魚養(yǎng)殖組等等 2 聚類 簡言之就是將一個對象集合根據(jù)某些條件分成幾個類別 每個類別中 的各個對象都是相似的 但與其他類的對象之間是不相似的 3 序列模式和關(guān)聯(lián)規(guī)則的發(fā)現(xiàn) 關(guān)聯(lián)就是指一種事物觸發(fā)時與另外的事物發(fā)生 的某種關(guān)系 可通過關(guān)聯(lián)的可信度和支持度來描述 與關(guān)聯(lián)截然不同 序列是指事物 之間一種縱向的聯(lián)系 4 預(yù)測 把握并分析事物發(fā)展的規(guī)律 對其未來的發(fā)展趨勢做出預(yù)測 隨著科學(xué)技術(shù)的發(fā)展和人們需求的提升 數(shù)據(jù)挖掘技術(shù)已經(jīng)越來越多的應(yīng)用到了 基于w e b 的挖掘上 因特網(wǎng)上信息量無比豐富和繁雜 人們?nèi)绾螐姆墙Y(jié)構(gòu)化的數(shù)據(jù) 信息中高效的提取出有價值的信息是數(shù)據(jù)挖掘領(lǐng)域中的一項挑戰(zhàn) w e b 上的數(shù)據(jù)信息 十分雜亂無序 沒有固定的規(guī)范 它不像我們熟悉的數(shù)據(jù)庫 數(shù)據(jù)之間有規(guī)范的結(jié)構(gòu) 如關(guān)系數(shù)據(jù)庫 它有統(tǒng)一的范式 其中的信息為完全結(jié)構(gòu)化的 就處理的信息而言 傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)難以處理異質(zhì)的非結(jié)構(gòu)化信息 而w e b 挖掘技術(shù)克服了這方面 的缺點 它處理的數(shù)據(jù)主要是大量異質(zhì)的w e b 信息資源 對文檔結(jié)構(gòu)性差 非結(jié)構(gòu) 化數(shù)據(jù)具有很好的挖掘力度 由于非結(jié)構(gòu)化和半結(jié)構(gòu)化的信息幾乎不能用數(shù)據(jù)模型來 清晰的表示 因此w e b 數(shù)據(jù)挖掘技術(shù)是基于很多數(shù)據(jù)倉庫挖掘技術(shù)的 i 新興科學(xué) 對w e b 上的數(shù)據(jù)進行挖掘具有極大的挑戰(zhàn)性 簡言之就是針對w e b 頁面內(nèi)容 用戶 訪問信息 用戶注冊信息 站點拓撲結(jié)構(gòu)及用戶的問答等信息在內(nèi)的各種數(shù)據(jù) 應(yīng)用 數(shù)據(jù)挖掘方法以發(fā)現(xiàn)有用的知識的過程 它可以幫助人們從w e b 中發(fā)現(xiàn)新知識 改 進站點設(shè)計 提供個性化服務(wù) w e b 挖掘主要可分為結(jié)構(gòu)挖掘 使用挖掘和內(nèi)容挖掘 1 0 農(nóng)業(yè)智能問答系統(tǒng)中的用戶偏好研究 如圖1 所示 w e b 數(shù)據(jù)挖掘 w e b 內(nèi)容挖掘w e b 結(jié)構(gòu)挖掘w e b 使用挖掘 i l l 1 j 一 上 l j 一 l 文 多 超 頁訪 分 太 媒鏈 面 問 析 挖 體 接 結(jié) 模 挖 挖 構(gòu)式 定 掘 掘 挖 挖 制 掘站 掘 掘 圖1w e b 數(shù)據(jù)挖掘結(jié)構(gòu)圖 f i g 1 t h es t r u c t u r eo f w e bd a t am i n i n g 3 1 2w e b 日志挖掘過程 服務(wù)器的日志記載了訪問者的口 瀏覽器的類型 頁面的大小 所訪問過的頁 面 以及各種響應(yīng)處理等等 w e b 日志挖掘具體可以分為以下三個階段 w e b 日志挖掘首先必須對日志數(shù)據(jù)進行預(yù)處理 1 6 2 2 其任務(wù)是通過對用戶訪問數(shù) 據(jù)的分析 組織轉(zhuǎn)為數(shù)據(jù)挖掘所要求的格式并保存起來 形成會話文件等待下一步處 理 預(yù)處理過程主要包括數(shù)據(jù)清洗 用戶識別 會話識別和路徑補存四個階段 表1 畦b 日志文件記錄 t a b 1l h cr e c o r d so f w e bl o g s c i pc s u s c r a g c n t c s c s so sc r e f e r e r h o s t s t s t u ss u b s t s t u s 河北農(nóng)業(yè)大學(xué)碩士學(xué)位 畢業(yè) 論文 表2w e b 日志格式 t a b 2t h ef o r m a t eo fw e bl o g s 域d a t e t i m e s s i p c s c s c s s s i t e n a m e m e t h o du r i s t e m u r i q u e r yp o r t 說明請求日期請求時間服務(wù)器名服務(wù)器i p 請求方法 請求頁面請求查詢 服務(wù)器端 稱口號 s c c sc sc s h o s ts c s o s c o l i s c r l l 越1 i c i p u s e r a g e n t s t a t u 服務(wù)器端用 用戶用戶代理 當(dāng)前頁面的主機返回協(xié)議子狀 w i n 3 2 戶名i p d n s u r l h t t p 的 態(tài) 狀態(tài) 入口 狀態(tài)標 識 數(shù)據(jù)清洗 數(shù)據(jù)凈化的主要任務(wù)是根據(jù)不同的應(yīng)用需求來清除原始數(shù)據(jù)中不相關(guān) 的數(shù)據(jù)項 例如 不代表用戶興趣的自動下載并記錄在日志文件中與訪問頁面有關(guān)的 圖片音頻等信息 通??梢耘渲靡粋€刪除列表 凡是后綴名在刪除列表中的記錄都需 要清理掉 同時4 0 4 3 0 1 5 0 0 等的傳輸錯誤記錄也應(yīng)刪除 并將刪除后的記錄按一定 的規(guī)則進行排序處理 表3 數(shù)據(jù)清洗后的w e b 日志記錄 t a b 3t h er e c o r d so f w e bl o g sa r c rc l e a n i n gd a t a d a t et i m e c s c s c c s c s i p u s e r a g e n t r e f e s t e m q u e r y r e r 2 0 1 1 1 0 n o n g t d i d 5 9 2 5 2 1 1 6 8 m o z i l l a 4 0 c o m p a t i b l e 1 2 3 1 2 0 1 1 3 1 1 2 0 1 1 3 1 2 0 1 1 3 1 2 0 1 1 3 1 1 0 2 i n d e x j s p 1 8 3 1 5 1 m s i e 6 o 0 1 w i n d o w s n t 5 o 1 0 n o n g y d i d 5 9 1 82 1 1 6 8 m o z i l l a 4 o c o m p a t i b l e 0 3 s e a r c h j s p 1 8 3 1 5 3 m s i e 6 o 0 6 w i n d o w s n t 5 o 1 0 n o n g y d i d 5 9 3 32 11 6 8 m o z i l l a 4 0 c o m p a t i b l e 0 4 s e a r c h j s p 1 8 3 1 5 4 m s i e 6 0 2 5 w i n d o w s n t 5 o 1 0 n o n g y e i d 5 9 2 52 1 1 6 8 m o z i l l a 4 0 c o m p a t i b l e 0 6 a d v s e a r c h j s p 1 8 3 1 5 5 m s i e 6 o 2 2w i n d o w s n t 5 0 1 0 n o n g y e i d 5 9 8 1 2 11 6 8 m o z i l l a 4 0 c o m p a t i b l e 0 8 a d v s e a r c h j s p 1 8 3 1 5 6 m s i e 6 0 5 8 w i n d o w s n t 5 o 用戶識別 每個用戶都是都是一個獨立的個體 他通過瀏覽器來訪問站點 但是 農(nóng)業(yè)智能問答系統(tǒng)中的用戶偏好研究 由于本地高速緩存 代理服務(wù)器 防火墻等的存在 使得識別用戶較為困難 目前的 用戶識別大多采用以下三條啟發(fā)式原則 1 如果用戶的i p 地址不同則認為是不同 的用戶 2 如果i p 地址相同 但瀏覽器軟件或操作系統(tǒng)不同 使用代理上網(wǎng)的局 域網(wǎng)用戶 則認為是不同的用戶 3 如果i p 相同 而且所使用的上網(wǎng)環(huán)境相同 那么可根據(jù)網(wǎng)站的拓撲結(jié)構(gòu)對用戶進行識別 如果用戶所訪問的頁面不能通過已訪問 頁面的任何超鏈接到達 則認為是一個新的用戶 表4 用戶識別結(jié)果 t a b 4t h er e s u i to fu s e r sr e c o g n i t i o r l 會話識別 會話識別就是將用戶的訪問記錄劃分成單個的會話 不同用戶訪問的 頁面屬于不同的會話 日志文件中不同的頁面也屬于不同的會話 由于在較長的時間 里 用戶可能多次訪問了該站點 也很難知道用戶是否為分開幾次登錄 所以一般利 用最大的超時來判斷用戶是否已離開了該網(wǎng)站 若兩次請求時間之間超過了一定的時 間界限 就會被認為用戶的一個會話已結(jié)束 開始了一個新的會話 表5 用戶會話識別表 t a b 5t h es e s s i o nr e c o g n i t i o no f u s e r 3 2 用戶偏好模型研究 用戶興趣模型毫無懷疑是每個個性化系統(tǒng)的基礎(chǔ)和核心 用戶興趣模型的建模也 就是指系統(tǒng)從與用戶相關(guān)的各種信息中構(gòu)建出相應(yīng)的用戶模型 3 2 1 用戶興趣模型的含義 那么什么是用戶興趣模型 所謂用戶興趣模型通常是指用來表示用戶對信息相 對穩(wěn)定的興趣需求的模型 它可以直接反映出當(dāng)前用戶在某一段時間內(nèi)對信息需求的 主要傾向 隨著對用戶操作行為的跟蹤和對用戶反饋信息的整理收集等 同時系統(tǒng)將 按照特定學(xué)習(xí)方法對用戶興趣模型進行及時更新 以使其更好地體現(xiàn)出用戶的興趣 符合用戶的真正需求 1 3 河北農(nóng)業(yè)大學(xué)碩士學(xué)位 畢業(yè) 論文 用戶偏好模型的建立是一個循序漸進的過程 2 3 1 終極目的是準確反映出用戶的真 正興趣和要求 初始階段只是一般性的興趣模型 具有其基本特征 經(jīng)過用戶行為跟 蹤處理和用戶反饋信息處理后 系統(tǒng)對興趣模型不斷更新和修正 以使其更準確地代 表用戶在某時間段內(nèi)的興趣傾向和需求 興趣模型的演進如圖2 所示 i 偏好模型 朋廠1 百思儀采 用戶反饋處理 智能系統(tǒng) l1 1 百璽 艏刑 3 2 2 偏好模型的形式 圖2 興趣模型演進圖 f i g 2 t h ee v o l u t i o no fi n t e r e s t sm o d e l 用戶偏好模型是指被系統(tǒng)所提取的用戶信息需求 興趣主題等的結(jié)合 偏好模型 的表現(xiàn)形式在很大程度上決定了其模型反映用戶信息需求真實性 同時也在一定程度 上制約了個性化推薦的準確性 個性化偏好模型的表現(xiàn)形式至今仍沒有統(tǒng)一的標準 常用的表示方法有以下幾種阱j 1 概念表示法 概念表示法是指以用戶感興趣的主題概念來表示用戶興趣模型的方法 如果用戶 對蘋果和梨興趣 那么用戶興趣模型表示為 蘋果 梨 用戶的興趣概念既可以通過 用戶自己填寫表單等資料提供 也可以由系統(tǒng)根據(jù)一定的規(guī)則和方法學(xué)習(xí)獲得 也就 是從用戶所訪問過的內(nèi)容中根據(jù)規(guī)則提取出能夠反映用戶興趣的關(guān)鍵詞用以表達用 戶的偏好 2 關(guān)鍵詞表示法 關(guān)鍵詞列表法是指以用戶感興趣的關(guān)鍵詞來表示用戶興趣模型的方法 如果用戶 對茶葉感興趣 則用戶興趣模型可以表示為 花茶 綠茶 紅茶 等 關(guān)鍵詞組既可以 由用戶指定 也可以通過系統(tǒng)學(xué)習(xí)獲得 系統(tǒng)通過學(xué)習(xí)的方法提取到能夠表示用戶偏 好的關(guān)鍵詞表與文本分類中的特征詞的提取大同小異 二者全是通過訓(xùn)練樣本后得到 一定數(shù)量特征詞集合 而不同的是后者是為了減少分類器的計算量并改善分類精
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中科學(xué)核心知識點解析
- 工程項目推進中的時間管理訣竅試題及答案
- 水利水電工程社會影響力試題及答案
- 2023 年注冊會計師《會計》(8 月 25 日第一場)考試及答案解析
- 2024水利水電工程設(shè)備管理考題試題及答案
- 移動通信基站設(shè)備維護與支持合同
- 智能化物流管理服務(wù)合同
- 農(nóng)村生態(tài)農(nóng)業(yè)技術(shù)合作框架協(xié)議
- 工程經(jīng)濟實務(wù)與決策試題及答案
- 物業(yè)智能管理系統(tǒng)推廣合作協(xié)議
- GB/T 10069.3-2024旋轉(zhuǎn)電機噪聲測定方法及限值第3部分:噪聲限值
- 知道智慧網(wǎng)課《科技倫理》章節(jié)測試答案
- GA 1808-2022軍工單位反恐怖防范要求
- GB/T 14689-2008技術(shù)制圖圖紙幅面和格式
- 《新聞學(xué)概論》第一章
- 企業(yè)負責(zé)人經(jīng)營業(yè)績考核專項審計報告格式范本
- 2022年上海市楊浦區(qū)四下期末數(shù)學(xué)試卷
- 《商務(wù)文書禮儀》PPT課件(完整版)
- 鋼筋混凝土結(jié)構(gòu)樁基工程施工組織設(shè)計.
- -綠化安全技術(shù)交底
- 手動液壓泵使用說明書
評論
0/150
提交評論