模糊數(shù)學在信息檢索中的應用畢業(yè)論文.doc_第1頁
模糊數(shù)學在信息檢索中的應用畢業(yè)論文.doc_第2頁
模糊數(shù)學在信息檢索中的應用畢業(yè)論文.doc_第3頁
模糊數(shù)學在信息檢索中的應用畢業(yè)論文.doc_第4頁
模糊數(shù)學在信息檢索中的應用畢業(yè)論文.doc_第5頁
免費預覽已結束,剩余29頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

xxxxx 本科畢業(yè)設計 論文 模糊數(shù)學在信息檢索中的應用模糊數(shù)學在信息檢索中的應用 摘摘 要要 本文從模糊集出發(fā) 以信息檢索為應用背景 逐步引入模糊數(shù)學理論 并 以提高信息檢索的準確率和檢索效率為目的 提出以下思想方法 1 為了提高檢索準確率 根據(jù)模糊集理論 提出了基于文檔和查詢詞的模糊 集表示法 2 通過利用模糊聚類分析理論 研究了基于模糊集文檔的模糊聚類方法 并 得到了分類的文檔簇 同時研究了文檔簇的模糊集表示法 為后續(xù)研究做鋪墊 3 為了提高檢索效率 可以通過縮小檢索范圍來實現(xiàn) 據(jù)此提出了基于文檔 簇的模糊信息檢索模型 從而得到滿足條件的文檔簇 4 為了對滿足條件的文檔簇中的文檔進行排序 提出了基于文檔的模糊信息 檢索模型 從而完成了檢索的剩余工作 并形成完整的檢索過程 5 通過提出算例 分兩種情況進行了分析 當文檔集和查詢項都是用模糊集 表示的 分析了基于模糊集的模糊信息檢索模型 當文檔集是模糊集表示 查詢項 是確定的布爾類型 分析了基于模糊集的擴展布爾檢索模型 關鍵詞關鍵詞 模糊集 聚類分析 信息檢索 檢索模型 布爾檢索 xxxxx 本科畢業(yè)設計 論文 Fuzzy mathematics application in information retrieval Abstract For improving the information retrieval accuracy and efficiency of searching this paper which puts information retrieval as application background and gradually introduces the fuzzy mathematical theory puts forward the following thoughts and methods 1 In order to improve retrieval accuracy this paper according to the fuzzy sets theory put forward the fuzzy sets representations based on both the inquiry word and the document 2 Through fuzzy clustering analysis theory we study the fuzzy clustering analysis method based on the document cluster and acquire the classification of the cluster And we also study the representation of the document classification based on the fuzzy sets It is laying groundwork for the follow up study 3 In order to improve the search efficiency we can do it through narrowing the searching range So the paper puts forward the fuzzy information retrieval model which is based on the document cluster Then we get meet the satisfied document clusters 4 In order to sort the satisfied document clusters we put forward the fuzzy information retrieval model which is based on the document Thus we complete the surplus work of retrieval forming a complete search process 5 By presenting examples two cases were analyzed when the sets of documents and query terms are represented by fuzzy sets we analyze the fuzzy information retrieval model based on the fuzzy sets when the set of documents is fuzzy set and the set of the query terms is the Boolean sets we analyze the Boolean information retrieval model based on the fuzzy sets Keywords fuzzy sets clustering analysis information retrieval retrieval model Boolean retrieval xxxxx 本科畢業(yè)設計 論文 I 目目 錄錄 1 緒論 1 1 1 論文研究的背景及意義 1 1 1 1 論文研究的背景及目的 1 1 1 2 國內外研究現(xiàn)狀 1 1 1 3 論文研究的意義 1 1 1 4 論文研究采用的方法及理論依據(jù) 2 1 2 論文構成及研究內容 2 1 3 模糊集的基本概念 2 1 4 模糊理論的數(shù)學基礎 2 1 4 1 經(jīng)典集合 2 1 4 2 模糊集合 3 1 4 3 歸屬函數(shù) 3 1 5 模糊子集及其運算 3 1 5 1 模糊集的相關定義 4 1 5 2 模糊集的運算 5 1 5 3 模糊集的其他運算 5 1 6 模糊集的基本定理 6 2模糊聚類檢索策略 7 2 1 相關概念 7 2 2 模糊聚類分析 7 2 2 1 選擇模糊聚類方法 8 2 2 2 詞頻矩陣 8 2 3 基于編網(wǎng)法的模糊聚類分析模型 9 2 3 1 構造模糊相似矩陣 9 2 3 2 模糊聚類之編網(wǎng)法 10 2 3 3 基于文檔集合的模糊聚類編網(wǎng)法的應用 10 2 4 文檔簇的模糊表示法 11 xxxxx 本科畢業(yè)設計 論文 II 3 模糊概念網(wǎng)絡 12 3 1 模糊概念網(wǎng)絡的結構 12 3 2 基于文檔的模糊概念網(wǎng)絡的構建 12 3 3 基于文檔簇的模糊概念網(wǎng)絡的構建 14 4 基于文檔簇和文檔的信息檢索模型 15 4 1 基于文檔簇的模糊信息檢索模型 15 4 1 1 文檔簇和查詢項的模糊集表示 15 4 1 2 相關性 15 4 1 3 檢索方法 17 4 2 基于文檔的模糊信息檢索模型 18 4 2 1 文檔和查詢項的模糊集表示 18 4 2 2 相關性 18 4 3 檢索方法 18 4 3 1 基于模糊集的擴展布爾檢索 18 4 3 2 基于模糊集的模糊檢索 20 5模糊信息檢索模型實例分析 23 5 1 基于模糊集的擴展布爾檢索實例分析 23 5 2 基于模糊集的模糊檢索實例分析 24 6 結論 26 參考文獻參考文獻 28 致致 謝謝 29 xxxxx 本科畢業(yè)設計 論文 1 1 緒論緒論 1 1 論文研究的背景及意義論文研究的背景及意義 1 1 1 論文研究的背景論文研究的背景及目的及目的 自從美國著名控制論專家 加利福尼亞大學L A Zadeh教授1965年建立模糊集理 以來 在各國學者的共同努力和不斷探索下 模糊集理論及其應用的研究成果 1 論 已非常豐富 它不僅發(fā)展和擴充了經(jīng)典數(shù)學的研究領域 使數(shù)學學科的研究體系發(fā)生 了重大變革 而且能有效地解決經(jīng)典數(shù)學難以解決的大系的復雜性問題 以及在自 然界和日常生活中普遍存在而無法解決的模糊性問題 比如信息檢索 模糊數(shù)學理提出后 信息檢索領域的學者就嘗試將其應用于信息檢索中 2 論 并且取得了長足的發(fā)展 產(chǎn)生了一大批優(yōu)秀的模糊信息檢索應用理論 為模糊數(shù)學 的應用開拓了新的領域 比如 模糊聚類分析在信息檢索中的應用 模糊集在信息 檢索中的應用 模糊推理在信息檢索中的應用等 總體來看 這些應用理論為模糊數(shù) 學發(fā)展開辟了新的空間 增添了新的活力 本文以模糊數(shù)學理論為基礎 提出了一套新的信息檢索應用方法 此方法的提出 主要希望達到一下目的 1 為了提高信息檢索的準確性 提出了基于模糊集的信息檢索模型 2 為了提高信息檢索的效率 提出了基于文檔簇的模糊信息檢索模型 并 將 基于模糊聚類分析的檢索策略 應用到模型上 1 1 2 國內外研究現(xiàn)狀國內外研究現(xiàn)狀 目前 信息檢索發(fā)展迅速 并產(chǎn)生了優(yōu)秀的檢索模型 向量空間模型 概率模 型 語言模型 推理網(wǎng)路模型 布爾檢索 LSI 神經(jīng)網(wǎng)絡方法 遺傳算法 模糊集 檢索模型等 同時 也促進了提高模型性能的檢索策略的探索和發(fā)展 常用的檢索策 略 相關反饋 聚類 基于片段的檢索 語言解析 n元語法 同義詞表 n元語法 語義網(wǎng)路 回歸分析 由于檢索效率及穩(wěn)定性的瓶頸 使得模糊信息檢索實際應用發(fā)展緩慢 其在信 息檢索領域的應用還比較有限 從國外來看 模糊數(shù)學應用到信息檢索的案例還很少 大多數(shù)相關應用都處于實驗階段 從國內來看 模糊數(shù)學的信息檢索應用案例幾乎 沒有 總體來看 都是由于其不穩(wěn)定及效率問題決定的 所以實現(xiàn)效率及穩(wěn)定性的突 破就顯的很重要了 1 1 3 論文研究的意義論文研究的意義 模糊數(shù)學自身的理論研究進展迅速 我國模糊數(shù)學自身的理論研究仍占模糊數(shù)學 及其應用學科的主導地位 所取得的研究成果在 模糊數(shù)學 模糊系統(tǒng)與數(shù)學 等數(shù)十種學術期刊和全國高校學報中經(jīng)??梢?模糊聚類分析理論 模糊神經(jīng)網(wǎng)絡 xxxxx 本科畢業(yè)設計 論文 2 理論和各種新的模糊定理及算法不斷取得進展 通過研究模糊數(shù)學在信息檢索中的應用 提出一種新的方法 來提高模糊信息 檢索的效率 同時 使得模糊數(shù)學的應用分支更豐富 1 1 4 論文研究采用的方法及論文研究采用的方法及理論依據(jù)理論依據(jù) 1 通過提出模糊集和模糊聚類分析理論 首先將樣本文檔表示成模糊集 并 利用模糊聚類分析方法對文檔模糊集進行模糊聚類 同時提出了分類文檔簇的模糊 集表示方法 從而建立了文檔簇的模糊集 2 通過基于詞項概念和文檔簇的模糊概念網(wǎng)圖 為建立模糊信息檢索模型 提供了直觀的檢索對象關系圖 3 通過建立基于文檔類簇的模糊信息檢索模型 得到滿足條件的文檔簇 從 而為后續(xù)處理縮小檢索范圍 這在一定程度上提高了檢索效率 4 針對得到的文檔簇集中的文檔 建立基于文檔的模糊信息檢索模型 從而 得到排序的檢索結果 5 為了直觀描述模糊信息檢索模型 添加了模型的實例分析 1 2 論文構成及研究內容論文構成及研究內容 論文主要內容主要包括 1 介紹了模糊數(shù)學的信息檢索應用現(xiàn)狀 研究該課題 的意義 目的 提出的方法及實現(xiàn)模型 初步闡述了模糊數(shù)學在信息檢索的應用 2 介 紹模糊聚類檢索策略 根據(jù)制定的閾值 將樣本文檔分為一些類簇 并且為滿足條 件的文檔簇建立其模糊量集度量方法 為下面的研究做鋪墊 3 介紹模糊概念網(wǎng)絡 圖的建立 使得研究變的更加直觀 4 介紹基于文檔類簇的模糊信息檢索模型 從 而得到簇類的檢索結果 減小了檢索的范圍 在一定程度上提高了檢索效率 5 介 紹基于文檔的模糊信息檢索模型的實例分析 1 3 模糊集的基本概念模糊集的基本概念 模糊理論是為了解決真實世界中普遍存在的模糊現(xiàn)象而發(fā)展的一門學問 模糊理 論以模糊集合為基礎 基本精神是接受模糊性現(xiàn)象存在的事實 而以處理概念模糊 不確定的事物為其研究目標 并積極地將其嚴密量化成計算機處理可以處理的信息 實際上 模糊理論是模糊集合 模糊關系 模糊邏輯 模糊控制 模糊測量等理論 的泛稱 我們通常稱之為模糊數(shù)學 1 4 模糊理論的數(shù)學基礎模糊理論的數(shù)學基礎 1 4 1 經(jīng)典集合經(jīng)典集合 模糊理論的基礎是模糊集合和歸屬函數(shù) 所謂集合是一些具有某種共同特質事 物匯總起來的組織 用來歸納一群具有相同特征事物 一般而言 傳統(tǒng)意義上的集合 xxxxx 本科畢業(yè)設計 論文 3 具有下列共同的特點 同一集合中的元素具有某種相同的性質 集合是元素組成的 整體 元素之間可以互相區(qū)別 集合里的元素是確定的 然而經(jīng)典集合具有兩條基本 屬性 元素彼此相異 即無重復性 范圍邊界分明 即一個元素 x 要么屬于集合 A 記 作 x A 要么不屬于集合 記作 x A 二者必居其一 1 4 2 模糊集合模糊集合 模糊數(shù)學是研究和處理模糊性現(xiàn)象的數(shù)學方法 眾所周知 經(jīng)典數(shù)學是以精確性 為特征的 但與精確形相悖的模糊性并不完全是消極的 沒有價值的 甚至可以說 有 時模糊性比精確性還要好 例如我們要給 偶數(shù) 這個集和下定義時 我們很明確的知道這個集合中的每個 元素 對于任何給定的數(shù)值 我們都清楚的知道它是否屬于這個集合 但是當我們?yōu)?中年人 這個集合下定義時 多少會遇到困難 因為具體的所謂中年 指的是幾歲 到幾歲 相信每個人對中年的定義都是不同 假定從滿 35 歲起到滿 55 歲為止定義 為中年 那么 34 歲的人還未邁入中年 只要增加一歲的那個瞬間就馬上變成中年 另外 過完 55 歲邁入 56 歲生日的瞬間又已不再是中年人 基本上 這是相當不合理 的方式 前述 中年 定義之所以會不自然 是因其界線太過清楚所致 當界線緩和一 些 則不自然會消失 因此 如果以 中年程度 來考慮或許會比較適當 譬如 說 30 歲的中年程度是 0 6 35 歲的中年程度是 0 65 隨著不同年齡 其程度也徐徐變 化 而此問題也就能獲得根本上的解決 此種重新擴張定義的集合 由 L A Zadeh 教授提出 稱之為模糊集合 1 4 3 歸屬函數(shù)歸屬函數(shù) 把傳統(tǒng)的集合論特征函數(shù)從非 0 即 1 的二值選擇 推廣為可從 0 到 1 之間的任 何值來做出選擇 此新型的特征函數(shù) 稱之為歸屬函數(shù) 歸屬函數(shù)是模糊理論中最基 本的概念 而我們可以用歸屬函數(shù)來表示模糊集合 在域上的模糊集合 由歸UA 屬函數(shù)來表征 在區(qū)間中取值 值的大小反映了元素對于 x A x A 1 0 x A x 模糊集合的歸屬程度 的值越接近 1 就表示元素屬于的程度越高 當A x A x A 就是上限 表示完全屬于 反之 若的值越接近 0 就表示屬于 A 1 x A A x 的程度越低 當就是下限 表示完全不屬于 對于來說 距離 A 0 A x A 5 0 A 完全屬于 和 完全不屬于 最遠 所以它的模糊度也最高 因此 模糊集合也被定義 為元素與歸屬函數(shù)的組成集合 1 5 模糊子集模糊子集及其運算及其運算 模糊集最早出現(xiàn)于文獻 1 12 18 模糊集提出了使用隸屬函數(shù)來標明元素在集合 中的隸屬度 而不是假設元素是某個集合的成員 對于信息檢索 模糊集是非常有效 的 因為它可以描述一篇文檔是 關于 什么內容的 描述文檔關于什么內容的一組元 xxxxx 本科畢業(yè)設計 論文 4 素的集合本身就具有不確定性 關于 交通 且與訴訟之間間接相關的文檔 或許可能 是關于 交通事故 的文檔 盡管將 交通事故 作為集合的一個元素實際上并不精確 但是將其從集合中排除掉也是不精確的 模糊集就是一種隸屬度 其中每個元素的隸 屬力度本來就精確 在這個例子中 描述文檔概念的集合的形式如下 5 0 0 1 訴訟案 交通 C 由于每個元素還附帶其隸屬度 所以集合 C 是一個模糊集 在模糊集 中包含的概念可以形式化地表示為 21n cccC nnnAA cfccfccfcA 2 2 11 其中 表示隸屬函數(shù) 用于標識集合中元素的隸屬度 對于有限集合 A f 1 0 C 模糊集表示為 A n nAAA c cf c cf c cf A 2 2 1 1 接下來我們給出了模糊集的基本操作 求交集和并集 從根本上說 求交集的方法是 取相同元素的兩個隸屬度函數(shù)的最小值 并集就是取相同元素的兩個隸屬函數(shù)的最 大值 模糊集的交集 并集和補集的定義 CccfcfMincf iiBiAiBA CccfcfMaxcf iiBiAiBA Cccfcf iiAiA 1 1 5 1 模糊集的相關定義模糊集的相關定義 定義 1 論域上的一個模糊集合是由上的一個隸屬函數(shù)來UAU xA 1 0 U 表示 其中 有時用表示 表示元素隸屬于模糊集合的程度 一般地 xA x A xA 如果論域是有限集合或可數(shù)集合 那么一個模糊集可以表示為 UA ii xAxA 定義 2 主導隸屬度函數(shù)關系 當且僅當對于所有 BA xx BA x 定義 3 設是論域 稱映射 確定了一個上的模糊子集 U xA 1 0 UUA 映射稱為的隸屬函數(shù) 它表示對的隸屬程度 使的點稱為的 xAAxA5 0 xAxA 過渡點 此點最具模糊性 當映射只取 0 或 1 時 模糊子集就是經(jīng)典子集 而 xAA 就是它的特征函數(shù) 可見經(jīng)典子集是模糊子集的特殊情形 xA 3 例 設論域 單位 190 180 170 160 150 140 654321 xxxxxxU 表示人的身高 那么上的一個模糊子集的隸屬函數(shù)可定義為cmUA xA 140190 140 x xA 100200 100 x xA xxxxx 本科畢業(yè)設計 論文 5 也可用 Zadeh 表示法 1 0 x A 2 2 0 x 6543 18 06 04 0 xxxx 654321 9 08 06 042 0 2 015 0 xxxxxx A 1 5 2 模糊集的運算模糊集的運算 模糊集的并 交 余運算性質 冪等律 AAAAAA 交換律 ABBAABBA 結合律 CBACBA CBACBA 吸收律 ABAAABAA 分配律 CBCACBA CBCACBA 還原律 AA cc 對偶律 ccc BABA ccc BABA 模糊集的運算性質基本上與經(jīng)典集合一致 除了排中律以外 即 UAA c c AA 1 5 3 模糊集的其他運算模糊集的其他運算 模糊集不再具有非此即彼的特點 這正是模糊性帶來的本質特征 相等 xBxABA 包含 xBxABA 并 的隸屬函數(shù)為 BA xBxAxBA 交 的隸屬函數(shù)為 BA xBxAxBA 余 的隸屬函數(shù)為 c A 1 xAxAc 例 設論域 商品集 在上定義兩個模糊集 商品質量 54321 xxxxxU UA 好 商品質量壞 并設B 1 3 0 0 55 0 8 0 A 0 6 0 86 0 21 0 1 0 B 則 商品質量不好 商品質量不壞 c A c B 0 7 0 1 45 0 2 0 c A c B 1 4 0 14 0 79 0 9 0 xxxxx 本科畢業(yè)設計 論文 6 可見ABBA cc 又 UAA c 1 7 0 1 55 0 8 0 0 3 0 0 45 0 2 0 c AA 1 6 模糊集的基本定理模糊集的基本定理 定理 1 模糊集的基本定理 截集 4 xAxAA 模糊集的 截集是一個經(jīng)典集合 由隸屬度不小于的成員構成 A 若論域 學生集 他們的成績依次為 654321 uuuuuuU 50 60 70 80 90 95 學生成績好的學生 的隸屬度分別為A 0 5 0 6 0 7 0 8 0 9 0 95 則 90 分以上者 60 分以上者 9 0 A 65 u u 6 0 A 65432 uuuuu 性質 設 是論域的兩個模糊子集 于是對 截集 UBA BA U 1 0 有 1 BABA 2 AA 3 BABA BABA 定理 2 分解定理 設 則 UA Ax AxxA 1 0 定理 3 擴張原理 設映射 定義fYX yxfxAyAf xxxxx 本科畢業(yè)設計 論文 7 2模糊聚類檢索策略模糊聚類檢索策略 所謂聚類分析是根據(jù)事物間的不同特征 親疏程度和相似性等關系 對它們進 行分類的一種數(shù)學方法 其數(shù)學基礎是數(shù)理統(tǒng)計中的多元分析 模糊聚類分析就是建 立在模糊數(shù)學理論基礎上的聚類分析 模糊聚類分析的方法有好幾種 模糊傳遞 5 閉包法 直接聚類法 最大樹法 編網(wǎng)法 根據(jù)信息檢索的特征 此處介紹的是 利用模糊相似矩陣和編網(wǎng)法進行聚類的方法 其特點是能在分類數(shù)不確定的情況下 進行分類 可以根據(jù)不同的要求對事物 文檔進行聚類 而且結果直觀 簡捷 2 1 相關概念相關概念 為了描述信息檢索的模糊聚類分析模型 我們使用以下術語以及記號 1 標引詞 這是由若干個標引詞組成的集合 n tttT 21 2 文獻信息 其中是標引詞在該文獻中出現(xiàn) Tttttd in 21 n t i t 的頻率 使用統(tǒng)計分析可以計算出標引詞的隸屬度 i t id t 3 文獻信息庫可表示為 TttttddD inddd 21 4 分類文獻信息集 這是將要被分類的文獻信息集 DddddU in 21 5 相似度 其中按照它描述文獻信息和之間的相關程 jiij ddr ji dd i d j d 度 這里選用最大 最小法貼近度來表示和 21ndddi tttd iii 的相關程度 則其嚴格貼近度為 21ndddj tttd jjj 2 1 n k kdkd n k kdkd jiij tt tt ddr ji ji 1 1 其中 表示 取小 運算 表示 取大運算 6 模糊相似矩陣 其中是相似度 相似矩陣是以分類文獻信息集 nmij rR ij rR 中和之間的相似度構造出來的 它刻畫的是 n dddU 21 i d j d ij r 信息之間相關程度 n dddU 21 2 2 模糊聚類分析模糊聚類分析 在實際課題中 不同的數(shù)據(jù)可能有不同的量綱 為了不使不同量綱的數(shù)據(jù)也能進 行比較 需要對數(shù)據(jù)進行適當?shù)淖儞Q 根據(jù)模糊矩陣的要求將數(shù)據(jù)壓縮到區(qū)間 0 1 數(shù)據(jù)變換 設論域為被分類的對象 每個元素又由個數(shù)據(jù)表示 n uuuU 21 m xxxxx 本科畢業(yè)設計 論文 8 對第 個元素有 i imiii xxxu 21 2 1 ni 1 標準差變換 2 2 k kik ik s xx x 2 1 2 1 mkni 2 3 n i ikk x n x 1 1 n xx s n i kik k 1 2 經(jīng)過變換后 每個變量的均值為 0 標準差為 1 并可以消除量綱的影響 但不一定 在 0 1 區(qū)間上 2 級差變換 2 4 ik ni ik ik ni ik ik xx xx x 1 1 minmax min 2 1 nk 經(jīng)過級差變換后有 且消除了量綱的影響 10 ik n x 2 2 1 選擇模糊聚類方法選擇模糊聚類方法 聚類可以分為兩種 一種是模糊等價矩陣聚類 它有兩種方法 傳遞閉包法和布 爾矩陣法 另一種是直接聚類 它包括直接聚類法 最大樹法和編網(wǎng)法 在實際的聚類 問題中 通過建立上的模糊關系 常常是模糊相似的關系 因為論域是有限集 這X 個模糊相似關系可表示為一個模糊相似矩陣 即對角線上的元素為 1 的對稱模糊方 陣 R 可以選擇的模糊聚類方法通常有四種 由文獻 5 23 36 可知 模糊傳遞閉包 法 直接聚類法 最大樹法和編網(wǎng)法 模糊傳遞閉包法是從模糊相似矩陣 出發(fā) 構造一個新的模糊等價矩陣 即模糊相似矩陣的傳遞閉包 nnij rR R Rt 該矩陣滿足自反性 對稱性 以及傳遞性三個性質 因此 可以根據(jù)模糊等價矩陣進 行聚類 直接聚類法不計算模糊相似矩陣的傳遞閉包 而是直接用模糊相似矩R Rt 陣進行聚類 具體步驟如下 R 1 將模糊相似矩陣中的所有不同元素從大到小的順序編排 設為R n 1 21 2 以為置信水平 選取 直接在模糊相似矩陣上找出 2 1 mk k k R 水平上的相似類 并進行歸并 即得到水平上的等價分類 尋找相似類和歸并的 k k 原則 若 則將和分為一類 設是水平上的兩個類 若 kij r i d j d 21 B B k 則稱它們是相似的 將所有相似的類合并成一類 最后得到的分類就是 21 BB xxxxx 本科畢業(yè)設計 論文 9 水平上的等價分類 k 2 2 2 詞頻矩陣詞頻矩陣 為確定一組相關文本間的相關度 建立文本間的模糊相似關系 首先要構造一個詞 頻矩陣 它是一個二維表 表示關鍵詞在文檔中出現(xiàn)的次數(shù) 假設這一組數(shù)F i Wtj 據(jù)中有個文檔和 個關鍵詞 則是一個的矩陣 將每一個關鍵字視為一個dtFtd 維空間上的一個向量 的個坐標是一個數(shù)字 表示第個文本與所給的關t d Rvvjj 鍵字間的相關度 當文檔不含有該詞時 其值為零 否則設為一個非零的正值 定 義為為文檔中關鍵詞出現(xiàn)的次數(shù) 即頻率 再利用絕對值減數(shù)法建立模糊 ij ftj i W 相似矩陣 當時 否則 當時 其中 Rji 1 ij rji t k jkikij ffcr 1 10 c 為一常數(shù) 可根據(jù)實際情況選定 使得 由該定義可知 為一主對角元 1 0 ij rR 均為 1 的對稱陣 2 3 基于編網(wǎng)法的模糊聚類分析模型基于編網(wǎng)法的模糊聚類分析模型 在一個合適的分類中 同一類中的對象應該自反性 對稱性以及傳遞性三個性 質 模糊數(shù)學的理論告訴我們 如果相似度選擇合適 相似矩陣具有自 ij r nmij rR 反性和對稱性 但是大多數(shù)相似矩陣一般不具備傳遞性 因此 僅依賴相似矩陣來R 對分類文檔信息集進行分類是不夠的 模糊聚類分析就是根據(jù) DddddU in 21 相似矩陣來尋找一個等價關系進行分類 其主要步驟如下 R 2 3 1 構造模糊相似矩陣構造模糊相似矩陣 聚類是按某種標準來鑒別中元素之間的接近程度 把彼此接近的對象歸為一X 類 為此 我們用中的數(shù)來表示中的元素和的接近或相似程度 稱為相 1 0 ij rX i x j x 似系數(shù) 相似系數(shù)構成的模糊矩陣是上的模糊關系 確定相似系數(shù)的方 ij r ij r mnij r X 法很多 可以分為三類 1 相似系數(shù)法 2 距離法 3 主觀評分法 最常見的是距離法中的貼近度法 不妨假定 如若不然 1 0 k x 可以通過公式 2 5 kk kk k mM mx x 2 1 2 1 mkni 其中分別是各個的第個特征的最大 最小值 kk mM i xk 將轉換為 當時 可以認為是一 k x 1 0 k x 1 0 k x ni 2 1 imiii xxxx 21 個模糊向量 也就是可以看成以個特征指標構成的集合為論域的模糊集 于是m 的貼近度可以作為它們的相似程度 即 當取距離貼近度時 1 x 21 xxN jiij xxNr N xxxxx 本科畢業(yè)設計 論文 10 2 6 m k jkikij xxcr 1 1 把所有的組成的矩陣為模糊相似矩陣 命名為 2 1 2 1 mjnirij 6 R 針對的分類文獻集 選擇一個計算相似度 DddddU in 21 的算法 可以計算出相似矩陣 jiij ddr ij rR 2 3 2 模糊聚類之編網(wǎng)法模糊聚類之編網(wǎng)法 編網(wǎng)法是由我國學者趙汝懷提出的 其特點是在模糊相似矩陣的截集上直接R 進行聚類 因此 使用起來更為直觀簡單 具體步驟如下 1 適當選取 求出截矩陣 且去掉的主對角線右上半部分的所有 1 0 R R 元素 2 將主對角線上的 1 對應地用其對象的標號來代替 i 3 將主對角線左下方的 0 去掉 而用 代替 1 稱 所在的位置為結點 4 用豎直線與橫直線將結點與對角線上的序號連接 即編網(wǎng) 通過如此打結而連 接的對象歸為同一類 從而實現(xiàn)了等價分類 5 畫出動態(tài)聚類圖 通過以上步驟即可完成對文檔集的分類 2 3 3 基于文檔集合的模糊聚類編網(wǎng)法的應用基于文檔集合的模糊聚類編網(wǎng)法的應用 如果我們現(xiàn)在要檢索混凝土斷裂方面的文獻 可選關鍵詞有多個 且利用每個 關鍵詞都可以得上百篇文獻 檢索過程中 每篇文獻都詳細閱讀是不貼實際的 因 此我們需要通過聚類篩選出相關度高的幾篇或者幾十篇文獻 設標引詞集為 混凝土 斷裂韌度 尺度效應 虛擬裂縫模型 同 4321 ttttT 時設D為某信息庫 從該信息庫中選出5篇文檔進行分析 則 根 54321 dddddd 據(jù)各關鍵詞在相應文獻中的出現(xiàn)頻率 使用模糊統(tǒng)計分析可計算出每個關鍵詞的隸 屬度 從而每篇文獻在檢索中的表示記為 5 0 3 0 1 0 1 0 43211 1111 ttttd dddd 3 0 1 0 4 0 2 0 43212 2222 ttttd dddd 1 0 3 0 5 0 2 0 43213 3 3 33 ttttd dddd 1 0 3 0 5 0 2 0 43214 4444 ttttd dddd 1 0 3 0 4 0 2 0 43215 4444 ttttd dddd 故根據(jù) 2 1 可得模糊相似矩陣為 xxxxx 本科畢業(yè)設計 論文 11 180 0 82 0 70 0 33 0 80 0 182 0 67 0 33 0 82 0 82 0 167 0 43 0 70 0 67 0 67 0 143 0 43 0 33 0 43 0 43 0 1 R 對R中的元素進行排序為 1 0 82 0 8 0 67 0 43 0 33 從而 的截矩陣為截矩陣為R8 0 8 0 8 0 8 0 11100 11100 11100 00010 00001 8 0 0 8 0 1 R r r rRt ij ij ij 這時U被分為3類 54321 ddddd 2 4 文檔簇的模糊表示法文檔簇的模糊表示法 通過上節(jié)的模糊聚類分析方法 可得到分類的文檔簇 本部分將介紹一種模糊 度量方法來量化這些文檔簇 任意一篇文檔可表示為 則文獻集的度量可表示為 則文 21ndddi tttd iii 獻集的度量可表示為 DddddU in 21 d 2 7 21 1 21 n ddd n i nddd ttt n ttt d iii 通過以上討論 得到了文檔簇的模糊表示法 這為之后的討論提供了基礎依據(jù) 且對應于文檔集的文檔簇集可表示為 DddddU in 21 21m dddU 其中為聚類數(shù) 從而 21n ddd i tttd iii xxxxx 本科畢業(yè)設計 論文 12 3 模糊概念網(wǎng)絡模糊概念網(wǎng)絡 3 1 模糊概念網(wǎng)絡的結構模糊概念網(wǎng)絡的結構 模糊概念網(wǎng)絡的結構是由節(jié)點和弧構成 網(wǎng)絡包括兩種類型的節(jié)點 概念節(jié)點和 文檔節(jié)點 連接節(jié)點的弧表達了節(jié)點之間的相關關系 并用模糊權值對關系的強弱進 行量化 設概念節(jié)點集合 C c c c 文檔節(jié)點集合 D 12n1 d 2 d n d 表示和的相關度權重為 也可表示為表 i c j c i c j c ji ccf i d j c 示和概念的相關權重為 也可表示為 i d j c i df j c 規(guī)則 1 如果存在節(jié)點 和 其 且的關系權值為 i c j c k caccf ki jk ccf min ik F c ca a 規(guī)則 2 如果節(jié)點和之間存在多條路徑連接 和間的關系值為最大的路徑權 i c j c i c j c 重 圖 3 1 如下 給出了一個典型模糊概念網(wǎng)絡實例 其中節(jié)點和相關關系權重為 3 c 4 c 1 0 7 0 1 0 43 MaxccF 圖圖3 1 模糊概念網(wǎng)路實例模糊概念網(wǎng)路實例 xxxxx 本科畢業(yè)設計 論文 13 3 2 基于文檔的模糊概念網(wǎng)絡的構建基于文檔的模糊概念網(wǎng)絡的構建 模糊概念網(wǎng)絡可以通過領域專家手工建立 但需要大量的手工勞動 并受限于 領域專家的個人水平 為了突破這種限制 文獻 2 提出了模糊概念網(wǎng)絡的自動構建方 法 本部分將對此作以詳細闡述 將一個文檔表示成關鍵詞集 統(tǒng)計詞表中每個關鍵詞在正文 標題 n tttT 21 關鍵詞 超鏈 超鏈描述中出現(xiàn)的概率 表示為 正文i ttf 標題i ttf 關鍵詞i ttf 和 關鍵詞頻率計算公式為 超鏈i ttf 超鏈描述i ttf i t i ttf 正文i ttf 1 A 標題i ttf 2 A 關鍵詞i ttf 3 A 超鏈i ttf 4 A 超鏈描述i ttf 其中 和是調整系數(shù) 計算特征詞在文檔中的權重公式為 1 A 2 A 3 A 4 A 3 1 5 0 log i itdi tdf N ttfdtw 其中 表示關鍵詞的文檔數(shù)目 N表示總的文檔數(shù) 詞是概念的表現(xiàn)方式 同 i tdf i t 一個概念節(jié)點可能包含多個對應詞 設概念節(jié)點對應的詞夠構成集 i c 表示成向量形式 其中表示關鍵詞在概念節(jié)點 21m tttT iniii wwwc 21 ij w j t 中的權重 計算文檔d與概念之間的相關度為 j c i c 3 2 2 1 i ijct m j jdt icd cTndTnMax ctwdtw cdrel 式中 表示在中的權重 表示文檔d中所有關鍵詞的權重之和 ijct ctw j t i c dTn 表示概念節(jié)點包含的關鍵詞的權重之和 i cTn i c 統(tǒng)一文檔中包含的詞語之間存在語義上的關聯(lián)關系 這種關聯(lián)關系從形式上表現(xiàn) 為詞與詞的共現(xiàn) 利用這些現(xiàn)象 挖掘概念之間的相關關系 選取部分樣本構成樣本集 S M為文檔樹 設概念節(jié)點集合計算樣本中文檔與 m SSSS 21 m cccC 21 概念節(jié)點之間的相關度 對于概念節(jié)點 它與文檔的相關度可以表示成向量形式 i c 表示文檔與概念節(jié)點的相關度 概念節(jié)點和之間的相 Miiii eeec 21 ji e j d i c i c j c 關度的計算公式為 3 M k kj M k ki M k kjki jicc ee ee ccrel 1 2 1 2 1 xxxxx 本科畢業(yè)設計 論文 14 3 模糊概念網(wǎng)絡中概念節(jié)點的產(chǎn)生 可以通過兩種方式 聚類方法和逐步添加方 法 這里主要介紹聚類方法 采用聚類方法時 初始階段每個關鍵詞對應獨立的概念 節(jié)點 計算概念節(jié)點的相關度 根據(jù)設定的閾值 相關度超過特定閾值的概念節(jié)點被 合并為新的節(jié)點 3 3 基于文檔簇的模糊概念網(wǎng)絡的構建基于文檔簇的模糊概念網(wǎng)絡的構建 通過3 2節(jié)的介紹 可知模糊概念網(wǎng)絡的構建方法 但其是基于概念節(jié)點和文檔 節(jié)點 而本節(jié)將引入基于概念節(jié)點和文檔簇節(jié)點的模糊概念網(wǎng)絡 如下圖3 2所示 圖圖3 2 基于模糊簇的模糊概念網(wǎng)絡基于模糊簇的模糊概念網(wǎng)絡 從而可得到模糊集簇和概念之間的模糊概念網(wǎng)絡 其建立了文檔簇和概念之間 的相關關系 從而使得檢索所需處理的文檔數(shù)從整體上減少 可以提高檢索的效率 同時 通過模糊概念網(wǎng)絡圖的建立 使得文檔的檢索原理更加直觀 為后續(xù)處理提 供了方便 xxxxx 本科畢業(yè)設計 論文 15 4 基于文檔簇和文檔的信息檢索模型基于文檔簇和文檔的信息檢索模型 通過以上的討論 我們得到由文檔簇和概念組成的模糊概念網(wǎng)絡 其為建立基 于 文檔簇的模糊信息檢索模型提供了方便 基于文檔簇的模糊信息檢索模型 在效率上 有明顯的優(yōu)勢 其從整體上減少了檢索中所涉及的文檔數(shù)量 其需要完成兩個步驟 1 通過基于文檔簇的信息檢索 選出滿足條件的文檔簇 2 針對選出的文檔簇 再次使用模糊信息檢索模型 對該文檔簇的文檔進行排序 將其作為檢索結果輸出 4 1 基于文檔簇的模糊信息檢索模型基于文檔簇的模糊信息檢索模型 4 1 1 文檔簇和查詢項的模糊集表示文檔簇和查詢項的模糊集表示 通過的以上的討論 我們可以得到文檔簇的模糊集表示方法 2211n d n d d i ttttttd ii i 設查詢項的模糊集表示為 2211nn ttttttQ 其中的為查詢項的相關程度 其是通過頻率及統(tǒng)計方法計算得到的詞項隸屬 i t i t 度 即得到了文檔簇和查詢項的模糊集表示 從而為后面的討論奠定了基礎 4 1 2 相關性相關性 為了比較查詢項和文檔簇的相似度 人們提出了很多比較查詢模糊向量和文Q 檔簇模糊向量的方法 這些方法都經(jīng)過了證明 以下我們做以快速回顧 i d 7 1 最常見的方法是余弦方法 也就是計算查詢向量和文檔簇向量之間的Q i d 余弦值 4 1 n j n j j d j n j j d j i tt tt dQSC i i 11 22 1 xxxxx 本科畢業(yè)設計 論文 16 因為在計算每篇文檔時都會出現(xiàn) 向量內積除以文檔向量大小后 n j j t 1 2 余弦系數(shù)應該給出相同的相關性結果 我們注意到余弦方法通過考慮文檔長度來歸一 化結果 通過內及方法 一個較長的文檔可能會得到一個比較高的分數(shù) 僅僅因為文 檔比較長 因此有更多的機會包含查詢詞 并一定因為文檔是相關的 Die系數(shù)定義為 4 2 n j n j j d j n j j d j i tt tt dQSC i i 11 22 1 2 Jaccard系數(shù)定義為 4 3 n j n j n j j d jj d j n j j d j i tttt tt dQSC ii i 111 22 1 余弦方法通過將向量內積除以文檔向量的長度來實現(xiàn)不同文檔長度的歸一化 余 弦方法中假定文檔長度對查詢沒有影響 排除歸一化因素 較長的文檔更容易被認定 為相關的 僅僅因長文檔包含的詞多 所以增加了包含查詢詞的可能性 除以文檔向 量長度就是不考慮文檔長度 2 模糊集之間的貼近度 Chebyshev貼近度 4 4 max1 1j d ji ttdQ i Hamming貼近度 4 5 n j j d ji tt n dQ i 1 2 1 1 Euclid貼近度 4 6 2 1 1 2 3 1 1 n j j d ji tt n dQ i Minkowski貼近度 xxxxx 本科畢業(yè)設計 論文 17 4 7 1 1 1 1 1 4 ptt n dQ p p n j j d ji i Lambert貼近度 4 8 n j j d j j d j i tt tt n dQ i i 1 5 1 1 絕對和差貼近度 4 9 n j j d j n j j d j i tt tt dQ i i 1 1 6 1 最大最小貼近度 4 10 n j j d j n j j d j i tt tt dQ i i 1 1 7 算術平均最小貼近度 4 11 n j j d j n j j d j i tt tt dQ i i 1 1 8 2 1 幾何平均最小貼近度 4 12 n j j d j n j j d j i tt tt dQ i i 1 1 7 4 1 3 檢索方法檢索方法 在4 1 2中 我們討論了衡量文檔簇和查詢項相近度的兩種方法 因此利用這兩 種方法可以得到文檔簇和查詢項的相近度度量方法 這樣就可以得到文檔簇和查詢項 相似度 利用相似度可以對查詢結果進行排序 同時 在排序過程中 選擇合適的相 似度閾值 滿足該閾值的文檔簇進行排序 不滿足閾值的文檔不排序 這樣可以提 xxxxx 本科畢業(yè)設計 論文 18 供檢索效率 具體實現(xiàn)步驟如下 1 求出各個文檔簇和查詢項之間的相似度或者貼近度 2 選出符合指定閾值的文檔簇 3 將滿足要求的文檔簇按照相關性大小進行排序 4 2 基于文檔的模糊信息檢索模型基于文檔的模糊信息檢索模型 通過4 1的討論 我們得到了滿足相似度要求的文檔簇集 這樣就縮小了檢索的文 檔范圍 從而提高了檢索效率 下面將闡述基于文檔的模糊檢索 4 2 1 文檔和查詢項的模糊集表示文檔和查詢項的模糊集表示 類似于4 1 1中的文檔簇和查詢項的模糊集表示 我們可以得到文檔的模糊集表 示方法 2211ndnddi ttttttd iii 查詢項的模糊集表示為 2211nn ttttttQ 其中的為查詢項的相關程度 其是通過頻率及統(tǒng)計方法計算得到的詞項隸屬度 4 2 2 相關性相關性 為了比較查詢項和文檔簇的相似度 人們提出了很多比較查詢模糊向量和文Q 檔簇模糊向量的方法 這些方法都經(jīng)過了證明 以下我們做以快速回顧 i d 最常見的方法是余弦方法 也就是計算查詢向量和文檔簇向量之間的余弦Q i d 值 n j n j j d j n j j d j i tt tt dQSC i i 11 22 1 因為在計算每篇文檔時都會出現(xiàn) 向量內積除以文檔向量大小后 n j j t 1 2 余弦系數(shù)應該給出相同的相關性結果 我們注意到余弦方法通過考慮文檔長度來歸一 化結果 通過內及方法 一個較長的文檔可能會得到一個比較高的分數(shù) 僅僅因為文 檔比較長 因此有更多的機會包含查詢詞 并一定因為文檔時相關的 4 3 檢索方法檢索方法 通過計算各個文檔的相似度或者貼近度 并根據(jù)相關性進行排序 最后將排序 xxxxx 本科畢業(yè)設計 論文 19 結果作為檢索結果輸出 4 3 1 基于模糊集的擴展布爾檢索基于模糊集的擴展布爾檢索 在20世紀70年代末期 研究人員對布爾檢索進行了擴展 提出了模糊集檢索 我 們可以將文檔中的詞看成模糊集來計算布爾的相似度 這是因為這些詞在文檔中出 現(xiàn)的頻率可視為隸屬度 下面我們考慮有文檔集中所有文檔組成的集合 模糊集可以看作描述所有包D t D 含詞 的文檔的集合 這個集合可以記作 這表明文檔包含詞tD t D 5 0 8 0 21 ddd 且其隸屬度為0 8 文檔包含詞 且其隸屬度為0 5 t 2 dt 類似地 集合可以定義為所有包含詞 的文檔 這個集合可以記作 t Ds 4 0 5 0 21 ddDs 計算需要計算 計算需要計算 這些計算可以通過使用并集的最ts ts ts DD 大值和交集的最小值實現(xiàn) 因此 4 0 5 0 5 0 8 0 21 21 ddDDts ddDDts ts ts 我們可以通過應用這些操作的結果來構造更復雜的布爾表達式 最終 我們可以 得到包含文檔及其相似度的一個集合 這種方法的一個問題是 這種模型不僅允許我們給查詢詞賦予權重 我們可以通 過在集合中每個元素的隸屬度上乘以查詢詞權重從而在模型中引入查詢詞權重 另 外一個問題是權重很低的詞匯決定相似度 隸屬度很低的詞最終是相似度計算的唯一 因素 比如下面這種情況 文檔 1 包含詞 s 和詞 t 并且詞 s 的隸屬度為 0 0001 詞 t 的隸屬度為 0 5 在請求查詢時 文檔 1 的得分就是 0 0001 特別是查詢中包含較多關 鍵詞項時 這種低隸屬度的詞決定了整個相似度的權重 這個問題的一種解決方法是 定義一個閾值 當其值低于時 隸屬度函數(shù)值就變?yōu)?0 為了克服布爾檢索系統(tǒng)的主 要限制 有一些學者提出構想 希望擴充布爾檢索系統(tǒng)的功能 而其中 Radecki 便 利用部分匹配原理 定量估算出所檢索文件與查詢語句間的相關程度 也有一些加 權 Weights 觀念的檢索系統(tǒng)被提出 在其中 文件是以關鍵詞的加權來表示 查詢 語句也將傳統(tǒng)布爾檢索系統(tǒng)之查詢語句加入權數(shù) 而經(jīng)過匹配處理 可以在所檢索 出的每一件文件中 相對地得出一個檢索狀態(tài)值 Retrieval Status Value RSV RSV 值可用來評估所檢索出文件與加權查詢語句間的相關程度 然而加權布爾檢索系統(tǒng)仍有其限制 如其查詢語句無法處理不明確之查詢 而 不明確概念通常卻是檢索者在查詢之常有的現(xiàn)象 也是最直接的想法 另外即使加權 布爾檢索系統(tǒng)加以處理的情形 如查詢語句 模糊集合 0 6 語意模式 0 8 其所表 示的即為找出有關關鍵詞 模糊集合 重要性占六成 關鍵詞 語意模式 重要性占八 成的文件 而對于以上之重要性成數(shù) 也十分難以認定 對于關鍵詞加權后的語意表 xxxxx 本科畢業(yè)設計 論文 20 示什么 又檢索出的文件 其 RSV 值是以一臨界值來界定 是否也有可議之處 因 此 便引用了能夠解決上述問題的模糊語意法 來擴展布爾檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論