




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上數(shù)據(jù)挖掘技術(shù)在智能搜索引擎中的應(yīng)用數(shù)據(jù)挖掘課程期中作業(yè)姓名: 學(xué)號: 專業(yè): 時間: 授課教師: 成績: 摘要: 隨著互聯(lián)網(wǎng)的迅速發(fā)展 , WWW 上信息增長越來越快 , 傳統(tǒng)搜索引擎已經(jīng)不能滿足用戶的需求。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到搜索引擎領(lǐng)域 , 從而產(chǎn)生智能搜索引擎 , 將會給用戶提供一個高效、準(zhǔn)確的 Web 檢索工具。文章首先介紹了搜索引擎的工作原理和相關(guān)概念 , 然后介紹了數(shù)據(jù)挖掘的概念。最后 , 詳細(xì)討論了數(shù)據(jù)挖掘技術(shù)在智能搜索引擎中的重要應(yīng)用。關(guān)鍵詞: 數(shù)據(jù)挖掘; 搜索引擎; Web 挖掘Abstract:With the rapid development
2、of the Internet and valuable information, the history search engine can' t satisfy people' s requirements . Combining the technology of data mining and search engine , intelligent search engine is formed,which will provide usersan effective and accurate web information search tool.This paper
3、 introduces the theory and correlative conception of search enginefirst,then introducesthe conception of data mining.In the end,the applications of data mining in intelligent search engine are discussed in detail.Keywords:Data mining;Search engine;Web mining1 引言隨著 Internet 和 Web 技術(shù)的飛速發(fā)展和普及 , 信息獲取已經(jīng)從
4、手工獲取 , 到計算機獲取 , 以及到現(xiàn)在的通過網(wǎng)絡(luò)進(jìn)行信息獲取。要想在這浩如煙海的網(wǎng)絡(luò)世界中找到所需信息, 作為現(xiàn)代信息獲取技術(shù)的主要應(yīng)用- 搜索引擎是必不可少的。據(jù) CNNIC 于 2005 年 1月 19 日發(fā)布的統(tǒng)計資料顯示, 有 86.6%的用戶是通過搜索引擎獲得新網(wǎng)站的; 搜索引擎的應(yīng)用占到網(wǎng)絡(luò)應(yīng)用的 65.0%, 成為第二大互聯(lián)網(wǎng)應(yīng)用, 它的應(yīng)用廣泛度僅次于電子郵件。 搜索引擎的出現(xiàn)極大的方便了用戶, 但是由于搜索引擎是由傳統(tǒng)檢索技術(shù)發(fā)展而來 , 它存在很大缺陷, 例如: 返回結(jié)果表示方法簡單, 邏輯運算符組合受限, 不能利用檢索的歷史信息等。在當(dāng)前用戶要求不斷提高的情況下, 單
5、單依靠傳統(tǒng)搜索引擎已經(jīng)不能夠滿足人們的需要。例如, 當(dāng)我們進(jìn)行搜索時, 搜索結(jié)果中存在大量的無用信息 , 其比例高達(dá) 80%以上 , 搜索引擎通常會返回成千上萬條結(jié)果, 而這些結(jié)果只是按照與查詢的相關(guān)度從大到小排列成一個線性列表 , 缺乏清晰明了的結(jié)構(gòu), 這些結(jié)果中相關(guān)信息和無關(guān)信息摻雜在一起, 這就使得我們要想找到所需的信息仍舊存在很大困難。于是, 人們總結(jié)出了所謂的“因特網(wǎng)信息檢索定律 ”: 在因特網(wǎng)上總能找到 ( 甚至只能找到 )不需要的東西為了解決這些問題, 進(jìn)一步利用 Web 上的信息資源 , 人們開始研究信息獲取的方法 , 提出了一些新的信息管理手段。 Web 挖掘就是其中之一 ,
6、Web 挖掘是指將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和 Web 結(jié)合起來, 既在 WWW 上挖掘有趣的、潛在的、蘊藏的信息以及有用的模式這樣一個過程。將 Web 挖掘應(yīng)用在搜索引擎中 , 可以改善檢索結(jié)果的組織 , 提高查準(zhǔn)率和查全率 , 增強檢索用戶的模式研究 , 對搜索引擎進(jìn)行優(yōu)化。2 搜索引擎概述 搜索引擎可分為四個模塊: 搜索器, 索引器, 檢索器和用戶接口。搜索器根據(jù)一定的網(wǎng)頁搜集策略和規(guī)劃, 調(diào)度運行網(wǎng)頁自動搜索軟件( 如 Crawl、Spider、pursuit、harvest 等) , 對互聯(lián)網(wǎng)上的網(wǎng)頁進(jìn)行快速有效的搜集, 并將它們存入搜索引擎的網(wǎng)頁數(shù)據(jù)庫中。常用的有三種搜索策略: 根據(jù)所提供
7、的“種子 URL”開始搜索 ; 根據(jù)網(wǎng)站受歡迎程度 , 規(guī)劃一組 URLs, 然后開始搜索; 根據(jù)網(wǎng)址名稱或國家編碼 , 將 Web 空間劃分為若干塊開始進(jìn)行搜索。索引器的功能是理解搜索器所搜索的信息, 從中抽取出索引項 , 用于表示文檔以及生成文檔庫的索引表。索引器可以使用集中式索引算法或分布式索引算法。檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔, 進(jìn)行文檔與查詢的相關(guān)度評價 , 對將要輸出的結(jié)果進(jìn)行排序 , 并實現(xiàn)某種用戶相關(guān)性反饋機制。常用的信息檢索模型有集合理論的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。分為簡單接口和復(fù)雜接口兩種。簡單接口只提供用戶輸入查詢串的
8、文本框, 復(fù)雜接口可以讓用戶對查詢進(jìn)行限制。一個搜索引擎的好壞與以下幾個因素有關(guān): 網(wǎng)頁覆蓋率、網(wǎng)頁更新率、網(wǎng)頁檢索速度、網(wǎng)頁檢索質(zhì)量。3數(shù)據(jù)挖掘概述 我們現(xiàn)在已經(jīng)生活在一個網(wǎng)絡(luò)化的時代, 信息變化異常快速。面對信息爆炸的時代, 人們開始考慮:“如何才能不被信息淹沒, 而是從中及時發(fā)現(xiàn)有用的知識、提高信息利用率? ”。面對這一挑戰(zhàn), 數(shù)據(jù)挖掘( 也稱知識發(fā)現(xiàn)) 技術(shù)應(yīng)運而生, 并顯示出強大的生命力。 數(shù)據(jù)挖掘技術(shù)已被應(yīng)用在商業(yè)數(shù)、電信和醫(yī)療保險等領(lǐng)域, Internet 的出現(xiàn)使它的應(yīng)用更廣闊, 用數(shù)據(jù)挖掘的原理來對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行深層挖掘, 發(fā)現(xiàn)并組織網(wǎng)絡(luò)知識, 是將網(wǎng)絡(luò)信息檢索技術(shù)推向智能化高
9、度的有效手段。于是, Web 挖掘應(yīng)運而生, Web 挖掘是指將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和 Web 結(jié)合起來, 既在 WWW 上挖掘有趣的、潛在的、蘊藏的信息以及有用的模式這樣一個過程。將 Web 挖掘應(yīng)用在搜索引擎中, 可以改善檢索結(jié)果的組織 , 提高查準(zhǔn)率和查全率 , 增強檢索用戶的模式研究, 對搜索引擎進(jìn)行優(yōu)化。Web 數(shù)據(jù)挖掘一般可分為三類 :Web 內(nèi)容挖掘( Web content mining) , Web 結(jié)構(gòu)挖掘 ( Web Construct mining) 和 Web 使用記錄挖掘 ( Web usage mining) 。Web 內(nèi)容挖掘是從 Web 文檔內(nèi)容及其描述中獲取有
10、用知識 , 是對網(wǎng)頁數(shù)據(jù)進(jìn)行挖掘 , 包括文檔挖掘和多媒體挖掘。We 文檔通常包含以下幾種數(shù)據(jù)類型 : 文本、圖像、音頻、視頻、元數(shù)據(jù)和超鏈接, 主要挖掘的對象是 HTML 文檔所包含的半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)的文本數(shù)據(jù)。Web 結(jié)構(gòu)挖掘是從網(wǎng)頁的超級鏈接中發(fā)現(xiàn)其結(jié)構(gòu)及其相互關(guān)系。通過找到隱藏在一個個頁面之后的鏈接結(jié)構(gòu)模型, 就可以利用這個模型對 Web 頁面重新分類, 也可以用于尋找相似的網(wǎng)站。Web 結(jié)構(gòu)挖掘可以進(jìn)行網(wǎng)頁分類 , 總結(jié)網(wǎng)頁和網(wǎng)站的結(jié)構(gòu) , 生成諸如網(wǎng)站間相似性、網(wǎng)站間關(guān)系的信息。Web 使用記錄挖掘是從用戶“訪問痕跡”中獲取有價值的信息 , 是對 Web 上日志數(shù)據(jù)及相關(guān)數(shù)據(jù)的
11、挖掘。這些數(shù)據(jù)包括: 客戶端數(shù)據(jù)、服務(wù)器端數(shù)據(jù)和代理端數(shù)據(jù)。Web 使用記錄挖掘可分為一般存取路徑追蹤和專用化追蹤。前者是用 KDD( Knowledge Discovery in Database, 從數(shù)據(jù)庫中獲取知識) 技術(shù)理解一般訪問模式和趨勢, 如 Web 日志挖掘; 后者是分析某一時刻每一個用戶的訪問模式 , 網(wǎng)站將根據(jù)這些模式自動重建結(jié)構(gòu) , 如自適應(yīng)站點。Web 使用記錄的挖掘的目的是預(yù)測用戶網(wǎng)上的行為, 比較網(wǎng)站的實際使用與期望的差別 , 根據(jù)用戶的興趣調(diào)整網(wǎng)站結(jié)構(gòu)。4數(shù)據(jù)挖掘在搜索引擎中的應(yīng)用 當(dāng)一個 Web 頁面的作者建立指向另一個頁面的指針時, 這可以看作是作者對另一頁面
12、的認(rèn)可。利用 Web 挖掘技術(shù)可以對搜索引擎中的 Web 文檔處理部分進(jìn)一步完善。當(dāng)對搜索引擎數(shù)據(jù)庫中的網(wǎng)頁進(jìn)行索引時, 可以利用數(shù)據(jù)挖掘中的文本總結(jié)技術(shù)從文檔中抽取出關(guān)鍵信息, 然后以簡潔的形式對 Web文檔的信息進(jìn)行摘要或表示; 同時利用數(shù)據(jù)挖掘中的文本分類技術(shù)把網(wǎng)頁按照預(yù)先定義的主題類別進(jìn)行分類, 等等。 在搜索引擎中建立詞典庫 , 當(dāng)用戶給出搜索條件時, 用人工智能中的自然語言處理技術(shù)對搜索條件進(jìn)行分析 , 搜索引擎查找相應(yīng)的同義詞典、相關(guān)詞詞典等輔助詞典, 在數(shù)據(jù)庫里進(jìn)行匹配查找 , 以提高信息搜索的查全率。例如用戶想查找有關(guān)“計算機 ”的 信息, 則搜索引擎通過查找詞典, 會擴(kuò)展此
13、搜索條件, 把有關(guān)( 計算機 or 電腦 or 微機) 的信息都返回給用戶。可見 , 加入同義詞的概念 , 使得用戶的興趣容易得到表達(dá), 這樣不僅表達(dá)準(zhǔn)確, 返回的結(jié)果比較集中, 也不易漏檢。技為了使搜索結(jié)果更符合用戶的要求, 在搜索引擎中建立用戶個性化信息表??梢岳脗€性化頁面服務(wù) 術(shù)的方式收集用戶信息, 并且個性化的服務(wù)也要求讓用戶可以編輯自己的顯示界面, 主動服務(wù)器對這些設(shè)定 創(chuàng)信息的進(jìn)行分析加入到用戶信息庫, 可以從一定程度 新上反映用戶的偏好, 將其作為個性化服務(wù)的基礎(chǔ)。用戶信息庫中放置了社會時尚信息、職業(yè)與興趣的關(guān)聯(lián)規(guī)則, 年齡與興趣愛好的關(guān)聯(lián)規(guī)則, 等等。然后采用一定的挖掘規(guī)則(
14、 如關(guān)聯(lián)規(guī)則、聚類分析、聯(lián)機分析挖掘等 ) 對這些數(shù)據(jù)進(jìn)行分析 , 預(yù)測用戶的興趣、訪問偏好。利用用戶個性化信息庫進(jìn)行信息過濾可以提高檢索精度。當(dāng)關(guān)鍵詞送給搜索引擎后, 搜索引擎返回原始搜索結(jié)果 , 然后借助用戶個性化信息表 , 挖掘出用戶的興趣 , 對原始搜索結(jié)果進(jìn)行過濾 , 然后將用戶感興趣的信息發(fā)送給用戶。 當(dāng)搜索引擎在數(shù)據(jù)庫中進(jìn)行搜索, 尋找相匹配的網(wǎng)頁時, 利用 web 內(nèi)容挖掘?qū)W(wǎng)頁的標(biāo)題、關(guān)鍵詞、 URL 和其它標(biāo)記進(jìn)行分析, 對文檔進(jìn)行自動分類, 提煉出重要信息形成文檔摘要 , 使用戶能夠快速、方便的了解搜索出的信息。搜索到的網(wǎng)頁進(jìn)行計算相關(guān)度的大小, 同時利用 web 結(jié)構(gòu)挖
15、掘找出權(quán)威頁 , 綜合對搜索結(jié)果進(jìn)行排序。假設(shè)要搜索某一給定話題的 Web頁面 , 例如金融投資方面的頁面 , 這時我們希望得到與之相關(guān)的 Web 頁面外, 還希望所檢索到的頁面具有高質(zhì)量, 即針對該話題具有權(quán)威性。權(quán)威性( authority)隱藏在 Web 頁面鏈接中。Web 不僅由頁面組成, 而且還包含了從一個頁面指向另一個頁面的超鏈接、超鏈接包含了大量人類潛在的注釋 , 它有助于自動推斷權(quán)威性概念。把一個頁面的來自不同作者的注釋收集起來, 就可以反映該頁面的重要性, 并可以很自然地用于權(quán)威 Web頁面的發(fā)現(xiàn)。因此, 大量的 Web 鏈接信息提供了豐富的關(guān)于 Web 內(nèi)容相關(guān)性、質(zhì)量和結(jié)
16、構(gòu)方面的信息, 這時利用 Web 結(jié)構(gòu)挖掘可以找出權(quán)威頁。 盡管如此 , 有時當(dāng)用戶進(jìn)行搜索時 , 最后返回的結(jié)果也有很多與用戶無關(guān)的內(nèi)容, 因為用戶每次想搜索的資料畢竟也不完全相同 , 比如 : 用戶上次想搜索數(shù)據(jù)挖掘技術(shù)方面的文章, 而這次他想搜索數(shù)據(jù)挖掘應(yīng)用方面的文章, 或者下次想搜索數(shù)據(jù)挖掘軟件方面的資料等等。因此, 要對搜索引擎返回的結(jié)果進(jìn)行聚類, 從而使得在搜索引擎返回的非常大的文檔列表中的過濾操作變得十分方便, 這些聚類是搜索引擎返回的文檔集合上的高層視圖, 使用戶對搜索引擎結(jié)果有個一目了然的感覺, 從而方便了用戶瀏覽。搜索引擎結(jié)果聚類技術(shù)實質(zhì)上就是為了方便用戶的瀏覽 , 將聚類技術(shù)用于信息檢索結(jié)果的可視化輸出。5 結(jié)束語將數(shù)據(jù)挖掘技術(shù)引入到網(wǎng)絡(luò)資源的開發(fā)中來, 能加快智能檢索的發(fā)展, 數(shù)據(jù)挖掘的結(jié)果是實現(xiàn)智能檢索的基礎(chǔ)。在最近的一次高級技術(shù)調(diào)查中, 數(shù)據(jù)挖掘和人工智能被認(rèn)為是“未
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度工藝品銷售返利合同
- 2025年度美容院美容院養(yǎng)生館加盟合同
- 二零二五年度網(wǎng)絡(luò)安全企業(yè)員工勞動合同與網(wǎng)絡(luò)安全保障協(xié)議
- 二零二五年度商鋪轉(zhuǎn)租與租賃合同續(xù)簽及權(quán)利義務(wù)調(diào)整合同
- 二零二五寵物寄養(yǎng)寵物訓(xùn)練學(xué)校教育合作協(xié)議
- 二零二五年度競業(yè)禁止補償金及員工培訓(xùn)與發(fā)展協(xié)議
- 二零二五年度農(nóng)業(yè)產(chǎn)業(yè)化龍頭企業(yè)扶持補貼協(xié)議
- 二零二五年度橋梁施工后期維護(hù)勞務(wù)合同
- 2025年教學(xué)專用儀器合作協(xié)議書
- 知識產(chǎn)權(quán)購買服務(wù)合同
- 2024年贛州職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫及答案解析
- DL∕T 5209-2020 高清版 混凝土壩安全監(jiān)測資料整編規(guī)程
- 2024年山東省濰坊市中考數(shù)學(xué)真題試題(含答案及解析)
- 開票稅點自動計算器
- 2024年湖南新課標(biāo)卷高考生物真題試卷(無答案)
- 2024年江蘇農(nóng)牧科技職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫及參考答案
- 醫(yī)療器械質(zhì)量安全風(fēng)險會商管理制度
- 降低用藥錯誤發(fā)生率
- 起重機維護(hù)保養(yǎng)記錄表
- 焦慮自評量表(SAS)
- 《攝影構(gòu)圖》課件
評論
0/150
提交評論