完整版,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘知識總結(jié),推薦文檔_第1頁
完整版,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘知識總結(jié),推薦文檔_第2頁
完整版,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘知識總結(jié),推薦文檔_第3頁
完整版,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘知識總結(jié),推薦文檔_第4頁
完整版,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘知識總結(jié),推薦文檔_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、華北科技學(xué)院課程考查報告班 級:軟件B121 姓名:梁高榮學(xué) 號:201207044107課程名稱:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程性質(zhì):專業(yè)選修開設(shè)學(xué)期:2015-2016學(xué)年第1學(xué)期考核成績:任課教師:欒尚敏2015年11月20日目錄一.數(shù)據(jù)倉庫21 .倉庫的概念22 .數(shù)據(jù)倉庫的特點 23 .據(jù)倉庫的結(jié)構(gòu) 31 .數(shù)據(jù)挖掘的概念 42 .數(shù)據(jù)挖掘的作用 4四、數(shù)據(jù)挖掘的步驟 51 .信息收集52 .數(shù)據(jù)規(guī)約:63 .數(shù)據(jù)清理64 .數(shù)據(jù)變換65 .數(shù)據(jù)挖掘過程66 .模式評估 67 .知識表示7五、數(shù)據(jù)挖掘常的基本技 71 .統(tǒng)計學(xué)72 .聚類分析和模式識別 73 .決策樹分類技術(shù)74 .人工神經(jīng)

2、網(wǎng)絡(luò)和遺傳基因算法 85 .規(guī)則歸納86 .可視化技術(shù) 8六、文本挖掘 81 .文本挖掘的概念 82 .文本挖掘方法83 .挖掘工具94 .應(yīng)用9七、Web挖掘91. Web挖掘與 Web信息檢索 92. Web挖掘的任務(wù)103. Web文本挖掘方法 12一.數(shù)據(jù)倉庫1 .倉庫的概念數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的 (Subjecl Oriented) 集成的 (Integrate) 相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用 于支持管理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解,首先,數(shù)據(jù) 倉庫用于支持決策,

3、面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其 次,數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包 含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。2 .數(shù)據(jù)倉庫的特點根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下四個特點:(1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各 自分離。數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,一個主題通常與多個操作型 信息系統(tǒng)相關(guān)。(2)集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之 間相互獨立,并且往往是異構(gòu)的。而數(shù)

4、據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù) 據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不 一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。(3)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變 化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一 般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。(4)反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉 庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時

5、點(如開始應(yīng)用數(shù)據(jù)倉 庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)的。 數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做 出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理 歸納和重組,并及時提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此, 從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設(shè)是一個工程,是一個過程。3 .據(jù)倉庫的結(jié)構(gòu)整個數(shù)據(jù)倉庫系統(tǒng)是一個包含四個層次的體系結(jié)構(gòu):數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部

6、信 息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等。數(shù)據(jù)的存儲與管理:是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的 存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了 其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則 需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清 理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè) 級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。OLAP服務(wù)器:對分析需要的數(shù)據(jù)進(jìn)行有效集成,

7、按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為:ROLAP、MOLAP和HOLAP o ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在 RDBMS之中;MOLAP基本數(shù) 據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于 RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以 及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP服務(wù)器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。二.數(shù)據(jù)挖掘1 .數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘,也可以稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discove

8、ry in Database ,KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的信息的高級處理過 程。數(shù)據(jù)挖掘的廣義觀點:數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫 中的大量的數(shù)據(jù)中 挖掘”有趣知識的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn) (Knowledge Discovery in Database , KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā) 現(xiàn)過程的一個基本步驟。2 .數(shù)據(jù)挖掘的作用在今天的市場上,信息的利用至關(guān)重要,各行各業(yè)面臨激烈的競爭及經(jīng)濟(jì)壓力, 產(chǎn)品的生命周期縮短,需要為顧客提供更好的服務(wù)。在市場經(jīng)濟(jì)比較發(fā)達(dá)的國家和 地區(qū),許多公司都開始在原有信息系統(tǒng)的基

9、礎(chǔ)上通過數(shù)據(jù)挖掘?qū)I(yè)務(wù)信息進(jìn)行深加 工,以構(gòu)筑自己的競爭優(yōu)勢,擴(kuò)大自己的營業(yè)額。在過去幾年中,各公司為了取得 必要的市場戰(zhàn)略信息及對付市場方面的各種壓力,已經(jīng)開始采用數(shù)據(jù)倉庫技術(shù)。各 公司為了確定所要開發(fā)的產(chǎn)品模式及了解市場走勢,需要提取數(shù)據(jù)倉庫數(shù)據(jù),包括 聯(lián)機(jī)事務(wù)處理(Ou嘲數(shù)據(jù),并與外部的人口統(tǒng)計數(shù)據(jù)及心理數(shù)據(jù)結(jié)合,從中 挖掘出最終結(jié)果。利用這種數(shù)據(jù)倉庫信息源,知識工作者在他們的辦公室內(nèi)可根據(jù)所取得 的數(shù)據(jù)進(jìn)行決策。可以說,數(shù)據(jù)倉庫直接影響事關(guān)公司命運的決策。三、數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的關(guān)系上述過程其實就是數(shù)據(jù)挖掘,實施這一過程的基本設(shè)施是數(shù)據(jù)倉庫。這是一種關(guān) 鍵性、涉及范嗣很廣的技術(shù)手段。利

10、用數(shù)據(jù)挖掘技術(shù)可使?jié)撛诘男б娴玫阶畲蟮陌l(fā) 揮。數(shù)據(jù)倉庫是一種數(shù)據(jù)集成戰(zhàn)略,目的是促進(jìn)最終用戶利用企業(yè)數(shù)據(jù),同時保護(hù)公司的數(shù)據(jù)財富關(guān)鍵任務(wù)的可操作數(shù)據(jù)安全性和完整性。只要安排妥當(dāng),數(shù)據(jù)倉庫就能發(fā)揮它的重要作用,即人們可以很快地作出決策。因此,數(shù)據(jù)倉庫是實施公司戰(zhàn)略的一種技術(shù)手段。一般來說,構(gòu)筑數(shù)據(jù)倉庫是一個頻繁的查閱過程,它可分為若干階段,其中包括 需求分析、數(shù)據(jù)倉庫的設(shè)計、操作數(shù)據(jù)的提取、不相容數(shù)據(jù)的集成、數(shù)據(jù)倉庫的裝 填、最終交付用戶使用。在后續(xù)期內(nèi),還應(yīng)該對數(shù)據(jù)倉庫作定期更新。數(shù)據(jù)挖掘?qū)Πl(fā)揮數(shù)據(jù)倉庫的作用有很大影響,因為通過它可以識別出商務(wù)中的模 式與趨勢,而僅通過分析數(shù)據(jù)倉庫數(shù)據(jù)是無法得

11、出的。當(dāng)知識工作者運用結(jié)構(gòu)化查 詢語言(SQL)對數(shù)據(jù)倉庫查詢所需的信息時,查詢中的歧義性常常涉及到與答案集有關(guān)的一系列知識。相反地,數(shù)據(jù)挖掘可以揭示出非常有價值的信息,這些信息在實 施分析之前,知識工作者是無法得知的。這種新技術(shù),有助于使公司取得較大的市 場份額,建立更好的形象并推動公司向前發(fā)展。四、數(shù)據(jù)挖掘的步驟從數(shù)據(jù)本身來考慮,數(shù)據(jù)挖掘通常需要有信息收集、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┻^程、模式評估和知識表示8個步驟。1 .信息收集根據(jù)確定的數(shù)據(jù)分析對象,抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇 合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫。對于海量數(shù)據(jù),選擇一

12、個合適 的數(shù)據(jù)存儲和管理的數(shù)據(jù)倉庫是至關(guān)重要的。數(shù)據(jù)集成:把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企 業(yè)提供全面的數(shù)據(jù)共享。2 .數(shù)據(jù)規(guī)約:如果執(zhí)行多數(shù)的數(shù)據(jù)挖掘算法,即使是在少量數(shù)據(jù)上也需要很長的時間,而做 商業(yè)運營數(shù)據(jù)挖掘時數(shù)據(jù)量往往非常大。數(shù)據(jù)規(guī)約技術(shù)可以用來得到數(shù)據(jù)集的規(guī)約 表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并且規(guī)約后執(zhí)行數(shù)據(jù)挖掘結(jié) 果與規(guī)約前執(zhí)行結(jié)果相同或幾乎相同。3 .數(shù)據(jù)清理在數(shù)據(jù)庫中的數(shù)據(jù)有一些是不完整的(有些感興趣的屬性缺少屬性值)、含噪 聲的(包含錯誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因 此需要進(jìn)行數(shù)據(jù)清理,將完

13、整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)倉庫中。不然,挖 掘的結(jié)果會差強(qiáng)人意。4 .數(shù)據(jù)變換通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。 對于有些實數(shù)型數(shù)據(jù),通過概念分層和數(shù)據(jù)的離散化來轉(zhuǎn)換數(shù)據(jù)也是重要的一步。5 .數(shù)據(jù)挖掘過程根據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)信息,選擇合適的分析工具,應(yīng)用統(tǒng)計方法、事例推理、 決策樹、規(guī)則推理、模糊集,甚至神經(jīng)網(wǎng)絡(luò)、遺傳算法的方法處理信息,得出有用 的分析信息。6 .模式評估從商業(yè)角度,由行業(yè)專家來驗證數(shù)據(jù)挖掘結(jié)果的正確性。7 .知識表示將數(shù)據(jù)挖掘所得到的分析信息以可視化的方式呈現(xiàn)給用戶,或作為新的知識存 放在知識庫中,供其他應(yīng)用程序使用。數(shù)據(jù)挖掘過程是

14、一個反復(fù)循環(huán)的過程,每一個步驟如果沒有達(dá)到預(yù)期目標(biāo),都 需要回到前面的步驟,重新調(diào)整并執(zhí)行。不是每件數(shù)據(jù)挖掘的工作都需要這里列出 的每一步,例如在某個工作中不存在多個數(shù)據(jù)源的時候,步驟(2)便可以省略。步驟(3)數(shù)據(jù)規(guī)約、步驟(4)數(shù)據(jù)清理、步驟(5)數(shù)據(jù)變換又合稱數(shù)據(jù)預(yù)處 理。在數(shù)據(jù)挖掘中,至少 60%的費用可能要花在步驟(1)信息收集階段,而其中至 少60%以上的精力和時間花在了數(shù)據(jù)預(yù)處理過程中五、數(shù)據(jù)挖掘常的基本技1 .統(tǒng)計學(xué)統(tǒng)計學(xué)雖然是一門 古老的”學(xué)科,但它依然是最基本的數(shù)據(jù)挖掘技術(shù),特別是 多元統(tǒng)計分析,如判別分析、主成分分析、因子分析、相關(guān)分析、多元回歸分析等。2 .聚類分析和模

15、式識別聚類分析主要是根據(jù)事物的特征對其進(jìn)行聚類或分類,即所謂物以類聚,以期 從中發(fā)現(xiàn)規(guī)律和典型模式。這類技術(shù)是數(shù)據(jù)挖掘的最重要的技術(shù)之一。除傳統(tǒng)的基 于多元統(tǒng)計分析的聚類方法外,近些年來模糊聚類和神經(jīng)網(wǎng)絡(luò)聚類方法也有了長足 的發(fā)展。3 .決策樹分類技術(shù)決策樹分類是根據(jù)不同的重要特征,以樹型結(jié)構(gòu)表示分類或決策集合,從而產(chǎn) 生規(guī)則和發(fā)現(xiàn)規(guī)律。4 .人工神經(jīng)網(wǎng)絡(luò)和遺傳基因算法人工神經(jīng)網(wǎng)絡(luò)是一個迅速發(fā)展的前沿研究領(lǐng)域,對計算機(jī)科學(xué)人工智能、認(rèn)知科學(xué)以及信息技術(shù)等產(chǎn)生了重要而深遠(yuǎn)的影響,而它在數(shù)據(jù)挖掘中也扮演著非常重 要的角色。人工神經(jīng)網(wǎng)絡(luò)可通過示例學(xué)習(xí),形成描述復(fù)雜非線性系統(tǒng)的非線性函數(shù),這實際上是得

16、到了客觀規(guī)律的定量描述,有了這個基礎(chǔ),預(yù)測的難題就會迎刃而解。目前在數(shù)據(jù)挖掘中,最常使用的兩種神經(jīng)網(wǎng)絡(luò)是BP網(wǎng)絡(luò)和RBF網(wǎng)絡(luò)不過,由于人工神經(jīng)網(wǎng)絡(luò)還是一個新興學(xué)科,一些重要的理論問題尚未解決。5 .規(guī)則歸納規(guī)則歸納相對來講是數(shù)據(jù)挖掘特有的技術(shù)。它指的是在大型數(shù)據(jù)庫或 數(shù)據(jù)倉庫中搜索和挖掘以往不知道的規(guī)則和規(guī)律, 這大致包括以下幾種形 式:IF THEN 6 .可視化技術(shù)可視化技術(shù)是數(shù)據(jù)挖掘不可忽視的輔助技術(shù)。數(shù)據(jù)挖掘通常會涉及較復(fù)雜的數(shù) 學(xué)方法和信息技術(shù),為了方便用戶理解和使用這類技術(shù),必須借助圖形、圖象、動 畫等手段形象地指導(dǎo)操作、引導(dǎo)挖掘和表達(dá)結(jié)果等,否則很難推廣普及數(shù)據(jù)挖掘技 術(shù)。六、文

17、本挖掘1 .文本挖掘的概念文本數(shù)據(jù)挖掘(Text Mining)是指從文本數(shù)據(jù)中抽取有價值的信息和知 識的計算機(jī)處理技術(shù)。顧名思義,文本數(shù)據(jù)挖掘是從文本中進(jìn)行數(shù)據(jù)挖掘 (Data Mining) 0從這個意義上講,文本數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個分支。2 .文本挖掘方法(1) .文本分類文本分類是一種典型的機(jī)器學(xué)習(xí)方法,一般分為訓(xùn)練和分類兩個階 段。(2) .文本聚類文本聚類是一種典型的無監(jiān)督式機(jī)器學(xué)習(xí)方法,聚類方法的選擇取決于數(shù)據(jù)類型。.信息抽取.摘要(5) .壓縮其中,文本分類和聚類是兩種最重要最基本的挖掘功能。3 .挖掘工具(1) .IBM DB2 intelligent Miner(2)

18、.SAS text miner(3) .SPSS Text Mining(4) .DMC TextFilter (純文本抽出通用程序庫)4 .應(yīng)用文本挖掘傳統(tǒng)商業(yè)方面的應(yīng)用主要有,企業(yè)競爭情報、CRM、電子商務(wù)網(wǎng)站、搜索引擎,現(xiàn)在已擴(kuò)展到醫(yī)療、保險和咨詢行業(yè)。七、Web挖掘1 . Web挖掘與Web信息檢索1.1 Web挖掘的定義Web交掘是一項綜合技術(shù),涉及 Web數(shù)據(jù)挖掘、計算機(jī)語言學(xué)、信息學(xué) 等多個領(lǐng)域.不同研究者從自身的領(lǐng)域出發(fā),對Web挖掘的含義有著不同的理解,項目開發(fā)也各有其側(cè)重點.1.2 Web上的挖掘與信息檢索Web上的挖掘和信息檢索是兩種不同的技術(shù),其區(qū)別主要表現(xiàn)在以下幾個

19、方面.(1)方法論不同.信息檢索是目標(biāo)驅(qū)動的,用戶需要明確提出查詢要求;而挖 掘是機(jī)會主義的,其結(jié)果獨立于用戶的信息需求,也是用戶所無法預(yù)知的;(2)著眼點不同.信息檢索著重于文檔中顯式存儲的字詞和鏈接;而挖掘試圖 更多地理解其內(nèi)容和結(jié)構(gòu);(3)目的不同.信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量文檔中找到 滿足其查詢請求的文檔子集;而挖掘是為了揭示文檔中隱含的知識;(4)評價方法不同.信息檢索使用精度(precision )和召回率(recall )來 評價其性能,要求返回盡可能多的相關(guān)文檔,同時不相關(guān)的文檔盡可能少.而挖掘采用收益 (gain )、置信度(certainty )、簡潔性(

20、simplicity )等來衡量所發(fā)現(xiàn)知 識的有效性、可用性和可理解性;(5)使用場合不同.有時信息檢索系統(tǒng)返回太多的結(jié)果以致用戶無法一一瀏 覽,有時用戶沒有明確的信息需求,有時用戶希望發(fā)現(xiàn)文檔集合中所具有的結(jié)構(gòu)、 趨勢、含義,在這些場合下,就需要使用挖掘技術(shù)盡管Web挖掘是比信息檢索層次更高的技術(shù),但它并不是用來取代信息檢索技術(shù),二者是相輔相成的.一方面,這兩種技術(shù)各有所長,有各自適用的場合;另一方面,我們可以利用 Web挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結(jié) 果的組織,使信息檢索系統(tǒng)發(fā)展到一個新的水平2. Web挖掘的任務(wù)2.1 Web挖掘任務(wù)的分類Web上信息的多樣性決定了

21、 Web挖掘任務(wù)白多樣性.按照處理對象的不同,我們 將Web交掘分為兩大類:內(nèi)容挖掘和結(jié)構(gòu)挖掘.前者指的是從Web文檔的內(nèi)容信息中抽取知識,而后者指的是從Web文檔的結(jié)構(gòu)信息中推導(dǎo)知識.Web內(nèi)容挖掘又分為 對文本文檔(包括 text , HTML等格式)和多媒體文檔(包 括image , audio , video 等媒體類型)的挖掘.Web結(jié)構(gòu)挖掘不僅僅局限于文檔之間的超鏈結(jié)構(gòu),還包括文檔 內(nèi)部的結(jié)構(gòu)、文檔 URL中的目錄路 徑結(jié)構(gòu)等.如圖2所示.在本文中,我們僅對 Web 上的文本挖掘和結(jié)構(gòu)挖掘加以討論,下文中提及的“文檔”指的是文本文檔,不包 括多媒體文檔.有關(guān)Web上的多媒體挖掘。2.2 Web文本挖掘Web文本挖掘可以對 Web上大量文檔

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論