數(shù)據(jù)挖掘技術(shù)研究_第1頁
數(shù)據(jù)挖掘技術(shù)研究_第2頁
數(shù)據(jù)挖掘技術(shù)研究_第3頁
數(shù)據(jù)挖掘技術(shù)研究_第4頁
數(shù)據(jù)挖掘技術(shù)研究_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 它融合了數(shù)據(jù)庫技術(shù)、機器學習和人工智能等多個學科。介紹了數(shù)據(jù)挖掘 技術(shù)的定義、任務(wù)類型和常用的數(shù)據(jù)挖掘方法,以及數(shù)據(jù)挖掘技術(shù)的實際 :數(shù)據(jù)挖掘;應用;任務(wù);規(guī)則在計算機技術(shù)快速發(fā)展的時代,數(shù)據(jù)庫技術(shù)與計算機網(wǎng)絡(luò)也得到了普 遍的應用,從而人們利用計算機技術(shù)處理數(shù)據(jù)的能力也顯著增強,這就造 成了數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法滯后之間的矛盾也越來越明顯。人們 總是希望通過分析現(xiàn)有的數(shù)據(jù),挖掘出海量的數(shù)據(jù)信息,以便更好地利用 這些數(shù)據(jù)。然而,目前已有的數(shù)據(jù)分析技術(shù)已經(jīng)無法滿足人們對數(shù)據(jù)進行 深層次挖掘的需要,數(shù)據(jù)處理的效率也很低。數(shù)據(jù)量的快速增長對數(shù)據(jù)的 存儲、管理和分析提出了更高的要求,急需一種新的

2、技術(shù),能夠智能化的 從大量的數(shù)據(jù)中提取出有用的信息,于是數(shù)據(jù)挖掘技術(shù)應運而生,并在各 隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的 信息和知識的過程。數(shù)據(jù)挖掘是近年來隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的 發(fā)展而出現(xiàn)的一種多學科交叉的全新信息技術(shù),隨著計算機網(wǎng)絡(luò)的發(fā)展和 描述模式是對數(shù)據(jù)中存在的規(guī)律、規(guī)則作出一種描述,或者根據(jù)數(shù)據(jù)間的 相似性對數(shù)據(jù)進行分組,一般不能直接用于預測;預測模式能夠根據(jù)已有 對象的屬性、特征,建立不同的組類來描述事物。分類的目的是學會一個 分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的 某一個;聚類模式。聚類是把一組個體按照相似性歸成若干

3、類別,即 “物以類聚”。它的目的是使得屬于同一類別的個體之間的距離盡可能的 的個體間的距離盡可能的大。聚類方法包括統(tǒng)計方法、 機器學習方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫的方法;關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī) 量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的 一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān) 聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信 使得所挖掘的規(guī)則更符合需求;概念描述。概念描述就是對所選擇的數(shù) 據(jù)給出一個簡單明了的描述;提供對于兩個或兩個以上的數(shù)據(jù)進行比較的 結(jié)果。概念描述可以分為特征性描述和區(qū)別性描述兩種,特征性表述用來 自動預測趨勢和行

4、為。數(shù)據(jù)挖掘可以自動地在大量的數(shù)據(jù)庫中檢測出預 測性信息。預測的目的是從歷史數(shù)據(jù)紀錄中自動推導出對給定數(shù)據(jù)的推廣 描述,從而能對未來數(shù)據(jù)進行預測。比如市場預測問題,數(shù)據(jù)挖掘使利用 以前促銷的相關(guān)數(shù)據(jù)來尋找未來投資中回報最大的用戶,當然也能預測破 產(chǎn)以及判定對特定事件最可能做出反應的客戶群體;偏差檢測。偏差檢測即孤立點檢測,孤立點檢測是數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)“小 相對于聚類而言),即數(shù)據(jù)集中與其它數(shù)據(jù)明顯不同的對象。數(shù) 偏差包括很多潛在的知識,如分類中的反常實例、不符合規(guī)則的特例、檢 最常用的數(shù)據(jù)挖掘技術(shù)有:神經(jīng)網(wǎng)絡(luò):指由大量神經(jīng)元互連而成的 網(wǎng)絡(luò),具有分布存儲、聯(lián)想記憶、大規(guī)模并行處

5、理、自組織、自學習、自 適應等功能。利用神經(jīng)網(wǎng)絡(luò)可以完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖 掘任務(wù)。神經(jīng)網(wǎng)絡(luò)在實際生活中的應用主要有:電子領(lǐng)域中的集成電路芯 片設(shè)計、娛樂領(lǐng)域中的動畫設(shè)計、銀行業(yè)中的貸款評估器、國防領(lǐng)域中的 目標跟蹤等領(lǐng)域;決策樹:是用樹形結(jié)構(gòu)來表示決策集合,這些決策集 合通過對數(shù)據(jù)集的分類產(chǎn)生規(guī)則。決策樹是一棵樹,樹的根節(jié)點是整個數(shù) 據(jù)集合空間,每個分節(jié)點是對一個單一變量的測試,該測試將數(shù)據(jù)集合空 間分割成兩個或更多塊。每個葉節(jié)點是屬于單一類別的記錄。首先,通過 訓練集生成決策樹,再通過測試集對決策樹進行修剪。決策樹的功能是預 言一個新的記錄屬于哪一類;遺傳算法:是一種新的優(yōu)化

6、技術(shù),基于生 物進化的概念設(shè)計了基因組合、交叉、變異和自然選擇等過程來達到優(yōu)化 的目的。在應用中,需要把數(shù)據(jù)挖掘任務(wù)表達為一種搜索問題,從而發(fā)揮 可用作聚類、偏差分析等數(shù)據(jù)挖掘任務(wù);規(guī)則推導:通過統(tǒng)計方法歸納 和提取有價值的“If-Then”規(guī)則。規(guī)則推導技術(shù)在數(shù)據(jù)挖掘中被廣泛使 采用上述技術(shù)的某些專門的分析工具已經(jīng)發(fā)展了十多年,現(xiàn)在,這些 (1)在銀行業(yè)中的應用處理金融事務(wù)通常需要搜集和處理大量的數(shù)據(jù),鑒于銀行在金融領(lǐng)域 的地位、工作性質(zhì)、業(yè)務(wù)特點和激烈的市場競爭,使得銀行比其它領(lǐng)域?qū)?信息化、電子化的需求更為迫切。利用數(shù)據(jù)挖掘技術(shù)可以幫助銀行產(chǎn)品開 (2)在零售業(yè)中的應用(3)在電信業(yè)中的應用國家對電信業(yè)的開放和新興計算與通信技術(shù)的發(fā)展,電信市 場得到了迅速的擴張并越發(fā)競爭激烈。因此,有必要利用數(shù)據(jù)挖掘技術(shù)來 幫助理解商業(yè)行為、確定電信模式、捕捉盜用行為、更好地利用資源和提 高服務(wù)質(zhì)量。分析人員可以對呼叫源、呼叫目標、呼叫量和每天使用模式 等信息進行分析,還可以通過挖掘進行盜用模式分析和異常模式識別,從 (4)在生物學中的應用生物信息或基因數(shù)據(jù)挖掘?qū)θ祟愐饬x重大。例如,基因的組合千變?nèi)f 能否找出其中不同的地方,并對這些不同之處進行改變,使之成為正常基 因?這都需要數(shù)據(jù)挖掘技術(shù)的支持。數(shù)據(jù)挖掘在生物信息或基因的中的應 用和通常的數(shù)據(jù)挖掘相比,無論是在數(shù)據(jù)的復

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論