




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 它融合了數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)和人工智能等多個(gè)學(xué)科。介紹了數(shù)據(jù)挖掘 技術(shù)的定義、任務(wù)類型和常用的數(shù)據(jù)挖掘方法,以及數(shù)據(jù)挖掘技術(shù)的實(shí)際 :數(shù)據(jù)挖掘;應(yīng)用;任務(wù);規(guī)則在計(jì)算機(jī)技術(shù)快速發(fā)展的時(shí)代,數(shù)據(jù)庫(kù)技術(shù)與計(jì)算機(jī)網(wǎng)絡(luò)也得到了普 遍的應(yīng)用,從而人們利用計(jì)算機(jī)技術(shù)處理數(shù)據(jù)的能力也顯著增強(qiáng),這就造 成了數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法滯后之間的矛盾也越來(lái)越明顯。人們 總是希望通過(guò)分析現(xiàn)有的數(shù)據(jù),挖掘出海量的數(shù)據(jù)信息,以便更好地利用 這些數(shù)據(jù)。然而,目前已有的數(shù)據(jù)分析技術(shù)已經(jīng)無(wú)法滿足人們對(duì)數(shù)據(jù)進(jìn)行 深層次挖掘的需要,數(shù)據(jù)處理的效率也很低。數(shù)據(jù)量的快速增長(zhǎng)對(duì)數(shù)據(jù)的 存儲(chǔ)、管理和分析提出了更高的要求,急需一種新的
2、技術(shù),能夠智能化的 從大量的數(shù)據(jù)中提取出有用的信息,于是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并在各 隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的 信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘是近年來(lái)隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的 發(fā)展而出現(xiàn)的一種多學(xué)科交叉的全新信息技術(shù),隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和 描述模式是對(duì)數(shù)據(jù)中存在的規(guī)律、規(guī)則作出一種描述,或者根據(jù)數(shù)據(jù)間的 相似性對(duì)數(shù)據(jù)進(jìn)行分組,一般不能直接用于預(yù)測(cè);預(yù)測(cè)模式能夠根據(jù)已有 對(duì)象的屬性、特征,建立不同的組類來(lái)描述事物。分類的目的是學(xué)會(huì)一個(gè) 分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的 某一個(gè);聚類模式。聚類是把一組個(gè)體按照相似性歸成若干
3、類別,即 “物以類聚”。它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能的 的個(gè)體間的距離盡可能的大。聚類方法包括統(tǒng)計(jì)方法、 機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫(kù)的方法;關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī) 量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的 一類重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān) 聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信 使得所挖掘的規(guī)則更符合需求;概念描述。概念描述就是對(duì)所選擇的數(shù) 據(jù)給出一個(gè)簡(jiǎn)單明了的描述;提供對(duì)于兩個(gè)或兩個(gè)以上的數(shù)據(jù)進(jìn)行比較的 結(jié)果。概念描述可以分為特征性描述和區(qū)別性描述兩種,特征性表述用來(lái) 自動(dòng)預(yù)測(cè)趨勢(shì)和行
4、為。數(shù)據(jù)挖掘可以自動(dòng)地在大量的數(shù)據(jù)庫(kù)中檢測(cè)出預(yù) 測(cè)性信息。預(yù)測(cè)的目的是從歷史數(shù)據(jù)紀(jì)錄中自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣 描述,從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。比如市場(chǎng)預(yù)測(cè)問(wèn)題,數(shù)據(jù)挖掘使利用 以前促銷的相關(guān)數(shù)據(jù)來(lái)尋找未來(lái)投資中回報(bào)最大的用戶,當(dāng)然也能預(yù)測(cè)破 產(chǎn)以及判定對(duì)特定事件最可能做出反應(yīng)的客戶群體;偏差檢測(cè)。偏差檢測(cè)即孤立點(diǎn)檢測(cè),孤立點(diǎn)檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要方面,用來(lái)發(fā)現(xiàn)“小 相對(duì)于聚類而言),即數(shù)據(jù)集中與其它數(shù)據(jù)明顯不同的對(duì)象。數(shù) 偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例、不符合規(guī)則的特例、檢 最常用的數(shù)據(jù)挖掘技術(shù)有:神經(jīng)網(wǎng)絡(luò):指由大量神經(jīng)元互連而成的 網(wǎng)絡(luò),具有分布存儲(chǔ)、聯(lián)想記憶、大規(guī)模并行處
5、理、自組織、自學(xué)習(xí)、自 適應(yīng)等功能。利用神經(jīng)網(wǎng)絡(luò)可以完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖 掘任務(wù)。神經(jīng)網(wǎng)絡(luò)在實(shí)際生活中的應(yīng)用主要有:電子領(lǐng)域中的集成電路芯 片設(shè)計(jì)、娛樂領(lǐng)域中的動(dòng)畫設(shè)計(jì)、銀行業(yè)中的貸款評(píng)估器、國(guó)防領(lǐng)域中的 目標(biāo)跟蹤等領(lǐng)域;決策樹:是用樹形結(jié)構(gòu)來(lái)表示決策集合,這些決策集 合通過(guò)對(duì)數(shù)據(jù)集的分類產(chǎn)生規(guī)則。決策樹是一棵樹,樹的根節(jié)點(diǎn)是整個(gè)數(shù) 據(jù)集合空間,每個(gè)分節(jié)點(diǎn)是對(duì)一個(gè)單一變量的測(cè)試,該測(cè)試將數(shù)據(jù)集合空 間分割成兩個(gè)或更多塊。每個(gè)葉節(jié)點(diǎn)是屬于單一類別的記錄。首先,通過(guò) 訓(xùn)練集生成決策樹,再通過(guò)測(cè)試集對(duì)決策樹進(jìn)行修剪。決策樹的功能是預(yù) 言一個(gè)新的記錄屬于哪一類;遺傳算法:是一種新的優(yōu)化
6、技術(shù),基于生 物進(jìn)化的概念設(shè)計(jì)了基因組合、交叉、變異和自然選擇等過(guò)程來(lái)達(dá)到優(yōu)化 的目的。在應(yīng)用中,需要把數(shù)據(jù)挖掘任務(wù)表達(dá)為一種搜索問(wèn)題,從而發(fā)揮 可用作聚類、偏差分析等數(shù)據(jù)挖掘任務(wù);規(guī)則推導(dǎo):通過(guò)統(tǒng)計(jì)方法歸納 和提取有價(jià)值的“If-Then”規(guī)則。規(guī)則推導(dǎo)技術(shù)在數(shù)據(jù)挖掘中被廣泛使 采用上述技術(shù)的某些專門的分析工具已經(jīng)發(fā)展了十多年,現(xiàn)在,這些 (1)在銀行業(yè)中的應(yīng)用處理金融事務(wù)通常需要搜集和處理大量的數(shù)據(jù),鑒于銀行在金融領(lǐng)域 的地位、工作性質(zhì)、業(yè)務(wù)特點(diǎn)和激烈的市場(chǎng)競(jìng)爭(zhēng),使得銀行比其它領(lǐng)域?qū)?信息化、電子化的需求更為迫切。利用數(shù)據(jù)挖掘技術(shù)可以幫助銀行產(chǎn)品開 (2)在零售業(yè)中的應(yīng)用(3)在電信業(yè)中的應(yīng)用國(guó)家對(duì)電信業(yè)的開放和新興計(jì)算與通信技術(shù)的發(fā)展,電信市 場(chǎng)得到了迅速的擴(kuò)張并越發(fā)競(jìng)爭(zhēng)激烈。因此,有必要利用數(shù)據(jù)挖掘技術(shù)來(lái) 幫助理解商業(yè)行為、確定電信模式、捕捉盜用行為、更好地利用資源和提 高服務(wù)質(zhì)量。分析人員可以對(duì)呼叫源、呼叫目標(biāo)、呼叫量和每天使用模式 等信息進(jìn)行分析,還可以通過(guò)挖掘進(jìn)行盜用模式分析和異常模式識(shí)別,從 (4)在生物學(xué)中的應(yīng)用生物信息或基因數(shù)據(jù)挖掘?qū)θ祟愐饬x重大。例如,基因的組合千變?nèi)f 能否找出其中不同的地方,并對(duì)這些不同之處進(jìn)行改變,使之成為正常基 因?這都需要數(shù)據(jù)挖掘技術(shù)的支持。數(shù)據(jù)挖掘在生物信息或基因的中的應(yīng) 用和通常的數(shù)據(jù)挖掘相比,無(wú)論是在數(shù)據(jù)的復(fù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 健康狀況與工作履歷證明書(7篇)
- 小區(qū)垃圾分類與環(huán)保管理協(xié)議
- 服裝制造銷售協(xié)議
- 知識(shí)產(chǎn)權(quán)轉(zhuǎn)讓許可使用協(xié)議詳細(xì)內(nèi)容說(shuō)明
- 行政管理公文流轉(zhuǎn)試題及答案
- 2025商業(yè)辦公裝飾裝修施工合同范本
- 行政管理學(xué)的實(shí)施效果試題及答案
- 中國(guó)特色發(fā)展道路的世界歷史比較研究
- 行政管理中的決策制定聚焦市政學(xué)試題及答案
- 行政管理師資格市政學(xué)試題及答案
- 2024年延安通和電業(yè)有限責(zé)任公司招聘筆試真題
- 液壓油供應(yīng)合同協(xié)議
- 2024年貴州省德江縣事業(yè)單位公開招聘醫(yī)療衛(wèi)生崗筆試題帶答案
- 高考二輪專題復(fù)習(xí):圖文轉(zhuǎn)換
- 2024年甘肅省大數(shù)據(jù)中心招聘工作人員筆試真題
- 崇左市人民檢察院招聘機(jī)關(guān)文員筆試真題2024
- 2025-2030煤油產(chǎn)業(yè)規(guī)劃專項(xiàng)研究報(bào)告
- (二模)2025年4月濰坊市高三高考模擬考試地理試卷(含答案)
- 香港勞務(wù)服務(wù)合同協(xié)議
- 園林噴灑器企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- GB/T 9065.2-2025液壓傳動(dòng)連接軟管接頭第2部分:24°錐形
評(píng)論
0/150
提交評(píng)論