




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘種新型數(shù)據(jù)分析技術(shù)摘要:首先介紹了數(shù)據(jù)挖掘的體系結(jié)構(gòu),并在此基礎(chǔ)上提出了數(shù)據(jù)挖掘工程的一般方法和步驟, 最后介紹了數(shù)據(jù)挖掘的應(yīng)用前景。a novel data analysis tcchnology:data miningabstract:in this paper the architecture of data mining is outlined and the general methods andprocedure of data mining engineering is presented at last, the future application of datami
2、ning is introduced.key words:data miningj; data warehouse; knowledge discovery0引言隨著世界上信息總量的不斷增加,迫切需要有效的信息分析工具,它們能發(fā)現(xiàn)人量數(shù)據(jù)間 隱藏的依賴關(guān)系,它們能從大量數(shù)據(jù)中抽取有用的信息或知識。盡管很早就出現(xiàn)了簡單的數(shù) 據(jù)統(tǒng)計技術(shù),但先進的智能數(shù)據(jù)分析工具尚未成熟。因此,在數(shù)據(jù)生成和數(shù)據(jù)理解z間存在很 大的差距。數(shù)據(jù)挖掘就是為解決這一矛盾而出現(xiàn)的一種新型數(shù)據(jù)分析技術(shù)。數(shù)據(jù)挖掘旨在能 從人型數(shù)據(jù)庫中捉取隱藏的預(yù)測性倍息,是構(gòu)建高效數(shù)據(jù)倉庫的基木操作,乂稱知識發(fā)現(xiàn)。它 能發(fā)掘數(shù)據(jù)間潛在的模式,找
3、出金業(yè)經(jīng)營者可能忽視的信息,以便于理解和觀察的形式反映給 用戶,并為企業(yè)作出前攝的、基于知識的決策參考意見。日前國際上在該領(lǐng)域的研究相當活 躍,無論在理論上,還是實用技術(shù)上都取得了喜人的成果,同時也開發(fā)出了各種專用或通用的 商業(yè)數(shù)據(jù)挖掘軟件。1數(shù)據(jù)挖掘的體系結(jié)構(gòu)從廣義上講,數(shù)據(jù)挖掘分為三種類型:全自動、半自動和全交互式。 對于全自動技術(shù),一旦系統(tǒng)被創(chuàng)建,無需人的任何干預(yù),它能在后臺自動進行操作;對于半自動 技術(shù),系統(tǒng)或者在麻臺操作,或者采用全交互方式;對于全交互式技術(shù),是一種簡單的數(shù)據(jù)挖掘, 它由用戶設(shè)置每次操作的參數(shù),然后等待相應(yīng)結(jié)果。數(shù)據(jù)挖掘的體系結(jié)構(gòu)如圖1所示:下面對其主耍組成部分分別進
4、行詳細說明。1. 數(shù)據(jù)挖掘算法。這部分是數(shù)據(jù)挖掘的核心部分。它可以綜合利用各種人工智能技術(shù)。下而介紹兒種常用 的數(shù)據(jù)挖掘技術(shù)。粗集方法(rough sct)o粗集理論是近年來才興起的研究不精確、不確定性知識的表達、學(xué)習(xí)、歸納等方法。粗集方法是模擬人類的抽彖邏輯思維,它以各種更接近人們對事物的描述方式的定性、 定量或者混合信息為輸入,輸入空間與輸出空間的映射關(guān)系是通過簡單的決策表簡化得到的, 它通過考察知識農(nóng)達屮不同屬性的重要性,來確定哪些知識是兀余的,哪些知識是有用的。進 行簡化知識表達空間是基丁不可分辨關(guān)系的思想和知識簡化的方法,從數(shù)據(jù)屮推理邏輯規(guī)則 作為知識系統(tǒng)的模型。它是基于一個機構(gòu)(或
5、一組機構(gòu))關(guān)于一些現(xiàn)實的大量數(shù)據(jù)信息,以對觀 察和測量所得數(shù)據(jù)進行分類的能力為基礎(chǔ),從屮發(fā)現(xiàn)、推理知識和分辨系統(tǒng)的某些特點、過 程、對象等。(2) 遺傳算法(genetic algorithms) o遺傳算法是基于達爾文的進化論屮基因重組、突變和白然選擇等概念。這些算法作用于對某一特定問題的一組可能的解法。它們試圖通過組合或“繁殖”現(xiàn)存 的最好的解法來產(chǎn)生更好的解法。利用“適者生存”的概念使較差的解法被拋棄,從而導(dǎo)致 解法的集合,即繁殖的結(jié)果得到改善。通常,解法的隨機突變用來防止算法受阻于好的但非最優(yōu)的解法。(3) 神經(jīng)網(wǎng)絡(luò)(neural networks)o人工神經(jīng)網(wǎng)絡(luò)是模擬人類的形象直覺思
6、維、是在生物神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,根據(jù)生物 神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的特點,通過簡化、歸納、提煉總結(jié)出來的一類并行處理網(wǎng)絡(luò)。利用其非 線性映射的思想和并行處理的方法,用神經(jīng)網(wǎng)絡(luò)木身結(jié)構(gòu)可以表達輸入與輸出的關(guān)聯(lián)知識。 它完成輸入空間與輸出空間的映射關(guān)系,是通過網(wǎng)絡(luò)結(jié)構(gòu)不斷學(xué)習(xí)、調(diào)整,最后以網(wǎng)絡(luò)的特定 結(jié)構(gòu)來表達的,沒有顯式函數(shù)表達。(4) 聚類法(clustering) o聚類算法是通過對變量的比較,把具有相似特征的數(shù)據(jù)歸于一類。因此,通過聚類以后, 數(shù)據(jù)集就轉(zhuǎn)化為類集,在類集中同一類中數(shù)據(jù)具有相似的變量值,不同類之間數(shù)據(jù)的變量值不 具有相似性。區(qū)分不同的類是屬于數(shù)據(jù)挖掘過程的一-部分,這些類不是事先定
7、義好的,而是通 過聚類算法采用全白動方式獲得。通常,聚類過程是數(shù)據(jù)挖掘過程的笫一個階段。它首先把數(shù)據(jù)區(qū)分于不同的類,以便于做 進一步的分析。聚類法大至上可分為兩種類型:a. 分層聚類(hierarchical) o分層聚類是基于數(shù)學(xué)的標準,對數(shù)據(jù)進行細分或聚合。這種類型適用于數(shù)值數(shù)據(jù)。b. 概念聚類(conceptual)。概念聚類是基于數(shù)據(jù)的非數(shù)值屬性,対數(shù)據(jù)進行細分或聚合。這種類空適用于非數(shù)值數(shù) 據(jù)。(5) 分類法(classification) o分類法是最普通的數(shù)據(jù)挖掘方法之一。它試圖按照事先定義的標準(如:通過檢查/沒有通 過檢查等)對數(shù)據(jù)進行歸類。分類法人至上可分為如下幾種類型:a
8、. 決策樹歸納法(decision tree induction)o決策樹歸納法根據(jù)數(shù)據(jù)的值把數(shù)據(jù)分層組織成樹型結(jié)構(gòu)。在決策樹中每一個分支代表一 個了類,樹的每一層代表一個概念。b. 規(guī)則歸納法(rule induction)o規(guī)則歸納法是由一系列的if then規(guī)則來對數(shù)據(jù)進行歸類。c. 神經(jīng)網(wǎng)絡(luò)法(neural networks)。神經(jīng)網(wǎng)絡(luò)法主要是通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)使其識別不同的類,再利用神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行歸 類。2. 相關(guān)技術(shù)。這些技術(shù)盡管獨立丁數(shù)據(jù)挖掘技術(shù),但同時運川這些技術(shù)和數(shù)據(jù)挖掘技術(shù)能提高整個數(shù) 據(jù)挖掘工程的使用價值。(1) 在線分析處理(on line analytical pr
9、ocessing,olap)在線分析處理技術(shù)是-種與數(shù)據(jù)挖掘技術(shù)相似的技術(shù),不同之處在于在線分析處理技術(shù) 是一非自動過程,但它能迅速響應(yīng)用戶的請求。在線分析處理工具允許用戶觀察、操作及分 析所謂的多維數(shù)據(jù)庫。(2) 在線事務(wù)處理(on line transaction processing,oltp)。在線事務(wù)處理技術(shù)主要應(yīng)用于處理大量用戶同是創(chuàng)建、編輯和訪問同一記錄。(3) 數(shù)據(jù)倉庫(data warehouses) o數(shù)據(jù)倉庫是面向主題的、穩(wěn)定的、不同時間的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決 策制訂過程。通常由一些小型數(shù)據(jù)庫構(gòu)成,它的主體是由關(guān)系數(shù)據(jù)庫構(gòu)成,但某些層次的數(shù)據(jù) 也可能由其它類型
10、的數(shù)據(jù)(如多維數(shù)據(jù))組成,它兼?zhèn)鋽?shù)據(jù)集成和數(shù)據(jù)分析的功能。它的作用相 當于-檔案室,盡管它的內(nèi)容允許增加,但一-般不允許更新。在創(chuàng)建數(shù)據(jù)倉庫時,應(yīng)遵循以卜基 本原則:a. 首次創(chuàng)建時需進行修正。b. 創(chuàng)建時應(yīng)檢查數(shù)據(jù)以保證沒有異常數(shù)據(jù)。c. 使用前應(yīng)整理數(shù)據(jù)。d. 創(chuàng)建一個先導(dǎo)測試系統(tǒng)。e. 制訂一個適當?shù)拇鎯σ?guī)劃(數(shù)據(jù)倉庫僅僅是不斷的增加)。f. 制訂一個適合于不斷增加使用的規(guī)劃。(4) 可視化數(shù)據(jù)技術(shù)(data visualisation) o可視化數(shù)據(jù)技術(shù)是一全交互式技術(shù)。它基于“一幅圖畫值千言”這一事實,它利用 空間和非空間的屬性(如:大小、顏色等)把大量的數(shù)據(jù)以圖表的形式在屏幕上呈現(xiàn)
11、給用戶,從 而用戶能觀察數(shù)據(jù)并在一相當高的層次上找出數(shù)據(jù)間可能的關(guān)系??梢暬瘮?shù)據(jù)技術(shù)可以用于識別那些通過挖掘可能值得進一步觀察的數(shù)據(jù)段。(5) 管理信息系統(tǒng)(management information systems,mis)o管理信息系統(tǒng)通過按一定規(guī)則牛成結(jié)構(gòu)化報表來幫助管理金業(yè)。它旨在捉供戰(zhàn)略上 而不是日常管理金業(yè)的信息。2數(shù)據(jù)挖掘工程的一般方法和步驟數(shù)據(jù)挖掘工程的特點之一是在真正開始數(shù)據(jù)挖 掘z前需要做大量預(yù)處理工作。這些工作包括:定義問題、獲取相關(guān)數(shù)據(jù)和為挖掘準備數(shù)據(jù)。下面對數(shù)據(jù)挖掘工程的一般方法和步驟進行具體闡述:1定義問題。這一步的主要目的是確定數(shù)據(jù)挖掘是否適合解決客八所捉出的問
12、題。其次還要做兒 項相關(guān)工作:(1) 需要從客戶那里獲取哪些數(shù)據(jù)。(2) 是否有足夠的數(shù)據(jù)支持數(shù)據(jù)挖掘。(3) 識別那些合法的r可以調(diào)整的因素并弄清楚它們對數(shù)據(jù)挖掘工程的影響。2. 獲取數(shù)據(jù)。這一階段主要是在企業(yè)數(shù)據(jù)庫專家的幫助下理解企業(yè)數(shù)據(jù)庫的結(jié)構(gòu)、內(nèi)容等。3. 整理和初探數(shù)據(jù)。整理數(shù)據(jù)階段主耍是把需要挖掘的數(shù)據(jù)整理成適合于挖掘的標準格式。對那些丟失 和錯誤的數(shù)據(jù)做適當處理。初探數(shù)據(jù)階段主要是使川圖表和描述性統(tǒng)計技術(shù)對數(shù)據(jù)進行初步處理以獲得數(shù)據(jù) 的大致“輪廓”,從而使得分析員能發(fā)現(xiàn)那些有價值和值得進一步分析的數(shù)據(jù)區(qū)域。4. 選擇和準備數(shù)據(jù)。在初步理解數(shù)據(jù)后,下一步就是選擇合適的挖掘工具和挖掘
13、技術(shù)。通常(但非必須), 選擇數(shù)據(jù)的了集或樣木進行預(yù)挖掘,以便較快地確定合適的挖掘工具和挖掘技術(shù)。數(shù)據(jù)樣木 的選擇可以使用各種統(tǒng)計技術(shù)。5. 挖掘數(shù)據(jù)(mining the data)o這一階段也稱知識發(fā)現(xiàn)是整個過程的核心階段,主要是用選擇好的挖掘工具和挖掘 技術(shù)對數(shù)據(jù)進行處理,從而發(fā)現(xiàn)規(guī)則、模式和趨勢等即挖掘知識。在挖掘時,一般把數(shù)據(jù)分成訓(xùn)練樣本集和待測樣本集,前者用于構(gòu)建系統(tǒng)模型,后者 用于測試系統(tǒng)的有效性。首先用數(shù)據(jù)挖掘技術(shù)作用于訓(xùn)練樣本集,當系統(tǒng)模型穩(wěn)定并門產(chǎn)生 了一些有價值的結(jié)果(即知識)后,再用待測樣木集作用于系統(tǒng),這時應(yīng)當產(chǎn)生和似的結(jié)果。6. 解釋結(jié)果。這一-階段主要是把數(shù)據(jù)挖掘
14、所得到的知識反饋給用戶進行評價。這時可以利用各種 可視化技術(shù)使結(jié)果更容易理解。7. 運用知識。這一階段主要是利用數(shù)據(jù)挖掘獲得的知識來解決最初客八所捉出的問題。通過挖掘 所獲得的知識的價值在很人程度上取決于它們是否能有效地解決初始問題。數(shù)據(jù)挖掘可能會 很好地解決初始問題,從而導(dǎo)致建立一個成熟的數(shù)據(jù)挖掘系統(tǒng)或數(shù)據(jù)倉庫。在最壞情況下,它 也能顯示出數(shù)據(jù)中沒有多少有價值的信息。3結(jié)束語到冃前為止,數(shù)據(jù)挖掘工程在很多領(lǐng)域取得了成果。這些成果使得各類機構(gòu)和組織 能更好地理解它們的組織結(jié)構(gòu)、業(yè)務(wù)處理過程和顧客。數(shù)據(jù)挖掘工程通常能夠得到很高的投 資收益。在某些情況下,僅僅一小部分數(shù)據(jù)挖掘所得到的知識就能i叫報
15、最初的投資。數(shù)據(jù)挖掘是一項較新的技術(shù),同時也是一項具冇誘人前景的技術(shù)。盡管在國內(nèi)尚處 于起步階段,但在國外已出現(xiàn)了一系列較成功的應(yīng)用實例,如電子商函、信用卡問題等,在 internet擻字電視系統(tǒng)和工業(yè)制造領(lǐng)域洪至在體冇界也顯示出很好的應(yīng)用前景。參考文獻:1 michael j.a.berry and gordon linoff.data mining tcchniqucsm.john wilcy&sons,inc,new york, 1997.2 william inmon.building the data warehousem.2d ed, john wiley&sons
16、,inc, new york, 1996.3j david e goldberg genetic algorithms in search, optimization, and machine leamingm. addisonwesley ,1989.4 joseph p bigus.data mining with neural networks: solving business problems from applicationdevelopment to decision supportm. mcgraw hill, new york, 19965j torrnlf mollestad and andrzej skowron. a rough set framework for data mining of propositionaldefault rules a the 9th international symposium on methodologies for intelligent systems,ismis' 96fc. zakopane,poland, 1996,6:913.6 z. pawlak. rough
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度知識產(chǎn)權(quán)贈與及許可協(xié)議書范文
- 二零二五年度資料員招聘與知識產(chǎn)權(quán)保護與運用協(xié)議
- 2025年度電力設(shè)備安裝與檢修服務(wù)合同
- 二零二五年度科研機構(gòu)實驗室年租房合同
- 二零二五年度廣告公司兼職設(shè)計師合作協(xié)議
- 2025年度珠寶玉石進出口貿(mào)易合同
- 網(wǎng)絡(luò)安全防御策略知識題庫
- 探索阿凡提的故事的寓言色彩
- 農(nóng)業(yè)環(huán)境保護工作要點
- 公司年度運營計劃與目標分解書
- 2025浙江杭州地鐵運營分公司校園招聘665人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025四川省小金縣事業(yè)單位招聘362人歷年高頻重點模擬試卷提升(共500題附帶答案詳解)
- 2022泛海三江消防ZX900液晶手動控制盤使用手冊
- 廣西壯族自治區(qū)柳州市2025年中考物理模擬考試卷三套附答案
- 第11課《山地回憶》說課稿 2024-2025學(xué)年統(tǒng)編版語文七年級下冊
- 羅森運營部經(jīng)營管理手冊
- 高標準農(nóng)田施工組織設(shè)計
- 老舊小區(qū)改造項目施工組織設(shè)計方案
- 【招商手冊】杭州ICON CENTER 社交娛樂中心年輕人潮流消費創(chuàng)新實驗
- 2025屆高考數(shù)學(xué)二輪復(fù)習(xí)備考策略和方向
- 2025年國家稅務(wù)總局遼寧省稅務(wù)局系統(tǒng)招聘事業(yè)單位工作人員管理單位筆試遴選500模擬題附帶答案詳解
評論
0/150
提交評論