




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第3章 數(shù)據(jù)泛化數(shù)據(jù)挖掘的分類描述性挖掘:以簡潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有意義的一般性質(zhì)。預(yù)測性數(shù)據(jù)挖掘:通過分析數(shù)據(jù)建立一個(gè)或一組模型,并試圖預(yù)測新數(shù)據(jù)集的行為。概念描述(泛化):為數(shù)據(jù)的特征化和比較產(chǎn)生描述(當(dāng)所描述的概念所指的是一類對象時(shí),也稱為類描述)特征化:提供給定數(shù)據(jù)集的簡潔匯總。例如按專業(yè)的成績分布表區(qū)分:提供兩個(gè)或多個(gè)數(shù)據(jù)集的比較描述。如男生與女生的對比。面向?qū)傩缘臍w納 :是一種數(shù)據(jù)泛化方法,可以從大量數(shù)據(jù)中找出其中的一般性規(guī)律什么是數(shù)據(jù)泛化?數(shù)據(jù)庫中的數(shù)據(jù)和對象通常包含原始概念層的細(xì)節(jié)信息,數(shù)據(jù)泛化就是將數(shù)據(jù)庫中數(shù)據(jù)集從較低的概念層抽象到較高的概念層的過程。用較高層次
2、的概念來代替較低層次的概念。例如:用老、中、青分別代替(20-35,36-50,51-70)的年齡區(qū)間值。 用省代替地市級的概念等面向?qū)傩缘臍w納的基本步驟1、數(shù)據(jù)聚焦,獲得初始數(shù)據(jù)關(guān)系2、 進(jìn)行面向?qū)傩缘臍w納 基本操作是數(shù)據(jù)概化,對有大量不同值的屬性,進(jìn)行以下操作:屬性刪除、屬性概化屬性概化控制:控制概化過程,確定有多少不同的值才算是有大量不同值的屬性屬性概化臨界值控制:如果一個(gè)屬性的不同值個(gè)數(shù)大于屬性概化臨界值,則應(yīng)當(dāng)進(jìn)一步刪除或者概化該屬性。概化(廣義)關(guān)系臨界值控制:如果概化關(guān)系中不同元組的個(gè)數(shù)超過概化(廣義)關(guān)系臨界值,則應(yīng)當(dāng)進(jìn)一步概化。屬性刪除的適用規(guī)則:對初始工作關(guān)系中具有大量不同
3、值的屬性,符合以下情況,應(yīng)使用屬性刪除:在此屬性上沒有概化操作符(比如該屬性沒有定義相關(guān)的概念分層)、該屬性的較高層概念用其他屬性表示如:name: 要被刪除的屬性 phone#:要被刪除的屬性屬性概化控制的兩種常用方法:屬性概化臨界值控制:對所有屬性設(shè)置一個(gè)概化臨界值或者是對每個(gè)屬性都分別設(shè)置一個(gè)臨界值(一般為2到8)概化關(guān)系臨界值控制: 為概化關(guān)系設(shè)置一個(gè)臨界值,確定概化后的關(guān)系中,不同元組個(gè)數(shù)的最大值。(通常為10到30,應(yīng)該允許在實(shí)際應(yīng)用中進(jìn)行調(diào)整)第4章 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則挖掘:從事務(wù)數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫和其他信息存儲中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、項(xiàng)與項(xiàng)之間的關(guān)聯(lián)應(yīng)用
4、:購物籃分析、分類設(shè)計(jì)、捆綁銷售和虧本銷售分析、病理分析、文本挖掘、網(wǎng)絡(luò)故障分析等經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法:Apriori算法和FP-growth算法 設(shè)=i1,i2,im是m個(gè)不同項(xiàng)目的集合,每個(gè)ik(k=1,2,m)稱為一個(gè)項(xiàng)目(item)。項(xiàng)目的集合稱為項(xiàng)目集合(itemset),簡稱為項(xiàng)集。其元素個(gè)數(shù)稱為項(xiàng)集的長度,長度為k的項(xiàng)集稱為k-項(xiàng)集(k-itemset)。=bread, cream, milk, tea, cake, beer 該超市出售6種商品,項(xiàng)集包含6個(gè)項(xiàng)目,的長度為6. 對于項(xiàng)集cake, beer 包含2個(gè)項(xiàng)目,成為2-項(xiàng)集。每筆交易T(Transaction)是項(xiàng)集
5、上的一個(gè)子集,即TÍ,但通常TÌ。對應(yīng)每一個(gè)交易有一個(gè)唯一的標(biāo)識交易號,記作TID交易的全體構(gòu)成了交易數(shù)據(jù)庫D,或稱交易記錄集D,簡稱交易集D。交易集D中包含交易的個(gè)數(shù)記為|D|。表4.1所示的交易記錄集D中包含10筆交易T1T10,則|D|=10。每筆交易中,顧客購買的商品集合(即項(xiàng)集),是所有商品的項(xiàng)集的一個(gè)子集。對于項(xiàng)集X,XÌ,設(shè)定count(XÍT)為交易集D中包含X的交易的數(shù)量,則項(xiàng)集X的支持度support(X)就是項(xiàng)集X出現(xiàn)的概率,從而描述了X的重要性。項(xiàng)集X的支持度為: 項(xiàng)集的最小支持度與頻繁項(xiàng)集要發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,要求項(xiàng)集必須滿足
6、的用戶給定的最小支持閾值,稱為項(xiàng)集的最小支持度(Minimum Support),記為supmin。 從統(tǒng)計(jì)意義上講,它表示用戶關(guān)心的關(guān)聯(lián)規(guī)則必須滿足的最低重要性。只有滿足最小支持度的項(xiàng)集才能產(chǎn)生關(guān)聯(lián)規(guī)則。大于或等于supmin的項(xiàng)集稱為頻繁項(xiàng)集,反之則稱為非頻繁項(xiàng)集。通常k-項(xiàng)集如果滿足supmin,稱為k-頻繁項(xiàng)集,記作Lk。 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則(Association Rule)可以表示為一個(gè)蘊(yùn)含式: R:XÞY(讀作:X與Y關(guān)聯(lián),或者Y關(guān)聯(lián)于X) 其中:XÌ,YÌ,并且XY=Ø如果R:XÞY 是一個(gè)關(guān)聯(lián)規(guī)則,那么X,Y是一個(gè)項(xiàng)集。反之,如
7、果X,Y是一個(gè)項(xiàng)集,則XÞY可以構(gòu)成一個(gè)關(guān)聯(lián)規(guī)則。 例如bread ,milk是一個(gè)項(xiàng)集,則R1:bread Þ milk是一個(gè)關(guān)聯(lián)規(guī)則 。關(guān)聯(lián)規(guī)則不一定有意義。 關(guān)聯(lián)規(guī)則的支持度對于關(guān)聯(lián)規(guī)則R:XÞY,其中XÌ,YÌ,并且XÇY=F,規(guī)則R的的支持度(Support)是交易集中同時(shí)包含X和Y的交易數(shù)與所有交易數(shù)之比。 關(guān)聯(lián)規(guī)則的可信度對于關(guān)聯(lián)規(guī)則R:XÞY,其中XÌ,YÌ,并且XÇY=F,規(guī)則R的可信度(Confidence)是指包含X和Y的交易數(shù)與包含X的交易數(shù)之比 關(guān)聯(lián)規(guī)則的最小支持度和最
8、小可信度關(guān)聯(lián)規(guī)則的最小支持度也就是衡量頻繁集的最小支持度(Minimum Support),記為supmin,它用于衡量規(guī)則需要滿足的最低重要性。規(guī)則的最小可信度(Minimum Confidence)記為confmin,它表示關(guān)聯(lián)規(guī)則需要滿足的最低可靠性。強(qiáng)關(guān)聯(lián)規(guī)則如果規(guī)則XÞY滿足:support(XÞY)³supmin且confidence(XÞY)³confmin,稱關(guān)聯(lián)規(guī)則XÞY為強(qiáng)關(guān)聯(lián)規(guī)則,否則稱關(guān)聯(lián)規(guī)則XÞY為弱關(guān)聯(lián)規(guī)則。 在挖掘關(guān)聯(lián)規(guī)則時(shí),產(chǎn)生的關(guān)聯(lián)規(guī)則要經(jīng)過supmin和confmin的衡量,篩選出來的強(qiáng)關(guān)
9、聯(lián)規(guī)則才能用于指導(dǎo)商家的決策。Apriori性質(zhì):頻繁項(xiàng)集的所有非空子集也必須是頻繁的。(即如果某個(gè)K-項(xiàng)集A是頻繁的,則A的所有非空子集也是頻繁的) Apriori算法是反單調(diào)的,即一個(gè)集合如果不能通過測試,則該集合的所有超集也不能通過相同的測試。例如: 假設(shè)B, C, E是頻繁的,則它的所有非空子集B,C,B,E,C,E,B,C,E肯定是頻繁的。 假設(shè)A,C是非頻繁的,則A,B,C也一定是非頻繁的。 因此對于一個(gè)項(xiàng)集,如果其中有一個(gè)子集是非頻繁的,則該項(xiàng)集也一定是非頻繁的。由頻繁項(xiàng)集生成強(qiáng)關(guān)聯(lián)規(guī)則同時(shí)滿足最小支持度和最小置信度的才是強(qiáng)關(guān)聯(lián)規(guī)則,從頻繁項(xiàng)集產(chǎn)生的規(guī)則都滿足支持度要求,而其置信
10、度則可由一下公式計(jì)算:第5章 數(shù)據(jù)分類分類的定義:按照事務(wù)特征將給定的事務(wù)個(gè)體分配到指定的類別中去。把無規(guī)律的事務(wù)分為有規(guī)律的過程。分類與預(yù)測的區(qū)別分類:預(yù)測分類標(biāo)號(離散值),根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性構(gòu)建分類模型,對新數(shù)據(jù)進(jìn)行分類. 例如:信任度等級劃分問題預(yù)測:預(yù)測函數(shù)值(連續(xù)值),根據(jù)訓(xùn)練數(shù)據(jù)集,建立連續(xù)函數(shù)值模型,然后利用該模型計(jì)算新數(shù)據(jù)的函數(shù)值分類與聚類的區(qū)別1)分類:有指導(dǎo)的學(xué)習(xí)2)聚類:無指導(dǎo)的學(xué)習(xí)描述屬性可以是連續(xù)型屬性,也可以是離散型屬性;而類別屬性必須是離散型屬性。 1、試敘述數(shù)據(jù)挖掘的步驟。(給出步驟標(biāo)題,并予以簡要說明)數(shù)據(jù)挖掘的步驟為:1) 數(shù)據(jù)歸集;2) 數(shù)據(jù)預(yù)處
11、理;3) 數(shù)據(jù)挖掘;4) 評估與表示。2、ODS是什么意思?它的作用是什么?1)ODS全稱為Operational Data Store,即操作型數(shù)據(jù)存儲。2)作用:操作數(shù)據(jù)存儲在通常的數(shù)據(jù)倉庫架構(gòu)中都是一個(gè)可選的部件,它和數(shù)據(jù)倉庫起到互相補(bǔ)充的作用。3、什么是特征化?在面向?qū)傩缘臍w納的特征化過程中,有兩個(gè)參數(shù)分別是屬性概化臨界值和概化(廣義)關(guān)系臨界值,試敘述這兩個(gè)參數(shù)的意義。1)特征化:即對一個(gè)關(guān)系模式的給定數(shù)據(jù)集進(jìn)行簡潔匯總的過程。(4分)2)屬性概化臨界值控制:對所有屬性設(shè)置一個(gè)概化臨界值或者是對每個(gè)屬性都分別設(shè)置一個(gè)臨界值(一般為2到8)(2分)3)概化關(guān)系臨界值控制:為概化關(guān)系設(shè)置
12、一個(gè)臨界值,確定概化后的關(guān)系中,不同元組個(gè)數(shù)的最大值。(通常為10到30,應(yīng)該允許在實(shí)際應(yīng)用中進(jìn)行調(diào)整)(2分)4、敘述使用遺傳算法的基本步驟(給出步驟標(biāo)題,并予以簡要說明)。1)編碼:把所需要選擇的特征進(jìn)行編號,每一個(gè)特征就是一個(gè)基因,一個(gè)解就是一串基因的組合;2)初始群體的生成:隨機(jī)產(chǎn)生N個(gè)初始串結(jié)構(gòu)數(shù)據(jù);3)交換:交換操作是遺傳算法中最主要的遺傳操作;4)適度值評價(jià)檢測:計(jì)算交換產(chǎn)生的新個(gè)體的適應(yīng)度;5)選擇:從交換后的群體中尋找優(yōu)良的個(gè)體;6)變異;7)中止。1、 敘述ETL的基本概念,以及主要方法。ETL是數(shù)據(jù)挖掘的預(yù)處理過程,該過程將分布的異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件
13、等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。(4分)主要方法有:1)異種數(shù)據(jù)源中的數(shù)據(jù)提取方法 2)數(shù)據(jù)的清洗與轉(zhuǎn)換方法,如:空值處理,格式格式,數(shù)據(jù)壓縮等方法 3)數(shù)據(jù)裝載后的索引方法(4分)3、多維數(shù)據(jù)模型是由維表和事實(shí)表構(gòu)成,請敘述維表與事實(shí)表之間的聯(lián)系。 多維數(shù)據(jù)集由維表和事實(shí)表構(gòu)成,其中事實(shí)表是數(shù)據(jù)集合的主體,它由相關(guān)屬性的主鍵與數(shù)據(jù)度量兩個(gè)部分組成,其中相關(guān)屬性的主鍵是維表的外鍵(2分),事實(shí)表中這些相關(guān)屬性的外鍵復(fù)合成為事實(shí)表的主鍵(2分);而事實(shí)表中的相關(guān)屬性的外鍵是對應(yīng)維表的主鍵。(其它綜合4分)4、給出在SQL server 2005中進(jìn)行聚類分析的基本步驟。1)創(chuàng)建數(shù)據(jù)分析項(xiàng)目2)創(chuàng)建數(shù)據(jù)源3)創(chuàng)建數(shù)據(jù)源視圖4)創(chuàng)建聚類分析挖掘結(jié)構(gòu)5)部署項(xiàng)目并處理挖掘模型6)模型解釋四、計(jì)算與應(yīng)用(20分)請利用Apriori算法求項(xiàng)目集I= I1,I2,I3,I4,I5中,根據(jù)下列事務(wù)表:TID 項(xiàng)ID的列表T100T200T300T400T500T600T700T800T900I1,I2,I4I1,I3I2,I4I1,I4,I5I1,I3I2,I3I1,I4I1,I2,I4,I5I1,I2,I3完成:(1) 假定最小支持度設(shè)定為2,請找出所有的頻繁項(xiàng)集;(2)假定最小置信度設(shè)定為65,請求出最
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年六年級下學(xué)期數(shù)學(xué)三 《反比例》教案
- 2025年婚前協(xié)議書正確模板
- 人教版八年級上冊 歷史與社會 教學(xué)設(shè)計(jì) 1.2中華早期國家與社會變革
- (高清版)DB45∕T 566-2020 汽車旅游營地星級劃分
- 2025年衡水健康科技職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫審定版
- 2025年河南工業(yè)貿(mào)易職業(yè)學(xué)院單招職業(yè)技能測試題庫1套
- 期中綜合練習(xí)-三年級數(shù)學(xué)下冊(含答案)北師大版
- 2024年多媒體電腦超聲診斷儀項(xiàng)目資金籌措計(jì)劃書代可行性研究報(bào)告
- 2025年黑龍江省伊春市單招職業(yè)傾向性測試題庫1套
- 語文-四川省金太陽2025屆高三2月開學(xué)考試試題和答案
- 2023高二開學(xué)第一課《蛻變》-主題班會
- 口服降糖藥物分類詳解課件
- 二級生物安全實(shí)驗(yàn)室設(shè)計(jì)建造與運(yùn)行管理指南
- 圍手術(shù)期疼痛護(hù)理課件
- 外國新聞傳播史-張昆課件
- 圓圈正義:作為自由前提的信念
- 一次性纖維環(huán)縫合器
- 中華民族的形成與發(fā)展
- 兒科抗生素使用
- 綠化工程承包合同 綠化工程承包合同范本(二篇)
- 建筑財(cái)務(wù)出納年終總結(jié)PPT模板下載
評論
0/150
提交評論