概念描述:特征化和比較.ppt_第1頁(yè)
概念描述:特征化和比較.ppt_第2頁(yè)
概念描述:特征化和比較.ppt_第3頁(yè)
概念描述:特征化和比較.ppt_第4頁(yè)
概念描述:特征化和比較.ppt_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章 概念描述:特征化和比較,數(shù)據(jù)挖掘可以分成兩類 描述性數(shù)據(jù)挖掘:以簡(jiǎn)潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì)。 預(yù)測(cè)性數(shù)據(jù)挖掘:分析數(shù)據(jù),建立一個(gè)或一組模型,并試圖預(yù)測(cè)新數(shù)據(jù)集的行為。,概念描述,對(duì)于大量的細(xì)節(jié)數(shù)據(jù),希望以簡(jiǎn)潔的描述形式(不同的粒度、不同的角度等)觀察匯總的數(shù)據(jù)集。需要給出這種數(shù)據(jù)一個(gè)描述以概括出固有的特性,這種描述性數(shù)據(jù)挖掘稱為概念描述。 概念描述: 特征化:對(duì)所選擇的數(shù)據(jù)給出一個(gè)簡(jiǎn)單明了的描述 比較:提供對(duì)于兩個(gè)或以上數(shù)據(jù)進(jìn)行比較的結(jié)果,數(shù)據(jù)概化和基于匯總的特征化,數(shù)據(jù)概化 數(shù)據(jù)庫(kù)中的數(shù)據(jù)和對(duì)象通常包含原始概念層的細(xì)節(jié)信息,數(shù)據(jù)概化就是將數(shù)據(jù)庫(kù)中的跟任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層抽象到較高的概念層的過程。 主要方法: 數(shù)據(jù)立方體(OLAP使用的方法) 面向?qū)傩缘臍w納方法,1,2,3,4,5,概念層,數(shù)據(jù)概化:數(shù)據(jù)立方體方法(不使用面向?qū)傩缘臍w納),執(zhí)行計(jì)算并將結(jié)果存儲(chǔ)在數(shù)據(jù)立方體中 優(yōu)點(diǎn): 數(shù)據(jù)概化的一種有效實(shí)現(xiàn) 可以計(jì)算各種不同的度量值 比如:count(), sum(), average(), max() 概化和特征分析通過一系列的數(shù)據(jù)立方體操作完成,比如上卷、下鉆等 缺點(diǎn) 只能處理非數(shù)據(jù)類型的維和簡(jiǎn)單聚集數(shù)值類型的度量值 缺乏智能分析,不能自動(dòng)確定分析中該使用哪些維,應(yīng)該概化到哪個(gè)層次,概念描述 VS. OLAP,概念描述和數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析處理(OLAP)都跟數(shù)據(jù)概化密切相關(guān),即以簡(jiǎn)潔的形式在更一般的抽象層描述數(shù)據(jù),允許數(shù)據(jù)在抽象層概化,便于考察數(shù)據(jù)的一般行為。 兩者的主要區(qū)別: 概念描述 可以處理復(fù)雜數(shù)據(jù)類型的屬性及其聚集 一個(gè)更加自動(dòng)化的過程 OLAP 實(shí)際使用的OLAP系統(tǒng)中,維和度量的數(shù)據(jù)類型都非常有限(非數(shù)值型的維和數(shù)值型的數(shù)據(jù)),表現(xiàn)為一種簡(jiǎn)單的數(shù)據(jù)分析模型 一個(gè)由用戶控制的過程,面向?qū)傩缘臍w納,Attribute-oriented induction, AOI (KDD 89 Workshop) 受數(shù)據(jù)類型和度量類型的約束比較少 面向?qū)傩詺w納的基本思想: 使用關(guān)系數(shù)據(jù)庫(kù)查詢收集任務(wù)相關(guān)的數(shù)據(jù) 通過考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù)進(jìn)行概化,方法是屬性刪除或者是屬性概化 通過合并相等的,概化的廣義元組,并累計(jì)他們對(duì)應(yīng)的計(jì)數(shù)值進(jìn)行聚集操作 通過與用戶交互,將廣義關(guān)系以圖表或規(guī)則等形式,提交給用戶,面向?qū)傩缘臍w納,步驟: 數(shù)據(jù)聚焦:選擇和當(dāng)前分析相關(guān)的數(shù)據(jù),包括維。 屬性移除: 如果某個(gè)屬性包含大量不同值,但是 1)在該屬性上沒有概化操作,或者 2)它的較高層概念用其它屬性表示。 屬性概化:如果某個(gè)屬性包含大量不同值,同時(shí)在該屬性上有概化操作符(比如求和等),則運(yùn)用該操作符進(jìn)行概化。 屬性概化閾值控制: 可以設(shè)一個(gè)缺省的或可以指定的閾值,在不同的屬性值個(gè)數(shù)少于該值后則停止進(jìn)一步概化。 例子:比如地區(qū)維度分為省、市、區(qū)、街道閾值為40,則大約在地區(qū)維度要概化到省一級(jí),2、例,在下面的初始工作表上做面向?qū)傩詺w納,對(duì)于每個(gè)屬性,概化討論如下: 1)姓名、電話:該屬性的值有許多,并且無概化操作,屬性刪除 2)性別:屬性可取的值2個(gè),屬性保留不概化 3)專業(yè):假定我們事先已定義了一個(gè)概念分層,可以將專業(yè)概化到藝術(shù)、 化學(xué)、機(jī)械、通信、信息、,所以可被概化 4)籍貫:此表以城市為單位,已無法概化,值不算太多,保留 5)出生日期:假定存在概念分層,首先概化到年齡,再到年齡段 6)信用:假定有優(yōu)、良、中、一般、差的分層,可以概化 7)學(xué)歷:可以按博士生、碩士生、本科生概化,概化過程將產(chǎn)生相等的元組,相等的元組歸為一類并給出計(jì)數(shù),性別,專業(yè),籍貫,年齡段,信用情況,計(jì)數(shù),男,信息,南京,19-22,良,10,女,信息,南京,19-22,優(yōu),9,男,化學(xué),鹽城,19-22,中,4,.,.,.,.,男,通信,鎮(zhèn)江,22-25,一般,1,學(xué)歷,本,研,本,本,此處,計(jì)數(shù)看成度量,其它看成維,概化結(jié)果的表示,表格,概化結(jié)果的表示,二維交叉表,地區(qū),電視,電腦,產(chǎn)品類累計(jì),江蘇,浙江,廣東,地區(qū)合計(jì),概化結(jié)果的表示,可視化方法,電視銷售 餅圖,概化結(jié)果的表示,量化特征規(guī)則 概化關(guān)系可以用邏輯規(guī)則的形式表示,典型的是概化的元組代表一個(gè)規(guī)則的析取。 若單個(gè)概化元組不能代表工作關(guān)系中的所有元組,則規(guī)則應(yīng)當(dāng)帶上量化信息,用滿足規(guī)則的左部和滿足規(guī)則右部的元組所占的百分比表示。帶有量化信息的邏輯規(guī)則稱為量化規(guī)則。 t_權(quán)興趣度度量:描述規(guī)則中每個(gè)析取或?qū)?yīng)概化關(guān)系的每個(gè)元組的典型性。,t-權(quán),定義:設(shè)待特化的(或由規(guī)則描述的)對(duì)象類為目標(biāo)類, qa是一個(gè)描述目標(biāo)類的概化元組。 qa的t_權(quán)是來自初始工作關(guān)系集合中被qa涵蓋的目標(biāo)類元組的百分比。形式上為: 其中:n是概化關(guān)系中目標(biāo)類元組的個(gè)數(shù),q1,qn是概化關(guān)系中目標(biāo)類的元組, qa在q1,qn中。顯然,t_權(quán)的取值區(qū)間為0.0,1.0或0%,100%。,例子,假設(shè)初始工作集合,地區(qū)是南京、鎮(zhèn)江、,產(chǎn)品類別是電腦的元組全部概化在第一個(gè)概化元組中,共有1000個(gè)元組。該概化元組的t_權(quán)是:,規(guī)則描述形式,例:有部分學(xué)生在圖書館借閱了大趨勢(shì)這本書,想通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)這部分學(xué)生具有什么樣的特征。其基本關(guān)系表是:,概化層次:系別 文科 商學(xué)院 - 經(jīng)濟(jì),金融,企管,會(huì)計(jì),國(guó)貿(mào) 文科 文學(xué)院 - 中文,新聞,信管,歷史,哲學(xué) 理科 醫(yī)學(xué)院 理科 理學(xué)院 - 數(shù)學(xué),天文,物理,(文,商學(xué)院),(文,商學(xué)院),(理,醫(yī)學(xué)院),(文,商學(xué)院),(文,文學(xué)院),(文,商學(xué)院),(文,文學(xué)院),依據(jù)借閱次數(shù)的多少來決定是否為噪聲數(shù)據(jù),概化關(guān)系表一(按學(xué)院),(文,文學(xué)院),概化關(guān)系表二(按學(xué)科),概化關(guān)系表一(按學(xué)院),如果定義噪聲數(shù)據(jù)的閥值是1(記錄數(shù)為1),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢(shì)一書的是經(jīng)濟(jì)系的學(xué)生,如果定義噪聲數(shù)據(jù)的閥值是1(記錄數(shù)為1),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢(shì)一書的是經(jīng)濟(jì)系的學(xué)生 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢(shì)一書的是商學(xué)院的學(xué)生 借閱大趨勢(shì)一書的是文學(xué)院的學(xué)生,如果定義噪聲數(shù)據(jù)的閥值是1(記錄數(shù)為1),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢(shì)一書的是經(jīng)濟(jì)系的學(xué)生 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢(shì)一書的是商學(xué)院的學(xué)生 借閱大趨勢(shì)一書的是文學(xué)院的學(xué)生 根據(jù)概括關(guān)系表二發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢(shì)一書的是文科的學(xué)生,如果定義噪聲數(shù)據(jù)的閥值是2(記錄數(shù)為2),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則,如果定義噪聲數(shù)據(jù)的閥值是2(記錄數(shù)為2),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢(shì)一書的是商學(xué)院的學(xué)生,如果定義噪聲數(shù)據(jù)的閥值是2(記錄數(shù)為2),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢(shì)一書的是商學(xué)院的學(xué)生 根據(jù)概括關(guān)系表二發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢(shì)一書的是文科的學(xué)生,如果定義噪聲數(shù)據(jù)的閥值是5(記錄數(shù)為5),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則,如果定義噪聲數(shù)據(jù)的閥值是5(記錄數(shù)為5),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則,如果定義噪聲數(shù)據(jù)的閥值是5(記錄數(shù)為5),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則 根據(jù)概括關(guān)系表二發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢(shì)一書的是文科的學(xué)生,應(yīng)該說,此時(shí)的規(guī)則是有意義的,該書基本上是文科學(xué)生借閱, t_權(quán)=6/7,三、挖掘類比較:區(qū)分不同的類,要解決的目標(biāo) 在實(shí)際應(yīng)用中,對(duì)單個(gè)類(概念)的描述或特征化并不一定感興趣,而希望挖掘一種描述,它將一個(gè)類(概念)與其它可比較的類(概念)相區(qū)分。類區(qū)分(比較)挖掘?qū)⒔o出目標(biāo)類與對(duì)比類相區(qū)別的描述。 類比較方法和實(shí)現(xiàn) 1)數(shù)據(jù)收集:通過查詢處理數(shù)據(jù)庫(kù)中相關(guān)數(shù)據(jù)集,將它劃分為一個(gè)目標(biāo)類和一個(gè)(多個(gè))對(duì)比類。 2)維相關(guān)分析:選擇所需要的維,去掉與概化不相關(guān)的維 3)同步概化:目標(biāo)類和所有對(duì)比類概化到同一層次 4)導(dǎo)出比較的表示:結(jié)果可以是表、圖或規(guī)則,表示中一般包括對(duì)比的度量(如count%),例:,初始目標(biāo)類關(guān)系:研究生,初始對(duì)比類關(guān)系:本科生,目標(biāo)類主概化關(guān)系(研究生),對(duì)比類主概化關(guān)系(本科生),比較表示:年齡在26到30之間、選擇科學(xué)類專業(yè)且信用良的研究生占整個(gè)研究生人數(shù)的5.02%,而同樣的情況,本科生只有2.32%,3、量化區(qū)分規(guī)則 量化區(qū)分規(guī)則對(duì)描述中每個(gè)概化元組附上一個(gè)統(tǒng)計(jì)興趣度度量d_權(quán)。,設(shè)qa是一個(gè)概化元組,而Cj是目標(biāo)類。其中qa覆蓋目標(biāo)類的某些元組。(也可能覆蓋對(duì)比類的某些元組)。qa的d_權(quán)是初始目標(biāo)類工作關(guān)系中被qa覆蓋的元組數(shù)與初始目標(biāo)類和對(duì)比類工作關(guān)系中被qa覆蓋的總元組的比。形式定義為:,其中,m是目標(biāo)類和對(duì)比類的總數(shù),Cj在C1,Cm中,而count(qa Ci)是類Ci中被qa覆蓋的元組數(shù)。d_權(quán)的取值范圍為0.0,1.0(或0%,100%)。,例:,目標(biāo)類 對(duì)比類,目標(biāo)類d_權(quán): d_權(quán)=90/(90+210)=30% 比較類d_權(quán): d_權(quán)=210/(90+210)=70%,高d_權(quán)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論