天體光譜數(shù)據(jù)挖掘技術(shù)_第1頁
天體光譜數(shù)據(jù)挖掘技術(shù)_第2頁
天體光譜數(shù)據(jù)挖掘技術(shù)_第3頁
天體光譜數(shù)據(jù)挖掘技術(shù)_第4頁
天體光譜數(shù)據(jù)挖掘技術(shù)_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

一、概述1)數(shù)據(jù)挖掘2)天體光譜數(shù)據(jù)挖掘

3)課題的研究意義二、主要研究工作1)基于約束FP樹的天體光譜數(shù)據(jù)相關(guān)性分析2)基于概念格的天體光譜離群數(shù)據(jù)挖掘

第一頁,共51頁。數(shù)據(jù)挖掘

定義:數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含的、未知的、潛在的有用信息和知識(shí),為決策支持服務(wù)。

主要任務(wù):關(guān)聯(lián)規(guī)則、分類、聚類、離群數(shù)據(jù)等。常用的方法有:關(guān)聯(lián)規(guī)則、決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗糙集、模糊集、概念格、統(tǒng)計(jì)分析等。第二頁,共51頁。天體光譜數(shù)據(jù)挖掘

我國正在建造一臺(tái)大天區(qū)面積多目標(biāo)光纖光譜望遠(yuǎn)鏡(LAMOST),是國家重大科學(xué)工程項(xiàng)目,也是世界上光譜獲取率最高的望遠(yuǎn)鏡。預(yù)計(jì)LAMOST所觀測到的光譜數(shù)據(jù)容量將有可能達(dá)到4TB。

急需一種新的以計(jì)算機(jī)為主的數(shù)據(jù)分析技術(shù),分析和識(shí)別如此龐大的海量光譜數(shù)據(jù)。天體光譜數(shù)據(jù)處理主要內(nèi)容:預(yù)處理(去噪、歸一化等)、分類與識(shí)別、測量(紅移等參數(shù))等。

第三頁,共51頁。一條Seyfert2光譜數(shù)據(jù)圖(紅移為0)

天體光譜是天體電磁輻射按照波長的有序排列,蘊(yùn)含著天體的重要物理信息,例如:天體的化學(xué)成份、天體的表面溫度、直徑、質(zhì)量、光度以及天體的視向運(yùn)動(dòng)和自轉(zhuǎn)。天文學(xué)家和天體物理學(xué)家通過分析天體光譜的信息,不僅可以研究宇宙中物質(zhì)的分布特征,還可以研究天體的形成和隨時(shí)間的演化等重大科學(xué)問題。第四頁,共51頁。主要的方法交叉相關(guān)分析與主成分分析(PCA)、人工神經(jīng)網(wǎng)絡(luò)、小波變換、貝葉斯統(tǒng)計(jì)、SVM等。

典型的成果1)Autoclass,基于貝葉斯統(tǒng)計(jì)的一種光譜分類方法,發(fā)現(xiàn)了一些以前未注意的光譜類型和譜線;2)Gulati等人采用兩層BP神經(jīng)網(wǎng)絡(luò)方法,用于恒星光譜次型的分類;3)Ellis等人采用交叉相關(guān)分析對光譜進(jìn)行分類;4)邱波等人采用基于粗糙集的方法,進(jìn)行了恒星光譜的分類識(shí)別;5)覃冬梅等人采用基于主分量分析法的二維恒星特征空間的快速光譜識(shí)別方法;6)劉中田等人提出基于小波特征的M型星自動(dòng)識(shí)別方法等。

第五頁,共51頁。課題的研究意義

由于天文界對宇宙的認(rèn)識(shí)還比較有限,LAMOST巡天計(jì)劃的一個(gè)重要任務(wù)是要發(fā)現(xiàn)一些新的、特殊類型的天體,因此,如何利用數(shù)據(jù)挖掘技術(shù)從海量天體光譜數(shù)據(jù)中發(fā)現(xiàn)未知的、特殊的天體及天體規(guī)律是數(shù)據(jù)挖掘值得研究和探索的新應(yīng)用領(lǐng)域。

面向特定任務(wù)的數(shù)據(jù)挖掘是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域發(fā)展的趨勢之一。以LAMOST項(xiàng)目為背景,對天體光譜數(shù)據(jù)挖掘技術(shù)進(jìn)行了研究,其研究成果不僅具有重要的理論價(jià)值,而且可直接應(yīng)用到LAMOST中,為國家重大科學(xué)工程提供技術(shù)支撐。

退回第六頁,共51頁。引言關(guān)聯(lián)規(guī)則描述了屬性之間的關(guān)聯(lián)程度,也就是說有效地描述了數(shù)據(jù)集屬性之間的相關(guān)性關(guān)系。利用關(guān)聯(lián)規(guī)則來描述天體光譜數(shù)據(jù)特征與其物理化學(xué)性質(zhì)之間存在的、未知的相關(guān)性是可行性的,具有重要的應(yīng)用價(jià)值。頻繁模式集的生成是提高關(guān)聯(lián)規(guī)則挖掘效率的關(guān)鍵。第七頁,共51頁。頻繁模式生成主要有:Apriori和FP兩類算法。Apriori算法優(yōu)點(diǎn):思路比較清晰,以遞歸統(tǒng)計(jì)為基礎(chǔ),剪枝生成頻繁集;缺點(diǎn):在生成頻繁模式過程中,需要產(chǎn)生大量的候選項(xiàng)和多次遍歷數(shù)據(jù)庫,I/O代價(jià)太高,難以適應(yīng)海量高維數(shù)據(jù)。FP算法優(yōu)點(diǎn):(l)通過對FP樹的遞歸訪問,產(chǎn)生頻繁模式集,僅需要構(gòu)造FP樹和條件FP樹,不需要產(chǎn)生候選項(xiàng)集;(2)對事務(wù)數(shù)據(jù)庫僅需兩次遍歷,第l次遍歷產(chǎn)生頻繁l-項(xiàng)集,第2次遍歷用于構(gòu)造FP樹,從而降低了訪問數(shù)據(jù)庫的次數(shù)。缺點(diǎn):FP樹需要占用大量內(nèi)存。第八頁,共51頁。約束FP樹及其構(gòu)造

一階謂詞邏輯與背景知識(shí)數(shù)據(jù)挖掘是從宏觀角度利用積累的巨量數(shù)據(jù)進(jìn)行知識(shí)抽象的高級階段,是一項(xiàng)高級的智能活動(dòng),因此數(shù)據(jù)挖掘過程離不開背景知識(shí)的支持。關(guān)聯(lián)規(guī)則挖掘過程也離不開背景知識(shí)的支持。面向關(guān)聯(lián)規(guī)則挖掘的背景知識(shí)實(shí)際上是描述數(shù)據(jù)集中的對象與屬性之間、屬性與屬性之間的約束關(guān)系,因此采用一階謂詞邏輯描述關(guān)聯(lián)規(guī)則挖掘中的背景知識(shí)是可行的。

第九頁,共51頁。

定義3-1設(shè)r是交易數(shù)據(jù)庫中的關(guān)系表名個(gè)體變量,f是表示關(guān)系表到屬性的映射的函詞,k是支持度(0≤k≤1),則背景知識(shí)G可由如下謂詞公式,通過邏輯運(yùn)算符組成合適公式。(1)Interesting(f(r))(2)support(f(r),k)?Interesting(f(r))(3)Interested(f(r))?Interesting(f(r))(4)P(f(r))ùQ(f(r))?Interesting(f(r))定義3-3設(shè)D為交易數(shù)據(jù)庫,min為最小支持度,G為背景知識(shí),如果L是一頻繁模式,且G(L)=True,則稱L為約束頻繁模式。第十頁,共51頁。

CFP-tree及構(gòu)造

定義3-4設(shè)G為背景知識(shí),對于任意頻繁模式樹FP-tree,如果從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑中,所描述的任一頻繁模式P,使得G(P)=True,則稱FP-Tree為約束頻繁模式樹CFP-tree。構(gòu)造思想與方法:只有數(shù)據(jù)庫中的事務(wù)T滿足G所構(gòu)造出的FP-Tree,才能包含用戶感興趣的約束頻繁模式,可采用兩次掃描數(shù)據(jù)庫來完成CFP-tree的構(gòu)造。第十一頁,共51頁。定理2-1設(shè)D為一個(gè)交易數(shù)據(jù)庫、min為最小支持度、G為背景知識(shí),所構(gòu)造出的約束FP樹為CFP-tree,則從CFP-tree提取出的任意頻繁模式P,一定是滿足G(P)=true(即約束頻繁模式)。定理2-2設(shè)D為一個(gè)交易數(shù)據(jù)庫、min為最小支持度、G為背景知識(shí),所構(gòu)造出的約束FP樹為CFP-tree,P為任意頻繁模式,若G(P)=true(即約束頻繁模式),則P一定是CFP-tree中的頻繁模式。第十二頁,共51頁。

定理2-3CFP-tree是FP-tree的子集。

定理2-4設(shè)D為一個(gè)交易數(shù)據(jù)庫、G1,G2為背景知識(shí),且G1G2、T1,T2分別是基于G1,G2構(gòu)造的CFP-tree,則T1T2。(約束的單調(diào)性)

推論3-1設(shè)D為一個(gè)交易數(shù)據(jù)庫、G1,G2為背景知識(shí),T1,T2分別是基于G1,G2構(gòu)造的CFP-tree,當(dāng)G1=G2時(shí)T1=T2。(約束的唯一性)

第十三頁,共51頁。推論3-2設(shè)D為一個(gè)交易數(shù)據(jù)庫、G1為背景知識(shí),TCFP是基于G1構(gòu)造的CFP-tree,TFP是數(shù)據(jù)庫D的FP-tree,當(dāng)G1=ф時(shí)TCFP=TFP。

定理3-5設(shè)D為一個(gè)交易數(shù)據(jù)庫、min為一個(gè)最小支持度、G為背景知識(shí),構(gòu)造出的約束FP樹為CFP-tree,由G將交易數(shù)據(jù)庫分為兩部分,即:D=D1∪D2,其中:T∈D1,那么G(T)=True,T∈D2,G(T)=False,如果對于D1,采用傳統(tǒng)FP-tree構(gòu)造方法的FP樹為FP-Tree1,則CFP-tree與FP-Tree1是同一棵樹。第十四頁,共51頁。約束FP樹的構(gòu)造算法算法描述及分析(見P23-24)實(shí)驗(yàn)分析硬件:PentiumIV-2.0GCPU,512M內(nèi)存;

軟件:WindowsXP操作系統(tǒng),DBMS為ORACLE9i,VC++為編程語言;數(shù)據(jù)預(yù)處理:(8400條SDSS恒星光譜數(shù)據(jù))1)選定間隔為20?的200個(gè)波長,離散化為十三種值;2)溫度等間隔離散化為三種值,七類恒星溫度離散化為二十一種值;3)光度、化學(xué)分度、微湍流等間隔離散化為三種值。

第十五頁,共51頁。表3-2約束FP樹構(gòu)造效率比較1

(|DB|=6000,單位:秒)最小支持度(min)

約束條件5%3%2%1%無約束(FP算法)384503640819光度_1∨化學(xué)豐度_2191253298385光度_1162217241320光度_1∧化學(xué)豐度_2130168197259第十六頁,共51頁。表3-3約束FP樹構(gòu)造效率比較2

(min=3%,單位:秒)

數(shù)據(jù)集|DB|約束條件2000400060008400無約束(FP算法)104302503797光度_1∨化學(xué)豐度_252154253360光度_142120217299光度_1∧化學(xué)豐度_236103168244第十七頁,共51頁。表3-4約束頻繁模式

(|DB|=8400,min=1%,單位:個(gè))

約束條件無約束光度_1∨化學(xué)豐度_2光度_1光度_1∧化學(xué)豐度_2頻繁模式個(gè)數(shù)5732710408221第十八頁,共51頁?;贑FP樹的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng)

天體光譜數(shù)據(jù)預(yù)處理

歸一化離散化(表3-5恒星光譜數(shù)據(jù)離散化參數(shù))天體光譜知識(shí)表示

給定一個(gè)天體光譜數(shù)據(jù)庫DB={I1,I2,,Im}為DB中m條光譜數(shù)據(jù)的集合,DB中每一條光譜Ii就是I中的一組項(xiàng)目子集,即IiI,其中:I={A1,A2,…,An,S1,S2,…,Sm},Ai為第i波長處的離散化特征屬性,Sj第j個(gè)物理化學(xué)性質(zhì)的離散化屬性。

第十九頁,共51頁。

定義3-5設(shè)r是天體光譜數(shù)據(jù)庫中的關(guān)系表名個(gè)體變量,f是表示關(guān)系表到屬性的映射的函詞,min是最小支持度(0≤min≤1),則天體光譜知識(shí)G可由如下謂詞公式,通過邏輯運(yùn)算符組成合適公式。(1)Interesting(f(r))(2)support(f(r),min)?Interesting(f(r))(3)Interested(f(r))?Interesting(f(r))

對于任意天體光譜知識(shí)G,G是由定義3-5中的三類謂詞公式,通過邏輯運(yùn)算符組成的合適公式,由文獻(xiàn)[56]可知,G可化簡為合取范式,并用子句集S來表示。

第二十頁,共51頁。

定理3-6設(shè)S是表示天體光譜知識(shí)G的子句集,任一子句s∈S是由謂詞Interesting(f(r))、support(f(r),min)、Interested(f(r))所表達(dá)的若干有限文字析取式,且下列公式成立。Interesting(f1(r1))support(f2(r1),min)Interested(f3(r1))

Interesting(f1(r1)f2(r1)f3(r1))定理3-7設(shè)S是表示天體光譜知識(shí)G的子句集,任一子句s∈S是感興趣的天體光譜模式。推論3-1設(shè)G為天體光譜知識(shí),則G描述了一組感性趣的天體光譜模式,即天體光譜模式集。

第二十一頁,共51頁。天體光譜數(shù)據(jù)的頻繁模式提取與關(guān)聯(lián)規(guī)則挖掘

CFP樹的遍歷:創(chuàng)建一個(gè)項(xiàng)頭表,使得每個(gè)項(xiàng)通過一個(gè)節(jié)點(diǎn)鏈指向它在樹中的位置。提取過程從1頻繁模式開始,構(gòu)造它的條件模式基;然后構(gòu)造它的條件CFP樹,并遞歸地在該樹上進(jìn)行提取。關(guān)聯(lián)規(guī)則生成:對于任一頻繁模式PL,其中:P=P1P2,P1是天體光譜數(shù)據(jù)特征的非空子模式,P2是物理化學(xué)性質(zhì)的非空子模式,如果(P1P2/DB)/(P1/DB)≥min,則生成一條關(guān)聯(lián)規(guī)則“P1P2”。

第二十二頁,共51頁。體系結(jié)構(gòu)與功能

主程序數(shù)據(jù)預(yù)處理背景知識(shí)獲取CFP樹構(gòu)造頻繁模式提取關(guān)聯(lián)規(guī)則挖掘第二十三頁,共51頁。預(yù)處理參數(shù)輸入挖掘結(jié)果輸出用戶接口規(guī)則提取FP樹的構(gòu)造頻繁模式挖掘歸一化恒星光譜庫恒星光譜數(shù)據(jù)離散化第二十四頁,共51頁。運(yùn)行結(jié)果及分析

第二十五頁,共51頁。第二十六頁,共51頁。退回第二十七頁,共51頁。引言

離群數(shù)據(jù)識(shí)別的主要方法:距離的方法、統(tǒng)計(jì)的方法、局部密度的方法和基于偏離模型的方法等。

大多數(shù)的方法是從全局的觀點(diǎn)看待離群數(shù)據(jù),很難發(fā)現(xiàn)低維子空間中的偏移數(shù)據(jù),而且很難應(yīng)用于高維數(shù)據(jù)。

第二十八頁,共51頁。

CC.Agarwal等人在2005年提出了一種基于子空間的高維離群數(shù)據(jù)識(shí)別算法,該算法采用遺傳算法搜索離群數(shù)據(jù)。

CC.Agarwal,PS.Yu.Aneffectiveandefficientalgorithmforhigh-dimensionaloutlierdetection,TheInternationalJournalonVeryLargeDataBases,2005,14(2):211–221

存在問題:①僅利用稀疏度系數(shù),在子空間中來考察數(shù)據(jù)的行為,無法避免由于正常數(shù)據(jù)的稀疏,導(dǎo)致在子空間中也是稀疏的不足,因此識(shí)別結(jié)果不是準(zhǔn)確的;②不能確保能發(fā)現(xiàn)稀疏度系數(shù)最小的子空間,進(jìn)而發(fā)現(xiàn)的離群數(shù)據(jù)也不夠準(zhǔn)確,該文獻(xiàn)中的實(shí)驗(yàn)也驗(yàn)證了這一點(diǎn);③不能確保發(fā)現(xiàn)所有滿足條件的離群數(shù)據(jù),識(shí)別結(jié)果的完備性得不到保證。第二十九頁,共51頁。

概念格,由WilleR提出,是一種支持?jǐn)?shù)據(jù)分析和知識(shí)發(fā)現(xiàn)的一種有效工具。每個(gè)節(jié)點(diǎn)是一個(gè)形式概念,由外延和內(nèi)涵兩部分組成。通過Hasse圖生動(dòng)和簡潔地體現(xiàn)了這些概念之間的泛化和特化關(guān)系。具有知識(shí)表示的完備性、直觀性和簡潔性等特點(diǎn)。將概念格中每個(gè)概念內(nèi)涵看作子空間,內(nèi)涵看作子空間所包含的對象,從而用概念格結(jié)點(diǎn),描述子空間中的離群數(shù)據(jù),是可行的。第三十頁,共51頁?;诟拍罡竦牡途S子空間離群數(shù)據(jù)

在稀疏子空間中,稀疏度系數(shù)僅反映了子空間中包含的數(shù)據(jù)對象個(gè)數(shù)遠(yuǎn)小于期望值,但數(shù)據(jù)對象個(gè)數(shù)遠(yuǎn)小于期望值,可能是數(shù)據(jù)對象在更低維子空間上的過度稀疏造成的,稀疏度系數(shù)并不能正確反映稀疏子空間上的數(shù)據(jù)偏離程度。因此僅采用S(D)來判斷稀疏子空間的方法,不能保證結(jié)果的準(zhǔn)確性。數(shù)學(xué)期望表示了子空間中對象的平均個(gè)數(shù),引入一個(gè)用戶設(shè)置的系數(shù),采用它們的乘積來度量子空間的稠密程度。

第三十一頁,共51頁。

定義4-1對于一個(gè)任意的數(shù)據(jù)集,其屬性集為M,對象集為G,且每維均離散化為個(gè)區(qū)間,DENSE為用戶設(shè)置的稠密度系數(shù),由約簡屬性集P(PM)構(gòu)成的約簡子空間D,且其包含的對象集為A(AG),若|A|DENSE*|G|*(1/)|D|,則稱D為稠密子空間。定義4-2對于一個(gè)任意的數(shù)據(jù)集,其屬性集為M,對象集為G,由約簡屬性集P(PM)構(gòu)成的稀疏子空間D,且其包含的對象集為A(AG),若由約簡屬性集P1(P1P)構(gòu)成的約簡子空間D1,均為稠密子空間,則稱D為離群子空間,A中的數(shù)據(jù)對象為離群數(shù)據(jù)。第三十二頁,共51頁。

定義4-3設(shè)K=(G,M,I)為任意形式背景,h=(A,B)L(G,M,I),如果屬性集合B1滿足下述兩個(gè)條件,則它被稱為h的一個(gè)內(nèi)涵縮減。B1=B=AB2

B1=A(foranyB2B1)定義4-4設(shè)K=(G,M,I)為任意形式背景,h=(A,B)L(G,M,I),h的內(nèi)涵縮減集為RED={Bi|Bi為h的內(nèi)涵縮減},若BiRED,滿足由屬性集Bi構(gòu)成的子空間S為稀疏子空間,則稱h為稀疏概念,若由約簡屬性集P(PBi)構(gòu)成的約簡子空間S1為稠密子空間,則稱概念h為離群概念,A中包含的數(shù)據(jù)對象為離群數(shù)據(jù)。第三十三頁,共51頁。

定理4-1對于一個(gè)任意的數(shù)據(jù)集,其屬性集為M,對象集為G,K=(G,M,I)為其對應(yīng)的形式背景,由約簡屬性集P(PM)構(gòu)成的約簡子空間D,及包含在D中的對象集O(即O=P),則h=(A,B)L(G,M,I),及h的內(nèi)涵縮減集RED={Bi|Bi為h的內(nèi)涵縮減},使得PRED,O=A成立。

定理4-2對于一個(gè)任意的數(shù)據(jù)集,其屬性集為M,對象集為G,K=(G,M,I)為其對應(yīng)的形式背景,由約簡屬性集P(PM)構(gòu)成的離群子空間D,及其包含的離群數(shù)據(jù)集O(OG),則在概念格L(G,M,I)中,必一個(gè)離群概念h=(A,B)L(G,M,I),及h的內(nèi)涵縮減集RED={Bi|Bi為h的內(nèi)涵縮減},使得PRED,A=O成立。

第三十四頁,共51頁。定理4-3設(shè)K=(G,M,I)為任意形式背景,h=(A,B)L(G,M,I),P為h的一個(gè)內(nèi)涵縮減,則約簡屬性集P1(P1P),必h1=(A1,B1)L(G,M,I),使得P1為h1的內(nèi)涵縮減,且B1B。

定理4-4設(shè)K=(G,M,I)為任意形式背景,h=(A,B)L(G,M,I),若P1為h的一個(gè)內(nèi)涵縮減,且若由P1構(gòu)成的子空間D1為稀疏子空間,則當(dāng)稠密度系數(shù)DENSE=0時(shí),A中包含的數(shù)據(jù)對象是離群數(shù)據(jù)。

第三十五頁,共51頁。基于概念格的低維子空間離群數(shù)據(jù)挖掘算法

算法描述CLOM

算法分析

實(shí)驗(yàn)分析

硬件:PentiumIV-2.0GCPU,512M內(nèi)存,軟件:WindowsXP操作系統(tǒng),DBMS為ORACLE9i,VC++為編程語言形式背景:(SDSS恒星光譜數(shù)據(jù))1)選定間隔為20的200個(gè)波長,作為屬性集;2)依據(jù)每一波長處的流量、峰寬和形狀,將其離散化為十三種數(shù)值之一,并作為該波長處取值。

第三十六頁,共51頁。表2-2不同對象的建格與挖掘時(shí)間比較

(TS=-1,DENSE=1.2)

記錄條數(shù)建格時(shí)間離群挖掘時(shí)間離群數(shù)據(jù)數(shù)5000657s174s95500822s213s76000861s234s670001184s435s1983151887s595s19第三十七頁,共51頁。表2-3不同TS值的挖掘時(shí)間和離群數(shù)據(jù)數(shù)

(DENSE=1.2,記錄數(shù)8315)

TS值離群挖掘時(shí)間離群數(shù)據(jù)數(shù)-0.3872s60-0.8750s31-1.2591s19-1.7356s6第三十八頁,共51頁。表2-4不同DENSE值的挖掘時(shí)間和離群數(shù)據(jù)

(TS=-1.7,記錄數(shù)8315)

DENSE值離群挖掘時(shí)間離群數(shù)據(jù)數(shù)0.6394s440.8376s231366s121.2356s61.4354s4第三十九頁,共51頁?;诟拍罡竦奶祗w光譜離群數(shù)據(jù)挖掘系統(tǒng)

天體光譜數(shù)據(jù)與形式背景在流量離散化處理中,不僅要描述天體光譜波長處的流量強(qiáng)度和峰寬,同時(shí)還應(yīng)描述波的形狀,即:吸收線還是發(fā)射線,故對于光譜不僅需考慮波長處的強(qiáng)度和峰寬兩個(gè)因素,而且還需要考慮波的形狀??梢岳萌齻€(gè)特征變量I、J、W來描述光譜在某一波長處的特征,I表示光譜波的強(qiáng)度,J表示光譜波峰的寬度,W表示光譜波的形狀。從而將天體光譜數(shù)據(jù)中各個(gè)波長處的數(shù)據(jù),轉(zhuǎn)變?yōu)橐蕴卣髯兞縄、J和W表示的特征數(shù)據(jù)。如果某一條光譜圖中包含著的波長為A=[Ai],i=1,2,3,…n,其中Ai表示i個(gè)波長處的光譜特征,n表示共有n個(gè)波長,那么Ai可表示為Ai={Ii,Ji,Wi}。

第四十頁,共51頁。表4-3光譜數(shù)據(jù)離散化

光譜數(shù)據(jù)按照上述方法及表4-3離散化后,形成了天體光譜數(shù)據(jù)的形式背景,從而適應(yīng)于天體光譜數(shù)據(jù)概念格的構(gòu)造。

離散化值強(qiáng)度寬度類型離散化值強(qiáng)度寬度類型1弱窄吸收線7一般寬發(fā)射線2弱窄發(fā)射線8強(qiáng)寬發(fā)射線3一般窄發(fā)射線9一般窄吸收線4強(qiáng)窄發(fā)射線A一般寬吸收線5弱寬吸收線B強(qiáng)窄吸收線6弱寬發(fā)射線C強(qiáng)寬吸收線0無無無第四十一頁,共51頁。功能與體系結(jié)構(gòu)

光譜數(shù)據(jù)離群挖掘系統(tǒng)數(shù)據(jù)預(yù)處理構(gòu)造概念格離群數(shù)據(jù)挖掘數(shù)據(jù)導(dǎo)入光譜數(shù)據(jù)離散化一般概念格構(gòu)造查看概念格文件第四十二頁,共51頁。離

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論