基于神經網絡的模板匹配方法求正常星系紅移)_第1頁
基于神經網絡的模板匹配方法求正常星系紅移)_第2頁
基于神經網絡的模板匹配方法求正常星系紅移)_第3頁
基于神經網絡的模板匹配方法求正常星系紅移)_第4頁
基于神經網絡的模板匹配方法求正常星系紅移)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于神經網絡的模板匹配方法求正常星系紅移*) 本課題受國家863項目計劃(2003AA133060)和國家自然科學基金(60202013)資助 許馨1¨許馨,1974年生。中科院自動化所國家模式識別實驗室博士生。TEL Email:xxu 羅阿理2 吳福朝1 趙永恒2 1中科院自動化所國家模式識別實驗室機器人視覺組 100080 北京2728信箱2中國科學院國家天文臺 100012 北京摘 要 星系通常分為正常星系(NG)與活動星系(AG)兩類,本文提出了一種自動獲取NG紅移的快速有效方法: (1) 由NG模板根據紅移范圍:0.0-0.3與:0.3-0.5

2、模擬得到兩類星系樣本,進行PCA變換獲得樣本特征向量; (2) 利用概率神經網絡設計兩類樣本特征向量的Bayes分類器; (3) 對于實際NG光譜數據,利用Bayes分類器進行分類確定其紅移的范圍,然后在這個范圍內進行模板匹配得到紅移的準確值。與在整個紅移范圍內的模板匹配方法相比,此方法不但節(jié)省了50%的模板匹配運算量,而且還大大提高了紅移值測量的精度。本文研究結果對于大型光譜巡天所產生的海量數據的自動處理具有重要意義。關 鍵 詞 正常星系 主分量分析 概率神經網絡 紅移分類 模板匹配中圖分類號TP291 引言星系是宇宙天體中非常重要并且數量眾多的一種,它對于研究宇宙的大尺度結構起著核心作用。

3、因此在許多大型的光譜巡天項目中,例如UK-Australian基于Anglo-Australian Telescope的南天Two Degrees Field(2dF) Galaxy Redshift Survey,和美國在北銀極附近一萬平方度的Sloan Digital Sky Survey (SDSS) ,都是對星系進行的巡天觀測。我國的大天區(qū)面積多目標光纖光譜天文望遠鏡(LAMOST)項目計劃建設一架臥式中星儀式反射施密特天文望遠鏡1,同時可以得到4000個天體目標的光譜,巡天完成后將提供107的星系的數據和105的類星體的數據,以更高的精度來研究宇宙的拓撲結構和宇宙的大尺度結構。對于在

4、每個觀測夜獲得的近萬條光譜數據,我們需要從中得到每條光譜的紅移、溫度及其它物理參量,其中以紅移參量為最基本的參數。天文上紅移自動測量的傳統方法是用觀測得到的光譜和已有的光譜模板進行交叉相關2。后來,Glazerbrook利用PCA方法對模板進行了修改,用正交模板的線性組合的方式代替單個模板,交叉相關求紅移。這種方法被稱為PCAZ方法3。此方法的計算量很大。國內的文獻4利用偽三角法求紅移,該方法利用最強的三根譜線的波長信息構造“三角形”,通過將最大角的“余弦”與已知模板的“余弦”表相匹配,反推得到相應的標準譜線波長,并進而得到紅移值,但是這種方法只對發(fā)射線光譜有效。文獻21利用光譜4000埃跳變

5、點進行譜線證認,通過已證認的譜線計算出紅移。對于大量低信噪比的吸收線的正常星系,還沒有有效的自動方法測量紅移。針對在將來的LAMOST星系巡天中存在大量的吸收線星系,我們提出了基于PCA和神經網絡結合的方法來解決正常星系的紅移測量問題。我們將光譜按照紅移范圍分為兩類:I. 00.3,II. 0.30.5。用自動方法可以將觀測光譜快速分成2類,然后針對每一類的紅移范圍,進行模板匹配,求其紅移值。這種方法比在大紅移范圍內模板匹配精度更高,并節(jié)省大量時間。本文第二部分介紹使用的模板和數據集;第三部分介紹PCA算法;第四部分介紹本文使用的概率神經網絡PNN;第五部分介紹模板匹配算法;第六部分是實驗結果

6、;第七部分是分析和結論。2 模板和數據本文使用的模板來自Kinney5在其文章中構造的星系的模板,長度從1200埃10000埃,覆蓋了從紫外到近紅外的波長范圍。選取其中的四個靜止模板(E0,Sa,Sb,So)做為正常星系模板。如圖1所示:EllipticalsSoSaSb圖1. 四個靜止模板 Fig 1. The four spectra of quiescent by Kinney由紅移公式: ,得到: (1)其中,z為紅移值,為靜止波長,為觀測波長。給定一定的紅移范圍,利用公式(1)對四個模板進行紅移模擬,得到各個紅移值下的模擬光譜。我們設定紅移的范圍為00.5,紅移模擬的步長為0.01,

7、光譜共計2004條。另外,我們從SDSS的數據庫中得到02660280的天區(qū)中的正常星系的觀測數據共4782個作為測試數據集。3 主分量分析方法(PCA)主分量分析方法的基礎是Karhunen-Loeve變換6,是模式識別中的非參數方法,用較少數量的特征對樣本進行描述以達到降低特征空間的維數。該方法在天文信號處理上得到成功應用。例如,Storrie-Lombardi7和Bailer-Jones8分別在PCA的基礎上使用神經網絡方法對恒星進行分類;Connolly和Szalay9按照星系的形態(tài)用PCA進行星系的分類;Folkes10等用PCA將2dF紅移巡天的光譜分成5個光譜類型,對應于哈勃分類

8、的E/So,Sa,Sb,Scd和Irr;Darren11等人將PCA用于DEEP2紅移巡天。K-L變換表述如下6:令uj | j=1,2,n是Rn中的單位正交基,隨機向量x在這組正交基下的展開式為: x= 。假設用展開式中的前d有限項來估計x,即: ,則截斷均方誤差為: 。令是隨機向量x的相關矩陣(協方差矩陣),由于是半正定的,因此它的單位特征向量的全體uj構成一個單位正交基,并且用的前d個特征向量uj(j=1,2,d)來逼近x時,其截斷均方誤差為: , 其中是矩陣的相應的特征值??梢宰C明,當取矩陣的前d個最大特征值對應的特征向量來展開x時,其截斷均方誤差和在所有其他正交坐標系情況下用d個坐標

9、展開x時所引起的均方誤差相比為最小。d個特征向量組成的正交坐標系稱作x的d維K-L變換坐標系,x在K-L坐標系上的展開系數向量稱作x的K-L變換,這種變換也稱為PCA變換。將光譜看作一個隨機向量x,由觀測光譜數據估計相關矩陣,經過PCA變換后,就可以用較少量的特征對光譜數據進行描述,從而達到降低樣本矩陣維數的目的。采用主分量分析構造特征光譜的具體步驟如下:(1) 每一條光譜記為x(xi1,xi2,.,xiN)(i1M,M條光譜),首先進行流量標準化處理,截取相等的波長范圍,并把流量歸一到相同的數量級上。經過標準化處理的光譜數據記為:xi。(2)由天體光譜數據矩陣估計相關矩陣; (3)將相關矩陣

10、對角化,得:,其中,Uu1,u2,. uN,diag是矩陣的特征值對角矩陣,其中, 。選取前k個最大的特征值對應的特征向量構造特征矩陣AN×K= (u1,u2,. uK),使得: ,式中取95。這說明樣本集在前k個軸上的能量能占到整個能量的95以上。(4)特征光譜矩陣為: 。4 神經網絡12用于分類神經網絡模型是從人腦的神經元結構發(fā)展而來的,雖然在數學上還缺少完美的證明,但在一些科學研究和工程實際應用中,已顯示出很大的威力。近十年來,神經網絡也成功的應用在天文領域的信息處理中。Hippel13用BP網絡來對恒星進行分類;Mahonen和Hakala14用自組織神經網絡實現星表圖像中的

11、點源和面源的區(qū)分;Rawson15用兩層BP網絡把AGN分為Seyfert I和II;Folkes16用神經網絡將星系按照形態(tài)進行分類;Andrew17和Tagliaferri18分別用不同的神經網絡對測光紅移進行估計。19提出的概率神經網絡(PNN)。PNN屬于前饋神經網絡,有2個隱層,主要用于分類。它用高斯核的PAZEN窗函數計算給定樣本的分類后驗概率,實現Bayes分類。其基本結構如圖4所示20:X1XnO1OC輸入單元輸出單元求和單元模式單元圖4. 概率神經網絡的結構Fig 4. A typical Probabilistic Neural Network各模式單元有相同的輸入,一般模

12、式單元的個數等于訓練樣本的個數,求和單元的個數等于類別數。每個模式單元先求輸入的向量與權向量的距離,用高斯核函數實現非線性映射, k=1,2,c選擇不同的方差可以得到不同的分類器。例如:時接近線性分類器;0時趨近近鄰分類器。求和單元根據多元正態(tài)核函數的混合估計出類條件概率密度, k=1,2,c其中,為混合百分比,1,k=1,2,c 輸出單元代表了屬于某類的最大概率,從而實現Bayes基于最小風險估計的特點:,k=1,2,c,其中,是每類的先驗概率,為錯分時的損失函數。當基于最小風險決策時,選擇的類別應使:。5 模板匹配模板匹配的基本原理是信號的相關原理。設x(n),y(n)是兩個不確切?有限的

13、確定性信號,則定義它們的互相關函數23為:上式表示,rxy(m)在m時刻的值,等于y(n)左移m個采樣周期后所得的信號與x(n)的內積。rxy(m)可用來描述信號x(n)和 y(n)之間的相似程度。利用上述原理,通過模板光譜和觀測光譜的相似性度量可以求得紅移值。設x(n)為模板光譜經連續(xù)譜歸一化后的譜線數據,y(n)為觀測光譜經連續(xù)譜歸一化的譜線數據,rxy(m)為x(n)與y(n)的相關值。則rxy(m)最大值的位置為y(n)平移m后與x(n) 最相關的位置,如圖2所示。由此,可確定觀測光譜的紅移值。n(b) 歸一化后的觀測光譜n(a) 歸一化后的模板m(c) x(n),y(n)相關后的波形

14、(截取了有用波段)圖2 模板匹配圖示fig2 Example of template matching(a) Normalized template ; (b)Normalized test spectrum ; (c) Correlation of x(n) and y(n)6 實驗結果我們在實驗中,采用的訓練樣本如第2部分所述,共有2004條模擬光譜。波長范圍為3800埃7420埃。紅移值從00.3為第一類,紅移值從0.30.5為第二類。對訓練樣本進行PCA變換,選取PCA的前3個主分量來描述樣本特征,從而得到觀測樣本在主分量空間的投影。我們利用2004個訓練數據根據第3節(jié)的步驟得到的前3

15、個最大主分量,如圖3所示,它們的方差貢獻率達到了95.86。 圖3. 正常星系的最大的3個主分量(從上向下) Fig 3. The biggest three main components of normal galaxy測試樣本是SDSS在02660280天區(qū)中的4782個正常星系的觀測光譜,將它們投影到3維PCA空間,得到的投影如圖4所示。圖4. 觀測樣本在主分量空間的投影Fig 4. The projection of some normal galaxy samples on the main components space以特征光譜做為PNN的輸入,輸出為類別。在這里,我們使用的

16、是matlab6.1中神經網絡工具箱來建立的PNN網絡22??烧{參數為方差??紤]到神經網絡的泛化性能,我們取0.4時,訓練樣本數據集的正確識別率為88.97。用SDSS實際觀測的這些正常星系數據做測試,測試結果如表1所示。 表1. 15個天區(qū)的正常星系的紅移分類識別率Table 1. The redshift classification statistics of normal galaxy in fifteen sky squares 天區(qū)識別率天區(qū)識別率天區(qū)識別率026698.47027198.73027699.26026799.00027299.66027796.40026899.44

17、027397.61027898.65026999.02027498.71027998.75027099.12027598.78028098.56圖5 在I和II段分別模板匹配的紅移值與SDSS紅移值比較Fig 5 SDSS redshift z versus Test redshift z using template matching on the segment I and II從圖中可以看出,我們得到的測試數據的紅移值基本與SDSS給出的紅移值相吻合,大多數測試數據的紅移值與SDSS給出的紅移值的比值約為1。經過統計,4782個數據的平均誤差為0.003125,4782個數據與SDSS給

18、出的紅移值差值的RMS為0.0296;紅移值誤差大于0.003125的光譜有88個,占整個數據集的0.0184,也就是說我們的紅移分類模板匹配方法得到的紅移值有98.16%是較為準確的。同時,我們也檢驗了不進行分類而直接在整個紅移范圍的模板匹配方法。即在紅移范圍00.5進行模板匹配,得到的測試紅移值和SDSS給出的紅移值的如圖6所示:圖6 在00.5紅移范圍內模板匹配的紅移值與SDSS紅移值的比較Fig 6 SDSS redshift z versus Test redshift z using template matching within the range of redshift fr

19、om 0 to 0.5統計的4782個數據的紅移誤差的平均值為0.022816,是分段模板匹配誤差的7.3倍;4782個數據與SDSS給出的紅移值差值的RMS為0.0870;紅移值大于0.022816的光譜有343條。由此可見,按照紅移范圍先分類,在分段進行模板匹配的方法在精度上要高于在整個紅移范圍上進行模板匹配的方法。7 分析與結論在本文中選定的紅移范圍取的是00.5,這是因為我們得到的實際觀測的正常星系光譜數據紅移值主要集中在00.5中,而大于這個范圍的數據由于其信噪比較低,導致紅移值的可信度也較低,所以沒有采用。我們考慮用主分量分析方法的目的主要是用來降低維數,同時又可以保留光譜的主要信

20、息特征。每一條光譜的原始點數是2726個點,抽樣后變?yōu)?25個點,對于大量的樣本來說,計算量仍是很大的。經過PCA變換后特征光譜數據空間是的3維,這明顯提高了運行速度。所以,針對海量數據采用PCA降維方法來加快處理速度是可行的。我們工作的創(chuàng)新點在于使用模式識別的方法按照紅移對光譜數據進行分類,而不是按照傳統哈勃序列進行分類。這種方法從兩個方面提高了海量數據的處理速度,一是利用PCA降維后處理數據,帶來速度的提升;二是給出了紅移的大致范圍,減小了模板匹配的搜索波段,從而大大提高了處理速度。實驗也驗證了這種方法求得的紅移值有較高精確度,相對于SDSS的誤差的RMS只有0.0296。雖然我們的方法取

21、得了較高的精確度,但是仍然有一些數據有較大偏差。分析導致其誤差的原因如下:1)在進行紅移粗分類時,有極少部分數據被錯分,導致模板匹配產生錯誤的結果;2)由于連續(xù)譜擬合不夠準確,使譜線的提取出現較大偏差,導致模板匹配時出現錯誤的結果;3)由于我們的數據集是實測數據,有些光譜中某段會有數據缺失,也影響了試驗結果。我們的下一步工作是繼續(xù)研究提高模板匹配的精度。另外,怎樣更加合理的選擇紅移范圍進行分類和提高分類精度,包括怎樣更好的對于觀測光譜進行預處理,以及對于更大紅移范圍內的紅移進行分類,也是我們要進一步研究的內容。參考文獻1 Chinese Academy of Science(中國科學院),LA

22、MOST Project( LAMOST項目計劃建議書). 1995.92 Tonry J., Davis M., A survey of galaxy redshifts. I - Data reduction techniques, AJ, 84, 1511 ,19793 Karl Glazebrook,Alison R.Offer, Kathryn Deeley, Automatic Redshift Determination by Use of Principal Component Analysis. I. Fundamentals, Astronomical Physics, 1

23、: 98-105,19984 Bo QIU et al (邱波等). A Pseudo-Triangle Technique for Redshift Identification of Celestial Spectrums (一種快速求紅移和證認譜線的新方法-偽三角法).Spectroscopy and Spectral Analysis(光譜學與光譜分析), 22(4),695699, 20025 Kinney A.L.,Calzetti D.,Bohlin R.C.,McQuade K.,Storchi-Bergmann,T., Template Ultraviolet to Near

24、-Infrared Spectra of Star-Forming Galaxies and Their Application to K-Corrections, Astrophysical Journal,467,38-60,19966 Zhaoqi BIAN, Xuegong Zhang(邊肇祺,張學工).Pattern Recognition( 模式識別). Tsinghua University Press(清華大學出版社).7 Storrie-Lombardi M. C., Irwin M. J., von Hippel T., S

25、torrie-Lombardi L. J., Spectral classification with principal component analysis and artificial neural networks, Vistas in Astronomy, 38(3), 331-340,199410 Simon Folkes,Shai Ronen,11 Darren S.Madgwick, Alison L.Coil,The Deep2 Galaxy Redshift Survey: Spectral Classification of Galaxies at Z

26、1, arXiv:astro-ph/0305587 v2 12 Sep 200312 Pingfan YAN, Changshui Zhang(閻平凡,張長水).Artificial Neural Networks and Evolutionary Computation(人工神經網絡與模擬進化計算). Tsinghua University Press(清華大學出版社).200015 Daya M.Rawson, Jeremy Bailey, Paul J.Francis, Neural Networks and the Classification of Active Galactic N

27、ucleus Spectra, arXiv:astro-ph/9607148 v1 199617 Andrew E.Firth, Ofer Lahav, Rachel S.Somerville, Estimating Photometric Redshifts with Artificial Neural Networks, arXiv:astro-ph/0203250 v2 200218 R.Tagliaferri, G.Longo, S.Andreon, S.Capozziello, C.Donalek, G.Giordano, Neural Networks and Photometri

28、c Redshifts, Astronomy and Astrophysics19 Donald F.Specht, Probabilistic Neural Networks for Classification, Mapping, or Associative Memory, IEEE ICNN San Dieg CA, I525-532,1988.20 Michael R.Berthold, Jay Diamond, Constructive Training of Probabilistic Neural Networks, Neurocomputing,19,167-183,1998

29、21 Ali LUO(羅阿理).Pattern Recognition Technique on Auto processing LAMOST spectra(光譜自動處理的模式識別方法);Doctors degree dissertation博士學位論文.National Astronomical Observatories, Chinese Academy of Science(中國科學院國家天文臺),200122 Dong XU, Zheng Wu( 許東,吳錚).System Analysis and Design Based on MATLAB6.x (基于MATLAB6.x的系統分

30、析與設計). Xidian University Press(西安電子科技大學出版社).23 Guangshu HU(胡廣書). Digital Signal Processing(數字信號處理). Tsinghua University Press(清華大學出版社).Using neural networks based template matching method to obtain redshifts of normal galaxiesXin XU1 Ali Luo2 Fuchao WU1 Yongheng ZHAO21 National Laboratory of Pattern

31、 Recognition, Institute of Automation, Chinese Academy of Sciences, 100080 Beijing 2728 Mail Box2 National Astronomical Observatories, Chinese Academy of Science, 100012 Beijing ABSTRACT Galaxies can be divided into two classes: normal galaxy (NG) and active galaxy (AG). In order to determine NG redshifts, an automatic effective method is proposed in this paper, which consists of the following three main steps: (1): From the template of norm

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論