天文學(xué)中的數(shù)據(jù)挖掘_第1頁
天文學(xué)中的數(shù)據(jù)挖掘_第2頁
天文學(xué)中的數(shù)據(jù)挖掘_第3頁
天文學(xué)中的數(shù)據(jù)挖掘_第4頁
天文學(xué)中的數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

天文學(xué)中的數(shù)據(jù)挖掘張彥霞國家天文臺貴陽LAMOST概要必要性概念技巧問題展望文獻(xiàn)LAMOST海量數(shù)據(jù)NVO(IVOA)注冊的數(shù)據(jù)資源有~14,000一些大型的天文數(shù)據(jù)庫包括NASA空間天文工程已經(jīng)完成或正在進(jìn)行的大型天文巡天工程,如:MACHO和相關(guān)的暗物質(zhì)巡天:~1TBDPOSS:3TB2MASS:10TBGALEX:30TBSDSS:40TB將來的巨型巡天工程,如:PanSTARRS:每晚10TB,預(yù)計最終40PBLSST(LargeSynopticSurveyTelescope):2021開始運行,with3-Gigapixelcamera每30秒10GB每晚30TB,持續(xù)十年預(yù)計最終的圖像數(shù)據(jù)100PB–所有數(shù)據(jù)公開!!!預(yù)計最終的星表數(shù)據(jù)30PB實時事件挖掘:每晚事件10,000-100,000個,持續(xù)十年每三晚巡全天一次:制作天體的電影LAMOST天文學(xué):數(shù)據(jù)驅(qū)動的科學(xué)天文學(xué):是發(fā)現(xiàn)驅(qū)動的科學(xué)

?驅(qū)動發(fā)現(xiàn)的因素:–新問題–新的思想–新模型–新理論–更重要的是新數(shù)據(jù)!

天文學(xué):是發(fā)現(xiàn)驅(qū)動的科學(xué)?發(fā)現(xiàn)導(dǎo)致:–新的問題–新思想–新模型–新理論–更重要的是...更多的新數(shù)據(jù)!?因此,需要更有效的挖掘和分析算法或工具天文學(xué)家一直在從事數(shù)據(jù)挖掘

“Thedataaremine,andyoucan’thavethem!〞?嚴(yán)格意義上講...?天文學(xué)家喜歡對事物進(jìn)行分類...(監(jiān)督學(xué)習(xí).如,分類)?天文學(xué)家喜歡對事物歸類...(非監(jiān)督學(xué)習(xí).如,聚類)?天文學(xué)家更希望發(fā)現(xiàn)新的天體或現(xiàn)象...(半監(jiān)督學(xué)習(xí).如,離群探測)天文中的數(shù)據(jù)挖掘課題壓縮(如.圖像和光譜)分類

(如.恒星,星系,或伽馬射線暴)重建

(如.星系模糊圖像的重建,弱引力透鏡質(zhì)量分布的重建)特征抽取(如.恒星、星系和類星體的重要特征)參數(shù)估計(如.恒星參數(shù)估計,測光紅移預(yù)測,太陽系外行星的軌道參數(shù),或宇宙參數(shù))模型選擇

(如.一顆恒星有幾顆行星繞轉(zhuǎn)?)

OferLahav,2006,astro-ph/0610703Summaryonthe4thmeetingon“StatisticalChallengeinModernAstronomy〞heldatPennStateUniversityinJune2006過去:100到1000個獨立的分布的異構(gòu)數(shù)據(jù)/元數(shù)據(jù)/信息庫.目前:天文數(shù)據(jù)可以從融合的分布資源中獲得,如虛擬天文臺.將來:隨著大型巡天工程的開展,天文學(xué)在未來將越來越成為數(shù)據(jù)密集型的科學(xué).挑戰(zhàn):越來越難于將數(shù)據(jù)傳輸?shù)接脩簟?/p>

算法移植到數(shù)據(jù)!天文學(xué)研究的轉(zhuǎn)變數(shù)據(jù)驅(qū)動到數(shù)據(jù)密集天文學(xué)一直以來就是數(shù)據(jù)驅(qū)動的科學(xué)現(xiàn)在成為數(shù)據(jù)密集型的科學(xué):天文信息學(xué)〔Astroinformatics〕!面向數(shù)據(jù)的天文學(xué)研究=“第四范式〞科學(xué)知識發(fā)現(xiàn)大數(shù)據(jù)集的優(yōu)點:很好地統(tǒng)計分析典型或特殊事件自動搜尋稀有事件ScientificKnowledge!第四范式:數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)定義數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

巨量價值

EDPMISDSS知識發(fā)現(xiàn)的優(yōu)點產(chǎn)生快速響應(yīng)發(fā)布EDP:電子數(shù)據(jù)加工MIS:管理信息系統(tǒng)DSS:決策支持系統(tǒng)數(shù)據(jù)挖掘—知識發(fā)現(xiàn)(KDD)過程的核心數(shù)據(jù)清潔數(shù)據(jù)融合數(shù)據(jù)庫數(shù)據(jù)倉庫知識特定任務(wù)的數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估數(shù)據(jù)挖掘:知識發(fā)現(xiàn)的過程數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計學(xué)其它學(xué)科信息科學(xué)機器學(xué)習(xí)&人工智能可視化數(shù)據(jù)挖掘:多學(xué)科的交叉學(xué)科

KDD:機遇和挑戰(zhàn)

數(shù)據(jù)豐富知識貧乏競爭的壓力KDD人工神經(jīng)網(wǎng)絡(luò)支持矢量機決策樹遺傳算法近鄰算法規(guī)那么推導(dǎo)粗糙集數(shù)據(jù)總結(jié)分類分析聚類分析回歸分析關(guān)聯(lián)規(guī)那么分析序列模式分析依賴關(guān)系分析偏差分析模式分析或統(tǒng)計分析時序數(shù)據(jù)分析其它數(shù)據(jù)挖掘的任務(wù)分類分析定義按照某種規(guī)那么,新的數(shù)據(jù)被劃分到類別中的一類。這個規(guī)那么是通過具有標(biāo)簽的數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)獲得的。應(yīng)用恒星分成不同的光譜型,星系按哈勃或形態(tài)分類,活動星系核進(jìn)一步細(xì)分,等等方法神經(jīng)網(wǎng)絡(luò)決策樹Na?veBayesianNetworks支持矢量機學(xué)習(xí)矢量量化遺傳算法…….采用何種分類器?分類器可以沿幾個正交的軸來訓(xùn)練,探索所有的維數(shù)比較困難不同的任務(wù)需要不同的分類器來實現(xiàn).分類算法決策樹,OC1神經(jīng)網(wǎng)絡(luò)最近鄰規(guī)那么或其他算法觀測參量流量,位置,色參數(shù),變化參量,空間擴展,…X射線,可見光,紅外,...訓(xùn)練樣本W(wǎng)GACAT,ROSATAllSkySurvey,...分類粗分:恒星vs.河外天體細(xì)分:A0vs.B0…,AGNvs.QSOvs.星系聚類分析定義:按照某種規(guī)律聚在一起的稱為一類。所用的數(shù)據(jù)是無標(biāo)簽的,通過非監(jiān)督的學(xué)習(xí)方式訓(xùn)練數(shù)據(jù),類間的差異盡可能地大,而類內(nèi)的差異盡可能地小。應(yīng)用:SDSS的雙色圖恒星聚在一塊如香蕉狀,類星體那么偏離該區(qū)域。方法:K均值聚類Hierarchicalclustering預(yù)期最大算法〔ExpectationMaximizationalgorithm〕高斯混合模型〔Gaussianmixturemodeling〕主成分分析……優(yōu)越性新的概念(Conceptdiscovery)點滴知識(Bootstrappingknowledge)聚類分析1Djorgovski,etal.根本的天文問題–1聚類問題:在數(shù)據(jù)集中查找聚類的天體統(tǒng)計意義和科學(xué)意義上各個類別的重要性是什么?找“朋友的朋友〞或近鄰的最優(yōu)算法?N>1010,如何有效地排序、分類?維數(shù)~1000–因此,假設(shè)干子空間搜索問題是否存在兩點或更高階的相關(guān)性?N>1010,N-point相關(guān)怎么做?與N2logN成正比的算法顯然不能用根本的天文問題–2離群探測:(未知的未知)找到那些超出我們預(yù)期的天體或事件(不屬于類別)這些有可能是真正的科學(xué)發(fā)現(xiàn)或垃圾因此,離群探測可用于:新奇發(fā)現(xiàn)–Nobelprize?異常探測–探測系統(tǒng)是否正常工作?數(shù)據(jù)質(zhì)量保證–數(shù)據(jù)流是否正常工作?在1000維空間中或感興趣的子空間〔低維空間〕中,如何最優(yōu)化地探測到離群?怎樣衡量“興趣度〞?降維問題:尋找相關(guān)性和參數(shù)的基平面維數(shù)成千上萬維災(zāi)!參數(shù)之間的相關(guān)性?線性或非線性混合?本征值或緊致表示是否可以代表整個數(shù)據(jù)集的性質(zhì)?根本的天文問題–3根本的天文問題–4疊加和分解問題:在參數(shù)空間中重疊的天體找出它們的所屬類別假設(shè)1010天體在1000維空間中重疊怎么辦?如何最優(yōu)地分解和抽取不同類型的天體?一些約束條件如何應(yīng)用?最優(yōu)化問題:在高維參數(shù)空間中如何找到復(fù)雜的多變量函數(shù)的最優(yōu)解〔最正確擬合、全局最大似然〕根本的天文問題–5為什么需要分布的數(shù)據(jù)挖掘?由于…

“JustChecking〞…許多重大的科學(xué)發(fā)現(xiàn)產(chǎn)生于多數(shù)據(jù)源的交叉證認(rèn):--類星體--Gamma-raybursts--極亮紅外星系--X射線黑洞雙星--射電星系...天文數(shù)據(jù)的分布性

分布的數(shù)據(jù)挖掘分布的數(shù)據(jù)挖掘有兩種類型:分布的挖掘數(shù)據(jù)挖掘分布的數(shù)據(jù)第一類要求復(fù)雜的算法移植到數(shù)據(jù)第二類多種形式,數(shù)據(jù)整體存放或分割上集中,

或者數(shù)據(jù)分布存放在不同的地方實踐數(shù)據(jù)挖掘線性或非線性高斯或非高斯連續(xù)或離散是否存在缺值比照特征和樣本數(shù)按照數(shù)據(jù)挖據(jù)的任務(wù)和特征,選擇適宜的數(shù)據(jù)挖掘算法未來天文數(shù)據(jù)的挑戰(zhàn)統(tǒng)計、計算和挖掘方法用于peta-和exa-量級的可擴張性在海量多維數(shù)據(jù)空間中同時多點擬合的算法優(yōu)化用于探索PB級數(shù)據(jù)的緊致表示的多分辨率、多級、分形、分級方法和結(jié)構(gòu)PB量級數(shù)據(jù)的可視化分析(包括特征探測,模型和有趣事件或天體的發(fā)現(xiàn),相關(guān)關(guān)系、聚類,新類型天體的發(fā)現(xiàn),降維)高維PB級數(shù)據(jù)的索引和聯(lián)合存儲技巧〔樹、圖、網(wǎng)絡(luò)拓?fù)洹砅B級數(shù)據(jù)庫的快速查詢和搜索方法成功的數(shù)據(jù)挖掘工程〔I〕:///●

測光紅移估計●球狀星團(tuán)搜尋●多波段測光暫源分類●天文圖像分割:///成功的數(shù)據(jù)挖掘工程〔II〕VOSTATStatisticalAnalysisfortheVirtualObservatory

VOStat工程通過網(wǎng)頁效勞為天文學(xué)家提供了一套工具。天文學(xué)家可以按照需要調(diào)用簡單的或復(fù)雜的程序來實現(xiàn)自己的任務(wù)。這套工具是基于大的開源的統(tǒng)計計算語言和環(huán)境R開發(fā)的。所有的統(tǒng)計計算在VOStat的效勞器端進(jìn)行,算完后再傳給用戶。天文會議或組織ADASS(TheAstronomicalDataAnalysisSoftwareandSystems)ADA〔TheAstronomicalDataAnalysis)SummerSchoolinStatisticsforAstronomersStatisticalChallengesinModernAstronomyAstroinformaticsAstrostatistics數(shù)據(jù)挖掘的參考文獻(xiàn)〔I〕“FromDataMiningToKnowledgeDiscovery:AnOverview.〞Fayyad,U.M.,Piatetsky-Shapiro,G.,andSmyth,P.InAdvancesInKnowledgeDiscoveryAndDataMining,eds.U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,AAAIPress/TheMITPress,MenloPark,CA.,1996,pp.1-34.“DataMiningandMachineLearninginAstronomy〞,Ball,

Nicholas

M.;Brunner,

Robert

J.InternationalJournalofModernPhysicsD,Volume19,Issue07,pp.1049-1106(2021).■“ScientificDataMininginAstronomy〞

Borne,

Kirk

eprint

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論