機(jī)器學(xué)習(xí)及其應(yīng)用_第1頁(yè)
機(jī)器學(xué)習(xí)及其應(yīng)用_第2頁(yè)
機(jī)器學(xué)習(xí)及其應(yīng)用_第3頁(yè)
機(jī)器學(xué)習(xí)及其應(yīng)用_第4頁(yè)
機(jī)器學(xué)習(xí)及其應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)及其應(yīng)用

黃大威

2014年5月

機(jī)器學(xué)習(xí)是新興學(xué)科演化的產(chǎn)物機(jī)器學(xué)習(xí)的主要內(nèi)容機(jī)器學(xué)習(xí)的基本方法機(jī)器學(xué)習(xí)的應(yīng)用中醫(yī)脈診金融時(shí)間序列總結(jié)天下大勢(shì),合久必分,分久必合。自然哲學(xué)(前科學(xué))數(shù)學(xué)物理化學(xué)西醫(yī)中醫(yī)算學(xué)歷法西方中國(guó)農(nóng)業(yè)工業(yè)概率統(tǒng)計(jì)信息時(shí)代是一個(gè)需要和產(chǎn)生通才的時(shí)代。機(jī)器學(xué)習(xí)是需要和培養(yǎng)通才的領(lǐng)域。信息化時(shí)代信息生物學(xué)計(jì)量經(jīng)濟(jì)學(xué)生物力學(xué)數(shù)量金融工程生物光子學(xué)…………數(shù)字信號(hào)處理新興交叉學(xué)科生物物理生物化學(xué)生物統(tǒng)計(jì)機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)演化及聯(lián)系凡是從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的方法都在機(jī)器學(xué)習(xí)的研究范圍中。無論是獲得規(guī)律,還是利用規(guī)律做預(yù)測(cè),主要對(duì)象是隨機(jī)現(xiàn)象,因此統(tǒng)計(jì)方法是機(jī)器學(xué)習(xí)的主要工具。然而,作為交叉學(xué)科,與信息論,計(jì)算機(jī)科學(xué)及它們衍生的應(yīng)用學(xué)科都有關(guān)聯(lián);作為研究和使用規(guī)律的學(xué)科,機(jī)器學(xué)習(xí)比這些應(yīng)用學(xué)科研究對(duì)象(如數(shù)據(jù)挖掘)更廣。反過來,由于信息及計(jì)算機(jī)科學(xué)與應(yīng)用方面的參與,機(jī)器學(xué)習(xí)也創(chuàng)造了很多新方法,促進(jìn)了統(tǒng)計(jì)的發(fā)展。概率論統(tǒng)計(jì)信息論數(shù)字信號(hào)處理通訊……計(jì)算機(jī)科學(xué)神經(jīng)元網(wǎng)絡(luò)人工智能數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)統(tǒng)計(jì)機(jī)器學(xué)習(xí):實(shí)踐與理論的互動(dòng)循環(huán)抽象思維的演繹能力使人類得以構(gòu)建理論王國(guó)。她是有用的,在信息時(shí)代也是客觀存在的。建于0-1邏輯及存儲(chǔ)基礎(chǔ)上的計(jì)算機(jī)就是一個(gè)嚴(yán)格的理論世界。各種軟件都是基于0-1邏輯基礎(chǔ)上演繹出來的。演繹的結(jié)果是否正確,取決于前提假設(shè)。正確的假設(shè)只能從實(shí)際中歸納出來。假設(shè)是否正確,可由她演繹出來的結(jié)果與實(shí)際是否相符來檢驗(yàn)。機(jī)器學(xué)習(xí)既能幫我們從數(shù)據(jù)中歸納出假設(shè)(無監(jiān)督學(xué)習(xí)),也能幫我們?cè)跀?shù)據(jù)和假設(shè)的基礎(chǔ)上演繹出數(shù)學(xué)模型來(有監(jiān)督學(xué)習(xí))。同時(shí),她在建模的過程中就強(qiáng)調(diào)驗(yàn)證,用驗(yàn)證來選擇模型。模型最終是否正確,還要新數(shù)據(jù)來檢驗(yàn)。演繹概率論統(tǒng)計(jì)歸納數(shù)據(jù)假設(shè)數(shù)學(xué)模型驗(yàn)證機(jī)器學(xué)習(xí)仍舊需要假設(shè),但它又時(shí)時(shí)對(duì)所做假設(shè)抱有懷疑態(tài)度,在建模中就不斷用數(shù)據(jù)檢驗(yàn),最終以是否符合新的數(shù)據(jù)為標(biāo)準(zhǔn)。機(jī)器學(xué)習(xí)大觀無監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí)數(shù)字信號(hào)處理生物信息學(xué)計(jì)量經(jīng)濟(jì)學(xué)……增強(qiáng)學(xué)習(xí)數(shù)據(jù)展示畫圖聚類(cluster)主元素分析……我們教機(jī)器學(xué)習(xí)機(jī)器幫我們學(xué)習(xí)回歸與分類(classification)最小二乘,k近鄰法嶺回歸,Lasso交叉驗(yàn)證,Bootstrap樹狀圖,AdaBoost隨機(jī)森林神經(jīng)元網(wǎng)絡(luò)……考慮效果與控制規(guī)劃方法介紹1:最小二乘與K近鄰法最小二乘源于統(tǒng)計(jì),是線性模型在高斯白噪聲情況下均方誤差意義最優(yōu)解,在很一般性質(zhì)噪聲情況下也有相容解。K近鄰法源于工程,但廣泛條件下它收斂于條件期望,后者是最小均方誤差意義下的最優(yōu)估計(jì)。兩種方法均用于機(jī)器學(xué)習(xí),優(yōu)劣不可一概而論。一般而言,最小二乘適用于簡(jiǎn)單問題,K近鄰法適用于復(fù)雜問題。方法介紹2:線性模型估計(jì)與認(rèn)證傳統(tǒng)統(tǒng)計(jì)主要用最小二乘做參數(shù)估計(jì);機(jī)器學(xué)習(xí)介紹了Ridge及Lasso等收縮估計(jì)以避免過擬合,具有魯棒性。傳統(tǒng)統(tǒng)計(jì)對(duì)變量選取有大量研究,如t-或F-檢驗(yàn),逐步回歸;較近代有AIC,BIC,MDL等。機(jī)器學(xué)習(xí)更多使用交叉認(rèn)證及Bootstrap,但也不排除使用前述方法。交叉認(rèn)證傳統(tǒng)統(tǒng)計(jì)得到估計(jì)量后常研究它對(duì)真實(shí)參數(shù)的收斂性;機(jī)器學(xué)習(xí)往往不假定真實(shí)模型的存在。個(gè)人看法:應(yīng)假定隨尺度而變的近似模型。方法介紹3:決策樹在機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。例子:根據(jù)屬性X1和X2對(duì)對(duì)象Y分類:Y=1超重,Y=2正常,X1

為飯量,X2為運(yùn)動(dòng)量。決策樹超重正常正常超重實(shí)例:檢測(cè)垃圾郵件From“Theelementsofstatisticallearning”byHastieetc.建樹方法選擇垃圾郵件中最可能出現(xiàn)的關(guān)鍵字符,例如$,hp,!,….根據(jù)歷史數(shù)據(jù)中這些字符在垃圾郵件和正常郵件中出現(xiàn)的頻率,制定相應(yīng)規(guī)則(rule):當(dāng)該字符出現(xiàn)頻率大于(或小于)某個(gè)值,就認(rèn)為該郵件是垃圾或正常郵件。決策樹由一系列規(guī)則串聯(lián)組成,形成一個(gè)倒垂的樹狀結(jié)構(gòu)。要點(diǎn)如何選擇關(guān)鍵字符?如何選擇變量和閾值?樹延伸到何處停止?常用算法CART(ClassificationandRegressionTree),ID3,C4.5,C5.0,…方法創(chuàng)新:主元素純潔樹PPT結(jié)構(gòu):二元樹,數(shù)據(jù)分為目標(biāo)T與

背景B。規(guī)則:用主元素分析的方法在有監(jiān)督學(xué)習(xí)中分步剔除B。選擇:用主元素法選取能最大限度剔除B的自變量(參數(shù)、屬性)組合。檢驗(yàn):用預(yù)留數(shù)據(jù)檢查樹的效能,決定樹的修剪和停止。軟決策:用近鄰法給出各個(gè)樣本屬于T類的概率估計(jì)。RootBB+TBB+TBB+TMakeTree:TrainingRootB+TB+TB+TB+TB+TB+TTestandUseTree:TestingT我個(gè)人應(yīng)用機(jī)器學(xué)習(xí)的一點(diǎn)經(jīng)驗(yàn)基于脈博信號(hào)的中醫(yī)診斷數(shù)據(jù)模型特征信息提取數(shù)據(jù)展示(無監(jiān)督學(xué)習(xí))分類算法(有監(jiān)督學(xué)習(xí))軟件演示金融時(shí)間序列分析問題的數(shù)學(xué)與統(tǒng)計(jì)表述數(shù)據(jù)展示(無監(jiān)督學(xué)習(xí))分類算法(有監(jiān)督學(xué)習(xí))軟件演示如何用機(jī)器學(xué)習(xí)方法來從無確定性基本規(guī)律的現(xiàn)象中做科學(xué)的歸納和演繹?基于脈博信號(hào)的中醫(yī)診斷數(shù)據(jù)模型對(duì)大量不同人群用脈診儀對(duì)脈搏信號(hào)取樣,數(shù)字化后輸入計(jì)算機(jī)用計(jì)算機(jī)從脈搏信號(hào)中提取屬性,包括脈數(shù)(脈搏跳動(dòng)次數(shù))及左右手寸關(guān)尺六部的脈位、脈力、各諧波的能量和相位等等,共193個(gè)參數(shù)用我們開發(fā)的實(shí)現(xiàn)PPT算法的軟件平臺(tái),從這些參數(shù)中提取有用信息來判斷是否是正常人?高血壓?肝硬化?妊娠?等等。軟件隨機(jī)選取80%的樣本建模,20%用于測(cè)試。中醫(yī)診脈方法簡(jiǎn)介脈診的起源可追溯到公元前七世紀(jì)之前?!爸两裉煜卵悦}者,由扁鵲也。”《史記》遵循中醫(yī)“人體是一個(gè)由經(jīng)絡(luò)相連的整體”以及天人合一的觀點(diǎn),通過“師承授受”的教育模式,逐步發(fā)展為以形象口訣(如盤走珠,如按蔥管,…)為特征的28脈理論。BC300AD200AD1400AD1700從三部九候到獨(dú)取寸口已有脈象數(shù)據(jù)分析方法:時(shí)間域

費(fèi)兆馥等編著的“現(xiàn)代中醫(yī)脈診學(xué)”人民衛(wèi)生出版社06年1月版圖2.5.2-2脈圖的幅值和時(shí)值h1:主波幅值;h3:重搏前波幅值;h4:降中峽幅值;h5:重搏波幅值;t1:急性射血期時(shí)值;t4:收縮期時(shí)值;t5:舒張期時(shí)值;t:脈動(dòng)周期時(shí)值;W:主脈在h1上1/3處的時(shí)值等。28脈及其像圖、傳感器及計(jì)算機(jī)系統(tǒng)、實(shí)驗(yàn)研究、臨床研究重博波潮波主波單個(gè)脈象周期的特征參數(shù)提取對(duì)劃分后的周期信號(hào)減去均值后,根據(jù)它的周期構(gòu)造前W(不超過12)次諧波,用DFT得到Fourier系數(shù)。由Fourier系數(shù)即可構(gòu)成單個(gè)周期的模型?;ㄕ穹ㄏ辔欢沃C波振幅二次諧波相位均值最終特征參數(shù)12個(gè)諧波的能量分布(%)及相位脈數(shù)(心率)、脈位(周期起始值)和脈力(h1)時(shí)域參數(shù)t1,t4,h4/h1,t5,h5/h1每個(gè)案例中,使用同一的脈數(shù),但左右手、寸關(guān)尺六部位上各取一個(gè)上述參數(shù),共有6x32+1=193個(gè)參數(shù)優(yōu)點(diǎn):利用頻域參數(shù)及心率可相當(dāng)準(zhǔn)確地復(fù)原脈圖,從而可產(chǎn)生任何時(shí)域參數(shù)比簡(jiǎn)單傅里葉變換更精確缺點(diǎn):參數(shù)的醫(yī)學(xué)生物物理意義不明確使用無創(chuàng)、方便、簡(jiǎn)易、便攜的診斷方法將是各國(guó)醫(yī)改成功的關(guān)鍵!探測(cè)金融市場(chǎng)的變化趨勢(shì)經(jīng)濟(jì)學(xué)理論對(duì)市場(chǎng)有不同認(rèn)識(shí),如2013年諾貝爾經(jīng)濟(jì)獎(jiǎng)。我們的研究結(jié)果支持市場(chǎng)還是在一定程度上可預(yù)測(cè)的。普遍運(yùn)用的技術(shù)分析(TechnicalAnalysis)方法是這一研究方向上的前驅(qū),正在興起的量化方法(QuantitativeAnalysis)就是將機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法運(yùn)用于金融大數(shù)據(jù)中的試嘗。JamesSimons的故事。在本例中,我們運(yùn)用PPT方法分析目標(biāo)(價(jià)格波動(dòng)的頂和底)對(duì)屬性(各種技術(shù)分析中使用的指標(biāo),如具有不同參數(shù)的滑動(dòng)平均MA,RSI,MACD,RSV,…,等等共54xK個(gè),K為延遲)的關(guān)系,從而預(yù)測(cè)金融市場(chǎng)價(jià)格波動(dòng)的頂和底。金融市場(chǎng)數(shù)據(jù)分析的軟件平臺(tái)總結(jié):機(jī)器學(xué)習(xí)方法示意圖理想王國(guó)現(xiàn)實(shí)世界概率分布目標(biāo)函數(shù)模型數(shù)據(jù)專業(yè)知識(shí)真實(shí)參數(shù)驗(yàn)證測(cè)試數(shù)據(jù)數(shù)據(jù)InGodwetrust,allothersbringdata.W.E.Deming我們信奉理論,但理論也需要實(shí)踐來檢驗(yàn)。參考資料統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理與預(yù)測(cè),黑斯蒂等,電子工業(yè)出版社,2007“Theelementsofstatisticallearning–Datamiming,inferenceandprediction”byHastie,TibshiraniandFriedman,2ndEdition,Springer,2009機(jī)器學(xué)習(xí)導(dǎo)論(計(jì)算機(jī)科學(xué)叢書)EthemAlpaydm,機(jī)械工業(yè)出版社2009/teacher_1688.shtml:83/videoinfo.asp?id=1727Basicrule:LetPTbethePCAtransformmatrixoftheTARGETdataclass,Xbethetotaldata,theacceptregionistheparallelgram:Forallcombinationsof2indicators,weusetheaboveruletocalculatethepuritydensityoftargetinR,thenchoosethetwopredictorswhichhasthehighestdensityforthecurrentnode.KeepaboveprocedureongoingwiththeselecteddataB+Ttillstop.Fromp(p-1)/2combinationschoosetheonewithhighestpuritydensityPPT的規(guī)則RootBB+TBB+TTB+TBFeatureSelectionPPT的自變量選擇Weuse54(1+d)technicalindicators,includingMACD,MAd,RSIandRSVwithdifferentparameters,asthepredictorsforpeaksortroughs,heredisthedelaytimeunit(day).Foreachk(=2)combinationofthesepredictors,findthetightregionroundingupalltargetsbyitsPCAtransform.Exhaustivesearchforallcombinationstogetthebestpredictorcombinationwithhighestpuritypercentagefortargetsinsidetheregion.parallelogramRisconstructedbythemaximaandminimaofPCAtransformPPT的檢驗(yàn)Applytherulefortrainingdataandexaminethetworatios:

P(T|R)=NumberofTargetsinR/TotalNumberinR P(T|N)=NumberofTargetsinR/TotalNumberofTTestingP(T|R)measurestherandomnessoftargets,whiletestingP(R|T)examinesif“Historyrepeatsitself”or“Historyvalidforcurrent”.B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論