如何系統(tǒng)學習機器學習_第1頁
如何系統(tǒng)學習機器學習_第2頁
如何系統(tǒng)學習機器學習_第3頁
如何系統(tǒng)學習機器學習_第4頁
如何系統(tǒng)學習機器學習_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

如何系統(tǒng)學習機器學習?機器學習是人工智能下一個比較廣泛的分支,涉及了很多交叉的領(lǐng)域如NLP自然語言處理、計算機視覺ComputerVision等等。簡單來說,機器學習ML就是通過訓練計算機來模擬人類的學習行為,從而進行預(yù)測并解決更多的問題。機器學習往往需要大量的時間和耐心,其過程就像一場馬拉松,不會直接沖刺到終點,而是在學習中體會到一個不斷變化的、多樣的領(lǐng)域。那么機器學習又包含了哪些概念呢?根據(jù)難易程度和專注的分支不同,我將它分為以下幾類:基礎(chǔ)概念Logistic回歸、決策樹算法、納伊夫貝葉斯、支持向量機缶丫乂蟲分類項目、回歸項目、無監(jiān)督學習進階概念提升算法(XGBoost,LightGBM,Catboost)、時間序列、隨即森林機器學習技術(shù)驗證策略、超參數(shù)調(diào)整、特征工程、集合學習、疊加和混合推薦系統(tǒng)矩陣代數(shù)、SVD和PCA、處理不同類型的數(shù)據(jù)、推薦系統(tǒng)、Github從這些分類中不難看出,機器學習所涵蓋的內(nèi)容五花八門,它的概念從來就不是與其他領(lǐng)域獨立開來的。所以要想成為ML的專家,往往需要盡可能多的去探索、研究其他領(lǐng)域的內(nèi)容,建立一個完整的知識體系;因為很多內(nèi)容都是相通的,有了一定知識儲備后,對于日后的學習也能更好的理解。當你學習理論時,要問自己,這里發(fā)生了什么?我怎樣才能真正應(yīng)用這個?ML領(lǐng)域內(nèi)的數(shù)學容易看起來令人生畏。對于很多的文字內(nèi)容的理解,我的技巧是借助Rademacher模型。事實證明,人們對于圖像的理解往往比對文字的理解更好。我學習時,面對很多標記數(shù)據(jù),會先嘗試建立一個模型并訓練模型,測試其準確性是更差還是相同。不過這個方法不太建議大家在深度學習時嘗試,因為神經(jīng)網(wǎng)絡(luò)可以過度擬合任何數(shù)據(jù)集,甚至是隨機標記的數(shù)據(jù)。關(guān)于這部分的訓練,你可以通過任何bootcamp或MOOC'S接受相關(guān)培訓。這些資源在很多平臺也有所提供,在這之中,我比較推薦其中一個叫Learnbay的平臺。Learnbay是由IBM認證的數(shù)據(jù)科學培訓。在機器學習模塊下,你將學習很多我前面提到的基礎(chǔ)概念,如,監(jiān)督學習,線性回歸,邏輯回歸,決策樹。除此之外,你還有機會參與各種實時項目。在了解了機器學習的基礎(chǔ)概念之后,就到了學習方法。在過去的一年半里,我一直專注于機器學習領(lǐng)域computervision的學習,所以對于機器學習的學習方法,也是有自己的一些見解的。接下來我會將機器學習步驟分成基礎(chǔ)、理論學習和實踐三步來講解。一、學前基礎(chǔ)如果不對其前提條件進行介紹的話,機器學習可能會顯得很可怕。對于大部分人來說,雖然這個領(lǐng)域不需要你成為一個專業(yè)的數(shù)學家或資深的程序員來學習,不過對于這些領(lǐng)域的核心技能還是需要掌握的。好消息是,一旦你擁有了這些基礎(chǔ),剩下的學習就會相當容易。事實上,幾乎所有的ML都是關(guān)于將統(tǒng)計學和計算機科學的概念應(yīng)用于數(shù)據(jù)。關(guān)于學前的基礎(chǔ),大致可以分為三類:線性代數(shù)和微積分一原始算法研究需要有線性代數(shù)和多變量微積分,尤其是導(dǎo)數(shù),鏈式和乘積規(guī)則的基礎(chǔ)。而針對于這部分,很多大學內(nèi)的高數(shù)課程都有涉及到。作為英語中這些數(shù)字運算的定義和名稱的一種補充,大家也可以去YouTube找很多國外大學的公開課,如Essenceoflinearalgebra-YouTube。統(tǒng)計學一了解統(tǒng)計學,特別是貝葉斯概率,對許多機器學習算法來說是必不可少的。不管是自然語言處理還是機器學習,最重要的事情就是把基礎(chǔ)知識搞清楚。在這里,我所說的基礎(chǔ)知識是指對于概率和線性代數(shù)等概念淺層的理解。不一定需要掌握這些科目,但如果一些算法,比如子空間、基礎(chǔ)、i.i.d、獨立、相關(guān)這些術(shù)語,要能明白

它們的意思,而不是略知皮毛。我遇到過一些人,他們在網(wǎng)上學習了2-3門關(guān)于機器學習的課程,并在一些數(shù)據(jù)集上應(yīng)用了2、3種算法,從github上復(fù)制了一些代碼,就認為自己已經(jīng)學會了機器學習,并準備好解決數(shù)據(jù)科學問題。盡管現(xiàn)在有一些數(shù)據(jù)庫能為機器學習ML任務(wù)提供非常好的API,并用它們來執(zhí)行ML任務(wù),但是,僅僅使用它們而不了解內(nèi)在的東西,從長遠來看不會對你有幫助。此外統(tǒng)計學、EDA、線—Forwardpropagation:Vectorizedimpiementation14 ~ . ',=血國,—Forwardpropagation:Vectorizedimpiementation14 ~ . ',=血國,自以二Ia?一,%氣心由JYAdd哽二1一-4w@小?濁身靠)=和呵=\,j4'',=。坦 1r.i-電助::;+國試i,碎.守吊針。+蜀£+H騁工3±^\;Python一編程可以說是機器學習一大基礎(chǔ),沒有編程就無法學習機器學習。如果說前面的數(shù)學知識是基礎(chǔ)的話,Python和R就像接下來戰(zhàn)斗需要使用到的武器。我個人在學習的時候主要使用R語言,搭配Datacamp學起來真的很方便。針對剛?cè)腴T的人,我會更推薦Python,操作簡單也好上手。關(guān)于編程部分,我建議大家花幾個月時間同時學習Python代碼和不同的機器學習概念。因為在后面你會發(fā)現(xiàn)很多情況下你會同時需要它們。而在學習Python代碼的同時,大家可以練習使用一些數(shù)據(jù)科學工具,如Jupyter和Anaconda,主要了解它們的用途以及為什么要使用它們。關(guān)于程序語言的學習,網(wǎng)上的資源有很多,coursera和網(wǎng)易公開課都有很多可以選擇。除此之外,大家可以嘗試ujjwalkarn/DataSciencePython。而對于大部分項目,還需要知道算法設(shè)計和分析(課程:AlgorithmDesignandAnalysis)。一開始我只是直接使用教材的算法,就立刻去操作了,但隨著逐漸學習的深入,我也發(fā)現(xiàn)如果花點時間去理解所有的東西,結(jié)果是很令人滿意的。這套課程還提供了很好的講義,指導(dǎo)學習多層前饋人工神經(jīng)網(wǎng)絡(luò)。二、理論在有了一定數(shù)學基礎(chǔ)后后,就可以開始閱讀一些教材了,以了解機器學習的理論知識。個人建議從一些關(guān)于機器學習的基本介紹性書籍開始,不要直接跳到花哨的書籍。很多人都推薦的西瓜書,在我看來其實不太適合入門學習,難度較大;而且像機器學習這樣實踐大于理論的領(lǐng)域來說,單單從書本獲得的理論知識,往往不能滿足于實際生活的應(yīng)用。而這一部分的理解往往需要具體例子的搭配,一些書本內(nèi)容涵蓋的實例早已過時,所以針對這一部分,給大家推薦幾套我在機器學習時使用的課程。1.貪心科技AI課程貪心學院這套課程,是面向泛AI、AI群體提供專業(yè)的系列課程,整套課程將以上提及的內(nèi)容根據(jù)難易程度分為基礎(chǔ)和進階兩個階段,需要付費使用。根據(jù)具體所學項目不同,課程的價格在7000到20000之間不等。這套課程吸引我的其中一點就是它涵蓋的知識面廣。不僅涉及了AI領(lǐng)域內(nèi)的深度學習、NLP,機器學習,還有很多更細的分支。其中機器學習中的基本算法如分類算法、集成算法、聚類算法、降維算法等,在這套課程內(nèi)也有大篇幅重點講解。課程設(shè)置這套課程是線上課程,這種模式靈活性較高,隨時打開就可以上課,比較適合上班族或者學生黨利用碎片化時間進行學習。課件和PPT模式類似,左邊顯示的小標題方便進度查找。由于是近幾年新出的課程,和之前提及的書籍教材相比,實例都比較新,也都具有代表性。每節(jié)課程中還會配有一定的題目,幫助大家鞏固知識點概念。我自己在做這些題目的時候,感受很好的是,這些題目的設(shè)定與每小節(jié)的課程內(nèi)容結(jié)合的很好,能做到即時的鞏固,也能為后面的學習做鋪墊。

課程內(nèi)容貪心科技這套課程可以說是很全面地涵蓋了我上面提到的關(guān)于機器學習的各種概念,如隨機森林、邏輯回歸、線性回歸等。通過將機器學習放進人工智能的大框架里學習,能幫助學生更好的理解一些概念,將所學知識串聯(lián)起來,掌握綜合性的技能。:rikUJL Vm宙FJtuSiil'i-qi-th假設(shè)轉(zhuǎn)們擁有教據(jù)凄口={(%比出% 乂己{51}.2裁特的口國人|]?占,,南iFt1 *詵木理-Iffr.*T.向IkUE”?謂0善史+*岡餐店號?優(yōu)史匕JUzHMMh礪 E?竊一#■TO舊*3.-Qi*所有樣本的似然概率向二、,相仆百闔在“%藍忌對于其中的任重樣本〔0加),轉(zhuǎn)的可屎定義保然概率p(yi\x[rw假設(shè)轉(zhuǎn)們擁有教據(jù)凄口={(%比出% 乂己{51}.2裁特的口國人|]?占,,南iFt1 *詵木理-Iffr.*T.向IkUE”?謂0善史+*岡餐店號?優(yōu)史匕JUzHMMh礪 E?竊一#■TO舊*3.-Qi*所有樣本的似然概率向二、,相仆百闔在“%藍忌對于其中的任重樣本〔0加),轉(zhuǎn)的可屎定義保然概率p(yi\x[rwtb)=p(M=1|孫明出產(chǎn)[1-pCw=1|知*劃―di^_d1.11k|:r12:[.baRI;*h38MK'KI**KAARaH*!mr?BFQ:11110T?不1■知事g七M中MF、LT.:EM中支1,口盟(歸川.“力打可/UTTjF用■仃工知X干?皿.川3醍iiuuP0:lwkhPi'4"r+rtn?sNikchR-.mrnr!"lwjrnMHn,iixmvimi^<mn dimNE^JILhJli^lH-USIdlD^_!lfiILkIIpllllrlvadlV..J Gb網(wǎng)f£聲PKrt-x:^j.j:.-^b4,.iWItai'VVHLin:TL??1 .FWJi#J.Ji:Sb 叫二七:山由?sr.w.也出□4tlQfl'JM3■.HU■:Mi?。L>Hl*^^UELnTFr'JNiMi5Ml?.1■I:如G-i;a&n這套教材總體來說還是比較簡單易懂的。在同樣瀏覽了中、高級課程之后,個人感覺不足的是,進階課程難度較大。有相關(guān)機器學習及數(shù)據(jù)分析背景的人可能會覺得剛開始的內(nèi)容過于基礎(chǔ),而進階部分,尤其是高級,則會有些吃力。教研團隊課程的核心團隊由海內(nèi)外AI專家組建而成,多位合伙人及主講老師都是業(yè)內(nèi)資深工程師。其教研人員包括前金融獨角獸首席科學家、美國google科學家、ALBERT第一作者、美國微軟AI總監(jiān)等專家;多位合伙人及主講老師都是業(yè)內(nèi)資深工程師,并多次在ICML、AAAI、IJCAI、ICDM等會議發(fā)表數(shù)十篇論文,被數(shù)百次引用。我在上這節(jié)課的時候的導(dǎo)師就是亞馬遜的工程師,李文哲老師。他對于每一個問題的講解都十分細致,尤其是遇到運算問題,都會一步步手寫出具體公式。除此之外,他還經(jīng)常會舉一反三,舉出同樣類型的例子,加深我們的記憶。課后的助教對教學也都十分認真負責,每次我提出的問題都會及時解答,就算現(xiàn)在已經(jīng)結(jié)課了,我們也會經(jīng)常溝通一下最近遇到的問題。課后課后的練習根據(jù)難易程度和知識點的不同有所區(qū)分,如身高體重預(yù)測、A股股價預(yù)測、客戶是否開設(shè)定期銀行賬戶預(yù)測、成績是否及格預(yù)測、判斷新聞?wù)鎸嵭缘软椖?,每一個練習的都是不同的知識點,學生可以在jupyter上自己進行代碼的編寫,還能得到助教一對一的反饋,及時糾正錯誤。除了課程中提供的練習和案例,這套課程課后還配有g(shù)ithub使用權(quán)限和專門的系統(tǒng)進行學習、練習。我在進行ML學習時,就經(jīng)常會從github上找各種大神的代碼和他們新開發(fā)的新奇的程序,如隨機文章生成器等,這些內(nèi)容完全可以拿來當成是實踐項目進行練習。有時候遇到棘手的問題,我也會上去發(fā)帖求助??傊甮ithub對于人工智能領(lǐng)域的學生和職場人都是一個不可多得的好資源。.哈佛數(shù)據(jù)科學datascience課程這套課程也是網(wǎng)上教學,一個大課程下分成很多的小部分,在coursera、edx等學習網(wǎng)站上可以找到。課程主要介紹分析數(shù)據(jù)和建立模型的各種方法,在上課過程中還可以鍛煉與人溝通和工作的能力。在整個課程中,我們使用口語言,并同時學習R、統(tǒng)計概念和數(shù)據(jù)分析的技術(shù)。舉例來說,我暑假上的這節(jié)CS501的課涵蓋了很多數(shù)據(jù)調(diào)查的關(guān)鍵技巧,如數(shù)據(jù)處理、清理、采樣、管理、探索性分析、回歸和分類、預(yù)測和數(shù)據(jù)通信并通過應(yīng)用先進的統(tǒng)計學、建模和編程技能,得出預(yù)測性的見解??偟膩碚f,這三個月的學習很有趣,但在這過程中,我也發(fā)現(xiàn)了自己基礎(chǔ)的不足。作為一個統(tǒng)計專業(yè)并且有一些編程基礎(chǔ)的學生,我本以為自己對于數(shù)據(jù)的處理和建模應(yīng)該是能信手拈來的??蛇@套課程的難度遠超出我的想象。因為之前的學習比較基于理論,接觸實例不多,所以在接觸像這類對實例進行深入分析并利用一系列連續(xù)和離散數(shù)學工具的練習的項目就會有些應(yīng)付不過來。這套課程為理解、預(yù)測和決策提供了一個定量框架,幾乎涉及生活的方方面面,從交通信號燈的計時,到疾病傳播的控制,從資源管理,到體育領(lǐng)域等等??梢钥隙ǖ氖?,上完這套課,你也會跟我一樣,有一種柳暗花明后充實的感覺,并且技能也會得到很大程度的提升。除了這些課程,哈佛還提供了相應(yīng)線上的證書項目,一共四節(jié)課,總時長約為2年。這個項目旨在教授學生如何通過應(yīng)用先進的統(tǒng)計學、建模和編程技能,得出預(yù)測性的見解,獲得機器學習和計算技術(shù)的深入知識,并為從產(chǎn)品設(shè)計到金融等一系列行業(yè)發(fā)掘出重要的問題和情報。

DataScienceGraduateCertificateDerivepredictiveinsightsDerivepredictiveinsightsbyapplyingadvancedstatistics,rtiicxleliing.mdprogrammingskills.Acquirein-depth^knowledgeofnochriD犯vni通and乏Qaipulati的卅UnaarthImportantquestions.andintelligenceforaranfleoflndusM颯tromproduetdesigmtoFinance.雖然與AndrewNg的課程相比,這個項目對機器學習強調(diào)內(nèi)容較少,但你會得到更多關(guān)于從數(shù)據(jù)收集到分析的整個數(shù)據(jù)科學工作流程的練習。像我之前提及的,對于機器學習極其相關(guān)領(lǐng)域要盡可能多的掌握、了解。所以相對于系統(tǒng)性地學習,這套課程能幫助你擁有一個整體的框架概念,并拓展很多數(shù)據(jù)科學領(lǐng)域的知識。不足的是,這套教材目前只有英文資源,且難度較高。.吳恩達機器學習(Andrewng)這套教材也是很多人推薦的,它是2017年推出的,內(nèi)容較新,可以免費使用,Coursera上線之后我也慕名有去體驗過。我個人在學習時使用的是斯坦福大學的版本,不是Coursera的。這兩個版本相比較之下,Coursera的課程內(nèi)容比斯坦福的CS229更簡單,對于數(shù)學基礎(chǔ)的要求也更低。Coursera版本的課程幾乎沒有涉及很多概率分布、線性優(yōu)化、平滑處理等機器學習相關(guān)的數(shù)學知識;反之,吳恩達通過各種舉例代入的講解,讓機器學習這門課程變得更加通俗易懂,雖然梯度、矩陣等的內(nèi)容顯得十分復(fù)雜,但是后期用python都可以代入得出結(jié)果,這樣簡單實用的設(shè)置,也受到了很多入門者的喜愛。不過這也是這套課程受爭議的地方,很多人認為對于數(shù)學知識講解過于淺顯,不足以打好機器學習的基礎(chǔ)。吳恩達本人是斯坦福大學計算機科學系和電氣工程系的客座教授,他也是在線教育平臺Coursera的創(chuàng)始人之一。這套教材在網(wǎng)易有中文版資源,課程的形式也是像PPT一樣并且附上吳恩達本人的筆記。整體來說內(nèi)容淺顯易懂,處于初級-中級難度。比較適合入門學習。這套還配有課后作業(yè)和測試,保證了一定的練習量,但只限于Cousera課程,且編程作業(yè)需要在Jupyter上完成。其次,由于是較新的教材,了解并真正使用過的人不一定很多,所以在學習過程中遇到問題時,需要自己查閱資料解決。這套教

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論