機(jī)器學(xué)習(xí)簡(jiǎn)介學(xué)習(xí)課件

上傳人：1*** IP屬地：廣東上傳時(shí)間：2024-11-25 格式：PPT 頁數(shù)：34 大?。?.38MB 積分：24 舉報(bào) 版權(quán)申訴

機(jī)器學(xué)習(xí)簡(jiǎn)介學(xué)習(xí)課件_第2頁

機(jī)器學(xué)習(xí)簡(jiǎn)介學(xué)習(xí)課件_第3頁

機(jī)器學(xué)習(xí)簡(jiǎn)介學(xué)習(xí)課件_第4頁

機(jī)器學(xué)習(xí)簡(jiǎn)介學(xué)習(xí)課件_第5頁

已閱讀5頁，還剩29頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)簡(jiǎn)介2018-03-15中國電子科技集團(tuán)第三十二研究所主講：瞿剛12024/11/24目錄機(jī)器學(xué)習(xí)的定義機(jī)器學(xué)習(xí)的發(fā)展歷史和現(xiàn)狀機(jī)器學(xué)習(xí)的分類機(jī)器學(xué)習(xí)的常見算法機(jī)器學(xué)習(xí)的基本過程機(jī)器學(xué)習(xí)的示例機(jī)器學(xué)習(xí)的常見應(yīng)用流行的開源機(jī)器學(xué)習(xí)框架SparkMLlib介紹22024/11/24機(jī)器學(xué)習(xí)的定義1在維基百科上，對(duì)機(jī)器學(xué)習(xí)提出以下幾種定義:“機(jī)器學(xué)習(xí)是一門人工智能的科學(xué)，該領(lǐng)域的主要研究對(duì)象是人工智能，特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能”；“機(jī)器學(xué)習(xí)是對(duì)能通過經(jīng)驗(yàn)自動(dòng)改進(jìn)的計(jì)算機(jī)算法的研究”；“機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn)，以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)”。32024/11/24機(jī)器學(xué)習(xí)的定義1三個(gè)關(guān)鍵詞:算法、經(jīng)驗(yàn)、性能機(jī)器學(xué)習(xí)是數(shù)據(jù)通過算法構(gòu)建出模型并對(duì)模型進(jìn)行評(píng)估,評(píng)估的性能如果達(dá)到要求就拿這個(gè)模型來測(cè)試其他的數(shù)據(jù),如果達(dá)不到要求就調(diào)整算法來重新建立模型,再次進(jìn)行評(píng)估,如此循環(huán)往復(fù),最終獲得滿意的經(jīng)驗(yàn)來處理其他的數(shù)據(jù)。42024/11/24機(jī)器學(xué)習(xí)的發(fā)展歷史2機(jī)器學(xué)習(xí)是人工智能應(yīng)用研究比較重要的分支，它的發(fā)展過程大體上可分為4個(gè)階段:第一階段是在50年代中葉到60年代中葉，屬于熱烈時(shí)期；第二階段在60年代中葉至70年代中葉，被稱為機(jī)器學(xué)習(xí)的冷靜時(shí)期；第三階段從70年代中葉至80年代中葉，稱為復(fù)興時(shí)期；機(jī)器學(xué)習(xí)的最新階段始于1986年。一方面，由于神經(jīng)網(wǎng)絡(luò)研究的重新興起，另一方面，對(duì)實(shí)驗(yàn)研究和應(yīng)用研究得到前所未有的重視。我國的機(jī)器學(xué)習(xí)研究開始進(jìn)入穩(wěn)步發(fā)展和逐漸繁榮的新時(shí)期。52024/11/24機(jī)器學(xué)習(xí)的發(fā)展現(xiàn)狀3在搜索引擎方面Google的成功,使得Internet搜索引擎成為新興產(chǎn)業(yè)。機(jī)器學(xué)習(xí)技術(shù)正在支撐著各類搜索引擎；DARPA(美國國防先進(jìn)研究項(xiàng)目局)于2003年開始啟動(dòng)5年期PAL計(jì)劃,這是一個(gè)以機(jī)器學(xué)習(xí)為核心的計(jì)劃(涉及到AI的其他分支,如知識(shí)表示和推理、自然語言處理等)；汽車自動(dòng)駕駛。機(jī)器學(xué)習(xí)的主要任務(wù)是從立體視覺中學(xué)習(xí)如何行駛,根據(jù)觀察人類的駕駛行為記錄各種圖像和操縱指令,并將它們進(jìn)行正確分類；在對(duì)天文物體進(jìn)行分類、計(jì)算機(jī)系統(tǒng)性能預(yù)測(cè)、信用卡盜用檢測(cè)、郵政服務(wù)屬性識(shí)別、網(wǎng)絡(luò)文檔自動(dòng)分類等方面,機(jī)器學(xué)習(xí)也在快速發(fā)展壯大。62024/11/24機(jī)器學(xué)習(xí)的分類4監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)72024/11/24機(jī)器學(xué)習(xí)的分類-–監(jiān)督學(xué)習(xí)4監(jiān)督學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)一個(gè)函數(shù)（模型）,當(dāng)新的數(shù)據(jù)到來時(shí),可以根據(jù)這個(gè)函數(shù)（模型）預(yù)測(cè)結(jié)果;在監(jiān)督式學(xué)習(xí)下,輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”,每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)或結(jié)果,如,對(duì)防垃圾郵件系統(tǒng)中“垃圾郵件”、“非垃圾郵件”;在建立模型時(shí),監(jiān)督式學(xué)習(xí)建立一個(gè)學(xué)習(xí)過程,將預(yù)測(cè)結(jié)果與“測(cè)試數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較,不斷調(diào)整預(yù)測(cè)模型,直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。常見的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計(jì)分類。82024/11/24機(jī)器學(xué)習(xí)的分類-–無監(jiān)督學(xué)習(xí)4在無監(jiān)督式學(xué)習(xí)中，數(shù)據(jù)并不被特別標(biāo)識(shí)，學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)；常見的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。常見算法包括Apriori算法和k-Means算法。監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別:訓(xùn)練集目標(biāo)是否被標(biāo)注。他們都有訓(xùn)練集，且都有輸入和輸出。92024/11/24機(jī)器學(xué)習(xí)的分類-–半監(jiān)督學(xué)習(xí)4半監(jiān)督學(xué)習(xí)是介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間一種機(jī)器學(xué)習(xí)方式,主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類的問題；應(yīng)用場(chǎng)景包括分類和回歸,算法包括一些對(duì)常用監(jiān)督式學(xué)習(xí)算法的延伸,這些算法首先試圖對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行建模,在此基礎(chǔ)上再對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè),如圖論推理算法（GraphInference）或者拉普拉斯支持向量機(jī)（LaplacianSVM）等；半監(jiān)督學(xué)習(xí)從誕生以來,主要用于處理人工合成數(shù)據(jù),無噪聲干擾的樣本數(shù)據(jù)是當(dāng)前大部分半監(jiān)督學(xué)習(xí)方法使用的數(shù)據(jù),而在實(shí)際生活中用到的數(shù)據(jù)卻大部分不是無干擾的,通常都比較難以得到純樣本數(shù)據(jù)。102024/11/24機(jī)器學(xué)習(xí)的分類-–強(qiáng)化學(xué)習(xí)4強(qiáng)化學(xué)習(xí)通過觀察來學(xué)習(xí)動(dòng)作的完成,每個(gè)動(dòng)作都會(huì)對(duì)環(huán)境有所影響,學(xué)習(xí)對(duì)象根據(jù)觀察到的周圍環(huán)境的反饋來做出判斷；在強(qiáng)化學(xué)習(xí)下,輸入數(shù)據(jù)直接反饋到模型,模型必須對(duì)此立刻做出調(diào)整；常見的應(yīng)用場(chǎng)景包括動(dòng)態(tài)系統(tǒng)以及機(jī)器人控制等。常見算法包括Q-Learning以及時(shí)間差學(xué)習(xí)（Temporaldifferencelearning）。112024/11/24機(jī)器學(xué)習(xí)的分類-–總結(jié)4在企業(yè)數(shù)據(jù)應(yīng)用的場(chǎng)景下,人們最常用的可能就是監(jiān)督式學(xué)習(xí)和無監(jiān)督式學(xué)習(xí)的模型。在圖像識(shí)別等領(lǐng)域,由于存在大量的非標(biāo)識(shí)的數(shù)據(jù)和少量的可標(biāo)識(shí)數(shù)據(jù),目前半監(jiān)督式學(xué)習(xí)是一個(gè)很熱的話題。強(qiáng)化學(xué)習(xí)更多地應(yīng)用在機(jī)器人控制及其他需要進(jìn)行系統(tǒng)控制的領(lǐng)域。122024/11/24機(jī)器學(xué)習(xí)的常見算法5回歸算法（監(jiān)督學(xué)習(xí)）神經(jīng)網(wǎng)絡(luò)（監(jiān)督學(xué)習(xí)）SVM支持向量機(jī)（監(jiān)督學(xué)習(xí)）聚類算法（無監(jiān)督學(xué)習(xí)）降維算法（無監(jiān)督學(xué)習(xí)）推薦算法（特殊）其他算法132024/11/24常見算法-–回歸算法5回歸算法有兩個(gè)重要的子類:即線性回歸和邏輯回歸；線性回歸就是如何擬合出一條直線最佳匹配所有的數(shù)據(jù)，邏輯回歸是一種與線性回歸非常類似的算法；線性回歸處理的問題類型與邏輯回歸不一致:線性回歸處理的是數(shù)值問題,也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字,例如房?jī)r(jià)。邏輯回歸屬于分類算法,也就是說,邏輯回歸預(yù)測(cè)結(jié)果是離散的分類,例如判斷這封郵件是否是垃圾郵件,以及用戶是否會(huì)點(diǎn)擊此廣告等等。142024/11/24常見算法-–回歸算法5假設(shè)有一組腫瘤患者的數(shù)據(jù)，這些患者的腫瘤中有些是良性的(圖中的藍(lán)色點(diǎn))，有些是惡性的(圖中的紅色點(diǎn))。這里腫瘤的紅藍(lán)色可以被稱作數(shù)據(jù)的“標(biāo)簽”。同時(shí)每個(gè)數(shù)據(jù)包括兩個(gè)“特征”：患者的年齡與腫瘤的大小。我們將這兩個(gè)特征與標(biāo)簽映射到這個(gè)二維空間上，形成了上圖的數(shù)據(jù)。當(dāng)有一個(gè)綠色的點(diǎn)時(shí)，該判斷這個(gè)腫瘤是惡性的還是良性的呢？根據(jù)紅藍(lán)點(diǎn)我們訓(xùn)練出了一個(gè)邏輯回歸模型，也就是圖中的分類線。這時(shí)，根據(jù)綠點(diǎn)出現(xiàn)在分類線的左側(cè)，因此我們判斷它的標(biāo)簽應(yīng)該是紅色，也就是說屬于惡性腫瘤。邏輯回歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯回歸，不過那樣的模型在處理數(shù)據(jù)量較大的時(shí)候效率會(huì)很低)，這意味著當(dāng)兩類之間的界線不是線性時(shí)，邏輯回歸的表達(dá)能力就不足。152024/11/24常見算法-–神經(jīng)網(wǎng)絡(luò)5神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò),ANN)的誕生起源于對(duì)大腦工作機(jī)理的研究。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來模擬大腦,后來,機(jī)器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)的實(shí)驗(yàn),發(fā)現(xiàn)在視覺與語音的識(shí)別上效果都相當(dāng)好。神經(jīng)網(wǎng)絡(luò)算法是80年代機(jī)器學(xué)習(xí)界非常流行的算法。不過,進(jìn)入90年代,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)瓶頸期。其主要原因是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程很困難。現(xiàn)在,攜著“深度學(xué)習(xí)”之勢(shì),神經(jīng)網(wǎng)絡(luò)重裝歸來,重新成為最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一。162024/11/24常見算法-–神經(jīng)網(wǎng)絡(luò)5比方說,一個(gè)正方形,分解為四個(gè)折線進(jìn)入視覺處理的下一層中。四個(gè)神經(jīng)元分別處理一個(gè)折線。每個(gè)折線再繼續(xù)被分解為兩條直線,每條直線再被分解為黑白兩個(gè)面。于是,一個(gè)復(fù)雜的圖像變成了大量的細(xì)節(jié)進(jìn)入神經(jīng)元,神經(jīng)元處理以后再進(jìn)行整合,最后得出了看到的是正方形的結(jié)論。這就是大腦視覺識(shí)別的機(jī)理,也是神經(jīng)網(wǎng)絡(luò)工作的機(jī)理。172024/11/24常見算法-–SVM支持向量機(jī)5SVM算法是誕生于統(tǒng)計(jì)學(xué)習(xí)界，同時(shí)在機(jī)器學(xué)習(xí)界大放光彩的經(jīng)典算法。從某種意義上來說，支持向量機(jī)算法是邏輯回歸算法的強(qiáng)化:通過給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件，支持向量機(jī)算法可以獲得比邏輯回歸更好的分類界線。支持向量機(jī)是一種數(shù)學(xué)成分很濃的機(jī)器學(xué)習(xí)算法（相對(duì)的，神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分）。通過支持向量機(jī)算法，既可以保持計(jì)算效率，又可以獲得非常好的分類效果。因此支持向量機(jī)在90年代后期一直占據(jù)著機(jī)器學(xué)習(xí)中最核心的地位，基本取代了神經(jīng)網(wǎng)絡(luò)算法。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起，兩者之間才又發(fā)生了微妙的平衡轉(zhuǎn)變。182024/11/24常見算法-–SVM支持向量機(jī)5通過跟高斯函數(shù)的結(jié)合，支持向量機(jī)可以表達(dá)出非常復(fù)雜的分類界線，從而達(dá)成很好的分類效果。比如，可以將低維的空間映射到高維的空間。如何在二維平面劃分出一個(gè)圓形的分類界線？在二維平面可能會(huì)很困難，但是通過高斯函數(shù)可以將二維空間映射到三維空間，然后使用一個(gè)線性平面就可以達(dá)成類似效果。192024/11/24常見算法-–聚類算法5聚類算法是無監(jiān)督學(xué)習(xí)算法中最典型的代表。聚類算法就是計(jì)算種群中的距離,根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個(gè)族群。聚類算法中最典型的代表就是K-Means算法。202024/11/24常見算法-–降維算法5降維算法也是一種無監(jiān)督學(xué)習(xí)算法,主要特征是將數(shù)據(jù)從高維降低到低維。維度表示數(shù)據(jù)的特征量的大小。例如,房?jī)r(jià)包含房子的長(zhǎng)、寬、面積與房間數(shù)量四個(gè)特征,也就是維度為4維的數(shù)據(jù)?？梢钥闯鰜?長(zhǎng)與寬事實(shí)上與面積表示的信息重疊了,例如面積=長(zhǎng)×寬。通過降維算法,可以去除冗余信息,將特征減少為面積與房間數(shù)量?jī)蓚€(gè)特征,即從4維的數(shù)據(jù)壓縮到2維。這樣,不僅利于表示,同時(shí)提高計(jì)算的性能。降維算法的主要作用是壓縮數(shù)據(jù)與提升機(jī)器學(xué)習(xí)的效率。通過降維算法,可以將具有幾千個(gè)特征的數(shù)據(jù)壓縮至若干個(gè)特征。另外,降維算法的另一個(gè)好處是數(shù)據(jù)的可視化,例如將5維的數(shù)據(jù)壓縮至2維,然后可以用二維平面來可視。降維算法的主要代表是PCA算法(即主成分分析算法)。212024/11/24常見算法-–推薦算法5推薦算法是目前業(yè)界非常火的一種算法,如亞馬遜,天貓,京東等都在廣泛地運(yùn)用。推薦算法的主要特征就是可以自動(dòng)向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益。222024/11/24常見算法-–推薦算法5推薦算法有兩個(gè)主要的類別:一類是基于物品內(nèi)容的推薦，是將與用戶購買的內(nèi)容近似的物品推薦給用戶，這樣的前提是每個(gè)物品都得有若干個(gè)標(biāo)簽，因此才可以找出與用戶購買物品類似的物品，這樣推薦的好處是關(guān)聯(lián)程度較大。另一類是基于用戶相似度的推薦，則是將與目標(biāo)用戶興趣（注:用戶畫像）相同的其他用戶購買的東西推薦給目標(biāo)用戶，例如小A歷史上買了物品B和C，經(jīng)過算法分析，發(fā)現(xiàn)另一個(gè)與小A近似的用戶小D購買了物品E，于是將物品E推薦給小A。兩類推薦都有各自的優(yōu)缺點(diǎn),在一般的電商應(yīng)用中,一般是兩類混合使用。推薦算法中最有名的算法就是協(xié)同過濾算法。232024/11/24常見算法-–其他算法5除了以上算法之外，機(jī)器學(xué)習(xí)界還有其他的如高斯判別，樸素貝葉斯，決策樹等等算法。但是上面列的六個(gè)算法是使用最多，影響最廣，種類最全的典型。機(jī)器學(xué)習(xí)界的一個(gè)特色就是算法眾多，發(fā)展百花齊放。除了這些算法以外，有一些算法的名字在機(jī)器學(xué)習(xí)領(lǐng)域中也經(jīng)常出現(xiàn)。但他們本身并不算是一個(gè)機(jī)器學(xué)習(xí)算法，而是為了解決某個(gè)子問題而誕生的?？梢岳斫馑麄?yōu)橐陨纤惴ǖ淖铀惴?，用于大幅度提高?xùn)練過程。其中的代表有:梯度下降法，主要運(yùn)用在線性回歸，邏輯回歸，神經(jīng)網(wǎng)絡(luò)，推薦算法中；牛頓法，主要運(yùn)用在線性回歸中；BP算法，主要運(yùn)用在神經(jīng)網(wǎng)絡(luò)中；SMO算法，主要運(yùn)用在SVM中。242024/11/24機(jī)器學(xué)習(xí)的基本過程6計(jì)算機(jī)從給定的數(shù)據(jù)中學(xué)習(xí)規(guī)律,即從觀測(cè)數(shù)據(jù)（樣本）中尋找規(guī)律、建立模型,并利用學(xué)習(xí)到的規(guī)律（模型）對(duì)未知或無法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。252024/11/24機(jī)器學(xué)習(xí)的操作流程7操作流程主要分7步:數(shù)據(jù)導(dǎo)入；數(shù)據(jù)預(yù)處理；特征工程；拆分；訓(xùn)練模型；評(píng)估模型；預(yù)測(cè)新數(shù)據(jù)。262024/11/24機(jī)器學(xué)習(xí)示例8預(yù)測(cè)美國某大學(xué)某人是否是終身教授:272024/11/24機(jī)器學(xué)習(xí)的常見應(yīng)用9機(jī)器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、生物特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、檢測(cè)信用卡欺詐、證券市場(chǎng)分析、DNA序列測(cè)序、語音和手寫識(shí)別、戰(zhàn)略游戲和機(jī)器人等領(lǐng)域。282024/11/24流行的開源機(jī)器學(xué)習(xí)框架11TensorFlow是谷歌基于C++開發(fā)、發(fā)布的第二代機(jī)器學(xué)習(xí)系統(tǒng)。開發(fā)目的是用于進(jìn)行機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的研究。目前Google的GoogleApp的語音識(shí)別、Gmail的自動(dòng)回復(fù)功能、GooglePhotos的圖片搜索等都在使用TensorFlow。GitHub項(xiàng)目地址:/tensorflow/tensorflowScikit-Learn是用于機(jī)器學(xué)習(xí)的Python模塊，它建立在SciPy之上?；竟δ苤饕环譃榱鶄€(gè)部分:分類、回歸、聚類、數(shù)據(jù)降維、模型選擇、數(shù)據(jù)預(yù)處理。GitHub項(xiàng)目地址:

/scikit-learn/scikit-learnCaffe是由神經(jīng)網(wǎng)絡(luò)中的表達(dá)式、速度及模塊化產(chǎn)生的深度學(xué)習(xí)框架。Caffe是一個(gè)基于C++/CUDA架構(gòu)框架,開發(fā)者能夠利用它自由的組織網(wǎng)絡(luò),目前支持卷積神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)（人工神經(jīng)網(wǎng)絡(luò)）。在Linux上,C++可以通過命令行來操作接口,運(yùn)算上支持CPU和GPU直接無縫切換。GitHub項(xiàng)目地址:

/BVLC/caffeKeras是基于Python開發(fā)的極其精簡(jiǎn)并高度模塊化的神經(jīng)網(wǎng)絡(luò)庫,在TensorFlow或Theano上都能夠運(yùn)行,是一個(gè)高度模塊化的神經(jīng)網(wǎng)絡(luò)庫,支持GPU和CPU運(yùn)算。Keras側(cè)重于開發(fā)快速實(shí)驗(yàn),用可能最少延遲實(shí)現(xiàn)從理念到結(jié)果的轉(zhuǎn)變,即為做好一項(xiàng)研究的關(guān)鍵。GitHub項(xiàng)目地址:/fchollet/keras292024/11/24流行的開源機(jī)器學(xué)習(xí)框架11PredictionIO是面向開發(fā)人員和數(shù)據(jù)科學(xué)家的開源機(jī)器學(xué)習(xí)服務(wù)器。它支持事件采集、算法調(diào)度、評(píng)估以及經(jīng)由RESTAPIs的預(yù)測(cè)結(jié)果查詢。使用者可以通過PredictionIO做一些預(yù)測(cè),比如個(gè)性化推薦、發(fā)現(xiàn)內(nèi)容等。PredictionIO基于RESTAPI（應(yīng)用程序接口）標(biāo)準(zhǔn),不過它還包含Ruby、Python、Scala、Java等編程語言的SDK（軟件開發(fā)工具包）。其開發(fā)語言是Scala語言,數(shù)據(jù)庫方面使用的是MongoDB數(shù)據(jù)庫,計(jì)算系統(tǒng)采用Hadoop系統(tǒng)架構(gòu)。

GitHub項(xiàng)目地址:

/PredictionIO/PredictionIOMahout是ApacheSoftwareFoundation（ASF）旗下的一個(gè)開源項(xiàng)目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),包括聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘。傳統(tǒng)的Mahout是提供的是Java的API,用戶應(yīng)用會(huì)編譯成MapReduce的job,運(yùn)行在MapReduce的框架上。從現(xiàn)在看來,這種方式開發(fā)效率低,運(yùn)行速度慢,已經(jīng)過時(shí)了。Mahout已經(jīng)不再開發(fā)和維護(hù)新的基于MR的算法,而轉(zhuǎn)向支持Scala。GitHub項(xiàng)目地址:

/apache/mahoutSparkMLlib是Spark對(duì)常用的機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)庫,同時(shí)包括相關(guān)的測(cè)試和數(shù)據(jù)生成

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)簡(jiǎn)介學(xué)習(xí)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

機(jī)器學(xué)習(xí)簡(jiǎn)介學(xué)習(xí)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔