2024人工智能算法指南合集_第1頁(yè)
2024人工智能算法指南合集_第2頁(yè)
2024人工智能算法指南合集_第3頁(yè)
2024人工智能算法指南合集_第4頁(yè)
2024人工智能算法指南合集_第5頁(yè)
已閱讀5頁(yè),還剩212頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AIAI入學(xué)指南決策樹與集成算法聚類算法推薦系統(tǒng)xgboostLDA與PCAEM算法時(shí)間序列分析文本分析深度學(xué)習(xí)分割

人工智能算法指南合集2024AIAI時(shí)代人工智能入學(xué)指南為嘛Python這么火?從哪里開始,學(xué)什么?有什么用?算法該如何學(xué)?數(shù)學(xué)怎么辦?如何實(shí)際動(dòng)手去做?用什么工具?AIAI時(shí)代為嘛Python這么火?難度:有任何語言基礎(chǔ)學(xué)Python你會(huì)覺得簡(jiǎn)單到家了實(shí)用性:能用一行代碼,何必用十行呢?(我們的定位通常都是工程師,而非科學(xué)家,能干活更重要)Python工具庫(kù):這些簡(jiǎn)直太多了,基本上你能想到的現(xiàn)在都有了(我們常用的:Numpy,Pandas,Matplotlib,Scikit-Learn,tensorflow)大家都在用,各大公司開源工具庫(kù)都有Python接口,并且都是主流,我們實(shí)際干活很大程度上都是使用這些庫(kù)幫助我們完成任務(wù)AIAI時(shí)代Python和這些庫(kù)怎么配置?常規(guī)套路:1.安裝2.環(huán)境變量3.用什么庫(kù)去看配置文檔自己安(這個(gè)是程序員的常規(guī)套路了,但是剛轉(zhuǎn)行的同學(xué)會(huì)弄個(gè)大半天)大禮包:,傻瓜式安裝,解決上述問題(還給我們贈(zèng)送了notebook寫代碼環(huán)境,庫(kù)安裝工具等)為什么建議使用Notebook?主要原因在于它不光能寫代碼,還可以做筆記尤其是代碼需要一步步執(zhí)行的時(shí)候,可以得到每一步結(jié)果并保留下來,在可視化展示方面就更方便了!AIAI時(shí)代如何學(xué)Python呢?有其他語言基礎(chǔ):簡(jiǎn)單過一遍語法,直接上手應(yīng)該沒什么問題第一門語言:初級(jí)內(nèi)容便學(xué)邊寫,高級(jí)內(nèi)容暫時(shí)不需要(我覺得語言只是一門工具,不需要先都學(xué)徹底了才能干活,邊做事邊學(xué)習(xí)應(yīng)該會(huì)更加深理解,忌光看書不練習(xí))Python這么多庫(kù),這么多函數(shù),我需要都記下來嗎?(其實(shí)這些依舊是工具,記它干嘛?我覺得重點(diǎn)在于知道每個(gè)庫(kù)能做什么,大概用哪個(gè)函數(shù),等實(shí)際用的時(shí)候還是需要查一查API的,這么多參數(shù)都記下來不太切合實(shí)際,動(dòng)手查的能力也很重要)AI時(shí)代AI時(shí)代人工智能我該怎么學(xué)呢?人工智能是一個(gè)很大的圈子,但是基礎(chǔ)必然是機(jī)器學(xué)習(xí)什么是機(jī)器學(xué)習(xí)呢?說白了就是你告訴機(jī)器你想做什么?并且給它一堆數(shù)據(jù)讓它去模仿著做?。ū热纾蹅兩细咧?,老師會(huì)告訴我們一個(gè)目標(biāo)就是考高分,然后給我們一堆練習(xí)冊(cè)和答案,我們的目的就是讓我們做的題的解和答案一致)機(jī)器學(xué)習(xí)需要什么?算法,數(shù)據(jù),程序,評(píng)估,應(yīng)用機(jī)器學(xué)習(xí)能做什么?機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘,圖像識(shí)別,語音和自然語言處理中有著廣泛應(yīng)用機(jī)器學(xué)習(xí)流程?一個(gè)機(jī)器學(xué)習(xí)的常規(guī)套路數(shù)據(jù)收集與預(yù)處理特征選擇與模型構(gòu)建評(píng)估與預(yù)測(cè)機(jī)器學(xué)習(xí)我該怎么學(xué)?機(jī)器學(xué)習(xí)本質(zhì)包含了數(shù)學(xué)原理推導(dǎo)與實(shí)際應(yīng)用技巧機(jī)器學(xué)習(xí)中有很多經(jīng)典算法,既然要學(xué)習(xí),那就需要清楚一個(gè)算法是怎么來的(推導(dǎo))以及該如何應(yīng)用數(shù)學(xué)重要嗎?非常重要的,大學(xué)的數(shù)學(xué)基礎(chǔ)即可,如果你都忘了,大致的印象還是有的吧,我覺得與其從頭過一遍數(shù)學(xué),不如邊學(xué)邊查,一個(gè)合適的做法就是哪里不會(huì)點(diǎn)哪里,我每天也在查很多知識(shí)點(diǎn)機(jī)器學(xué)習(xí)我該怎么學(xué)?一定要學(xué)數(shù)學(xué),學(xué)推導(dǎo)嗎?我知道會(huì)用不就可以了嗎?有句老話,不光要知其然還要知其所以然,這對(duì)我們的應(yīng)用具有很大的幫助程序員兄弟:如果要轉(zhuǎn)行,讓你看數(shù)學(xué)你肯定要瘋的,重點(diǎn)應(yīng)在于如何應(yīng)用(庫(kù)的使用,完整項(xiàng)目如何構(gòu)建,從頭到尾的流程)現(xiàn)在說的很火的深度學(xué)習(xí)是什么?深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)算法的延伸,只不過應(yīng)用的比較廣深度學(xué)習(xí)在計(jì)算機(jī)視覺和自然語言處理中更厲害一些那我學(xué)機(jī)器學(xué)習(xí)還是深度學(xué)習(xí)呀?一切的基礎(chǔ)都是機(jī)器學(xué)習(xí),做任何事情沒有堅(jiān)實(shí)的基礎(chǔ)只會(huì)越來越迷茫,機(jī)器學(xué)習(xí)覺得值得你從頭開始算法推導(dǎo)如何開始?找本書?找博客?找視頻?都可以的,選擇你喜歡的就好!如果有一個(gè)地方死活看不懂怎么辦?很常見的情況,我也經(jīng)??ㄔ谝粋€(gè)地方好久,這時(shí)候有個(gè)圈子來交流當(dāng)然更好(好累),不過我們也可以先繼續(xù)前進(jìn),等回過頭來再想想,沒準(zhǔn)就想通啦!習(xí)慣很重要,當(dāng)你看別人的資料覺得掌握的差不多了,其實(shí)你明天估計(jì)就忘的也差不多了,自己動(dòng)手從頭開始做筆記(不是照抄人家的,是寫自己的)或者博客都是很好的選擇,只要你自己能寫出來了才算真正的掌握!機(jī)器學(xué)習(xí)怎么動(dòng)手去做?只有實(shí)際應(yīng)用啦,才覺得沒白學(xué),那么去哪里找案例呢?最好的資源:Github,kaggle,各大資源分享點(diǎn)案例的積累作用很大,其實(shí)我們干活是什么樣的呢?主要就是在模仿,我們并不是科學(xué)家,能做事才能有用的,既然人家是這么做的,并且做的不錯(cuò),那我們?nèi)ツ7伦龀鰜淼木褪俏覀冏约旱?!很少?gòu)念^開始去寫一個(gè)項(xiàng)目,通常都是按照之前的某種套路照搬過來,實(shí)際上大部分公司都這么做,建議大家先學(xué)會(huì)模仿,再去創(chuàng)作吧!咱們的課程!Python庫(kù)的講解,常用函數(shù)的應(yīng)用(只是工具)算法原理推導(dǎo):從零開始,對(duì)一個(gè)機(jī)器學(xué)習(xí)/深度學(xué)習(xí)算法進(jìn)行推導(dǎo),得出其最終的解法,評(píng)估參數(shù)對(duì)結(jié)果的影響。案例實(shí)戰(zhàn):基于真實(shí)數(shù)據(jù)集,結(jié)合Python工具庫(kù),從數(shù)據(jù)預(yù)處理開始一步步建模完成整個(gè)案例。講師:唐宇迪更多資源我的機(jī)器學(xué)習(xí)原創(chuàng)公眾號(hào)微博:迪哥有點(diǎn)愁決策樹決策樹樹模型決策樹:從根節(jié)點(diǎn)開始一步步走到葉子節(jié)點(diǎn)(決策)所有的數(shù)據(jù)最終都會(huì)落到葉子節(jié)點(diǎn),既可以做分類也可以做回歸樹的組成根節(jié)點(diǎn):第一個(gè)選擇點(diǎn)非葉子節(jié)點(diǎn)與分支:中間過程葉子節(jié)點(diǎn):最終的決策結(jié)果決策樹的訓(xùn)練與測(cè)試訓(xùn)練階段:從給定的訓(xùn)練集構(gòu)造出來一棵樹(從跟節(jié)點(diǎn)開始選擇特征,如何進(jìn)行特征切分)測(cè)試階段:根據(jù)構(gòu)造出來的樹模型從上到下去走一遍就好了一旦構(gòu)造好了決策樹,那么分類或者預(yù)測(cè)任務(wù)就很簡(jiǎn)單了,只需要走一遍就可以了,那么難點(diǎn)就在于如何構(gòu)造出來一顆樹,這就沒那么容易了,需要考慮的問題還有很多的!如何切分特征(選擇節(jié)點(diǎn))問題:根節(jié)點(diǎn)的選擇該用哪個(gè)特征呢?接下來呢?如何切分呢?想象一下:我們的目標(biāo)應(yīng)該是根節(jié)點(diǎn)就像一個(gè)老大似的能更好的切分?jǐn)?shù)據(jù)(分類的效果更好),根節(jié)點(diǎn)下面的節(jié)點(diǎn)自然就是二當(dāng)家了。目標(biāo):通過一種衡量標(biāo)準(zhǔn),來計(jì)算通過不同特征進(jìn)行分支選擇后的分類情況,找出來最好的那個(gè)當(dāng)成根節(jié)點(diǎn),以此類推。衡量標(biāo)準(zhǔn)-熵熵:熵是表示隨機(jī)變量不確定性的度量(解釋:說白了就是物體內(nèi)部的混亂程度,比如雜貨市場(chǎng)里面什么都有那肯定混亂呀,專賣店里面只賣一個(gè)牌子的那就穩(wěn)定多啦)公式:H(X)=-∑pi*logpi,i=1,2,...,n一個(gè)栗子: 顯然A集合的熵值要低,因?yàn)锳里面只有兩種類別,相對(duì)穩(wěn)定一些而B中類別太多了,熵值就會(huì)大很多。(節(jié)點(diǎn)分支后數(shù)據(jù)類別的熵值大還是小呢?)衡量標(biāo)準(zhǔn)-熵熵:不確定性越大,得到的熵值也就越大當(dāng)p=0或p=1時(shí),H(p)=0,隨機(jī)變量完全沒有不確定性當(dāng)p=0.5時(shí),H(p)=1,此時(shí)隨機(jī)變量的不確定性最大如何決策一個(gè)節(jié)點(diǎn)的選擇呢?信息增益:表示特征X使得類Y的不確定性減少的程度。決策樹構(gòu)造實(shí)例數(shù)據(jù):14天打球情況特征:4種環(huán)境變化目標(biāo):構(gòu)造決策樹決策樹決策樹構(gòu)造實(shí)例劃分方式:4種問題:誰當(dāng)根節(jié)點(diǎn)呢?依據(jù):信息增益決策樹決策樹決策樹構(gòu)造實(shí)例在歷史數(shù)據(jù)中(14天)有9天打球,5天不打球,所以此時(shí)的熵應(yīng)為:4個(gè)特征逐一分析,先從outlook特征開始:Outlook=sunny時(shí),熵值為0.971Outlook=overcast時(shí),熵值為0Outlook=rainy時(shí),熵值為0.971決策樹構(gòu)造實(shí)例根據(jù)數(shù)據(jù)統(tǒng)計(jì),outlook取值分別為sunny,overcast,rainy的概率分別為:5/14,4/14,5/14熵值計(jì)算:5/14*0.971+4/14*0+5/14*0.971=0.693(gain(temperature)=0.029gain(humidity)=0.152gain(windy)=0.048)信息增益:系統(tǒng)的熵值從原始的0.940下降到了0.693,增益為0.247同樣的方式可以計(jì)算出其他特征的信息增益,那么我們選擇最大的那個(gè)就可以啦,相當(dāng)于是遍歷了一遍特征,找出來了大當(dāng)家,然后再其余的中繼續(xù)通過信息增益找二當(dāng)家!決策樹算法ID3:信息增益(有什么問題呢?)C4.5:信息增益率(解決ID3問題,考慮自身熵)CART:使用GINI系數(shù)來當(dāng)做衡量標(biāo)準(zhǔn)GINI系數(shù):(和熵的衡量標(biāo)準(zhǔn)類似,計(jì)算方式不相同)連續(xù)值怎么辦?決策樹剪枝策略為什么要剪枝:決策樹過擬合風(fēng)險(xiǎn)很大,理論上可以完全分得開數(shù)據(jù)(想象一下,如果樹足夠龐大,每個(gè)葉子節(jié)點(diǎn)不就一個(gè)數(shù)據(jù)了嘛)剪枝策略:預(yù)剪枝,后剪枝預(yù)剪枝:邊建立決策樹邊進(jìn)行剪枝的操作(更實(shí)用)后剪枝:當(dāng)建立完決策樹后來進(jìn)行剪枝操作決策樹決策樹剪枝策略預(yù)剪枝:限制深度,葉子節(jié)點(diǎn)個(gè)數(shù)葉子節(jié)點(diǎn)樣本數(shù),信息增益量等后剪枝:通過一定的衡量標(biāo)準(zhǔn)(葉子節(jié)點(diǎn)越多,損失越大)集成算法集成算法Ensemblelearning目的:讓機(jī)器學(xué)習(xí)效果更好,單個(gè)不行,群毆走起B(yǎng)agging:訓(xùn)練多個(gè)分類器取平均Boosting:從弱學(xué)習(xí)器開始加強(qiáng),通過加權(quán)來進(jìn)行訓(xùn)練(加入一棵樹,要比原來強(qiáng))Stacking:聚合多個(gè)分類或回歸模型(可以分階段來做)Bagging模型全稱:bootstrapaggregation(說白了就是并行訓(xùn)練一堆分類器)最典型的代表就是隨機(jī)森林啦隨機(jī):數(shù)據(jù)采樣隨機(jī),特征選擇隨機(jī)森林:很多個(gè)決策樹并行放在一起隨機(jī)森林構(gòu)造樹模型:由于二重隨機(jī)性,使得每個(gè)樹基本上都不會(huì)一樣,最終的結(jié)果也會(huì)不一樣Bagging模型樹模型:之所以要進(jìn)行隨機(jī),是要保證泛化能力,如果樹都一樣,那就沒意義了!隨機(jī)森林優(yōu)勢(shì)它能夠處理很高維度(feature很多)的數(shù)據(jù),并且不用做特征選擇在訓(xùn)練完后,它能夠給出哪些feature比較重要容易做成并行化方法,速度比較快可以進(jìn)行可視化展示,便于分析Bagging模型KNN模型:KNN就不太適合,因?yàn)楹茈y去隨機(jī)讓泛化能力變強(qiáng)!Bagging模型樹模型:理論上越多的樹效果會(huì)越好,但實(shí)際上基本超過一定數(shù)量就差不多上下浮動(dòng)了Boosting模型典型代表:AdaBoost,XgboostAdaboost會(huì)根據(jù)前一次的分類效果調(diào)整數(shù)據(jù)權(quán)重解釋:如果某一個(gè)數(shù)據(jù)在這次分錯(cuò)了,那么在下一次我就會(huì)給它更大的權(quán)重最終的結(jié)果:每個(gè)分類器根據(jù)自身的準(zhǔn)確性來確定各自的權(quán)重,再合體Adaboost工作流程每一次切一刀!最終合在一起弱分類器這就升級(jí)了!Stacking模型堆疊:很暴力,拿來一堆直接上(各種分類器都來了)可以堆疊各種各樣的分類器(KNN,SVM,RF等等)分階段:第一階段得出各自結(jié)果,第二階段再用前一階段結(jié)果訓(xùn)練為了刷結(jié)果,不擇手段!Stacking模型堆疊在一起確實(shí)能使得準(zhǔn)確率提升,但是速度是個(gè)問題集成算法是競(jìng)賽與論文神器,當(dāng)我們更關(guān)注于結(jié)果時(shí)不妨來試試!K-MEANS算法K-MEANS算法聚類概念:無監(jiān)督問題:我們手里沒有標(biāo)簽了聚類:相似的東西分到一組難點(diǎn):如何評(píng)估,如何調(diào)參基本概念:要得到簇的個(gè)數(shù),需要指定K值質(zhì)心:均值,即向量各維取平均即可距離的度量:常用歐幾里得距離和余弦相似度(先標(biāo)準(zhǔn)化)優(yōu)化目標(biāo):工作流程:優(yōu)勢(shì):簡(jiǎn)單,快速,適合常規(guī)數(shù)據(jù)集劣勢(shì):K值難確定復(fù)雜度與樣本呈線性關(guān)系很難發(fā)現(xiàn)任意形狀的簇DBSCAN算法DBSCAN算法基本概念:(Density-BasedSpatialClusteringofApplicationswithNoise)核心對(duì)象:若某個(gè)點(diǎn)的密度達(dá)到算法設(shè)定的閾值則其為核心點(diǎn)。(即r鄰域內(nèi)點(diǎn)的數(shù)量不小于minPts)?-鄰域的距離閾值:設(shè)定的半徑r直接密度可達(dá):若某點(diǎn)p在點(diǎn)q的r鄰域內(nèi),且q是核心點(diǎn)則p-q直接密度可達(dá)。密度可達(dá):若有一個(gè)點(diǎn)的序列q0、q1、…qk,對(duì)任意qi-qi-1是直接密度可達(dá)的,則稱從q0到qk密度可達(dá),這實(shí)際上是直接密度可達(dá)的“傳播”。基本概念:密度相連:若從某核心點(diǎn)p出發(fā),點(diǎn)q和點(diǎn)k都是密度可達(dá)的,則稱點(diǎn)q和點(diǎn)k是密度相連的。邊界點(diǎn):屬于某一個(gè)類的非核心點(diǎn),不能發(fā)展下線了直接密度可達(dá):若某點(diǎn)p在點(diǎn)q的r鄰域內(nèi),且q是核心點(diǎn)則p-q直接密度可達(dá)。噪聲點(diǎn):不屬于任何一個(gè)類簇的點(diǎn),從任何一個(gè)核心點(diǎn)出發(fā)都是密度不可達(dá)的基本概念:A:核心對(duì)象B,C:邊界點(diǎn)N:離群點(diǎn)DBSCAN算法工作流程:參數(shù)D:輸入數(shù)據(jù)集參數(shù)?:指定半徑MinPts:密度閾值DBSCANDBSCAN算法參數(shù)選擇:半徑?,可以根據(jù)K距離來設(shè)定:找突變點(diǎn)K距離:給定數(shù)據(jù)集P={p(i);i=0,1,…n},計(jì)算點(diǎn)P(i)到集合D的子集S中所有點(diǎn)之間的距離,距離按照從小到大的順序排序,d(k)就被稱為k-距離。MinPts:k-距離中k的值,一般取的小一些,多次嘗試可視化:\h/blog/visualizing-dbscan-clustering/http\hs://www\h.naft\h/blog/visualizing-k-means-clustering/DBSCAN算法優(yōu)勢(shì):不需要指定簇個(gè)數(shù)可以發(fā)現(xiàn)任意形狀的簇擅長(zhǎng)找到離群點(diǎn)(檢測(cè)任務(wù))劣勢(shì): \h\hclustering/高維數(shù)據(jù)有些困難(可以做降維)參數(shù)難以選擇(參數(shù)對(duì)結(jié)果的影響非常大)Sklearn中效率很慢(數(shù)據(jù)削減策略)貝葉斯貝葉斯貝葉斯簡(jiǎn)介:貝葉斯(約1701-1761)ThomasBayes,英國(guó)數(shù)學(xué)家貝葉斯方法源于他生前為解決一個(gè)“逆概”問題寫的一篇文章生不逢時(shí),死后它的作品才被世人認(rèn)可貝葉斯要解決的問題:正向概率:假設(shè)袋子里面有N個(gè)白球,M個(gè)黑球,你伸手進(jìn)去摸一把,摸出黑球的概率是多大逆向概率:如果我們事先并不知道袋子里面黑白球的比例,而是閉著眼睛摸出一個(gè)(或好幾個(gè))球,觀察這些取出來的球的顏色之后,那么我們可以就此對(duì)袋子里面的黑白球的比例作出什么樣的推測(cè)Why貝葉斯?現(xiàn)實(shí)世界本身就是不確定的,人類的觀察能力是有局限性的我們?nèi)粘K^察到的只是事物表面上的結(jié)果,因此我們需要提供一個(gè)猜測(cè)貝葉斯貝葉斯男生總是穿長(zhǎng)褲,女生則一半穿長(zhǎng)褲一半穿裙子正向概率:隨機(jī)選取一個(gè)學(xué)生,他(她)穿長(zhǎng)褲的概率和穿裙子的概率是多大逆向概率:迎面走來一個(gè)穿長(zhǎng)褲的學(xué)生,你只看得見他(她)貝葉斯貝葉斯假設(shè)學(xué)校里面人的總數(shù)是U個(gè)穿長(zhǎng)褲的(男生):U*P(Boy)*P(Pants|Boy)P(Boy)是男生的概率=60%P(Pants|Boy)是條件概率,即在Boy這個(gè)條件下穿長(zhǎng)褲的概率是多大,這里是100%,因?yàn)樗心猩即╅L(zhǎng)褲穿長(zhǎng)褲的(女生):U*P(Girl)*P(Pants|Girl)求解:穿長(zhǎng)褲的人里面有多少女生穿長(zhǎng)褲總數(shù):U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)P(Girl|Pants)=U*P(Girl)*P(Pants|Girl)/穿長(zhǎng)褲總數(shù)U*P(Girl)*P(Pants|Girl)/[U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)]與總?cè)藬?shù)有關(guān)嗎?U*P(Girl)*P(Pants|Girl)/[U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)容易發(fā)現(xiàn)這里校園內(nèi)人的總數(shù)是無關(guān)的,可以消去P(Girl|Pants)=P(Girl)*P(Pants|Girl)/[P(Boy)*P(Pants|Boy)+P(Girl)*P(Pants|Girl)]化簡(jiǎn):P(Girl|Pants)=P(Girl)*P(Pants|Girl)/[P(Boy)*P(Pants|Boy)+P(Girl)*P(Pants|Girl)]分母其實(shí)就是P(Pants)分子其實(shí)就是P(Pants,Girl)貝葉斯公式拼寫糾正實(shí)例:?jiǎn)栴}是我們看到用戶輸入了一個(gè)不在字典中的單詞,我們需要去猜測(cè):“這個(gè)家伙到底真正想輸入的單詞是什么呢?P(我們猜測(cè)他想輸入的單詞|他實(shí)際輸入的單詞)用戶實(shí)際輸入的單詞記為D(D代表Data,即觀測(cè)數(shù)據(jù))猜測(cè)1:P(h1|D),猜測(cè)2:P(h2|D),猜測(cè)3:P(h1|D)。。。統(tǒng)一為:P(h|D)P(h|D)=P(h)*P(D|h)/P(D)用戶實(shí)際輸入的單詞記為D(D代表Data,即觀測(cè)數(shù)據(jù))對(duì)于不同的具體猜測(cè)h1h2h3..,P(D)都是一樣的,所以在比較P(h1|D)和P(h2|D)的時(shí)候我們可以忽略這個(gè)常數(shù)P(h|D)∝P(h)*P(D|h)對(duì)于給定觀測(cè)數(shù)據(jù),一個(gè)猜測(cè)是好是壞,取決于“這個(gè)猜測(cè)本身獨(dú)立的可能性大?。ㄏ闰?yàn)概率,Prior)”和“這個(gè)猜測(cè)生成我們觀測(cè)到的數(shù)據(jù)的可能性大小。用戶實(shí)際輸入的單詞記為D(D代表Data,即觀測(cè)數(shù)據(jù))對(duì)于不同的具體猜測(cè)h1h2h3..,P(D)都是一樣的,所以在比較P(h1|D)和P(h2|D)的時(shí)候我們可以忽略這個(gè)常數(shù)P(h|D)∝P(h)*P(D|h)對(duì)于給定觀測(cè)數(shù)據(jù),一個(gè)猜測(cè)是好是壞,取決于“這個(gè)猜測(cè)本身獨(dú)立的可能性大?。ㄏ闰?yàn)概率,Prior)”和“這個(gè)猜測(cè)生成我們觀測(cè)到的數(shù)據(jù)的可能性大小。拼寫糾正實(shí)例:貝葉斯方法計(jì)算:P(h)*P(D|h),P(h)是特定猜測(cè)的先驗(yàn)概率比如用戶輸入tlp,那到底是top還是tip?這個(gè)時(shí)候,當(dāng)最大似然不能作出決定性的判斷時(shí),先驗(yàn)概率就可以插手進(jìn)來給出指示——“既然你無法決定,那么我告訴你,一般來說top出現(xiàn)的程度要高許多,所以更可能他想打的是top”模型比較理論最大似然:最符合觀測(cè)數(shù)據(jù)的(即P(D|h)最大的)最有優(yōu)勢(shì)奧卡姆剃刀:P(h)較大的模型有較大的優(yōu)勢(shì)擲一個(gè)硬幣,觀察到的是“正”,根據(jù)最大似然估計(jì)的精神,我們應(yīng)該猜測(cè)這枚硬幣擲出“正”的概率是1,因?yàn)檫@個(gè)才是能最大化P(D|h)的那個(gè)猜測(cè)模型比較理論如果平面上有N個(gè)點(diǎn),近似構(gòu)成一條直線,但絕不精確地位于一條直線上。這時(shí)我們既可以用直線來擬合(模型1),也可以用二階多項(xiàng)式(模型2)擬合,也可以用三階多項(xiàng)式(模型3),特別地,用N-1階多項(xiàng)式便能夠保證肯定能完美通過N個(gè)數(shù)據(jù)點(diǎn)。那么,這些可能的模型之中到底哪個(gè)是最靠譜的呢?奧卡姆剃刀:越是高階的多項(xiàng)式越是不常見垃圾郵件過濾實(shí)例:?jiǎn)栴}:給定一封郵件,判定它是否屬于垃圾郵件D來表示這封郵件,注意D由N個(gè)單詞組成。我們用h+來表示垃圾郵件,h-表示正常郵件P(h+|D)=P(h+)*P(D|h+)/P(D)P(h-|D)=P(h-)*P(D|h-)/P(D)垃圾郵件過濾實(shí)例:先驗(yàn)概率:P(h+)和P(h-)這兩個(gè)先驗(yàn)概率都是很容易求出來的,只需要計(jì)算一個(gè)郵件庫(kù)里面垃圾郵件和正常郵件的比例就行了。D里面含有N個(gè)單詞d1,d2,d3,P(D|h+)=P(d1,d2,..,dn|h+)P(d1,d2,..,dn|h+)就是說在垃圾郵件當(dāng)中出現(xiàn)跟我們目前這封郵件一模一樣的一封郵件的概率是多大!P(d1,d2,..,dn|h+)擴(kuò)展為:P(d1|h+)*P(d2|d1,h+)*P(d3|d2,d1,h+)*..垃圾郵件過濾實(shí)例:P(d1|h+)*P(d2|d1,h+)*P(d3|d2,d1,h+)*..假設(shè)di與di-1是完全條件無關(guān)的(樸素貝葉斯假設(shè)特征之間是獨(dú)立,互不影響)簡(jiǎn)化為P(d1|h+)*P(d2|h+)*P(d3|h+)*..對(duì)于P(d1|h+)*P(d2|h+)*P(d3|h+)*..只要統(tǒng)計(jì)di這個(gè)單詞在垃圾郵件中出現(xiàn)的頻率即可支持向量機(jī)支持向量機(jī)SupportVectorMachine要解決的問題:什么樣的決策邊界才是最好的呢?特征數(shù)據(jù)本身如果就很難分,怎么辦呢?計(jì)算復(fù)雜度怎么樣?能實(shí)際應(yīng)用嗎?目標(biāo):基于上述問題對(duì)SVM進(jìn)行推導(dǎo)SupportVectorMachine決策邊界:選出來離雷區(qū)最遠(yuǎn)的(雷區(qū)就是邊界上的點(diǎn),要LargeMargin)距離的計(jì)算數(shù)據(jù)標(biāo)簽定義數(shù)據(jù)集:(X1,Y1)(X2,Y2)…(Xn,Yn)Y為樣本的類別:當(dāng)X為正例時(shí)候Y=+1當(dāng)X為負(fù)例時(shí)候Y=-1決策方程: (其中是對(duì)數(shù)據(jù)做了變換,后面繼續(xù)說)=> =>優(yōu)化的目標(biāo)通俗解釋:找到一個(gè)條線(w和b),使得離該線最近的點(diǎn)(雷區(qū))能夠最遠(yuǎn)將點(diǎn)到直線的距離化簡(jiǎn)得:(由于 所以將絕對(duì)值展開原始依舊成立)目標(biāo)函數(shù)放縮變換:對(duì)于決策方程(w,b)可以通過放縮使得其結(jié)果值|Y|>=1=>(之前我們認(rèn)為恒大于0,現(xiàn)在嚴(yán)格了些優(yōu)化目標(biāo):由于 ,只需要考慮 (目標(biāo)函數(shù)搞定?。┠繕?biāo)函數(shù)當(dāng)前目標(biāo)

1||??||

,約束條件:常規(guī)套路:將求解極大值問題轉(zhuǎn)換成極小值問題

??,??

1??22如何求解:應(yīng)用拉格朗日乘子法求解拉格朗日乘子法帶約束的優(yōu)化問題: 原式轉(zhuǎn)換:我們的式子:(約束條件不要忘: )SVM求解分別對(duì)w和b求偏導(dǎo),分別得到兩個(gè)條件(由于對(duì)偶性質(zhì))->對(duì)w求偏導(dǎo):對(duì)b求偏導(dǎo):SVM求解帶入原始:其中 完成了第一步求解SVM求解條件:極大值轉(zhuǎn)換成求極小值:條件:SVM求解實(shí)例數(shù)據(jù):3個(gè)點(diǎn),其中正例X1(3,3),X2(4,3),負(fù)例X3(1,1)求解:約束條件:SVM求解實(shí)例原式: ,將數(shù)據(jù)代入由于: 化簡(jiǎn)可得:SVM求解實(shí)例分別對(duì)ɑ1和ɑ2求偏導(dǎo),偏導(dǎo)等于0可得:(并不滿足約束條件,所以解應(yīng)在邊界上)帶入原式=-0.153(不滿足約束帶入原式=-0.25 (滿足啦?。┳钚≈翟?0.25,0,0.25)處取得SVM求解實(shí)例將ɑ結(jié)果帶入求解??=

1?1?4

13,3?11,11122,1?1?18+1?3,3?11,11122,1?1?18+1?44?1 ?6??=???Σ?? ????

??)=1??? ??=1 ??

?? ??

=?2+2=0SVM求解實(shí)例支持向量:真正發(fā)揮作用的數(shù)據(jù)點(diǎn),ɑ值不為0的點(diǎn)soft-margin軟間隔:有時(shí)候數(shù)據(jù)中有一些噪音點(diǎn),如果考慮它們?cè)蹅兊木€就不太好了之前的方法要求要把兩類點(diǎn)完全分得開,這個(gè)要求有點(diǎn)過于嚴(yán)格了,我們來放松一點(diǎn)!為了解決該問題,引入松弛因子soft-margin新的目標(biāo)函數(shù):當(dāng)C趨近于很大時(shí):意味著分類嚴(yán)格不能有錯(cuò)誤當(dāng)C趨近于很小時(shí):意味著可以有更大的錯(cuò)誤容忍C是我們需要指定的一個(gè)參數(shù)!soft-margin拉格朗日乘子法:約束: 同樣的解法:低維不可分問題核變換:既然低維的時(shí)候不可分,那我給它映射到高維呢?低維不可分問題目標(biāo):找到一種變換的方法,也就是 (??)低維不可分問題SupportVectorMachine高斯核函數(shù):線性核函數(shù) 高斯和函數(shù)推薦系統(tǒng)推薦系統(tǒng)19444人在進(jìn)行視頻或語音聊天62.5萬部?jī)?yōu)酷土豆視頻被觀看Facebook共產(chǎn)生701,389賬號(hào)登陸AppStore上已有51,000個(gè)app被下載。。。推薦系統(tǒng)推薦系統(tǒng) 推薦系統(tǒng)推薦系統(tǒng)推薦系統(tǒng)推薦系統(tǒng)協(xié)同過濾協(xié)同過濾如果你現(xiàn)在想看個(gè)電影,但你不知道具體看哪部,你會(huì)怎么做?如何確定一個(gè)用戶是不是和你有相似的品位?如何將鄰居們的喜好組織成一個(gè)排序的目錄?要實(shí)現(xiàn)協(xié)同過濾,需要的步驟?收集用戶偏好找到相似的用戶或物品計(jì)算推薦協(xié)同過濾相似度計(jì)算相似度計(jì)算相似度計(jì)算歐幾里德距離(EuclideanDistance)皮爾遜相關(guān)系數(shù)(PearsonCorrelationCoefficient)Cosine相似度(CosineSimilarity)皮爾遜相關(guān)系數(shù)(PearsonCorrelationCoefficient)協(xié)方差皮爾遜相關(guān)系數(shù)Pearson相關(guān)系數(shù)是用協(xié)方差除以兩個(gè)變量的標(biāo)準(zhǔn)差得到的相似度計(jì)算皮爾遜相關(guān)系數(shù)相似度計(jì)算相似度計(jì)算鄰居的選擇固定數(shù)量的鄰居基于相似度門檻的鄰居協(xié)同過濾協(xié)同過濾基于用戶的協(xié)同過濾基于用戶的協(xié)同過濾要解決的問題已知用戶評(píng)分矩陣MatrixR(一般都是非常稀疏的)推斷矩陣中空格emptycells處的值UserCF存在的問題issues對(duì)于一個(gè)新用戶,很難找到鄰居用戶。對(duì)于一個(gè)物品,所有最近的鄰居都在其上沒有多少打分?;A(chǔ)解決方案相似度計(jì)算最好使用皮爾遜相似度考慮共同打分物品的數(shù)目,如乘上min(n,N)/N n:共同打分?jǐn)?shù)N:指定閾值對(duì)打分進(jìn)行歸一化處理設(shè)置一個(gè)相似度閾值相似度計(jì)算相似度計(jì)算基于用戶的協(xié)同過濾為啥不流行?稀疏問題數(shù)百萬的用戶計(jì)算,這量?人是善變的協(xié)同過濾協(xié)同過濾基于物品的協(xié)同過濾基于物品的協(xié)同過濾優(yōu)勢(shì)!計(jì)算性能高,通常用戶數(shù)量遠(yuǎn)大于物品數(shù)量可預(yù)先計(jì)算保留,物品并不善變 r_51=(0.41*2+0.59*3)/(0.41+0.59)=2.6用戶冷啟動(dòng)問題引導(dǎo)用戶把自己的一些屬性表達(dá)出來利用現(xiàn)有的開放數(shù)據(jù)平臺(tái)根據(jù)用戶注冊(cè)屬性推薦排行榜單物品冷啟動(dòng)問題文本分析主題模型打標(biāo)簽推薦排行榜單協(xié)同過濾協(xié)同過濾協(xié)同過濾協(xié)同過濾基于用戶的推薦 基于物品的推薦實(shí)時(shí)新聞 圖書突然情況 電子商務(wù)電影。。。隱語義模型隱語義模型隱語義模型從數(shù)據(jù)出發(fā),進(jìn)行個(gè)性化推薦用戶和物品之間有著隱含的聯(lián)系隱含因子讓計(jì)算機(jī)能理解就好將用戶和物品通過中介隱含因子聯(lián)系起來隱語義模型分解隱語義模型隱語義模型求解梯度下降方向:迭代求解:隱語義模型負(fù)樣本選擇對(duì)每個(gè)用戶,要保證正負(fù)樣本的平衡(數(shù)目相似)選取那些很熱門,而用戶卻沒有行為的物品對(duì)于用戶—物品集K{(u,i)}其中如果(u,i)是正樣本,則有??????=1,負(fù)樣本則??????=0隱語義模型參數(shù)選擇隱特征的個(gè)數(shù)F,通常F=100學(xué)習(xí)速率alpha,別太大正則化參數(shù)lambda,別太大負(fù)樣本/正樣本比例ratio協(xié)同過濾VS隱語義原理:協(xié)同過濾基于統(tǒng)計(jì),隱語義基于建??臻g復(fù)雜度,隱語義模型較小實(shí)時(shí)推薦依舊難,目前離線計(jì)算多隱語義模型咋解釋呢?不解釋評(píng)估指標(biāo)評(píng)估指標(biāo)評(píng)估標(biāo)準(zhǔn):準(zhǔn)確度:令R(u)是根據(jù)用戶在訓(xùn)練集上的行為給用戶作出的推薦列表,T(u)是用戶在測(cè)試集上的行為列表評(píng)估標(biāo)準(zhǔn):覆蓋率:多樣性:推薦系統(tǒng)推薦系統(tǒng)推薦系統(tǒng)推薦系統(tǒng)目標(biāo)函數(shù):如何最優(yōu)函數(shù)解?集成算法的表示:現(xiàn)在還剩下一個(gè)問題,我們?nèi)绾芜x擇每一輪加入什么f呢?答案是非常直接的,選取一個(gè)f來使得我們的目標(biāo)函數(shù)盡量最大地降低樣本上遍歷葉子節(jié)點(diǎn)上遍歷帶回原目標(biāo)函數(shù)線性判別分析(LDA線性判別分析(LDA)LinearDiscriminantAnalysis用途:數(shù)據(jù)預(yù)處理中的降維,分類任務(wù)歷史:RonaldA.Fisher在1936年提出了線性判別方法目標(biāo):LDA關(guān)心的是能夠最大化類間區(qū)分度的坐標(biāo)軸成分將特征空間(數(shù)據(jù)集中的多維樣本)投影到一個(gè)維度更小的k維子空間中,同時(shí)保持區(qū)分類別的信息LinearDiscriminantAnalysis原理:投影到維度更低的空間中,使得投影后的點(diǎn),會(huì)形成按類別區(qū)分,一簇一簇的情況,相同類別的點(diǎn),將會(huì)在投影后的空間中更接近方法LinearDiscriminantAnalysis監(jiān)督性:LDA是“有監(jiān)督”的,它計(jì)算的是另一類特定的方向投影:找到更合適分類的空間與PCA不同,更關(guān)心分類而不是方差數(shù)學(xué)原理原始數(shù)據(jù): 變換數(shù)據(jù):目標(biāo):找到該投影LinearDiscriminantAnalysisLDA分類的一個(gè)目標(biāo)是使得不同類別之間的距離越遠(yuǎn)越好,同一類別之中的距離越近越好每類樣例的均值:投影后的均值:投影后的兩類樣本中心點(diǎn)盡量分離:線性判別分析(LDA)LinearDiscriminantAnalysis只最大化J(w)就可以了?X1的方向可以最大化J(w),但是卻分的不好散列值:樣本點(diǎn)的密集程度,值越大,越分散,反之,越集中同類之間應(yīng)該越密集些:線性判別分析(LDA線性判別分析(LDA)LinearDiscriminantAnalysis目標(biāo)函數(shù)::散列值公式展開:散列矩陣(scattermatrices):S1+S2:LinearDiscriminantAnalysis分子展開:????稱作類間散布矩陣最終目標(biāo)函數(shù):LinearDiscriminantAnalysis分母進(jìn)行歸一化:如果分子、分母是都可以取任意值的,那就會(huì)使得有無窮解,我們將分母限制為長(zhǎng)度為1拉格朗日乘子法:兩邊都乘以的逆: (w就是矩陣的特征向量了)主成分分析(PCA主成分分析(PCA)PrincipalComponentAnalysis用途:降維中最常用的一種手段目標(biāo):提取最有價(jià)值的信息(基于方差)問題:降維后的數(shù)據(jù)的意義?向量的表示及基變換:解釋 :設(shè)向量B的模為1,則A與B的內(nèi)積值等于A向B所在直線投影的矢量長(zhǎng)度主成分分析(PCA)向量的表示及基變換向量可以表示為(3,2)實(shí)際上表示線性組合:基:(1,0)和(0,1)叫做二維空間中的一組基主成分分析(PCA)基變換基是正交的(即內(nèi)積為0,或直觀說相互垂直)要求:線性無關(guān)主成分分析(PCA主成分分析(PCA)基變換變換:數(shù)據(jù)與一個(gè)基做內(nèi)積運(yùn)算,結(jié)果作為第一個(gè)新的坐標(biāo)分量,然后與第二個(gè)基做內(nèi)積運(yùn)算,結(jié)果作為第二個(gè)新坐標(biāo)的分量數(shù)據(jù)(3,2)映射到基中坐標(biāo):基變換兩個(gè)矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去協(xié)方差矩陣方向:如何選擇這個(gè)方向(或者說基)才能盡量保留最多的原始信息呢?一種直觀的看法是:希望投影后的投影值盡可能分散方差:尋找一個(gè)一維基,使得所有數(shù)據(jù)變換為這個(gè)基上的坐標(biāo)表示后,方差值最大協(xié)方差(假設(shè)均值為0時(shí)):協(xié)方差如果單純只選擇方差最大的方向,后續(xù)方向應(yīng)該會(huì)和方差最大的方向接近重合。解決方案:為了讓兩個(gè)字段盡可能表示更多的原始信息,我們是不希望它們之間存在(線性)相關(guān)性的協(xié)方差:可以用兩個(gè)字段的協(xié)方差表示其相關(guān)性當(dāng)協(xié)方差為0時(shí),表示兩個(gè)字段完全獨(dú)立。為了讓協(xié)方差為0,選擇第二個(gè)基時(shí)只能在與第一個(gè)基正交的方向上選擇。因此最終選擇的兩個(gè)方向一定是正交的。優(yōu)化目標(biāo)將一組N維向量降為K維(K大于0,小于N),目標(biāo)是選擇K個(gè)單位正交基,使原始數(shù)據(jù)變換到這組基上后,各字段兩兩間協(xié)方差為0,字段的方差則盡可能大協(xié)方差矩陣:矩陣對(duì)角線上的兩個(gè)元素分別是兩個(gè)字段的方差,而其它元素是a和b的協(xié)方差。優(yōu)化目標(biāo)協(xié)方差矩陣對(duì)角化:即除對(duì)角線外的其它元素化為0,并且在對(duì)角線上將元素按大小從上到下排列協(xié)方差矩陣對(duì)角化:優(yōu)化目標(biāo)實(shí)對(duì)稱矩陣:一個(gè)n行n列的實(shí)對(duì)稱矩陣一定可以找到n個(gè)單位正交特征向量實(shí)對(duì)稱陣可進(jìn)行對(duì)角化:根據(jù)特征值的從大到小,將特征向量從上到下排列,則用前K行組成的矩陣乘以原始數(shù)據(jù)矩陣X,就得到了我們需要的降維后的數(shù)據(jù)矩陣YPCA實(shí)例數(shù)據(jù):協(xié)方差矩陣:特征值: 特征向量:對(duì)角化:降維:EM算法EM算法Expectation-Maximization:最大似然EM算法推導(dǎo)GMM(高斯混合模型)最大似然估計(jì)一個(gè)栗子:假如你去賭場(chǎng),但是不知道能不能賺錢,你就在門口堵著出來一個(gè)人就問一個(gè)賺了還是賠了,如果問了5個(gè)人都說賺了,那么你就會(huì)認(rèn)為,賺錢的概率肯定是非常大的。已知:(1)樣本服從分布的模型,(2)觀測(cè)到的樣本求解:模型的參數(shù)總的來說:極大似然估計(jì)就是用來估計(jì)模型參數(shù)的統(tǒng)計(jì)學(xué)方法最大似然數(shù)學(xué)問題(100名學(xué)生的身高問題)樣本集X={x1,x2,…,xN}N=100概率密度:p(xi|θ)抽到男生i(的身高)的概率θ是服從分布的參數(shù)獨(dú)立同分布:同時(shí)抽到這100個(gè)男生的概率就是他們各自概率的乘積最大似然數(shù)學(xué)問題(100名學(xué)生的身高問題)最大似然函數(shù): (對(duì)數(shù)是為了乘法轉(zhuǎn)加法)什么樣的參數(shù) 能夠使得出現(xiàn)當(dāng)前這批樣本的概率最大已知某個(gè)隨機(jī)樣本滿足某種概率分布,但是其中具體的參數(shù)不清楚,參數(shù)估計(jì)就是通過若干次試驗(yàn),觀察其結(jié)果,利用結(jié)果推出參數(shù)的大概值。問題又難了一步現(xiàn)在這100個(gè)人中,不光有男生,還有女生(2個(gè)類別,2種參數(shù))男生和女生的身高都服從高斯分布,但是參數(shù)不同(均值,方差)用數(shù)學(xué)的語言描述:抽取得到的每個(gè)樣本都不知道是從哪個(gè)分布抽取的求解目標(biāo):男生和女生對(duì)應(yīng)的身高的高斯分布的參數(shù)是多少加入隱變量用Z=0或Z=1標(biāo)記樣本來自哪個(gè)分布,則Z就是隱變量。最大似然函數(shù):求解:在給定初始值情況下進(jìn)行迭代求解EM算法兩個(gè)硬幣的初始假設(shè)的分布A:0.6幾率正面B:0.5幾率正面投擲出5正5反的概率:pA=C(10,5)*(0.6^5)*(0.4^5)pB=C(10,5)*(0.5^5)*(0.5^5)選擇硬幣A的概率:pA/(pA+pB)=0.45選擇硬幣B的概率1-pA=0.55EM算法EM算法EM算法推導(dǎo)問題:樣本集{x(1),…,x(m)},包含m個(gè)獨(dú)立的樣本。其中每個(gè)樣本i對(duì)應(yīng)的類別z(i)是未知的,所以很難用最大似然求解。上式中,要考慮每個(gè)樣本在各個(gè)分布中的情況。本來正常求偏導(dǎo)就可以了,但是現(xiàn)在log后面還有求和,這就難解了!EM算法推導(dǎo)右式分子分母同時(shí)乘 :為嘛這么干呢?說白了就是要湊-Jensen不等式(Q(z)是Z的分布函數(shù))Jensen不等式設(shè)f是定義域?yàn)閷?shí)數(shù)的函數(shù),如果對(duì)于所有的實(shí)數(shù)x。如果對(duì)于所有的實(shí)數(shù)x,f(x)的二次導(dǎo)數(shù)大于等于0,那么f是凸函數(shù)。如果f是凸函數(shù),X是隨機(jī)變量,那么:E[f(X)]>=f(E[X])實(shí)線f是凸函數(shù),X有0.5的概率是a,有0.5的概率是bX的期望值就是a和b的中值了Jensen不等式Jensen不等式應(yīng)用于凹函數(shù)時(shí),不等號(hào)方向反向于由 是 的期望于假設(shè) 則:Jensen不等式結(jié)論:下界比較好求,所以我們要優(yōu)化這個(gè)下界來使得似然函數(shù)最大優(yōu)化下界迭代到收斂Jensen不等式如何能使得等式成立呢?(取等號(hào)):Jensen中等式成立的條件是隨機(jī)變量是常數(shù):Q(z)是z的分布函數(shù):所有的分子和等于常數(shù)C(分母相同)Q(z)求解由上式可得C就是p(xi,z)對(duì)z求和Q(z)代表第i個(gè)數(shù)據(jù)是來自zi的概率EM算法流程初始化分布參數(shù)θE-step:根據(jù)參數(shù)θ計(jì)算每個(gè)樣本屬于zi的概率(也就是我們的Q)M-Step:根據(jù)Q,求出含有θ的似然函數(shù)的下界并最大化它,得到新的參數(shù)θ不斷的迭代更新下去GMM(高斯混合模型)數(shù)據(jù)可以看作是從數(shù)個(gè)GaussianDistribution中生成出來的GMM由K個(gè)Gaussian分布組成,每個(gè)Gaussian稱為一個(gè)“Component”類似k-means方法,求解方式跟EM一樣不斷的迭代更新下去文本分析文本分析文本數(shù)據(jù)停用詞 1.!2."3.#4.$

一下一個(gè)一些一何語料中大量出現(xiàn)沒啥大用留著過年嘛?

5.%6.&7.'8.(9.)10.*11.+12.,13.-14.--15..16...17....18.......19....................20../21..一一則一則通過一天一定一方面一時(shí)一來一樣一次一片一番一致一般一起Tf-idf:關(guān)鍵詞提取《中國(guó)的蜜蜂養(yǎng)殖》:進(jìn)行詞頻(TermFrequency,縮寫為TF)統(tǒng)計(jì)出現(xiàn)次數(shù)最多的詞是----“的”、“是、“” 這一類最常用詞停用)“中國(guó)”、“蜜蜂”、“養(yǎng)殖”這三個(gè)詞的出現(xiàn)次數(shù)一樣多,重要性是一樣的?"中國(guó)"是很常見的詞,相對(duì)而言,"蜜蜂"和"養(yǎng)殖"不那么常見"逆文檔頻率"(InverseDocumentFrequency,縮寫為IDF)如果某個(gè)詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映了這篇文章的特性正是我們所需要的關(guān)鍵詞Tf-idf:關(guān)鍵詞提取《中國(guó)的蜜蜂養(yǎng)殖》:假定該文長(zhǎng)度為1000個(gè)詞,"中國(guó)"、"蜜蜂"、"養(yǎng)殖"各出現(xiàn)20次,則這三個(gè)詞的"詞頻"(TF)都為0.02搜索Google發(fā)現(xiàn),包含"的"字的網(wǎng)頁(yè)共有250億張,假定這就是中文網(wǎng)頁(yè)總數(shù)。包含"中國(guó)"的網(wǎng)頁(yè)共有62.3億張,包含"蜜蜂"的網(wǎng)頁(yè)為0.484億張,包含"養(yǎng)殖"的網(wǎng)頁(yè)為0.973億張Tf-idf:關(guān)鍵詞提取相似度相似度句子A:我喜歡看電視,不喜歡看電影。句子B:我不喜歡看電視,也不喜歡看電影。分詞:句子A:我/喜歡/看/電視,不/喜歡/看/電影。句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。語料庫(kù):我,喜歡,看,電視,電影,不,也。詞頻:句子A:我1,喜歡2,看2,電視1,電影1,不1,也0。句子B:我1,喜歡2,看2,電視1,電影1,不2,也1。詞頻向量:句子A:[1,2,2,1,1,1,0]句子B:[1,22,11,21]相似度ARIMAARIMA平穩(wěn)性:平穩(wěn)性就是要求經(jīng)由樣本時(shí)間序列所得到的擬合曲線在未來的一段期間內(nèi)仍能順著現(xiàn)有的形態(tài)“慣性”地延續(xù)下去平穩(wěn)性要求序列的均值和方差不發(fā)生明顯變化嚴(yán)平穩(wěn)與弱平穩(wěn):嚴(yán)平穩(wěn):嚴(yán)平穩(wěn)表示的分布不隨時(shí)間的改變而改變。如:白噪聲(正態(tài)),無論怎么取,都是期望為0,方差為1弱平穩(wěn):期望與相關(guān)系數(shù)(依賴性)不變未來某時(shí)刻的t的值Xt就要依賴于它的過去信息,所以需要依賴性差分法:時(shí)間序列在t與t-1時(shí)刻的差值原數(shù)據(jù) 一階差分自回歸模型(AR)描述當(dāng)前值與歷史值之間的關(guān)系,用變量自身的歷史時(shí)間數(shù)據(jù)對(duì)自身進(jìn)行預(yù)測(cè)自回歸模型必須滿足平穩(wěn)性的要求p階自回歸過程的公式定義:值 是常數(shù)項(xiàng)P是階數(shù) 是自相關(guān)系數(shù) 是誤差自回歸模型的限制自回歸模型是用自身的數(shù)據(jù)來進(jìn)行預(yù)測(cè)必須具有平穩(wěn)性必須具有自相關(guān)性,如果自相關(guān)系數(shù)(φi)小于0.5,則不宜采用自回歸只適用于預(yù)測(cè)與自身前期相關(guān)的現(xiàn)象移動(dòng)平均模型(MA)移動(dòng)平均

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論