版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
機器學習概述章節(jié)介紹隨著大數(shù)據(jù)的發(fā)展和計算機運算能力的不斷提升,人工智能在最近幾年取得令人矚目的成就,目前在很多行業(yè)都開始應用機器學習技術(shù),從而獲取更深刻的洞察,為企業(yè)經(jīng)營或日常生活提供幫助,提升產(chǎn)品服務水平。機器學習已經(jīng)廣泛應用于數(shù)據(jù)挖掘、搜索引擎、電子商務、自動駕駛、圖像識別、量化投資、自然語言處理、計算機視覺、醫(yī)學診斷、信用卡欺詐檢測、證券金融市場分析、游戲和機器人等領域,在分析中使用機器學習的現(xiàn)實意義是獲得有用信息,隨著機器學習相關技術(shù)的進步,促進了人工智能在多個領域的發(fā)展機器學習概論機器學習常見問題機器學習方法及其應用從事機器學習工作的準備機器學習定義機器學習(MachineLearning)是計算機科學的子領域,也是人工智能的一個分支和實現(xiàn)方式。TomMitchell在他1997年出版的《MachineLearning》一書中指出機器學習這門學科所關注的是計算機程序如何隨著經(jīng)驗積累自動提高性能。同時給出了形式化的描述:對于某類任務T和性能度量P,如果一個計算機程序在T上以P衡量的性能隨著經(jīng)驗E而自我完善,那么就稱這個計算機程序在從經(jīng)驗E學習。機器學習是一門用來設計算法的學科,這些算法能夠從數(shù)據(jù)中構(gòu)造預測和描述模型。機器學習主要的理論基礎涉及到概率論、數(shù)理統(tǒng)計、數(shù)值逼近、最優(yōu)化理論、計算復雜理論等,核心要素是數(shù)據(jù)、算法和模型。機器學習的本質(zhì)機器學習的任務是學習大量數(shù)據(jù)中隱藏的模式,利用這種模式可以對新的樣本進行判別和預測(泛化性)。用數(shù)據(jù)優(yōu)化計算機程序的模型參數(shù)通過經(jīng)驗自動改進的計算機算法預測(Estimation)分類(Classification)機器學習的發(fā)展機器學習的發(fā)展分為知識推理期、知識工程期、淺層學習(ShallowLearning)和深度學習(DeepLearning)幾個階段。在機器學習的發(fā)展過程中,隨著人們對智能的理解和現(xiàn)實問題的解決方法演變,大致出現(xiàn)了符號主義、貝葉斯、聯(lián)結(jié)主義、進化主義、行為類推主義五大流派。機器學習的演化機器學習、人工智能和數(shù)據(jù)挖掘機器學習、人工智能和數(shù)據(jù)挖掘機器學習是人工智能的一個分支,它是實現(xiàn)人工智能的一個核心技術(shù),即以機器學習為手段解決人工智能中的問題。機器學習是通過一些讓計算機可以自動“學習”的算法并從數(shù)據(jù)中分析獲得規(guī)律,然后利用規(guī)律對新樣本進行預測。數(shù)據(jù)挖掘是從大量的業(yè)務數(shù)據(jù)中挖掘隱藏、有用的、正確的知識促進決策的執(zhí)行。數(shù)據(jù)挖掘的很多算法都來自于機器學習,并在實際應用中進行優(yōu)化。機器學習最近幾年也逐漸跳出實驗室,解決從實際的數(shù)據(jù)中學習模式,解決實際問題。數(shù)據(jù)挖掘和機器學習的交集越來越大。議程機器學習典型應用領域藝術(shù)創(chuàng)作金融領域醫(yī)療領域自然語言處理網(wǎng)絡安全工業(yè)領域娛樂行業(yè)機器學習流程機器學習是一門入門容易但精通難的學科機器學習分析人員需要掌握行業(yè)知識以了解業(yè)務流程、理解數(shù)據(jù)背后的隱含信息以合理解讀數(shù)據(jù)、從變化的角度和時間維度把握需求以確定使用哪些數(shù)據(jù),這是數(shù)據(jù)分析的基礎機器學習的主要流程是明確分析目標、數(shù)據(jù)收集、數(shù)據(jù)預處理、建模分析、結(jié)果評估、部署使用以及學習更新。機器學習怎么做明確數(shù)據(jù)分析目標思考:經(jīng)營活動中有哪些困惑案例分析:用戶換機,23轉(zhuǎn)4G,離網(wǎng)率上升等明確數(shù)據(jù)分析目標是機器學習首要的重要步驟,這個步驟需要與用戶進行充分的溝通。項目主題:中國移動客戶細分模型項目范圍:本期項目以樂山市為試點城市項目目的:按用戶行為進行細分,客觀反映用戶需求。通過對各類人群的深入分析,為相關部門制訂資費、服務、市場策略提供基礎。項目內(nèi)容:建立客戶細分模型結(jié)合各部門需求對客戶細分群進行詳細分析協(xié)助市場經(jīng)營部進行相關服務、市場活動的策劃機器學習怎么做數(shù)據(jù)收集思考:離網(wǎng)用戶特征,23轉(zhuǎn)4G,IPTV內(nèi)容推薦等收集相關的數(shù)據(jù)(內(nèi)部業(yè)務系統(tǒng)的數(shù)據(jù)、外部數(shù)據(jù))外部數(shù)據(jù)可以通過網(wǎng)絡爬蟲、購買或交易方式獲得。充足、全面的高質(zhì)量數(shù)據(jù)是機器學習的基礎。機器學習怎么做數(shù)據(jù)預處理數(shù)據(jù)可能存在著噪聲、不一致、異常、個人隱私保護等各類問題。數(shù)據(jù)清理為保證數(shù)據(jù)的質(zhì)量,必要的數(shù)據(jù)治理是需要的。思考:數(shù)據(jù)的質(zhì)量滿足機器學習的要求嗎?機器學習怎么做數(shù)據(jù)建模思考:用戶換機模型算法本身沒有絕對的好壞,不同的機器學習算法都有各自的使用范圍。選擇合適的建模方法或算法,算法的好壞需要實驗比較確定。此階段是機器學習的核心部分,使用精巧復雜的分析方法從數(shù)據(jù)中提取知識,包括選擇建模技術(shù)、生成測試設計以及構(gòu)建和評估模型。算法調(diào)優(yōu)(包括參數(shù)或結(jié)構(gòu)等方面)機器學習算法是科學,應用是藝術(shù)。機器學習怎么做效果評估思考:用戶換機模型效果評估?選定模型之后,就可以評估機器學習結(jié)果在多大程度上能夠幫助實現(xiàn)業(yè)務目標。此階段的要素包括評估學習結(jié)果,以便為機器學習的過程提供反饋。樣本測試、現(xiàn)場抽樣實驗等。機器學習怎么做部署使用更新思考:機器學習的模型是否真正解決了客戶的問題?有效的機器學習結(jié)果會改善客戶業(yè)務決策的效果,給客戶帶來價值。因為業(yè)務可能發(fā)生變化,在部署過程中需要更新機器學習的模型等。機器學習不是一勞永逸的事情(遞增式學習)。機器學習概論機器學習常見問題機器學習方法及其應用從事機器學習工作的準備機器學習常用算法為什么需要算法?算法很高冷嗎?為什么要學習算法?機器學習算法分類數(shù)據(jù)可視化在機器學習中的作用:(1)視覺是人類獲得信息的最主要途徑;(2)可視化本身就是一種機器學習方法;(3)可視化可以作為數(shù)據(jù)預處理的方法或者是機器學習過程的表示方式。(4)機器學習的結(jié)果也可以用可視化的形式表示。數(shù)據(jù)可視化機器學習常用算法分類算法分類與回歸的區(qū)別決策樹原理分類算法相親模型根據(jù)用戶ARPU值預估用戶收入回歸分析是分析一個變量與其他一個(或幾個)變量之間的相關關系的統(tǒng)計方法。分類就是通過分析訓練集中的數(shù)據(jù),為每個類別做出準確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其它數(shù)據(jù)對象進行分類。決策樹、支持向量機、神經(jīng)網(wǎng)絡、樸素貝葉斯、Bayes網(wǎng)絡、k-最近鄰等是幾種常用的分類方法。判定樹分類算法output訓練集決策樹input新數(shù)據(jù)分類機器學習常用算法常用分類算法典型應用支持向量機決策樹議程神經(jīng)網(wǎng)絡傳統(tǒng)的神經(jīng)網(wǎng)絡為BP神經(jīng)網(wǎng)絡,基本網(wǎng)絡結(jié)構(gòu)為輸入層、隱藏層和輸出層,節(jié)點代表神經(jīng)元,邊代表權(quán)重值,對輸入值按照權(quán)重和偏置計算后將結(jié)果傳給下一層,通過不斷的訓練修正權(quán)重和偏置。遞歸神經(jīng)網(wǎng)絡(RNN)、卷積神經(jīng)網(wǎng)絡(CNN)都在神經(jīng)網(wǎng)絡在深度學習上的變種。神經(jīng)網(wǎng)絡的訓練主要包括前向傳輸和反向傳播。神經(jīng)網(wǎng)絡的結(jié)果準確性與訓練集的樣本數(shù)量和分類質(zhì)量有關。神經(jīng)網(wǎng)絡是基于歷史數(shù)據(jù)構(gòu)建的分析模型,新數(shù)據(jù)產(chǎn)生時需要動態(tài)優(yōu)化網(wǎng)絡的結(jié)構(gòu)和參數(shù)。數(shù)據(jù)挖掘常用算法神經(jīng)網(wǎng)絡和深度學習多層前饋神經(jīng)網(wǎng)絡常見的深度學習神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡議程深度學習深度學習是通過構(gòu)建多個隱藏層和大量數(shù)據(jù)來學習特征,從而提升分類或預測的準確性。與神經(jīng)網(wǎng)絡相比,層數(shù)更多,而且有逐層訓練機制避免梯度擴散。深度學習包括了卷積神經(jīng)網(wǎng)絡(CNN)深度神經(jīng)網(wǎng)絡(DNN)循環(huán)神經(jīng)網(wǎng)絡(RNN)對抗神經(jīng)網(wǎng)絡(GAN)深度學習中訓練集、開發(fā)集、測試集的樣本比例一般為6:2:2。常見的權(quán)重更新方式包括SGD和Momentum。機器學習常用算法聚類算法淘寶潛在用戶分析社交網(wǎng)絡用戶分析聚類分析是把一個給定的數(shù)據(jù)對象(樣本)集合分成不同的簇(組)。聚類就是把整個數(shù)據(jù)分成不同的組,并使組與組之間的差距盡可大,組內(nèi)數(shù)據(jù)的差異盡可能小。K-means是一種常用的聚類算法,用戶指定聚類的類別數(shù)K,隨機地選擇K個對象作為K個初始聚類中心。對剩余的每個對象,分別計算與初始聚類中心的距離,根據(jù)距離劃到不同的簇。然后重新計算每個簇的平均值,求出新的聚類中心,再重新聚類。這個過程不斷重復,直到收斂(相鄰兩次計算的聚類中心相同)。議程聚類算法聚類是基于無監(jiān)督學習的分類模型,按照數(shù)據(jù)內(nèi)在結(jié)構(gòu)特征進行聚集形成簇群。聚集方法即記錄之間的區(qū)分規(guī)則。聚類與分類的主要區(qū)別是其不關心數(shù)據(jù)的類別。聚類首先選擇有效特征向量,然后按照距離函數(shù)進行相似度計算。聚類應用廣泛客戶群體特征、消費者行為分析、市場細分、交易數(shù)據(jù)分析動植物種群分類、醫(yī)療領域的疾病診斷、環(huán)境質(zhì)量檢測。議程常見聚類算法基于層次聚類(HierarchicalMethod)BIRCH(BalancedIterativeReducingandClusteringUsingHierarchies)CURE(ClusteringUsingRepresentatives)基于劃分的聚類K均值(K-Means)基于密度的聚類DBSCAN(Density-basedspatialclusteringofapplicationswithnoise)OPTICS(OrderingPointsToIdentifytheClusteringStructure)基于機器學習的聚類基于約束的聚類基于網(wǎng)絡的聚類議程回歸分析回歸分析是一種研究自變量和因變量之間關系的預測模型,用于分析當自變量發(fā)生變化時,因變量的變化值回歸分析可以用于定性預測分析和定量分析各變量間的相關關系回歸分析包括線性回歸邏輯回歸多項式回歸逐步回歸嶺回歸LASSO回歸議程關聯(lián)分析關聯(lián)分析(AssociativeAnalysis)通過對數(shù)據(jù)集中某些屬性同時出現(xiàn)的規(guī)律和模式來發(fā)現(xiàn)其中的屬性間的關聯(lián)、相關、因果等關系,典型應用是購物籃分析。關聯(lián)分析包括Apriori算法和FP-Growth算法。Apriori算法的基本思想是先找出所有的頻繁項集,然后由頻繁項集產(chǎn)生強關聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小置信度。
算法要多次掃描樣本集,需要由候選頻繁項集生成頻繁項集。FP-Growth算法是基于FP樹生成頻繁項集的,算法只掃描兩次數(shù)據(jù)集,且不使用候選項集,直接按照支持度構(gòu)造出一個頻繁模式樹,用這棵樹生成關聯(lián)規(guī)則。關聯(lián)分析已經(jīng)在客戶購物行為分析、電子推薦、產(chǎn)品質(zhì)量檢測、
文檔主題分析等得到了廣泛應用。<分布式機器學習<并行化的機器學習算法基于MapReduce計算框架,還有多種分布式機器學習算法:并行化的聚類算法并行化的關聯(lián)分析算法并行化的多元線性回歸分析數(shù)據(jù)挖掘常用算法推薦算法為應對網(wǎng)絡信息的爆炸,電子推薦系統(tǒng)提供一種特定的信息過濾技術(shù),預測和展示用戶可能感興趣的商品,從而節(jié)省了用戶的時間。推薦系統(tǒng)采用一種或者組合多種推薦方法,對用戶偏好的輸入數(shù)據(jù)進行處理,找出用戶可能感興趣的信息或者商品進行推薦。基于內(nèi)容的推薦:需要把握用戶的偏好特征,通??梢苑治鲇脩魹g覽過的內(nèi)容,從中抽取重要的關鍵詞,并利用文獻檢索的方法。然后計算商品的描述特征向量與用戶的特征向量的相似程度,對候選的信息或商品集合進行過濾,產(chǎn)生用戶可能感興趣的推薦列表?;趨f(xié)同過濾的推薦:找出與用戶偏好相似的用戶鄰居集合,把鄰居集的偏好商品集作為推薦的候選。此外,也可以尋找用戶以前的偏好信息或商品的相似項目集合推薦。商品、新聞、APP、專家、影視、音樂等推薦機器學習概論機器學習常見問題機器學習方法及其應用從事機器學習工作的準備機器學習常見問題數(shù)據(jù)質(zhì)量問題與預處理機器學習常見陷阱機器學習方法的選擇機器學習結(jié)果的評價數(shù)據(jù)質(zhì)量問題與預處理數(shù)據(jù)質(zhì)量要求數(shù)據(jù)是完整的和真實的,并且具有一致性和可靠性“垃圾進,垃圾出”數(shù)據(jù)預處理占用整個機器學習項目60%的工作量問題數(shù)據(jù)量較少數(shù)據(jù)量過多維度災難數(shù)據(jù)不完整異常數(shù)據(jù)重復數(shù)據(jù)數(shù)據(jù)不一致議程數(shù)據(jù)量較少數(shù)據(jù)挖掘需要一定的數(shù)據(jù)量作支撐,盡量覆蓋領域。數(shù)據(jù)量增多,其中的規(guī)律會越發(fā)明顯,也更易發(fā)現(xiàn)與分析目標相關的因素神經(jīng)網(wǎng)絡深度學習一般來說,數(shù)據(jù)量是自變量數(shù)量的10~20倍為佳。數(shù)據(jù)樣本需要有足夠的覆蓋范圍,需要覆蓋與分析目標相關的維度。議程數(shù)據(jù)量過多數(shù)據(jù)量過多時,對全部數(shù)據(jù)集進行分析要耗費更多的計算資源,要求硬件配置較高,可應用數(shù)據(jù)采樣技術(shù)隨機提取樣本子集。對海量的同質(zhì)化數(shù)據(jù),可通過聚集技術(shù)按照時間、空間等屬性進行均值等匯總,減少數(shù)據(jù)數(shù)量。數(shù)據(jù)集不平衡問題可能導致出現(xiàn)較大的結(jié)果誤差,因此要對數(shù)據(jù)集應用采樣技術(shù)或?qū)Ξ惓?shù)據(jù)進行復制,提高其占比。議程維度災難當數(shù)據(jù)中的自變量較多時,會出現(xiàn)維度災難問題。特別是在矩陣數(shù)據(jù)中,其中冗余變量占比比較高時,可用數(shù)據(jù)變成稀疏矩陣,在分類算法處理時就沒辦法可靠地進行類別劃分,在聚類算法中則容易使聚類質(zhì)量下降??刹捎镁€性代數(shù)的相關方法將數(shù)據(jù)從高維空間影射到低維空間中主成分分析(PCA)奇異值分解(SVD)議程數(shù)據(jù)不完整數(shù)據(jù)的種類要多,種類多少直接影響數(shù)據(jù)挖掘方法的選擇,可以通過編寫程序抓取外部數(shù)據(jù)作為補充。數(shù)據(jù)缺失也是數(shù)據(jù)不完整的一種表現(xiàn),包括了空白值、空值、無效值等。需要針對不同原因?qū)θ笔е颠M行數(shù)據(jù)預處理,有多種方法可以操作采用眾數(shù)、中位數(shù)、均值、最短距離等方法進行人為補充通過回歸或貝葉斯定理等預測缺失值刪除含有缺失值的數(shù)據(jù)議程異常數(shù)據(jù)異常數(shù)據(jù)分為錯誤的數(shù)據(jù)和小概率事件(又稱稀有事件)兩類對錯誤數(shù)據(jù),需要將其剔除或修正對稀有事件,如信用卡欺詐行為、垃圾郵件,需要重點分析其特征數(shù)據(jù)分析常見陷阱(1)錯誤理解相關關系事物間的相關性并不意味著存在因果關系,或者有可能其因果關系顛倒了需要深入理解業(yè)務,規(guī)避大部分錯誤需要分析是否由第三方變量同時引起兩種變量的變化,找出其原因錯誤的比較對象機器學習中的結(jié)果或效果進行比較時,容易將不同樣本集進行結(jié)果比較,比較對象不合理,其結(jié)果自然無效,結(jié)論便不能成立數(shù)據(jù)抽樣數(shù)據(jù)抽樣時如果出現(xiàn)偏差可能會影響分析結(jié)果需要考慮采樣標準
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東水利電力職業(yè)技術(shù)學院《數(shù)字邏輯設計》2023-2024學年第一學期期末試卷
- 廣東生態(tài)工程職業(yè)學院《建筑裝飾工程概預算》2023-2024學年第一學期期末試卷
- 廣東梅州職業(yè)技術(shù)學院《地下水污染與防治》2023-2024學年第一學期期末試卷
- 【2022屆走向高考】高三數(shù)學一輪(人教B版)基礎鞏固:第2章-第1節(jié)-函數(shù)及其表示
- 廣東省揭陽市榕城區(qū)2024-2025年第一學期期終質(zhì)量檢測小學五年級語文科試卷(有答案)
- 【金版學案】2014-2021學年高中歷史優(yōu)化訓練(人教版必修3)第11課-物理學的重大進展
- 【全程復習方略】2020年人教A版數(shù)學理(福建用)課時作業(yè):第十章-第九節(jié)離散型隨機變量的均值與方差
- 2022屆《創(chuàng)新設計》數(shù)學一輪課時作業(yè)(文科)(浙江專用)-第四章-三角函數(shù)、解三角形-4-2
- 四年級數(shù)學(四則混合運算)計算題專項練習與答案匯編
- 會議應急預案策劃包括哪些內(nèi)容
- 2025版工業(yè)制造工程墊資建設合同2篇
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應用實踐指導材料之4:4組織環(huán)境-4.2理解相關方的需求和期望(雷澤佳編制-2025B0)
- 2024年一級支行行長競聘演講稿例文(4篇)
- 健身房銷售人員培訓
- 建筑工程施工合同:游泳館建設
- 中建中建機械頂管專項方案范本
- 機動車檢測站程序文件(根據(jù)補充要求修訂)
- 廣東省廣州市2022-2023學年高二上學期期末考試化學試題
- 2024-2025學年 數(shù)學二年級上冊冀教版期末測試卷(含答案)
- 人教版-六年級上數(shù)學-扇形統(tǒng)計圖單元測試(含答案)
- 2023年題工會基礎知識試題及答案
評論
0/150
提交評論