




已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘算法綜述 張嫻162107201332017 04 28 大數(shù)據(jù)概述 數(shù)據(jù)挖掘算法分類 經(jīng)典算法簡介 1 2 3 大數(shù)據(jù)概述 大數(shù)據(jù)概述 大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)的軟件工具進(jìn)行捕捉 管理和處理的數(shù)據(jù)集合 是由于目前存儲和計算模式與能力不能滿足存儲與處理現(xiàn)有數(shù)據(jù)集規(guī)模的需求而產(chǎn)生的相對概念 大數(shù)據(jù)平臺的設(shè)計 數(shù)據(jù)挖掘算法分類 數(shù)據(jù)挖掘 大數(shù)據(jù)的挖掘是從海量 不完全的 有噪聲的 模糊的 隨機的大型數(shù)據(jù)庫中發(fā)現(xiàn)隱含在其中有價值的 潛在有用的信息和知識的過程 也是一種決策支持過程 大數(shù)據(jù)的挖掘常用的方法有分類 回歸分析 聚類 關(guān)聯(lián)規(guī)則 神經(jīng)網(wǎng)絡(luò)方法 Web數(shù)據(jù)挖掘等 這些方法從不同的角度對數(shù)據(jù)進(jìn)行挖掘 數(shù)據(jù)挖掘算法分類 數(shù)據(jù)挖掘算法分類 經(jīng)典算法簡介 ID3算法 決策樹是一種依托決策而建立起來的一種樹 在機器學(xué)習(xí)中 決策樹是一種預(yù)測模型 代表的是一種對象屬性與對象值之間的一種映射關(guān)系 每一個節(jié)點代表某個對象 樹中的每一個分叉路徑代表某個可能的屬性值 而每一個葉子節(jié)點則對應(yīng)從根節(jié)點到該葉子節(jié)點所經(jīng)歷的路徑所表示的對象的值 決策樹僅有單一輸出 如果有多個輸出 可以分別建立獨立的決策樹以處理不同的輸出 ID3算法 ID3算法是決策樹的一種 它是基于奧卡姆剃刀原理的 即用盡量用較少的東西做更多的事 在信息論中 期望信息越小 那么信息增益就越大 從而純度就越高 ID3算法的核心思想就是以信息增益來度量屬性的選擇 選擇分裂后信息增益最大的屬性進(jìn)行分裂 該算法采用自頂向下的貪婪搜索遍歷可能的決策空間 ID3算法 ID3算法 ID3算法 C4 5算法 C4 5相比于ID3改進(jìn)的地方有 1 用信息增益率來選擇屬性 2 在樹構(gòu)造過程中進(jìn)行剪枝 在構(gòu)造決策樹的時候 那些掛著幾個元素的節(jié)點 不考慮最好 不然容易導(dǎo)致overfitting 3 對非離散數(shù)據(jù)也能處理 4 能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理 K Means算法 K Means算法是聚類算法 k在在這里指的是分類的類型數(shù) 所以在開始設(shè)定的時候非常關(guān)鍵 算法的原理是首先假定k個分類點 然后根據(jù)歐式距離計算分類 然后取同分類的均值作為新的聚簇中心 循環(huán)操作直到收斂 K Means算法 Apriori關(guān)聯(lián)算法 Apriori算法學(xué)習(xí)數(shù)據(jù)的關(guān)聯(lián)規(guī)則 associationrules 適用于包含大量事務(wù) transcation 的數(shù)據(jù)庫 關(guān)聯(lián)規(guī)則學(xué)習(xí)是學(xué)習(xí)數(shù)據(jù)庫中不同變量中的相互關(guān)系的一種數(shù)據(jù)挖掘技術(shù) Apriori關(guān)聯(lián)算法 基本的Apriori算法有三步 1 參與 掃描一遍整個數(shù)據(jù)庫 計算1 itemsets出現(xiàn)的頻率 2 剪枝 滿足支持度和可信度的這些1 itemsets移動到下一輪流程 再尋找出現(xiàn)的2 itemsets 3 重
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CBTMA 0001-2019技術(shù)轉(zhuǎn)移服務(wù)人員職業(yè)規(guī)范
- T/CASTEM 1008-2023科技評估質(zhì)量控制規(guī)范
- T/CARSA 2-2022微納衛(wèi)星高光譜影像數(shù)據(jù)基礎(chǔ)產(chǎn)品規(guī)范
- 哈爾濱物理考試題及答案
- 高考數(shù)學(xué)面試題及答案
- 西山居java面試題及答案
- 安全違法舉報管理制度
- 紅色文化考試題及答案
- 血溢病的臨床護(hù)理
- CNG加氣站冬季運行方案進(jìn)程
- GB/T 31586.1-2015防護(hù)涂料體系對鋼結(jié)構(gòu)的防腐蝕保護(hù)涂層附著力/內(nèi)聚力(破壞強度)的評定和驗收準(zhǔn)則第1部分:拉開法試驗
- GA/T 952-2011法庭科學(xué)機動車發(fā)動機號碼和車架號碼檢驗規(guī)程
- 大壩安全監(jiān)測培訓(xùn)課件
- DB37-T 3449-2019山東省金屬非金屬地下礦山通風(fēng)技術(shù)規(guī)范
- 高等數(shù)學(xué)上冊ppt課件完整版
- 華為WLAN解決方案
- 電力建設(shè)熱工熱控作業(yè)指導(dǎo)書
- 迪奧品牌分析通用PPT課件
- 四川危險廢物經(jīng)營許可證申請書
- 甲醇及制氫裝置預(yù)試車方案
- 分子的立體構(gòu)型
評論
0/150
提交評論