數(shù)據(jù)挖掘基礎培訓_第1頁
數(shù)據(jù)挖掘基礎培訓_第2頁
數(shù)據(jù)挖掘基礎培訓_第3頁
數(shù)據(jù)挖掘基礎培訓_第4頁
數(shù)據(jù)挖掘基礎培訓_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘基礎培訓浪潮通信 李文棟 2016年7月21日數(shù)據(jù)挖掘發(fā)展數(shù)據(jù)豐富和知識匱乏- 信息爆炸、混沌信息空間、數(shù)據(jù)過剩數(shù)據(jù)挖掘發(fā)展數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘是啥?數(shù)據(jù)挖掘(Data Mining,DM),簡單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識,其表示形式有規(guī)則、概念、模式等;又稱為KDD(Knowledge Discovery from Database),它是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復雜過程。數(shù)據(jù)挖掘是多種學科交叉數(shù)據(jù)挖掘技術分類數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘算法 常用算法回歸算法1、線性回歸2、邏輯回歸線性回歸假設要找一個y和x之間的規(guī)律,其中x是鞋子價錢,y是鞋子

2、的銷售量。已知一些往年的銷售數(shù)據(jù)(x0,y0), (x1, y1), . (xn, yn)做樣本集, 并假設它們滿足線性關系:y = a*x + b (其中a,b的具體取值還不確定),線性回歸即根據(jù)往年數(shù)據(jù)找出最佳的a, b取值,使 y = a * x + b 在所有樣本集上誤差最小。事實上一元變量的確很直觀,但如果是多元就難以直觀的看出來了。比如說除了鞋子的價格外,鞋 子的質(zhì)量,廣告的投入,店鋪所在街區(qū)的人流量都會影響銷量,我們想得到這樣的公式:sell = a*x + b*y + c*z + d*zz + e。這個時候畫圖就畫不出來了,規(guī)律也十分難找,那么交給線性回歸去做就好。需要注意的是

3、,這里線性回歸能過獲得好效果的前提是y = a*x + b 至少從總體上是有道理的(因為我們認為鞋子越貴,賣的數(shù)量越少,越便宜賣的越多。另外鞋子質(zhì)量、廣告投入、客流量等都有類似規(guī)律);但并不是所有類型的變 量都適合用線性回歸,前提是選好回歸公式??傊喝绻覀兊墓绻覀兊墓郊僭O是錯的,任何回歸都得不到好結果。式假設是錯的,任何回歸都得不到好結果。邏輯回歸上面我們的sell是一個具體的實數(shù)值,然而很多情況下,我們需要回歸產(chǎn)生一個類似概率值的01之間的數(shù)值。比如某一雙鞋子今天能否賣出去?或者某一個廣告能否被用戶點擊?我們希望得到這個數(shù)值來幫助決策鞋子上不上架,以及廣告展不展示這個數(shù)值必須是01

4、之間,但sell顯然不滿足這個區(qū)間要求。于是引入了Logistic方程,來做歸一化。邏輯回歸就是被歸一化以后的線性回歸。邏輯回歸適用性可用于概率預測,概率最高的TOP-N僅能用于線性問題,聚類算法1、Kmeans2、LDA主題模型KmeansLDA主題模型算法主題在主題模型中,主題表示一個概念、一個方面,表現(xiàn)為一系列相關的單詞,是這些單詞的條件概率。形象來說,主題就是一個桶,里面裝了出現(xiàn)概率較高的單詞,這些單詞與這個主題有很強的相關性。LDA思想如果一篇文章10%和主題A有關,90%和主題B有關,那么和主題B相關的關鍵字出現(xiàn)的次數(shù)大概會是和主題A相關的關鍵字出現(xiàn)次數(shù)的9倍。主題模型試圖用數(shù)學框

5、架來體現(xiàn)文檔的這種特點,自動分析每個文檔,并對文檔內(nèi)的詞語進行統(tǒng)計,根據(jù)統(tǒng)計的信息來斷定當前文檔含有哪些主題,以及每個主題所占的比例各為多少。LDA結果關聯(lián)規(guī)則算法AprioriFPGrowthApriori支持度:P(AB),既有A又有B的概率置信度:P(B|A),在A發(fā)生的事件中同時發(fā)生B的概率p(AB)/P(A)例如購物籃分析:牛奶面包例子:支持度:3%,置信度:40%支持度3%:意味著3%顧客同時購買牛奶和面包置信度40%:意味著購買牛奶的顧客40%也購買面包如果事件A中包含k個元素,那么稱這個事件A為k項集事件A滿足最小支持度閾值的事件稱為頻繁k項集。Apriori圖示FPGrowt

6、h優(yōu)勢Apriori通過不斷的構造候選集、篩選候選集挖掘出頻繁項集,需要多次掃描原始數(shù)據(jù),當原始數(shù)據(jù)較大時,磁盤I/O次數(shù)太多,效率比較低下。FPGrowth算法則只需掃描原始數(shù)據(jù)兩遍,通過FP-tree數(shù)據(jù)結構對原始數(shù)據(jù)進行壓縮,效率較高。FPGrowth推薦算法1、ALS2、協(xié)同過濾ALS對于一個users-products-rating的評分數(shù)據(jù)集,ALS會建立一個user*product的m*n的矩陣其中,m為users的數(shù)量,n為products的數(shù)量假設m*n的評分矩陣R,可以被近似分解成U*(V)TU為m*d的用戶特征向量矩陣V為n*d的產(chǎn)品特征向量矩陣d為user/produc

7、t的特征值的數(shù)量協(xié)同過濾核心思想:大家一般更傾向于從口味比較類似的朋友那里得到推薦。計算相似度基于用戶推薦基于物品推薦分類算法1、樸素貝葉斯2、決策樹3、隨機森林樸素貝葉斯判斷:X=(女性,年齡介于3145之間,不具學生身份,收入中等)會不會辦理信用卡。解:首先根據(jù)訓練樣本計算各屬性相對于不同分類結果的條件概率:P(辦卡)=7/10 P(不辦卡)=3/10P(女性|辦卡)=5/7 P(女性|不辦卡)=1/3P(年齡=3145|辦卡)=3/7P(年齡=3145|不辦卡)=1/3P(學生=否|辦卡)=5/7 P(學生=否|不辦卡)=0/3P(收入=中|辦卡)=2/7 P(收入=中|不辦卡)=2/3

8、 其次,再應用樸素貝氏分類器進行類別預測:計算P(辦卡)P(女性|辦卡)P(年齡3145|辦卡)P(不是學生|辦卡)P(收入中|辦卡) =15/3430.044P(不辦卡)P(女性|不辦卡)P(年齡3145|不辦卡)P(不是學生|不辦卡)P(收入中等|不辦卡)=00.0440決策樹生成規(guī)則判斷一個特征對于當前數(shù)據(jù)集的分類效果。也就是按照這個特征進行分類后,數(shù)據(jù)集是否更加有序。ID3 計算信息的增益率,然后選擇增益率最大的屬性進行分裂。隨機森林隨機森林顧名思義,是用隨機的方式建立一個森林,森林里面有很多的決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯(lián)的。在得到森林之后,當有一個新的輸 入樣本進

9、入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬于哪一類(對于分類算法),然后看看哪一類被選擇最多,就預測這個樣本 為那一類。按這種算法得到的隨機森林中的每一棵都是很弱的,但是大家組合起來就很厲害了。我覺得可以這樣比喻隨機森林算法:每一棵決策樹就是一個精通于某一個窄領域 的專家(因為我們從M個feature中選擇m讓每一棵決策樹進行學習),這樣在隨機森林中就有了很多個精通不同領域的專家,對一個新的問題(新的輸入數(shù) 據(jù)),可以用不同的角度去看待它,最終由各個專家,投票得到結果。神經(jīng)網(wǎng)絡1、CNN卷積2、RNN循環(huán)3、DNN深度RNNRNN按照時間展開DNNCNN依然是一個分類器。黑盒Deep Lea

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論