商務數據挖掘介紹(教授制作)ln12.ppt_第1頁
商務數據挖掘介紹(教授制作)ln12.ppt_第2頁
商務數據挖掘介紹(教授制作)ln12.ppt_第3頁
商務數據挖掘介紹(教授制作)ln12.ppt_第4頁
商務數據挖掘介紹(教授制作)ln12.ppt_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘算法的幾何思想,李保坤老師 西南財經大學統(tǒng)計學院,內容概要,一 數據挖掘介紹 什么是數據挖掘 數據挖掘的主要任務 數據挖掘簡單步驟 二 數據挖掘算法及其幾何思想 分類:分類樹、簡單貝頁斯、Logistic回歸、神經網絡、判別分析、k-最近鄰點 預測:多元線性回歸、神經網絡 數據精簡:主成分分析 探索性分析:聚類 關聯分析:關聯法則 三 西南數據挖掘系統(tǒng),一 數據挖掘介紹 1.1 什么是數據挖掘,是近來創(chuàng)造的名詞,是把統(tǒng)計學、計算機科學的一些思想綜合運用到科學、工程和商業(yè)方面大型數據庫上以發(fā)現事物內在規(guī)律的方法。 數據挖掘是建立在規(guī)模、速度、和簡單化上的統(tǒng)計學; “是用統(tǒng)計學和計算機科學的方法為大型數據建模的一種綜合工具?!蔽业南敕?“會數據挖掘找工作時工資要高一些”! -研究生同學的反饋信息,4,一 數據挖掘介紹 1.1 什么是數據挖掘,數據挖掘概念及商務應用,客戶關系管理 金融 電子商務和互聯網,客戶關系管理,直銷 (Target Marketing) 客戶流失預測/跳槽分析 (Attrition Prediction/Churn Analysis) 欺詐探測 (Fraud Detection) 信用評分 (Credit Scoring),金融,商業(yè)問題:公司債券的定價取決于幾種因素, 公司的風險特征(risk profile)、債務資歷(seniority of debt)、公司歷史等等 解決方案:通過數據挖掘建立預測價格的更為精確的模型,電子商務和互聯網,推薦系統(tǒng) 把點擊鼠標者變成客戶,1.2.1 分類 數據挖掘的一項基本任務就是用類別已知的數據找出規(guī)則,然后把這些規(guī)則用在未進行分類的數據上。 分類或許是數據挖掘應用最廣泛的任務。,一 數據挖掘介紹 1.2 任務,10,一 數據挖掘介紹 1.2 任務,1.2.1 分類舉例 一家金融服務公司為其客戶提供房屋凈值信貸額度。該公司曾把該項貸款發(fā)放給了數千客戶,其中的許多接收者(大約20%)有貸款欺詐行為。該公司希望使用地理信息、人口信息、和經濟狀況信息等變量建立一個模型預測一個申請人將來會不會欺詐。,該信用評分模型給每一個貸款申請人計算還貸欺詐的概率。在此要設定一個閾值,欺詐概率超過閾值的那些申請人將建議不批準。,1.2.2 預測 預測和分類相似,差別在于我們是預測一個變量的數值,而不是一個類別。 當然,在分類時我們試圖去預測一個類別,而“預測”這個術語在數據挖掘里通常指的是預測一個連續(xù)變量的數值。 (另外,預測和估計也經常被混用),一 數據挖掘介紹 1.2 任務,1.2.3 關聯分析 有了儲存客戶交易信息的大型數據庫自然就產生了對購買物品進行的關聯分析(哪種物品和哪種物品是搭配著買的)。通過關聯分析得到的“關聯法則”然后以多種方式被利用。例如,百貨商店可以利用關聯法則在掃描了一個顧客的采購單后印制優(yōu)惠券,優(yōu)惠卷上打折扣的商品是由通過分析大量顧客的采購單得到的關聯法則決定的。,一 數據挖掘介紹 1.2 任務,1.2.4 數據精簡 數據分析經常需要把復雜的數據進行精簡。分析人員不是處理成千上萬種商品,而是希望把數據壓縮成幾個小組。這種把大量的變量(或者記錄)合并而得到一個較小數據集合的過程就叫數據精簡。,一 數據挖掘介紹 1.2 任務,1.2.5 探索性分析 審查和檢驗數據以了解它包含什么信息。 例如為全面了解數據需要減少數據集合的大小或者維數以便讓我們看見森林而不是只看見樹木。相似的變量(即提供類似信息的變量)可以合并到一個變量。類似地,聚類分析可把所有記錄劃分到由相似記錄構成的幾個組里。,一 數據挖掘介紹 1.2 任務,1.2.6 數據顯示 了解數據包含信息的另一個技術是圖形分析。例如,兩個變量之間的散布圖可以讓我們迅速地看到變量之間的關系。,一 數據挖掘介紹 1.2 任務,數據挖掘任務以及工具,分類: k最近鄰點,簡單貝葉斯(Nave Bayes),分類樹,判別分析,Logistic回歸,神經網絡,支持向量機 預測: 回歸,神經網絡,時間序列 關聯法則: 關聯分析 數據精簡: 主成分分析、相關分析、粗糙集 探索性分析 聚類分析,17,一 數據挖掘介紹 1.3 數據挖掘步驟,把數據劃分為 訓練數據和驗證數據 兩個部分,只用訓練數據 訓練模型,得到結果,看一下 結果是否令人滿意,檢查在驗證數據上的 結果是否也令人滿意,研究在驗證數據 上的各種輸出結果,嘗試幾種備擇模型,選擇和部署 最佳模型,二 數據挖掘算法思想和應用 2.1.1 決策樹,幾何思想:把預測變量空間劃分為多個多維空間的“長方形”,每一個“長方形”對應一個類別。,18,19,二 數據挖掘算法思想和應用 2.1.1 決策樹,20,二 數據挖掘算法思想和應用 2.1.1 決策樹,Iris花,21,例如:輸入變量有X1,X2,Xk, 輸出變量y有個類別y1,y2,y3. 假定所有的輸入變量和輸出變量都是隨機變量。假定在每一個輸出類別上輸入變量相互獨立。 針對每一個觀測記錄,計算給定輸入變量值時輸出變量等于每一個類別的條件概率。在某一個類別上的條件概率最大,該觀測記錄就劃為某一類。 對每一個觀測記錄計算: P(Y=y1|X1=x1,X2=x2,Xk=xk) P(Y=y2|X1=x1,X2=x2,Xk=xk) P(Y=y3|X1=x1,X2=x2,Xk=xk),22,二 數據挖掘算法思想和應用 2.1.2 簡單貝葉斯分類思想,23,二 數據挖掘算法思想和應用 2.1.2 簡單貝葉斯,輸出變量只有個類別,即:和 對每一個觀測記錄的輸入變量,計算其輸出變量等于的概率。該概率是輸入變量某線性組合的單調函數。 當該概率大于某個值時劃分到一個類;否則劃分到另一個類。,24,二 數據挖掘算法思想和應用 2.1.3 Logistic回歸,25,二 數據挖掘算法思想和應用 2.1.3 Logistic回歸,Logistic 回歸模型 擬和的,貝葉斯判別 fisher判別函數分類思想: 在輸入變量空間中找一條直線,使得幾個輸出類別在這條直線上的投影盡可能地分開。,26,二 數據挖掘算法思想和應用 2.1.4 判別分析,27,二 數據挖掘算法思想和應用 2.1.4 判別分析,假定K=3 對數據集合中的每一個點,檢查它在預測變量空間中最鄰近的個點,如果這個鄰居中的大多數都屬于某一個類別,那么該點就屬于此類別。 這是“民主投票方式”的分類法,28,二 數據挖掘算法思想和應用 2.1.5 k最近鄰點,29,二 數據挖掘算法思想和應用 2.1.5 k最近鄰點,人類的大腦估計有一百億個神經元,每一個神經元平均和其它10,000個神經元相連接。神經元通過神經突觸接收信號,神經突觸控制著信號的反應。這些神經突觸的網絡連接被認為在大腦活動中起著關鍵作用。 人工神經網絡的靈感來源于科學家對大腦行為研究的生理發(fā)現。,30,二 數據挖掘算法思想和應用 2.1.6 神經網絡,31,二 數據挖掘算法思想和應用 2.1.6 神經網絡,32,二 數據挖掘算法思想和應用 2.1.6 神經網絡,思想:找到一條直線(或者多維空間的超平面) ,使得數據集合的點到該直線的豎直距離平方和 最小,二 數據挖掘算法思想和應用 2.2.1 多元線性回歸,思想:在保證數據信息丟失不多的情況下,把高維空間的數據投影到低維空間。目的是除掉變量之間包含信息的冗余、并降低數據的維數。,34,二 數據挖掘算法思想和應用 2.3.1 主成分分析,35,二 數據挖掘算法思想和應用 2.3.1 主成分分析,聚類分析的目的是根據對象幾種屬性的測量值組成相似對象的幾個集合。關鍵的思想是把數據以一種有利于進行分析的方式歸類。,36,二 數據挖掘算法思想和應用 2.3.2 聚類分析,37,二 數據挖掘算法思想和應用 2.3.2 聚類分析,38,二 數據挖掘算法思想和應用 2.3.2 聚類分析,關聯分析研究的是“什

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論