大數(shù)據(jù)的統(tǒng)計(jì)和挖掘理論_第1頁
大數(shù)據(jù)的統(tǒng)計(jì)和挖掘理論_第2頁
大數(shù)據(jù)的統(tǒng)計(jì)和挖掘理論_第3頁
大數(shù)據(jù)的統(tǒng)計(jì)和挖掘理論_第4頁
大數(shù)據(jù)的統(tǒng)計(jì)和挖掘理論_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)統(tǒng)計(jì)和挖掘理論第1頁數(shù)據(jù)統(tǒng)計(jì)分析什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)挖掘應(yīng)用第2頁統(tǒng)計(jì)是什么統(tǒng)計(jì)是人類思維一個(gè)歸納過程站在一個(gè)路口,看到每過去20輛小轎車時(shí),也有100輛自行車經(jīng)過而且平均每10個(gè)轎車載有12個(gè)人于是,你認(rèn)為小汽車和自行車在這個(gè)路口運(yùn)載能力為24:100這是一個(gè)經(jīng)典統(tǒng)計(jì)思維過程第3頁統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)研究對象是客觀事物數(shù)量關(guān)系和數(shù)量特征,是關(guān)于數(shù)據(jù)搜集、整理、歸納和分析方法論科學(xué),是實(shí)證研究一個(gè)最主要方法。統(tǒng)計(jì)方法廣泛地用于各個(gè)領(lǐng)域,起著信息功效、咨詢功效、監(jiān)督功效、輔助決議功效作用。各個(gè)部門要做出決議、執(zhí)行計(jì)劃、檢驗(yàn)監(jiān)督、宏觀調(diào)控等都需要充分、靈通、可靠統(tǒng)計(jì)資料為基礎(chǔ)。

2、第4頁部分統(tǒng)計(jì)數(shù)字“明天降水概率為40 ”“我冬天去新加坡度假概率為10 ”“該節(jié)目收視率是30%” “調(diào)查結(jié)果表明20%觀眾喜歡某節(jié)目”“抽樣調(diào)查結(jié)果誤差為3%” “支持率95置信區(qū)間為(25%,30%)”“某學(xué)校排名第一”“某縣是貧困縣”第5頁統(tǒng)計(jì)分析做法統(tǒng)計(jì)能夠指導(dǎo)我們搜集數(shù)據(jù)當(dāng)擁有來自一些變量(指標(biāo))數(shù)據(jù)或統(tǒng)計(jì),但缺乏模型來描述這些變量之間關(guān)系情況下,可用統(tǒng)計(jì)方法建立模型在有了一定模型時(shí),統(tǒng)計(jì)能夠確定手中數(shù)據(jù)是否令人信服地支持某種論點(diǎn).模型也用來對未來進(jìn)行預(yù)測統(tǒng)計(jì)直觀圖表展示,能夠使各個(gè)領(lǐng)域教授輕易了解第6頁數(shù)據(jù)統(tǒng)計(jì)分析方法描述統(tǒng)計(jì):主要指取得數(shù)據(jù)后,經(jīng)過分組、相關(guān)圖表、統(tǒng)計(jì)指標(biāo)等對現(xiàn)

3、象加以描述;推斷統(tǒng)計(jì):指經(jīng)過抽樣調(diào)查等非全方面調(diào)查,在取得樣本數(shù)據(jù)情況下,以概率論和數(shù)理統(tǒng)計(jì)為依據(jù),對總體情況進(jìn)行科學(xué)判斷;建立模型對現(xiàn)象之間聯(lián)絡(luò)進(jìn)行模擬,對未來情況進(jìn)行預(yù)測。第7頁總體與樣本總體(母體):是指在某一次統(tǒng)計(jì)分析中研究對象全體。個(gè)體:組成總體每個(gè)單元(產(chǎn)品)叫做個(gè)體??傮w含量(總體大?。嚎傮w中所含個(gè)體數(shù),慣用N表示。樣本容量(樣本大?。簶颖局兴瑯悠窋?shù)目,慣用n表示。抽樣:是指從總體中隨機(jī)抽取樣品組成樣本活動過程。隨機(jī)抽樣:是指要使總體中每一個(gè)個(gè)體(產(chǎn)品)都有同等機(jī)會被抽取出來組成樣本活動過程。樣本(子樣):是指從總體中隨機(jī)抽取出來而且要對它進(jìn)行詳細(xì)研究分析一部分個(gè)體(產(chǎn)品)

4、;樣本是由1個(gè)或若干個(gè)樣品組成。第8頁抽樣方法簡單隨機(jī)抽樣法又叫隨機(jī)抽樣法,是指總體中每個(gè)個(gè)體被抽到機(jī)會是相同。系統(tǒng)抽樣法又叫等距抽樣法或機(jī)械抽樣法。分層抽樣法也叫類型抽樣法。它是從一個(gè)能夠分成不一樣于總體總體(或稱為層)中,按要求百分比從不一樣層中隨機(jī)抽取樣品(個(gè)體)方法。整群抽樣法又叫集團(tuán)抽樣法。是將總體分成許多群,每個(gè)群由個(gè)體按一定方式結(jié)合而成,然后隨機(jī)抽取若干群,并由這些群中全部個(gè)體組成樣本。第9頁抽樣例子某種成品零件分裝在20個(gè)零件箱裝,每箱各裝50個(gè),總共是1000個(gè)。假如想從中取100個(gè)零件作為樣本進(jìn)行測試研究。簡單隨機(jī)抽樣:將20箱零件倒在一起,混合均勻,并將零件從1 1000

5、編號,然后用查隨機(jī)數(shù)表或抽簽方法從中抽出編號毫無規(guī)律100個(gè)零件組成樣本。系統(tǒng)抽樣:將20箱零件倒在一起,混合均勻,并將零件從1 1000編號,然后用查隨機(jī)數(shù)表或抽簽方法先決定起始編號,按相同尾數(shù)抽取100個(gè)零件組成樣本。分層抽樣:20箱零件,每箱都隨機(jī)抽取5個(gè)零件,共100個(gè)組成樣本。整群抽樣:先從20箱零件隨機(jī)抽出2箱,該2箱零件組成樣本。第10頁提要數(shù)據(jù)統(tǒng)計(jì)分析什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)挖掘應(yīng)用第11頁什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘是從大量數(shù)據(jù)(包含文本)中挖掘出隱含、先前未知、對決議有潛在價(jià)值關(guān)系、模式和趨勢,并用這些知識和規(guī)則建立用于決議支持模型,提供預(yù)測性決議支持方法、工具

6、和過程。第12頁什么是數(shù)據(jù)挖掘大量資料型態(tài)或規(guī)則里面要有礦!信用卡消費(fèi)資料:假設(shè)每人平都有1.5張信用卡,每個(gè)月平均消費(fèi)10筆,該行約有150萬客戶。就資料量而言,每個(gè)月約有2,250萬筆消費(fèi)統(tǒng)計(jì),每年約有2億7千萬筆消費(fèi)統(tǒng)計(jì)客戶消費(fèi)型態(tài)或規(guī)則第13頁數(shù)據(jù)挖掘和數(shù)據(jù)統(tǒng)計(jì)分析區(qū)分?jǐn)?shù)據(jù)挖掘是數(shù)據(jù)統(tǒng)計(jì)分析演化和擴(kuò)展。數(shù)據(jù)統(tǒng)計(jì)分析側(cè)重于人為被動分析,而數(shù)據(jù)挖掘側(cè)重于系統(tǒng)依據(jù)一些算法主動發(fā)覺一些有用相關(guān)信息。數(shù)據(jù)挖掘需要人工智能、數(shù)據(jù)庫、機(jī)器語言和統(tǒng)計(jì)分析知識等很多跨學(xué)科知識。第14頁為何需要數(shù)據(jù)挖掘企業(yè)內(nèi)產(chǎn)生了大量業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)和由此產(chǎn)生信息是企業(yè)財(cái)富,它如實(shí)統(tǒng)計(jì)了企業(yè)運(yùn)作本質(zhì)情況。 數(shù)據(jù)挖掘有利

7、于企業(yè)發(fā)覺業(yè)務(wù)趨勢,揭示已知事實(shí), 預(yù)測未知結(jié)果。 “數(shù)據(jù)挖掘”已成為企業(yè)保持竟?fàn)幜Ρ匾椒?。?5頁為何需要數(shù)據(jù)挖掘分析和執(zhí)行能力遠(yuǎn)跟不上信息增加第16頁提要數(shù)據(jù)統(tǒng)計(jì)分析什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)挖掘應(yīng)用第17頁數(shù)據(jù)挖掘工業(yè)標(biāo)準(zhǔn)CRISP-DM定義企業(yè)問題數(shù)據(jù)了解數(shù)據(jù)準(zhǔn)備模型建立模型評定布署與應(yīng)用數(shù)據(jù)源第18頁業(yè)務(wù)了解業(yè)務(wù)了解(Business Understanding)定義企業(yè)目標(biāo)(Determine Business Objective)評定企業(yè)情況(Assess Situation)定義數(shù)據(jù)挖掘目標(biāo)(Determine Data Mining Goals)制訂項(xiàng)目方案

8、(Produce Project Plan)第19頁數(shù)據(jù)了解數(shù)據(jù)了解(Data Understanding)搜集數(shù)據(jù)(Collect Initial Data)描述數(shù)據(jù)(Describe Data)探索數(shù)據(jù)(Explore Data)驗(yàn)證數(shù)據(jù)質(zhì)量(Verify Data Quality)第20頁數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備(Data Preparation)數(shù)據(jù)集(Data Set)選擇數(shù)據(jù)(Select Data)清理數(shù)據(jù)(Clean Data)結(jié)構(gòu)數(shù)據(jù)(Construct Data)集成數(shù)據(jù)(Integrate Data)格式化數(shù)據(jù)(Format Data)第21頁模型建立模型建立(Modeling)

9、選擇建模技術(shù)(Select Modeling Techniques)DT, NN, NB, TS, SC, CL, AR, LR, LR, Text Mining產(chǎn)生測試方案(Generate Test Design)構(gòu)建模型(Build Model)評定模型(Assess Model)第22頁模型評定模型評定(Evaluation)評定結(jié)果(Evaluate Results)回顧數(shù)據(jù)挖掘過程(Review Process)確定下一步(Determine Next Steps)第23頁布署與應(yīng)用將挖掘分析結(jié)果布署到商業(yè)模型中,到達(dá)自動化預(yù)測效果,以提升營運(yùn)利潤、改進(jìn)商業(yè)流程使用對象決議者營銷單

10、位財(cái)務(wù)分析質(zhì)量保障單位第24頁提要數(shù)據(jù)統(tǒng)計(jì)分析什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)挖掘應(yīng)用第25頁數(shù)據(jù)挖掘任務(wù)預(yù)測任務(wù)使用一些變量預(yù)測其它變量未知或者未來變量值描述性任務(wù)找出人類能夠了解,能描述數(shù)據(jù)模式第26頁數(shù)據(jù)挖掘基本任務(wù)分類 預(yù)測聚類 描述回歸分析 預(yù)測關(guān)聯(lián)規(guī)則挖掘 描述第27頁分類與預(yù)測分類(classification)就是找出一組能夠描述數(shù)據(jù)集合經(jīng)典特征模型(或函數(shù)),方便能夠分類識別未知數(shù)據(jù)歸屬或類別(class),即將未知事例映射到某種離散類別之一。分類模型(或函數(shù))能夠經(jīng)過分類挖掘算法從一組訓(xùn)練樣本數(shù)據(jù)(其類別歸屬已知)中學(xué)習(xí)取得。普通使用分類來表示對有限離散值預(yù)測。使

11、用預(yù)測(predication)來表示對連續(xù)數(shù)值預(yù)測第28頁分類與預(yù)測示例一個(gè)商場銷售主管可能會對影響商品銷售主要原因很感興趣,若將用戶對商品感覺分為三類,即:主動、普通和消極。那么利用分類挖掘?qū)ι虉鲣N售商品情況進(jìn)行挖掘,就能夠取得利用商品特征來預(yù)測用戶對其感覺分類知識,相關(guān)商品特征通常包含:價(jià)格、品牌、產(chǎn)地、類型和種類等。而所取得分類規(guī)則顯然將幫助商場主管更有效開展商品促銷活動第29頁分類: 應(yīng)用1直銷目標(biāo): 識別出可能購置某種新型手機(jī)產(chǎn)品用戶,從而降低營銷成本.方法:使用已經(jīng)有類似產(chǎn)品數(shù)據(jù)已知哪些用戶購置了,而哪些沒有,這個(gè) 買, 不買 決議組成了類標(biāo)簽.搜集這些用戶各種人口、生活方式和與

12、企業(yè)業(yè)務(wù)相關(guān)信息行業(yè)類型, 居住地方, 收入等.使用這些信息作為輸入屬性來學(xué)習(xí)分類器模型第30頁分類: 應(yīng)用2欺詐檢測目標(biāo): 預(yù)測出信用卡交易中欺詐行為方法:使用信用卡交易和持卡人信息作為屬性標(biāo)注以往交易為正?;蛘咂墼p交易,形成了類別標(biāo)簽針對交易類別學(xué)習(xí)模型.針對一些信用卡賬戶交易情況,使用該模型來檢測是否欺詐交易第31頁聚類分析給定聚類分析數(shù)據(jù),以及度量數(shù)據(jù)對象之間相同度計(jì)算公式,對象劃分為若干組或簇(clusters),使得:各簇(clusters)內(nèi)部數(shù)據(jù)對象間比較相同各簇(clusters)對象間不相同第32頁分類與聚類分類預(yù)測方法學(xué)習(xí)獲取分類預(yù)測模型所使用數(shù)據(jù)是已知類別歸屬(clas

13、s-labeled data ),屬于有指導(dǎo)學(xué)習(xí)方法;聚類分析所分析處理數(shù)據(jù)均是無(事先確定)類別歸屬,類別歸屬標(biāo)志在聚類分析處理數(shù)據(jù)集中是不存在。所以聚類分析屬于無指導(dǎo)學(xué)習(xí)方法。第33頁聚類: 應(yīng)用1市場細(xì)分目標(biāo): 將一個(gè)市場劃分為若干個(gè)客戶群體,將每個(gè)群體分別作為營銷目標(biāo),使用不一樣營銷組合伎倆進(jìn)行營銷方法: 搜集客戶不一樣屬性,包含地理信息、生活方式相關(guān)信息等找出相同客戶群體經(jīng)過觀察并比較相同簇客戶購置模式和不一樣簇客戶購置模式,評價(jià)聚類質(zhì)量第34頁聚類: 應(yīng)用2文檔聚類目標(biāo): 依據(jù)文檔中包含主要關(guān)鍵詞,將文檔集合劃分為若干個(gè)組.方法: 找出每個(gè)文檔中頻繁出現(xiàn)詞,基于詞頻率,構(gòu)建相同性度

14、量,使用該相同性度量公式來聚類第35頁回歸分析: 定義回歸分析(regression analysis)是研究變量之間相關(guān)關(guān)系一個(gè)統(tǒng)計(jì)方法。普通來說,回歸分析是經(jīng)過要求因變量和自變量來確定變量之間因果關(guān)系,建立回歸模型,并依據(jù)實(shí)測數(shù)據(jù)來求解模型各個(gè)參數(shù)。通俗地講,回歸分析是研究一個(gè)或幾個(gè)影響原因與結(jié)果之間數(shù)學(xué)關(guān)系,即經(jīng)驗(yàn)公式。比如,人身高和體重之間是否有數(shù)學(xué)關(guān)系,即是否有經(jīng)驗(yàn)公式?這就是回歸分析法。第36頁回歸分析類型從自變量數(shù)量分為:一元回歸是指一個(gè)能夠準(zhǔn)確觀察或嚴(yán)格控制變量X,即自變量與因變量Y之間回歸關(guān)系。多元回歸統(tǒng)計(jì)思想與處理方法與一元回歸基本相同,只不過自變量不止一個(gè)。從是否滿足線性

15、關(guān)系分為:假如回歸曲線是線性(如y=a*x1+b*x2+c),稱為一元線性回歸。更復(fù)雜回歸:有時(shí)一元回歸曲線不是線性,這時(shí)需要用多項(xiàng)式回歸或指數(shù)回歸建立數(shù)據(jù)模型。第37頁回歸分析例子一元線性回歸方程用一條直線來模擬兩個(gè)變量間關(guān)系第38頁關(guān)聯(lián)規(guī)則挖掘定義給定一個(gè)統(tǒng)計(jì)集合,每個(gè)統(tǒng)計(jì)由若干項(xiàng)(item)組成產(chǎn)生依賴規(guī)則,使得依據(jù)一些項(xiàng)出現(xiàn)能夠預(yù)測另一些項(xiàng)出現(xiàn)第39頁關(guān)聯(lián)規(guī)則挖掘: 應(yīng)用1市場促銷假設(shè)發(fā)覺一條規(guī)則是面包, - 薯?xiàng)l薯?xiàng)l作為后件 = 能夠用于確定怎樣才能提升其銷量面包作為前件 =能夠知道假如商店不賣面包話,哪些商品會受到影響面包作為前件,而薯?xiàng)l作為后件= 能夠用于確定將什么商品和面包一起銷售能夠提升薯?xiàng)l銷量第40頁關(guān)聯(lián)規(guī)則挖掘: 應(yīng)用2超市貨架管理目標(biāo): 找出被很多用戶一起購置商品方法: 對POS數(shù)據(jù)進(jìn)行處理,發(fā)覺商品之間依賴規(guī)則經(jīng)典規(guī)則 -假如一個(gè)用戶買了尿布和牛奶, 那么他很有可能也會買啤酒智力玩具與減肥藥第41頁提要數(shù)據(jù)統(tǒng)計(jì)分析什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)挖掘應(yīng)用第42頁數(shù)據(jù)挖掘在各產(chǎn)業(yè)應(yīng)用金融服務(wù)業(yè)客戶貢獻(xiàn)度分析、信用評分、風(fēng)險(xiǎn)評定、客戶劃分、交叉營銷等。保險(xiǎn)業(yè)用戶貢獻(xiàn)度分析、信用評分、風(fēng)險(xiǎn)評定、客戶劃分、交叉營銷、客戶流失分析和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論