大數(shù)據(jù)分析方法及工具應(yīng)用 大數(shù)據(jù)分析法課件_第1頁
大數(shù)據(jù)分析方法及工具應(yīng)用 大數(shù)據(jù)分析法課件_第2頁
大數(shù)據(jù)分析方法及工具應(yīng)用 大數(shù)據(jù)分析法課件_第3頁
大數(shù)據(jù)分析方法及工具應(yīng)用 大數(shù)據(jù)分析法課件_第4頁
大數(shù)據(jù)分析方法及工具應(yīng)用 大數(shù)據(jù)分析法課件_第5頁
已閱讀5頁,還剩123頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析及工具應(yīng)用2022/11/16大數(shù)據(jù)分析及工具應(yīng)用2022/11/10目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析聚類分析分類與回歸時(shí)序模型結(jié)構(gòu)優(yōu)化2022/11/16目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支數(shù)據(jù)分析即從數(shù)據(jù)、信息到知識的過程,數(shù)據(jù)分析需要數(shù)學(xué)理論、行業(yè)經(jīng)驗(yàn)以及計(jì)算機(jī)工具三者結(jié)合分析誤區(qū)數(shù)據(jù)挖掘工具支撐數(shù)學(xué)&統(tǒng)計(jì)學(xué)知識行業(yè)經(jīng)驗(yàn)傳統(tǒng)分析機(jī)器學(xué)習(xí)數(shù)學(xué)&統(tǒng)計(jì)學(xué)知識數(shù)據(jù)分析的基礎(chǔ),將整理、描述、預(yù)測數(shù)據(jù)的手段、過程抽象為數(shù)學(xué)模型的理論知識工具支撐各種廠商開發(fā)了數(shù)據(jù)分析的工具、模塊,將分析模型封裝,使不了解技術(shù)的人也能夠快捷的實(shí)現(xiàn)數(shù)學(xué)建模,快速響應(yīng)分析需求。行業(yè)經(jīng)驗(yàn)行業(yè)經(jīng)驗(yàn)可在數(shù)據(jù)分析前確定分析需求,分析中檢驗(yàn)方法是否合理,以及分析后指導(dǎo)應(yīng)用,但行業(yè)特征不同,其應(yīng)用也不同,因此本文不展開介紹傳統(tǒng)分析在數(shù)據(jù)量較少時(shí),傳統(tǒng)的數(shù)據(jù)分析已能夠發(fā)現(xiàn)數(shù)據(jù)中包含的知識,包括結(jié)構(gòu)分析、杜邦分析等模型,方法成熟,應(yīng)用廣泛,本文不展開介紹分析誤區(qū)不了解分析模型的數(shù)學(xué)原理,會導(dǎo)致錯(cuò)誤的使用模型,而得出錯(cuò)誤的分析結(jié)論,影響業(yè)務(wù)決策,因此在選用分析模型時(shí),要深入了解該模型的原理和使用限制機(jī)器學(xué)習(xí)不需要人過多干預(yù),通過計(jì)算機(jī)自動(dòng)學(xué)習(xí),發(fā)現(xiàn)數(shù)據(jù)規(guī)律,但結(jié)論不易控制。數(shù)據(jù)挖掘數(shù)據(jù)挖掘是挖掘數(shù)據(jù)背后隱藏的知識的重要手段2022/11/16數(shù)據(jù)分析即從數(shù)據(jù)、信息到知識的過程,數(shù)據(jù)分析需要數(shù)學(xué)理論、行隨著計(jì)算機(jī)技術(shù)發(fā)展和數(shù)據(jù)分析理論的更新,當(dāng)前的數(shù)據(jù)分析逐步成為機(jī)器語言、統(tǒng)計(jì)知識兩個(gè)學(xué)科的交集(備選)數(shù)據(jù)挖掘計(jì)算機(jī)技術(shù)統(tǒng)計(jì)學(xué)、人工智能業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)挖掘就是充分利用了統(tǒng)計(jì)學(xué)和人工智能技術(shù)的應(yīng)用程序,并把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。信息處理信息處理信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。但是這種查詢的回答反映的是直接存放在數(shù)據(jù)庫中的信息。它們不反映復(fù)雜的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。傳統(tǒng)分析數(shù)據(jù)分析工具傳統(tǒng)分析在數(shù)據(jù)量較少時(shí),傳統(tǒng)的數(shù)據(jù)分析已能夠發(fā)現(xiàn)數(shù)據(jù)中包含的知識,包括結(jié)構(gòu)分析、杜邦分析等模型,方法成熟,應(yīng)用廣泛,本文不展開介紹數(shù)據(jù)分析工具各種廠商開發(fā)了數(shù)據(jù)分析的工具、模塊,將分析模型封裝,使不了解技術(shù)的人也能夠快捷的實(shí)現(xiàn)數(shù)學(xué)建模,快速響應(yīng)分析需求。2022/11/16隨著計(jì)算機(jī)技術(shù)發(fā)展和數(shù)據(jù)分析理論的更新,當(dāng)前的數(shù)據(jù)分析逐步成目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析聚類分析分類與回歸時(shí)序模型結(jié)構(gòu)優(yōu)化2022/11/16目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支1.業(yè)務(wù)理解(businessunderstanding)確定目標(biāo)、明確分析需求2.數(shù)據(jù)理解(dataunderstanding)收集原始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)據(jù)、檢驗(yàn)數(shù)據(jù)質(zhì)量3.數(shù)據(jù)準(zhǔn)備(datapreparation)選擇數(shù)據(jù)、清洗數(shù)據(jù)、構(gòu)造數(shù)據(jù)、整合數(shù)據(jù)、格式化數(shù)據(jù)4.建立模型(modeling)選擇建模技術(shù)、參數(shù)調(diào)優(yōu)、生成測試計(jì)劃、構(gòu)建模型5.評估模型(evaluation)對模型進(jìn)行較為全面的評價(jià),評價(jià)結(jié)果、重審過程6.部署(deployment)分析結(jié)果應(yīng)用數(shù)據(jù)分析標(biāo)準(zhǔn)流程CRISP-DM為90年代由SIG組織(當(dāng)時(shí))提出,已被業(yè)界廣泛認(rèn)可的數(shù)據(jù)分析流程。2022/11/161.業(yè)務(wù)理解(businessunderstanding)數(shù)據(jù)分析框架業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型理解業(yè)務(wù)背景,評估分析需求模型評估應(yīng)用理解業(yè)務(wù)背景:數(shù)據(jù)分析的本質(zhì)是服務(wù)于業(yè)務(wù)需求,如果沒有業(yè)務(wù)理解,缺乏業(yè)務(wù)指導(dǎo),會導(dǎo)致分析無法落地。評估業(yè)務(wù)需求:判斷分析需求是否可以轉(zhuǎn)換為數(shù)據(jù)分析項(xiàng)目,某些需求是不能有效轉(zhuǎn)換為數(shù)據(jù)分析項(xiàng)目的,比如不符合商業(yè)邏輯、數(shù)據(jù)不足、數(shù)據(jù)質(zhì)量極差等。數(shù)據(jù)收集數(shù)據(jù)清洗數(shù)據(jù)收集:抽取的數(shù)據(jù)必須能夠正確反映業(yè)務(wù)需求,否則分析結(jié)論會對業(yè)務(wù)將造成誤導(dǎo)。數(shù)據(jù)清洗:原始數(shù)據(jù)中存在數(shù)據(jù)缺失和壞數(shù)據(jù),如果不處理會導(dǎo)致模型失效,因此對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)數(shù)據(jù)探索數(shù)據(jù)轉(zhuǎn)換選擇方法、工具,建立模型建模過程評估模型結(jié)果評估分析結(jié)果應(yīng)用分析模型改進(jìn)探索數(shù)據(jù):運(yùn)用統(tǒng)計(jì)方法對數(shù)據(jù)進(jìn)行探索,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部規(guī)律。數(shù)據(jù)轉(zhuǎn)換:為了達(dá)到模型的輸入數(shù)據(jù)要求,需要對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,包括生成衍生變量、一致化、標(biāo)準(zhǔn)化等。建立模型:綜合考慮業(yè)務(wù)需求精度、數(shù)據(jù)情況、花費(fèi)成本等因素,選擇最合適的模型。在實(shí)踐中對于一個(gè)分析目的,往往運(yùn)用多個(gè)模型,然后通過后續(xù)的模型評估,進(jìn)行優(yōu)化、調(diào)整,以尋求最合適的模型。建模過程評估:對模型的精度、準(zhǔn)確性、效率和通用性進(jìn)行評估。,模型結(jié)果評估:評估是否有遺漏的業(yè)務(wù),模型結(jié)果是否回答了當(dāng)初的業(yè)務(wù)問題,需要結(jié)合業(yè)務(wù)專家進(jìn)行評估。結(jié)果應(yīng)用:將模型應(yīng)用于業(yè)務(wù)實(shí)踐,才能實(shí)現(xiàn)數(shù)據(jù)分析的真正價(jià)值:產(chǎn)生商業(yè)價(jià)值和解決業(yè)務(wù)問題。模型改進(jìn):對模型應(yīng)用效果的及時(shí)跟蹤和反饋,以便后期的模型調(diào)整和優(yōu)化。

2022/11/16數(shù)據(jù)分析框架業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型理解業(yè)務(wù)背景,評業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估開始是否明確需求否否數(shù)據(jù)探索結(jié)構(gòu)分析分布特性特征描述……分類與回歸聚類分析時(shí)序模型關(guān)聯(lián)分析結(jié)構(gòu)優(yōu)化分析結(jié)果應(yīng)用數(shù)據(jù)分析框架理解業(yè)務(wù)背景,評估分析需求是是否滿足要求收集數(shù)據(jù)否是是建立模型貝葉斯神經(jīng)網(wǎng)絡(luò)C4.5決策樹……指數(shù)平滑支持向量機(jī)灰色理論……K均值算法……FP-growth算法Apriori算法……均方根誤差均方誤差正概率統(tǒng)計(jì)…………群間差異度群內(nèi)相似度業(yè)務(wù)符合度支持度置信度……均方根誤差均方誤差正概率統(tǒng)計(jì)……灰色理論遺傳算法……數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換SVM算法KNN算法2022/11/16業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估開始是否明確需求否否目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析聚類分析分類與回歸時(shí)序模型結(jié)構(gòu)優(yōu)化2022/11/16目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支數(shù)據(jù)清洗&數(shù)據(jù)探索數(shù)據(jù)收集的方法多種多樣,本文不再詳述。在對收集的數(shù)據(jù)進(jìn)行分析前,要明確數(shù)據(jù)類型、規(guī)模,對數(shù)據(jù)有初步理解,同時(shí)要對數(shù)據(jù)中的“噪聲”進(jìn)行處理,以支持后續(xù)數(shù)據(jù)建模。數(shù)據(jù)清洗異常值判別缺失值處理數(shù)據(jù)結(jié)構(gòu)統(tǒng)一(人為因素較多,無統(tǒng)一方法,本文不詳述)數(shù)據(jù)探索特征描述分布推斷結(jié)構(gòu)優(yōu)化數(shù)據(jù)探索數(shù)據(jù)清洗和數(shù)據(jù)探索通常交互進(jìn)行數(shù)據(jù)探索有助于選擇數(shù)據(jù)清洗方法數(shù)據(jù)清洗后可以更有效的進(jìn)行數(shù)據(jù)探索2022/11/16數(shù)據(jù)清洗&數(shù)據(jù)探索數(shù)據(jù)收集的方法多種多樣,本給定一個(gè)置信概率,并確定一個(gè)置信限,凡超過此限的誤差,就認(rèn)為它不屬于隨機(jī)誤差范圍,將其視為異常值。常用的方法(數(shù)據(jù)來源于同一分布,且是正態(tài)的):拉依達(dá)準(zhǔn)則、肖維勒準(zhǔn)則、格拉布斯準(zhǔn)則、狄克遜準(zhǔn)則、t檢驗(yàn)。根據(jù)人們對客觀事物、業(yè)務(wù)等已有的認(rèn)識,判別由于外界干擾、人為誤差等原因造成實(shí)測數(shù)據(jù)偏離正常結(jié)果,判斷異常值。比較困難數(shù)據(jù)清洗的第一步是識別會影響分析結(jié)果的“異?!睌?shù)據(jù),然后判斷是否剔除。目前常用的識別異常數(shù)據(jù)的方法有物理判別法和統(tǒng)計(jì)判別法數(shù)據(jù)清洗:1.異常值判別物理判別法統(tǒng)計(jì)判別法慎重對待刪除異常值:為減少犯錯(cuò)誤的概率,可多種統(tǒng)計(jì)判別法結(jié)合使用,并盡力尋找異常值出現(xiàn)的原因;若有多個(gè)異常值,應(yīng)逐個(gè)刪除,即刪除一個(gè)異常值后,需再行檢驗(yàn)后方可再刪除另一個(gè)異常值檢驗(yàn)方法以正態(tài)分布為前提,若數(shù)據(jù)偏離正態(tài)分布或樣本較小時(shí),則檢驗(yàn)結(jié)果未必可靠,校驗(yàn)是否正態(tài)分布可借助W檢驗(yàn)、D檢驗(yàn)注意2022/11/16給定一個(gè)置信概率,并確定一個(gè)置信限,凡超過此限的誤差,就認(rèn)為常見統(tǒng)計(jì)判別法2022/11/16常見統(tǒng)計(jì)判別法2022/11/10由包含m個(gè)插補(bǔ)值的向量代替每一個(gè)缺失值,然后對新產(chǎn)生的m個(gè)數(shù)據(jù)集使用相同的方法處理,得到處理結(jié)果后,綜合結(jié)果,最終得到對目標(biāo)變量的估計(jì)在給定完全數(shù)據(jù)和前一次迭代所得到的參數(shù)估計(jì)的情況下計(jì)算完全數(shù)據(jù)對應(yīng)的對數(shù)似然函數(shù)的條件期望(E步),后用極大化對數(shù)似然函數(shù)以確定參數(shù)的值,并用于下步的迭代(M步)基于完整的數(shù)據(jù)集,建立回歸方程(模型),對于包含空值的對象,將已知屬性值代入方程來估計(jì)未知屬性值,以此估計(jì)值來進(jìn)行填充;但當(dāng)變量不是線性相關(guān)或預(yù)測變量高度相關(guān)時(shí)會導(dǎo)致估計(jì)偏差先根據(jù)歐式距離或相關(guān)分析確定距離缺失數(shù)據(jù)樣本最近的K個(gè)樣本,將這K個(gè)值加權(quán)平均來估計(jì)缺失數(shù)據(jù)值取所有對象(或與該對象具有相同決策屬性值的對象)的平均值來填充該缺失的屬性值數(shù)據(jù)清洗:2.缺失值處理平均值填充K最近距離法回歸極大似線估計(jì)多重插補(bǔ)法在數(shù)據(jù)缺失嚴(yán)重時(shí),會對分析結(jié)果造成較大影響,因此對剔除的異常值以及缺失值,要采用合理的方法進(jìn)行填補(bǔ),常見的方法有平均值填充、K最近距離法、回歸法、極大似線估計(jì)法等隨著數(shù)據(jù)量的增大,異常值和缺失值對整體分析結(jié)果的影響會逐漸變小,因此在“大數(shù)據(jù)”模式下,數(shù)據(jù)清洗可忽略異常值和缺失值的影響,而側(cè)重對數(shù)據(jù)結(jié)構(gòu)合理性的分析2022/11/16數(shù)據(jù)清洗:2.缺失值處理平均值填充K最近距離法回歸極大似線估數(shù)據(jù)探索通過數(shù)據(jù)探索,初步發(fā)現(xiàn)數(shù)據(jù)特征、規(guī)律,為后續(xù)數(shù)據(jù)建模提供輸入依據(jù),常見的數(shù)據(jù)探索方法有數(shù)據(jù)特征描述、相關(guān)性分析、主成分分析等。

結(jié)構(gòu)優(yōu)化描述已有數(shù)據(jù)特征數(shù)據(jù)分布特征描述……數(shù)據(jù)探索要遵循由淺入深、由易到難的步驟概率分布特征描述推斷整體數(shù)據(jù)特征參數(shù)檢驗(yàn)非參數(shù)檢驗(yàn)……探索數(shù)據(jù)之間的關(guān)系相關(guān)性分析主成分分析……2022/11/16數(shù)據(jù)探索通過數(shù)據(jù)探索,初步發(fā)現(xiàn)數(shù)據(jù)特征、規(guī)律,數(shù)據(jù)特征描述中心位置Diagram2Diagram2Diagram3圖形特征分散程度中心位置眾數(shù)中位數(shù)/四分位數(shù)均值分散程度方差和標(biāo)準(zhǔn)差極差、四分位差標(biāo)準(zhǔn)分?jǐn)?shù)z-score離散系數(shù)圖形特征偏度數(shù)據(jù)分布偏斜程度的測度峰度數(shù)據(jù)分布扁平程度的測度左偏分布右偏分布扁平分布尖峰分布2022/11/16數(shù)據(jù)特征描述中心位置DiagramDiagramDiagra數(shù)據(jù)概率分布概率分布可以表述隨機(jī)變量取值的概率規(guī)律,是掌握數(shù)據(jù)變化趨勢和范圍的一個(gè)重要手段。離散分布均勻分布二項(xiàng)分布幾何分布離散型均勻分布是一個(gè)離散型概率分布,其中有限個(gè)數(shù)值擁有相同的概率1.在每次試驗(yàn)中只有兩種可能的結(jié)果,而且是互相對立的;2.每次實(shí)驗(yàn)是獨(dú)立的,與其它各次試驗(yàn)結(jié)果無關(guān);3.結(jié)果事件發(fā)生的概率在整個(gè)系列試驗(yàn)中保持不變,則這一系列試驗(yàn)稱為伯努力試驗(yàn)。以下兩種離散型概率分布中的一種:在伯努利試驗(yàn)中,得到一次成功所需要的試驗(yàn)次數(shù)X。X的值域是{1,2,3,...}在得到第一次成功之前所經(jīng)歷的失敗次數(shù)Y

=

X

?1。Y的值域是{0,1,2,3,...}泊松近似泊松近似是二項(xiàng)分布的一種極限形式。其強(qiáng)調(diào)如下的試驗(yàn)前提:一次抽樣的概率值相對很小,而抽取次數(shù)值又相對很大。因此泊松分布又被稱之為罕有事件分布。泊松分布指出,如果隨機(jī)一次試驗(yàn)出現(xiàn)的概率為p,那么在n次試驗(yàn)中出現(xiàn)k次的概率按照泊松分布應(yīng)該為連續(xù)分布均勻分布指數(shù)分布正態(tài)分布如果連續(xù)型隨機(jī)變量具有如下p=1/(b-a)的概率密度函數(shù),其中X[a,b],則稱服從上的均勻分布指數(shù)分布可以用來表示獨(dú)立隨機(jī)事件發(fā)生的時(shí)間間隔,比如指數(shù)分布還用來描述大型復(fù)雜系統(tǒng)(如計(jì)算機(jī))的平均故障間隔時(shí)間MTBF的失效分布正態(tài)分布若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ^2的高斯分布,記為N(μ,σ^2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。我們通常所說的標(biāo)準(zhǔn)正態(tài)分布是μ=0,σ=1的正態(tài)分布2022/11/16數(shù)據(jù)概率分布概率分布可以表述隨機(jī)變量取值的概率數(shù)據(jù)分布初步推斷參數(shù)檢驗(yàn):數(shù)據(jù)的分布已知的情況下,對數(shù)據(jù)分布的參數(shù)是否落在相應(yīng)范圍內(nèi)進(jìn)行檢驗(yàn)假設(shè)檢驗(yàn)是數(shù)理統(tǒng)計(jì)學(xué)中根據(jù)一定假設(shè)條件由樣本推斷總體的一種方法,可以分為參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)。非參數(shù)檢驗(yàn):一般是在不知道數(shù)據(jù)分布的前提下,檢驗(yàn)數(shù)據(jù)的分布情況總結(jié)1、參數(shù)檢驗(yàn)是針對參數(shù)做的假設(shè),非參數(shù)檢驗(yàn)是針對總體分布情況做的假設(shè)。

2、二者的根本區(qū)別在于參數(shù)檢驗(yàn)要利用到總體的信息,以總體分布和樣本信息對總體參數(shù)作出推斷;非參數(shù)檢驗(yàn)不需要利用總體的信息。2022/11/16數(shù)據(jù)分布初步推斷參數(shù)檢驗(yàn):數(shù)據(jù)的分布已知的情況下,對數(shù)據(jù)分布相關(guān)系數(shù)是考察變量之間的相關(guān)程度的變量,相關(guān)分析是優(yōu)化數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)00.40.60.81.00.2負(fù)相關(guān)正相關(guān)極強(qiáng)相關(guān)強(qiáng)相關(guān)中等相關(guān)弱相關(guān)弱相關(guān)或無(線性)相關(guān)適用條件結(jié)構(gòu)優(yōu)化——相關(guān)性分析用于分析的多個(gè)變量間可能會存在較多的信息重復(fù),若直接用來分析,會導(dǎo)致模型復(fù)雜,同時(shí)可能會引起模型較大誤差,因此要初步探索數(shù)據(jù)間的相關(guān)性,剔除重復(fù)因素。Spearman秩相關(guān)系數(shù)衡量兩個(gè)變量之間聯(lián)系(變化趨勢)的強(qiáng)弱在秩(排序)的相對大小基礎(chǔ)上得到,對異常值更穩(wěn)健Pearson相關(guān)系數(shù)衡量兩個(gè)變量線性相關(guān)性的強(qiáng)弱在方差和協(xié)方差的基礎(chǔ)上得到的,對異常值敏感Kendall相關(guān)系數(shù)基于協(xié)同思想得到,衡量變量之間的協(xié)同趨勢對異常值穩(wěn)健特點(diǎn)服從正態(tài)分布或接近正態(tài)的單峰分布兩個(gè)變量為連續(xù)數(shù)據(jù)兩個(gè)變量均為連續(xù)數(shù)據(jù)或等級數(shù)據(jù)兩個(gè)變量均為連續(xù)數(shù)據(jù)或等級數(shù)據(jù)偏相關(guān)分析二元變量相關(guān)分析距離相關(guān)分析研究兩個(gè)變量之間線性相關(guān)關(guān)系時(shí),控制可能對其產(chǎn)生影響的變量對觀測量之間或變量之間相似或不相似程度的一種測度2022/11/16相關(guān)系數(shù)是考察變量之間的相關(guān)程度的變量,相關(guān)分析是優(yōu)化數(shù)據(jù)結(jié)檢驗(yàn)動(dòng)機(jī):樣本數(shù)據(jù)只是總體的一個(gè)實(shí)現(xiàn),因此,根據(jù)現(xiàn)有數(shù)據(jù)計(jì)算出來的相關(guān)系數(shù)只是變量相關(guān)系數(shù)的一個(gè)觀測值,又稱為樣本相關(guān)系數(shù)。欲根據(jù)這個(gè)樣本相關(guān)系數(shù)來估計(jì)總體相關(guān)系數(shù),必須進(jìn)行顯著性檢驗(yàn)。其原假設(shè):在總體中,兩個(gè)變量的相關(guān)系數(shù)(總體相關(guān)系數(shù))為零檢驗(yàn)意義:計(jì)算在原假設(shè)成立的情況下(也就是在兩個(gè)變量相關(guān)系數(shù)為零的情況下),由于抽樣的原因(收集樣本數(shù)據(jù)的原因)得到當(dāng)前的樣本相關(guān)系數(shù)(可能這個(gè)系數(shù)并不為零,甚至還比較大)的概率。(p值越小說明越是小概率事件,不可能發(fā)生,拒絕原假設(shè))檢驗(yàn)方法:T檢驗(yàn)(常用):對于近似高斯分布的數(shù)據(jù)(如兩個(gè)變量服從雙變量正態(tài)分布),相關(guān)系數(shù)的樣本分布近似地服從自由度為N

?

2的t分布;如果樣本容量不是特別小(通常大于30),即使觀測數(shù)據(jù)不服從正態(tài)分布,依然可使用t檢驗(yàn)結(jié)構(gòu)優(yōu)化——相關(guān)性分析2022/11/16檢驗(yàn)動(dòng)機(jī):結(jié)構(gòu)優(yōu)化——相關(guān)性分析2022/11/10KarlPearson(1901)探究如何通過少數(shù)幾個(gè)主成分(principalcomponent)來解釋多個(gè)變量間的內(nèi)部結(jié)構(gòu)時(shí)提出主成分分析法,旨在從原始變量中導(dǎo)出少數(shù)幾個(gè)主分量,使其盡可能多地保留原始變量的信息,且彼此間互不相關(guān)內(nèi)涵:將彼此相關(guān)的一組指標(biāo)變量轉(zhuǎn)化為彼此獨(dú)立的一組新的指標(biāo)變量,并用其中較少的幾個(gè)新指標(biāo)變量就能綜合反映原多個(gè)指標(biāo)變量所包含主要信息的多元統(tǒng)計(jì)方法結(jié)構(gòu)優(yōu)化——主成分分析應(yīng)用:數(shù)據(jù)的壓縮和解釋,即常被用來尋找和簡化判斷事物或現(xiàn)象的綜合指標(biāo),并對綜合指標(biāo)所包含的信息進(jìn)行適當(dāng)?shù)慕忉屧恚涸O(shè)法將原來變量重新組合成一組新的互相無關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上用來降維的一種方法。2022/11/16KarlPearson(1901)探究如何數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式,通常的做法有數(shù)據(jù)泛化、標(biāo)準(zhǔn)化、屬性構(gòu)造等,本文詳細(xì)介紹數(shù)據(jù)標(biāo)準(zhǔn)化的方法,即統(tǒng)一數(shù)據(jù)的量綱及數(shù)量級,將數(shù)據(jù)處理為統(tǒng)一的基準(zhǔn)的方法?;跇?biāo)準(zhǔn)化法直線法折線法曲線法選擇基期作為參照,

各期標(biāo)準(zhǔn)化數(shù)據(jù)=各期數(shù)據(jù)/基期數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換各方法都有缺點(diǎn),要根據(jù)客觀事物的特征及所選用的分析方法來確定,如聚類分析、關(guān)聯(lián)分析等常用直線法,且聚類分析必須滿足無量綱標(biāo)準(zhǔn);而綜合評價(jià)則折線和曲線方法用得較多能簡就簡,能用直線盡量不用曲線。極值法:z-score法:某些數(shù)據(jù)在不同值范圍,采用不同的標(biāo)準(zhǔn)化方法,通常用于綜合評價(jià)示例Log函數(shù)法:Arctan函數(shù)法:對數(shù)函數(shù)法、模糊量化模式等

2022/11/16數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式,通常的做法目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析聚類分析分類與回歸時(shí)序模型結(jié)構(gòu)優(yōu)化2022/11/16目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支分類定義:

按照某種指定的屬性特征將數(shù)據(jù)歸類。需要確定類別的概念描述,并找出類判別準(zhǔn)則。分類的目的是獲得一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)集合中的數(shù)據(jù)項(xiàng)映射到某一個(gè)給定類別。

分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則的。是模式識別的基礎(chǔ)。分類可用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。

銀行根據(jù)客戶以往貸款記錄情況,將客戶分為低風(fēng)險(xiǎn)客戶和高風(fēng)險(xiǎn)客戶,學(xué)習(xí)得到分類器。對一個(gè)新來的申請者,根據(jù)分類器計(jì)算風(fēng)險(xiǎn),決定接受或拒絕該申請分析影響變壓器正常運(yùn)行的因素,預(yù)測變壓器是否有故障,若有故障,故障為放電故障、過熱故障、短路故障等的哪一種。持續(xù)時(shí)長

>13yesno72%9698%設(shè)備類型110359%設(shè)備類型2負(fù)荷>…負(fù)荷<…2022/11/16分類定義:銀行根據(jù)客戶以往貸款記錄情況,將客戶分為低風(fēng)險(xiǎn)未知數(shù)據(jù)分類分類的實(shí)現(xiàn):模型的構(gòu)建對每個(gè)樣本進(jìn)行類別標(biāo)記訓(xùn)練集構(gòu)成分類模型分類模型可表示為:分類規(guī)則、決策樹或數(shù)學(xué)公式分類算法IF崗級=‘高級’ORyears>6THEN是否提薪=‘是’分類模型(Model)訓(xùn)練數(shù)據(jù)模型的使用識別未知對象的所屬類別模型正確性的評價(jià)已標(biāo)記分類的測試樣本與模型的實(shí)際分類結(jié)果進(jìn)行比較模型的正確率是指測試集中被正確分類的樣本數(shù)與樣本總數(shù)的百分比。測試集與訓(xùn)練集相分離,否則將出現(xiàn)過擬合(over-fitting)現(xiàn)象分類模型測試數(shù)據(jù)(唐旭,高級,4)提薪?是2022/11/16未知數(shù)據(jù)分類分類的實(shí)現(xiàn):模型的構(gòu)建對每個(gè)樣本進(jìn)行類別標(biāo)記分類分類分類的主要算法:KNN算法、決策樹(CART、C4.5等)、SVM算法、貝葉斯算法、BP神經(jīng)網(wǎng)絡(luò)等2022/11/16分類分類的主要算法:KNN算法、決策樹(CART、C4.5等分類分類的主要算法:KNN算法、決策樹(CART、C4.5等)、SVM算法、貝葉斯算法、BP神經(jīng)網(wǎng)絡(luò)等決策樹示例:套用俗語,決策樹分類的思想類似于找對象?,F(xiàn)想象一個(gè)女孩的母親要給這個(gè)女孩介紹男朋友,于是有了下面的對話:

女兒:多大年紀(jì)了?

母親:26。

女兒:長的帥不帥?

母親:挺帥的。

女兒:收入高不?

母親:不算很高,中等情況。

女兒:是公務(wù)員不?

母親:是,在稅務(wù)局上班呢。

女兒:那好,我去見見。2022/11/16分類分類的主要算法:KNN算法、決策樹(CART、C4.5等分類分類的主要算法:KNN算法、決策樹(CART、C4.5等)、SVM算法、貝葉斯算法、BP神經(jīng)網(wǎng)絡(luò)等設(shè)每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量來描述n個(gè)屬性的值,即:X={x1,x2,…,xn},假定有m個(gè)類,分別用C1,C2,…,Cm表示。給定一個(gè)未知的數(shù)據(jù)樣本X(即沒有類標(biāo)號),若樸素貝葉斯分類法將未知的樣本X分配給類Ci,則一定是P(Ci|X)>P(Cj|X)1≤j≤m,j≠I根據(jù)貝葉斯定理由于P(X)對于所有類為常數(shù),最大化后驗(yàn)概率P(Ci|X)可轉(zhuǎn)化為最大化先驗(yàn)概率P(X|Ci)P(Ci)。如果訓(xùn)練數(shù)據(jù)集有許多屬性和元組,計(jì)算P(X|Ci)的開銷可能非常大,為此,通常假設(shè)各屬性的取值互相獨(dú)立,這樣先驗(yàn)概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以從訓(xùn)練數(shù)據(jù)集求得。根據(jù)此方法,對一個(gè)未知類別的樣本X,可以先分別計(jì)算出X屬于每一個(gè)類別Ci的概率P(X|Ci)P(Ci),然后選擇其中概率最大的類別作為其類別。樸素貝葉斯算法成立的前提是各屬性之間互相獨(dú)立。當(dāng)數(shù)據(jù)集滿足這種獨(dú)立性假設(shè)時(shí),分類的準(zhǔn)確度較高,否則可能較低。另外,該算法沒有分類規(guī)則輸出。貝葉斯圖像識別貝葉斯方法是一個(gè)非常通用的推理框架。其核心理念可以描述成:AnalysisbySynthesis(通過合成來分析)。06年的認(rèn)知科學(xué)新進(jìn)展上有一篇論文就是講用貝葉斯推理來解釋視覺識別的,一圖勝千言,下圖就是摘自這篇論文:首先是視覺系統(tǒng)提取圖形的邊角特征,然后使用這些特征自底向上地激活高層的抽象概念(比如是E還是F還是等號),然后使用一個(gè)自頂向下的驗(yàn)證來比較到底哪個(gè)概念最佳地解釋了觀察到的圖像2022/11/16分類分類的主要算法:KNN算法、決策樹(CART、C4.5等分類分類的主要算法:KNN算法、決策樹(CART、C4.5等)、SVM算法、貝葉斯算法、BP神經(jīng)網(wǎng)絡(luò)等BP(BackPropagation)網(wǎng)絡(luò)是1986年由Rumelhart(魯姆哈特)和McCelland(麥克利蘭)為首的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小。BP神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括輸入層(input)、隱層(hiddenlayer)和輸出層(outputlayer)。BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程正向傳播:輸入樣本-----輸入層------各隱藏層-----輸出層判斷是否轉(zhuǎn)入反向傳播階段若輸出層的實(shí)際輸出與期望輸出不符誤差反傳誤差以某種形式在各層表示-----修正各層單元的權(quán)值網(wǎng)絡(luò)輸出的誤差減少到可接受的程度或達(dá)到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止BP神經(jīng)網(wǎng)絡(luò)的不足首先,由于學(xué)習(xí)速率是固定的,因此網(wǎng)絡(luò)的收斂速度慢,需要較長的訓(xùn)練時(shí)間。其次,BP算法可以使權(quán)值收斂到某個(gè)值,但并不保證其為誤差平面的全局最小值。再次,網(wǎng)絡(luò)隱含層的層數(shù)和單元數(shù)的選擇尚無理論上的指導(dǎo),一般是根據(jù)經(jīng)驗(yàn)或者通過反復(fù)實(shí)驗(yàn)確定。最后,網(wǎng)絡(luò)的學(xué)習(xí)和記憶具有不穩(wěn)定性。也就是說,如果增加了學(xué)習(xí)樣本,訓(xùn)練好的網(wǎng)絡(luò)就需要從頭開始訓(xùn)練,對于以前的權(quán)值和閾值是沒有記憶的。存款情況庫存情況銷售情況人員規(guī)模高風(fēng)險(xiǎn)低風(fēng)險(xiǎn)無風(fēng)險(xiǎn)輸入層隱藏層輸出層2022/11/16分類分類的主要算法:KNN算法、決策樹(CART、C4.5等回歸產(chǎn)生:英國統(tǒng)計(jì)學(xué)家F.GALTON(法蘭西斯·高爾頓)(1822-1911)和其學(xué)生K.Pearson(卡爾.皮爾遜)(1856-1936)觀察了1078對夫婦,以每對夫婦的平均身高為X,而取他們成年的兒子的身高為Y,得到如下經(jīng)驗(yàn)方程:Y=33.73+0.516X定義:假定同一個(gè)或多個(gè)獨(dú)立變量存在相關(guān)關(guān)系,尋找相關(guān)關(guān)系的模型。不同于時(shí)間序列法的是:模型的因變量是隨機(jī)變量,而自變量是可控變量。分為線性回歸和非線性回歸,通常指連續(xù)要素之間的模型關(guān)系,是因果關(guān)系分析的基礎(chǔ)。(回歸研究的是數(shù)據(jù)之間的非確定性關(guān)系)

線性回歸算法尋找屬性與預(yù)測目標(biāo)之間的線性關(guān)系。通過屬性選擇與去掉相關(guān)性,去掉與問題無關(guān)的變量或存在線性相關(guān)性的變量。在建立回歸模型之前,可先進(jìn)行主成分分析,消除屬性之間的相關(guān)性。最后通過最小二乘法,算法得到各屬性與目標(biāo)之間的線性系數(shù)。2022/11/16回歸產(chǎn)生:英國統(tǒng)計(jì)學(xué)家F.GALTON(法蘭西斯·高爾頓)(分類:前提:正態(tài)性假設(shè):總體誤差項(xiàng)需服從正態(tài)分布,反之則最小二乘估計(jì)不再是最佳無偏估計(jì),不能進(jìn)行區(qū)間估計(jì)和假設(shè)檢驗(yàn)零均值性假設(shè):在自變量取一定值的條件下,其總體各誤差項(xiàng)的條件平均值為零,反之無法得到無偏估計(jì)等方差性假設(shè):在自變量取一定值的條件下,其總體各誤差項(xiàng)的條件方差為一常數(shù),反之無法得到無偏估計(jì)獨(dú)立性假設(shè):誤差項(xiàng)之間相互獨(dú)立(不相關(guān)),誤差項(xiàng)與自變量之間應(yīng)相互獨(dú)立,否則最小二乘估計(jì)不再是有效估計(jì)檢驗(yàn):回歸模型回歸-線性回歸

一元線性回歸只有一個(gè)變量X與因變量Y有關(guān),X與Y都是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布多元線性回歸分析多個(gè)變量與因變量Y的關(guān)系,X與Y都是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布LOGISTIC線性回歸分析多個(gè)變量與因變量Y的關(guān)系,Y通常是離散型或定性變量,該模型對因變量Y的分布無要求模型顯著性:F檢驗(yàn),讀取p值并同置信度比較,判斷回歸模型顯著性系數(shù)顯著性:t檢驗(yàn),讀取p值并同置信度比較,判斷該自變量是否顯著影響因變量擬合優(yōu)度殘差檢驗(yàn):繪制殘差圖(標(biāo)準(zhǔn)化殘差直方圖及散點(diǎn)圖),檢驗(yàn)殘差的正態(tài)性及獨(dú)立性,若所描繪的點(diǎn)都在以0為橫軸的直線上下隨機(jī)散布,則回歸直線對各個(gè)觀測值的擬合情況良好決定系數(shù):度量自變量對因變量變化的解釋程度,愈接近1則線性關(guān)系愈強(qiáng)樣本容量:n≥30或n≥3(p+1);其中n為樣本容量,p為自變量數(shù)目2022/11/16分類:回歸-線性回歸一元線性回歸只有一個(gè)變量X與因變量Y分類模型評估分類模型評估效果指標(biāo)測試集選取指標(biāo)呈現(xiàn)保持法隨機(jī)二次抽樣交叉驗(yàn)證自助法……基于統(tǒng)計(jì)基于比率誤差、離差、Kappa統(tǒng)計(jì)量、

準(zhǔn)確率置信區(qū)間、錯(cuò)誤率觀測差……混淆矩陣ROC曲線KS曲線Lift圖響應(yīng)率曲線目的:模型之間的比選以及單模型預(yù)測效果捕獲率曲線/增益圖準(zhǔn)確率敏感性特異性精度KS值Lift值響應(yīng)率捕獲率2022/11/16分類模型評估分類模型評估效果指標(biāo)測試集選取指標(biāo)呈現(xiàn)保持法基于分類模型評估原始數(shù)據(jù)集訓(xùn)練集測試集模型評估建立模型2/31/3原始數(shù)據(jù)集模型評估建立模型1/k1/k1/k1/k…有放回抽取N樣本建立模型測試集模型評估訓(xùn)練集(N)總數(shù)據(jù)集測試集選取方法2022/11/16分類模型評估原始數(shù)據(jù)集訓(xùn)練集測試集模型評估建立模型2/31/效果指標(biāo)—基于比率預(yù)測類實(shí)際類以二分類為例,說明幾個(gè)重要效果指標(biāo)概念。下圖為混淆矩陣。通過銀行辦理信用卡的例子做指標(biāo)的業(yè)務(wù)解釋。最常用的評估指標(biāo),用以評價(jià)模型分類是否正確。但是,對于不平衡問題(即0類的占大多數(shù)),準(zhǔn)確率去評價(jià)就不夠。例如銀行辦理信用卡,模型只用一條規(guī)則“所有人不違約”,結(jié)果準(zhǔn)確率達(dá)到1000/1200=83.3%。但這樣的模型毫無意義。準(zhǔn)確率適合于平衡問題。正確識別正元組的百分比。如例中,敏感性為80/200=40%,因此該模型正確標(biāo)識真元組(稀有類)的能力還是比較差的,但是還是高于違約的總占比200/1200=16.7%預(yù)測類實(shí)際類正確識別負(fù)元組的百分比。例子中為98%。預(yù)測為正元類中實(shí)際為正元類所占的百分比。衡量預(yù)測類1的精確性。例子中為80%。該案例中模型對于違約的人群,可以識別40%;如果一個(gè)人通過模型判斷為違約類,則80%可能該人為違約的。敏感性和精度是兩個(gè)重要指標(biāo),可以綜合這兩個(gè)指標(biāo),如F等。示例敏感性=a/(a+b)準(zhǔn)確率=(a+d)/(a+b+c+d)特異性=d/(c+d)精度=a/(a+c)分類模型評估2022/11/16效果指標(biāo)—基于比率預(yù)測類實(shí)際類以二分類為例,說明幾個(gè)重要效果以真正率及敏感性為縱軸,假正率=1-特異性為橫軸做圖。給定一個(gè)二類問題,我們可以對檢驗(yàn)集的不同部分,顯示模型可以正確識別正樣本的比例與模型將負(fù)樣本錯(cuò)誤標(biāo)識為正樣本的比例之間的比較評定。敏感性的增加以錯(cuò)誤正例的增加為代價(jià)。ROC曲線增益圖KS曲線模型預(yù)測為概率值,即為1類的概率為多少,為0類的概率為多少。將1類、0類的概率按照大小由高到底排列,并將各自的累計(jì)百分比畫在一個(gè)圖里??v坐標(biāo)代表累計(jì)百分比,橫坐標(biāo)為預(yù)測的概率區(qū)間。0、1曲線的最大距離為KS值,反映模型區(qū)分0、1類的能力,越大代表模型將0、1分開程度越大。一般大于0.2較好。如圖KS=0.47.和捕獲率曲線是一樣的,詳見捕獲率曲線。理想模型:100%預(yù)測正確下的曲線。這里假設(shè)1類占總數(shù)為30%。模型的曲線越靠近理想曲線,預(yù)測水平越高??捎肎ini系數(shù)衡量。Gini系數(shù)=模型曲線與隨機(jī)曲線之間的面積/理想模型曲線與隨機(jī)曲線之間的面積。越接近1越好。分類模型評估2022/11/16以真正率及敏感性為縱軸,假正率=1-特異性為橫軸做圖。給定一響應(yīng)率曲線捕獲率曲線在每個(gè)區(qū)間里進(jìn)行計(jì)算,1類的累計(jì)數(shù)占該區(qū)間累計(jì)的總數(shù)比例作為響應(yīng)率。比如在排序前10%中,模型1得出1類樣本占比80%,模型2為73%。響應(yīng)率越高越好,改圖顯示模型1較模型2更好。是在每個(gè)區(qū)間段,計(jì)算1類的累計(jì)值占總體1類的百分比作為捕獲率。衡量的是某累計(jì)區(qū)間抓住1類的對象占總體的比例。隨機(jī)概率:不用模型隨機(jī)抽取數(shù)據(jù)得到的比率。比如響應(yīng)率,總數(shù)據(jù)中1類占比20%,那抽取10%數(shù)據(jù)理論占比應(yīng)該還是20%。橫坐標(biāo):按照模型結(jié)果概率得分從高到底排序,分成10個(gè)區(qū)間。適合于模型輸出值為概率得分,如貝葉斯分類、后向傳播等。Lift值=響應(yīng)率/隨機(jī)概率。比如對10000名淺在顧客進(jìn)行概率打分,預(yù)測其購買商品的可能性,若實(shí)際中有900人會購買,則9%為隨機(jī)概率。抽取概率排名前10%的人數(shù),即1000人,預(yù)測600人購買,則前10%的響應(yīng)率為600/1000=60%,則Lift值=60%/9%=6.67.Lift圖三個(gè)指標(biāo)在實(shí)際業(yè)務(wù)中使用比較多,因?yàn)槠渲庇^、通俗易懂;同時(shí)有利于劃分不同的目標(biāo)人群,前10%?、20%?根據(jù)業(yè)務(wù)需要挑選受眾規(guī)模。分類模型評估2022/11/16響應(yīng)率曲線捕獲率曲線在每個(gè)區(qū)間里進(jìn)行計(jì)算,1類的累計(jì)數(shù)占該區(qū)目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析聚類分析分類與回歸時(shí)序模型結(jié)構(gòu)優(yōu)化2022/11/16目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支聚類分析聚類分析對具有共同趨勢或結(jié)構(gòu)的數(shù)據(jù)進(jìn)行分組,將數(shù)據(jù)項(xiàng)分組成多個(gè)簇(類),簇之間的數(shù)據(jù)差別應(yīng)盡可能大,簇內(nèi)的數(shù)據(jù)差別應(yīng)盡可能小,即“最小化簇間的相似性,最大化簇內(nèi)的相似性”。示例基于劃分的聚類基于層次的聚類基于密度的聚類基于網(wǎng)格的聚類基于模型的聚類對給定的數(shù)據(jù)集合,事先指定劃分為k個(gè)類別。典型算法:k-均值法和k-中心點(diǎn)算法等。對給定的數(shù)據(jù)集合進(jìn)行層次分解,不需要預(yù)先給定聚類數(shù),但要給定終止條件,包括凝聚法和分裂法兩類。典型算法:CURE、Chameleon、BIRCH、Agglomerative只要某簇鄰近區(qū)域的密度超過設(shè)定的閾值,則擴(kuò)大簇的范圍,繼續(xù)聚類。這類算法可以獲得任意形狀的簇。典型算法:DBSCAN、OPTICS和DENCLUE等首先將問題空間量化為有限數(shù)目的單元,形成一個(gè)空間網(wǎng)格結(jié)構(gòu),隨后聚類在這些網(wǎng)格之間進(jìn)行。典型算法:STING、WareCluster和CLIQUE等。為每個(gè)簇假定一個(gè)模型,尋找數(shù)據(jù)對模型的最佳擬合。所基于的假設(shè)是:數(shù)據(jù)是根據(jù)潛在的概率分布生成的。典型算法:COBWEB和神經(jīng)網(wǎng)絡(luò)算法等。2022/11/16聚類分析聚類分析對具有共同趨勢或結(jié)構(gòu)的數(shù)據(jù)進(jìn)聚類分析——K均值聚類38利用K-means聚類算法,把原始數(shù)據(jù)聚成三個(gè)不同的簇的應(yīng)用實(shí)例如左圖示(K=3)?;舅悸罚海?)首先,隨機(jī)選擇k個(gè)數(shù)據(jù)點(diǎn)做為聚類中心;(2)然后,計(jì)算其它點(diǎn)到這些聚類中心點(diǎn)的距離,通過對簇中距離平均值的計(jì)算,不斷改變這些聚類中心的位置,直到這些聚類中心不再變化為止。應(yīng)用實(shí)例K-Means算法,也被稱為K-平均或K-均值,是一種得到最廣泛使用的聚類算法。主要思想是:首先將各個(gè)聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點(diǎn),然后把每個(gè)數(shù)據(jù)點(diǎn)劃分到最近的類別中,使得評價(jià)聚類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使同一個(gè)類中的對象相似度較高,而不同類之間的對象的相似度較小。2022/11/16聚類分析——K均值聚類38應(yīng)用實(shí)例K-Mea聚類模型評估聚類目的:評估聚類效果、確定合適的分類數(shù)量、聚類模型的選擇2022/11/16聚類模型評估聚類目的:評估聚類效果、確定合適的分類數(shù)量、聚類目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析聚類分析分類與回歸時(shí)序模型結(jié)構(gòu)優(yōu)化2022/11/16目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支關(guān)聯(lián)規(guī)則關(guān)聯(lián)分析Association

市場組合分析套裝產(chǎn)品分析目錄設(shè)計(jì)交叉銷售定義:自然界中某種事物發(fā)生時(shí)其他事物也會發(fā)生,則這種聯(lián)系稱之為關(guān)聯(lián)。反映事件之間依賴或關(guān)聯(lián)的知識稱為關(guān)聯(lián)型知識(又稱依賴關(guān)系)。要求找出描述這種關(guān)聯(lián)的規(guī)則,并用以預(yù)測或識別。

關(guān)聯(lián)分析的目的是找出數(shù)據(jù)集合中隱藏的關(guān)聯(lián)網(wǎng),是離散變量因果分析的基礎(chǔ)。舉例:通過發(fā)現(xiàn)顧客放入其購物籃中不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時(shí)購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。例如,在同一次購物中,如果顧客購買牛奶的同時(shí),也購買面包(和什么類型的面包)的可能性有多大?這種信息可以引導(dǎo)銷售,可以幫助零售商有選擇地經(jīng)銷和安排貨架。例如,將牛奶和面包盡可能放近一些,可以進(jìn)一步刺激一次去商店同時(shí)購買這些商品。2022/11/16關(guān)聯(lián)規(guī)則關(guān)聯(lián)分析Association市場組合分析關(guān)聯(lián)規(guī)則設(shè)關(guān)聯(lián)規(guī)則:,{A}或{B}為項(xiàng)集,支持度=,表示同時(shí)包含A、B事務(wù)占總事務(wù)的百分比;置信度=,是預(yù)測性指標(biāo),表示A事務(wù)發(fā)生B事務(wù)發(fā)生的可能性。顯然支持度為對稱指標(biāo),即都一樣,而置信度為非對稱指標(biāo),二者不同。我們以茶和咖啡的案例做指標(biāo)說明?;靖拍钍纠С侄龋ǎ炔瑁瓤Х龋?150/1000=15%;置信度({喝茶}→{喝咖啡})=150/200=75%。即一個(gè)人喝茶那么他75%可能喝咖啡。再看,不管一個(gè)人是否喝茶,其喝咖啡的比例為800/1000=80%>75%。即一個(gè)人喝茶其喝咖啡的可能性由80%降低到75%,因此{喝茶}→{喝咖啡}的高置信度實(shí)際上是一個(gè)誤導(dǎo),其忽略了喝咖啡的支持度。因此,支持度-置信度的評估框架是不完善的。置信度除以喝咖啡的支持度,即75%/80%=0.94。大于1表示正相關(guān),而且越大相關(guān)性越強(qiáng);等于1表示相互獨(dú)立;小于1表示負(fù)相關(guān)。興趣因子對于連續(xù)變量相關(guān)性用pearson相關(guān)系數(shù),Pearson相關(guān)系數(shù)用來衡量兩個(gè)數(shù)據(jù)集合是否在一條線上面,它用來衡量定距變量間的線性關(guān)系。如衡量國民收入和居民儲蓄存款、身高和體重、高中成績和高考成績等變量間的線性相關(guān)關(guān)系。相關(guān)性2022/11/16關(guān)聯(lián)規(guī)則設(shè)關(guān)聯(lián)規(guī)則:,{A}或{B}為關(guān)聯(lián)規(guī)則主要的關(guān)聯(lián)算法:Apriori關(guān)聯(lián)算法、FP-growth關(guān)聯(lián)算法等;Apriori算法是最基本的一種關(guān)聯(lián)規(guī)則算法,它采用布爾關(guān)聯(lián)規(guī)則的挖掘頻繁項(xiàng)集的算法,利用逐層搜索的方法挖掘頻繁項(xiàng)集。2022/11/16關(guān)聯(lián)規(guī)則主要的關(guān)聯(lián)算法:Apriori關(guān)聯(lián)算法、FP-gro關(guān)聯(lián)規(guī)則FP-Growth算法不產(chǎn)生候選集而直接生成頻繁集的頻繁模式增長算法,該算法采用分而治之的策略:在第一次掃描數(shù)據(jù)庫之后,把數(shù)據(jù)庫中的頻繁項(xiàng)目集壓縮到一棵頻繁模式樹中,形成投影數(shù)據(jù)庫,同時(shí)保留其中的關(guān)聯(lián)信息,隨后繼續(xù)將FP-tree分成一些條件樹,對這些條件樹分別進(jìn)行挖掘。FP-tree的構(gòu)建f,c,b組合滿足條件主要的關(guān)聯(lián)算法:Apriori關(guān)聯(lián)算法、FP-growth關(guān)聯(lián)算法等;2022/11/16關(guān)聯(lián)規(guī)則FP-Growth算法不產(chǎn)生候選集而關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則模型評估目的:識別有意義(有價(jià)值)的關(guān)聯(lián)模式客觀度量評價(jià)項(xiàng)集:對稱度量指標(biāo)評價(jià)關(guān)聯(lián)規(guī)則:非對稱客觀度量支持度相關(guān)性興趣因子余弦Jaccard集體強(qiáng)度……置信度J度量Gini指標(biāo)可信度因子互信息信任度……主觀度量可視化基于主觀模板的度量基于主觀興趣的度量…….2022/11/16關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則模型評估目的:識別有意義(有價(jià)值)的關(guān)聯(lián)模式目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析聚類分析分類與回歸時(shí)序模型結(jié)構(gòu)優(yōu)化2022/11/16目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支時(shí)間序列:是按時(shí)間順序的一組數(shù)字序列構(gòu)成:組合模型:加法模型:假定時(shí)間序列是基于4種成份相加而成的。長期趨勢并不影響季節(jié)變動(dòng);Y=T+S+C+I乘法模型:假定時(shí)間序列是基于4種成份相乘而成的。假定季節(jié)變動(dòng)與循環(huán)變動(dòng)為長期趨勢的函數(shù);時(shí)間序列分析長期趨勢(T):時(shí)間序列隨時(shí)間的變化而逐漸增加或減少的長期變化的趨勢季節(jié)變動(dòng)(S):時(shí)間序列在一年中或固定時(shí)間內(nèi),呈現(xiàn)出的固定規(guī)則的變動(dòng)循環(huán)變動(dòng)(C):沿著趨勢線如鐘擺般地循環(huán)變動(dòng),又稱景氣循環(huán)變動(dòng)

不規(guī)則變動(dòng)(I):在時(shí)間序列中由于隨機(jī)因素影響所引起的變動(dòng)時(shí)間序列原序列趨勢循環(huán)項(xiàng)(TC)季節(jié)項(xiàng)(S)隨機(jī)擾動(dòng)項(xiàng)(I)2022/11/16時(shí)間序列:是按時(shí)間順序的一組數(shù)字時(shí)間序列分析建模步驟:時(shí)間序列分析用觀測、調(diào)查、統(tǒng)計(jì)、抽樣等方法取得被觀測系統(tǒng)時(shí)間序列動(dòng)態(tài)數(shù)據(jù)根據(jù)動(dòng)態(tài)數(shù)據(jù)作相關(guān)圖,進(jìn)行相關(guān)分析,求自相關(guān)函數(shù)相關(guān)圖能顯示出變化的趨勢和周期,并能發(fā)現(xiàn)跳點(diǎn)和拐點(diǎn)(跳點(diǎn)是指與其他數(shù)據(jù)不一致的觀測值,拐點(diǎn)則是指時(shí)間序列從上升趨勢突然變?yōu)橄陆第厔莸狞c(diǎn))辨識合適的隨機(jī)模型,進(jìn)行曲線擬合,即用通用隨機(jī)模型去擬合時(shí)間序列的觀測數(shù)短的或簡單的時(shí)間序列,可用趨勢模型和季節(jié)模型加上誤差來進(jìn)行擬合;平穩(wěn)時(shí)間序列,可用通用ARMA模型及其特殊情況的自回歸模型、滑動(dòng)平均模型或組合-ARMA模型等來進(jìn)行擬合,當(dāng)觀測值多于50個(gè)時(shí)一般采用ARMA模型;非平穩(wěn)時(shí)間序列則要先經(jīng)差分運(yùn)算化為平穩(wěn)時(shí)間序列,再用適當(dāng)模型去擬合這個(gè)差分序列舉例:成本費(fèi)用收入比單指標(biāo)(累計(jì)值)預(yù)測

采用季節(jié)拆分建模擬合優(yōu)度:0.7628

平均絕對誤差:0.15

平均相對誤差:0.00156

標(biāo)準(zhǔn)誤差:0.22112022/11/16建模步驟:時(shí)間序列分析用觀測、調(diào)查、統(tǒng)計(jì)、抽樣等方法取得被觀時(shí)間序列算法介紹時(shí)間序列預(yù)測方法分為平滑法預(yù)測和ARIMA模型預(yù)測,平滑法是通過時(shí)間序列的發(fā)展趨勢來進(jìn)行預(yù)測,而ARIMA模型是通過時(shí)間序列的自相關(guān)性來預(yù)測。兩類方法的適用范圍和特點(diǎn)為:2022/11/16時(shí)間序列算法介紹時(shí)間序列預(yù)測方法分為平滑法預(yù)測和ARIMA模時(shí)間序列算法介紹-ARIMAARIMA又稱自回歸求積移動(dòng)平均模型,是存在序列相關(guān)的非平穩(wěn)時(shí)間序列建模方法。建模前提:1、序列平穩(wěn)性平穩(wěn)序列是指均值和方差在時(shí)間過程中保持常數(shù)。非平穩(wěn)時(shí)間序列要么均值隨時(shí)間而變化,要么方差隨時(shí)間而變化,或者二者同時(shí)在發(fā)生變化。對于一個(gè)平穩(wěn)的時(shí)間序列可以通過過去時(shí)間點(diǎn)上的信息,建立模型擬合過去信息,進(jìn)而預(yù)測未來的信息。而非平穩(wěn)時(shí)間序列在各個(gè)時(shí)間點(diǎn)上的隨機(jī)規(guī)律是不同的,難以通過序列已知的信息去掌握時(shí)間序列整體上的隨機(jī)性。因此,對于一個(gè)非平穩(wěn)序列去建模,預(yù)測是困難的。時(shí)間序列建模依賴于序列自身所表現(xiàn)的自相關(guān),有時(shí)候,自相關(guān)是由于時(shí)間序列非平穩(wěn)所引起的。2、序列相關(guān)如果不同的樣本點(diǎn)之間不是完全相互獨(dú)立的,而是存在某種相關(guān)性,則認(rèn)為出現(xiàn)了序列相關(guān)性。序列相關(guān)分為自相關(guān)和偏自相關(guān),序列相關(guān)的表現(xiàn)為協(xié)方差不為02022/11/16時(shí)間序列算法介紹-ARIMAARIMA又稱自回歸求積移動(dòng)平均時(shí)間序列算法介紹-ARIMAAR(p)是p階自回歸模型,AR(p)模型適用于具有p階偏自相關(guān)的序列。對于AR(p)模型,求出滯后k階自相關(guān)系數(shù)p(k)時(shí),實(shí)際上得到并不是u(t)與u(t-k)之間單純的相關(guān)關(guān)系。因?yàn)閡(t)同時(shí)還會受到中間k-1個(gè)隨機(jī)變量u(t-1)、u(t-2)、……、u(t-k+1)的影響,而這k-1個(gè)隨機(jī)變量又都和x(t-k)具有相關(guān)關(guān)系,所以自相關(guān)系數(shù)p(k)里實(shí)際摻雜了其他變量對u(t)與u(t-k)的影響。MA(q)是q階移動(dòng)平均模型,MA(q)適用于具有q階自相關(guān)的序列。ARMA(p,q)是p階自回歸模型和q階移動(dòng)平均模型的組合,適合于具有p階偏自相關(guān)和q階自相關(guān)的序列。ARIMA(p,d,q)是經(jīng)過d次差分后滿足平穩(wěn)性條件后,建立ARMA(p,q)的建模方法。因?yàn)榇蠖鄶?shù)時(shí)間序列都在一定的序列相關(guān)性,使得ARIMA建模方法的預(yù)測比平滑法在應(yīng)用中更為有效。2022/11/16時(shí)間序列算法介紹-ARIMAAR(p)是p階自回歸模型,AR目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析聚類分析分類與回歸時(shí)序模型結(jié)構(gòu)優(yōu)化2022/11/16目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支結(jié)構(gòu)優(yōu)化-遺傳算法遺傳算法是計(jì)算機(jī)科學(xué)人工智能領(lǐng)域中用于解決最優(yōu)化的一種搜索啟發(fā)式算法,是進(jìn)化算法的一種。這種啟發(fā)式通常用來生成有用的解決方案來優(yōu)化和搜索問題。進(jìn)化算法最初是借鑒了進(jìn)化生物學(xué)中的一些現(xiàn)象而發(fā)展起來的,這些現(xiàn)象包括遺傳、突變、自然選擇以及雜交等。遺傳算法廣泛應(yīng)用在生物信息學(xué)、系統(tǒng)發(fā)生學(xué)、計(jì)算科學(xué)、工程學(xué)、經(jīng)濟(jì)學(xué)、化學(xué)、制造、數(shù)學(xué)、物理、藥物測量學(xué)和其他領(lǐng)域之中。算法特點(diǎn):

(1)遺傳算法從問題解的串集開始搜索,而不是從單個(gè)解開始。這是遺傳算法與傳統(tǒng)優(yōu)化算法的極大區(qū)別。傳統(tǒng)優(yōu)化算法是從單個(gè)初始值迭代求最優(yōu)解的;容易誤入局部最優(yōu)解。遺傳算法從串集開始搜索,覆蓋面大,利于全局擇優(yōu)。(2)遺傳算法同時(shí)處理群體中的多個(gè)個(gè)體,即對搜索空間中的多個(gè)解進(jìn)行評估,減少了陷入局部最優(yōu)解的風(fēng)險(xiǎn),同時(shí)算法本身易于實(shí)現(xiàn)并行化。(3)遺傳算法不是采用確定性規(guī)則,而是采用概率的變遷規(guī)則來指導(dǎo)他的搜索方向。(4)具有自組織、自適應(yīng)和自學(xué)習(xí)性。遺傳算法利用進(jìn)化過程獲得的信息自行組織搜索時(shí),適應(yīng)度大的個(gè)體具有較高的生存概率,并獲得更適應(yīng)環(huán)境的基因結(jié)構(gòu)。2022/11/16結(jié)構(gòu)優(yōu)化-遺傳算法遺傳算法是計(jì)算機(jī)科學(xué)人工智能領(lǐng)域結(jié)構(gòu)優(yōu)化—灰色理論灰色系統(tǒng)是指“部分信息已知,部分信息未知”的“小樣本”,“貧信息”的不確定性系統(tǒng)。它通過對“部分”已知信息的生成、開發(fā)去了解、認(rèn)識現(xiàn)實(shí)世界,實(shí)現(xiàn)對系統(tǒng)運(yùn)行行為和演化規(guī)律的正確把握和描述。

嚴(yán)格來說,灰色系統(tǒng)是絕對的,而白色與黑色系統(tǒng)是相對的。社會、經(jīng)濟(jì)、農(nóng)業(yè)等系統(tǒng)的預(yù)測都屬于特征性灰色系統(tǒng)的預(yù)測。

灰色系統(tǒng)認(rèn)為:盡管客觀系統(tǒng)表象復(fù)雜,數(shù)據(jù)離散,但它們總是有整體功能的,總是有序的。因此,它必然潛藏著某種內(nèi)在規(guī)律。關(guān)鍵在于要用適當(dāng)方式去挖掘它,然后利用它。應(yīng)用:

(1)數(shù)列預(yù)測:即用觀察到的反映預(yù)測對象特征的時(shí)間序列來構(gòu)造灰色預(yù)測模型,預(yù)測未來某一時(shí)刻的特征量,或達(dá)到某一特征量的時(shí)間。(2)災(zāi)變與異常值預(yù)測:即通過灰色模型預(yù)測異常值出現(xiàn)的時(shí)刻,預(yù)測異常值什么時(shí)候出現(xiàn)在特定時(shí)區(qū)內(nèi)。(3)季節(jié)災(zāi)變與異常值預(yù)測:通過灰色模型預(yù)測災(zāi)變值發(fā)生在一年內(nèi)某個(gè)特定的時(shí)區(qū)或季節(jié)的災(zāi)變預(yù)測。(4)拓?fù)漕A(yù)測:將原始數(shù)據(jù)作曲線,在曲線上按定值尋找該定值發(fā)生的所有時(shí)點(diǎn),并以該定點(diǎn)為框架構(gòu)成時(shí)點(diǎn)序列,然后建立模型預(yù)測該定值所發(fā)生的時(shí)點(diǎn)(5)系統(tǒng)預(yù)測:通過對系統(tǒng)行為特征指標(biāo)建立一組相關(guān)聯(lián)的灰色模型,預(yù)測系統(tǒng)中眾多變量間的相互協(xié)調(diào)關(guān)系的變化。2022/11/16結(jié)構(gòu)優(yōu)化—灰色理論灰色系統(tǒng)是指“部分信息已知,部分目錄數(shù)據(jù)分析支撐工具概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備關(guān)聯(lián)分析聚類分析分類與回歸時(shí)序模型結(jié)構(gòu)優(yōu)化2022/11/16目錄數(shù)據(jù)分析支撐工具概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)常用的數(shù)據(jù)分析工具2022/11/16常用的數(shù)據(jù)分析工具2022/11/10數(shù)據(jù)挖掘工具-SASSAS系統(tǒng)全稱為StatisticsAnalysisSystem,最早由北卡羅來納大學(xué)的兩位生物統(tǒng)計(jì)學(xué)研究生編制,并于1976年成立了SAS軟件研究所,正式推出了SAS軟件。SAS是用于決策支持的大型集成信息系統(tǒng),SAS是由大型機(jī)系統(tǒng)發(fā)展而來,其核心操作方式就是程序驅(qū)動(dòng),經(jīng)過多年的發(fā)展,現(xiàn)在已成為一套完整的計(jì)算機(jī)語言,其用戶界面也充分體現(xiàn)了這一特點(diǎn):它采用MDI(多文檔界面),用戶在PGM視窗中輸入程序,分析結(jié)果以文本的形式在OUTPUT視窗中輸出。使用程序方式,用戶可以完成所有需要做的工作,包括統(tǒng)計(jì)分析、預(yù)測、建模和模擬抽樣等。但是,這使得初學(xué)者在使用SAS時(shí)必須要學(xué)習(xí)SAS語言,入門比較困難。BASESAS模塊SAS/STAT(統(tǒng)計(jì)分析模塊)SAS/GRAPH(繪圖模塊)SAS/QC(質(zhì)量控制模塊)SAS/ETS(經(jīng)濟(jì)計(jì)量學(xué)和時(shí)間序列分析模塊)SAS/OR(運(yùn)籌學(xué)模塊)SAS/IML(交互式矩陣程序設(shè)計(jì)語言模塊)SAS/AF(交互式全屏幕軟件應(yīng)用系統(tǒng)模塊)SAS/FSP(快速數(shù)據(jù)處理的交互式菜單系統(tǒng)模塊)……目前SAS已在全球100多個(gè)國家和地區(qū)擁有29000多個(gè)客戶群,直接用戶超過300萬人。在我國,國家信息中心,國家統(tǒng)計(jì)局,衛(wèi)生部,中國科學(xué)院等都是SAS系統(tǒng)的大用戶。SAS以被廣泛應(yīng)用于政府行政管理,科研,教育,生產(chǎn)和金融等不同領(lǐng)域,并且發(fā)揮著愈來愈重要的作用。2022/11/16數(shù)據(jù)挖掘工具-SASSAS系統(tǒng)全稱為Stat數(shù)據(jù)挖掘工具-SPSSClementine(現(xiàn)已更名為:PASWModeler)Clementine是ISL(IntegralSolutionsLimited)公司開發(fā)的數(shù)據(jù)挖掘工具平臺。1999年SPSS公司收購了ISL公司,對Clementine產(chǎn)品進(jìn)行重新整合和開發(fā),現(xiàn)在Clementine已經(jīng)成為SPSS公司的又一亮點(diǎn)。Clementine的圖形化操作界面,使得分析人員能夠可視化數(shù)據(jù)挖掘過程的每一步。通過與數(shù)據(jù)流的交互,分析人員和業(yè)務(wù)人員可以合作,將業(yè)務(wù)知識融入到數(shù)據(jù)挖掘過程中。這樣數(shù)據(jù)挖掘人員就可以把注意力集中于知識發(fā)現(xiàn),而不是陷入技術(shù)任務(wù),例如寫代碼,所以他們可以嘗試更多的分析思路,更深入地探索數(shù)據(jù),揭示更多的隱含關(guān)系。使用全面整合到Clementine的TextMining,您可以從任何類型的文本—例如內(nèi)部報(bào)告、呼叫中心記錄、客戶的郵件、媒體或者雜志文章、博客等中抽取內(nèi)容和評論。使用WebMiningforClementine?,您可以發(fā)現(xiàn)訪問者網(wǎng)上行為模式。直接獲取Dimension產(chǎn)品的調(diào)查數(shù)據(jù),您可以把人口統(tǒng)計(jì)信息、態(tài)度和行為信息用于模型—更深入地理解您的客戶。Clementine還提供大量的應(yīng)用模板:CRMCAT--針對客戶的獲取和增長,提高反饋率并減少客戶流失;WebCAT--點(diǎn)擊順序分析和訪問行為分析;cTelcoCAT--客戶保持和增加交叉銷售;CrimeCAT--犯罪分析及其特征描述,確定事故高發(fā)區(qū),聯(lián)合研究相關(guān)犯罪行為;FraudCAT--發(fā)現(xiàn)金融交易和索賠中的欺詐和異常行為;MicroarrayCAT--研究和疾病相關(guān)的基因序列并找到治愈手段2022/11/16數(shù)據(jù)挖掘工具-SPSSClementine(現(xiàn)已更名為:數(shù)據(jù)挖掘工具-StataStata是Statacorp于1985年開發(fā)出來的統(tǒng)計(jì)程序,在全球范圍內(nèi)被廣泛應(yīng)用于企業(yè)和學(xué)術(shù)機(jī)構(gòu)中。許多使用者工作在研究領(lǐng)域,特別是在經(jīng)濟(jì)學(xué)、社會學(xué)、政治學(xué)及流行病學(xué)領(lǐng)域。作為一個(gè)小型的統(tǒng)計(jì)軟件,其統(tǒng)計(jì)分析能力遠(yuǎn)遠(yuǎn)超過了SPSS,在許多方面也超過了SAS!由于Stata在分析時(shí)是將數(shù)據(jù)全部讀入內(nèi)存,在計(jì)算全部完成后才和磁盤交換數(shù)據(jù),因此計(jì)算速度極快(一般來說,SAS的運(yùn)算速度要比SPSS至少快一個(gè)數(shù)量級,而Stata的某些模塊和執(zhí)行同樣功能的SAS模塊比,其速度又比SAS快將近一個(gè)數(shù)量級!)Stata也是采用命令行方式來操作,但使用上遠(yuǎn)比SAS簡單。其生存數(shù)據(jù)分析、縱向數(shù)據(jù)(重復(fù)測量數(shù)據(jù))分析等模塊的功能甚至超過了SAS。用Stata繪制的統(tǒng)計(jì)圖形相當(dāng)精美,很有特色。在長遠(yuǎn)趨勢上,Stata有超越SAS的可能(據(jù)消息靈通人士透露:在SAS的老家--北卡,真正搞生物統(tǒng)計(jì)的人青睞的反而是Stata?。?/p>

Stata最大的缺點(diǎn)應(yīng)該是數(shù)據(jù)接口太簡單,實(shí)際上只能讀入文本格式的數(shù)據(jù)文件;其數(shù)據(jù)管理界面也過于單調(diào)2022/11/16數(shù)據(jù)挖掘工具-StataStata是Stata數(shù)據(jù)挖掘工具-MATLABMATLAB(矩陣實(shí)驗(yàn)室)是MATrixLABoratory的縮寫,是一款由美國TheMathWorks公司出品的商業(yè)數(shù)學(xué)軟件。MATLAB是一種用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算的高級技術(shù)計(jì)算語言和交互式環(huán)境。除了矩陣運(yùn)算、繪制函數(shù)/數(shù)據(jù)圖像等常用功能外,MATLAB還可以用來創(chuàng)建用戶界面及與調(diào)用其它語言(包括C,C++和FORTRAN)編寫的程序。MATLAB和Mathematica、Maple并稱為三大數(shù)學(xué)軟件。它在數(shù)學(xué)類科技應(yīng)用軟件中在數(shù)值計(jì)算方面首屈一指。MATLAB可以進(jìn)行矩陣運(yùn)算、繪制函數(shù)和數(shù)據(jù)、實(shí)現(xiàn)算法、創(chuàng)建用戶界面、連接其他編程語言的程序等,主要應(yīng)用于工程計(jì)算、控制設(shè)計(jì)、信號處理與通訊、圖像處理、信號檢測、金融建模設(shè)計(jì)與分析等領(lǐng)域。軟件特點(diǎn):1)高效的數(shù)值計(jì)算及符號計(jì)算功能,能使用戶從繁雜的數(shù)學(xué)運(yùn)算分析中解脫出來;

2)具有完備的圖形處理功能,實(shí)現(xiàn)計(jì)算結(jié)果和編程的可視化;

3)友好的用戶界面及接近數(shù)學(xué)表達(dá)式的自然化語言,使學(xué)者易于學(xué)習(xí)和掌握;

4)功能豐富的應(yīng)用工具箱(如信號處理工具箱、通信工具箱等),為用戶提供了大量方便實(shí)用的處理工具2022/11/16數(shù)據(jù)挖掘工具-MATLABMATLAB(矩陣實(shí)數(shù)據(jù)挖掘工具-其他

EViews

是美國GMS公司1981年發(fā)行第1版的MicroTSP的Windows版本,通常稱為計(jì)量經(jīng)濟(jì)學(xué)軟件包。EViews是EconometricsViews的縮寫,它的本意是對社會經(jīng)濟(jì)關(guān)系與經(jīng)濟(jì)活動(dòng)的數(shù)量規(guī)律,采用計(jì)量經(jīng)濟(jì)學(xué)方法與技術(shù)進(jìn)行“觀察”。計(jì)量經(jīng)濟(jì)學(xué)研究的核心是設(shè)計(jì)模型、收集資料、估計(jì)模型、檢驗(yàn)?zāi)P?、運(yùn)用模型進(jìn)行預(yù)測、求解模型和運(yùn)用模型。正是由于EViews等計(jì)量經(jīng)濟(jì)學(xué)軟件包的出現(xiàn),使計(jì)量經(jīng)濟(jì)學(xué)取得了長足的進(jìn)步,發(fā)展成為實(shí)用與嚴(yán)謹(jǐn)?shù)慕?jīng)濟(jì)學(xué)科。使用EViews軟件包可以對時(shí)間序列和非時(shí)間序列的數(shù)據(jù)進(jìn)行分析,建立序列(變量)間的統(tǒng)計(jì)關(guān)系式,并用該關(guān)系式進(jìn)行預(yù)測、模擬等等。Minitab

同樣是國際上流行的一個(gè)統(tǒng)計(jì)軟件包,其特點(diǎn)是簡單易懂,在國外大學(xué)統(tǒng)計(jì)學(xué)系開設(shè)的統(tǒng)計(jì)軟件課程中,Minitab與SAS、BMDP并列,根本沒有SPSS的份,甚至有的學(xué)術(shù)研究機(jī)構(gòu)專門教授Minitab之概念及其使用。MiniTabforWindows統(tǒng)計(jì)軟件比SAS、SPSS等小得多,但其功能并不弱,特別是它的試驗(yàn)設(shè)計(jì)及質(zhì)量控制等功能。MiniTab提供了對存儲在二維工作表中的數(shù)據(jù)進(jìn)行分析的多種功能,包括:基本統(tǒng)計(jì)分析、回歸分析、方差分析、多元分析、非參數(shù)分析、時(shí)間序列分析、試驗(yàn)設(shè)計(jì)、質(zhì)量控制、模擬、繪制高質(zhì)量三維圖形等,從功能來看,Minitab除各種統(tǒng)計(jì)模型外,還具有許多統(tǒng)計(jì)軟件不具備的功能--矩陣運(yùn)算。WEKAWEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),同時(shí)weka也是新西蘭的一種鳥名,而WEKA的主要開發(fā)者來自新西蘭。WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。2022/11/16數(shù)據(jù)挖掘工具-其他EViews

是美數(shù)據(jù)挖掘的工具及軟件2022/11/16數(shù)據(jù)挖掘的工具及軟件2022/11/10從數(shù)據(jù)到信息的進(jìn)化數(shù)據(jù)分析發(fā)展歷程60年代80年代90年代2000年2008計(jì)算機(jī)、磁帶、磁盤SQLE-R關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)化查詢語言數(shù)據(jù)倉庫數(shù)據(jù)倉庫、OLAP、多維數(shù)據(jù)庫Hadoop高級算法多處理器計(jì)算機(jī)海量數(shù)據(jù)庫數(shù)據(jù)收集數(shù)據(jù)訪問數(shù)據(jù)倉庫、決策支持?jǐn)?shù)據(jù)挖掘提供歷史性的、靜態(tài)的數(shù)據(jù)信息在記錄級提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息提供預(yù)測性的信息1960年代,IT系統(tǒng)規(guī)模和復(fù)雜度變大,數(shù)據(jù)與應(yīng)用分離的需求開始產(chǎn)生,數(shù)據(jù)庫技術(shù)開始萌芽并蓬勃發(fā)展,并在1990年后逐步統(tǒng)一到以關(guān)系型數(shù)據(jù)庫為主導(dǎo)2001年后,互聯(lián)網(wǎng)迅速發(fā)展,數(shù)據(jù)量成倍遞增,量變引起質(zhì)變,開始對數(shù)據(jù)管理技術(shù)提出全新的要求海量數(shù)據(jù)庫2022/11/16從數(shù)據(jù)到信息的進(jìn)化數(shù)據(jù)分析發(fā)展歷程60年代80年代90年代2thanks2022/11/16thanks2022/11/10大數(shù)據(jù)分析及工具應(yīng)用2022/11/16大數(shù)據(jù)分析及工具應(yīng)用2022/11/10目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析聚類分析分類與回歸時(shí)序模型結(jié)構(gòu)優(yōu)化2022/11/16目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支數(shù)據(jù)分析即從數(shù)據(jù)、信息到知識的過程,數(shù)據(jù)分析需要數(shù)學(xué)理論、行業(yè)經(jīng)驗(yàn)以及計(jì)算機(jī)工具三者結(jié)合分析誤區(qū)數(shù)據(jù)挖掘工具支撐數(shù)學(xué)&統(tǒng)計(jì)學(xué)知識行業(yè)經(jīng)驗(yàn)傳統(tǒng)分析機(jī)器學(xué)習(xí)數(shù)學(xué)&統(tǒng)計(jì)學(xué)知識數(shù)據(jù)分析的基礎(chǔ),將整理、描述、預(yù)測數(shù)據(jù)的手段、過程抽象為數(shù)學(xué)模型的理論知識工具支撐各種廠商開發(fā)了數(shù)據(jù)分析的工具、模塊,將分析模型封裝,使不了解技術(shù)的人也能夠快捷的實(shí)現(xiàn)數(shù)學(xué)建模,快速響應(yīng)分析需求。行業(yè)經(jīng)驗(yàn)行業(yè)經(jīng)驗(yàn)可在數(shù)據(jù)分析前確定分析需求,分析中檢驗(yàn)方法是否合理,以及分析后指導(dǎo)應(yīng)用,但行業(yè)特征不同,其應(yīng)用也不同,因此本文不展開介紹傳統(tǒng)分析在數(shù)據(jù)量較少時(shí),傳統(tǒng)的數(shù)據(jù)分析已能夠發(fā)現(xiàn)數(shù)據(jù)中包含的知識,包括結(jié)構(gòu)分析、杜邦分析等模型,方法成熟,應(yīng)用廣泛,本文不展開介紹分析誤區(qū)不了解分析模型的數(shù)學(xué)原理,會導(dǎo)致錯(cuò)誤的使用模型,而得出錯(cuò)誤的分析結(jié)論,影響業(yè)務(wù)決策,因此在選用分析模型時(shí),要深入了解該模型的原理和使用限制機(jī)器學(xué)習(xí)不需要人過多干預(yù),通過計(jì)算機(jī)自動(dòng)學(xué)習(xí),發(fā)現(xiàn)數(shù)據(jù)規(guī)律,但結(jié)論不易控制。數(shù)據(jù)挖掘數(shù)據(jù)挖掘是挖掘數(shù)據(jù)背后隱藏的知識的重要手段2022/11/16數(shù)據(jù)分析即從數(shù)據(jù)、信息到知識的過程,數(shù)據(jù)分析需要數(shù)學(xué)理論、行隨著計(jì)算機(jī)技術(shù)發(fā)展和數(shù)據(jù)分析理論的更新,當(dāng)前的數(shù)據(jù)分析逐步成為機(jī)器語言、統(tǒng)計(jì)知識兩個(gè)學(xué)科的交集(備選)數(shù)據(jù)挖掘計(jì)算機(jī)技術(shù)統(tǒng)計(jì)學(xué)、人工智能業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)挖掘就是充分利用了統(tǒng)計(jì)學(xué)和人工智能技術(shù)的應(yīng)用程序,并把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。信息處理信息處理信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。但是這種查詢的回答反映的是直接存放在數(shù)據(jù)庫中的信息。它們不反映復(fù)雜的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。傳統(tǒng)分析數(shù)據(jù)分析工具傳統(tǒng)分析在數(shù)據(jù)量較少時(shí),傳統(tǒng)的數(shù)據(jù)分析已能夠發(fā)現(xiàn)數(shù)據(jù)中包含的知識,包括結(jié)構(gòu)分析、杜邦分析等模型,方法成熟,應(yīng)用廣泛,本文不展開介紹數(shù)據(jù)分析工具各種廠商開發(fā)了數(shù)據(jù)分析的工具、模塊,將分析模型封裝,使不了解技術(shù)的人也能夠快捷的實(shí)現(xiàn)數(shù)學(xué)建模,快速響應(yīng)分析需求。2022/11/16隨著計(jì)算機(jī)技術(shù)發(fā)展和數(shù)據(jù)分析理論的更新,當(dāng)前的數(shù)據(jù)分析逐步成目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析聚類分析分類與回歸時(shí)序模型結(jié)構(gòu)優(yōu)化2022/11/16目錄概述數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)理解&數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支1.業(yè)務(wù)理解(businessunderstanding)確定目標(biāo)、明確分析需求2.數(shù)據(jù)理解(dataunderstanding)收集原始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)據(jù)、檢驗(yàn)數(shù)據(jù)質(zhì)量3.數(shù)據(jù)準(zhǔn)備(datapreparation)選擇數(shù)據(jù)、清洗數(shù)據(jù)、構(gòu)造數(shù)據(jù)、整合數(shù)據(jù)、格式化數(shù)據(jù)4.建立模型(modeling)選擇建模技術(shù)、參數(shù)調(diào)優(yōu)、生成測試計(jì)劃、構(gòu)建模型5.評估模型(evaluation)對模型進(jìn)行較為全面的評價(jià),評價(jià)結(jié)果、重審過程6.部署(deployment)分析結(jié)果應(yīng)用數(shù)據(jù)分析標(biāo)準(zhǔn)流程CRISP-DM為90年代由SIG組織(當(dāng)時(shí))提出,已被業(yè)界廣泛認(rèn)可的數(shù)據(jù)分析流程。2022/11/161.業(yè)務(wù)理解(businessunderstanding)數(shù)據(jù)分析框架業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型理解業(yè)務(wù)背景,評估分析需求模型評估應(yīng)用理解業(yè)務(wù)背景:數(shù)據(jù)分析的本質(zhì)是服務(wù)于業(yè)務(wù)需求,如果沒有業(yè)務(wù)理解,缺乏業(yè)務(wù)指導(dǎo),會導(dǎo)致分析無法落地。評估業(yè)務(wù)需求:判斷分析需求是否可以轉(zhuǎn)換為數(shù)據(jù)分析項(xiàng)目,某些需求是不能有效轉(zhuǎn)換為數(shù)據(jù)分析項(xiàng)目的,比如不符合商業(yè)邏輯、數(shù)據(jù)不足、數(shù)據(jù)質(zhì)量極差等。數(shù)據(jù)收集數(shù)據(jù)清洗數(shù)據(jù)收集:抽取的數(shù)據(jù)必須能夠正確反映業(yè)務(wù)需求,否則分析結(jié)論會對業(yè)務(wù)將造成誤導(dǎo)。數(shù)據(jù)清洗:原始數(shù)據(jù)中存在數(shù)據(jù)缺失和壞數(shù)據(jù),如果不處理會導(dǎo)致模型失效,因此對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)數(shù)據(jù)探索數(shù)據(jù)轉(zhuǎn)換選擇方法、工具,建立模型建模過程評估模型結(jié)果評估分析結(jié)果應(yīng)用分析模型改進(jìn)探索數(shù)據(jù):運(yùn)用統(tǒng)計(jì)方法對數(shù)據(jù)進(jìn)行探索,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部規(guī)律。數(shù)據(jù)轉(zhuǎn)換:為了達(dá)到模型的輸入數(shù)據(jù)要求,需要對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,包括生成衍生變量、一致化、標(biāo)準(zhǔn)化等。建立模型:綜合考慮業(yè)務(wù)需求精度、數(shù)據(jù)情況、花費(fèi)成本等因素,選擇最合適的模型。在實(shí)踐中對于一個(gè)分析目的,往往運(yùn)用多個(gè)模型,然后通過后續(xù)的模型評估,進(jìn)行優(yōu)化、調(diào)整,以尋求最合適的模型。建模過程評估:對模型的精度、準(zhǔn)確性、效率和通用性進(jìn)行評估。,模型結(jié)果評估:評估是否有遺漏的業(yè)務(wù),模型結(jié)果是否回答了當(dāng)初的業(yè)務(wù)問題,需要結(jié)合業(yè)務(wù)專家進(jìn)行評估。結(jié)果應(yīng)用:將模型應(yīng)用于業(yè)務(wù)實(shí)踐,才能實(shí)現(xiàn)數(shù)據(jù)分析的真正價(jià)值:產(chǎn)生商業(yè)價(jià)值和解決業(yè)務(wù)問題。模型改進(jìn):對模型應(yīng)用效果的及時(shí)跟蹤和反饋,以便后期的模型調(diào)整和優(yōu)化。

2022/11/16數(shù)據(jù)分析框架業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型理解業(yè)務(wù)背景,評業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估開始是否明確需求否否數(shù)據(jù)探索結(jié)構(gòu)分析分布特性特征描述……分類與回歸聚類分析時(shí)序模型關(guān)聯(lián)分析結(jié)構(gòu)優(yōu)化分析結(jié)果應(yīng)用數(shù)據(jù)分析框架理解業(yè)務(wù)背景,評估分析需求是是否滿足要求收集數(shù)據(jù)否是是建立模型貝葉斯神經(jīng)網(wǎng)絡(luò)C4.5決策樹……指數(shù)平滑支持向量機(jī)灰色理論……K均值算法……FP-growth算法Apriori算法……均方根誤差均方誤差正概率統(tǒng)計(jì)…………群間差異度群內(nèi)相似度業(yè)務(wù)符合度支持度置信度……均方根誤差均方誤差正概率統(tǒng)計(jì)……灰色理論遺傳算法……數(shù)據(jù)清洗數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論