版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章數(shù)據(jù)挖掘與數(shù)據(jù)分析
概述CONTENTS目錄1.1數(shù)據(jù)分析和挖掘概念1.2數(shù)據(jù)挖掘的進(jìn)化歷程1.3數(shù)據(jù)分析與挖掘的應(yīng)用領(lǐng)域1.4數(shù)據(jù)分析與挖掘1.5
數(shù)據(jù)挖掘的流程1.6
數(shù)據(jù)分析與挖掘經(jīng)典算法1.7SmartbiMining企業(yè)數(shù)據(jù)挖掘平臺(tái)1.8.常用的數(shù)據(jù)分析與挖掘工具1.9.數(shù)據(jù)挖掘與分析對(duì)財(cái)會(huì)工作的影響01數(shù)據(jù)分析和挖掘概念數(shù)據(jù)分析(DataAnalysis)有廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析之分。其中廣義的數(shù)據(jù)分析就是包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘。而我們常說(shuō)的數(shù)據(jù)分析指的是狹義的數(shù)據(jù)分析。它指根據(jù)分析目的,用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法與工具,對(duì)收集來(lái)的數(shù)據(jù)進(jìn)行處理與分析,提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)挖掘(DataMining)是指從大量的數(shù)據(jù)中,通過(guò)統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法,挖掘出未知的、且有價(jià)值的信息和知識(shí)的過(guò)程。數(shù)據(jù)分析與挖掘(DataAnalysisandMining)都是基于搜集來(lái)的數(shù)據(jù),應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)、計(jì)算機(jī)等技術(shù)抽取出數(shù)據(jù)中的有用信息,進(jìn)而為決策提供依據(jù)和指導(dǎo)方向。1.1.數(shù)據(jù)分析和挖掘概念02數(shù)據(jù)挖掘的進(jìn)化歷程1.2.數(shù)據(jù)挖掘的進(jìn)化歷程20世紀(jì)60年代數(shù)據(jù)收集階段20世紀(jì)90年代數(shù)據(jù)倉(cāng)庫(kù)決策與支持階段20世紀(jì)80年代數(shù)據(jù)倉(cāng)庫(kù)決策與支持階段21世紀(jì)的現(xiàn)在數(shù)據(jù)分析與挖掘階段03數(shù)據(jù)分析與挖掘的應(yīng)用領(lǐng)域1.3.數(shù)據(jù)分析與挖掘的應(yīng)用領(lǐng)域應(yīng)用領(lǐng)域01電商領(lǐng)域:發(fā)現(xiàn)破壞規(guī)則的“害群之馬”02交通出行領(lǐng)域:為打車平臺(tái)進(jìn)行私人訂制03醫(yī)療健康領(lǐng)域:找到最佳醫(yī)療方案04銀行風(fēng)險(xiǎn)和客戶管理領(lǐng)域:預(yù)防和控制資金非法流失,優(yōu)化客戶服務(wù)05企業(yè)危機(jī)管理領(lǐng)域:挖掘?qū)ζ髽I(yè)經(jīng)營(yíng)決策有用的知識(shí)06市場(chǎng)營(yíng)銷領(lǐng)域:降低了營(yíng)銷成本,提高了營(yíng)銷效率04數(shù)據(jù)分析與挖掘的區(qū)別1.4數(shù)據(jù)分析與挖掘的區(qū)別定義說(shuō)明二者區(qū)別側(cè)重點(diǎn)數(shù)據(jù)分析更側(cè)重于實(shí)際的業(yè)務(wù)知識(shí)數(shù)據(jù)挖掘更側(cè)重于技術(shù)的實(shí)現(xiàn)技能要求最終的輸出形式數(shù)據(jù)分析更多的是統(tǒng)計(jì)描述結(jié)果的呈現(xiàn)數(shù)據(jù)挖掘更多的是模型或規(guī)則的輸出05數(shù)據(jù)挖掘的流程1.5數(shù)據(jù)挖掘的流程01020304LOREMLOREMLOREMLOREM構(gòu)建模型數(shù)據(jù)搜集數(shù)據(jù)清洗明確目標(biāo)應(yīng)用部署模型評(píng)估LOREMLOREM060506數(shù)據(jù)分析與挖掘經(jīng)典算法1.6數(shù)據(jù)分析與挖掘經(jīng)典算法0607經(jīng)典算法08AdaBoost算法09020304K最近鄰分類算法樸素貝葉斯模型聚類算法支持向量機(jī)(SV)關(guān)聯(lián)規(guī)則算法PageRank算法01C4.510分類與回歸樹05最大期望(EM)算法07SmartbiMining企業(yè)數(shù)據(jù)挖掘平臺(tái)1.7SmartbiMining企業(yè)數(shù)據(jù)挖掘平臺(tái)思邁特企業(yè)數(shù)據(jù)挖掘平臺(tái)(SmartbiMining)是用于預(yù)測(cè)性分析的獨(dú)立產(chǎn)品,旨在為企業(yè)所做的決策提供預(yù)測(cè)性智能。該平臺(tái)不僅可為用戶提供直觀的流式建模、拖拽式操作和流程化、可視化的建模界面,還提供了大量的數(shù)據(jù)預(yù)處理操作。此外,它內(nèi)置了多種實(shí)用的、經(jīng)典的機(jī)器學(xué)習(xí)算法,這些算法配置簡(jiǎn)單降低了機(jī)器學(xué)習(xí)的使用門檻,大大節(jié)省了企業(yè)成本,并支持標(biāo)準(zhǔn)的PMML模型輸出,可以將模型發(fā)送到Smartbi統(tǒng)一平臺(tái),與商業(yè)智能平臺(tái)實(shí)現(xiàn)了完美整合。08常用的數(shù)據(jù)分析與挖掘工具1.8常用的數(shù)據(jù)分析與挖掘工具R語(yǔ)言Python語(yǔ)言Weka平臺(tái)SPSS軟件系統(tǒng)SAS軟件系統(tǒng)常用的數(shù)據(jù)分析與挖掘工具09數(shù)據(jù)挖掘與分析對(duì)財(cái)會(huì)工作的影響1.9數(shù)據(jù)挖掘與分析對(duì)財(cái)會(huì)工作的影響首先,使會(huì)計(jì)人員和會(huì)計(jì)部門的角色定位發(fā)生根本變化。其次,確認(rèn)要素范圍將擴(kuò)展到數(shù)據(jù)資產(chǎn)和數(shù)據(jù)資本,也將更多地采用多維數(shù)據(jù)。挑戰(zhàn)數(shù)據(jù)挖掘主要應(yīng)用在戰(zhàn)略管理會(huì)計(jì)領(lǐng)域,實(shí)現(xiàn)經(jīng)營(yíng)環(huán)境分析、競(jìng)爭(zhēng)能力分析、價(jià)值鏈分析、成本動(dòng)因分析等,構(gòu)建智能財(cái)務(wù)預(yù)警系統(tǒng)應(yīng)用現(xiàn)狀會(huì)計(jì)人員和會(huì)計(jì)部門的角色定位發(fā)生根本改變,將分別轉(zhuǎn)變?yōu)閿?shù)據(jù)分析師、算法工程師和數(shù)據(jù)分析部門;會(huì)計(jì)確認(rèn)的要素范圍將擴(kuò)展到數(shù)據(jù)資產(chǎn)和數(shù)據(jù)資本,會(huì)計(jì)人員所獲取的單維數(shù)據(jù)也將轉(zhuǎn)為多維數(shù)據(jù);信息使用者將由單向信息傳遞的被動(dòng)接受者變成雙向信息互通的主動(dòng)參與者;企業(yè)及會(huì)計(jì)人都將面臨時(shí)代賦予的機(jī)遇與挑戰(zhàn)。應(yīng)用展望對(duì)財(cái)會(huì)工作的影響感謝觀看第2章數(shù)據(jù)獲取與預(yù)處理CONTENTS目錄2.1數(shù)據(jù)類型2.2數(shù)據(jù)獲取2.3數(shù)據(jù)質(zhì)量分析與清洗2.4數(shù)據(jù)特征分析2.5數(shù)據(jù)集成2.6數(shù)據(jù)規(guī)約012.1數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)由二維表結(jié)構(gòu)來(lái)邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù)嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)范2.1數(shù)據(jù)類型序號(hào)姓名年齡性別1張三27男2李四33男3王五21男4趙六48女
數(shù)據(jù)特點(diǎn):關(guān)系模型數(shù)據(jù),關(guān)系數(shù)據(jù)庫(kù)表示。
常見格式:MySQL、Oracle、SQLServer等。
應(yīng)用場(chǎng)合:數(shù)據(jù)庫(kù)、系統(tǒng)網(wǎng)站、ERP等。
數(shù)據(jù)采集:數(shù)據(jù)庫(kù)導(dǎo)出、SQL方式等。半結(jié)構(gòu)數(shù)據(jù)比關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu)更加靈活和普通純文本相比又具有一定的結(jié)構(gòu)性2.1數(shù)據(jù)類型數(shù)據(jù)特點(diǎn):非關(guān)系模型數(shù)據(jù),有一定的格式。常見格式:Email、HTML、XML、JSON等。應(yīng)用場(chǎng)合:郵件系統(tǒng)、檔案系統(tǒng)、新聞網(wǎng)站等。數(shù)據(jù)采集:網(wǎng)絡(luò)爬蟲、數(shù)據(jù)解析等。非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有固定結(jié)構(gòu)以二進(jìn)制的格式整體進(jìn)行存儲(chǔ)大數(shù)據(jù)時(shí)代,非結(jié)構(gòu)化數(shù)據(jù)扮演著越來(lái)越重要的角色2.1數(shù)據(jù)類型數(shù)據(jù)特點(diǎn):沒(méi)有固定格式的數(shù)據(jù)。常見格式:文本、PDF、PPT、圖片、音頻、視頻等。應(yīng)用場(chǎng)合:人臉識(shí)別、文本分析、醫(yī)療影像分析等。數(shù)據(jù)采集:網(wǎng)絡(luò)爬蟲、數(shù)據(jù)存檔等。022.2數(shù)據(jù)獲取文件是存儲(chǔ)在輔助存儲(chǔ)器上的數(shù)據(jù)序列,是數(shù)據(jù)的集合和抽象,有兩種展現(xiàn)形式:文本文件和二進(jìn)制文件。文本文件:由單一特定編碼的字符組成,如UTF-8編碼,適用于例如:txt文件,.py文件等。二進(jìn)制文件:直接由比特0和比特1組成,沒(méi)有統(tǒng)一字符編碼,適用于例如:.png文件,.avi文件等文件可以用“文本文件方式”和“二進(jìn)制文件方式”打開2.2.1文件存取2.2.1文件存取2.1.txt文件保存:“實(shí)現(xiàn)中華民族偉大復(fù)興”文本方式打開二進(jìn)制方式打開2.2.1文件存取Python對(duì)文本文件和二進(jìn)制文件采用統(tǒng)一的操作步驟,即“打開—操作—關(guān)閉”2.2.1文件存取Python通過(guò)open()函數(shù)打開一個(gè)文件,并實(shí)現(xiàn)該文件與一個(gè)程序變量的關(guān)聯(lián),格式如下:<變量名>=open(<文件名>,<打開模式>)2.2.1文件存取Python通過(guò)open()函數(shù)打開一個(gè)文件,并實(shí)現(xiàn)該文件與一個(gè)程序變量的關(guān)聯(lián),格式如下:<變量名>=open(<文件名>,<打開模式>)open()函數(shù)提供了7種基本打開模式文件打開模式描述'r'只讀模式,默認(rèn)值,如果文件不存在,返回FileNotFoundError'w'覆蓋寫模式,文件不存在則創(chuàng)建,存在則完全覆蓋'x'創(chuàng)建寫模式,文件不存在則創(chuàng)建,存在則返回FileExistsError'a'追加寫模式,文件不存在則創(chuàng)建,存在則在文件最后追加內(nèi)容'b'二進(jìn)制文件模式't'文本文件模式,默認(rèn)值'+'與r/w/x/a一同使用,在原功能基礎(chǔ)上增加同時(shí)讀寫功能2.2.1文件存取打開模式中,'r'、'w'、'x'、'a'可以和'b'、't'、'+'組合使用,形成既表達(dá)讀寫又表達(dá)文件模式的方式打開模式含義說(shuō)明r+/rb+讀取(更新)模式以讀/寫的形式打開文本文件/二進(jìn)制文件,如果文件不存在,open()調(diào)用失敗w+/wb+寫入(更新)模式以讀/寫的形式創(chuàng)建文本文件/二進(jìn)制文件,如果文件已存在,則清空文件a+/ab+追加(更新)模式以讀/寫的形式打開文本/二進(jìn)制文件,但只允許在文件末尾添加數(shù)據(jù),若文件不存在,則創(chuàng)建新文件文件使用結(jié)束后,需用close()方法關(guān)閉,釋放文件的使用授權(quán),該方法的使用方式如下:<變量>.close()2.2.1文件存取文件內(nèi)容的讀取當(dāng)文件以文本方式打開時(shí),讀寫按照字符串方式,采用計(jì)算機(jī)使用的編碼或指定編碼當(dāng)文件以二進(jìn)制方式打開時(shí),讀寫按照字節(jié)流方式三種文件內(nèi)容讀取方式操作方法描述<f>.read(size=-1)讀入全部?jī)?nèi)容,如果給出參數(shù),讀入前size長(zhǎng)度<f>.readline(size=-1)讀入一行內(nèi)容,如果給出參數(shù)讀入該行前size長(zhǎng)度<f>.readlines(hint=-1)讀入文件所有行,以每行為元素形成列表,如果給出參數(shù),讀入前hint行2.2.1文件存取用戶輸入文件路徑,以文本文件方式讀入文件內(nèi)容并逐行打印提示用戶輸入一個(gè)文件名打開文件并賦值給文件對(duì)象變量fo文件的全部?jī)?nèi)容通過(guò)fo.readlines()方法讀入到一個(gè)列表中通過(guò)for-in方式遍歷列表2.2.1文件存取文件內(nèi)容寫入的3種方法操作方法描述<f>.write(s)向文件寫入一個(gè)字符串或字節(jié)流<f>.writelines(lines)將一個(gè)元素全為字符串的列表寫入文件<f>.seek(offset)改變當(dāng)前文件操作指針的位置,offset含義如下:0–文件開頭;1–當(dāng)前位置;2–文件結(jié)尾2.2.1文件存取2.2.1文件存取fo.seek(0)將文件操作指針?lè)祷氐轿募_始2.2.2CSV文件存取CSV(Comma-SeparatedValues),中文通常叫做逗號(hào)分隔值,是一種國(guó)際通用的一維、二維數(shù)據(jù)存儲(chǔ)格式常用pandas庫(kù)處理CSV文件2.2.2CSV文件存取代碼、體重和身高都作為DataFrame的數(shù)據(jù)進(jìn)行了讀取,而索引是系統(tǒng)自動(dòng)生成的0,1,2,3。如果想把代號(hào)作為索引進(jìn)行讀取,則執(zhí)行如下操作2.2.2CSV文件存取文件存儲(chǔ)有多種形式,CSV文件是比較常用而且方便的一種方式,使用pandas庫(kù)中to_csv()函數(shù)進(jìn)行存儲(chǔ)2.2.2CSV文件存取如果不需要dataframe中的索引,可以在to_csv()函數(shù)中設(shè)置index參數(shù)為None2.2.3網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是在萬(wàn)維網(wǎng)瀏覽網(wǎng)頁(yè)并按照一定規(guī)則提取信息的腳本或程序Python中常用與網(wǎng)絡(luò)爬蟲的庫(kù)有Requests庫(kù)、Scrapy庫(kù)等在進(jìn)行網(wǎng)頁(yè)內(nèi)容爬取時(shí),使用Requests庫(kù)即可滿足要求2.2.3網(wǎng)絡(luò)爬蟲性能騷擾法律風(fēng)險(xiǎn)隱私泄露2.2.3網(wǎng)絡(luò)爬蟲來(lái)源審查:判斷User‐Agent進(jìn)行限制檢查來(lái)訪HTTP協(xié)議頭的User‐Agent域,只響應(yīng)瀏覽器或友好爬蟲的訪問(wèn)發(fā)布公告:Robots協(xié)議告知所有爬蟲網(wǎng)站的爬取策略,要求爬蟲遵守2.2.3網(wǎng)絡(luò)爬蟲/robots.txt2.2.3網(wǎng)絡(luò)爬蟲Requests庫(kù)有7個(gè)主要方法,requests.get()是獲取網(wǎng)頁(yè)數(shù)據(jù)的核心函數(shù)操作方法描述requests.request()構(gòu)造一個(gè)請(qǐng)求,支撐以下各方法的基礎(chǔ)方法requests.get()獲取HTML網(wǎng)頁(yè)的主要方法,對(duì)應(yīng)于HTTP的GETrequests.head()獲取HTML網(wǎng)頁(yè)頭信息的方法,對(duì)應(yīng)于HTTP的HEADrequests.post()向HTML網(wǎng)頁(yè)提交POST請(qǐng)求的方法,對(duì)應(yīng)于HTTP的POSTrequests.put()向HTML網(wǎng)頁(yè)提交PUT請(qǐng)求的方法,對(duì)應(yīng)于HTTP的PUTrequests.patch()向HTML網(wǎng)頁(yè)提交局部修改請(qǐng)求,對(duì)應(yīng)于HTTP的PATCHrequests.delete()向HTML頁(yè)面提交刪除請(qǐng)求,對(duì)應(yīng)于HTTP的DELETE2.2.3網(wǎng)絡(luò)爬蟲常用數(shù)據(jù)格式JSONHTML/XMLYAML022.3數(shù)據(jù)質(zhì)量分析與清洗2.3.1數(shù)據(jù)質(zhì)量分析數(shù)據(jù)質(zhì)量分析是數(shù)據(jù)預(yù)處理的前提,是數(shù)據(jù)挖掘分析結(jié)論有效性和準(zhǔn)確性的基礎(chǔ),其主要任務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求,以及不能直接進(jìn)行相應(yīng)分析的數(shù)據(jù),在常見的數(shù)據(jù)挖掘工作中,臟數(shù)據(jù)包括:
缺失值
異常值
不一致的值
重復(fù)數(shù)據(jù)及含有特殊符號(hào)(如#、¥、*)的數(shù)據(jù)本小節(jié)將主要對(duì)數(shù)據(jù)中的缺失值、異常值和一致性進(jìn)行分析。2.3.1數(shù)據(jù)質(zhì)量分析有些信息暫時(shí)無(wú)法獲取,或者獲取信息的代價(jià)太大。有些信息是被遺漏的??赡苁且?yàn)檩斎霑r(shí)認(rèn)為不重要、忘記填寫或?qū)?shù)據(jù)理解錯(cuò)誤等一些人為因素而遺漏,也可能是由于數(shù)據(jù)采集設(shè)備的故障、存儲(chǔ)介質(zhì)的故障、傳輸媒體的故障等機(jī)械原因而丟失。屬性值不存在。在某些情況下,缺失值并不意味著數(shù)據(jù)有錯(cuò)誤,對(duì)一些對(duì)象來(lái)說(shuō)屬性值是不存在的,如一個(gè)未婚者的配偶姓名、一個(gè)兒童的固定收入狀況等。缺失值產(chǎn)生的原因2.3.1數(shù)據(jù)質(zhì)量分析數(shù)據(jù)挖掘建模將丟失大量有用信息數(shù)據(jù)挖掘模型所表現(xiàn)出的不確定性更加顯著,模型中蘊(yùn)涵的確定性成分更難把握包含空值的數(shù)據(jù)會(huì)使挖掘建模過(guò)程陷入混亂,導(dǎo)致不可靠的輸出缺失值的影響2.3.1數(shù)據(jù)質(zhì)量分析對(duì)缺失值做簡(jiǎn)單統(tǒng)計(jì)分析統(tǒng)計(jì)缺失值的變量個(gè)數(shù)統(tǒng)計(jì)每個(gè)變量的未缺失數(shù)統(tǒng)計(jì)變量的缺失數(shù)及缺失率缺失值分析2.3.1數(shù)據(jù)質(zhì)量分析異常值分析異常值分析是檢驗(yàn)數(shù)據(jù)是否有錄入錯(cuò)誤以及含有不合常理的數(shù)據(jù)。忽視異常值的存在是十分危險(xiǎn)的,不加剔除地把異常值包括進(jìn)數(shù)據(jù)的計(jì)算分析過(guò)程中,對(duì)結(jié)果會(huì)帶來(lái)不良影響;重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)問(wèn)題進(jìn)而改進(jìn)決策的契機(jī)。異常值是指樣本中的個(gè)別值,其數(shù)值明顯偏離其余的觀測(cè)值。異常值也稱為離群點(diǎn),異常值的分析也稱為離群點(diǎn)的分析。異常值分析方法主要有:簡(jiǎn)單統(tǒng)計(jì)量分析、3原則、箱型圖分析。2.3.1數(shù)據(jù)質(zhì)量分析異常值分析——簡(jiǎn)單統(tǒng)計(jì)分析可以先做一個(gè)描述性統(tǒng)計(jì),進(jìn)而查看哪些數(shù)據(jù)是不合理的。需要的統(tǒng)計(jì)量主要是最大值和最小值,判斷這個(gè)變量中的數(shù)據(jù)是不是超出了合理的范圍,如身高的最大值為5米,則該變量的數(shù)據(jù)存在異常。2.3.1數(shù)據(jù)質(zhì)量分析異常值分析——3原則如果數(shù)據(jù)服從正態(tài)分布,在3原則下,異常值被定義為一組測(cè)定值中與平均值的偏差超過(guò)三倍標(biāo)準(zhǔn)差的值。在正態(tài)分布的假設(shè)下,距離平均值3之外的值出現(xiàn)的概率為
,屬于極個(gè)別的小概率事件。2.3.1數(shù)據(jù)質(zhì)量分析異常值分析——箱型圖分析箱形圖依據(jù)實(shí)際數(shù)據(jù)繪制,不需要事先假定數(shù)據(jù)服從特定的分布形式,沒(méi)有對(duì)數(shù)據(jù)作任何限制性要求,它只是真實(shí)直觀地表現(xiàn)數(shù)據(jù)分布的本來(lái)面貌;另一方面,箱形圖判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定的魯棒性:多達(dá)25%的數(shù)據(jù)可以變得任意遠(yuǎn)而不會(huì)很大地?cái)_動(dòng)四分位數(shù),所以異常值不能對(duì)這個(gè)標(biāo)準(zhǔn)施加影響,箱形圖識(shí)別異常值的結(jié)果比較客觀。由此可見,箱形圖在識(shí)別異常值方面有一定的優(yōu)越性。2.3.1數(shù)據(jù)質(zhì)量分析餐飲系統(tǒng)銷售數(shù)據(jù)質(zhì)量分析2.3.1數(shù)據(jù)質(zhì)量分析一致性分析數(shù)據(jù)不一致性是指數(shù)據(jù)的矛盾性、不相容性。直接對(duì)不一致的數(shù)據(jù)進(jìn)行挖掘,可能會(huì)產(chǎn)生與實(shí)際相違背的挖掘結(jié)果。在數(shù)據(jù)挖掘過(guò)程中,不一致數(shù)據(jù)的產(chǎn)生主要發(fā)生在數(shù)據(jù)集成的過(guò)程中,可能是由于被挖掘數(shù)據(jù)是來(lái)自于從不同的數(shù)據(jù)源、重復(fù)存放的數(shù)據(jù)未能進(jìn)行一致性地更新造成的,比如兩張表中都存儲(chǔ)了用戶的地址,在用戶的地址發(fā)生改變時(shí),如果只更新了一張表中的數(shù)據(jù),那么這兩張表中就有了不一致的數(shù)據(jù)。2.3.2數(shù)據(jù)清洗數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無(wú)關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值、異常值等。2.3.2數(shù)據(jù)清洗缺失值處理處理缺失值的方法可分為三類:刪除記錄、數(shù)據(jù)插補(bǔ)和不處理。操作方法描述均值/中位數(shù)/眾數(shù)插補(bǔ)根據(jù)屬性值的類型,用該屬性取值的均值/中位數(shù)/眾數(shù)插補(bǔ)使用固定值將缺失的屬性值用一個(gè)常量替換。如廣州一個(gè)工廠外來(lái)務(wù)工人員“基本工資”屬性缺失,可以用2020年廣州市普通外來(lái)務(wù)工人員工資標(biāo)準(zhǔn)這個(gè)固定值代替最近臨插補(bǔ)在記錄中找到與缺失樣本最接近樣本的該屬性值回歸方法根據(jù)已有數(shù)據(jù)和與其相關(guān)的其他變量數(shù)據(jù),建立擬合模型來(lái)預(yù)測(cè)缺失的屬性值插值法2.3.2數(shù)據(jù)清洗均值插補(bǔ)法較為簡(jiǎn)單,其過(guò)程為:求出所有非空值屬性的平均值,并利用平均值對(duì)空值進(jìn)行插補(bǔ)。2.3.2數(shù)據(jù)清洗拉格朗日插值法
第一步:
求已知的n個(gè)點(diǎn)的
次多項(xiàng)式:
將個(gè)點(diǎn)的坐標(biāo)代入多項(xiàng)式函數(shù)
第二步:
將缺失的函數(shù)值對(duì)應(yīng)的點(diǎn)
代入插值多項(xiàng)式得到缺失值的近似值
解出拉格朗日插值多項(xiàng)式2.3.2數(shù)據(jù)清洗異常值處理在數(shù)據(jù)預(yù)處理時(shí),異常值是否剔除,需視具體情況而定,因?yàn)橛行┊惓V悼赡芴N(yùn)含著有用的信息。異常值處理常用方法見下表異常值處理方法方法描述刪除含有異常值的記錄直接將含有異常值的記錄刪除視為缺失值將異常值視為缺失值,利用缺失值處理的方法進(jìn)行平均值修正可用前后兩個(gè)觀測(cè)值的平均值修正該異常值不處理直接在具有異常值的數(shù)據(jù)集上進(jìn)行挖掘建模2.3.2數(shù)據(jù)清洗重復(fù)值處理重復(fù)值是指部分?jǐn)?shù)據(jù)重復(fù)出現(xiàn),從而造成數(shù)據(jù)挖掘結(jié)果的不準(zhǔn)確。部分?jǐn)?shù)據(jù)重復(fù),使用drop_duplicates()函數(shù)去除利用drop()函數(shù)直接刪除某列2.4數(shù)據(jù)特征分析對(duì)數(shù)據(jù)進(jìn)行質(zhì)量分析以后,接下來(lái)就是對(duì)數(shù)據(jù)做特征分析。一般可通過(guò)繪制圖表、計(jì)算某些特征量等手段進(jìn)行數(shù)據(jù)的特征分析,對(duì)數(shù)據(jù)集進(jìn)行深入了解,檢驗(yàn)屬性間的相互關(guān)系,確定觀察對(duì)象感興趣的子集。統(tǒng)計(jì)量分析分布分析對(duì)比分析周期性分析相關(guān)性分析2.4.1統(tǒng)計(jì)量分析用統(tǒng)計(jì)指標(biāo)對(duì)定量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述集中趨勢(shì)分析均值中位數(shù)眾數(shù)離散趨勢(shì)分析極差標(biāo)準(zhǔn)差變異系數(shù)四分位數(shù)間距2.4.2分布分析分布分析能揭示數(shù)據(jù)的分布特征和分布類型,便于發(fā)現(xiàn)某些特大或特小的可疑值。對(duì)于定量數(shù)據(jù),欲了解其分布形式,是對(duì)稱的、還是非對(duì)稱的,可做出頻率分布表、繪制頻率分布直方圖、繪制莖葉圖進(jìn)行直觀地分析;對(duì)于定性分類數(shù)據(jù),可用餅圖和條形圖直觀地顯示分布情況。2.4.2分布分析定量數(shù)據(jù)的分布分析對(duì)于定量變量而言,做頻率分布分析時(shí)選擇“組數(shù)”和“組寬”是主要的問(wèn)題,一般按照以下步驟:求極差決定組距與組數(shù)決定分點(diǎn)列出頻率分布表繪制頻率分布直方圖遵循的主要原則有:各組之間必須是相互排斥的各組必須將所有的數(shù)據(jù)包含在內(nèi)各組的組寬最好相等2.4.2分布分析某小微企業(yè)的銷售數(shù)據(jù)第一步:求極差極差=最大值-最小值=3960-45=3915第二步:分組這里根據(jù)業(yè)務(wù)數(shù)據(jù)的含義,可取組距為500。組數(shù)=極差/組距=3915/500=7.83=82.4.2分布分析第三步:決定分點(diǎn),如下表:第四步:求出頻率分布直方表根據(jù)分組區(qū)間,統(tǒng)計(jì)二季度銷售數(shù)據(jù)在每個(gè)組段中出現(xiàn)的次數(shù)即頻數(shù),再利用頻數(shù)除以總天數(shù),可以得到相應(yīng)的評(píng)率。例如,銷售額在[0,500)區(qū)間的共有28天,即頻數(shù)為28,頻率為31%。2.4.2分布分析第五步:繪制頻率分布直方圖以二季度每天的銷售額組段為橫軸,以各組段的頻率密度(頻率與組距之比)為縱軸,可以繪制出頻率分布直方圖。2.4.2分布分析定性數(shù)據(jù)的分布分析對(duì)于定性數(shù)據(jù),常常根據(jù)變量的分類類型來(lái)分組,可以采用餅圖和條形圖來(lái)描述定性變量的分布餅圖的每一個(gè)扇形部分代表每一類型的百分比或頻數(shù),根據(jù)定性變量的類型數(shù)目將餅圖分成幾個(gè)部分,每一部分的大小與每一類型的頻數(shù)成正比;條形圖的高度代表每一類型的百分比或頻數(shù),條形圖的寬度沒(méi)有意義。2.4.2分布分析下面左右兩圖分別是菜品A、B、C在某段時(shí)間的餅形和條形銷售量分布圖:2.4.3對(duì)比分析對(duì)比分析是指把兩個(gè)相互聯(lián)系的指標(biāo)數(shù)據(jù)進(jìn)行比較,從數(shù)量上展示和說(shuō)明研究對(duì)象規(guī)模的大小,水平的高低,速度的快慢,以及各種關(guān)系是否協(xié)調(diào)。特別適用于指標(biāo)間的橫縱向比較、時(shí)間序列的比較分析。在對(duì)比分析中,選擇合適的對(duì)比標(biāo)準(zhǔn)是十分關(guān)鍵的步驟,選擇得合適,才能做出客觀的評(píng)價(jià),選擇不合適,評(píng)價(jià)可能得出錯(cuò)誤的結(jié)論。2.4.3對(duì)比分析對(duì)比分析主要有以下兩種形式:第一種:絕對(duì)數(shù)比較
它是利用絕對(duì)數(shù)進(jìn)行對(duì)比,從而尋找差異的一種方法。第二種:相對(duì)數(shù)比較
它是由兩個(gè)有聯(lián)系的指標(biāo)對(duì)比計(jì)算的,用以反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標(biāo),其數(shù)值表現(xiàn)為相對(duì)數(shù)。由于研究目的和對(duì)比基礎(chǔ)不同,相對(duì)數(shù)可以分為以下幾種:
1)結(jié)構(gòu)相對(duì)數(shù)4)強(qiáng)度相對(duì)數(shù)
2)比例相對(duì)數(shù)5)計(jì)劃完成程度相對(duì)數(shù)
3)比較相對(duì)數(shù)6)動(dòng)態(tài)相對(duì)數(shù)2.4.3對(duì)比分析1)結(jié)構(gòu)相對(duì)數(shù):將同一總體內(nèi)的部分?jǐn)?shù)值與全部數(shù)值對(duì)比求得比重,用以說(shuō)明事物的性質(zhì)、結(jié)構(gòu)或質(zhì)量。如居民食品支出額占消費(fèi)支出總額比重、產(chǎn)品合格率等。2)比例相對(duì)數(shù):將同一總體內(nèi)不同部分的數(shù)值對(duì)比,表明總體內(nèi)各部分的比例關(guān)系,如人口性別比例、投資與消費(fèi)比例等。3)比較相對(duì)數(shù):將同一時(shí)期兩個(gè)性質(zhì)相同的指標(biāo)數(shù)值對(duì)比,說(shuō)明同類現(xiàn)象在不同空間條件下的數(shù)量對(duì)比關(guān)系。如不同地區(qū)商品價(jià)格對(duì)比,不同行業(yè)、不同企業(yè)間某項(xiàng)指標(biāo)對(duì)比等。2.4.3對(duì)比分析4)強(qiáng)度相對(duì)數(shù):將兩個(gè)性質(zhì)不同但有一定聯(lián)系的總量指標(biāo)對(duì)比,用以說(shuō)明現(xiàn)象的強(qiáng)度、密度和普遍程度。如人均國(guó)內(nèi)生產(chǎn)總值用“元/人”表示,人口密度用“人/平方公里”表示,也有用百分?jǐn)?shù)或千分?jǐn)?shù)表示的,如人口出生率用‰表示。5)計(jì)劃完成程度相對(duì)數(shù):是某一時(shí)期實(shí)際完成數(shù)與計(jì)劃數(shù)對(duì)比,用以說(shuō)明計(jì)劃完成程度。6)動(dòng)態(tài)相對(duì)數(shù):將同一現(xiàn)象在不同時(shí)期的指標(biāo)數(shù)值對(duì)比,用以說(shuō)明發(fā)展方向和變化的速度。如發(fā)展速度、增長(zhǎng)速度等。2.4.3對(duì)比分析拿各菜品的銷售數(shù)據(jù)來(lái)看,從時(shí)間的維度上分析,可以看到甜品部A、海鮮部B、素菜部C三個(gè)部門之間的銷售金額隨時(shí)間的變化趨勢(shì),了解在此期間哪個(gè)部門的銷售金額較高,趨勢(shì)比較平穩(wěn),如圖3?5;也可以從單一部門(如海鮮部)做分析,了解各月份的銷售對(duì)比情況,如下圖:2.4.3對(duì)比分析從總體來(lái)看,三個(gè)部門的銷售金額呈遞減趨勢(shì);A部門和C部門的遞減趨勢(shì)比較平穩(wěn);B部門的銷售金額在2月份驟降,可以進(jìn)一步分析造成這種現(xiàn)象的業(yè)務(wù)原因,可能是原材料不足造成的。2.4.4周期性分析周期性分析是探索某個(gè)變量是否隨著時(shí)間變化而呈現(xiàn)出某種周期變化趨勢(shì)。周期性趨勢(shì)相對(duì)較長(zhǎng)的有年度周期性趨勢(shì)、季節(jié)性周期趨勢(shì),相對(duì)較短的一般有月度周期性趨勢(shì)、周度周期性趨勢(shì),甚至更短的天、小時(shí)周期性趨勢(shì)。如在做某用電單位用電量趨勢(shì)預(yù)測(cè)過(guò)程中,可以先分析該用電單位日用電量的時(shí)序圖,來(lái)直觀地估計(jì)其用電量變化趨勢(shì)。2.4.4周期性分析下面兩圖分別是正常用戶和竊電用戶在2020年2月份與3月份的用電量2.4.4周期性分析正常用戶和竊電用戶在2020年2月份與3月份日用電量呈現(xiàn)出周期性,以周為周期,因?yàn)橹苣┎簧习?,所以周末用電量較低。正常用戶工作日和非工作日的用電量比較平穩(wěn),沒(méi)有太大的波動(dòng)。而竊電用戶在2020年2月份與3月份日用電量呈現(xiàn)出遞減趨勢(shì)。2.4.5相關(guān)性分析相關(guān)性分析是指對(duì)兩個(gè)或多個(gè)具備相關(guān)性的變量元素進(jìn)行分析,從而衡量?jī)蓚€(gè)變量因素的相關(guān)密切程度,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來(lái)的過(guò)程。相關(guān)性分析方法主要有:直接繪制散點(diǎn)圖繪制散點(diǎn)圖矩陣計(jì)算相關(guān)系數(shù)2.4.5相關(guān)性分析判斷兩個(gè)變量是否具有線性相關(guān)關(guān)系的最直觀的方法是直接繪制散點(diǎn)圖2.4.5相關(guān)性分析繪制散點(diǎn)圖矩陣需要同時(shí)考察多個(gè)變量間的相關(guān)關(guān)系時(shí),可以利用散點(diǎn)圖矩陣來(lái)同時(shí)繪制各變量間的散點(diǎn)圖,從而快速發(fā)現(xiàn)多個(gè)變量間的主要相關(guān)性,這在進(jìn)行多元線性回歸時(shí)尤為重要2.4.5相關(guān)性分析計(jì)算相關(guān)系數(shù)為了更加準(zhǔn)確的描述變量之間的線性相關(guān)程度,可以通過(guò)計(jì)算相關(guān)系數(shù)來(lái)進(jìn)行相關(guān)分析。在二元變量的相關(guān)分析過(guò)程中比較常用的如Pearson相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)和判定系數(shù)。Pearson相關(guān)系數(shù)一般用于對(duì)定距變量的數(shù)據(jù)進(jìn)行計(jì)算,即分析兩個(gè)連續(xù)性變量之間的關(guān)系,其計(jì)算公式如下:2.4.5相關(guān)性分析Spearman秩相關(guān)系數(shù)用于描述分類或等級(jí)變量之間、分類或等級(jí)變量與連續(xù)變量之間的關(guān)系。其計(jì)算公式如下:判定系數(shù)判定系數(shù)是相關(guān)系數(shù)的平方,用r^2表示,用來(lái)衡量回歸方程對(duì)y的解釋程度。判定系數(shù)的取值范圍為0≤r^2≤1。r^2越接近于1,表明x與y之間的相關(guān)性越強(qiáng),r^2越接近于0,越表明x與y之間幾乎沒(méi)有線性相關(guān)關(guān)系2.4.5相關(guān)性分析利用餐飲管理系統(tǒng)可以統(tǒng)計(jì)得到不同菜品的日銷量數(shù)據(jù),分析這些菜品日銷售量之間的相關(guān)性可以得到不同菜品之間的相關(guān)關(guān)系,如是替補(bǔ)菜品、互補(bǔ)菜品或者沒(méi)有關(guān)系,為原材料采購(gòu)提供參考結(jié)果顯示,“百合醬蒸鳳爪”與“樂(lè)膳真味雞”“原汁原味菜心”等相關(guān)性較高,而與“翡翠蒸香茜餃”“蜜汁焗餐包”等主食類菜品相關(guān)性較低2.5數(shù)據(jù)集成數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中的過(guò)程。實(shí)體識(shí)別冗余屬性識(shí)別數(shù)據(jù)變換屬性構(gòu)造2.5.1實(shí)體識(shí)別實(shí)體識(shí)別的任務(wù)是檢測(cè)和解決同名異義、異名同義、單位不統(tǒng)一的沖突。如:同名異義:數(shù)據(jù)源A中的屬性ID和數(shù)據(jù)源B中的屬性ID分別描述的是菜品編號(hào)和訂單編號(hào),即描述的是不同的實(shí)體。異名同義:數(shù)據(jù)源A中的sales_dt和數(shù)據(jù)源B中的sales_date都是是描述銷售日期的,即A.sales_dt=B.sales_date。單位不統(tǒng)一:描述同一個(gè)實(shí)體分別用的是國(guó)際單位和中國(guó)傳統(tǒng)的計(jì)量單位。2.5.2冗余屬性識(shí)別數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余,如:同一屬性多次出現(xiàn)同一屬性命名不一致導(dǎo)致重復(fù)不同源數(shù)據(jù)的仔細(xì)整合能減少甚至避免數(shù)據(jù)冗余與不一致,以提高數(shù)據(jù)挖掘的速度和質(zhì)量。對(duì)于冗余屬性要先分析檢測(cè)到后再將其刪除。有些冗余屬性可以用相關(guān)分析檢測(cè)到。給定兩個(gè)數(shù)值型的屬性A和B,根據(jù)其屬性值,可以用相關(guān)系數(shù)度量一個(gè)屬性在多大程度上蘊(yùn)含另一個(gè)屬性。2.5.3數(shù)據(jù)變換主要是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化的操作,將數(shù)據(jù)轉(zhuǎn)換成“適當(dāng)?shù)摹备袷剑赃m用于挖掘任務(wù)及算法的需要。簡(jiǎn)單函數(shù)變換規(guī)范化連續(xù)屬性離散化2.5.3數(shù)據(jù)變換簡(jiǎn)單函數(shù)變換簡(jiǎn)單函數(shù)變換就是對(duì)原始數(shù)據(jù)進(jìn)行某些數(shù)學(xué)函數(shù)變換,常用的函數(shù)變換包括平方、開方、對(duì)數(shù)、差分運(yùn)算等,即:2.5.3數(shù)據(jù)變換數(shù)據(jù)標(biāo)準(zhǔn)化(歸一化)處理是數(shù)據(jù)挖掘的一項(xiàng)基礎(chǔ)工作,不同評(píng)價(jià)指標(biāo)往往具有不同的量綱和量綱單位,數(shù)值間的差別可能很大,不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱和大小不一的影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域,從而進(jìn)行綜合分析。如將工資收入屬性值映射到[-1,1]或者[0,1]之間。下面介紹三種規(guī)范化方法:最小-最大規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化2.5.3數(shù)據(jù)變換最小-最大規(guī)范化:也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0,1]之間。
轉(zhuǎn)換函數(shù)如:
其中
為樣本數(shù)據(jù)的最大值,
為樣本數(shù)據(jù)的最小值。
為極差。零-均值規(guī)范化:也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過(guò)處理的數(shù)據(jù)的平均數(shù)為0,標(biāo)準(zhǔn)差為1。轉(zhuǎn)化函數(shù)為:
其中
為原始數(shù)據(jù)的均值,
為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。小數(shù)定標(biāo)規(guī)范化:通過(guò)移動(dòng)屬性值的小數(shù)位數(shù),將屬性值映射到[-1,1]之間,移動(dòng)的小數(shù)位數(shù)取決于屬性值絕對(duì)值的最大值。轉(zhuǎn)化函數(shù)為:2.5.3數(shù)據(jù)變換2.5.3數(shù)據(jù)變換一些數(shù)據(jù)挖掘算法,特別是某些分類算法,要求數(shù)據(jù)是分類屬性形式,如ID3算法、Apriori算法等。這樣,常常需要將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化。離散化的過(guò)程連續(xù)屬性變換成分類屬性涉及兩個(gè)子任務(wù):決定需要多少個(gè)分類變量,以及確定如何將連續(xù)屬性值映射到這些分類值。常用的離散化方法常用的無(wú)監(jiān)督離散化方法有:等寬法、等頻法、基于聚類分析的方法2.5.3數(shù)據(jù)變換使用3種離散化方法對(duì)“醫(yī)學(xué)中醫(yī)證型的相關(guān)數(shù)據(jù)”進(jìn)行連續(xù)屬性離散化2.5.4數(shù)據(jù)變換在數(shù)據(jù)挖掘的過(guò)程中,為了幫助提取更有用的信息、挖掘更深層次的模式,提高挖掘結(jié)果的精度,需要利用已有的屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有屬性集合中。比如進(jìn)行防竊漏電診斷建模時(shí),已有的屬性包括進(jìn)入線路供入電量、該條線路上各大用戶用電量之和,記為供出電量。理論上供入電量和供出電量應(yīng)該是相等的,但是由于在傳輸過(guò)程中的電能損耗,會(huì)使得供入電量略大于供出電量,如果該條線路上的一個(gè)或多個(gè)大用戶存在竊漏電行為,會(huì)使供入電量遠(yuǎn)大于供出電量。反過(guò)來(lái),為了判斷是否存在有竊漏電行為的大用戶,需要構(gòu)造一個(gè)新的關(guān)鍵指標(biāo)--線損率,該過(guò)程就是構(gòu)造屬性。新構(gòu)造的屬性線損率計(jì)算公式如下:線損率=(供入電量-供出電量)/供入電量線損率的范圍一般在3%~15%,如果遠(yuǎn)遠(yuǎn)超過(guò)該范圍,就可以認(rèn)為該條線路的大用戶很大可能存在竊漏電等用電異常行為。2.6數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是將海量數(shù)據(jù)進(jìn)行規(guī)約,規(guī)約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量小得多。通過(guò)數(shù)據(jù)規(guī)約,可以達(dá)到:降低無(wú)效、錯(cuò)誤數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性少量且具代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)挖掘所需的時(shí)間降低儲(chǔ)存數(shù)據(jù)的成本2.6.1屬性規(guī)約屬性規(guī)約常用方法有:合并屬性、逐步向前選擇、逐步向后刪除、決策樹歸納、主成分分析合并屬性初始屬性集:
規(guī)約后屬性集:逐步向前選擇
初始屬性集:
規(guī)約后屬性集:
屬性歸約通過(guò)屬性合并創(chuàng)建新屬性維數(shù),或者通過(guò)直接刪除不相關(guān)的屬性(維)來(lái)減少數(shù)據(jù)維數(shù),從而提高數(shù)據(jù)挖掘的效率,降低計(jì)算成本2.6.1屬性規(guī)約逐步向后刪除
初始屬性集:
規(guī)約后屬性集:決策樹規(guī)約
初始屬性集:
規(guī)約后屬性集:
2.6.1屬性規(guī)約下面詳細(xì)介紹主成分分析計(jì)算步驟:1)設(shè)原始變量
的觀測(cè)n次數(shù)據(jù)矩陣為:2)將數(shù)據(jù)矩陣中心標(biāo)準(zhǔn)化。為了方便,將標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣仍然記為
。3)求相關(guān)系數(shù)矩陣
的定義為:
其中
4)求
的特征方程
的特征根
。5)確定主成分個(gè)數(shù)m:
,根據(jù)實(shí)際問(wèn)題確定,一般取80%。
2.6.1屬性規(guī)約6)計(jì)算m個(gè)相應(yīng)的單位特征向量:7)計(jì)算主成分:2.6.2數(shù)值規(guī)約數(shù)值規(guī)約通過(guò)選擇替代的、較小的數(shù)據(jù)來(lái)減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的,也可以是無(wú)參的。有參方法是使用一個(gè)模型來(lái)評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù)。有參的數(shù)值規(guī)約技術(shù)主要有兩種:回歸(線性回歸和多元回歸)和對(duì)數(shù)線性模型(近似離散屬性集中的多維概率分布)。數(shù)值規(guī)約常用方法有直方圖、用聚類數(shù)據(jù)表示實(shí)際數(shù)據(jù)、抽樣(采樣)、參數(shù)回歸法。2.6.2數(shù)值規(guī)約數(shù)值規(guī)約通過(guò)選擇替代的、較小的數(shù)據(jù)來(lái)減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的,也可以是無(wú)參的。有參方法是使用一個(gè)模型來(lái)評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù)。有參的數(shù)值規(guī)約技術(shù)主要有兩種:回歸(線性回歸和多元回歸)和對(duì)數(shù)線性模型(近似離散屬性集中的多維概率分布)。數(shù)值規(guī)約常用方法:直方圖聚類抽樣(采樣)參數(shù)回歸法2.6.2數(shù)值規(guī)約直方圖使用分箱來(lái)近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)歸約形式。屬性A的直方圖將A的數(shù)據(jù)分布劃分為不相交的子集或桶。如果每個(gè)桶只代表單個(gè)屬性值/頻率對(duì),則該桶稱為單桶。通常,桶表示給定屬性的一個(gè)連續(xù)區(qū)間。2.6.2數(shù)值規(guī)約聚類聚類技術(shù)將數(shù)據(jù)元組(即記錄,數(shù)據(jù)表中的一行)視為對(duì)象。它將對(duì)象劃分為簇,使一個(gè)簇中的對(duì)象彼此“相似”,而與其他簇中的對(duì)象“相異”。在數(shù)據(jù)歸約中,用數(shù)據(jù)的簇替換實(shí)際數(shù)據(jù)。該技術(shù)的有效性依賴于簇的定義是否符合數(shù)據(jù)的分布性質(zhì)。抽樣抽樣也是一種數(shù)據(jù)歸約技術(shù),它用比原始數(shù)據(jù)小得多的隨機(jī)樣本(子集)表示原始數(shù)據(jù)集D。假定原始數(shù)據(jù)集包含n個(gè)元組,可以采用抽樣方法對(duì)原始數(shù)據(jù)集D進(jìn)行抽樣。常用的抽樣方法。s個(gè)樣本無(wú)放回簡(jiǎn)單隨機(jī)抽樣s個(gè)樣本有放回地簡(jiǎn)單隨機(jī)抽樣聚類抽樣分層抽樣2.6.2數(shù)值規(guī)約參數(shù)回歸簡(jiǎn)單線性模型和對(duì)數(shù)線性模型可以用來(lái)近似給定的數(shù)據(jù)。用(簡(jiǎn)單)線性模型對(duì)數(shù)據(jù)建模,使之?dāng)M合一條直線y=kx+b,其中k和b分別是直線的斜率和截距,得到k和b之后,即可根據(jù)給定的x預(yù)測(cè)y的值。感謝觀看第3章數(shù)據(jù)可視化CONTENTS目錄3.1Matplotlib庫(kù)入門3.2pyplot的plot()函數(shù)3.3Matplotlib圖形繪制013.1Matplotlib庫(kù)入門數(shù)據(jù)可視化可視化技術(shù)是將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像呈現(xiàn)在屏幕上)然后再進(jìn)行視覺(jué)交互Matplotlib是一個(gè)基于Python的繪圖庫(kù)完全支持二維圖形有限支持三維圖形Matplotlib的官網(wǎng)網(wǎng)址為:/index.html3.1Matplotlib庫(kù)入門3.1Matplotlib庫(kù)入門3.1Matplotlib庫(kù)入門Matplotlib庫(kù)由一系列有組織有隸屬關(guān)系的對(duì)象構(gòu)成matplotlib提供了一套快捷命令式的繪圖接口函數(shù),即pyplot子模塊。pyplot將繪圖所需要的對(duì)象構(gòu)建過(guò)程封裝在函數(shù)中,對(duì)用戶提供了更加友好的接口。3.1Matplotlib庫(kù)入門plt子庫(kù)提供了一批操作和繪圖函數(shù),每個(gè)函數(shù)代表對(duì)圖像進(jìn)行的一個(gè)操作。這些函數(shù)采用plt.<b>()形式調(diào)用,其中<b>是具體函數(shù)名稱。plt子庫(kù)中常用的與繪圖區(qū)域有關(guān)的函數(shù)包括plt.figure()plt.subplot()plt.axes()3.1Matplotlib庫(kù)入門plt.figure():使用figure()函數(shù)創(chuàng)建一個(gè)全局繪圖區(qū)域plt.figure(figsize=(8,4))plt.subplot():subplot()用于在全局繪圖區(qū)域內(nèi)創(chuàng)建子繪圖區(qū)域plt.subplot(324)plt.axes()plt.axes([0.1,0.1,0.7,0.3],axisbg='y')plt子庫(kù)提供一組讀取和顯示相關(guān)函數(shù),用于在繪圖區(qū)域中增加顯示內(nèi)容及讀入數(shù)據(jù)3.1Matplotlib庫(kù)入門函數(shù)描述plt.legend()在繪圖區(qū)域中方式繪圖標(biāo)簽(也稱圖注)plt.show()顯示創(chuàng)建的繪圖對(duì)象plt.matshow()在窗口顯示數(shù)組矩陣plt.imshow()在axes上顯示圖像plt.imsave()保存數(shù)組為圖像文件plt.imread()從圖像文件中讀取數(shù)組023.2pyplot的plot()函數(shù)plot()函數(shù)是用于繪制直線的最基礎(chǔ)函數(shù)函數(shù)的使用方式為plt.plot(x,y,format_string,**kwargs)x和y可以是numpy計(jì)算出的數(shù)組或列表,分別為X軸和Y軸數(shù)format_string是控制曲線的格式字符串**kwargs表示第二組或更多(x,y,format_string)3.2plot()函數(shù)importmatplotlib.pyplotaspltimportnumpyasnp
a=np.arange(10)#繪制1條曲線時(shí),可以沒(méi)有x軸數(shù)據(jù)plt.plot(a)plt.show()
3.2plot()函數(shù)importmatplotlib.pyplotaspltimportnumpyasnp
a=np.arange(10)#繪制4條曲線plt.plot(a,a*1.5,a,a*2.5,a,a*3.5,a,a*4.5)plt.show()3.2plot()函數(shù)3.2plot()函數(shù)format_string是控制曲線的格式字符串顏色字符說(shuō)明顏色字符說(shuō)明'b'藍(lán)色'm'洋紅色'g'綠色'y'黃色'r'紅色'k'黑色'c'青綠色'w'白色'#008000'RGB某顏色'0.8'灰度值字符串3.2plot()函數(shù)format_string是控制曲線的格式字符串風(fēng)格字符說(shuō)明'‐'實(shí)線'‐‐'破折線'‐.'點(diǎn)劃線':'虛線'''
'無(wú)線條3.2plot()函數(shù)format_string是控制曲線的格式字符串標(biāo)記字符說(shuō)明標(biāo)記字符說(shuō)明標(biāo)記字符說(shuō)明'.'點(diǎn)標(biāo)記'1'下花三角標(biāo)記'h'豎六邊形標(biāo)記','像素標(biāo)記(極小點(diǎn))'2'上花三角標(biāo)記'H'橫六邊形標(biāo)記'o'實(shí)心圈標(biāo)記'3'左花三角標(biāo)記'+'十字標(biāo)記'v'倒三角標(biāo)記'4'右花三角標(biāo)記'x'x標(biāo)記'^'上三角標(biāo)記's'實(shí)心方形標(biāo)記'D'菱形標(biāo)記'>'右三角標(biāo)記'p'實(shí)心五角標(biāo)記'd'瘦菱形標(biāo)記'<'左三角標(biāo)記'*'星形標(biāo)記'|'垂直線標(biāo)記3.2plot()函數(shù)importmatplotlib.pyplotaspltimportnumpyasnp
a=np.arange(10)plt.plot(a,a*1.5,'go',a,a*2.5,'rx’,a,a*3.5,'*',a,a*4.5,'b-.')plt.show()3.2plot()函數(shù)pyplot并不默認(rèn)支持中文顯示,為了正確顯示中文字體,需要rcParams修改字體實(shí)現(xiàn)importmatplotlibmatplotlib.rcParams['font.family']='SimHei'matplotlib.rcParams['font.sans-serif']='SimHei'rcParams屬性說(shuō)明'font.family'用于顯示字體的名字'font.style'字體風(fēng)格,正常'normal'或斜體'italic''font.size'字體大小,整數(shù)字號(hào)或者'large'、'x‐small'3.2plot()函數(shù)pyplot并不默認(rèn)支持中文顯示,為了正確顯示中文字體,需要rcParams修改字體實(shí)現(xiàn)importmatplotlibmatplotlib.rcParams['font.family']='SimHei'matplotlib.rcParams['font.sans-serif']='SimHei'中文字體說(shuō)明'SimHei'中文黑體'Kaiti'中文楷體'LiSu'中文隸書'FangSong'中文仿宋'YouYuan'中文幼圓'STSong'華文宋體3.2plot()函數(shù)在有中文輸出的地方,增加一個(gè)屬性fontproperties,也可以正確顯示中文importmatplotlib.pyplotaspltimportnumpyasnpa=np.arange(0,5,0.02)plt.xlabel('橫軸:時(shí)間',fontproperties='SimHei',fontsize=20)plt.ylabel('縱軸:振幅',fontproperties='SimHei',fontsize=20)plt.plot(a,np.cos(2*np.pi*a),'r--')plt.show()033.3matplotlib圖形繪制033.3.1折線圖的繪制3.3.1.折線圖的繪制折線圖可用于顯示數(shù)據(jù)在一個(gè)連續(xù)的時(shí)間間隔或者時(shí)間跨度上的變化importmatplotlib.pyplotasplt
#繪制普通圖像x_data=['2011','2012','2013','2014','2015','2016','2017']y_data=[58000,60200,63000,71000,84000,90500,107000]y_data2=[52000,54200,51500,58300,56800,59500,62700]
#在繪制時(shí)設(shè)置lable,逗號(hào)是必須的ln1,=plt.plot(x_data,y_data,color='red',linewidth=2.0,linestyle='--')ln2,=plt.plot(x_data,y_data2,color='blue',linewidth=3.0,linestyle='-.')
#設(shè)置坐標(biāo)軸和標(biāo)題plt.xlabel('橫軸:年份',fontproperties='SimHei',fontsize=20)plt.ylabel('縱軸:銷量',fontproperties='SimHei',fontsize=20)plt.title("電子產(chǎn)品銷售量",fontproperties='SimHei',fontsize=20)#設(shè)置標(biāo)題及字體
#設(shè)置legendplt.legend(handles=[ln1,ln2,],labels=['鼠標(biāo)銷量','鍵盤銷量'],fontsize=20,loc='best')plt.show()3.3.1.折線圖的繪制折線圖可用于顯示數(shù)據(jù)在一個(gè)連續(xù)的時(shí)間間隔或者時(shí)間跨度上的變化033.3.2散點(diǎn)圖的繪制3.3.2折線圖的繪制散點(diǎn)圖將所有數(shù)據(jù)以點(diǎn)的形式展現(xiàn)在直角坐標(biāo)系上,顯示變量之間的相互影響程度033.3.3直方圖的繪制3.3.3直方圖的繪制直方圖是一種對(duì)數(shù)據(jù)分布情況的圖形表示,它的兩個(gè)坐標(biāo)分別是統(tǒng)計(jì)樣本和該樣本對(duì)應(yīng)某個(gè)屬性的度量。利用直方圖可以很清晰地看出每個(gè)類的總和及各個(gè)屬性比例033.3.4餅狀圖的繪制3.3.4餅狀圖的繪制餅狀圖常用于統(tǒng)計(jì)學(xué)模型,顯示一個(gè)數(shù)據(jù)系列中各項(xiàng)的大小與各項(xiàng)總和的比例感謝觀看第4章商品零售購(gòu)物籃分析及應(yīng)用CONTENTS目錄4.1背景與挖掘目標(biāo)4.2了解關(guān)聯(lián)規(guī)則4.3分析過(guò)程與方法014.1背景與挖掘目標(biāo)關(guān)聯(lián)分析關(guān)聯(lián)分析是數(shù)據(jù)挖掘中一種簡(jiǎn)單而實(shí)用的技術(shù)通過(guò)深入分析數(shù)據(jù)集,尋找事物間的關(guān)聯(lián)性,挖掘頻繁出現(xiàn)的組合,并描述組合內(nèi)對(duì)象同時(shí)出現(xiàn)的模式和規(guī)律在商品推薦領(lǐng)域廣泛使用,在醫(yī)療、保險(xiǎn)、電信和證券等行業(yè)同樣大有可為“購(gòu)物籃分析”是關(guān)聯(lián)規(guī)則應(yīng)用最常見的一個(gè)場(chǎng)景:通過(guò)對(duì)顧客的購(gòu)買記錄數(shù)據(jù)庫(kù)進(jìn)行分析,發(fā)掘商品與商品之間的關(guān)聯(lián)關(guān)系,找出顧客的購(gòu)買行為特征和購(gòu)買習(xí)慣的內(nèi)在共性4.1背景與挖掘目標(biāo)本章目標(biāo)基于金融產(chǎn)品的銷售數(shù)據(jù),利用關(guān)聯(lián)規(guī)則中的Apriori算法發(fā)現(xiàn)不同金融產(chǎn)品的關(guān)聯(lián)關(guān)系,將關(guān)系較強(qiáng)的產(chǎn)品組合銷售構(gòu)建金融產(chǎn)品的Apriori關(guān)聯(lián)規(guī)則模型分析產(chǎn)品之間的關(guān)聯(lián)性根據(jù)模型結(jié)果給出銷售建議4.1背景與挖掘目標(biāo)024.2了解關(guān)聯(lián)規(guī)則024.2.1基本概念
4.2.1基本概念數(shù)據(jù)集實(shí)例:TID項(xiàng)集1{面包,牛奶}2{面包,尿布,啤酒,咖啡}3{牛奶,尿布,啤酒,可樂(lè)}4{牛奶,面包,尿布,啤酒}5{牛奶,面包,尿布,可樂(lè)}4.2.1基本概念1)
關(guān)聯(lián)規(guī)則(AssociationRules):關(guān)聯(lián)規(guī)則是形如A→B蘊(yùn)含的表達(dá)式,其中A和B是不相交的項(xiàng)集,A稱為規(guī)則的前件(antecedent),而B稱為規(guī)則的后件(consequent),如{牛奶,尿布}→{啤酒},{牛奶,尿布}為規(guī)則的前件,{啤酒}為規(guī)則的后件。2)
項(xiàng)集(Itemset):包含0個(gè)或多個(gè)項(xiàng)的集合,如在表中{牛奶}構(gòu)成一個(gè)一項(xiàng)集,{牛奶,尿布,啤酒}構(gòu)成一個(gè)三項(xiàng)集。4.2.1基本概念
4.2.1基本概念5)頻繁項(xiàng):在多個(gè)事務(wù)中頻繁出現(xiàn)的項(xiàng)就是頻繁項(xiàng)。6)頻繁項(xiàng)集(FrequentItemset):假設(shè)有一系列的事務(wù),將這些事務(wù)中同時(shí)出現(xiàn)的頻繁項(xiàng)組成一個(gè)子集,且子集滿足最小支持度閾值(MinimumSupport),這個(gè)集合稱為頻繁項(xiàng)集。假設(shè)最小支持度為0.2,則由于項(xiàng)集{牛奶,尿布,啤酒}的支持度為0.4大于0.2,因此項(xiàng)集{牛奶,尿布,啤酒}為頻繁項(xiàng)集。4.2.1基本概念
4.2.1基本概念
4.2.1基本概念9)關(guān)聯(lián)規(guī)則的強(qiáng)度:(1)支持度,確定項(xiàng)集的頻繁程度,表示項(xiàng)集的重要程度;(2)置信度,確定B在包含A的事務(wù)中出現(xiàn)的頻繁程度,表示關(guān)系的可信程度;(3)提升度,在含有A的條件下同時(shí)含有B的可能性,與沒(méi)有這個(gè)條件下項(xiàng)集中含有的B的可能性之比。規(guī)則的提升度的意義在于度量項(xiàng)集{A}和項(xiàng)集{B}的獨(dú)立性,即Lift(A->B)=1,{A}、{B}相互獨(dú)立。1)若該值=1,說(shuō)明事務(wù)A與事務(wù)B是獨(dú)立的。2)若該值<1,說(shuō)明事務(wù)A與事務(wù)B是互斥的。3)若該值>1,說(shuō)明事務(wù)A與事務(wù)B是強(qiáng)項(xiàng)關(guān)聯(lián)。一般在數(shù)據(jù)挖掘中當(dāng)提升度大于3時(shí),我們才承認(rèn)數(shù)據(jù)挖掘的關(guān)聯(lián)是有價(jià)值的。4.2.1基本概念024.2.2實(shí)現(xiàn)方法1.Apriori算法(1)Apriori算法原理如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集也一定是頻繁的;反之,如果一個(gè)項(xiàng)集是非頻繁的,則它的所有超集也一定是非頻繁的?;贏priori原理,一旦發(fā)現(xiàn)某項(xiàng)集是非頻繁的,即可將整個(gè)包含該超集的子集剪枝。這種基于支持度度量修剪指數(shù)搜索空間的策略稱為基于支持度的剪枝。4.2.2實(shí)現(xiàn)方法1.Apriori算法(1)Apriori算法原理若D為非頻繁項(xiàng)集,則顏色加深部分就是被剪枝的超集,也就是非頻繁項(xiàng)集。4.2.2實(shí)現(xiàn)方法(2)Apriori算法具體步驟掃描數(shù)據(jù)庫(kù),生成候選項(xiàng)集和頻繁項(xiàng)集;從2項(xiàng)集開始循環(huán),由頻繁(k-1)項(xiàng)集生成頻繁k項(xiàng)集:頻繁(k-1)項(xiàng)集兩兩組合,判定是否可以連接,若能則連接生成k項(xiàng)集;對(duì)k項(xiàng)集中的每個(gè)項(xiàng)集檢測(cè)其子集是否頻繁,舍棄掉不是頻繁項(xiàng)集的子集;掃描數(shù)據(jù)庫(kù),計(jì)算前一步中過(guò)濾后的k項(xiàng)集的支持度,舍棄掉支持度小于閾值的項(xiàng)集,生成頻繁k項(xiàng)集。若當(dāng)前k項(xiàng)集中只有一個(gè)項(xiàng)集時(shí),循環(huán)結(jié)束4.2.2實(shí)現(xiàn)方法(3)Apriori算法優(yōu)缺點(diǎn)優(yōu)點(diǎn):Apriori算法是關(guān)聯(lián)規(guī)則最常用也是最經(jīng)典的分析頻繁項(xiàng)集的算法,算法已大大壓縮了頻繁項(xiàng)集的大小,并可以取得良好性能。缺點(diǎn):Apriori算法每次計(jì)算支持度與置信度都需要重新掃描所有數(shù)據(jù)。其次,算法有的多次掃描事務(wù)數(shù)據(jù)的缺陷,在每一步產(chǎn)生候選集時(shí)循環(huán)產(chǎn)生的項(xiàng)集過(guò)多,沒(méi)有排除不應(yīng)該參與組合的元素。適用場(chǎng)景:Apriori算法除了適用在商品零售購(gòu)物籃分析外,近年來(lái)也廣泛應(yīng)用在金融行業(yè)中,可以成功預(yù)測(cè)銀行客戶的需求;還應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,檢測(cè)出用戶行為的安全模式進(jìn)而鎖定攻擊者。此外,Apriori算法還可應(yīng)用于高校管理、移動(dòng)通訊、中醫(yī)證型等領(lǐng)域。4.2.2實(shí)現(xiàn)方法2.FP-Growth算法(1)FP-Growth算法原理算法的基本思路:把數(shù)據(jù)集中的事務(wù)映射到一棵FP-tree上面,再根據(jù)這棵樹找出頻繁項(xiàng)集。FP-Growth算法被用于挖掘頻繁項(xiàng)集,將數(shù)據(jù)集存儲(chǔ)為FP樹的數(shù)據(jù)結(jié)構(gòu),以更高效地發(fā)現(xiàn)頻繁項(xiàng)集或頻繁項(xiàng)對(duì)。相比于Apriori算法對(duì)每個(gè)潛在的頻繁項(xiàng)集都掃描數(shù)據(jù)集,判定是否滿足支持度,F(xiàn)P-Growth算法只需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行兩次遍歷,就可以高效發(fā)現(xiàn)頻繁項(xiàng)集,因此,它在大數(shù)據(jù)集上的速度要優(yōu)于Apriori算法。4.2.2實(shí)現(xiàn)方法(2)FP-Growth算法步驟FP-Growth算法的步驟,大體上可以分成兩步:第一步,F(xiàn)P-tree的構(gòu)建;第二步,在FP-Tree上挖掘頻繁項(xiàng)集。掃描第一遍數(shù)據(jù)庫(kù),找出頻繁項(xiàng);將記錄按照頻繁項(xiàng)集的支持度由大到小順序重新排列;掃描第二遍數(shù)據(jù)庫(kù),產(chǎn)生FP-tree;從FP-tree挖掘得到頻繁項(xiàng)集。4.2.2實(shí)現(xiàn)方法024.2.3評(píng)價(jià)方法
4.2.3評(píng)價(jià)方法1)客觀標(biāo)準(zhǔn)(1)提升度與興趣因子進(jìn)行度量興趣因子的局限性:當(dāng)規(guī)則的置信度與規(guī)則后件支持度數(shù)值大小相近時(shí),因?yàn)楸嚷实男问窖谏w了分子、分母本身的數(shù)值大小,提升度就不足以說(shuō)明問(wèn)題。尤其是當(dāng)后件的支持度本身很小時(shí),如果再除以后件的支持度,相當(dāng)于乘了一個(gè)很大的數(shù),會(huì)讓興趣因子很模糊。4.2.3評(píng)價(jià)方法1)客觀標(biāo)準(zhǔn)(2)相關(guān)分析進(jìn)行度量相關(guān)分析是一種基于統(tǒng)計(jì)學(xué)的技術(shù),對(duì)于連續(xù)型變量,相關(guān)度可以采用皮爾森相關(guān)系數(shù)表示。相關(guān)度的值從-1(完全負(fù)相關(guān))到+1(完全正相關(guān)),如果變量是相互獨(dú)立的,那么相關(guān)度為0。如果變量是正相關(guān),相關(guān)度大于0,同理,如果變量負(fù)相關(guān),相關(guān)度小于0。相關(guān)分析進(jìn)行度量的局限性:相關(guān)分析中把事務(wù)記錄中項(xiàng)的出現(xiàn)與不出現(xiàn)視為同等重要,因此相關(guān)分析更適合于分析對(duì)稱的二元變量。4.2.3評(píng)價(jià)方法
4.2.3評(píng)價(jià)方法2)主觀標(biāo)準(zhǔn)常見的將主觀信息加入到模式發(fā)現(xiàn)任務(wù)的方法有以下幾種:(1)可視化方法:將數(shù)據(jù)中蘊(yùn)含的信息通過(guò)數(shù)據(jù)可視化方法進(jìn)行呈現(xiàn),需要友好的環(huán)境,以及用戶的參與,允許領(lǐng)域?qū)<医忉尯蜋z驗(yàn)發(fā)現(xiàn)的模式,只有符合觀察到的信息的模式才被認(rèn)為是有趣的。(2)基于模板的方法:該方法通過(guò)限制提取的模式類型,只有滿足指定模板的模式被認(rèn)為是有趣的提供給用戶,而不報(bào)告所有提取的所有模式。(3)主觀興趣度量:該方法基于領(lǐng)域信息定義一些主觀度量,例如:企業(yè)的利潤(rùn),概念的分層等;利用主觀度量來(lái)過(guò)濾顯而易見和沒(méi)有實(shí)際價(jià)值的模式。4.2.3評(píng)價(jià)方法034.3分析過(guò)程與方法金融產(chǎn)品關(guān)聯(lián)規(guī)則挖掘的總體流程4.3分析過(guò)程與方法034.3.1數(shù)據(jù)探索分析4.3.1數(shù)據(jù)探索分析探索數(shù)據(jù)特征是了解數(shù)據(jù)的第一步。分析產(chǎn)品銷售情況和結(jié)構(gòu),是為了更好地實(shí)現(xiàn)企業(yè)的經(jīng)營(yíng)目標(biāo),也是產(chǎn)品管理中不可或缺的一部數(shù)據(jù)特征data.info()#查看數(shù)據(jù)屬性4.3.1數(shù)據(jù)探索分析數(shù)據(jù)特征data.head()#查看前5行數(shù)據(jù)用戶編號(hào)購(gòu)買產(chǎn)品0華小智2號(hào)產(chǎn)品,華小智4號(hào)產(chǎn)品,華小智5號(hào)產(chǎn)品,華小智6號(hào)產(chǎn)品1華大智1號(hào)產(chǎn)品,華大智2號(hào)產(chǎn)品,華大智5號(hào)產(chǎn)品,華大智6號(hào)產(chǎn)品2華小智9號(hào)產(chǎn)品,華小智10號(hào)產(chǎn)品,華小智12號(hào)產(chǎn)品3華大智1號(hào)產(chǎn)品,華大智5號(hào)產(chǎn)品4華大智5號(hào)產(chǎn)品,華大智6號(hào)產(chǎn)品4.3.1數(shù)據(jù)探索分析2.銷售情況分析觀察金融產(chǎn)品組合的銷售情況,對(duì)所有用戶購(gòu)買的金融產(chǎn)品組合進(jìn)行統(tǒng)計(jì)4.3.1數(shù)據(jù)探索分析2.銷售情況分析把用戶購(gòu)買的產(chǎn)品組合進(jìn)行拆分,統(tǒng)計(jì)金融產(chǎn)品的類別、銷售總數(shù)量和每一種產(chǎn)品的銷售數(shù)量034.3.2數(shù)據(jù)預(yù)處理4.3.2數(shù)據(jù)預(yù)處理通過(guò)對(duì)數(shù)據(jù)探索分析發(fā)現(xiàn)數(shù)據(jù)完整,并不存在缺失值。建模之前需要轉(zhuǎn)變數(shù)據(jù)的格式,才能使用Apriori函數(shù)進(jìn)行關(guān)聯(lián)分析。對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,將其變?yōu)殡p重列表結(jié)構(gòu)#轉(zhuǎn)換為雙重列表結(jié)構(gòu)products=data['購(gòu)買產(chǎn)品'].tolist()034.3.3模型構(gòu)建4.3.3模型構(gòu)建1.金融產(chǎn)品關(guān)聯(lián)規(guī)則模型構(gòu)建4.3.3模型構(gòu)建2.通過(guò)apyori庫(kù)分析關(guān)聯(lián)關(guān)系調(diào)用apyori庫(kù)中的apriori()函數(shù)進(jìn)行關(guān)聯(lián)關(guān)系分析4.3.3模型構(gòu)建3.通過(guò)mlxtend庫(kù)分析關(guān)聯(lián)關(guān)系調(diào)用mlxtend庫(kù)中的apriori()函數(shù)進(jìn)行關(guān)聯(lián)關(guān)系分析034.3.4結(jié)果分析4.3.4結(jié)果分析fromto支持度置信度lift(華中智2號(hào)產(chǎn)品)(華中智1號(hào)產(chǎn)品)0.0540000.5078374.340487(華中智3號(hào)產(chǎn)品)(華中智1號(hào)產(chǎn)品)0.0643330.5467424.67301(華中智1號(hào)產(chǎn)品)(華中智3號(hào)產(chǎn)品)0.0643330.5498584.67301(華中智4號(hào)產(chǎn)品)(華中智1號(hào)產(chǎn)品)0.0553330.5015114.286415(華中智6號(hào)產(chǎn)品)(華中智1號(hào)產(chǎn)品)0.0586670.5072054.335082(華中智1號(hào)產(chǎn)品)(華中智6號(hào)產(chǎn)品)0.0586670.5014254.335082(華中智2號(hào)產(chǎn)品)(華中智3號(hào)產(chǎn)品)0.0573330.5391854.582308(華中智2號(hào)產(chǎn)品)(華中智6號(hào)產(chǎn)品)0.0540000.5078374.390522(華中智4號(hào)產(chǎn)品)(華中智3號(hào)產(chǎn)品)0.0563330.5105744.339156(華中智5號(hào)產(chǎn)品)(華中智3號(hào)產(chǎn)品)0.0570000.5059174.299579(華中智3號(hào)產(chǎn)品)(華中智6號(hào)產(chǎn)品)0.0606670.5155814.45747(華中智6號(hào)產(chǎn)品)(華中智3號(hào)產(chǎn)品)0.0606670.5244964.45747(華大智1號(hào)產(chǎn)品)(華大智6號(hào)產(chǎn)品)0.0663330.5574234.4475244.3.4結(jié)果分析第一行from華中智2號(hào)產(chǎn)品to華中智1號(hào)產(chǎn)品,支持度約為5.4%,置信度約為50.78%。說(shuō)明同時(shí)購(gòu)買華中智2號(hào)產(chǎn)品、華中智1號(hào)產(chǎn)品這2種產(chǎn)品的概率達(dá)50.78%,而這種情況發(fā)生的可能性約為5.4%;提升度為4.34,說(shuō)明購(gòu)買華中智2號(hào)產(chǎn)品能夠促進(jìn)華中智1號(hào)產(chǎn)品的購(gòu)買。顧客會(huì)同時(shí)購(gòu)買多種金融產(chǎn)品,以降低風(fēng)險(xiǎn),提高投資的安全性可以考慮捆綁銷售,或者適當(dāng)調(diào)整產(chǎn)品結(jié)構(gòu),推出組合型金融產(chǎn)品以滿足顧客需求,提升顧客的購(gòu)買體驗(yàn)感謝觀看第5章主成分分析及應(yīng)用CONTENTS目錄5.1主成分分析法概概述5.2主成分分析法代數(shù)模型5.3主成分分析法的步騾和方法2.4主成分分析法的操作流程5.5主成分分析舉例5.6用Python實(shí)現(xiàn)主成分分析015.1主成分分析法概概述1.主成分分析法(principalcomponentsanalysis,簡(jiǎn)寫“PCA”)也稱主分量分析,是考察多個(gè)變量之間相關(guān)性的一種多元統(tǒng)計(jì)方法。主成分分析旨在利用降維的思想,在盡量保證數(shù)據(jù)信息丟失最小的情況下,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)。也就是根據(jù)多個(gè)變量之間的相關(guān)關(guān)系和某種線性組合進(jìn)行轉(zhuǎn)化,得到少數(shù)幾個(gè)綜合變量,這幾個(gè)綜合變量保留較多信息,并且之間是不相關(guān)的,轉(zhuǎn)換后的這組變量稱為主成分。5.1.1主成分分析法概念2.在統(tǒng)計(jì)學(xué)中,主成分分析是一種簡(jiǎn)化數(shù)據(jù)集的技術(shù)。它是一個(gè)線性變換。這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征。5.1.2主成分分析法降維的主要體現(xiàn)
能用來(lái)降低算法計(jì)算開銷、去除噪聲,以及使結(jié)果易于展示與理解等;
主成分分析就是找出數(shù)據(jù)里最主要的方面,用數(shù)據(jù)里最主要的方面來(lái)代原始數(shù)據(jù);
主成分分析主要應(yīng)用領(lǐng)域包括數(shù)據(jù)壓縮、簡(jiǎn)化數(shù)據(jù)、數(shù)據(jù)可視化等。主成分分析(Principalcomponentsanalysis,PCA)是最重要的降維方法之一,在數(shù)據(jù)壓縮、消除冗余和數(shù)據(jù)噪音消除等方面有廣泛的應(yīng)用,其主要體現(xiàn)在:在實(shí)證問(wèn)題研究中,為了全面、系統(tǒng)地分析問(wèn)題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。
因?yàn)槊總€(gè)變量都在不同程度上反映了所研究問(wèn)題的某些信息,并且指標(biāo)之間彼此有一定的相關(guān)性,因而所得的統(tǒng)計(jì)數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計(jì)方法研究多變量問(wèn)題時(shí),變量太多會(huì)增加計(jì)算量和增加分析問(wèn)題的復(fù)雜性,人們希望在進(jìn)行定量分析的過(guò)程中,涉及的變量較少,得到的信息量較多。主成分分析正是適應(yīng)這一要求產(chǎn)生的,是解決這類題的理想工具。5.1.3主成分分析的基本思想
在科普效果評(píng)估的過(guò)程中也存在著這樣的問(wèn)題??破招Ч呛茈y具體量化的。在實(shí)際評(píng)估工作中,我們常常會(huì)選用幾個(gè)有代表性的綜合指標(biāo),采用打分的方法來(lái)進(jìn)行評(píng)估,故綜合指標(biāo)的選取是個(gè)重點(diǎn)和難點(diǎn)。如上所述,主成分分析法正是解決這一問(wèn)題的理想工具。因?yàn)樵u(píng)估所涉及的眾多變量之間既然有一定的相關(guān)性,就必然存在著起支配作用的因素。根據(jù)這一點(diǎn),通過(guò)對(duì)原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu)的關(guān)系研究,找出影響科普效果某一要素的幾個(gè)綜合指標(biāo),使綜合指標(biāo)為原來(lái)變量的線性擬合。
主成分分析法是一種降維的統(tǒng)計(jì)方法,它借助于一個(gè)正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,這在代數(shù)上表現(xiàn)為將原隨機(jī)向量的協(xié)方差陣變換成對(duì)角形陣,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開的p個(gè)正交方向,然后對(duì)多維變量系統(tǒng)進(jìn)行降維處理,使之能以一個(gè)較高的精度轉(zhuǎn)換成低維變量系統(tǒng),再通過(guò)構(gòu)造適當(dāng)?shù)膬r(jià)值函數(shù),進(jìn)一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。
主成分分析的原理是設(shè)法將原來(lái)變量重新組合成一組新的相互無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的總和變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上處理降維的一種方法。5.1.4主成分分析法的基本原理
主成分分析是設(shè)法將原來(lái)眾多具有一定相關(guān)性(比如p個(gè)指標(biāo)),重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo)。通常數(shù)學(xué)上的處理就是將原來(lái)p個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。最經(jīng)典的做法就是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來(lái)表達(dá),即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來(lái)p個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合,為了有效地反映原來(lái)信息,F(xiàn)1已有的信息就不需要再出現(xiàn)再F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求
,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第p個(gè)主成分。概括起來(lái)說(shuō),主成分分析主要由以下幾個(gè)方面的作用:5.1.5主成分分析的主要作用
多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問(wèn)題大都多于3個(gè)變量。要把研究的問(wèn)題用圖形表示出來(lái)是不可能的。然而,經(jīng)過(guò)主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫出n個(gè)樣品在二維平面上的分布情況,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可以對(duì)樣本進(jìn)行分類處理,可以由圖形發(fā)現(xiàn)遠(yuǎn)離大多數(shù)樣本點(diǎn)的離群點(diǎn)。
由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來(lái)自變量X做回歸分析。
用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計(jì)算量來(lái)選擇量,獲得選擇最佳變量子集合的效果。
主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X成份分析空間(m<p),而低維的Y空間代替高維的X空間所損失的信息很少。即:使只有一個(gè)主成分Yl(即m=1)時(shí),這個(gè)Yl仍是使用全部X變量(p個(gè))得到的。例如要計(jì)算Yl的均值也得使用全部X的均值。在所選的前m個(gè)主成分中,如果某個(gè)Xi的系數(shù)全部近似于零的話,就可以把這個(gè)Xi刪除,這也是一種刪除多余變量的方法。?
有時(shí)可通過(guò)因子負(fù)荷
的結(jié)論,弄清
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 結(jié)合中西醫(yī)療技術(shù)的探索
- 化工安全生產(chǎn)與環(huán)境保護(hù)管理措施研究
- 石河子大學(xué)《債法》2022-2023學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《土木工程材料》2022-2023學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《人力資源管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《當(dāng)代國(guó)際共產(chǎn)主義運(yùn)動(dòng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《運(yùn)動(dòng)控制基礎(chǔ)》2022-2023學(xué)年期末試卷
- 沈陽(yáng)理工大學(xué)《汽車構(gòu)造》2022-2023學(xué)年第一學(xué)期期末試卷
- 造價(jià)年終總結(jié)匯報(bào)
- 沈陽(yáng)理工大學(xué)《工程力學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- GB/T 42455.2-2024智慧城市建筑及居住區(qū)第2部分:智慧社區(qū)評(píng)價(jià)
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識(shí)
- 2024廣西專業(yè)技術(shù)人員繼續(xù)教育公需科目參考答案(97分)
- YYT 0653-2017 血液分析儀行業(yè)標(biāo)準(zhǔn)
- 刑事受害人授權(quán)委托書范本
- 《文明上網(wǎng)健康成長(zhǎng)》的主題班會(huì)
- 電工基礎(chǔ)(周紹敏主編)-參考答案
- 框架結(jié)構(gòu)冬季施工方案
- 畢業(yè)設(shè)計(jì)(論文)汽車照明系統(tǒng)常見故障診斷與排除
- 人工智能技術(shù)在電氣自動(dòng)化控制中的應(yīng)用分析
- 鼻內(nèi)鏡鼻竇手術(shù)技術(shù)操作規(guī)范(完整版)
評(píng)論
0/150
提交評(píng)論