python經(jīng)濟大數(shù)據(jù)分析 課件 第1-3章 數(shù)字經(jīng)濟與大數(shù)據(jù)概述、數(shù)據(jù)獲取與預處理、Python 大數(shù)據(jù)挖掘技術_第1頁
python經(jīng)濟大數(shù)據(jù)分析 課件 第1-3章 數(shù)字經(jīng)濟與大數(shù)據(jù)概述、數(shù)據(jù)獲取與預處理、Python 大數(shù)據(jù)挖掘技術_第2頁
python經(jīng)濟大數(shù)據(jù)分析 課件 第1-3章 數(shù)字經(jīng)濟與大數(shù)據(jù)概述、數(shù)據(jù)獲取與預處理、Python 大數(shù)據(jù)挖掘技術_第3頁
python經(jīng)濟大數(shù)據(jù)分析 課件 第1-3章 數(shù)字經(jīng)濟與大數(shù)據(jù)概述、數(shù)據(jù)獲取與預處理、Python 大數(shù)據(jù)挖掘技術_第4頁
python經(jīng)濟大數(shù)據(jù)分析 課件 第1-3章 數(shù)字經(jīng)濟與大數(shù)據(jù)概述、數(shù)據(jù)獲取與預處理、Python 大數(shù)據(jù)挖掘技術_第5頁
已閱讀5頁,還剩189頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1章數(shù)字經(jīng)濟與大數(shù)據(jù)概述核心知識包括:數(shù)字經(jīng)濟概念、內涵、特征;數(shù)字經(jīng)濟與大數(shù)據(jù)的關系;大數(shù)據(jù)的概念、特征;大數(shù)據(jù)處理流程與大數(shù)據(jù)技術;大數(shù)據(jù)思維。CONTENTS目錄1.1 數(shù)字經(jīng)濟概述1.1.1 數(shù)字經(jīng)濟概念與現(xiàn)狀1.1.2 數(shù)字經(jīng)濟的特征1.1.3 數(shù)字經(jīng)濟是新發(fā)展格局的關鍵支撐1.1.4 數(shù)字經(jīng)濟與大數(shù)據(jù)的關系1.2 大數(shù)據(jù)概述1.2.1 大數(shù)據(jù)的產(chǎn)生1.2.2 大數(shù)據(jù)的概念與內涵1.2.3 大數(shù)據(jù)發(fā)展現(xiàn)狀1.2.4 大數(shù)據(jù)的特征1.2.5 大數(shù)據(jù)處理流程與大數(shù)據(jù)技術 1.2.6 大數(shù)據(jù)的運用1.2.7 大數(shù)據(jù)思維01PARTONE1.1 數(shù)字經(jīng)濟概述010203041.1 數(shù)字經(jīng)濟概述1.1.1 數(shù)字經(jīng)濟概念與現(xiàn)狀1.1.2 數(shù)字經(jīng)濟的特征1.1.3 數(shù)字經(jīng)濟是新發(fā)展格局的關鍵支撐1.1.4 數(shù)字經(jīng)濟與大數(shù)據(jù)的關系1.1 數(shù)字經(jīng)濟概述數(shù)字經(jīng)濟是隨著信息技術革命發(fā)展產(chǎn)生的繼農(nóng)業(yè)經(jīng)濟、工業(yè)經(jīng)濟之后的新經(jīng)濟社會發(fā)展形態(tài)。數(shù)字經(jīng)濟是發(fā)展最快、創(chuàng)新最活躍、輻射最廣泛的經(jīng)濟活動。以移動互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、虛擬現(xiàn)實、人工智能等為代表的新一代信息技術迅速發(fā)展,加速了經(jīng)濟社會各領域的深度融合。新產(chǎn)業(yè)、新業(yè)態(tài)、新模式不斷涌現(xiàn),促進了數(shù)字經(jīng)濟的快速發(fā)展。1.1 數(shù)字經(jīng)濟概述1.1.1 數(shù)字經(jīng)濟概念與現(xiàn)狀人類社會經(jīng)濟發(fā)展主要可以分為三大階段:農(nóng)業(yè)經(jīng)濟時代、工業(yè)經(jīng)濟時代,以及數(shù)字經(jīng)濟時代。概念:數(shù)字經(jīng)濟是以數(shù)字化的知識和信息作為關鍵生產(chǎn)要素,以數(shù)字技術為核心驅動力量,以現(xiàn)代信息網(wǎng)絡為重要載體,通過數(shù)字技術與實體經(jīng)濟深度融合,不斷提高經(jīng)濟社會的數(shù)字化、網(wǎng)絡化、智能化水平,加速重構經(jīng)濟發(fā)展與治理模式的新型經(jīng)濟形態(tài)。數(shù)字經(jīng)濟可分為三個層次:提供核心動能的信息技術及其裝備產(chǎn)業(yè)、深度信息化的各行各業(yè)以及跨行業(yè)數(shù)據(jù)融合應用的數(shù)據(jù)增值產(chǎn)業(yè)。1.1 數(shù)字經(jīng)濟概述1.1.1 數(shù)字經(jīng)濟概念與現(xiàn)狀數(shù)字經(jīng)濟的“四化”框架:一是數(shù)字產(chǎn)業(yè)化,即信息通信產(chǎn)業(yè),具體包括電子信息制造業(yè)、電信業(yè)、軟件和信息技術服務業(yè)、互聯(lián)網(wǎng)行業(yè)等;二是產(chǎn)業(yè)數(shù)字化,即傳統(tǒng)產(chǎn)業(yè)應用數(shù)字技術所帶來的產(chǎn)出增加和效率提升部分,包括但不限于工業(yè)互聯(lián)網(wǎng)、兩化融合、智能制造、車聯(lián)網(wǎng)、平臺經(jīng)濟等融合型新產(chǎn)業(yè)新模式新業(yè)態(tài);三是數(shù)字化治理,包括但不限于多元治理,以“數(shù)字技術+治理”為典型特征的技管結合,以及數(shù)字化公共服務等;四是數(shù)據(jù)價值化,包括但不限于數(shù)據(jù)采集、數(shù)據(jù)標準、數(shù)據(jù)確權、數(shù)據(jù)標注、數(shù)據(jù)定價、數(shù)據(jù)交易、數(shù)據(jù)流轉、數(shù)據(jù)保護等。其中最主要的是產(chǎn)業(yè)數(shù)字化和數(shù)字產(chǎn)業(yè)化。1.1 數(shù)字經(jīng)濟概述1.1.1 數(shù)字經(jīng)濟概念與現(xiàn)狀數(shù)字經(jīng)濟內涵的理解:第一,數(shù)字經(jīng)濟中生產(chǎn)力和生產(chǎn)關系的辨證統(tǒng)一。第二,數(shù)字經(jīng)濟超越了信息產(chǎn)業(yè)部門的范圍。第三,數(shù)字經(jīng)濟是一種技術經(jīng)濟范式。第四,數(shù)字經(jīng)濟是一種經(jīng)濟社會形態(tài)。第五,數(shù)字經(jīng)濟是信息經(jīng)濟、信息化發(fā)展的高級階段。1.1 數(shù)字經(jīng)濟概述1.1.1 數(shù)字經(jīng)濟概念與現(xiàn)狀數(shù)字經(jīng)濟已成為當前最具活力、最具創(chuàng)新力、輻射最廣泛的經(jīng)濟形態(tài),是國民經(jīng)濟的核心增長極之一。圖1?1我國數(shù)字經(jīng)濟規(guī)模(萬億元)圖1?2我國數(shù)字經(jīng)濟增速與GP增速1.1 數(shù)字經(jīng)濟概述1.1.2 數(shù)字經(jīng)濟的特征數(shù)字經(jīng)濟有五大特征:1.數(shù)據(jù)成為驅動經(jīng)濟發(fā)展的關鍵生產(chǎn)要素和重要的戰(zhàn)略資產(chǎn)。2.數(shù)字基礎設施成為新基礎設施。3.數(shù)字素養(yǎng)成為對勞動者和消費者的新要求。4.供給和需求的界限日益模糊。5.人類社會、網(wǎng)絡世界和物理世界日益融合。1.1 數(shù)字經(jīng)濟概述1.1.3 數(shù)字經(jīng)濟支撐新發(fā)展格局數(shù)字經(jīng)濟打造新發(fā)展格局關鍵要素新發(fā)展格局的關鍵在于循環(huán),即推動生產(chǎn)要素公平自由的流動與使用。產(chǎn)品全生命周期數(shù)據(jù)管控助力企業(yè)新產(chǎn)品研發(fā)周期降低16.9%,產(chǎn)能利用率提升15.7%,設備綜合利用率提升9.5%。數(shù)字經(jīng)濟實現(xiàn)新發(fā)展格局供需均衡供需平衡方面,數(shù)字經(jīng)濟和實體經(jīng)濟融合有效打通供需間信息渠道,減少資金、資源、產(chǎn)品等流動阻礙,提高經(jīng)濟系統(tǒng)面對外部沖擊時的協(xié)同性和快速反應能力。數(shù)字經(jīng)濟支撐新發(fā)展格局國際暢通數(shù)字經(jīng)濟與實體經(jīng)濟融合發(fā)展推進強大國內市場和貿易強國建設,促進國際國內雙循環(huán)。1.1 數(shù)字經(jīng)濟概述1.1.4 數(shù)字經(jīng)濟與大數(shù)據(jù)的關系數(shù)字經(jīng)濟業(yè)態(tài)大規(guī)模催生大數(shù)據(jù)大數(shù)據(jù)賦能數(shù)字經(jīng)濟大數(shù)據(jù)是數(shù)字經(jīng)濟的關鍵生產(chǎn)要素大數(shù)據(jù)是發(fā)揮數(shù)據(jù)價值的使能因素大數(shù)據(jù)是驅動數(shù)字經(jīng)濟創(chuàng)新發(fā)展的核心動能02PARTTWO1.1 大數(shù)據(jù)概述020304051.2 大數(shù)據(jù)概述1.2.2 大數(shù)據(jù)的概念與內涵1.2.3 大數(shù)據(jù)發(fā)展現(xiàn)狀1.2.4 大數(shù)據(jù)的特征1.2.5 大數(shù)據(jù)處理流程與大數(shù)據(jù)技術0607011.2.6 大數(shù)據(jù)的運用1.2.7 大數(shù)據(jù)思維1.2.1 大數(shù)據(jù)的產(chǎn)生1.2 大數(shù)據(jù)概述大數(shù)據(jù)是信息化發(fā)展的新階段。隨著信息技術和人類生產(chǎn)生活交匯融合,互聯(lián)網(wǎng)快速普及,全球數(shù)據(jù)呈現(xiàn)爆發(fā)增長、海量集聚的特點,作為新一輪工業(yè)革命中最為活躍的技術創(chuàng)新要素,正在全面重構全球生產(chǎn)、流通、分配、消費等領域,對全球競爭、國家治理、經(jīng)濟發(fā)展、產(chǎn)業(yè)轉型、社會生活等方面產(chǎn)生全面深刻影響。1.2 大數(shù)據(jù)概述1.2.1 大數(shù)據(jù)的產(chǎn)生大數(shù)據(jù)的發(fā)展歷程1990大數(shù)據(jù)的萌芽階段2003大數(shù)據(jù)的突破階段2005大數(shù)據(jù)發(fā)展成熟期2009數(shù)據(jù)碎片化、分布式、流媒體特征更明顯2010大數(shù)據(jù)已經(jīng)成為重要的時代特征2011大數(shù)據(jù)概念開始風靡全球2012大數(shù)據(jù)已經(jīng)成為重要的時代特征2013大數(shù)據(jù)監(jiān)管進入公眾視野2014大數(shù)據(jù)產(chǎn)業(yè)從理論邁向實際應用2015大數(shù)據(jù)獨立發(fā)展成為一種新興行業(yè)1.2 大數(shù)據(jù)概述1.2.1 大數(shù)據(jù)的產(chǎn)生大數(shù)據(jù)產(chǎn)生的支撐技術支撐存儲能力、計算能力、網(wǎng)絡帶寬數(shù)據(jù)產(chǎn)生方式的變革數(shù)據(jù)產(chǎn)生的方式大致經(jīng)歷了三個階段:運營式系統(tǒng)階段、用戶原創(chuàng)內容階段和感知式系統(tǒng)階段。簡單來說,數(shù)據(jù)產(chǎn)生經(jīng)歷了被動、主動和自動三個階段。這些被動、主動和自動的數(shù)據(jù)共同構成了大數(shù)據(jù)的數(shù)據(jù)來源,但其中自動式的數(shù)據(jù)是大數(shù)據(jù)產(chǎn)生的最根本原因。1.2 大數(shù)據(jù)概述1.2.1 大數(shù)據(jù)的產(chǎn)生大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的對比

傳統(tǒng)數(shù)據(jù)詮釋宏觀、整體的狀況,用于影響政策決策;大數(shù)據(jù)可以分析微觀、個體以及環(huán)境的狀況,用于調整其行為與實現(xiàn)個性化服務。

傳統(tǒng)數(shù)據(jù)分析方式、采集方法、內容分類、采信標準等都已存在既有規(guī)則,方法論完整,數(shù)據(jù)主要靠人工采集;大數(shù)據(jù)分析為新鮮事物,數(shù)據(jù)采集通過傳感器采集、SDK采集、運營商采集等自動化方式,還沒有形成清晰的分析方法、路徑、以及評判標準。

傳統(tǒng)數(shù)據(jù)來源于階段性的,針對性的評估,其采樣過程可能有系統(tǒng)誤差;大數(shù)據(jù)來源于過程性的,即時性的行為與現(xiàn)象記錄,第三方、技術型的觀察采樣的方式誤差較小。

SDK是SoftwareDevelopmentKit的縮寫,即軟件開發(fā)工具包,SDK直接調用API(應用程序接口,ApplicationProgrammingInterface),函數(shù)進行編程直接從App里讀取數(shù)據(jù)。1.2 大數(shù)據(jù)概述1.2.2 大數(shù)據(jù)的概念與內涵大數(shù)據(jù)的概念國務院2015年頒布的《促進大數(shù)據(jù)發(fā)展行動綱要》對大數(shù)據(jù)概念進行了界定,認為大數(shù)據(jù)是“具有規(guī)模巨大、種類多樣、形成快速、真實度高的數(shù)據(jù)集合”,可以通過使用新的信息技術手段從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升能力的一種新興的信息服務業(yè)態(tài)。大數(shù)據(jù)的內涵主要基于國家發(fā)展角度來理解大數(shù)據(jù)的內涵。首先,大數(shù)據(jù)是一種全新的國家戰(zhàn)略性資源,是重要的國家實力要素。其次,大數(shù)據(jù)具有集聚性,即只有相關數(shù)據(jù)聚集一起才能更好的發(fā)揮作用。最后,大數(shù)據(jù)可以顯著提升我國科學決策能力和水平。1.2 大數(shù)據(jù)概述1.2.3 大數(shù)據(jù)發(fā)展現(xiàn)狀圖18數(shù)字數(shù)據(jù)的爆發(fā)式增長資料來源:國際數(shù)據(jù)公司(IDC)圖1?9結構化數(shù)據(jù)和非結構化數(shù)據(jù)增長堆積圖(Z字節(jié))資料來源:國際數(shù)據(jù)公司(IDC)1.2 大數(shù)據(jù)概述1.2.3 大數(shù)據(jù)發(fā)展現(xiàn)狀圖1?10我國數(shù)據(jù)戰(zhàn)略布局歷程1.2 大數(shù)據(jù)概述1.2.4 大數(shù)據(jù)的特征數(shù)據(jù)規(guī)模大(Volume)伴隨互聯(lián)網(wǎng)的不斷發(fā)展,社交平臺、金融機構、新聞媒體、電商平臺等每時每刻都在產(chǎn)生大量的數(shù)據(jù)。以銀行業(yè)為例,我國大型商業(yè)銀行和保險公司的數(shù)據(jù)量已經(jīng)超過100TB1024各單位…………等于1單位的注釋KM(Kilobyte)MB一張音樂CD光盤擁有600MB數(shù)據(jù)MB(Megabyte)GB1GB可以存儲的數(shù)據(jù)量,等于書架上疊起來大概9米多高的書籍GB(Gigabyte)TB10TB可以儲存美國國會圖書館的全部信息TB(Terabyte)PB1PB可以儲存的文本,如果打印出來可以裝滿2000萬個41]的書柜PB(Petabyte)EB5EB的信息量等于全人類曾經(jīng)說過的全部詞語EB(Exabyte)ZB使用現(xiàn)在最快的寬帶,下載1ZB的信息需要至少110億年表1?1數(shù)據(jù)計量單位1.2 大數(shù)據(jù)概述1.2.4 大數(shù)據(jù)的特征種類多(Variety)宏觀數(shù)據(jù),如金融、環(huán)境、氣象、水利、產(chǎn)品設計等;微觀數(shù)據(jù),過去難以量化的如圖像、音頻、視頻、生物識別、地理標記、筆跡等非結構化數(shù)據(jù)。速度快(Velocity)真實度高(Veracity)

數(shù)據(jù)原生性、真實性和即時性,數(shù)據(jù)相關要求和標準的不斷提高。價值大(Value)“對于海量數(shù)據(jù)的挖掘和運用,預示著新一輪生產(chǎn)率增長和消費者盈余浪潮的到來?!卑殡S大數(shù)據(jù)分析技術的進步,數(shù)據(jù)無論在宏觀層面還是微觀層面都將發(fā)揮巨大的分析價值和應用價值。1.2 大數(shù)據(jù)概述1.2.5 大數(shù)據(jù)處理流程與大數(shù)據(jù)技術大數(shù)據(jù)的處理流程1.2 大數(shù)據(jù)概述1.2.5 大數(shù)據(jù)處理流程與大數(shù)據(jù)技術大數(shù)據(jù)技術數(shù)據(jù)采集ETL數(shù)據(jù)眾包(CrowdSouring)存儲與管理結構化、非結構化和半結構化數(shù)據(jù)分布式文件系統(tǒng)關系數(shù)據(jù)庫非關系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計算和云存儲實時流處理數(shù)據(jù)分析關聯(lián)規(guī)則分析分類遺傳算法神經(jīng)網(wǎng)絡預測模型模式識別時間序列分析回歸分析系統(tǒng)仿真機器學習優(yōu)化空間分析社會網(wǎng)絡分析自然語言分析數(shù)據(jù)解釋標簽云(TagCloud)聚類圖(Clustergram)空間信息流(Spatialinformationflow)熱圖(Heatmap)1.2 大數(shù)據(jù)概述1.2.6 大數(shù)據(jù)的運用數(shù)據(jù)時代萬物皆可以數(shù)據(jù)化,態(tài)度變成數(shù)據(jù)可以表示情緒,方位變成數(shù)據(jù)可用于導航,溝通變成數(shù)據(jù)形成社交媒體,大數(shù)據(jù)的運用已經(jīng)滲透到非常多的領域,包括業(yè)務流程優(yōu)化、監(jiān)控身體情況、理解滿足客戶需求、智能醫(yī)療研發(fā)、金融交易、研發(fā)智能汽車、實時掌控交通情況、改善日常生活等。案例一:影視劇拍攝之《紙牌屋》和《小時代》利用大數(shù)據(jù)面向特定用戶制作影片,投其所好,于是票房越來越好。案例二:谷歌預測流感利用搜索引擎查詢數(shù)據(jù)檢測禽流感流行趨勢,大數(shù)據(jù)分析中有陷阱。案例三:點球成金以事實為依據(jù)去評價一名運動員的表現(xiàn),而不是像以前那樣只是憑借傳聞或者感覺。依據(jù)“高上壘率”,用數(shù)學分析的模式縝密而細致的測算估計每個球員的價值,并從中挑選出三個上壘率高的身價遠不如其他知名球員的球員代替運動家隊原先被挖走的三個核心球員,最終,球隊在2002年的美國聯(lián)盟西部賽事中奪得冠軍。1.2 大數(shù)據(jù)概述1.2.7 大數(shù)據(jù)思維全樣本思維大數(shù)據(jù)時代,我們不像以前那樣依賴于隨機樣本,而追求的是全體樣本。容錯思維如果我們擁有更大量的數(shù)據(jù)時,我們可以允許有一些數(shù)據(jù)損失并兼容一些數(shù)據(jù)混雜等問題,只需要我們擁有足夠大量的數(shù)據(jù)。相關性思維大數(shù)據(jù)思維一個最突出的特點,就是從傳統(tǒng)的因果思維轉向相關思維,傳統(tǒng)的因果思維是說我一定要找到一個原因,推出一個結果來。而大數(shù)據(jù)沒有必要找到原因,不需要科學的手段來證明這個事件和那個事件之間有一個必然和先后關聯(lián)發(fā)生的一個因果規(guī)律。感謝觀看第2章數(shù)據(jù)獲取與預處理CONTENTS目錄2.1數(shù)據(jù)類型2.2數(shù)據(jù)獲取2.3數(shù)據(jù)質量分析與清洗2.4數(shù)據(jù)特征分析2.5數(shù)據(jù)集成2.6數(shù)據(jù)規(guī)約012.1數(shù)據(jù)類型結構化數(shù)據(jù)由二維表結構來邏輯表達和實現(xiàn)的數(shù)據(jù)嚴格地遵循數(shù)據(jù)格式與長度規(guī)范2.1數(shù)據(jù)類型序號姓名年齡性別1張三27男2李四33男3王五21男4趙六48女

數(shù)據(jù)特點:關系模型數(shù)據(jù),關系數(shù)據(jù)庫表示。

常見格式:MySQL、Oracle、SQLServer等。

應用場合:數(shù)據(jù)庫、系統(tǒng)網(wǎng)站、ERP等。

數(shù)據(jù)采集:數(shù)據(jù)庫導出、SQL方式等。半結構數(shù)據(jù)比關系型數(shù)據(jù)庫或其他數(shù)據(jù)表形式關聯(lián)起來的數(shù)據(jù)模型結構更加靈活和普通純文本相比又具有一定的結構性2.1數(shù)據(jù)類型數(shù)據(jù)特點:非關系模型數(shù)據(jù),有一定的格式。常見格式:Email、HTML、XML、JSON等。應用場合:郵件系統(tǒng)、檔案系統(tǒng)、新聞網(wǎng)站等。數(shù)據(jù)采集:網(wǎng)絡爬蟲、數(shù)據(jù)解析等。非結構化數(shù)據(jù)沒有固定結構以二進制的格式整體進行存儲大數(shù)據(jù)時代,非結構化數(shù)據(jù)扮演著越來越重要的角色2.1數(shù)據(jù)類型數(shù)據(jù)特點:沒有固定格式的數(shù)據(jù)。常見格式:文本、PDF、PPT、圖片、音頻、視頻等。應用場合:人臉識別、文本分析、醫(yī)療影像分析等。數(shù)據(jù)采集:網(wǎng)絡爬蟲、數(shù)據(jù)存檔等。022.2數(shù)據(jù)獲取文件是存儲在輔助存儲器上的數(shù)據(jù)序列,是數(shù)據(jù)的集合和抽象,有兩種展現(xiàn)形式:文本文件和二進制文件。文本文件:由單一特定編碼的字符組成,如UTF-8編碼,適用于例如:txt文件,.py文件等。二進制文件:直接由比特0和比特1組成,沒有統(tǒng)一字符編碼,適用于例如:.png文件,.avi文件等文件可以用“文本文件方式”和“二進制文件方式”打開2.2.1文件存取2.2.1文件存取2.1.txt文件保存:“實現(xiàn)中華民族偉大復興”文本方式打開二進制方式打開2.2.1文件存取Python對文本文件和二進制文件采用統(tǒng)一的操作步驟,即“打開—操作—關閉”2.2.1文件存取Python通過open()函數(shù)打開一個文件,并實現(xiàn)該文件與一個程序變量的關聯(lián),格式如下:<變量名>=open(<文件名>,<打開模式>)2.2.1文件存取Python通過open()函數(shù)打開一個文件,并實現(xiàn)該文件與一個程序變量的關聯(lián),格式如下:<變量名>=open(<文件名>,<打開模式>)open()函數(shù)提供了7種基本打開模式文件打開模式描述'r'只讀模式,默認值,如果文件不存在,返回FileNotFoundError'w'覆蓋寫模式,文件不存在則創(chuàng)建,存在則完全覆蓋'x'創(chuàng)建寫模式,文件不存在則創(chuàng)建,存在則返回FileExistsError'a'追加寫模式,文件不存在則創(chuàng)建,存在則在文件最后追加內容'b'二進制文件模式't'文本文件模式,默認值'+'與r/w/x/a一同使用,在原功能基礎上增加同時讀寫功能2.2.1文件存取打開模式中,'r'、'w'、'x'、'a'可以和'b'、't'、'+'組合使用,形成既表達讀寫又表達文件模式的方式打開模式含義說明r+/rb+讀?。ǜ拢┠J揭宰x/寫的形式打開文本文件/二進制文件,如果文件不存在,open()調用失敗w+/wb+寫入(更新)模式以讀/寫的形式創(chuàng)建文本文件/二進制文件,如果文件已存在,則清空文件a+/ab+追加(更新)模式以讀/寫的形式打開文本/二進制文件,但只允許在文件末尾添加數(shù)據(jù),若文件不存在,則創(chuàng)建新文件文件使用結束后,需用close()方法關閉,釋放文件的使用授權,該方法的使用方式如下:<變量>.close()2.2.1文件存取文件內容的讀取當文件以文本方式打開時,讀寫按照字符串方式,采用計算機使用的編碼或指定編碼當文件以二進制方式打開時,讀寫按照字節(jié)流方式三種文件內容讀取方式操作方法描述<f>.read(size=-1)讀入全部內容,如果給出參數(shù),讀入前size長度<f>.readline(size=-1)讀入一行內容,如果給出參數(shù)讀入該行前size長度<f>.readlines(hint=-1)讀入文件所有行,以每行為元素形成列表,如果給出參數(shù),讀入前hint行2.2.1文件存取用戶輸入文件路徑,以文本文件方式讀入文件內容并逐行打印提示用戶輸入一個文件名打開文件并賦值給文件對象變量fo文件的全部內容通過fo.readlines()方法讀入到一個列表中通過for-in方式遍歷列表2.2.1文件存取文件內容寫入的3種方法操作方法描述<f>.write(s)向文件寫入一個字符串或字節(jié)流<f>.writelines(lines)將一個元素全為字符串的列表寫入文件<f>.seek(offset)改變當前文件操作指針的位置,offset含義如下:0–文件開頭;1–當前位置;2–文件結尾2.2.1文件存取2.2.1文件存取fo.seek(0)將文件操作指針返回到文件開始2.2.2CSV文件存取CSV(Comma-SeparatedValues),中文通常叫做逗號分隔值,是一種國際通用的一維、二維數(shù)據(jù)存儲格式常用pandas庫處理CSV文件2.2.2CSV文件存取代碼、體重和身高都作為DataFrame的數(shù)據(jù)進行了讀取,而索引是系統(tǒng)自動生成的0,1,2,3。如果想把代號作為索引進行讀取,則執(zhí)行如下操作2.2.2CSV文件存取文件存儲有多種形式,CSV文件是比較常用而且方便的一種方式,使用pandas庫中to_csv()函數(shù)進行存儲2.2.2CSV文件存取如果不需要dataframe中的索引,可以在to_csv()函數(shù)中設置index參數(shù)為None2.2.3網(wǎng)絡爬蟲網(wǎng)絡爬蟲是在萬維網(wǎng)瀏覽網(wǎng)頁并按照一定規(guī)則提取信息的腳本或程序Python中常用與網(wǎng)絡爬蟲的庫有Requests庫、Scrapy庫等在進行網(wǎng)頁內容爬取時,使用Requests庫即可滿足要求2.2.3網(wǎng)絡爬蟲性能騷擾法律風險隱私泄露2.2.3網(wǎng)絡爬蟲來源審查:判斷User‐Agent進行限制檢查來訪HTTP協(xié)議頭的User‐Agent域,只響應瀏覽器或友好爬蟲的訪問發(fā)布公告:Robots協(xié)議告知所有爬蟲網(wǎng)站的爬取策略,要求爬蟲遵守2.2.3網(wǎng)絡爬蟲/robots.txt2.2.3網(wǎng)絡爬蟲Requests庫有7個主要方法,requests.get()是獲取網(wǎng)頁數(shù)據(jù)的核心函數(shù)操作方法描述requests.request()構造一個請求,支撐以下各方法的基礎方法requests.get()獲取HTML網(wǎng)頁的主要方法,對應于HTTP的GETrequests.head()獲取HTML網(wǎng)頁頭信息的方法,對應于HTTP的HEADrequests.post()向HTML網(wǎng)頁提交POST請求的方法,對應于HTTP的POSTrequests.put()向HTML網(wǎng)頁提交PUT請求的方法,對應于HTTP的PUTrequests.patch()向HTML網(wǎng)頁提交局部修改請求,對應于HTTP的PATCHrequests.delete()向HTML頁面提交刪除請求,對應于HTTP的DELETE2.2.3網(wǎng)絡爬蟲常用數(shù)據(jù)格式JSONHTML/XMLYAML022.3數(shù)據(jù)質量分析與清洗2.3.1數(shù)據(jù)質量分析數(shù)據(jù)質量分析是數(shù)據(jù)預處理的前提,是數(shù)據(jù)挖掘分析結論有效性和準確性的基礎,其主要任務是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求,以及不能直接進行相應分析的數(shù)據(jù),在常見的數(shù)據(jù)挖掘工作中,臟數(shù)據(jù)包括:

缺失值

異常值

不一致的值

重復數(shù)據(jù)及含有特殊符號(如#、¥、*)的數(shù)據(jù)本小節(jié)將主要對數(shù)據(jù)中的缺失值、異常值和一致性進行分析。2.3.1數(shù)據(jù)質量分析有些信息暫時無法獲取,或者獲取信息的代價太大。有些信息是被遺漏的。可能是因為輸入時認為不重要、忘記填寫或對數(shù)據(jù)理解錯誤等一些人為因素而遺漏,也可能是由于數(shù)據(jù)采集設備的故障、存儲介質的故障、傳輸媒體的故障等機械原因而丟失。屬性值不存在。在某些情況下,缺失值并不意味著數(shù)據(jù)有錯誤,對一些對象來說屬性值是不存在的,如一個未婚者的配偶姓名、一個兒童的固定收入狀況等。缺失值產(chǎn)生的原因2.3.1數(shù)據(jù)質量分析數(shù)據(jù)挖掘建模將丟失大量有用信息數(shù)據(jù)挖掘模型所表現(xiàn)出的不確定性更加顯著,模型中蘊涵的確定性成分更難把握包含空值的數(shù)據(jù)會使挖掘建模過程陷入混亂,導致不可靠的輸出缺失值的影響2.3.1數(shù)據(jù)質量分析對缺失值做簡單統(tǒng)計分析統(tǒng)計缺失值的變量個數(shù)統(tǒng)計每個變量的未缺失數(shù)統(tǒng)計變量的缺失數(shù)及缺失率缺失值分析2.3.1數(shù)據(jù)質量分析異常值分析異常值分析是檢驗數(shù)據(jù)是否有錄入錯誤以及含有不合常理的數(shù)據(jù)。忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數(shù)據(jù)的計算分析過程中,對結果會帶來不良影響;重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)問題進而改進決策的契機。異常值是指樣本中的個別值,其數(shù)值明顯偏離其余的觀測值。異常值也稱為離群點,異常值的分析也稱為離群點的分析。異常值分析方法主要有:簡單統(tǒng)計量分析、3原則、箱型圖分析。2.3.1數(shù)據(jù)質量分析異常值分析——簡單統(tǒng)計分析可以先做一個描述性統(tǒng)計,進而查看哪些數(shù)據(jù)是不合理的。需要的統(tǒng)計量主要是最大值和最小值,判斷這個變量中的數(shù)據(jù)是不是超出了合理的范圍,如身高的最大值為5米,則該變量的數(shù)據(jù)存在異常。2.3.1數(shù)據(jù)質量分析異常值分析——3原則如果數(shù)據(jù)服從正態(tài)分布,在3原則下,異常值被定義為一組測定值中與平均值的偏差超過三倍標準差的值。在正態(tài)分布的假設下,距離平均值3之外的值出現(xiàn)的概率為

,屬于極個別的小概率事件。2.3.1數(shù)據(jù)質量分析異常值分析——箱型圖分析箱形圖依據(jù)實際數(shù)據(jù)繪制,不需要事先假定數(shù)據(jù)服從特定的分布形式,沒有對數(shù)據(jù)作任何限制性要求,它只是真實直觀地表現(xiàn)數(shù)據(jù)分布的本來面貌;另一方面,箱形圖判斷異常值的標準以四分位數(shù)和四分位距為基礎,四分位數(shù)具有一定的魯棒性:多達25%的數(shù)據(jù)可以變得任意遠而不會很大地擾動四分位數(shù),所以異常值不能對這個標準施加影響,箱形圖識別異常值的結果比較客觀。由此可見,箱形圖在識別異常值方面有一定的優(yōu)越性。2.3.1數(shù)據(jù)質量分析餐飲系統(tǒng)銷售數(shù)據(jù)質量分析2.3.1數(shù)據(jù)質量分析一致性分析數(shù)據(jù)不一致性是指數(shù)據(jù)的矛盾性、不相容性。直接對不一致的數(shù)據(jù)進行挖掘,可能會產(chǎn)生與實際相違背的挖掘結果。在數(shù)據(jù)挖掘過程中,不一致數(shù)據(jù)的產(chǎn)生主要發(fā)生在數(shù)據(jù)集成的過程中,可能是由于被挖掘數(shù)據(jù)是來自于從不同的數(shù)據(jù)源、重復存放的數(shù)據(jù)未能進行一致性地更新造成的,比如兩張表中都存儲了用戶的地址,在用戶的地址發(fā)生改變時,如果只更新了一張表中的數(shù)據(jù),那么這兩張表中就有了不一致的數(shù)據(jù)。2.3.2數(shù)據(jù)清洗數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無關數(shù)據(jù)、重復數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值、異常值等。2.3.2數(shù)據(jù)清洗缺失值處理處理缺失值的方法可分為三類:刪除記錄、數(shù)據(jù)插補和不處理。操作方法描述均值/中位數(shù)/眾數(shù)插補根據(jù)屬性值的類型,用該屬性取值的均值/中位數(shù)/眾數(shù)插補使用固定值將缺失的屬性值用一個常量替換。如廣州一個工廠外來務工人員“基本工資”屬性缺失,可以用2020年廣州市普通外來務工人員工資標準這個固定值代替最近臨插補在記錄中找到與缺失樣本最接近樣本的該屬性值回歸方法根據(jù)已有數(shù)據(jù)和與其相關的其他變量數(shù)據(jù),建立擬合模型來預測缺失的屬性值插值法2.3.2數(shù)據(jù)清洗均值插補法較為簡單,其過程為:求出所有非空值屬性的平均值,并利用平均值對空值進行插補。2.3.2數(shù)據(jù)清洗拉格朗日插值法

第一步:

求已知的n個點的

次多項式:

將個點的坐標代入多項式函數(shù)

第二步:

將缺失的函數(shù)值對應的點

代入插值多項式得到缺失值的近似值

解出拉格朗日插值多項式2.3.2數(shù)據(jù)清洗異常值處理在數(shù)據(jù)預處理時,異常值是否剔除,需視具體情況而定,因為有些異常值可能蘊含著有用的信息。異常值處理常用方法見下表異常值處理方法方法描述刪除含有異常值的記錄直接將含有異常值的記錄刪除視為缺失值將異常值視為缺失值,利用缺失值處理的方法進行平均值修正可用前后兩個觀測值的平均值修正該異常值不處理直接在具有異常值的數(shù)據(jù)集上進行挖掘建模2.3.2數(shù)據(jù)清洗重復值處理重復值是指部分數(shù)據(jù)重復出現(xiàn),從而造成數(shù)據(jù)挖掘結果的不準確。部分數(shù)據(jù)重復,使用drop_duplicates()函數(shù)去除利用drop()函數(shù)直接刪除某列2.4數(shù)據(jù)特征分析對數(shù)據(jù)進行質量分析以后,接下來就是對數(shù)據(jù)做特征分析。一般可通過繪制圖表、計算某些特征量等手段進行數(shù)據(jù)的特征分析,對數(shù)據(jù)集進行深入了解,檢驗屬性間的相互關系,確定觀察對象感興趣的子集。統(tǒng)計量分析分布分析對比分析周期性分析相關性分析2.4.1統(tǒng)計量分析用統(tǒng)計指標對定量數(shù)據(jù)進行統(tǒng)計描述集中趨勢分析均值中位數(shù)眾數(shù)離散趨勢分析極差標準差變異系數(shù)四分位數(shù)間距2.4.2分布分析分布分析能揭示數(shù)據(jù)的分布特征和分布類型,便于發(fā)現(xiàn)某些特大或特小的可疑值。對于定量數(shù)據(jù),欲了解其分布形式,是對稱的、還是非對稱的,可做出頻率分布表、繪制頻率分布直方圖、繪制莖葉圖進行直觀地分析;對于定性分類數(shù)據(jù),可用餅圖和條形圖直觀地顯示分布情況。2.4.2分布分析定量數(shù)據(jù)的分布分析對于定量變量而言,做頻率分布分析時選擇“組數(shù)”和“組寬”是主要的問題,一般按照以下步驟:求極差決定組距與組數(shù)決定分點列出頻率分布表繪制頻率分布直方圖遵循的主要原則有:各組之間必須是相互排斥的各組必須將所有的數(shù)據(jù)包含在內各組的組寬最好相等2.4.2分布分析某小微企業(yè)的銷售數(shù)據(jù)第一步:求極差極差=最大值-最小值=3960-45=3915第二步:分組這里根據(jù)業(yè)務數(shù)據(jù)的含義,可取組距為500。組數(shù)=極差/組距=3915/500=7.83=82.4.2分布分析第三步:決定分點,如下表:第四步:求出頻率分布直方表根據(jù)分組區(qū)間,統(tǒng)計二季度銷售數(shù)據(jù)在每個組段中出現(xiàn)的次數(shù)即頻數(shù),再利用頻數(shù)除以總天數(shù),可以得到相應的評率。例如,銷售額在[0,500)區(qū)間的共有28天,即頻數(shù)為28,頻率為31%。2.4.2分布分析第五步:繪制頻率分布直方圖以二季度每天的銷售額組段為橫軸,以各組段的頻率密度(頻率與組距之比)為縱軸,可以繪制出頻率分布直方圖。2.4.2分布分析定性數(shù)據(jù)的分布分析對于定性數(shù)據(jù),常常根據(jù)變量的分類類型來分組,可以采用餅圖和條形圖來描述定性變量的分布餅圖的每一個扇形部分代表每一類型的百分比或頻數(shù),根據(jù)定性變量的類型數(shù)目將餅圖分成幾個部分,每一部分的大小與每一類型的頻數(shù)成正比;條形圖的高度代表每一類型的百分比或頻數(shù),條形圖的寬度沒有意義。2.4.2分布分析下面左右兩圖分別是菜品A、B、C在某段時間的餅形和條形銷售量分布圖:2.4.3對比分析對比分析是指把兩個相互聯(lián)系的指標數(shù)據(jù)進行比較,從數(shù)量上展示和說明研究對象規(guī)模的大小,水平的高低,速度的快慢,以及各種關系是否協(xié)調。特別適用于指標間的橫縱向比較、時間序列的比較分析。在對比分析中,選擇合適的對比標準是十分關鍵的步驟,選擇得合適,才能做出客觀的評價,選擇不合適,評價可能得出錯誤的結論。2.4.3對比分析對比分析主要有以下兩種形式:第一種:絕對數(shù)比較

它是利用絕對數(shù)進行對比,從而尋找差異的一種方法。第二種:相對數(shù)比較

它是由兩個有聯(lián)系的指標對比計算的,用以反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標,其數(shù)值表現(xiàn)為相對數(shù)。由于研究目的和對比基礎不同,相對數(shù)可以分為以下幾種:

1)結構相對數(shù)4)強度相對數(shù)

2)比例相對數(shù)5)計劃完成程度相對數(shù)

3)比較相對數(shù)6)動態(tài)相對數(shù)2.4.3對比分析1)結構相對數(shù):將同一總體內的部分數(shù)值與全部數(shù)值對比求得比重,用以說明事物的性質、結構或質量。如居民食品支出額占消費支出總額比重、產(chǎn)品合格率等。2)比例相對數(shù):將同一總體內不同部分的數(shù)值對比,表明總體內各部分的比例關系,如人口性別比例、投資與消費比例等。3)比較相對數(shù):將同一時期兩個性質相同的指標數(shù)值對比,說明同類現(xiàn)象在不同空間條件下的數(shù)量對比關系。如不同地區(qū)商品價格對比,不同行業(yè)、不同企業(yè)間某項指標對比等。2.4.3對比分析4)強度相對數(shù):將兩個性質不同但有一定聯(lián)系的總量指標對比,用以說明現(xiàn)象的強度、密度和普遍程度。如人均國內生產(chǎn)總值用“元/人”表示,人口密度用“人/平方公里”表示,也有用百分數(shù)或千分數(shù)表示的,如人口出生率用‰表示。5)計劃完成程度相對數(shù):是某一時期實際完成數(shù)與計劃數(shù)對比,用以說明計劃完成程度。6)動態(tài)相對數(shù):將同一現(xiàn)象在不同時期的指標數(shù)值對比,用以說明發(fā)展方向和變化的速度。如發(fā)展速度、增長速度等。2.4.3對比分析拿各菜品的銷售數(shù)據(jù)來看,從時間的維度上分析,可以看到甜品部A、海鮮部B、素菜部C三個部門之間的銷售金額隨時間的變化趨勢,了解在此期間哪個部門的銷售金額較高,趨勢比較平穩(wěn),如圖3?5;也可以從單一部門(如海鮮部)做分析,了解各月份的銷售對比情況,如下圖:2.4.3對比分析從總體來看,三個部門的銷售金額呈遞減趨勢;A部門和C部門的遞減趨勢比較平穩(wěn);B部門的銷售金額在2月份驟降,可以進一步分析造成這種現(xiàn)象的業(yè)務原因,可能是原材料不足造成的。2.4.4周期性分析周期性分析是探索某個變量是否隨著時間變化而呈現(xiàn)出某種周期變化趨勢。周期性趨勢相對較長的有年度周期性趨勢、季節(jié)性周期趨勢,相對較短的一般有月度周期性趨勢、周度周期性趨勢,甚至更短的天、小時周期性趨勢。如在做某用電單位用電量趨勢預測過程中,可以先分析該用電單位日用電量的時序圖,來直觀地估計其用電量變化趨勢。2.4.4周期性分析下面兩圖分別是正常用戶和竊電用戶在2020年2月份與3月份的用電量2.4.4周期性分析正常用戶和竊電用戶在2020年2月份與3月份日用電量呈現(xiàn)出周期性,以周為周期,因為周末不上班,所以周末用電量較低。正常用戶工作日和非工作日的用電量比較平穩(wěn),沒有太大的波動。而竊電用戶在2020年2月份與3月份日用電量呈現(xiàn)出遞減趨勢。2.4.5相關性分析相關性分析是指對兩個或多個具備相關性的變量元素進行分析,從而衡量兩個變量因素的相關密切程度,并用適當?shù)慕y(tǒng)計指標表示出來的過程。相關性分析方法主要有:直接繪制散點圖繪制散點圖矩陣計算相關系數(shù)2.4.5相關性分析判斷兩個變量是否具有線性相關關系的最直觀的方法是直接繪制散點圖2.4.5相關性分析繪制散點圖矩陣需要同時考察多個變量間的相關關系時,可以利用散點圖矩陣來同時繪制各變量間的散點圖,從而快速發(fā)現(xiàn)多個變量間的主要相關性,這在進行多元線性回歸時尤為重要2.4.5相關性分析計算相關系數(shù)為了更加準確的描述變量之間的線性相關程度,可以通過計算相關系數(shù)來進行相關分析。在二元變量的相關分析過程中比較常用的如Pearson相關系數(shù)、Spearman秩相關系數(shù)和判定系數(shù)。Pearson相關系數(shù)一般用于對定距變量的數(shù)據(jù)進行計算,即分析兩個連續(xù)性變量之間的關系,其計算公式如下:2.4.5相關性分析Spearman秩相關系數(shù)用于描述分類或等級變量之間、分類或等級變量與連續(xù)變量之間的關系。其計算公式如下:判定系數(shù)判定系數(shù)是相關系數(shù)的平方,用r^2表示,用來衡量回歸方程對y的解釋程度。判定系數(shù)的取值范圍為0≤r^2≤1。r^2越接近于1,表明x與y之間的相關性越強,r^2越接近于0,越表明x與y之間幾乎沒有線性相關關系2.4.5相關性分析利用餐飲管理系統(tǒng)可以統(tǒng)計得到不同菜品的日銷量數(shù)據(jù),分析這些菜品日銷售量之間的相關性可以得到不同菜品之間的相關關系,如是替補菜品、互補菜品或者沒有關系,為原材料采購提供參考結果顯示,“百合醬蒸鳳爪”與“樂膳真味雞”“原汁原味菜心”等相關性較高,而與“翡翠蒸香茜餃”“蜜汁焗餐包”等主食類菜品相關性較低2.5數(shù)據(jù)集成數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將多個數(shù)據(jù)源合并存放在一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中的過程。實體識別冗余屬性識別數(shù)據(jù)變換屬性構造2.5.1實體識別實體識別的任務是檢測和解決同名異義、異名同義、單位不統(tǒng)一的沖突。如:同名異義:數(shù)據(jù)源A中的屬性ID和數(shù)據(jù)源B中的屬性ID分別描述的是菜品編號和訂單編號,即描述的是不同的實體。異名同義:數(shù)據(jù)源A中的sales_dt和數(shù)據(jù)源B中的sales_date都是是描述銷售日期的,即A.sales_dt=B.sales_date。單位不統(tǒng)一:描述同一個實體分別用的是國際單位和中國傳統(tǒng)的計量單位。2.5.2冗余屬性識別數(shù)據(jù)集成往往導致數(shù)據(jù)冗余,如:同一屬性多次出現(xiàn)同一屬性命名不一致導致重復不同源數(shù)據(jù)的仔細整合能減少甚至避免數(shù)據(jù)冗余與不一致,以提高數(shù)據(jù)挖掘的速度和質量。對于冗余屬性要先分析檢測到后再將其刪除。有些冗余屬性可以用相關分析檢測到。給定兩個數(shù)值型的屬性A和B,根據(jù)其屬性值,可以用相關系數(shù)度量一個屬性在多大程度上蘊含另一個屬性。2.5.3數(shù)據(jù)變換主要是對數(shù)據(jù)進行規(guī)范化的操作,將數(shù)據(jù)轉換成“適當?shù)摹备袷剑赃m用于挖掘任務及算法的需要。簡單函數(shù)變換規(guī)范化連續(xù)屬性離散化2.5.3數(shù)據(jù)變換簡單函數(shù)變換簡單函數(shù)變換就是對原始數(shù)據(jù)進行某些數(shù)學函數(shù)變換,常用的函數(shù)變換包括平方、開方、對數(shù)、差分運算等,即:2.5.3數(shù)據(jù)變換數(shù)據(jù)標準化(歸一化)處理是數(shù)據(jù)挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,數(shù)值間的差別可能很大,不進行處理可能會影響到數(shù)據(jù)分析的結果,為了消除指標之間的量綱和大小不一的影響,需要進行數(shù)據(jù)標準化處理,將數(shù)據(jù)按照比例進行縮放,使之落入一個特定的區(qū)域,從而進行綜合分析。如將工資收入屬性值映射到[-1,1]或者[0,1]之間。下面介紹三種規(guī)范化方法:最小-最大規(guī)范化、零-均值規(guī)范化、小數(shù)定標規(guī)范化2.5.3數(shù)據(jù)變換最小-最大規(guī)范化:也稱為離差標準化,是對原始數(shù)據(jù)的線性變換,使結果值映射到[0,1]之間。

轉換函數(shù)如:

其中

為樣本數(shù)據(jù)的最大值,

為樣本數(shù)據(jù)的最小值。

為極差。零-均值規(guī)范化:也叫標準差標準化,經(jīng)過處理的數(shù)據(jù)的平均數(shù)為0,標準差為1。轉化函數(shù)為:

其中

為原始數(shù)據(jù)的均值,

為原始數(shù)據(jù)的標準差。小數(shù)定標規(guī)范化:通過移動屬性值的小數(shù)位數(shù),將屬性值映射到[-1,1]之間,移動的小數(shù)位數(shù)取決于屬性值絕對值的最大值。轉化函數(shù)為:2.5.3數(shù)據(jù)變換2.5.3數(shù)據(jù)變換一些數(shù)據(jù)挖掘算法,特別是某些分類算法,要求數(shù)據(jù)是分類屬性形式,如ID3算法、Apriori算法等。這樣,常常需要將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化。離散化的過程連續(xù)屬性變換成分類屬性涉及兩個子任務:決定需要多少個分類變量,以及確定如何將連續(xù)屬性值映射到這些分類值。常用的離散化方法常用的無監(jiān)督離散化方法有:等寬法、等頻法、基于聚類分析的方法2.5.3數(shù)據(jù)變換使用3種離散化方法對“醫(yī)學中醫(yī)證型的相關數(shù)據(jù)”進行連續(xù)屬性離散化2.5.4數(shù)據(jù)變換在數(shù)據(jù)挖掘的過程中,為了幫助提取更有用的信息、挖掘更深層次的模式,提高挖掘結果的精度,需要利用已有的屬性集構造出新的屬性,并加入到現(xiàn)有屬性集合中。比如進行防竊漏電診斷建模時,已有的屬性包括進入線路供入電量、該條線路上各大用戶用電量之和,記為供出電量。理論上供入電量和供出電量應該是相等的,但是由于在傳輸過程中的電能損耗,會使得供入電量略大于供出電量,如果該條線路上的一個或多個大用戶存在竊漏電行為,會使供入電量遠大于供出電量。反過來,為了判斷是否存在有竊漏電行為的大用戶,需要構造一個新的關鍵指標--線損率,該過程就是構造屬性。新構造的屬性線損率計算公式如下:線損率=(供入電量-供出電量)/供入電量線損率的范圍一般在3%~15%,如果遠遠超過該范圍,就可以認為該條線路的大用戶很大可能存在竊漏電等用電異常行為。2.6數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是將海量數(shù)據(jù)進行規(guī)約,規(guī)約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量小得多。通過數(shù)據(jù)規(guī)約,可以達到:降低無效、錯誤數(shù)據(jù)對建模的影響,提高建模的準確性少量且具代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)挖掘所需的時間降低儲存數(shù)據(jù)的成本2.6.1屬性規(guī)約屬性規(guī)約常用方法有:合并屬性、逐步向前選擇、逐步向后刪除、決策樹歸納、主成分分析合并屬性初始屬性集:

規(guī)約后屬性集:逐步向前選擇

初始屬性集:

規(guī)約后屬性集:

屬性歸約通過屬性合并創(chuàng)建新屬性維數(shù),或者通過直接刪除不相關的屬性(維)來減少數(shù)據(jù)維數(shù),從而提高數(shù)據(jù)挖掘的效率,降低計算成本2.6.1屬性規(guī)約逐步向后刪除

初始屬性集:

規(guī)約后屬性集:決策樹規(guī)約

初始屬性集:

規(guī)約后屬性集:

2.6.1屬性規(guī)約下面詳細介紹主成分分析計算步驟:1)設原始變量

的觀測n次數(shù)據(jù)矩陣為:2)將數(shù)據(jù)矩陣中心標準化。為了方便,將標準化后的數(shù)據(jù)矩陣仍然記為

。3)求相關系數(shù)矩陣

的定義為:

其中

4)求

的特征方程

的特征根

。5)確定主成分個數(shù)m:

,根據(jù)實際問題確定,一般取80%。

2.6.1屬性規(guī)約6)計算m個相應的單位特征向量:7)計算主成分:2.6.2數(shù)值規(guī)約數(shù)值規(guī)約通過選擇替代的、較小的數(shù)據(jù)來減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的,也可以是無參的。有參方法是使用一個模型來評估數(shù)據(jù),只需存放參數(shù),而不需要存放實際數(shù)據(jù)。有參的數(shù)值規(guī)約技術主要有兩種:回歸(線性回歸和多元回歸)和對數(shù)線性模型(近似離散屬性集中的多維概率分布)。數(shù)值規(guī)約常用方法有直方圖、用聚類數(shù)據(jù)表示實際數(shù)據(jù)、抽樣(采樣)、參數(shù)回歸法。2.6.2數(shù)值規(guī)約數(shù)值規(guī)約通過選擇替代的、較小的數(shù)據(jù)來減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的,也可以是無參的。有參方法是使用一個模型來評估數(shù)據(jù),只需存放參數(shù),而不需要存放實際數(shù)據(jù)。有參的數(shù)值規(guī)約技術主要有兩種:回歸(線性回歸和多元回歸)和對數(shù)線性模型(近似離散屬性集中的多維概率分布)。數(shù)值規(guī)約常用方法:直方圖聚類抽樣(采樣)參數(shù)回歸法2.6.2數(shù)值規(guī)約直方圖使用分箱來近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)歸約形式。屬性A的直方圖將A的數(shù)據(jù)分布劃分為不相交的子集或桶。如果每個桶只代表單個屬性值/頻率對,則該桶稱為單桶。通常,桶表示給定屬性的一個連續(xù)區(qū)間。2.6.2數(shù)值規(guī)約聚類聚類技術將數(shù)據(jù)元組(即記錄,數(shù)據(jù)表中的一行)視為對象。它將對象劃分為簇,使一個簇中的對象彼此“相似”,而與其他簇中的對象“相異”。在數(shù)據(jù)歸約中,用數(shù)據(jù)的簇替換實際數(shù)據(jù)。該技術的有效性依賴于簇的定義是否符合數(shù)據(jù)的分布性質。抽樣抽樣也是一種數(shù)據(jù)歸約技術,它用比原始數(shù)據(jù)小得多的隨機樣本(子集)表示原始數(shù)據(jù)集D。假定原始數(shù)據(jù)集包含n個元組,可以采用抽樣方法對原始數(shù)據(jù)集D進行抽樣。常用的抽樣方法。s個樣本無放回簡單隨機抽樣s個樣本有放回地簡單隨機抽樣聚類抽樣分層抽樣2.6.2數(shù)值規(guī)約參數(shù)回歸簡單線性模型和對數(shù)線性模型可以用來近似給定的數(shù)據(jù)。用(簡單)線性模型對數(shù)據(jù)建模,使之擬合一條直線y=kx+b,其中k和b分別是直線的斜率和截距,得到k和b之后,即可根據(jù)給定的x預測y的值。感謝觀看第3章Python大數(shù)據(jù)挖掘技術核心知識包括:大數(shù)據(jù)挖掘技術的相關概念,實現(xiàn)方法,以及技術的評價;在Python常用到的方法庫。CONTENTS目錄關聯(lián)規(guī)則聚類分析分類分析離群點檢測Python常用方法庫01PARTONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則1、基本概念關聯(lián)規(guī)則的概念最早由Agrawal、Imielinski和Swami(1993年)提出,其主要研究目的是分析超市顧客購買行為的規(guī)律,發(fā)現(xiàn)連帶購買商品,為制定合理的方便顧客選取的貨架擺放方案提供依據(jù)。關聯(lián)規(guī)則是反映一個事物與其他事物之間的相互依存性和關聯(lián)性,用于從大量數(shù)據(jù)中挖掘出有價值的數(shù)據(jù)項之間的相關關系,可從數(shù)據(jù)中分析出形如“由于某些事件的發(fā)生而引起另外一些事件的發(fā)生”之類的規(guī)則。ONE關聯(lián)規(guī)則

ONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則1、基本概念數(shù)據(jù)集實例:ONE關聯(lián)規(guī)則TID項集1{面包,牛奶}2{面包,尿布,啤酒,咖啡}3{牛奶,尿布,啤酒,可樂}4{牛奶,面包,尿布,啤酒}5{牛奶,面包,尿布,可樂}3.1關聯(lián)規(guī)則1、基本概念1)

關聯(lián)規(guī)則(AssociationRules):關聯(lián)規(guī)則是形如A→B蘊含的表達式,其中A和B是不相交的項集,A稱為規(guī)則的前件(antecedent),而B稱為規(guī)則的后件(consequent),如{牛奶,尿布}→{啤酒},{牛奶,尿布}為規(guī)則的前件,{啤酒}為規(guī)則的后件。2)

項集(Itemset):包含0個或多個項的集合,如在表中{牛奶}構成一個一項集,{牛奶,尿布,啤酒}構成一個三項集。ONE關聯(lián)規(guī)則

ONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則1、基本概念5)頻繁項:在多個事務中頻繁出現(xiàn)的項就是頻繁項。6)頻繁項集(FrequentItemset):假設有一系列的事務,將這些事務中同時出現(xiàn)的頻繁項組成一個子集,且子集滿足最小支持度閾值(MinimumSupport),這個集合稱為頻繁項集。假設最小支持度為0.2,則由于項集{牛奶,尿布,啤酒}的支持度為0.4大于0.2,因此項集{牛奶,尿布,啤酒}為頻繁項集。ONE關聯(lián)規(guī)則

ONE關聯(lián)規(guī)則

ONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則1、基本概念9)關聯(lián)規(guī)則的強度:(1)支持度,確定項集的頻繁程度,表示項集的重要程度;(2)置信度,確定B在包含A的事務中出現(xiàn)的頻繁程度,表示關系的可信程度;(3)提升度,在含有A的條件下同時含有B的可能性,與沒有這個條件下項集中含有的B的可能性之比。規(guī)則的提升度的意義在于度量項集{A}和項集{B}的獨立性,即Lift(A->B)=1,{A}、{B}相互獨立。1)若該值=1,說明事務A與事務B是獨立的。2)若該值<1,說明事務A與事務B是互斥的。3)若該值>1,說明事務A與事務B是強項關聯(lián)。一般在數(shù)據(jù)挖掘中當提升度大于3時,我們才承認數(shù)據(jù)挖掘的關聯(lián)是有價值的。ONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則2、實現(xiàn)方法---Apriori算法(1)Apriori算法原理算法的基本思想:先確定候選的所有可能項(即1項集)以及相應的支持度,識別并保留所有高于支持度的1項集,得到頻繁1項集。然后,對剩下的頻繁1項集進行連接,得到候選的頻繁2項集,再次識別并保留高于支持度的候選頻繁2項集,得到真正的頻繁二項集,以此類推,進行迭代,直到無法找到頻繁k+1項集為止,對應的頻繁k項集的集合即為算法的輸出結果。然后,再利用找到的頻繁項集與預先設定的最小置信度的閾值生成強關聯(lián)規(guī)則。ONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則2、實現(xiàn)方法---Apriori算法(1)Apriori算法原理算法的目標:找到最大的K-項頻繁集。首先,是要找到符合支持度標準的頻繁集,但是滿足條件的頻繁集可能有很多。因此,接下來要找到最大個數(shù)的頻繁集。比如找到符合支持度的頻繁集AB和ABE,那么一般會拋棄AB,只保留ABE,因為AB是2-項頻繁集,而ABE是3-項頻繁集。算法的性質:如果一個項集是頻繁的,則它的所有子集也一定是頻繁的;反之,如果一個項集是非頻繁的,則它的所有超集也一定是非頻繁的?;谠撔再|,一旦發(fā)現(xiàn)某項集是非頻繁的,即可將整個包含該項的超集剪枝。這種基于支持度度量修剪指數(shù)搜索空間的策略稱為基于支持度的剪枝。ONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則2、實現(xiàn)方法---Apriori算法(2)Apriori算法具體步驟1)掃描數(shù)據(jù)庫,生成候選1-項集和頻繁1-項集;2)2-項集開始循環(huán),由頻繁(k-1)-項集生成頻繁k-項集,頻繁(k-1)-項集兩兩組合,判定是否可以連接,若能則連接生成k-項集;對k項集中的每個項集檢測其子集是否頻繁,舍棄掉不是頻繁項集的子集;掃描數(shù)據(jù)庫,計算前一步中過濾后的k-項集的支持度,舍棄掉支持度小于閾值的項集,生成頻繁k-項集。3)若當前k-項集中只有一個項集時,循環(huán)結束。ONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則2、實現(xiàn)方法---FP-Growth算法Apriori算法是一個采用候選消除的算法,每一次消除都需要掃描一次所有數(shù)據(jù)記錄,這導致該算法在面臨大數(shù)據(jù)集時效率低下。為了解決該問題,一個新的關聯(lián)規(guī)則挖掘算法FP-Growth被提出。(1)FP-Growth算法原理算法的基本思路:把數(shù)據(jù)集中的事務映射到一棵FP-tree上面,再根據(jù)這棵樹找出頻繁項集。FP-Growth算法被用于挖掘頻繁項集,將數(shù)據(jù)集存儲為FP樹的數(shù)據(jù)結構,以更高效地發(fā)現(xiàn)頻繁項集或頻繁項對。相比于Apriori算法對每個潛在的頻繁項集都掃描數(shù)據(jù)集,判定是否滿足支持度,F(xiàn)P-Growth算法只需要對數(shù)據(jù)庫進行兩次遍歷,就可以高效發(fā)現(xiàn)頻繁項集,因此,它在大數(shù)據(jù)集上的速度要優(yōu)于Apriori算法。ONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則2、實現(xiàn)方法---FP-Growth算法(2)FP-Growth算法步驟FP-Growth算法的步驟,大體上可以分成兩步:第一步,F(xiàn)P-tree的構建;第二步,在FP-Tree上挖掘頻繁項集。1)掃描第一遍數(shù)據(jù)庫,找出頻繁項;2)將記錄按照頻繁項集的支持度由大到小順序重新排列;3)掃描第二遍數(shù)據(jù)庫,產(chǎn)生FP-tree;4)從FP-tree挖掘得到頻繁項集。ONE關聯(lián)規(guī)則

ONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則3、關聯(lián)模式的評價1)客觀標準(1)提升度與興趣因子進行度量興趣因子的局限性:當規(guī)則的置信度與規(guī)則后件支持度數(shù)值大小相近時,因為比率的形式掩蓋了分子、分母本身的數(shù)值大小,提升度就不足以說明問題。尤其是當后件的支持度本身很小時,如果再除以后件的支持度,相當于乘了一個很大的數(shù),會讓興趣因子很模糊。ONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則3、關聯(lián)模式的評價1)客觀標準(2)相關分析進行度量相關分析是一種基于統(tǒng)計學的技術,對于連續(xù)型變量,相關度可以采用皮爾森相關系數(shù)表示。相關度的值從-1(完全負相關)到+1(完全正相關),如果變量是相互獨立的,那么相關度為0。如果變量是正相關,相關度大于0,同理,如果變量負相關,相關度小于0。相關分析進行度量的局限性:相關分析中把事務記錄中項的出現(xiàn)與不出現(xiàn)視為同等重要,因此相關分析更適合于分析對稱的二元變量。ONE關聯(lián)規(guī)則

ONE關聯(lián)規(guī)則3.1關聯(lián)規(guī)則3、關聯(lián)模式的評價2)主觀標準常見的將主觀信息加入到模式發(fā)現(xiàn)任務的方法有以下幾種:(1)可視化方法:將數(shù)據(jù)中蘊含的信息通過數(shù)據(jù)可視化方法進行呈現(xiàn),需要友好的環(huán)境,以及用戶的參與,允許領域專家解釋和檢驗發(fā)現(xiàn)的模式,只有符合觀察到的信息的模式才被認為是有趣的。(2)基于模板的方法:該方法通過限制提取的模式類型,只有滿足指定模板的模式被認為是有趣的提供給用戶,而不報告所有提取的所有模式。(3)主觀興趣度量:該方法基于領域信息定義一些主觀度量,例如:企業(yè)的利潤,概念的分層等;利用主觀度量來過濾顯而易見和沒有實際價值的模式。ONE關聯(lián)規(guī)則3.2 聚類分析1、基本概念聚類(Clustering)是一種通過尋找數(shù)據(jù)之間內在結構將數(shù)據(jù)對象劃分為多個子集的技術。每個子集都是一個簇,處于相同簇中的數(shù)據(jù)彼此盡可能的相似;而處于不同簇中的數(shù)據(jù)彼此盡可能的不同。由聚類分析產(chǎn)生的簇的集合稱為一個聚類。聚類技術通常又被稱為無監(jiān)督學習,與監(jiān)督學習不同的是,簇中的數(shù)據(jù)在劃分之前并沒有表示數(shù)據(jù)類別的分類或者分組信息。聚類分析中通常采用距離和相似系數(shù)作為統(tǒng)計量計算兩個數(shù)據(jù)對象之間的相異度。距離的計算包括:歐幾里得距離(EuclideanDistance)、曼哈頓距離(ManhattanDistance)、明可夫斯基距離(MinkowskiDistance)等;相似系數(shù)包括:余弦相似度(CosineSimilarity)、皮爾森相關系數(shù)(PearsonCorrelationCoefficient)、Jaccard相似系數(shù)(JaccardCoefficient)、互信息/信息增益等。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法聚類算法主要分為5大類:基于劃分的聚類方法、基于層次的聚類方法、基于密度的聚類方法、基于網(wǎng)格的聚類方法和基于模型的聚類方法。1)

基于劃分的聚類方法基于劃分的聚類方法是一種自頂向下的方法,對于給定的n個數(shù)據(jù)對象的數(shù)據(jù)集D,將數(shù)據(jù)對象劃分成k(k≤n)個分區(qū),其中,每個分區(qū)代表一個簇?;趧澐值木垲惙椒ㄖ?,經(jīng)典的算法包括k-平均(k-means)算法和k-中心(k-medoids)算法。TWO聚類分析K-means算法聚類過程示意圖3.2 聚類分析2、實現(xiàn)方法基于劃分的聚類方法的優(yōu)點是,收斂速度快。基于劃分的聚類方法的缺點是,聚類前要明確聚類的數(shù)目k,或者能夠對聚類的數(shù)目k進行合理地估計,并且初始中心的選擇和噪聲會對聚類結果產(chǎn)生很大影響。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法2)

基于層次的聚類方法基于層次的聚類方法是指對給定的數(shù)據(jù)進行層次分解,即將數(shù)據(jù)對象組織成層次機構或“樹”,直到滿足某種條件為止。該算法根據(jù)層次分解的順序分為自底向上的凝聚層次聚類算法,和自頂向下的分裂式層次聚類算法。(1)凝聚層次聚類算法該算法首先,將每個數(shù)據(jù)對象設置為一個獨立的簇,然后計算數(shù)據(jù)對象之間的距離,將距離最近的點合并到同一個簇。接下來,計算簇與簇之間的距離,將距離最近的簇合并為一個大簇。直到所有的對象全部合并為一個完整的簇,或者達到某個終止條件為止。自底向上法的代表算法是AGNES(AgglomerativeNesing)算法。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法(2)分裂式層次聚類算法該方法與凝聚性的層次聚類算法不同,它首先將所有數(shù)據(jù)對象都放入一個簇,然后逐漸細分為更小的簇,直到每個數(shù)據(jù)對象均形成一個獨立的簇,或者達到某個終止條件為止。自頂向下法的代表算法是DIANA(DivisiveAnalysis)算法。基于層次的聚類算法的主要優(yōu)點包括,距離和規(guī)則的相似度容易定義,限制少,不需要預先制定簇的個數(shù),可以發(fā)現(xiàn)簇的層次關系。基于層次的聚類算法的主要缺點包括,計算復雜度太高,不適用于大數(shù)據(jù)集,奇異值也能產(chǎn)生很大影響,算法很可能聚類成鏈狀。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法3)

基于密度的聚類方法以上基于劃分和基于層次聚類方法均是基于距離的聚類算法,該類算法的聚類結果是凸形的簇,難以發(fā)現(xiàn)任意形狀的簇?;诿芏鹊木垲惙椒ǖ闹饕繕耸菍ふ冶坏兔芏葏^(qū)域分離的高密度區(qū)域,與基于距離的聚類算法不同的是,基于密度的聚類算法可以發(fā)現(xiàn)任意形狀的簇。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法3)

基于密度的聚類方法基于密度的聚類方法中最具代表性的是DBSAN(Density-BasedSpatialClusteringofApplicationswithNoise)算法、OPTICS(OrderingPointstoidentifytheclusteringstructure)算法和DENCLUE(Density-Basedclustering)算法。該類算法的優(yōu)點是,能克服基于距離的算法(如K-Means)只能發(fā)現(xiàn)凸聚類的缺點,可以發(fā)現(xiàn)任意形狀的聚類,可以過濾掉異常值對噪聲數(shù)據(jù)不敏感。該類算法的缺點是,找不到具有不同密度的所有簇,僅限于地位數(shù)據(jù)集,計算密度差異大的計算復雜度大,需要建立空間索引來降低計算量。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法4)基于網(wǎng)格的聚類方法基于網(wǎng)格的聚類方法將空間量化為有限數(shù)目的單元,可以形成一個網(wǎng)格結構,所有聚類都在網(wǎng)格上進行?;舅枷刖褪菍⒚總€屬性的可能值分割成許多相鄰的區(qū)間,并創(chuàng)建網(wǎng)格單元的集合。每個對象落入一個網(wǎng)格單元,網(wǎng)格單元對應的屬性空間包含該對象的值。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法4)基于網(wǎng)格的聚類方法基于網(wǎng)格的聚類方法中最具代表性的算法是STING、Wave-Cluster、CLIQUE等。這些算法用不同的網(wǎng)格劃分方法,將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結構,并對網(wǎng)格數(shù)據(jù)結構進行了不同的處理?;诰W(wǎng)格的聚類方法的主要優(yōu)點是處理速度快,其處理時間獨立于數(shù)據(jù)對象的數(shù)量,而僅依賴于量化空間中的每一維的單元數(shù)。基于網(wǎng)格的聚類方法的缺點是只能發(fā)現(xiàn)邊界是水平或垂直的簇,而不能檢測到斜邊界。另外,在處理高維數(shù)據(jù)時,網(wǎng)格單元的數(shù)目會隨著屬性維數(shù)的增長而成指數(shù)級增長。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法5)基于模型的聚類方法基于模型的聚類方法主要是指基于概率模型和基于神經(jīng)網(wǎng)絡模型的方法,是試圖優(yōu)化給定的數(shù)據(jù)和某些數(shù)學模型之間的適應性的。該方法給每一個簇假定了一個模型,然后尋找數(shù)據(jù)對給定模型的最佳擬合。假定的模型可能是代表數(shù)據(jù)對象在空間分布情況的密度函數(shù)或者其他函數(shù)。這種方法的基本原理就是假定目標數(shù)據(jù)集是由一系列潛在的概率分布所決定的。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法5)基于模型的聚類方法基于模型的聚類方法中最具代表性的是高斯混合模型(GMM)、自組織映射算法(SOM)。(1)混合高斯模型(GMM)就是指對樣本的概率密度分布進行估計,而估計采用的模型(訓練模型)是幾個高斯模型的加權和。每個高斯模型就代表了一個類(一個Cluster)。對樣本中的數(shù)據(jù)分別在幾個高斯模型上投影,就會分別得到在各個類上的概率。然后,可以選取概率最大的類作為判決結果。(2)SOM是通過發(fā)現(xiàn)質心的集合,并將數(shù)據(jù)集中的每個對象指派到提供該對象最佳近似的質心。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法5)基于模型的聚類方法基于模型的聚類方法中最具代表性的是高斯混合模型(GMM)、自組織映射算法(SOM)。(1)混合高斯模型(GMM)就是指對樣本的概率密度分布進行估計,而估計采用的模型(訓練模型)是幾個高斯模型的加權和。每個高斯模型就代表了一個類(一個Cluster)。對樣本中的數(shù)據(jù)分別在幾個高斯模型上投影,就會分別得到在各個類上的概率。然后,可以選取概率最大的類作為判決結果。(2)SOM是通過發(fā)現(xiàn)質心的集合,并將數(shù)據(jù)集中的每個對象指派到提供該對象最佳近似的質心。TWO聚類分析3.2 聚類分析3、聚類算法評價聚類分析的目標是使組內的對象之間盡可能的相似,而不同組之間的對象則相反。組內相似性越大,組間差異性越大,則聚類的效果越好。好的聚類算法通常要求:1.具有高度可伸縮性;2.能夠處理不同類型數(shù)據(jù);3.可發(fā)現(xiàn)任意形狀的簇;4.最小化輸入?yún)?shù);TWO聚類分析5.能夠處理噪聲數(shù)據(jù);6.對數(shù)據(jù)輸入順序不敏感;7.具有處理高維度數(shù)據(jù)的能力;8.聚類結果具有可解釋性和可用性。

TWO聚類分析

TWO聚類分析

TWO聚類分析

TWO聚類分析

TWO聚類分析3.2 聚類分析3、聚類算法評價(2)RI評價法RI評價法用排列組合原理來對聚類進行評價。RI=(TP+TN)/(TP+FP+FN+TN)(3-14)假設聚類的目標是獲取正例(positive)和負例(negtive),正例為被正確劃分的實例(樣本),負例為被錯誤劃分的實例。其中,TP為被正確地劃分為正例的個數(shù),即實際為正例且被分類器劃分為正例的實例數(shù);FP為被錯誤地劃分為正例的個數(shù),即實際為負例但被分類器劃分為正例的實例數(shù);FN為被錯誤地劃分為負例的個數(shù),即實際為正例但被分類器劃分為負例的實例數(shù);TN為被正確地劃分為負例的個數(shù),即實際為負例且被分類器劃分為負例的實例數(shù)。TWO聚類分析3.2 聚類分析3、聚類算法評價(3)F值評價法F值評價法是基于RI評價法衍生出的一種評價方法。F_α=(α^2+1)PR/(α^2P+R)(3-15)其中,α為調和參數(shù),P為準確率:P=TP/(TP+FP),R為召回率:R=TP/(TP+FN),在RI方法中是把準確率P和召回率R看得同等重要。事實上有時候我們可能需要某一特性更多一點,這時候可以采用F值方法。外部評價的三個指標均是值越大,表明聚類結果與參考標準的劃分結果越吻合,聚類效果越好。TWO聚類分析3.3 分類分析1、基本概念分類是一個有監(jiān)督的學習過程,即在構建分類模型過程中使用的訓練集中的記錄的類別是已標識的,分類過程即是將每一條記錄歸到對應的類別之中。分類的目的是確定一個記錄為某一個已知的類別。分類(classification):就是通過學習得到一個目標函數(shù)(targetfunction)f,將每個屬性集x映射到一個預定義類標號y。目標函數(shù)也稱為分類模型(classificationmodel。THR分類分析3.3 分類分析1、基本概念分類模型的目的包含兩個方面:1.描述性建模:分類模型作為解釋性工具,用于區(qū)分不同類中的對象。例如:利用一個描述性模型對數(shù)據(jù)進行概括,并說明哪些特征確定了記錄的類型。2.預測性建模:分類模型用于預測未知記錄的類標號。分類模型可以作為一個黑箱,當給定一條記錄在屬性集上的值時,自動為其賦予一個類標號。注意:分類技術一般用于預測和描述二元類型的數(shù)據(jù)集,而對于序數(shù)的分類,由于分類技術未考慮隱含在目標類中的序關系,因此分類技術不太有效。此外,形如超類與子類的關系等,也常被忽略。THR分類分析3.3 分類分析1、基本概念分類模型一般采用一種學習算法進行確定,模型應能夠很好的擬合輸入數(shù)據(jù)中的屬性集與類標號之間的關系,同時還要能夠正確的預測新樣本的類標號。分類的基本過程,一般通過兩步實現(xiàn):1.在訓練階段,使用訓練數(shù)據(jù)集,通過分析由屬性描述的數(shù)據(jù)庫元組來建立分類模型。2.在測試階段,使用測試數(shù)據(jù)集來評估模型的分類準確率,如果認為可以接受,就可以用該模型對其他數(shù)據(jù)元組進行分類。一般來說,測試階段的代價遠低于訓練階段。

THR分類分析3.3 分類分析2、實現(xiàn)方法分類算法分為二分類算法和多分類算法。二分類算法表示分類標簽只有兩個分類,具有代表性的有支持向量機和梯度提升決策樹;多分類算法表示分類標簽多于兩個分類,比較常見的有邏輯回歸、樸素貝葉斯、決策樹等。本節(jié)主要介紹幾種常

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論