能源大數(shù)據(jù)分析理論與實踐 課件 2.數(shù)據(jù)獲取與預處理;3.回歸分析_第1頁
能源大數(shù)據(jù)分析理論與實踐 課件 2.數(shù)據(jù)獲取與預處理;3.回歸分析_第2頁
能源大數(shù)據(jù)分析理論與實踐 課件 2.數(shù)據(jù)獲取與預處理;3.回歸分析_第3頁
能源大數(shù)據(jù)分析理論與實踐 課件 2.數(shù)據(jù)獲取與預處理;3.回歸分析_第4頁
能源大數(shù)據(jù)分析理論與實踐 課件 2.數(shù)據(jù)獲取與預處理;3.回歸分析_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)獲取與預處理02DataAcquisitionAndPreprocessing數(shù)據(jù)獲取與預處理概述DataAcquisitionAndPreprocessingOverview2.1.1數(shù)據(jù)獲取在現(xiàn)實應用中,多個源系統(tǒng)的數(shù)據(jù)兼容性較差,因此需要對獲取的異構數(shù)據(jù)進行處理。ETL方法提供了一個數(shù)據(jù)獲取與預處理的標準流程和技術工具。數(shù)據(jù)獲取是指從各種相關數(shù)據(jù)源獲取數(shù)據(jù)的過程,也指ETL的數(shù)據(jù)獲取環(huán)節(jié),是數(shù)據(jù)分析與挖掘的基礎。數(shù)據(jù)獲取是ETL處理的第一步,也是最重要的一步,數(shù)據(jù)被成功獲取后,才可以進行轉換并加載到數(shù)據(jù)倉庫中。2.1.1數(shù)據(jù)獲取傳統(tǒng)數(shù)據(jù)獲取和大數(shù)據(jù)獲取有如下不同:數(shù)據(jù)源方面,傳統(tǒng)數(shù)據(jù)獲取的數(shù)據(jù)源單一,而大數(shù)據(jù)獲取系統(tǒng)還需要從社交系統(tǒng)、互聯(lián)網(wǎng)系統(tǒng)及各種類型的機器設備上獲取數(shù)據(jù)。數(shù)據(jù)量方面,互聯(lián)網(wǎng)系統(tǒng)和機器系統(tǒng)產(chǎn)生的數(shù)據(jù)量要遠遠大于企業(yè)系統(tǒng)產(chǎn)生的數(shù)據(jù)量。數(shù)據(jù)結構方面,傳統(tǒng)數(shù)據(jù)獲取系統(tǒng)獲取的數(shù)據(jù)都是結構化數(shù)據(jù),而大數(shù)據(jù)獲取系統(tǒng)需要獲取大量的視頻、音頻、照片等非結構化數(shù)據(jù),以及網(wǎng)頁、博客、日志等半結構化數(shù)據(jù)。數(shù)據(jù)產(chǎn)生速度,傳統(tǒng)數(shù)據(jù)獲取系統(tǒng)獲取的數(shù)據(jù)幾乎都是由人操作生成的,遠遠慢于機器生成數(shù)據(jù)的速度。2.1.2數(shù)據(jù)清洗與數(shù)據(jù)轉換在一般情況下,數(shù)據(jù)倉庫分為ODS、DW兩個部分。ODS是數(shù)據(jù)庫到數(shù)據(jù)倉庫的一種過渡,數(shù)據(jù)結構一般與數(shù)據(jù)源保持一致,便于減少ETL的工作復雜性,而且ODS的數(shù)據(jù)周期一般比較短。ODS的數(shù)據(jù)最終流入DW,DW是數(shù)據(jù)的歸宿,這里保存著所有從ODS到來的數(shù)據(jù),而且這些數(shù)據(jù)不會被修改。數(shù)據(jù)轉換:它是在ODS到DW的過程中轉換的,將數(shù)據(jù)轉換為適用于查詢和分析的形式和結構。數(shù)據(jù)從操作型源系統(tǒng)獲取后,需要進行多種轉換操作,通常是最復雜的部分,也是ETL處理中用時最長的一步。數(shù)據(jù)清洗:數(shù)據(jù)轉換一個最重要的功能是數(shù)據(jù)清洗,目的是只有“合規(guī)”的數(shù)據(jù)才能進入目標數(shù)據(jù)倉庫。這步操作在不同系統(tǒng)間交互和通信時尤為必要。2.1.3數(shù)據(jù)加載數(shù)據(jù)加載就是將轉換后的數(shù)據(jù)導入目標數(shù)據(jù)倉庫中。這步操作需要重點考慮兩個問題,一是數(shù)據(jù)加載的效率問題,二是一旦加載過程中失敗了,如何再次執(zhí)行加載過程。要提高數(shù)據(jù)加載的效率,加快加載速度,可以采用如下兩種做法:保證足夠的系統(tǒng)資源。在進行數(shù)據(jù)加載時,禁用數(shù)據(jù)庫約束(唯一性、非空性、檢查約束等)和索引,當加載過程完全結束后,再啟用這些約束,重建索引。ETL系統(tǒng)一般會從多個應用系統(tǒng)中整合數(shù)據(jù),常用實現(xiàn)方法有三種:借助ETL工具采用SQL方式ETL工具和SQL方式相結合為了提高ETL處理的效率,通常數(shù)據(jù)獲取、數(shù)據(jù)轉換、數(shù)據(jù)加載操作會并行執(zhí)行。數(shù)據(jù)獲取技術DataAcquisitionTechnique2.2.1數(shù)據(jù)獲取技術概述數(shù)據(jù)獲取需要在調(diào)研階段做大量的工作。如果已經(jīng)明確了需要獲取的數(shù)據(jù),下一步就該考慮從源系統(tǒng)獲取數(shù)據(jù)的方法了。數(shù)據(jù)獲取方法的選擇高度依賴于源系統(tǒng)和目標數(shù)據(jù)倉庫環(huán)境的業(yè)務需要。隨著大數(shù)據(jù)的蓬勃發(fā)展,數(shù)據(jù)獲取的來源廣泛且數(shù)據(jù)量巨大,數(shù)據(jù)類型豐富,包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù),它們大多存在于分布式數(shù)據(jù)庫中。目前大數(shù)據(jù)獲取主要方法如下:數(shù)據(jù)庫獲取系統(tǒng)日志獲取網(wǎng)絡數(shù)據(jù)獲取感知設備數(shù)據(jù)獲取針對軟件系統(tǒng)的數(shù)據(jù)獲取,有如下三種方式:接口對接方式開放數(shù)據(jù)庫方式基于底層數(shù)據(jù)交換的數(shù)據(jù)直接獲取方式2.2.2網(wǎng)絡爬蟲網(wǎng)絡爬蟲可以按照我們制定的規(guī)則自動瀏覽網(wǎng)絡中的數(shù)據(jù),這些規(guī)則稱為網(wǎng)絡爬蟲算法。網(wǎng)絡爬蟲由控制節(jié)點、爬蟲節(jié)點、資源庫構成??刂乒?jié)點主要負責根據(jù)URL分配線程,并調(diào)用爬蟲節(jié)點進行具體的爬取爬蟲節(jié)點會按照相關的算法,對網(wǎng)頁進行具體的爬取,爬取后會將爬取結果存儲到對應的資源庫中。通用網(wǎng)絡爬蟲通用網(wǎng)絡爬蟲的爬取目標是整個互聯(lián)網(wǎng)上的所有網(wǎng)頁。主要由初始URL集合、URL隊列、網(wǎng)頁爬取模塊、網(wǎng)頁分析模塊、網(wǎng)頁數(shù)據(jù)庫、鏈接過濾模塊等構成。通用網(wǎng)絡爬蟲在爬取的時候會采取一定的爬取策略,主要有深度優(yōu)先策略和廣度優(yōu)先策略。這類網(wǎng)絡爬蟲主要應用于大型搜索引擎中,有非常高的應用價值。聚焦網(wǎng)絡爬蟲聚焦網(wǎng)絡爬蟲是按照預先定義好的主題有選擇地進行網(wǎng)頁爬取的一種爬蟲??梢源蟠蠊?jié)省爬蟲爬取時所需的帶寬資源和服務器資源。聚焦網(wǎng)絡爬蟲應用在對特定信息的爬取中,主要為某一類特定的人群提供服務,主要由初始URL集合、URL隊列、網(wǎng)頁爬取模塊、網(wǎng)頁分析模塊、網(wǎng)頁數(shù)據(jù)庫、鏈接過濾模塊、內(nèi)容評價模塊、鏈接評價模塊等構成。聚焦網(wǎng)絡爬蟲的爬取策略主要有四種:基于內(nèi)容評價的爬取策略基于鏈接評價的爬取策略基于強化學習的爬取策略基于語境圖的爬取策略增量式網(wǎng)絡爬蟲增量式更新指在更新的時候只更新改變的地方,未改變的地方則不更新,所以只爬取內(nèi)容發(fā)生變化的網(wǎng)頁或新產(chǎn)生的網(wǎng)頁,對于未發(fā)生內(nèi)容變化的網(wǎng)頁則不會爬取。深層網(wǎng)絡爬蟲在互聯(lián)網(wǎng)中,按存在方式分類,網(wǎng)頁可以分為表層網(wǎng)頁和深層網(wǎng)頁:表層網(wǎng)頁:不需要提交表單,使用靜態(tài)的鏈接就能夠到達的靜態(tài)網(wǎng)頁;深層網(wǎng)頁:隱藏在表單后面,不能通過靜態(tài)鏈接直接獲取,是需要提交一定的關鍵詞之后才能夠到達的網(wǎng)頁。在互聯(lián)網(wǎng)中,深層網(wǎng)頁的數(shù)量往往比表層網(wǎng)頁的數(shù)量要多很多,因此需要深層網(wǎng)絡爬蟲。深層網(wǎng)絡爬蟲在爬取深層網(wǎng)頁時需要自動填寫好對應的表單,表單填寫方式有兩種:①基于領域知識的表單填寫:建立一個填寫表單的關鍵詞庫,在需要填寫的時候,根據(jù)語義分析選擇對應的關鍵詞進行填寫。②基于網(wǎng)頁結構分析的表單填寫:會根據(jù)網(wǎng)頁結構進行分析,并自動地進行表單填寫,一般在領域知識有限的情況下使用。數(shù)據(jù)預處理DataPre-processing2.3.1數(shù)據(jù)質量數(shù)據(jù)質量是指數(shù)據(jù)在特定應用環(huán)境中是否滿足預期的要求。包括以下幾個方面:準確性:數(shù)據(jù)與實際情況的符合程度,數(shù)據(jù)值與實際值的一致性高低。完整性:數(shù)據(jù)是否包含了需要的全部信息,有無遺漏或缺失。一致性:數(shù)據(jù)在不同的數(shù)據(jù)源、數(shù)據(jù)記錄等方面是否保持一致,數(shù)據(jù)之間有無沖突或矛盾。及時性:數(shù)據(jù)是否及時地進行采集、處理、傳輸和更新,以保證數(shù)據(jù)的實效性和時效性??衫斫庑裕簲?shù)據(jù)是否易于被理解,數(shù)據(jù)結構和格式是否清晰,數(shù)據(jù)值和字段是否具有明確的含義??煽啃裕簲?shù)據(jù)是否可信、可靠,其產(chǎn)生的過程和來源是否可靠,數(shù)據(jù)是否經(jīng)過驗證和核實??捎眯裕褐笖?shù)據(jù)是否易于訪問、檢索和使用,數(shù)據(jù)存儲和管理系統(tǒng)的性能是否足夠高效。導致數(shù)據(jù)質量不高的根源主要如下:數(shù)據(jù)采集問題數(shù)據(jù)存儲問題數(shù)據(jù)處理問題數(shù)據(jù)管理問題數(shù)據(jù)使用問題2.3.2數(shù)據(jù)清洗數(shù)據(jù)清洗是審查和校驗數(shù)據(jù)的過程,旨在刪除重復信息、糾正錯誤并確保一致性。缺失數(shù)據(jù)處理:刪除缺失數(shù)據(jù):適用于少量缺失且影響較小時,但可能引入樣本偏差。插補缺失數(shù)據(jù):適用于缺失較多或影響較大時。插補的方法可以分為三類:(1)均值插補(2)回歸插補(3)多重插補創(chuàng)建指示變量:對于分類變量的缺失數(shù)據(jù),新增指示變量(0/1)標記缺失情況,避免插補誤差。其他:利用聚類或專門模型處理缺失數(shù)據(jù)。在處理缺失數(shù)據(jù)時,還需要注意以下三個問題:①缺失數(shù)據(jù)的模式②數(shù)據(jù)的完整性③插補方法的合理性2.3.2數(shù)據(jù)清洗噪聲數(shù)據(jù)是指數(shù)據(jù)中存在錯誤或異常(偏離期望值)的數(shù)據(jù),即測量變量中存在隨機誤差或方差。噪聲數(shù)據(jù)處理:分箱:通過考察相鄰數(shù)據(jù)來確定最終值。

分箱的方法有四種:(1)等深分箱法(2)等寬分箱法(3)用戶自定義區(qū)間法(4)最小熵法。

在分箱之后,要對每個“箱子”中的數(shù)據(jù)進行平滑處理:(1)按均值進行平滑處理(2)按中位數(shù)進行平滑處理(3)按邊界值進行平滑處理。聚類:將數(shù)據(jù)集合分組為若干個簇,在簇外的值為孤立點,應對這些孤立點進行刪除或替換。相似或相鄰的數(shù)據(jù)聚合在一起形成各個聚類集合,在這些聚類集合之外的數(shù)據(jù)為異常數(shù)據(jù)。回歸:如果變量之間存在函數(shù)關系,則可以使用回歸分析方法進行函數(shù)擬合,通過使用擬合值或平滑數(shù)據(jù)來更新變量數(shù)值,從而實現(xiàn)噪聲數(shù)據(jù)去除。2.3.3數(shù)據(jù)集成數(shù)據(jù)集成是將來自不同數(shù)據(jù)源的數(shù)據(jù)整合到統(tǒng)一的數(shù)據(jù)集中,以便分析、決策支持和業(yè)務應用。其過程涉及數(shù)據(jù)整合、匹配、沖突解決、質量控制、元數(shù)據(jù)管理和安全等方面。模式識別和對象匹配是在數(shù)據(jù)集成過程中的兩個重要任務,用于識別和匹配不同數(shù)據(jù)源中的模式和對象,以提高數(shù)據(jù)集成的準確性和效率。模式識別:對表征事物或現(xiàn)象的模式進行自動處理和判讀。對象匹配:將不同數(shù)據(jù)源中的對象進行匹配和對應。在進行模式識別和對象匹配時,需要考慮以下幾個方面:①特征提?。涸谶M行模式識別和對象匹配時,需要選擇合適的特征并進行提取。②相似度度量:方法包括歐氏距離、曼哈頓距離、余弦相似度等。③匹配算法:算法包括基于規(guī)則的匹配、基于機器學習的匹配、基于統(tǒng)計的匹配、基于圖的匹配等。④沖突解決:可以通過規(guī)則、投票機制、權重分配、機器學習等方法來確定最佳匹配結果。2.3.3數(shù)據(jù)集成數(shù)據(jù)冗余是指數(shù)據(jù)存儲或集成過程中產(chǎn)生的重復或多余數(shù)據(jù),包括重復數(shù)據(jù)和無關數(shù)據(jù)。需處理數(shù)據(jù)冗余以減少存儲占用和分析誤差。可通過一下幾種方式來實現(xiàn):規(guī)則和約束:通過定義規(guī)則和約束來防止數(shù)據(jù)冗余的產(chǎn)生。數(shù)據(jù)規(guī)范化:數(shù)據(jù)規(guī)范化是一種將數(shù)據(jù)劃分成更小、更規(guī)范的單元的過程。數(shù)據(jù)清洗和去重:去除重復和冗余的數(shù)據(jù)。數(shù)據(jù)合并和歸約:將重復和冗余的數(shù)據(jù)進行合并和歸約。數(shù)據(jù)壓縮:通過編碼或壓縮技術減少存儲占用。數(shù)據(jù)分析和挖掘:通過數(shù)據(jù)分析和挖掘技術,可以識別和消除數(shù)據(jù)冗余。2.3.3數(shù)據(jù)集成在數(shù)據(jù)集成過程中,不同數(shù)據(jù)源可能存在沖突(如值、格式、單位、覆蓋范圍不一致)。為確保數(shù)據(jù)質量和準確性,需要進行沖突檢測與處理。步驟如下:(1)確定沖突類型。常見類型包括數(shù)據(jù)值、格式、單位或覆蓋范圍不同。(2)數(shù)據(jù)沖突檢測。利用算法或規(guī)則檢測相同實體在不同數(shù)據(jù)源中的特征是否一致或存在矛盾。(3)沖突解析。當發(fā)現(xiàn)沖突時,需要進行沖突解析來確定集成數(shù)據(jù)的準確值。常見的沖突解析方法如下:①人工解析②投票機制③權重分配④規(guī)則和模型。(4)沖突解析后的數(shù)據(jù)集成。應用解析后的數(shù)據(jù),形成最終集成結果。沖突檢測與處理較復雜,需根據(jù)數(shù)據(jù)需求、質量要求和沖突類型選擇合適方法,并考慮數(shù)據(jù)源的可靠性和權威性。2.3.4數(shù)據(jù)轉換數(shù)據(jù)轉換是數(shù)據(jù)預處理的重要環(huán)節(jié),通過轉換提高數(shù)據(jù)質量和可用性,使其更適合分析和建模。主要方法包括數(shù)據(jù)規(guī)范化、數(shù)據(jù)離散化、數(shù)據(jù)泛化和數(shù)據(jù)脫敏。數(shù)據(jù)規(guī)范化:將被挖掘對象的特征數(shù)據(jù)按比例縮放,使其落入一個小的特定區(qū)間。常用方法有三種:①小數(shù)定標規(guī)范化:將原始數(shù)據(jù)除以一個固定值,將數(shù)據(jù)映射到[-1,1]之間。②最小值—最大值規(guī)范化:將原始數(shù)據(jù)映射到0~1之間的特定區(qū)間,保留數(shù)據(jù)的相對大小關系。③Z-Score規(guī)范化:將原始數(shù)據(jù)轉化為均值為0、標準差為1的標準正態(tài)分布。2.3.4數(shù)據(jù)轉換數(shù)據(jù)離散化:將連續(xù)型數(shù)據(jù)轉換為離散型數(shù)據(jù)的過程,將數(shù)據(jù)劃分為若干個區(qū)間或類別。常見方法如下:①等寬離散化:將數(shù)據(jù)根據(jù)固定的寬度劃分為若干個區(qū)間,每個區(qū)間的寬度相同。②等頻離散化:將數(shù)據(jù)根據(jù)相同的樣本數(shù)量劃分為若干個區(qū)間,每個區(qū)間中包含的樣本數(shù)量相同。③聚類離散化:用聚類算法將數(shù)據(jù)聚類為若干個簇,每個簇表示一個離散化的類別。④決策樹離散化:使用決策樹算法將連續(xù)型數(shù)據(jù)轉換為決策樹的劃分節(jié)點,將數(shù)據(jù)分為不同的類別。2.3.4數(shù)據(jù)轉換數(shù)據(jù)泛化:把較低層次的概念用較高層次的概念替換來匯總數(shù)據(jù),或者通過減小維度,在較小維度的概念空間中匯總數(shù)據(jù)。常用的方法如下:①基于數(shù)據(jù)立方體的數(shù)據(jù)聚集:用于從多維數(shù)據(jù)集中提取有用的信息。數(shù)據(jù)立方體是一個多維數(shù)組,其中每個維度表示數(shù)據(jù)的一個特征,構建步驟:選擇維度→設計度量→聚合數(shù)據(jù)→構建數(shù)據(jù)立方體。②面向特征的歸納:旨在從數(shù)據(jù)中歸納出特征間的關系、規(guī)律和模式。主要過程包括以下步驟:

特征選擇→歸納分析→模式評估與驗證。2.3.4數(shù)據(jù)轉換數(shù)據(jù)脫敏:通過對敏感數(shù)據(jù)進行部分或完全的刪除、替換或隱藏,以抹去個人敏感信息。常見方法如下:①刪除(Deletion):直接刪除或部分刪除包含敏感信息的數(shù)據(jù)。②替換(Substitution):將敏感數(shù)據(jù)替換為不可識別的偽造值。③脫敏屏蔽(Masking):在數(shù)據(jù)中通過覆蓋、屏蔽或空白值等方式隱藏敏感信息,以避免敏感信息的識別。④加密(Encryption):使用加密算法對敏感信息進行加密,只有授權的用戶才能解密和訪問。具體方法的選擇取決于數(shù)據(jù)類型、隱私需求和分析任務。2.3.5數(shù)據(jù)歸約數(shù)據(jù)歸約是在保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù),以降低數(shù)據(jù)規(guī)模。主要包括維歸約和數(shù)據(jù)歸約兩種方法。維歸約:目的是將高維數(shù)據(jù)集轉換為低維表示,以減少數(shù)據(jù)集的維度并保留主要的信息。①特征集選擇(FSS):篩選最相關和有價值的特征,去除無關或冗余特征。②主成分分析(PCA):將高維數(shù)據(jù)映射到低維子空間,提取主要特征。③線性判別分析(LDA):監(jiān)督學習方法,尋找最能區(qū)分類別的投影方向。④非負矩陣分解(NMF):將高維矩陣分解為兩個低維非負矩陣,以降低維度。⑤t-SNE:基于數(shù)據(jù)相似性,將高維數(shù)據(jù)映射到低維,保持局部關系,適用于可視化。2.3.5數(shù)據(jù)歸約數(shù)據(jù)歸約:通過聚合、壓縮或采樣等方法減少數(shù)據(jù)點,以簡化分析和處理,提高計算效率并降低存儲需求。常見方法如下:①聚合(Aggregation):按規(guī)則匯總數(shù)據(jù),減少數(shù)據(jù)規(guī)模。②采樣(Sampling):從數(shù)據(jù)集中選取部分樣本作為代表,如隨機、均勻、分層采樣等。③插值(Interpolation):在數(shù)據(jù)點之間插值,填補缺失值,提高數(shù)據(jù)密度。④壓縮(Compression):使用壓縮算法減少數(shù)據(jù)存儲空間,如gzip、LZW、哈夫曼編碼等。數(shù)據(jù)歸約提高效率,但可能造成信息損失,需根據(jù)任務需求權衡選擇。數(shù)據(jù)集的構建ConstructionOfDataSets2.4.1數(shù)據(jù)集的劃分數(shù)據(jù)預處理后可存入數(shù)據(jù)倉庫,供分析或訓練時提取。通常,數(shù)據(jù)會被劃分或重抽樣以適應模型應用。在機器學習算法中,通常將原始數(shù)據(jù)集劃分為三個部分:訓練集(TrainingSet)、驗證集(ValidationSet)和測試集(TestSet)。訓練集是用于訓練的樣本集合,主要用于訓練模型中的參數(shù);驗證集是驗證模型性能的樣本集合,主要用于超參數(shù)的調(diào)整;測試集主要用于訓練和驗證完成的模型,來客觀評估模型的性能。訓練集用于模型學習,驗證集少量調(diào)整,測試集僅作最終評估,數(shù)據(jù)集應互不重疊。在數(shù)據(jù)量不是特別大的情況下一般遵循6∶2∶2的劃分比例。2.4.2重抽樣方法重抽樣可用于提高最終預測效果,因訓練集、驗證集和測試集的數(shù)據(jù)分布可能存在差異。將數(shù)據(jù)隨機分為訓練集和驗證集:模型在訓練集上學習,然后在驗證集上評估預測誤差。誤差計算結果可能波動較大,取決于樣本劃分方式。僅使用部分數(shù)據(jù)進行訓練,可能導致誤差估計偏高。重抽樣可降低誤差波動,但需權衡計算成本與數(shù)據(jù)利用率。2.4.2重抽樣方法

2.4.2重抽樣方法

2.4.2重抽樣方法

2.4.2重抽樣方法自助法在數(shù)據(jù)集較小、難以有效劃分訓練集和測試集時很有用。此外,自助法能從初始數(shù)據(jù)集中產(chǎn)生多個不同的訓練集,這對集成學習等有很大的好處,該方法也常常用于非平衡數(shù)據(jù)的處理。但是自助法產(chǎn)生的數(shù)據(jù)集改變了原始數(shù)據(jù)集的分布,這會導致估計偏差,因此在原始數(shù)據(jù)集足夠大時,驗證集方法和交叉驗證法更加常用。思考題什么是ETL?ETL的主要流程是什么?網(wǎng)絡爬蟲的工作原理是什么?試結合Python爬蟲程序分析實現(xiàn)過程。數(shù)據(jù)清洗中缺失數(shù)據(jù)和噪聲數(shù)據(jù)如何處理?試舉例說明。什么是數(shù)據(jù)轉換?數(shù)據(jù)轉換包含哪幾類?試舉例說明數(shù)據(jù)轉換的操作過程。機器學習中數(shù)據(jù)集劃分為幾類?各類數(shù)據(jù)集的作用是什么?K折交叉驗證的原理是什么?Thankyou!回歸分析03RegressionAnalysis3.1

回歸分析概述回歸分析是在眾多的相關變量中根據(jù)實際問題考察其中一個或多個目標變量(因變量)與其影響因素(自變量)之間相互依賴的定量關系的一種方法。通常事物的特征可用多個變量進行描述。回歸分析的公式可以表示為:例如,能源消費量

受經(jīng)濟、人口和科技發(fā)展等因素影響,這些因素包括GDP指標

、人口規(guī)模

、科技投入指標

等。當對這一問題進行回歸分析時,將能源消費量

稱為因變量(或目標變量),

稱為自變量,

為自變量的維度,回歸分析的目標是利用歷史數(shù)據(jù)找出函數(shù)表示它們之間的關系,以預測未來能源消費量的情況。在大數(shù)據(jù)分析中,習慣上將這些自變量稱為特征(Feature),因變量則稱為標簽(Label)。如果只需考察一個變量與其余多個變量之間的相互依賴關系,則稱為一元回歸問題。若要同時考察多個因變量與多個自變量之間的相互依賴關系,則稱為多因變量的多元回歸問題。(3-1)3.1回歸分析概述回歸分析的分類標準多樣,按照不同的分類標準,可以分成不同的種類。按照涉及自變量的數(shù)量,回歸分析可以分為一元回歸分析和多元回歸分析,只有一個自變量的稱為一元回歸分析(又稱簡單回歸分析),有兩個或兩個以上自變量的稱為多元回歸分析(又稱復回歸分析)。按照涉及因變量的數(shù)量,回歸分析可以分為簡單回歸分析和多重回歸分析。按照自變量和因變量之間的關系類型,回歸分析可以分為線性回歸分析和非線性回歸分析?;具^程3.2線性回歸線性回歸(LinearRegression)是利用稱為線性回歸方程的最小平方函數(shù)對一個或多個因變量和自變量之間關系進行建模的一種回歸分析方法,這種函數(shù)是一個或多個稱為回歸系數(shù)的模型參數(shù)的線性組合。只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系線性回歸分析是一種統(tǒng)計分析方法,用于了解兩個變量之間的相關性,以及一個變量隨另一個變量變化的趨勢。3.2線性回歸線性模型(GeneralLinearModels,GLM)并不是一個具體的模型,而是多種統(tǒng)計模型的統(tǒng)稱,其中包含線性回歸模型、方差分析模型等。線性模型可以表示為:式中,

是一個因變量的觀測集合;

是一個自變量的觀測集合;

是待估計的參數(shù)矩陣;

是誤差矩陣或隨機擾動項,又叫噪聲(Noise)。一元線性回歸模型可以寫為:多元線性回歸模型又稱多重線性回歸模型。其數(shù)學模型可以寫為:線性回歸模型需要假設因變量關于自變量的條件期望存在線性關系,即:(3-2)(3-3)(3-4)(3-5)假設中的

是未知的,稱為回歸系數(shù)。為了檢驗這個假設,需要利用樣本數(shù)據(jù)估計出

,將它們的估計值記為

,由此得出的相應因變量

的估計值為

,這樣式(3-5)就變?yōu)椋海?-6)回歸分析概述統(tǒng)計學中估計回歸系數(shù)的一種方法是最小二乘法(LeastSquareMethod,LSE),為了與廣義最小二乘法相區(qū)別,也稱之為普通最小二乘法(OrdinaryLeastSquare,OLS)。如果回歸方程對樣本擬合得較好,能較好地反映客觀規(guī)律,那么真實值和回歸值的“距離”會較小。真實值和回歸值的“距離”可以采用誤差平方和表示。機器學習中使用線性回歸模型進行預測時,需要使得理論值與觀測值之差(誤差,或者說殘差)的平方和達到最小,這個誤差稱為均方誤差(MeanSquareError,MSE),表示為:均方誤差是反映估計量與被估計量之間差異程度的一種度量,在機器學習中稱為損失函數(shù)(LossFunction)。機器學習中通過不斷迭代使得均方誤差不斷降低,從而逼近最優(yōu)解。式中,

是因變量觀測值的樣本;

是預測值;

是均方誤差。(3-7)3.3非線性回歸非線性回歸指因變量與自變量的關系不是一次函數(shù),而是更復雜的非線性函數(shù),適用于描述非線性關聯(lián)的數(shù)據(jù)。非線性回歸類型廣義非線性回歸:可通過變量變換轉換為線性回歸,也稱非純非線性回歸。狹義非線性回歸:無論如何變換都無法轉換為線性回歸,即純非線性回歸。廣義非線性回歸可簡化計算,而狹義非線性回歸通常需更復雜的優(yōu)化方法求解。3.3非線性回歸非線性回歸問題大多數(shù)可以轉變?yōu)榫€性回歸問題來求解,也就是通過對非線性回歸模型進行適當?shù)淖兞孔儞Q,使其轉變?yōu)榫€性回歸模型來求解。一般步驟為:例如,全球煤炭消費量隨時間的變化并不是線性的,因此若選取日期作為自變量,則不適合使用線性回歸模型,非線性回歸模型更為適用。全球煤炭消費量隨時間的變化曲線擬合如圖3-1所示。圖3-1全球煤炭消費量隨時間的變化曲線擬合3.3非線性回歸1多項式模型多項式模型在非線性回歸分析中占有重要的地位。根據(jù)級數(shù)展開的原理,任何曲線、曲面、超曲面的問題在一定的范圍內(nèi)都能夠用多項式任意逼近,所以,當因變量與自變量之間的確定關系未知時,可以使用適當冪次的多項式來近似。當所涉及的自變量只有一個時,所采用的多項式稱為一元多項式,其一般形式為:多項式模型可以轉變?yōu)榫€性回歸模型,并利用最小二乘法確定系數(shù)。并不是所有的非線性回歸模型都可以通過變換得到與原模型完全等價的線性回歸模型。在遇到這種情況時,還需要利用其他一些方法,如泰勒級數(shù)展開法等進行估計。(3-8)3.3非線性回歸2冪函數(shù)模型

冪函數(shù)模型為:(3-9)令

,則冪函數(shù)模型可以轉變?yōu)榫€性回歸模型:

(3-10)3指數(shù)函數(shù)模型指數(shù)函數(shù)用于描述幾何級數(shù)遞增或遞減的現(xiàn)象,一般的自然增長及大多數(shù)經(jīng)濟數(shù)列屬于此類。指數(shù)函數(shù)模型為:

(3-11)

,指數(shù)函數(shù)模型同樣可以轉變?yōu)榫€性回歸模型。3.3非線性回歸54對數(shù)函數(shù)模型對數(shù)函數(shù)是指數(shù)函數(shù)的反函數(shù),對數(shù)函數(shù)模型為:(3-12)令

,對數(shù)函數(shù)模型可以轉變?yōu)榫€性回歸模型。雙曲線模型若因變量

隨自變量

的增加(或減少),最初增加(或減少)很快,以后逐漸放慢并趨于穩(wěn)定,則可以選用雙曲線模型來擬合。雙曲線模型為:令

,雙曲線模型可以轉變?yōu)榫€性回歸模型。(3-13)3.3非線性回歸非線性回歸模型非線性回歸可分為固定模式和非固定模式兩類。1.固定模式的非線性回歸結構固定,部分自變量可能不確定,無法轉換為線性回歸。采用泰勒級數(shù)展開或數(shù)值優(yōu)化方法求解。低維(≤3維)可通過繪制測點圖像確定線性類型。應用:適用于調(diào)查研究、臨床試驗等,分析單值或多值變量的非線性關系。2.非固定模式的非線性回歸結構不固定,需要在建模過程中同時確定模型結構和參數(shù)。方法:機器學習算法(如神經(jīng)網(wǎng)絡、決策樹等)、數(shù)據(jù)驅動建模(如自回歸方法)、自適應回歸(如局部加權回歸)應用:適用于復雜系統(tǒng)建模,非線性關系未知或數(shù)據(jù)驅動特征明顯的場景。3.4分位數(shù)回歸線性回歸最基本的假設是殘差滿足正態(tài)分布、獨立性、同方差性,但這些條件常常得不到滿足。如果樣本數(shù)據(jù)中存在異常值或極端值,則線性回歸模型估計值可能會存在較大偏差。我們不僅希望研究被解釋變量的期望,還希望能探索被解釋變量Y的全局分布(如被解釋變量的某個分位數(shù)),這時候就需要使用分位數(shù)回歸。分位數(shù)亦稱分位點,是指將一個隨機變量的概率分布范圍分為幾個等份的數(shù)值點,常用的有中位數(shù)(二分位數(shù))、四分位數(shù)(25%、50%和75%)等。分位數(shù)回歸是估計一組解釋變量X與被解釋變量Y的分位數(shù)之間線性關系的建模方法,其原理是將數(shù)據(jù)按被解釋變量拆分成多個分位數(shù),研究不同分位數(shù)情況下的回歸影響關系。3.4分位數(shù)回歸分位數(shù)回歸的優(yōu)點如下:(1)能夠更加全面地描述被解釋變量條件分布的全貌,而不是僅僅分析被解釋變量的條件期望(均值),也可以分析解釋變量如何影響被解釋變量的分位數(shù)。不同分位數(shù)下的回歸系數(shù)估計量常常不同,即解釋變量對不同水平被解釋變量的影響不同。(2)分位數(shù)回歸的估計方法與最小二乘法相比,估計結果對離群值表現(xiàn)得更加穩(wěn)健,而且分位數(shù)回歸對誤差項并不要求很強的假設條件,因此對于非正態(tài)分布而言,分位數(shù)回歸系數(shù)估計量更加穩(wěn)健。3.4分位數(shù)回歸圖3-2給出了分位數(shù)回歸示例,其中的數(shù)據(jù)來自Python程序包statsmodel中的案例數(shù)據(jù)。因變量是食物支出,自變量是家庭收入,對該數(shù)據(jù)同時進行最小二乘法(OLS)回歸和分位數(shù)回歸可以得到圖3-2中的回歸線。從圖3-2可以看出,食物支出隨家庭收入的增加而增加,食物支出的分布隨家庭收入增加變得越來越寬(高分位數(shù)和低分位數(shù)之間的間隔越來越大),存在典型的異方差,因此比較適合分位數(shù)回歸。圖3-2分位數(shù)回歸示例3.4分位數(shù)回歸分位數(shù)回歸的估計方法介紹:如果一組數(shù)據(jù)由小到大排列后,

分位數(shù)為

,則表示該組數(shù)據(jù)中有

的數(shù)據(jù)小于

。所謂的

分位

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論