




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第5章數(shù)據采集與預處理
《大數(shù)據導論》教材官網:/post/bigdata-introduction/提綱5.1數(shù)據采集5.2數(shù)據清洗5.3數(shù)據轉換5.4數(shù)據脫敏百度搜索廈門大學數(shù)據庫實驗室網站訪問平臺5.1數(shù)據采集5.1.1數(shù)據采集概念5.1.2數(shù)據采集的三大要點5.1.3數(shù)據采集的數(shù)據源5.1.4數(shù)據采集方法5.1.5網絡爬蟲5.1.1數(shù)據采集概念數(shù)據采集,又稱“數(shù)據獲取”,是數(shù)據分析的入口,也是數(shù)據分析過程中相當重要的一個環(huán)節(jié),它通過各種技術手段把外部各種數(shù)據源產生的數(shù)據實時或非實時地采集并加以利用。傳統(tǒng)的數(shù)據采集大數(shù)據采集數(shù)據源來源單一,數(shù)據量相對較少來源廣泛,數(shù)據量巨大數(shù)據類型結構單一數(shù)據類型豐富,包括結構化、半結構化和非結構化數(shù)據存儲關系數(shù)據庫和并行數(shù)據倉庫分布式數(shù)據庫,分布式文件系統(tǒng)表
傳統(tǒng)的數(shù)據采集與大數(shù)據采集區(qū)別5.1.2數(shù)據采集的三大要點0203多維性全面性高效性015.1.3數(shù)據采集的數(shù)據源互聯(lián)網數(shù)據日志文件傳感器企業(yè)業(yè)務系統(tǒng)數(shù)據5.1.3數(shù)據采集的數(shù)據源1.傳感器數(shù)據傳感器是一種檢測裝置,能感受到被測量的信息,并能將感受到的信息,按一定規(guī)律變換成為電信號或其他所需形式的信息輸出,以滿足信息的傳輸、處理、存儲、顯示、記錄和控制等要求。在工作現(xiàn)場,我們會安裝很多的各種類型的傳感器,如壓力傳感器、溫度傳感器、流量傳感器、聲音傳感器、電參數(shù)傳感器等等。傳感器對環(huán)境的適應能力很強,可以應對各種惡劣的工作環(huán)境。在日常生活中,如溫度計、麥克風、DV錄像、手機拍照功能等都屬于傳感器數(shù)據采集的一部分,支持圖片、音頻、視頻等文件或附件的采集工作。5.1.3數(shù)據采集的數(shù)據源2.互聯(lián)網數(shù)據互聯(lián)網數(shù)據的采集通常是借助于網絡爬蟲來完成的。所謂“網絡爬蟲”,就是一個在網上到處或定向抓取網頁數(shù)據的程序。抓取網頁的一般方法是,定義一個入口頁面,然后一般一個頁面中會包含指向其他頁面的URL,于是從當前頁面獲取到這些網址加入到爬蟲的抓取隊列中,然后進入到新頁面后再遞歸地進行上述的操作。爬蟲數(shù)據采集方法可以將非結構化數(shù)據從網頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯(lián)。5.1.3數(shù)據采集的數(shù)據源3.日志文件許多公司的業(yè)務平臺每天都會產生大量的日志文件。日志文件數(shù)據一般由數(shù)據源系統(tǒng)產生,用于記錄數(shù)據源的執(zhí)行的各種操作活動,比如網絡監(jiān)控的流量管理、金融應用的股票記賬和Web服務器記錄的用戶訪問行為。對于這些日志信息,我們可以得到出很多有價值的數(shù)據。通過對這些日志信息進行采集,然后進行數(shù)據分析,就可以從公司業(yè)務平臺日志數(shù)據中挖掘得到具有潛在價值的信息,為公司決策和公司后臺服務器平臺性能評估提供可靠的數(shù)據保證。系統(tǒng)日志采集系統(tǒng)做的事情就是收集日志數(shù)據提供離線和在線的實時分析使用。很多互聯(lián)網企業(yè)都有自己的海量數(shù)據采集工具,多用于系統(tǒng)日志采集,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,這些工具均采用分布式架構,能滿足每秒數(shù)百MB的日志數(shù)據采集和傳輸需求。5.1.3數(shù)據采集的數(shù)據源4.企業(yè)業(yè)務系統(tǒng)數(shù)據一些企業(yè)會使用傳統(tǒng)的關系型數(shù)據庫MySQL和Oracle等來存儲業(yè)務系統(tǒng)數(shù)據,除此之外,Redis和MongoDB這樣的NoSQL數(shù)據庫也常用于數(shù)據的存儲。企業(yè)每時每刻產生的業(yè)務數(shù)據,以數(shù)據庫一行記錄形式被直接寫入到數(shù)據庫中。企業(yè)可以借助于ETL(Extract-Transform-Load)工具,把分散在企業(yè)不同位置的業(yè)務系統(tǒng)的數(shù)據,抽取、轉換、加載到企業(yè)數(shù)據倉庫中,以供后續(xù)的商務智能分析使用(如圖所示)。通過采集不同業(yè)務系統(tǒng)的數(shù)據并統(tǒng)一保存到一個數(shù)據倉庫中,就可以為分散在企業(yè)不同地方的商務數(shù)據提供一個統(tǒng)一的視圖,滿足企業(yè)的各種商務決策分析需求。5.1.4數(shù)據采集方法數(shù)據采集是數(shù)據系統(tǒng)必不可少的關鍵部分,也是數(shù)據平臺的根基。根據不同的應用環(huán)境及采集對象,有多種不同的數(shù)據采集方法,包括:系統(tǒng)日志采集分布式消息訂閱分發(fā)ETL網絡數(shù)據采集5.1.4數(shù)據采集方法Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據發(fā)送方,用于收集數(shù)據;同時,F(xiàn)lume提供對數(shù)據進行簡單處理,并寫到各種數(shù)據接受方(可定制)的能力。1.系統(tǒng)日志采集5.1.4數(shù)據采集方法2.分布式消息訂閱分發(fā)分布式消息訂閱分發(fā)也是一種常見的數(shù)據采集方式,其中,Kafka就是一種具有代表性的產品。Kafka是由LinkedIn公司開發(fā)的一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),用戶通過Kafka系統(tǒng)可以發(fā)布大量的消息,同時也能實時訂閱消費消息。Kafka的架構包括以下組件:話題、生產者、服務代理、消費者5.1.4數(shù)據采集方法3.ETLETL是英文Extract-Transform-Load的縮寫,常用于數(shù)據倉庫中的數(shù)據采集和預處理環(huán)節(jié)(如圖所示)。顧名思義,ETL從原系統(tǒng)中抽取數(shù)據,并根據實際商務需求對數(shù)據進行轉換,并把轉換結果加載到目標數(shù)據存儲中。可以看出,ETL既包含了數(shù)據采集環(huán)節(jié),也包含了數(shù)據預處理環(huán)節(jié)。Kettle是一款國外開源的ETL工具,使用Java語言編寫,可以在Windows、Linux、Unix上運行,數(shù)據抽取高效、穩(wěn)定。5.1.4數(shù)據采集方法4.網絡數(shù)據采集網絡數(shù)據采集是指通過網絡爬蟲或網站公開應用程序編程接口等方式從網站上獲取數(shù)據信息。該方法可以將非結構化數(shù)據從網頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件的采集,文件與正文可以自動關聯(lián)。網絡數(shù)據采集的應用領域十分廣泛,包括搜索引擎與垂直搜索平臺搭建與運營,綜合門戶與行業(yè)門戶、地方門戶、專業(yè)門戶網站數(shù)據支撐與流量運營,電子政務與電子商務平臺的運營,知識管理與知識共享,企業(yè)競爭情報系統(tǒng)的運營,BI商業(yè)智能系統(tǒng),信息咨詢與信息增值,信息安全和信息監(jiān)控等。5.1.5網絡爬蟲網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成部分。1.什么是網絡爬蟲5.1.5網絡爬蟲2.網絡爬蟲的組成網絡爬蟲由控制節(jié)點、爬蟲節(jié)點和資源庫構成。網絡爬蟲的控制節(jié)點和爬蟲節(jié)點的結構關系如圖所示。從圖中可以看出,網絡爬蟲中可以有多個控制節(jié)點,每個控制節(jié)點下可以有多個爬蟲節(jié)點,控制節(jié)點之間可以互相通信,同時,控制節(jié)點和其下的各爬蟲節(jié)點之間也可以進行互相通信,屬于同一個控制節(jié)點下的各爬蟲節(jié)點間亦可以互相通信。5.1.5網絡爬蟲3.網絡爬蟲的類型01030204通用網絡爬蟲聚焦網絡爬蟲增量式網絡爬蟲深層網絡爬蟲5.1.5網絡爬蟲3.網絡爬蟲的類型(1)通用網絡爬蟲。通用網絡爬蟲又稱“全網爬蟲”((ScalableWebCrawler)),爬行對象從一些種子URL擴充到整個Web,該架構主要為門戶站點搜索引擎和大型Web服務提供商采集數(shù)據。通用網絡爬蟲的結構大致可以包括頁面爬行模塊、頁面分析模塊、鏈接過濾模塊、頁面數(shù)據庫、URL隊列和初始URL集合。為提高工作效率,通用網絡爬蟲會采取一定的爬行策略。常用的爬行策略有:深度優(yōu)先策略和廣度優(yōu)先策略。5.1.5網絡爬蟲3.網絡爬蟲的類型(2)聚焦網絡爬蟲。聚焦網絡爬蟲(FocusedCrawler),又稱“主題網絡爬蟲(TopicalCrawler)”,是指選擇性地爬行那些與預先定義好的主題相關頁面的網絡爬蟲。和通用網絡爬蟲相比,聚焦爬蟲只需要爬行與主題相關的頁面,極大地節(jié)省了硬件和網絡資源,保存的頁面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對特定領域信息的需求。聚焦網絡爬蟲的工作流程較為復雜,需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統(tǒng)的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統(tǒng)存儲,進行一定的分析、過濾,并建立索引,以便用于之后的查詢和檢索;對于聚焦網絡爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。聚焦網絡爬蟲常用的策略包括:基于內容評價的爬行策略、基于鏈接結構評價的爬行策略、基于增強學習的爬行策略和基于語境圖的爬行策略。5.1.5網絡爬蟲3.網絡爬蟲的類型(3)增量式網絡爬蟲。增量式網絡爬蟲(IncrementalWebCrawler)是指對已下載網頁采取增量式更新和只爬行新產生的或者已經發(fā)生變化網頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。和周期性爬行和刷新頁面的網絡爬蟲相比,增量式爬蟲只會在需要的時候爬行新產生或發(fā)生更新的頁面,并不重新下載沒有發(fā)生變化的頁面,可有效減少數(shù)據下載量,及時更新已爬行的網頁,減小時間和空間上的耗費,但是增加了爬行算法的復雜度和實現(xiàn)難度。增量式爬蟲有兩個目標:保持本地頁面集中存儲的頁面為最新頁面和提高本地頁面集中頁面的質量。為實現(xiàn)第一個目標,增量式爬蟲需要通過重新訪問網頁來更新本地頁面集中頁面內容。為了實現(xiàn)第二個目標,增量式爬蟲需要對網頁的重要性排序,常用的策略包括廣度優(yōu)先策略和PageRank優(yōu)先策略等。5.1.5網絡爬蟲3.網絡爬蟲的類型(4)深層網絡爬蟲。深層網絡爬蟲將Web頁面按存在方式分為表層網頁(SurfaceWeb)和深層網頁(DeepWeb,也稱InvisibleWebPage或HiddenWeb)。表層網頁是指傳統(tǒng)搜索引擎可以索引的頁面,以超鏈接可以到達的靜態(tài)網頁為主構成的Web頁面。深層網頁是那些大部分內容不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后的、只有用戶提交一些關鍵詞才能獲得的Web頁面。深層網絡爬蟲體系結構包含6個基本功能模塊(爬行控制器、解析器、表單分析器、表單處理器、響應分析器、LVS控制器)和兩個爬蟲內部數(shù)據結構(URL列表、LVS表)。5.1.5網絡爬蟲4.Scrapy爬蟲Scrapy是一套基于Twisted的異步處理框架,是純Python實現(xiàn)的爬蟲框架,用戶只需要定制開發(fā)幾個模塊就可以輕松的實現(xiàn)一個爬蟲,用來抓取網頁內容或者各種圖片。Scrapy運行于Linux/Windows/MacOS等多種環(huán)境,具有速度快、擴展性強、使用簡便等特點。即便是新手,也能迅速學會使用Scrapy編寫所需要的爬蟲程序。Scrapy可以在本地運行,也能部署到云端實現(xiàn)真正的生產級數(shù)據采集系統(tǒng)。Scrapy用途廣泛,可以用于數(shù)據挖掘、監(jiān)測和自動化測試。Scrapy吸引人的地方在于它是一個框架,任何人都可以根據需求對它進行修改。當然,Scrapy只是Python的一個主流框架,除了Scrapy外,還有其他基于Python的爬蟲框架,包括Crawley、Portia、Newspaper、Python-goose、BeautifulSoup、Mechanize、Selenium和Cola燈。5.1.5網絡爬蟲4.Scrapy爬蟲(1)Scrapy體系架構Scrapy體系架構包括以下組成部分:Scrapy引擎(Engine)、爬蟲(Spiders)、下載器(Downloader)、調度器(Scheduler)、項目管道(ItemPipeline)、下載器中間件(DownloaderMiddlewares)、爬蟲中間件(SpiderMiddlewares)、調度器中間件(SchedulerMiddlewares)5.1.5網絡爬蟲4.Scrapy爬蟲(2)Scrapy工作流Scrapy工作流也叫作“運行流程”或叫作“數(shù)據處理流程”,整個數(shù)據處理流程由Scrapy引擎進行控制,其主要的運行步驟如下:①Scrapy引擎從調度器中取出一個鏈接(URL)用于接下來的抓?。虎赟crapy引擎把URL封裝成一個請求并傳給下載器;③下載器把資源下載下來,并封裝成應答包;④爬蟲解析應答包;⑤如果解析出的是項目,則交給項目管道進行進一步的處理;⑥如果解析出的是鏈接(URL),則把URL交給調度器等待抓取。5.1.5網絡爬蟲5.反爬機制為什么會有反爬機制?原因主要有兩點:第一,在大數(shù)據時代,數(shù)據是十分寶貴的財富,很多企業(yè)不愿意讓自己的數(shù)據被別人免費獲取,因此,很多企業(yè)都為自己的網站運用了反爬機制,防止網頁上的數(shù)據被爬走;第二,簡單低級的網絡爬蟲,數(shù)據采集速度快,偽裝度低,如果沒有反爬機制,它們可以很快地抓取大量數(shù)據,甚至因為請求過多,造成網站服務器不能正常工作,影響了企業(yè)的業(yè)務開展。反爬機制也是一把雙刃劍,一方面可以保護企業(yè)網站和網站數(shù)據,但是,另一方面,如果反爬機制過于嚴格,可能會誤傷到真正的用戶請求,也就是真正用戶的請求被錯誤當成網絡爬蟲而被拒絕訪問。如果既要和“網絡爬蟲”死磕,又要保證很低的誤傷率,那么又會增加網站研發(fā)的成本。5.2數(shù)據清洗5.2.1數(shù)據清洗的內容5.2.2數(shù)據清洗的注意事項5.2.1數(shù)據清洗的內容(1)缺失值處理。由于調查、編碼和錄入誤差,數(shù)據中可能存在一些缺失值,需要給予適當?shù)奶幚?。常用的處理方法有:估算、整例刪除、變量刪除和成對刪除。(a)估算:最簡單的辦法就是用某個變量的樣本均值、中位數(shù)或眾數(shù)代替缺失值。這種辦法簡單,但沒有充分考慮數(shù)據中已有的信息,誤差可能較大。另一種辦法就是根據調查對象對其他問題的答案,通過變量之間的相關分析或邏輯推論進行估計。例如,某一產品的擁有情況可能與家庭收入有關,可以根據調查對象的家庭收入推算擁有這一產品的可能性。(b)整例刪除:剔除含有缺失值的樣本。由于很多問卷都可能存在缺失值,這種做法的結果可能導致有效樣本量大大減少,無法充分利用已經收集到的數(shù)據。因此,只適合關鍵變量缺失,或者含有異常值或缺失值的樣本比重很小的情況。(c)變量刪除:如果某一變量的缺失值很多,而且該變量對于所研究的問題不是特別重要,則可以考慮將該變量刪除。這種做法減少了供分析用的變量數(shù)目,但沒有改變樣本量。(d)成對刪除:是用一個特殊碼(通常是9、99、999等)代表缺失值,同時保留數(shù)據集中的全部變量和樣本。但是,在具體計算時只采用有完整答案的樣本,因而不同的分析因涉及的變量不同,其有效樣本量也會有所不同。這是一種保守的處理方法,最大限度地保留了數(shù)據集中的可用信息。數(shù)據清洗的內容主要包括5.2.1數(shù)據清洗的內容(2)異常值處理。根據每個變量的合理取值范圍和相互關系,檢查數(shù)據是否合乎要求,發(fā)現(xiàn)超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據。例如,用1-7級量表測量的變量出現(xiàn)了0值,體重出現(xiàn)了負數(shù),都應視為超出正常值域范圍。SPSS、SAS、和Excel等計算機軟件都能夠根據定義的取值范圍,自動識別每個超出范圍的變量值。具有邏輯上不一致性的答案可能以多種形式出現(xiàn):例如,許多調查對象說自己開車上班,又報告沒有汽車;或者調查對象報告自己是某品牌的重度購買者和使用者,但同時又在熟悉程度量表上給了很低的分值。發(fā)現(xiàn)不一致時,要列出問卷序號、記錄序號、變量名稱、錯誤類別等,便于進一步核對和糾正。5.2.1數(shù)據清洗的內容(3)數(shù)據類型轉換。數(shù)據類型往往會影響到后續(xù)的數(shù)據處理分析環(huán)節(jié),因此,需要明確每個字段的數(shù)據類型,比如,來自A表的“學號”是字符型,而來自B表的字段是日期型,在數(shù)據清洗的時候就需要對二者的數(shù)據類型進行統(tǒng)一處理。(4)重復值處理。重復值的存在會影響數(shù)據分析和挖掘結果的準確性,所以,在數(shù)據分析和建模之前需要進行數(shù)據重復性檢驗,如果存在重復值,還需要進行重復值的刪除。5.2.2數(shù)據清洗的注意事項在進行數(shù)據清洗時,需要注意如下事項:(1)數(shù)據清洗時優(yōu)先進行缺失值、異常值和數(shù)據類型轉換的操作,最后進行重復值的處理。(2)在對缺失值、異常值進行處理時,要根據業(yè)務的需求進行處理,這些處理并不是一成不變的,常見的填充包括:統(tǒng)計值填充(常用的統(tǒng)計值有均值、中位數(shù)、眾數(shù))、前/后值填充(一般使用在前后數(shù)據存在關聯(lián),比如數(shù)據是按照時間進行記錄的)、零值填充。(3)在數(shù)據清洗之前,最為重要的對數(shù)據表的查看,要了解表的結構和發(fā)現(xiàn)需要處理的值,這樣才能將數(shù)據清洗徹底。5.2.2數(shù)據清洗的注意事項(4)數(shù)據量的大小也關系著數(shù)據的處理方式。如果總數(shù)據量較大,而異常的數(shù)據(包括缺失值和異常值)的量較少時,可以選擇直接刪除處理,因為這并不太會影響到最終的分析結果;但是,如果總數(shù)據量較小,則每個數(shù)據都可能影響分析的結果,這個時候就需要認真去對數(shù)據進行處理(可能需要通過其他的關聯(lián)表去找到相關數(shù)據進行填充)。(5)在導入數(shù)據表后,一般需要將所有列一個個地進行清洗,來保證數(shù)據處理的徹底性,有些數(shù)據可能看起來是正??梢允褂玫?,實際上在進行處理時可能會出現(xiàn)問題(比如某列數(shù)據在查看時看起來是數(shù)值類型,但是其實這列數(shù)據的類型卻是字符串,這就會導致在進行數(shù)值操作時無法使用)。5.3數(shù)據轉換5.3.1數(shù)據轉換策略5.3.2平滑處理5.3.3規(guī)范化處理5.3.1數(shù)據轉換策略常見的數(shù)據轉換策略包括:(1)平滑處理。幫助除去數(shù)據中的噪聲,常用的方法包括分箱、回歸和聚類等。(2)聚集處理。對數(shù)據進行匯總操作。例如,每天的數(shù)據經過匯總操作可以獲得每月或每年的總額。這一操作常用于構造數(shù)據立方體或對數(shù)據進行多粒度的分析。(3)數(shù)據泛化處理。用更抽象(更高層次)的概念來取代低層次的數(shù)據對象。例如,街道屬性可以泛化到更高層次的概念,如城市、國家,再比如年齡屬性可以映射到更高層次的概念,如年輕、中年和老年。(4)規(guī)范化處理。將屬性值按比例縮放,使之落入一個特定的區(qū)間,比如0.0~1.0。常用的數(shù)據規(guī)范化方法包括Min-Max規(guī)范化、Z-Score規(guī)范化和小數(shù)定標規(guī)范化等。(5)屬性構造處理。根據已有屬性集構造新的屬性,后續(xù)數(shù)據處理直接使用新增的屬性。例如,根據已知的質量和體積屬性,計算出新的屬性——密度。5.3.2平滑處理1.分箱分箱(Bin)方法通過利用被平滑數(shù)據點的周圍點(近鄰),對一組排序數(shù)據進行平滑,排序后的數(shù)據被分配到若干箱子(稱為Bin)中。如圖5所示,對箱子的劃分方法一般有兩種,一種是等高方法,即每個箱子中元素的個數(shù)相等,另一種是等寬方法,即每個箱子的取值間距(左右邊界之差)相同。5.3.2平滑處理1.分箱這里給出一個實例介紹分箱方法。假設有一個數(shù)據集X={4,8,15,21,21,24,25,28,34},這里采用基于平均值的等高分箱方法對其進行平滑處理,則分箱處理的步驟如下:(1)把原始數(shù)據集X放入以下三個箱子:
箱子1:4,8,15
箱子2:21,21,24
箱子3:25,28,34(2)分別計算得到每個箱子的平均值:箱子1的平均值:9
箱子2的平均值:22
箱子3的平均值:29(3)用每個箱子的平均值替換該箱子內的所有元素:
箱子1:9,9,9
箱子2:22,22,22
箱子3:29,29,29(4)合并各個箱子中的元素得到新的數(shù)據集{9,9,9,22,22,22,29,29,29}。5.3.2平滑處理此外,還可以采用基于箱子邊界的等高分箱方法對數(shù)據進行平滑處理。利用邊界進行平滑時,對于給定的箱子,其最大值與最小值就構成了該箱子的邊界,利用每個箱子的邊界值(最大值或最小值)可替換該箱子中的所有值。這時的分箱結果如下:箱子1:4,4,15箱子2:21,21,24箱子3:25,25,34
合并各個箱子中的元素得到新的數(shù)據集{4,4,15,21,21,24,25,25,34}。1.分箱5.3.2平滑處理2.回歸可以利用擬合函數(shù)對數(shù)據進行平滑。例如,借助線性回歸方法(包括多變量回歸方法),就可以獲得多個變量之間的擬合關系,從而達到利用一個(或一組)變量值來預測另一個變量取值的目的。如圖所示,利用回歸分析方法所獲得的擬合函數(shù),能夠幫助平滑數(shù)據并除去其中的噪聲。圖
對數(shù)據進行線性回歸擬合5.3.2平滑處理3.聚類通過聚類分析方法可幫助發(fā)現(xiàn)異常數(shù)據。如圖所示,相似或相鄰近的數(shù)據聚合在一起形成了各個聚類集合,而那些位于這些聚類集合之外的數(shù)據對象,則被認為是異常數(shù)據。圖
基于聚類分析方法的異常數(shù)據監(jiān)測5.3.3規(guī)范化處理1.Min-Max規(guī)范化Min-Max規(guī)范化方法對被轉換數(shù)據進行一種線性轉換,其轉換公式如下:x=(待轉換屬性值?屬性最小值)/(屬性最大值?屬性最小值)例如,假設屬性的最大值和最小值分別是87000元和11000元,現(xiàn)在需要利用Min-Max規(guī)范化方法,將“顧客收入”屬性的值映射到0~1的范圍內,則“顧客收入”屬性的值為72400元時,對應的轉換結果如下:(72400?11000)/(87000?11000)=0.808Min-Max規(guī)范化比較簡單,但是也存在一些缺陷,當有新的數(shù)據加入時,可能導致最大值和最小值的變化,需要重新定義屬性最大值和最小值。5.3.3規(guī)范化處理2.Z-Score規(guī)范化Z-Score規(guī)范化的主要目的就是將不同量級的數(shù)據統(tǒng)一轉化為同一個量級,統(tǒng)一用計算出的Z-Score值衡量,以保證數(shù)據之間的可比性。其轉換公式如下:z=(待轉換屬性值?屬性平均值)/屬性標準差
假設我們要比較學生A與學生B的考試成績,A的考卷滿分是100分(及格60分),B的考卷滿分是700分(及格420分)。很顯然,A考出的70分與B考出的70分代表著完全不同的意義。但是從數(shù)值來講,A與B在數(shù)據表中都是用數(shù)字70代表各自的成績。那么如何能夠用一個同等的標準來比較A與B的成績呢?Z-Score就可以解決這一問題。
假設A班級的平均分是80,標準差是10,A考了90分;B班的平均分是400,標準差是100,B考了600分。通過上面的公式,我們可以計算得出,A的Z-Score是1(即(90-80)/10),B的Z-Socre是2(即(600-400)/100),因此,B的成績更為優(yōu)異。若A考了60分,B考了300分,則A的Z-Score是-2,B的Z-Score是-1,這時,A的成績比較差。5.3.3規(guī)范化處理Z-Score的優(yōu)點是不需要知道數(shù)據集的最大值和最小值,對離群點規(guī)范化效果好。此外,Z-Score能夠應用于數(shù)值型的數(shù)據,并且不受數(shù)據量級的影響,因為它本身的作用就是消除量級給分析帶來的不便。但是Z-Score也有一些缺陷。首先,Z-Score對于數(shù)據的分布有一定的要求,正態(tài)分布是最有利于Z-Score計算的。其次,Z-Score消除了數(shù)據具有的實際意義,A的Z-Score與B的Z-Score與他們各自的分數(shù)不再有關系,因此,Z-Score的結果只能用于比較數(shù)據間的結果,數(shù)據的真實意義還需要還原原值。2.Z-Score規(guī)范化5.3.3規(guī)范化處理3.小數(shù)定標規(guī)范化小數(shù)定標規(guī)范化方法通過移動屬性值的小數(shù)位置來達到規(guī)范化的目的。所移動的小數(shù)位數(shù)取決于屬性絕對值的最大值。其轉換公式為:x=待轉換屬性值/(10的k次方)其中,k為能夠使該屬性絕對值的最大值的轉換結果小于1的最小值。比如,假設屬性的取值范圍是-957~924,則該屬性絕對值的最大值為957,很顯然,這時k=3。當屬性的值為426時,對應的轉換結果如下:426/10的3次方=0.426小數(shù)定標法的優(yōu)點是直觀簡單,缺點是并沒有消除屬性間的權重差異。5.4數(shù)據脫敏5.4.1數(shù)據脫敏原則5.4.2數(shù)據脫敏方法5.4.1數(shù)據脫敏原則數(shù)據脫敏不僅要執(zhí)行“數(shù)據漂白”,抹去數(shù)據中的敏感內容,同時也需要保持原有的數(shù)據特征、業(yè)務規(guī)則和數(shù)據關聯(lián)性,保證開發(fā)、測試以及大數(shù)據類業(yè)務不會受到脫敏的影響,達成脫敏前后的數(shù)據一致性和有效性,具體如下:(1)保持原有數(shù)據特征。數(shù)據脫敏前后必須保證數(shù)據特征的保持,例如:身份證號碼由十七位數(shù)字本體碼和一位校驗碼組成,分別為區(qū)域地址碼(6位)、出生日期(8位)、順序碼(3位)和校驗碼(1位)。那么身份證號碼的脫敏規(guī)則就需要保證脫敏后依舊保持這些特征信息。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 萌芽課題申報書模板
- 2025年銀行從業(yè)資格證考試指南與試題答案
- 黑龍江伊春市本年度(2025)小學一年級數(shù)學統(tǒng)編版專題練習(上學期)試卷及答案
- 2025年股市波動的因素考題及答案
- 2025年特許金融分析師考試形勢分析試題及答案
- 整體規(guī)劃2025年證券從業(yè)考試試題及答案
- 2025年特許金融分析師考試利用經驗有效備考試題及答案
- 微生物檢驗案例集錦試題及答案探討
- 注冊會計師考試相關法律與道德的教學方法探討試題及答案
- 2025年注冊會計師考試有效復習試題及答案
- 衛(wèi)星網絡管理與運維-深度研究
- 《某小區(qū)深基坑支護設計》8100字(論文)
- 意識哲學研究前沿-洞察分析
- (八省聯(lián)考)四川省2025年高考綜合改革適應性演練 化學試卷
- 2025年行政執(zhí)法人員執(zhí)法資格考試必考題庫及答案(共232題)
- 2025版高考生物二輪復習課件 第一部分 專題四 爭分點突破1 遺傳的基本規(guī)律
- 注冊計量師(一級)練習題庫與答案
- DB32T 2947-2016 長江水下平順拋石護岸施工規(guī)范
- 國開(四川)2024年秋《地域文化》形考任務1-2答案終結性考核答案
- 私人放貸合同模板
- 礦采量子技術突破
評論
0/150
提交評論