人工智能技術(shù) 課件 5人工智能與大數(shù)據(jù)、6數(shù)據(jù)采集集成與預(yù)處理技術(shù)_第1頁
人工智能技術(shù) 課件 5人工智能與大數(shù)據(jù)、6數(shù)據(jù)采集集成與預(yù)處理技術(shù)_第2頁
人工智能技術(shù) 課件 5人工智能與大數(shù)據(jù)、6數(shù)據(jù)采集集成與預(yù)處理技術(shù)_第3頁
人工智能技術(shù) 課件 5人工智能與大數(shù)據(jù)、6數(shù)據(jù)采集集成與預(yù)處理技術(shù)_第4頁
人工智能技術(shù) 課件 5人工智能與大數(shù)據(jù)、6數(shù)據(jù)采集集成與預(yù)處理技術(shù)_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大與能智工人數(shù)據(jù)目錄/Contents010203解析大數(shù)據(jù)人工智能與大數(shù)據(jù)走進(jìn)人工智能01解析大數(shù)據(jù)大數(shù)據(jù)定義一、解析大數(shù)據(jù)大數(shù)據(jù),或稱海量數(shù)據(jù),是指所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理的時(shí)間內(nèi)達(dá)到截取、管理,處理成為人類能解讀的信息大數(shù)據(jù)主要特征容量大(Volume)4321種類多(Variety)速度快(Velocity)價(jià)值密度地(Value)一、解析大數(shù)據(jù)大數(shù)據(jù)的結(jié)構(gòu)321結(jié)構(gòu)化非結(jié)構(gòu)化半結(jié)構(gòu)化一、解析大數(shù)據(jù)大數(shù)據(jù)帶來的變革123更多更好更雜一、解析大數(shù)據(jù)一、解析大數(shù)據(jù)一、解析大數(shù)據(jù)一、解析大數(shù)據(jù)一、解析大數(shù)據(jù)一、解析大數(shù)據(jù)一、解析大數(shù)據(jù)一、解析大數(shù)據(jù)一、解析大數(shù)據(jù)一、解析大數(shù)據(jù)02走進(jìn)人工智能二、走進(jìn)人工智能人工智能可以分為兩個(gè)部分理解,“人工”與“智能”人工,一般認(rèn)為是人力所能及的事情,由人去完成的活動(dòng)。智能,通俗講人類的智慧和能力人工智能的特征二、走進(jìn)人工智能人工智能三要素0102算法以人腦的心理模型為基礎(chǔ),將問題或知識表示成某種邏輯網(wǎng)絡(luò),采用符號推演的方法,來實(shí)現(xiàn)搜索、推理和學(xué)習(xí),模擬人腦的思維。數(shù)據(jù)機(jī)器從海量數(shù)據(jù)庫里自行歸納物體特征,然后按照該特征規(guī)律識別物體算力芯片+超級計(jì)算機(jī)+云計(jì)算,GPU運(yùn)算速度03二、走進(jìn)人工智能二、走進(jìn)人工智能人工智能的機(jī)遇與挑戰(zhàn)二、走進(jìn)人工智能人工智能的機(jī)遇與挑戰(zhàn)1、人才挑戰(zhàn)。2、技術(shù)挑戰(zhàn)。3、法律、安全倫理挑戰(zhàn)03人工智能與大數(shù)據(jù)云計(jì)算與人工智能1、大數(shù)據(jù)本質(zhì)上從屬于云計(jì)算,是云計(jì)算的應(yīng)用表現(xiàn),云計(jì)算為大數(shù)據(jù)提供了保障。2、云計(jì)算、大數(shù)據(jù)和人工智能之間是相互相成的,是相互輔佐的關(guān)系。三、人工智能與大數(shù)據(jù)大數(shù)據(jù)與云計(jì)算的發(fā)展和成熟推進(jìn)了AI的快速。人工智能的核心不僅僅是算法,更是學(xué)習(xí)。人工智能的發(fā)展,少不了大數(shù)據(jù)和云計(jì)算的支撐,如果將人工智能比喻成學(xué)業(yè)有成的學(xué)子,那云計(jì)算就是人的大腦和智力,大數(shù)據(jù)就好比知識庫,學(xué)子必須有大腦和智力基礎(chǔ),不斷吸收大量的知識(大數(shù)據(jù)),最終實(shí)現(xiàn)有價(jià)值的有用之才(人工智能)。人工智能作為一個(gè)交叉學(xué)科始于20世紀(jì)50年代,涉及各種學(xué)科知識,如計(jì)算機(jī),模式識別,還有復(fù)雜的腦科學(xué),認(rèn)知科學(xué)乃至哲學(xué)等諸多領(lǐng)域,但是它自誕生后一直處于緩慢發(fā)展的狀態(tài),直至云計(jì)算和大數(shù)據(jù)的出現(xiàn)才有了質(zhì)的飛躍。三、人工智能與大數(shù)據(jù)三、人工智能與大數(shù)據(jù)人工智能的研究領(lǐng)域。機(jī)器學(xué)習(xí),機(jī)器視覺、模式識別,自然語言處理,機(jī)器思維等等。三、人工智能與大數(shù)據(jù)人類學(xué)習(xí)過程(案例:瑞雪兆豐年解釋人類學(xué)習(xí)過程)三、人工智能與大數(shù)據(jù)機(jī)器學(xué)習(xí)意味著從數(shù)據(jù)或以往經(jīng)驗(yàn)中(知識庫),自動(dòng)分析獲得規(guī)律(建模),并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測(目的解決問題)1.從各種數(shù)據(jù)規(guī)律中學(xué)習(xí)。比如,給定一組數(shù)據(jù),1,2,4,8,16……人們根據(jù)觀察和推理,總結(jié)出數(shù)據(jù)變化規(guī)律,知道和推理出后面的數(shù)據(jù)應(yīng)該是32,64等,并歸納出計(jì)算公式為2*n。2.在行動(dòng)中學(xué)習(xí)。在日常生活中,人們也經(jīng)常根據(jù)行為(習(xí)慣)去總結(jié)或獲得一定的知識,比如瑞雪兆豐年,是勞動(dòng)人民通過歷年觀察和總結(jié),得出的經(jīng)驗(yàn)和結(jié)論。三、人工智能與大數(shù)據(jù)通常指學(xué)習(xí)系統(tǒng)進(jìn)行學(xué)習(xí)時(shí)所必須的外界的信息來源學(xué)習(xí)系統(tǒng)是機(jī)器學(xué)習(xí)的核心,從外界環(huán)境獲得信息,不斷優(yōu)化模型,積累知識。1、學(xué)習(xí)到的知識積累到知識庫2、對輸入信息進(jìn)行區(qū)分學(xué)習(xí),知識結(jié)論的判斷。4、執(zhí)行系統(tǒng)根據(jù)學(xué)習(xí)系統(tǒng)信息,結(jié)合知識庫,預(yù)測和判斷新的未知數(shù)據(jù)(信息),得出結(jié)論,同時(shí)也會(huì)將執(zhí)行過程中獲得的額外信息反饋給學(xué)習(xí)系統(tǒng)。類似于人類的經(jīng)驗(yàn)和總結(jié),可以不斷積累,是已經(jīng)獲得的知識和規(guī)則的集合。一、人工智能與大數(shù)據(jù)三、人工智能與大數(shù)據(jù)三、人工智能與大數(shù)據(jù)人工智能對人類的影響1.就業(yè)結(jié)構(gòu)的影響2.思維方式與觀念的改變3.技術(shù)失控?4.………聽聆謝謝成集集采據(jù)數(shù)與預(yù)處理技術(shù)目錄/Contents010203數(shù)據(jù)采集的對象及方法數(shù)據(jù)集成的技術(shù)方法數(shù)據(jù)預(yù)處理技術(shù)與方法01數(shù)據(jù)采集的對象數(shù)據(jù)采集的對象1.時(shí)序數(shù)據(jù)隨著計(jì)算機(jī)技術(shù)和大容量存儲(chǔ)技術(shù)的發(fā)展以及多種數(shù)據(jù)獲取技術(shù)的廣泛應(yīng)用,人們在日常事務(wù)處理和科學(xué)研究中積累了大量數(shù)據(jù)。被保存的數(shù)據(jù)絕大部分都是呈現(xiàn)時(shí)間序列類型的數(shù)據(jù)。所謂時(shí)間序列類型數(shù)據(jù)就是按照時(shí)間先后順序排列各個(gè)觀測記錄的數(shù)據(jù)集。重慶電子工程職業(yè)學(xué)院時(shí)間序列數(shù)據(jù)在社會(huì)生活的各個(gè)領(lǐng)域都廣泛的存在,如金融證券市場中每天的股票價(jià)格變化;商業(yè)零售行業(yè)中某項(xiàng)商品每天的銷售額;氣象預(yù)報(bào)研究中某一地區(qū)的每天氣溫與氣壓的讀數(shù);以及在生物醫(yī)學(xué)中某一癥狀病人在每個(gè)時(shí)刻的心跳變化等等。不僅如此,時(shí)間序列也是反映事物運(yùn)動(dòng)、發(fā)展、變化的一種最常見的圖形化描述方式。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的對象2.Web數(shù)據(jù)Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨(dú)特之處:Web挖掘的對象是大量異質(zhì)分布的Web文檔。Web在邏輯上是一個(gè)由文檔節(jié)點(diǎn)和超鏈接構(gòu)成的圖,因此Web挖掘所得到的模式可能是關(guān)于Web內(nèi)容的,也可能是關(guān)于Web結(jié)構(gòu)的。由于Web文檔本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的且缺乏機(jī)器可理解的語義,而傳統(tǒng)數(shù)據(jù)挖掘的對象局限于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)并利用關(guān)系表格等存儲(chǔ)結(jié)構(gòu)來發(fā)現(xiàn)知識,因此有些數(shù)據(jù)挖掘技術(shù)并不適用于Web挖掘。即使可用也需要建立在對Web文檔進(jìn)行預(yù)處理的基礎(chǔ)之上。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的對象Web挖掘可分為三類:Web內(nèi)容挖掘:是從文檔內(nèi)容或其描述中抽取知識的過程。Web結(jié)構(gòu)挖掘:是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識的過程。用戶訪問模式挖掘。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的對象3.多媒體數(shù)據(jù)多媒體數(shù)據(jù)挖掘(MultimediaDataMining,MDM)是目前國際上數(shù)據(jù)庫、多媒體技術(shù)和信息決策領(lǐng)域最前沿的研究方向之一,是數(shù)據(jù)挖掘的一個(gè)新興且富有挑戰(zhàn)性的領(lǐng)域。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的對象多媒體數(shù)據(jù)挖掘系統(tǒng)的原型結(jié)構(gòu)如下圖所示重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的對象多媒體數(shù)據(jù)挖掘系統(tǒng)的三個(gè)主要階段:數(shù)據(jù)準(zhǔn)備多媒體數(shù)據(jù)知識挖掘知識表示與解釋重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的對象4.空間數(shù)據(jù)空間數(shù)據(jù)挖掘(SpatialDataMining,SDM)是指從空間數(shù)據(jù)庫中提取出用戶感興趣的空間模式與特征、空間與非空間數(shù)據(jù)的普遍關(guān)系及其他的一些隱含在數(shù)據(jù)庫中的普遍的數(shù)據(jù)特征。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的對象從空間數(shù)據(jù)庫中能夠挖掘到的知識類型主要有如下幾種:一般幾何知識空間分布規(guī)律空間關(guān)聯(lián)規(guī)則空間分類(聚類)規(guī)則空間特征規(guī)則空間區(qū)分規(guī)則空間演變規(guī)則面向?qū)ο蟮闹R重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的對象數(shù)據(jù)采集簡介1數(shù)據(jù)采集

大數(shù)據(jù)的數(shù)據(jù)采集是在確定用戶目標(biāo)的基礎(chǔ)上,針對該范圍內(nèi)所有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)的采集。

傳統(tǒng)的數(shù)據(jù)采集大數(shù)據(jù)的數(shù)據(jù)采集數(shù)據(jù)來源

來源單一,數(shù)據(jù)量相對大數(shù)據(jù)較小來源廣泛,數(shù)據(jù)量巨大數(shù)據(jù)類型結(jié)構(gòu)單一

數(shù)據(jù)類型豐富,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫分布式數(shù)據(jù)庫重慶電子工程職業(yè)學(xué)院按照數(shù)據(jù)來源劃分,大數(shù)據(jù)的三大主要來源為:商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)與物聯(lián)網(wǎng)數(shù)據(jù)。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的數(shù)據(jù)來源1.商業(yè)數(shù)據(jù)商業(yè)數(shù)據(jù)是指來自于企業(yè)ERP系統(tǒng)、各種POS終端及網(wǎng)上支付系統(tǒng)等業(yè)務(wù)系統(tǒng)的數(shù)據(jù),是現(xiàn)在最主要的數(shù)據(jù)來源渠道。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的數(shù)據(jù)來源2.互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)是指網(wǎng)絡(luò)空間交互過程中產(chǎn)生的大量數(shù)據(jù),包括通信記錄及QQ、微信、微博等社交媒體產(chǎn)生的數(shù)據(jù),其數(shù)據(jù)復(fù)雜且難以被利用?;ヂ?lián)網(wǎng)數(shù)據(jù)具有的特點(diǎn):大量化多樣化快速化重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的數(shù)據(jù)來源3.物聯(lián)網(wǎng)數(shù)據(jù)物聯(lián)網(wǎng)是指在計(jì)算機(jī)互聯(lián)網(wǎng)的基礎(chǔ)上,利用射頻識別、傳感器、紅外感應(yīng)器、無線數(shù)據(jù)通信等技術(shù),構(gòu)造一個(gè)覆蓋世界上萬事萬物的“TheInternetofThings”,也就是“實(shí)現(xiàn)物物相連的互聯(lián)網(wǎng)絡(luò)”。其內(nèi)涵包含:物聯(lián)網(wǎng)的核心和基礎(chǔ)仍是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎(chǔ)之上延伸和擴(kuò)展的一種網(wǎng)絡(luò)。用戶端延伸和擴(kuò)展到了任何物品與物品之間,進(jìn)行信息交換和通信。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的數(shù)據(jù)來源物聯(lián)網(wǎng)數(shù)據(jù)的特點(diǎn)主要包括:物聯(lián)網(wǎng)中的數(shù)據(jù)量更大物聯(lián)網(wǎng)中的數(shù)據(jù)傳輸速率更高物聯(lián)網(wǎng)中的數(shù)據(jù)更加多樣化物聯(lián)網(wǎng)對數(shù)據(jù)真實(shí)性的要求更高重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的數(shù)據(jù)來源1.系統(tǒng)日志采集方法很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如:Hadoop的ChukwaCloudera的FlumeFacebook的Scribe重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的技術(shù)方法2.對非結(jié)構(gòu)化數(shù)據(jù)的采集非結(jié)構(gòu)化數(shù)據(jù)的采集就是針對所有非結(jié)構(gòu)化的數(shù)據(jù)的采集,包括企業(yè)內(nèi)部數(shù)據(jù)的采集和網(wǎng)絡(luò)數(shù)據(jù)采集等。企業(yè)內(nèi)部數(shù)據(jù)的采集是對企業(yè)內(nèi)部各種文檔、視頻、音頻、郵件、圖片等數(shù)據(jù)格式之間互不兼容的數(shù)據(jù)采集。網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取互聯(lián)網(wǎng)中相關(guān)網(wǎng)頁內(nèi)容的過程,并從中抽取出用戶所需要的屬性內(nèi)容。網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的技術(shù)方法3.其他數(shù)據(jù)采集方法對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)采集的技術(shù)方法數(shù)據(jù)采集及預(yù)處理的主要工具

1.FlumeFlume是Cloudera提供的一個(gè)高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。官網(wǎng):/重慶電子工程職業(yè)學(xué)院2.LogstashLogstash是一個(gè)應(yīng)用程序日志、事件的傳輸、處理、管理和搜索的平臺(tái)??梢杂盟鼇斫y(tǒng)一對應(yīng)用程序日志進(jìn)行收集管理,提供Web接口用于查詢和統(tǒng)計(jì)。官網(wǎng):/重慶電子工程職業(yè)學(xué)院3.KibanaKibana是一個(gè)為Logstash和ElasticSearch提供的日志分析的Web接口??墒褂盟鼘θ罩具M(jìn)行高效的搜索、可視化、分析等各種操作。主頁:/重慶電子工程職業(yè)學(xué)院4.CeilometerCeilometer主要負(fù)責(zé)監(jiān)控?cái)?shù)據(jù)的采集,是OpenStack中的一個(gè)子項(xiàng)目,它像一個(gè)漏斗一樣,能把OpenStack內(nèi)部發(fā)生的幾乎所有的事件都收集起來,然后為計(jì)費(fèi)和監(jiān)控以及其它服務(wù)提供數(shù)據(jù)支撐。官方網(wǎng)站:/重慶電子工程職業(yè)學(xué)院5.樂思網(wǎng)絡(luò)信息采集系統(tǒng)

主要目標(biāo)就是解決網(wǎng)絡(luò)信息采集和網(wǎng)絡(luò)數(shù)據(jù)抓取問題。官方網(wǎng)站:/index.html重慶電子工程職業(yè)學(xué)院6.火車采集器通過靈活的配置,可以很輕松迅速地從網(wǎng)頁上抓取結(jié)構(gòu)化的文本、圖片、文件等資源信息,可編輯篩選處理后選擇發(fā)布到網(wǎng)站后臺(tái),各類文件或其他數(shù)據(jù)庫系統(tǒng)中。官方網(wǎng)站:/重慶電子工程職業(yè)學(xué)院7.網(wǎng)絡(luò)礦工(上機(jī)應(yīng)用)網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件是一款集互聯(lián)網(wǎng)數(shù)據(jù)采集、清洗、存儲(chǔ)、發(fā)布為一體的工具軟件。官方網(wǎng)站:/重慶電子工程職業(yè)學(xué)院02數(shù)據(jù)集成技術(shù)與方法

二、數(shù)據(jù)集成技術(shù)與方法數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)(如數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件)結(jié)合起來存放到一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉庫)中的一種技術(shù)和過程。重慶電子工程職業(yè)學(xué)院

數(shù)據(jù)集成技術(shù)與方法集成的信息系統(tǒng)要解決的問題,反映到數(shù)據(jù)及程序方面,具體要求為:數(shù)據(jù)能有多種方式被錄入,且易被獲?。粩?shù)據(jù)面向所有程序被使用、處理、存貯與更新;所有軟件可以被入網(wǎng)的個(gè)人計(jì)算機(jī)調(diào)用運(yùn)行并能協(xié)調(diào)工作;用戶與系統(tǒng)之間的交互界面直觀;數(shù)據(jù)集成機(jī)制貫穿于系統(tǒng),且這些機(jī)制實(shí)現(xiàn)盡可能是無縫的。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)集成技術(shù)與方法2.2.13G與MIS的集成模式2.2.2異構(gòu)數(shù)據(jù)集成的設(shè)計(jì)與實(shí)現(xiàn)重慶電子工程職業(yè)學(xué)院

3G與MIS的集成模式目前,越來越多的運(yùn)輸企業(yè)都看到了信息系統(tǒng)對提升管理效率和運(yùn)輸效率的作用,并建立了多種信息系統(tǒng),如GPS、GIS和管理信息系統(tǒng)(ManagementInformationSystem,MIS),但由于各類系統(tǒng)有各自的管理和運(yùn)行模式,其信息交換能力非常薄弱,更談不上與相關(guān)企業(yè)實(shí)現(xiàn)信息的共享,因此,交通運(yùn)輸業(yè)的發(fā)展越來越依賴于包括各種管理和基于網(wǎng)絡(luò)通訊在內(nèi)的一個(gè)可交換和共享的集成管理信息系統(tǒng)。重慶電子工程職業(yè)學(xué)院

3G與MIS的集成模式GPS/GIS與MIS的集成模式如下圖所示:重慶電子工程職業(yè)學(xué)院3G與MIS的集成模式GPS/GIS技術(shù)與MIS管理技術(shù)的集成主要體現(xiàn)在:實(shí)現(xiàn)了配送作業(yè)的可視化管理,對于配送調(diào)度決策具有重大意義;通信技術(shù)與運(yùn)輸管理技術(shù)的有效集成,實(shí)現(xiàn)了運(yùn)輸管理的動(dòng)態(tài)調(diào)度和指揮;GPS技術(shù)和GSM的集成技術(shù)與運(yùn)輸管理技術(shù)的有效集成,實(shí)現(xiàn)了移動(dòng)目標(biāo)的實(shí)時(shí)監(jiān)控。通過這種集成模式,系統(tǒng)實(shí)現(xiàn)了GPS/GIS監(jiān)控系統(tǒng)與MIS系統(tǒng)的嵌入式集成,使得系統(tǒng)非常容易進(jìn)行數(shù)據(jù)共享。重慶電子工程職業(yè)學(xué)院異構(gòu)數(shù)據(jù)集成的設(shè)計(jì)與實(shí)現(xiàn)通過一個(gè)實(shí)例,說明如何利用異構(gòu)數(shù)據(jù)整合平臺(tái)實(shí)現(xiàn)數(shù)據(jù)的集成與交換過程。重慶電子工程職業(yè)學(xué)院異構(gòu)數(shù)據(jù)集成的設(shè)計(jì)與實(shí)現(xiàn)首先,確定源數(shù)據(jù)和目標(biāo)數(shù)據(jù),下圖為數(shù)據(jù)整合初始界面。重慶電子工程職業(yè)學(xué)院異構(gòu)數(shù)據(jù)集成的設(shè)計(jì)與實(shí)現(xiàn)在“原屬性”和“目標(biāo)屬性”框中分別輸入源數(shù)據(jù)與目標(biāo)數(shù)據(jù)中要進(jìn)行替換或整合的字段名,如果確認(rèn)進(jìn)行無條件替換,可以選中“無條件替換”單選按鈕,然后點(diǎn)擊“替換”按鈕。替換過后,可以點(diǎn)擊“顯示目標(biāo)數(shù)據(jù)”按鈕,查看目標(biāo)數(shù)據(jù)。如果確認(rèn)進(jìn)行有條件替換,可以選中“有條件替換”單選按鈕,此時(shí)需要在“屬性值”框中填寫原屬性的屬性值,在“替換為”框中填寫目標(biāo)屬性值,然后點(diǎn)擊“替換”按鈕。替換完成后,可以點(diǎn)擊“顯示目標(biāo)數(shù)據(jù)”按鈕,查看目標(biāo)數(shù)據(jù)。采用同樣的方法,可以繼續(xù)對其他屬性進(jìn)行替換。重慶電子工程職業(yè)學(xué)院03數(shù)據(jù)預(yù)處理技術(shù)方法三、大數(shù)據(jù)預(yù)處理技術(shù)與方法大數(shù)據(jù)預(yù)處理流程如圖所示重慶電子工程職業(yè)學(xué)院大數(shù)據(jù)預(yù)處理技術(shù)與方法2.3.1數(shù)據(jù)清理的方法2.3.2數(shù)據(jù)集成融合的方法2.3.3數(shù)據(jù)變換的方法2.3.4數(shù)據(jù)歸約的方法重慶電子工程職業(yè)學(xué)院

大數(shù)據(jù)清理的方法1.數(shù)據(jù)清理是數(shù)據(jù)準(zhǔn)備過程中最花費(fèi)時(shí)間、最乏味的,但也是最重要的一步。初始獲得的數(shù)據(jù)主要有以下幾種情況需要處理:含噪聲數(shù)據(jù)錯(cuò)誤數(shù)據(jù)缺失數(shù)據(jù)冗余數(shù)據(jù)重慶電子工程職業(yè)學(xué)院數(shù)據(jù)清洗是在匯聚多個(gè)維度、多個(gè)來源、多種結(jié)構(gòu)的數(shù)據(jù)之后,對數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和集成加載。目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。

大數(shù)據(jù)清洗工具DataWrangler重慶電子工程職業(yè)學(xué)院數(shù)據(jù)融合的方法2.數(shù)據(jù)融合,即把數(shù)據(jù)融合的思想引入到數(shù)據(jù)預(yù)處理的過程中,加入數(shù)據(jù)的智能化合成,產(chǎn)生比單一信息源更準(zhǔn)確、更完全、更可靠的數(shù)據(jù)進(jìn)行估計(jì)和判斷,然后存入到數(shù)據(jù)倉庫或數(shù)據(jù)挖掘模塊中。常見的數(shù)據(jù)融合方法見下表數(shù)據(jù)融合方法分類具體方法靜態(tài)的融合方法貝葉斯估值,加權(quán)最小平方等動(dòng)態(tài)的融合方法遞歸加權(quán)最小平方,卡爾曼濾波、小波變換的分布式濾波基于統(tǒng)計(jì)的融合方法馬爾科夫隨機(jī)場、最大似然法、貝葉斯估值等信息論算法聚集分析、自適應(yīng)神經(jīng)網(wǎng)絡(luò)、表決邏輯、信息熵等模糊理論/灰色理論灰色關(guān)聯(lián)分析、灰色聚類等重慶電子工程職業(yè)學(xué)院數(shù)據(jù)集成是把不同來源、不同格式、不同特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。目前通常采用聯(lián)邦式、基于中間件模型和數(shù)據(jù)倉庫等方法來構(gòu)造集成的系統(tǒng)。大數(shù)據(jù)集成:狹義上講是指如何合并規(guī)整數(shù)據(jù);廣義上講數(shù)據(jù)的存儲(chǔ)、移動(dòng)、處理等與數(shù)據(jù)管理有關(guān)的活動(dòng)都稱為數(shù)據(jù)集成。

大數(shù)據(jù)集成一般需要將處理過程分布到源數(shù)據(jù)上進(jìn)行并行處理,并僅對結(jié)果進(jìn)行集成。重慶電子工程職業(yè)學(xué)院數(shù)據(jù)融合和集成

數(shù)據(jù)變換的方法3.數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合挖掘的形式。數(shù)據(jù)變換是采用線性或非線性的數(shù)學(xué)變換方法將多維數(shù)據(jù)壓縮成較少維數(shù)的數(shù)據(jù),消除它們在時(shí)間、空間、屬性及精度等特征表現(xiàn)方面的差異。常見數(shù)據(jù)變換方法見下表。常用的規(guī)范化方法有最小-最大規(guī)范化、Z-score規(guī)范化(零-均值規(guī)范化)、小數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論