大數(shù)據(jù)機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘云計(jì)算智能物流_第1頁(yè)
大數(shù)據(jù)機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘云計(jì)算智能物流_第2頁(yè)
大數(shù)據(jù)機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘云計(jì)算智能物流_第3頁(yè)
大數(shù)據(jù)機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘云計(jì)算智能物流_第4頁(yè)
大數(shù)據(jù)機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘云計(jì)算智能物流_第5頁(yè)
已閱讀5頁(yè),還剩85頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)討論會(huì)(機(jī)器學(xué)習(xí)、云計(jì)算、數(shù)據(jù)挖掘、智能物流)2017年3月31UESTCLingBao提綱第五部分大數(shù)據(jù)與智能物流第四部分?jǐn)?shù)據(jù)挖掘技術(shù)第三部分云計(jì)算及分布式計(jì)算平臺(tái)第二部分機(jī)器學(xué)習(xí)第一部分大數(shù)據(jù)UESTC大數(shù)據(jù)概述及其技術(shù)綜述2017年3月31UESTC第一部分大數(shù)據(jù)Contents問(wèn)題與挑戰(zhàn)大數(shù)據(jù)相關(guān)技術(shù)大數(shù)據(jù)體系架構(gòu)大數(shù)據(jù)產(chǎn)業(yè)分析大數(shù)據(jù)基本概念UESTC1大數(shù)據(jù)基本概念(1)大數(shù)據(jù)概念出現(xiàn)的原因大數(shù)據(jù)概念的出現(xiàn),是以信息技術(shù)的發(fā)展和應(yīng)用為主線的:數(shù)據(jù)規(guī)模和類(lèi)型的劇變;數(shù)據(jù)存儲(chǔ)成本下降;大規(guī)模數(shù)據(jù)處理成為可能;數(shù)據(jù)的采集更為密集和廣泛;分析應(yīng)用的發(fā)展。(2)大數(shù)據(jù)概念的描述麥肯錫:大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫(kù)軟件的采集、存儲(chǔ)、管理和分析等能力的數(shù)據(jù)集;維基百科:無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容太進(jìn)行抓取、管理和處理的大量而復(fù)雜的數(shù)據(jù)集合;Gartner:體量大、快速和多樣化的信息資產(chǎn),需用高效率和創(chuàng)新型的信息技術(shù)加以處理,以提高發(fā)現(xiàn)洞察、做出決策和優(yōu)化流程的能力;Forrester:大數(shù)據(jù)本質(zhì)是數(shù)據(jù)存儲(chǔ)、處理和訪問(wèn)的流程與業(yè)務(wù)目標(biāo)的集成。UESTC1大數(shù)據(jù)基本概念(3)大數(shù)據(jù)特征(4V)數(shù)據(jù)體量巨大(Volume)

大數(shù)據(jù)通常指10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。數(shù)據(jù)種類(lèi)繁多(Variety)

隨著傳感器種類(lèi)的增多以及智能設(shè)備、社交網(wǎng)絡(luò)等的流行,數(shù)據(jù)類(lèi)型也變得更加復(fù)雜,不僅包括傳統(tǒng)的關(guān)系數(shù)據(jù)類(lèi)型,也包括以網(wǎng)頁(yè)、視頻、音頻、e-mail、文檔等形式存在的未加工的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。流動(dòng)速度快(Velocity)

強(qiáng)調(diào)數(shù)據(jù)是快速動(dòng)態(tài)變化的,形成流式數(shù)據(jù)是大數(shù)據(jù)的重要特征,數(shù)據(jù)流動(dòng)的速度快到難以用傳統(tǒng)的系統(tǒng)去處理。價(jià)值密度低(Value)

數(shù)據(jù)量呈指數(shù)增長(zhǎng)的同時(shí),隱藏在海量數(shù)據(jù)的有用信息卻沒(méi)有相應(yīng)比例增長(zhǎng),反而使我們獲取有用信息的難度加大。UESTC大數(shù)據(jù)的分析將更加復(fù)雜、更追求速度、更注重實(shí)效2大數(shù)據(jù)產(chǎn)業(yè)分析(1)數(shù)據(jù)源之?dāng)?shù)據(jù)銀行數(shù)據(jù)銀行的本質(zhì)在于實(shí)現(xiàn)了數(shù)據(jù)資源的商品化、標(biāo)準(zhǔn)化、資產(chǎn)化,承載著數(shù)據(jù)資產(chǎn)形成、管理和交易的職責(zé)。因此,在數(shù)據(jù)價(jià)值實(shí)現(xiàn)和數(shù)據(jù)資產(chǎn)流通的過(guò)程中必須進(jìn)行數(shù)據(jù)清洗、格式化以及必要的應(yīng)用場(chǎng)景開(kāi)發(fā)等工作,并且以相應(yīng)的機(jī)制設(shè)計(jì)和技術(shù)實(shí)現(xiàn),聚合數(shù)據(jù)的供給和需求,確保數(shù)據(jù)資產(chǎn)接入、發(fā)布和訪問(wèn)通道的順暢。UESTC2大數(shù)據(jù)產(chǎn)業(yè)分析(2)數(shù)據(jù)源之眾包模式大數(shù)據(jù)時(shí)代,需要采集和加工海量的底層原始數(shù)據(jù),在成本可接受的范圍內(nèi),很多時(shí)候已無(wú)法基于現(xiàn)有采集設(shè)備來(lái)完成任務(wù),因此眾包模式在大數(shù)據(jù)產(chǎn)業(yè)中最重要的應(yīng)用場(chǎng)景就是數(shù)據(jù)的采集。同時(shí),海量數(shù)據(jù)的加工和標(biāo)注等任務(wù)所需的人力和時(shí)間太高,使得眾包模式在數(shù)據(jù)處理環(huán)節(jié)也具有較大的應(yīng)用空間。通過(guò)眾包模式也可以將需要高智力和技術(shù)水平的問(wèn)題外包給大眾,通過(guò)受眾面的擴(kuò)大來(lái)提高任務(wù)完成的效率。比如(

Kaggle),將原始數(shù)據(jù)公布于眾,讓公眾積極參與到對(duì)數(shù)據(jù)的分析挖掘和應(yīng)用創(chuàng)新活動(dòng)中,能夠有效推動(dòng)大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的發(fā)展。(3)基礎(chǔ)架構(gòu)基礎(chǔ)架構(gòu)區(qū)塊中的企業(yè)主要提供大數(shù)據(jù)存儲(chǔ)和管理的產(chǎn)品或服務(wù),為后續(xù)的分析和挖掘提供支持,包括各類(lèi)新興的NoSQL、NewSQL、MPP(sharednothing架構(gòu))和圖數(shù)據(jù)庫(kù),以及云服務(wù)、數(shù)據(jù)轉(zhuǎn)換工具、管理/監(jiān)控工具和存儲(chǔ)設(shè)備等。UESTC2大數(shù)據(jù)產(chǎn)業(yè)分析(4)跨平臺(tái)多為提供計(jì)算、存儲(chǔ)和分析平臺(tái)或服務(wù)的大型廠商,提供對(duì)大數(shù)據(jù)分析進(jìn)行支持的軟硬件一體化方案。(5)開(kāi)源由企業(yè)、高?;蚩蒲袡C(jī)構(gòu)所研發(fā)并開(kāi)源的大數(shù)據(jù)產(chǎn)品,是當(dāng)前大數(shù)據(jù)基礎(chǔ)技術(shù)發(fā)展的最大推動(dòng)力,通常集中在基礎(chǔ)性平臺(tái)和分析工具兩大類(lèi)。主要包括:Hadoop,Spark,MongoDB,Storm,Mahout,Solr。(6)分析除了存儲(chǔ),大數(shù)據(jù)管理的另一項(xiàng)大的挑戰(zhàn)是數(shù)據(jù)分析。數(shù)據(jù)分析大致分為數(shù)據(jù)挖掘(大數(shù)據(jù)分析的理論核心,用不同數(shù)據(jù)類(lèi)型和格式呈現(xiàn)出數(shù)據(jù)的各種特性,挖掘其中蘊(yùn)含的價(jià)值)、預(yù)測(cè)性分析、非結(jié)構(gòu)化分析(針對(duì)海量的音頻、圖像、視頻和文本數(shù)據(jù),結(jié)合人工智能技術(shù)抽取和提煉,使之能夠用于后續(xù)的分析挖掘)、可視化分析(直觀呈現(xiàn)數(shù)據(jù)統(tǒng)計(jì)分布特性、便于理解)。UESTC3大數(shù)據(jù)平臺(tái)與系統(tǒng)大數(shù)據(jù)平臺(tái)在邏輯上表現(xiàn)為一種層次架構(gòu),自上而下包括應(yīng)用層、門(mén)戶(hù)層、服務(wù)層、感知/接入層和資源層。而相關(guān)的標(biāo)準(zhǔn)、規(guī)范和安全機(jī)制貫穿所有層次。UESTC1應(yīng)用層(智能監(jiān)控、事態(tài)預(yù)測(cè)、統(tǒng)計(jì)分析、分析模擬、指揮決策等核心應(yīng)用)2門(mén)戶(hù)層(“云模式”和“云+端模式”)3服務(wù)層(業(yè)務(wù)服務(wù)層:采集、建模、管理、分析、挖掘和融合等;支撐服務(wù)層:物聯(lián)化中間件、虛擬化中間件、服務(wù)化中間件、資源調(diào)度中間件以及分布式存儲(chǔ)中間件(如Hadoop等)4感知/接入層(各類(lèi)感知設(shè)備獲取各類(lèi)大數(shù)據(jù)信息;無(wú)線傳感網(wǎng)絡(luò)、4G-LTE等多種途徑傳遞大數(shù)據(jù)信息)5資源層(提供包括存儲(chǔ)服務(wù)器、計(jì)算服務(wù)器等高性能硬件資源,結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)資源,以及平臺(tái)資源和模型/服務(wù)資源等軟件資源。)4大數(shù)據(jù)相關(guān)技術(shù)(1)深度學(xué)習(xí)大數(shù)據(jù)分析的一個(gè)核心問(wèn)題是如何對(duì)數(shù)據(jù)進(jìn)行有效表達(dá)、解釋和學(xué)習(xí),無(wú)論是對(duì)圖像、聲音還是文本數(shù)據(jù).傳統(tǒng)的研究也有很多數(shù)據(jù)表達(dá)的模型和方法,但通常都是較為簡(jiǎn)單或淺層的模型,模型的能力有限,而且依賴(lài)于數(shù)據(jù)的表達(dá),不能獲得很好的學(xué)習(xí)效果.大數(shù)據(jù)的出現(xiàn)提供了使用更加復(fù)雜的模型來(lái)更有效地表征數(shù)據(jù)、解釋數(shù)據(jù)的機(jī)會(huì).深度學(xué)習(xí)就是利用層次化的架構(gòu)學(xué)習(xí)出對(duì)象在不同層次上的表達(dá),這種層次化的表達(dá)可以幫助解決更加復(fù)雜抽象的問(wèn)題.(2)知識(shí)計(jì)算基于大數(shù)據(jù)的知識(shí)計(jì)算是大數(shù)據(jù)分析的基礎(chǔ).知識(shí)計(jì)算是國(guó)內(nèi)外工業(yè)界開(kāi)發(fā)和學(xué)術(shù)界研究的一個(gè)熱點(diǎn).要對(duì)數(shù)據(jù)進(jìn)行高端分析,就需要從大數(shù)據(jù)中先抽取出有價(jià)值的知識(shí),并把它構(gòu)建成可支持查詢(xún)、分析和計(jì)算的知識(shí)庫(kù)。UESTC4大數(shù)據(jù)相關(guān)技術(shù)(3)社會(huì)計(jì)算以Facebook、Twitter、新浪微博、微信等為代表的在線社交網(wǎng)絡(luò)和社會(huì)媒體正深刻改變著人們傳播信息和獲取信息的方式,人的互聯(lián)成為信息互聯(lián)的載體和信息傳播的媒介,社會(huì)媒體的強(qiáng)交互性、時(shí)效性等特點(diǎn)使其在信息的產(chǎn)生、消費(fèi)和傳播過(guò)程中發(fā)揮著越來(lái)越重要的作用,成為一類(lèi)重要信息載體.正因如此,大家關(guān)注的問(wèn)題包括了對(duì)在線社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)、信息傳播以及信息內(nèi)容的分析、建模與挖掘等一系列問(wèn)題.(2)可視化保證大數(shù)據(jù)查詢(xún)和分析的實(shí)用性、實(shí)效性以及可理解性對(duì)于人們能否及時(shí)獲得決策信息非常重要,決定著大數(shù)據(jù)應(yīng)用的成敗.大數(shù)據(jù)容量巨大,類(lèi)型多樣,數(shù)據(jù)分析工具面臨性能瓶頸,數(shù)據(jù)分析工具缺少簡(jiǎn)單易用.因此,數(shù)據(jù)可視化技術(shù)正逐步成為大數(shù)據(jù)時(shí)代的顯學(xué).UESTC5問(wèn)題與挑戰(zhàn)(1)數(shù)據(jù)復(fù)雜性帶來(lái)的挑戰(zhàn)大數(shù)據(jù)的涌現(xiàn)使人們處理計(jì)算問(wèn)題時(shí)獲得了前所未有的大規(guī)模樣本,但同時(shí)也不得不面對(duì)更加復(fù)雜的數(shù)據(jù)對(duì)象,如前所述,其典型的特性是類(lèi)型和模式多樣、關(guān)聯(lián)關(guān)系繁雜、質(zhì)量良莠不齊.大數(shù)據(jù)內(nèi)在的復(fù)雜性(包括類(lèi)型的復(fù)雜、結(jié)構(gòu)的復(fù)雜和模式的復(fù)雜)使得數(shù)據(jù)的感知、表達(dá)、理解和計(jì)算等多個(gè)環(huán)節(jié)面臨著巨大的挑戰(zhàn),導(dǎo)致了傳統(tǒng)全量數(shù)據(jù)計(jì)算模式下時(shí)空維度上計(jì)算復(fù)雜度的激增,傳統(tǒng)的數(shù)據(jù)分析與挖掘任務(wù)如檢索、主題發(fā)現(xiàn)、語(yǔ)義和情感分析等變得異常困難.(2)計(jì)算復(fù)雜性帶來(lái)的挑戰(zhàn)大數(shù)據(jù)多源異構(gòu)、規(guī)模巨大、快速多變等特性使得傳統(tǒng)的機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)挖掘等計(jì)算方法不能有效支持大數(shù)據(jù)的處理、分析和計(jì)算.

在求解大數(shù)據(jù)的問(wèn)題時(shí),需要重新審視和研究它的可計(jì)算性、計(jì)算復(fù)雜性和求解算法,而大數(shù)據(jù)樣本量充分,內(nèi)在關(guān)聯(lián)關(guān)系密切而復(fù)雜,價(jià)值密度分布極不均衡,這些特征對(duì)研究大數(shù)據(jù)的可計(jì)算性及建立新型計(jì)算范式提供了機(jī)遇,同時(shí)也提出了挑戰(zhàn).UESTC5問(wèn)題與挑戰(zhàn)(3)系統(tǒng)復(fù)雜性帶來(lái)的挑戰(zhàn)不同數(shù)據(jù)類(lèi)型與應(yīng)用的大數(shù)據(jù)處理系統(tǒng)是支持大數(shù)據(jù)科學(xué)研究的基礎(chǔ)平臺(tái).對(duì)于規(guī)模巨大、結(jié)構(gòu)復(fù)雜、價(jià)值稀疏的大數(shù)據(jù),其處理亦面臨計(jì)算復(fù)雜度高、任務(wù)周期長(zhǎng)、實(shí)時(shí)性要求強(qiáng)等難題.大數(shù)據(jù)及其處理的這些難點(diǎn)不僅對(duì)大數(shù)據(jù)處理系統(tǒng)的系統(tǒng)架構(gòu)、計(jì)算框架、處理方法提出了新的挑戰(zhàn),更對(duì)大數(shù)據(jù)處理系統(tǒng)的運(yùn)行效率及單位能耗提出了苛刻要求,要求大數(shù)據(jù)處理系統(tǒng)必須具有高效能的特點(diǎn).對(duì)于以高效能為目標(biāo)的大數(shù)據(jù)處理系統(tǒng)的系統(tǒng)架構(gòu)設(shè)計(jì)、計(jì)算框架設(shè)計(jì)、處理方法設(shè)計(jì)和測(cè)試基準(zhǔn)設(shè)計(jì)研究,其基礎(chǔ)是大數(shù)據(jù)處理系統(tǒng)的效能評(píng)價(jià)與優(yōu)化問(wèn)題研究.這些問(wèn)題的解決可奠定大數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)、實(shí)現(xiàn)、測(cè)試與優(yōu)化的基本準(zhǔn)則,是構(gòu)建能效優(yōu)化的分布式存儲(chǔ)和處理的硬件及軟件系統(tǒng)架構(gòu)的重要依據(jù)和基礎(chǔ),因此是大數(shù)據(jù)分析處理所必須解決的關(guān)鍵問(wèn)題.UESTC機(jī)器學(xué)習(xí)概覽及其算法綜述2017年3月30UESTC第二部分機(jī)器學(xué)習(xí)Contents機(jī)器學(xué)習(xí)——學(xué)習(xí)路線深度學(xué)習(xí)概述之深層網(wǎng)絡(luò)派生樹(shù)主要機(jī)器學(xué)習(xí)算法機(jī)器學(xué)習(xí)算法分類(lèi)研究現(xiàn)狀與發(fā)展前景UESTC1研究現(xiàn)狀與發(fā)展前景國(guó)內(nèi)研究現(xiàn)狀(主要表現(xiàn)在以下六方面)1、泛化能力研究

這里的泛化能力指機(jī)器識(shí)別的模式所具有的推廣能力,研究方法是集成學(xué)習(xí)和二次學(xué)習(xí)(提高可理解性)。代表人物是南京大學(xué)的周志華教授,他的研究成果有:選擇性集成算法、C4.5RulePANE、NeC4.5。

Z.-H.ZhouandY.Jiang.MedicaldiagnosiswithC4.5ruleprecededbyartificialNeuralnetworkensemble.IEEETransactionsonInformationTechnologyinBiomedicine,2003,vol.7,no.1,pp.37-42; Z.-H.ZhouandY.Jiang.NeC4.5:NeuralEnsembleBasedC4.5.IEEETransactionsonknowledgeanddataengineering,vol.16,no.6,JUNE2004.UESTC1研究現(xiàn)狀與發(fā)展前景2、監(jiān)督學(xué)習(xí)算法向多示例學(xué)習(xí)算法轉(zhuǎn)化的一般準(zhǔn)則研究

自1997年T.G.Dietterich等人提出多示例學(xué)習(xí)以來(lái),一直成為研究的熱點(diǎn)(如何為常用的機(jī)器學(xué)習(xí)算法設(shè)計(jì)多示例版本),具有非常廣泛的應(yīng)用,例如:圖像檢索、文本分類(lèi)等。

目前,很多常用算法都有了多示例版本,但其轉(zhuǎn)化過(guò)程均是針對(duì)具體算法進(jìn)行的,

缺乏普遍適用性。周志華等人提出了監(jiān)督學(xué)習(xí)算法向多示例學(xué)習(xí)算法轉(zhuǎn)化的一般準(zhǔn)則,還給出了基于集成學(xué)習(xí)的多示例問(wèn)題的求解方法。

《多示例學(xué)習(xí)》周志華百度文庫(kù)UESTCX=(X1,X2,..,Xn)X3X2X5X6X1X4X7X81研究現(xiàn)狀與發(fā)展前景3、機(jī)器學(xué)習(xí)技術(shù)在工作流模型(WFMS)設(shè)定中應(yīng)用的研究

獲取工作流模型是應(yīng)用中的一個(gè)瓶頸,大約需要花費(fèi)60%的開(kāi)發(fā)時(shí)間獲得對(duì)過(guò)程的認(rèn)識(shí),而且所獲取的模型都難以支持非預(yù)測(cè)或發(fā)展變化的情形。

據(jù)此,在WFMS中集成機(jī)器學(xué)習(xí)部件,通過(guò)處理人工設(shè)定的工作流實(shí)例提取工作流模型,進(jìn)一步獲取工作流的自適應(yīng)性具有重要意義。

孟祥山,羅宇.“機(jī)器學(xué)習(xí)”在工作流模型設(shè)定中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2006(1):45–47;

UESTC1研究現(xiàn)狀與發(fā)展前景4、機(jī)器學(xué)習(xí)技術(shù)在數(shù)據(jù)挖掘中的商業(yè)應(yīng)用研究

數(shù)據(jù)挖掘是20世紀(jì)80年代投資人工智能研究項(xiàng)目失敗后,人工智能轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的,它是一個(gè)新興的、面向商業(yè)應(yīng)用的交叉學(xué)科。數(shù)據(jù)挖掘的主要方法為統(tǒng)計(jì)學(xué)方法和機(jī)器學(xué)習(xí)方法。

黃林軍,張勇,郭冰榕.機(jī)器學(xué)習(xí)技術(shù)在數(shù)據(jù)挖掘中的商業(yè)應(yīng)用[J].中山大學(xué)學(xué)報(bào):自然科學(xué)版,2005(6):145-148.UESTC1研究現(xiàn)狀與發(fā)展前景5、基于機(jī)器學(xué)習(xí)的入侵檢測(cè)技術(shù)研究

傳統(tǒng)的入侵檢測(cè)系統(tǒng)IDS存在大量的問(wèn)題:對(duì)未知網(wǎng)絡(luò)攻擊的檢測(cè)能力差,誤報(bào)率高,占用資源多;將機(jī)器學(xué)習(xí)方法引入到IDS

中來(lái)并采用先進(jìn)的分布式體系結(jié)構(gòu),已成為IDS

的重要發(fā)展方向。

張義榮,肖順平,鮮明,等.基于機(jī)器學(xué)習(xí)的入侵檢測(cè)技術(shù)概述[J].計(jì)算機(jī)工程與應(yīng)用,2006(2):7-10.UESTC1研究現(xiàn)狀與發(fā)展前景6、人工智能原理在人類(lèi)學(xué)習(xí)中的應(yīng)用研究

人工智能理論研究表明,

可以將人看成一個(gè)智能信息處理系統(tǒng),并且人的認(rèn)知活動(dòng)具有不同層次,它可以與計(jì)算機(jī)的層次相比較。認(rèn)知活動(dòng)的最高層次是思維策略,中間一層是初級(jí)信息處理,最底層是生理過(guò)程,即中樞神經(jīng)系統(tǒng)、神經(jīng)元和大腦的活動(dòng);與此相對(duì)應(yīng)的是計(jì)算機(jī)的程序、語(yǔ)言和硬件。研究認(rèn)知過(guò)程的主要任務(wù)是探求高層思維決策與初級(jí)信息處理的關(guān)系,應(yīng)用計(jì)算機(jī)程序模擬人的思維策略水平,用計(jì)算機(jī)語(yǔ)言模擬人的初級(jí)信息處理過(guò)程。

張震,王文發(fā).人工智能原理在人類(lèi)學(xué)習(xí)中的應(yīng)用[J].吉首大學(xué)學(xué)報(bào):自然科學(xué)版,2006(1):39-42.UESTC1研究現(xiàn)狀與發(fā)展前景國(guó)外研究現(xiàn)狀(主要表現(xiàn)在以下五方面)1、搜索引擎

Google

的成功,使得Internet

搜索引擎成為新興產(chǎn)業(yè)。

除了現(xiàn)有的眾多專(zhuān)營(yíng)搜索引擎的公司(如專(zhuān)門(mén)針對(duì)中文搜索的百度等),Microsoft

等巨頭也開(kāi)始投入巨資進(jìn)行搜索引擎的研發(fā)。Google

掘到的第一桶金,來(lái)源于其創(chuàng)始人

LarryPage

和SergeyBrin提出的

PageRank

算法。機(jī)器學(xué)習(xí)技術(shù)正在支撐著各類(lèi)搜索引擎。

SergeyBrin,LawrencePage.TheAnatomyofaSearchEngineUESTC1研究現(xiàn)狀與發(fā)展前景UESTC1研究現(xiàn)狀與發(fā)展前景3、汽車(chē)自動(dòng)駕駛

當(dāng)汽車(chē)在路況復(fù)雜的道路上行駛時(shí),由計(jì)算機(jī)控制車(chē)輛自動(dòng)行駛可以大大減少交通事故的發(fā)生。機(jī)器學(xué)習(xí)算法的核心是決定車(chē)輛繼續(xù)前進(jìn),還是左轉(zhuǎn)、右轉(zhuǎn)。主要任務(wù)是從立體視覺(jué)中學(xué)習(xí)如何在高速公路上行駛,要根據(jù)觀察人類(lèi)的駕駛行為記錄各種圖像和操縱指令,并且要將各種圖像和指令進(jìn)行正確分類(lèi)。主要代表:Google公司、百度與德國(guó)寶馬汽車(chē)公司合作開(kāi)發(fā)自動(dòng)駕駛汽車(chē)。

UESTC1研究現(xiàn)狀與發(fā)展前景4、對(duì)天文物體進(jìn)行分類(lèi)

利用機(jī)器學(xué)習(xí)方法對(duì)天文物體進(jìn)行分類(lèi),

主要是學(xué)習(xí)判斷新事物,關(guān)鍵技術(shù)是對(duì)圖像數(shù)據(jù)庫(kù)進(jìn)行分類(lèi)。5、其他應(yīng)用

1)生物技術(shù):可折疊蛋白質(zhì)預(yù)測(cè),遺傳因子微型排列表示; 2)計(jì)算機(jī)系統(tǒng)性能的預(yù)測(cè); 3)銀行業(yè)的應(yīng)用:信用卡盜用檢測(cè); 4)屬性識(shí)別(美國(guó)郵政服務(wù)); 5)互聯(lián)網(wǎng)應(yīng)用:文檔自動(dòng)分類(lèi),學(xué)習(xí)用戶(hù)參數(shù)選擇。UESTC1研究現(xiàn)狀與發(fā)展前景發(fā)展前景

從50年代中期到現(xiàn)在機(jī)器學(xué)習(xí)(ML)經(jīng)過(guò)了熱烈、冷靜、復(fù)興、蓬勃四個(gè)時(shí)期。如今ML處在蓬勃發(fā)展的階段,

ML賦予了計(jì)算機(jī)人類(lèi)學(xué)習(xí)的能力,并形成了能夠進(jìn)行ML的系統(tǒng)。雖然近幾年ML飛速發(fā)展,但它畢竟是一個(gè)新型研究領(lǐng)域,遇到了許多問(wèn)題。一直以來(lái),ML都是人工智能領(lǐng)域的主導(dǎo)問(wèn)題,解決ML中的問(wèn)題能夠促進(jìn)人工智能領(lǐng)域的發(fā)展速度;另一方面ML滲透到了其他領(lǐng)域,因此結(jié)合其他領(lǐng)域的學(xué)習(xí)體制和方法,也會(huì)促進(jìn)機(jī)器學(xué)習(xí)的發(fā)展??傮w來(lái)說(shuō),ML的發(fā)展前景還是比較不錯(cuò)的。

朱沖,陳雪飛,張聰品.機(jī)器學(xué)習(xí)研究進(jìn)展[J].福建電腦,2015,v.3108:70-125.UESTC2機(jī)器學(xué)習(xí)算法分類(lèi)

現(xiàn)在有很多機(jī)器學(xué)習(xí)算法,困難的是進(jìn)行方法歸類(lèi),這里介紹兩種方法對(duì)這些算法進(jìn)行思考和分類(lèi)。

第一種:學(xué)習(xí)風(fēng)格

第二種:形式和功能上類(lèi)似UESTC2機(jī)器學(xué)習(xí)算法分類(lèi)1、根據(jù)學(xué)習(xí)風(fēng)格分類(lèi)

一個(gè)算法基于問(wèn)題建模有不同的方法,無(wú)論這個(gè)問(wèn)題是基于經(jīng)驗(yàn)或環(huán)境的交互,或者是基于我們需要輸入的數(shù)據(jù),學(xué)習(xí)風(fēng)格是機(jī)器學(xué)習(xí)首先必須考慮的問(wèn)題。主要學(xué)習(xí)風(fēng)格或者學(xué)習(xí)模型包括: 1)

SupervisedLearning有監(jiān)督式學(xué)習(xí):輸入的數(shù)據(jù)被稱(chēng)為訓(xùn)練數(shù)據(jù),一個(gè)模型需要通過(guò)一個(gè)訓(xùn)練過(guò)程,在這個(gè)過(guò)程中進(jìn)行預(yù)期判斷,如果錯(cuò)誤了再進(jìn)行修正,訓(xùn)練過(guò)程一直持續(xù)到基于訓(xùn)練數(shù)據(jù)達(dá)到預(yù)期的精確性。其關(guān)鍵方法是分類(lèi)和回歸,算法是邏輯回歸、BP神經(jīng)網(wǎng)絡(luò)、回歸模型,決策樹(shù),隨機(jī)森林,K鄰近算法等。UESTC2機(jī)器學(xué)習(xí)算法分類(lèi) 2)

UnsupervisedLearning無(wú)監(jiān)督學(xué)習(xí):沒(méi)有任何訓(xùn)練數(shù)據(jù),對(duì)沒(méi)有標(biāo)記的輸入數(shù)據(jù)采取推導(dǎo)結(jié)構(gòu)的模型,其關(guān)鍵方式是關(guān)聯(lián)規(guī)則學(xué)習(xí)和聚合,算法有Apriori算法和k-means。UESTC2機(jī)器學(xué)習(xí)算法分類(lèi) 3)

Semi-SupervisedLearning半監(jiān)督式學(xué)習(xí):是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域研究的重點(diǎn)問(wèn)題,它將監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)相結(jié)合,主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類(lèi),能夠減少標(biāo)注代價(jià),提高機(jī)器的學(xué)習(xí)性能。主要分為半監(jiān)督分類(lèi),半監(jiān)督回歸,半監(jiān)督聚類(lèi)和半監(jiān)督降維算法。

輸入數(shù)據(jù)是標(biāo)記和非標(biāo)記的混合案例,模型必須學(xué)習(xí)其中結(jié)構(gòu)然后按照預(yù)期組織數(shù)據(jù),其關(guān)鍵方法是分類(lèi)和回歸。UESTC2機(jī)器學(xué)習(xí)算法分類(lèi) 4)強(qiáng)化學(xué)習(xí):程序在某一情況下嘗試所有的可能行動(dòng),記錄不同行動(dòng)的結(jié)果并試著找出最好的一次嘗試來(lái)做決定。也就是說(shuō),

模型必須能從一個(gè)環(huán)境刺激中進(jìn)行應(yīng)對(duì)和反應(yīng)。反饋不會(huì)作為一個(gè)教學(xué)過(guò)程的形式,但可以作為環(huán)境的獎(jiǎng)懲。其關(guān)鍵方法是系統(tǒng)和機(jī)器人控制,算法包括馬爾可夫決策過(guò)程、Q-Learning(增強(qiáng)學(xué)習(xí)算法)和TemporalDifferenceLearning(時(shí)間差分學(xué)習(xí))等。UESTC2機(jī)器學(xué)習(xí)算法分類(lèi)2、根據(jù)形式和功能上類(lèi)似進(jìn)行分類(lèi)

UESTC類(lèi)別示例算法分類(lèi)算法空間覆蓋算法(基于球鄰域的空間劃分、仿生模式識(shí)別、視覺(jué)分類(lèi)方法)分類(lèi)超曲面算法HSC極小覆蓋子集

相似度算法基于樹(shù)的方法基于神經(jīng)網(wǎng)絡(luò)的方法Regression回歸普通最小二乘法邏輯回歸逐步回歸多元自適應(yīng)回歸本地散點(diǎn)平滑估計(jì)

基于實(shí)例的方法k-NearestNeighbour(kNN)(LVQ)學(xué)習(xí)矢量量化(SOM)自組織映射算法

正則化方法嶺回歸數(shù)值計(jì)算方法彈性網(wǎng)絡(luò)

(LASSO)至少絕對(duì)的收縮和選擇算子決策(Decision)樹(shù)學(xué)習(xí)(CART)分類(lèi)回歸樹(shù)

(ID3)迭代二叉樹(shù)3代(CHAID)卡方自動(dòng)交互檢測(cè)C4.5單層決策樹(shù)隨機(jī)森林

(MARS)多元自適應(yīng)回歸樣條

(GBM)梯度推進(jìn)機(jī)類(lèi)別示例算法Bayesian貝葉斯NaiveBayes樸素貝葉斯(BBN)貝葉斯信念網(wǎng)絡(luò)

(AODE)平均單依賴(lài)估計(jì)

KernelMethods內(nèi)核方法(SVM)支持向量機(jī)

(RBF)徑向基函數(shù)LinearDiscriminateAnalysis(LDA)線性鑒別分析聚類(lèi)Clustering方法k-Means(EM)期望最大化算法關(guān)聯(lián)規(guī)則學(xué)習(xí)Apriori算法Eclat算法人工神經(jīng)網(wǎng)絡(luò)感知器神經(jīng)網(wǎng)絡(luò)BP反向傳遞Hopfield網(wǎng)絡(luò)

(SOM)自組織映射(LVQ)學(xué)習(xí)矢量量化

深度學(xué)習(xí)(RBM)受限波爾茲曼機(jī)(DBN)深度信念網(wǎng)絡(luò)回旋神經(jīng)網(wǎng)堆棧式自動(dòng)編碼器降維方法

(PCA)主成分分析(PLS)偏最小二乘回歸SammonMapping(MDS)多維尺度ProjectionPursuit投影尋蹤因子分析Ensemble集成方法BoostingAdaBoost(Bagging)自展輸入引導(dǎo)式聚合

(blending)堆棧泛化(GBM)梯度Boosting機(jī)器隨機(jī)森林UESTCUESTC3主要機(jī)器學(xué)習(xí)算法3主要機(jī)器學(xué)習(xí)算法常見(jiàn)的機(jī)器學(xué)習(xí)算法

1)線性回歸(LinearRegression)

基本思想:線性回歸是利用連續(xù)性變量來(lái)估計(jì)實(shí)際數(shù)值,通過(guò)找出自變量和因變量間的最佳線性關(guān)系,可以確定一條最佳直線。主要分為一元線性回歸和多元線性回歸。

未知系數(shù)可以通過(guò)最小二乘法得到。

優(yōu)點(diǎn):簡(jiǎn)單和方便,模型和數(shù)據(jù)相同,計(jì)算出的結(jié)果唯一

缺點(diǎn):因子的多樣性和不可測(cè)性,使得回歸分析在某些情況下受到限制。UESTC3主要機(jī)器學(xué)習(xí)算法

2)邏輯回歸(LogisticsRegression)

基本思想:在線性回歸基礎(chǔ)上,套用了一個(gè)邏輯函數(shù),利用已知的自變量來(lái)預(yù)測(cè)一個(gè)離散型因變量的值,即通過(guò)擬合一個(gè)邏輯函數(shù)來(lái)預(yù)測(cè)一個(gè)事件發(fā)生的概率。

模型評(píng)估:置信區(qū)間估計(jì)、參數(shù)有效性檢驗(yàn)、擬合優(yōu)度檢驗(yàn)、殘差分析

主要用途:尋找危險(xiǎn)因素、預(yù)測(cè)、判別等

UESTC3主要機(jī)器學(xué)習(xí)算法

3)決策樹(shù)

基本思想:屬于監(jiān)督式學(xué)習(xí),常用來(lái)解決分類(lèi)問(wèn)題。樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值。

經(jīng)典代表:ID3、C4.5、C5.0、CART

優(yōu)點(diǎn):易于理解和實(shí)現(xiàn)、能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性、很容易推出相應(yīng)的邏輯表達(dá)式;

缺點(diǎn):連續(xù)性的字段比較難預(yù)測(cè)、有時(shí)間順序的數(shù)據(jù)需要做很多預(yù)處理、類(lèi)別太多時(shí)錯(cuò)誤可能就會(huì)增加的比較快、只根據(jù)一個(gè)字段來(lái)分類(lèi)。

UESTC1)停止條件2)過(guò)度擬合

優(yōu)化方案

修剪枝葉 K-FoldCrossValidation RandomForest3主要機(jī)器學(xué)習(xí)算法

4)隨機(jī)森林(RandomForest)

基本思想:隨機(jī)森林里有多個(gè)決策樹(shù),為了給一個(gè)新的觀察值分類(lèi),每一個(gè)決策樹(shù)根據(jù)它的特征都會(huì)給出一個(gè)分類(lèi)最后選出投票最多的分類(lèi)作為分類(lèi)結(jié)果。

生成決策樹(shù)步驟: a.如果訓(xùn)練集中有N種類(lèi)別,則有重復(fù)地隨機(jī)選取N個(gè)樣本。這些樣本將組成培養(yǎng)決策樹(shù)的訓(xùn)練集。 b.如果有M個(gè)特征變量,那么選取數(shù)m<<M,從而在每個(gè)節(jié)點(diǎn)上隨機(jī)選取m個(gè)特征變量來(lái)分割該節(jié)點(diǎn)。m在整個(gè)森林養(yǎng)成中保持不變。 c.每個(gè)決策樹(shù)都最大程度上進(jìn)行分割,沒(méi)有剪枝。

UESTCm1m2mQ3主要機(jī)器學(xué)習(xí)算法UESTC3主要機(jī)器學(xué)習(xí)算法UESTC3主要機(jī)器學(xué)習(xí)算法

7)支持向量機(jī)(SVM)

基本思想:低維空間向量集通常難于劃分,解決的方法是將它們映射到高維空間。但這個(gè)辦法帶來(lái)的困難就是計(jì)算復(fù)雜度的增加,而核函數(shù)正好巧妙地解決了這個(gè)問(wèn)題。SVM的關(guān)鍵在于核函數(shù)。

應(yīng)用范圍:SVM在解決小樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其它機(jī)器學(xué)習(xí)問(wèn)題中,主要包括:分析數(shù)據(jù)、識(shí)別模式、分類(lèi)和回歸分析等。

UESTC3主要機(jī)器學(xué)習(xí)算法

8)

EM最大期望算法

基本思想:EM是基于模型的聚類(lèi)方法,即:在概率模型中尋找參數(shù)的最大似然估計(jì),其中概率模型依賴(lài)于無(wú)法觀測(cè)的隱藏變量。E步估計(jì)隱含變量,M步估計(jì)其他參數(shù),交替將極值推向最大。

與K-Mean對(duì)比:比K-means計(jì)算復(fù)雜,收斂也較慢,不適于大規(guī)模數(shù)據(jù)集和高維數(shù)據(jù),但比K-means穩(wěn)定、準(zhǔn)確。

主要應(yīng)用:

GMM混合高斯模型、聚類(lèi)、HMM隱馬爾科夫模型等。

UESTCE步:根據(jù)參數(shù)初始值或上一次迭代所得結(jié)果值來(lái)計(jì)算似然函數(shù);M步:將似然函數(shù)最大化以獲得新的參數(shù)值,用更新使

最大化。E步:固定θ,優(yōu)化Q;M步:固定Q,優(yōu)化θ;交替將極值推向最大。3主要機(jī)器學(xué)習(xí)算法

多個(gè)待估參數(shù)的情況:

UESTC3主要機(jī)器學(xué)習(xí)算法

9)PageRank算法

基本思想:Google的頁(yè)面排序算法,是基于從許多優(yōu)質(zhì)的網(wǎng)頁(yè)鏈接過(guò)來(lái)的網(wǎng)頁(yè)必定還是優(yōu)質(zhì)網(wǎng)頁(yè)的回歸關(guān)系,來(lái)判定所有網(wǎng)頁(yè)的重要性。

優(yōu)點(diǎn):完全獨(dú)立于查詢(xún),只依賴(lài)于網(wǎng)頁(yè)鏈接結(jié)構(gòu),可以離線計(jì)算,極大降低了查詢(xún)響應(yīng)時(shí)間。

缺點(diǎn):忽略了主題相關(guān)性,對(duì)新網(wǎng)頁(yè)具有嚴(yán)重的歧視。

UESTC3主要機(jī)器學(xué)習(xí)算法UESTC3主要機(jī)器學(xué)習(xí)算法

10)Adaboost算法

基本思想:一種迭代算法,對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類(lèi)器(弱分類(lèi)器),然后把這些弱分類(lèi)器集合起來(lái)構(gòu)成一個(gè),更強(qiáng)的最終分類(lèi)器(強(qiáng)分類(lèi)器)。

算法步驟: a.在初始的權(quán)重?cái)?shù)據(jù)分布下訓(xùn)練得到一個(gè)弱分類(lèi)器,然后通過(guò)這個(gè)弱分類(lèi)器判斷準(zhǔn)確率,錯(cuò)判的樣本的加大權(quán)重,分類(lèi)正確的樣本,降低其權(quán)重; b.在新的分布下,再進(jìn)行訓(xùn)練得到一個(gè)弱分類(lèi)器; c.周而復(fù)始得到N個(gè)弱檢測(cè)器,最后將其集合起來(lái)。

主要應(yīng)用:人臉檢測(cè)、目標(biāo)識(shí)別等。

UESTC3主要機(jī)器學(xué)習(xí)算法

11)C4.5算法

基本思想:C4.5算法核心思想是ID3算法,是ID3算法的改進(jìn)。(ID3算法計(jì)算每個(gè)屬性的信息增益,并選取具有最高增益的屬性作為給定的測(cè)試屬性)

改進(jìn)方面: a.用信息增益率來(lái)選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足; b.在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝; c.能處理非離散的數(shù)據(jù); d.能處理不完整的數(shù)據(jù)。

UESTC3主要機(jī)器學(xué)習(xí)算法UESTC3主要機(jī)器學(xué)習(xí)算法UESTC3主要機(jī)器學(xué)習(xí)算法

13)KNN算法

基本思想:從訓(xùn)練樣本中找出K個(gè)與其最相近的樣本,然后看這k個(gè)樣本中哪個(gè)類(lèi)別的樣本多,則待判定的值就屬于這個(gè)類(lèi)別。距離函數(shù)可以是歐式距離、曼哈頓距離、閔氏距離和漢明距離,前三種用于連續(xù)變量,漢明距離用于分類(lèi)變量。K值的選取時(shí)常是KNN建模里的關(guān)鍵。

缺點(diǎn):K值需要預(yù)先設(shè)定,而不能自適應(yīng);當(dāng)樣本不平衡時(shí)容易導(dǎo)致分類(lèi)錯(cuò)誤。

應(yīng)用:適用于對(duì)樣本容量比較大的類(lèi)域進(jìn)行自動(dòng)分類(lèi)。

UESTC3主要機(jī)器學(xué)習(xí)算法

14)Na?veBayes樸素貝葉斯算法

基本思想:基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類(lèi)方法。基礎(chǔ)是概率問(wèn)題,分類(lèi)原理是通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,選擇具有最大后驗(yàn)概率的類(lèi)作為該對(duì)象所屬的類(lèi)。

優(yōu)點(diǎn):算法簡(jiǎn)單,快速,具有較小的出錯(cuò)率;

缺點(diǎn):假設(shè)約束性很強(qiáng)。

應(yīng)用:電子郵件過(guò)濾以及文本分類(lèi)研究。

UESTC3主要機(jī)器學(xué)習(xí)算法

15)K-Means(K-鄰近算法)

基本思想:把n個(gè)對(duì)象根據(jù)其屬性分為k個(gè)分割(k

<

n),目標(biāo)是使各個(gè)群組內(nèi)部的均方誤差總和最小,然后對(duì)給定數(shù)據(jù)進(jìn)行分類(lèi),屬于非監(jiān)督式學(xué)習(xí)算法。

集群劃分: a.隨機(jī)在對(duì)象集中取K個(gè)種子作為質(zhì)心; b.將每一數(shù)據(jù)點(diǎn)與距離其最近的質(zhì)心劃分在同一集群; c.找出新集群的質(zhì)心; d.重復(fù)2和3,直到不再有新質(zhì)心出現(xiàn)。

優(yōu)點(diǎn):算法速度很快;

缺點(diǎn):k是一個(gè)輸入?yún)?shù),不合適的k可能得到較差結(jié)果。

UESTC3主要機(jī)器學(xué)習(xí)算法UESTC3主要機(jī)器學(xué)習(xí)算法

16)Apriori算法

基本思想:核心是基于兩階段頻繁項(xiàng)集思想的遞推算法,用于挖掘數(shù)據(jù)內(nèi)含的、未知的卻又實(shí)際存在的關(guān)聯(lián)規(guī)則。

兩階段頻繁項(xiàng)集思想: a.尋找頻繁項(xiàng)集; b.由頻繁項(xiàng)集找關(guān)聯(lián)規(guī)則。

優(yōu)點(diǎn):簡(jiǎn)單、易理解、數(shù)據(jù)要求低;

缺點(diǎn):在每一步產(chǎn)生侯選項(xiàng)目集時(shí)循環(huán)產(chǎn)生的組合過(guò)多,沒(méi)有排除不應(yīng)該參與組合的元素;每次計(jì)算項(xiàng)目集的支持度時(shí),都對(duì)數(shù)據(jù)庫(kù)中的全部記錄進(jìn)行一遍掃描比較,需要很大的I/O負(fù)載。

UESTC4深度學(xué)習(xí)概述UESTC4深度學(xué)習(xí)概述之深層網(wǎng)絡(luò)派生樹(shù)UESTC5機(jī)器學(xué)習(xí)——學(xué)習(xí)路線UESTC5機(jī)器學(xué)習(xí)——學(xué)習(xí)路線學(xué)習(xí)資料

8)CS231n:ConvolutionalNeuralNetworksforVisualRecognition http://cs231n.github.io/convolutional-networks/#overview 9)DeepLearning / 10)MachineLearning /MainFolder/CoursePage.php?course=MachineLearning 11)

UFLDL教程 /wiki/index.php/UFLDL%E6%95%99%E7%A8%8B 12)研究成果整理 https://handong1587.github.io/categories.html 13)CSDN知識(shí)庫(kù) /UESTC云計(jì)算及分布式計(jì)算平臺(tái)2017年3月31UESTC第三部分云計(jì)算及分布式計(jì)算平臺(tái)Contents分布式計(jì)算平臺(tái)云計(jì)算核心技術(shù)云計(jì)算架構(gòu)及其軟件體系云計(jì)算發(fā)展歷史云計(jì)算相關(guān)概念UESTC1云計(jì)算基本概念(1)云計(jì)算定義云計(jì)算是一種商業(yè)計(jì)算模型。它將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和各種軟件服務(wù)劉鵬。Cloudcomputingisamodelforenablingubiquitous,on-demandnetworkaccesstoasharedpoolofconfigurablecomputingresources(e.g.,networks,servers,storage,applications,andservices)thatcanberapidlyprovisionedandreleasedwithminimalmanagementeffortorserviceproviderinteraction.NIST(2)NIST的5-4-3云計(jì)算模型5個(gè)特征4個(gè)部署模式3個(gè)服務(wù)模型UESTC1云計(jì)算基本概念UESTC1云計(jì)算基本概念UESTC1云計(jì)算基本概念UESTC2云計(jì)算發(fā)展歷史UESTC3云計(jì)算架構(gòu)及其軟件體系UESTC4云計(jì)算核心技術(shù)UESTC5分布式計(jì)算平臺(tái)UESTC5分布式計(jì)算平臺(tái)Spark與Hadoop的對(duì)比:(1)中間數(shù)據(jù)放到內(nèi)存中,對(duì)于迭代運(yùn)算效率更高;(2)Spark框架為批處理(SparkCore),交互式(SparkSQL),流式(SparkStreaming),機(jī)器學(xué)習(xí)(Mllib),圖計(jì)算(GraphX)提供一個(gè)統(tǒng)一的數(shù)據(jù)處理平臺(tái);(3)Spark比Hadoop更通用;(4)Spark提供的數(shù)據(jù)集操作類(lèi)型有很多種。UESTC數(shù)據(jù)挖掘技術(shù)概要2017年3月31UESTC第四部分?jǐn)?shù)據(jù)挖掘技術(shù)Contents數(shù)據(jù)挖掘的五個(gè)組成數(shù)據(jù)挖掘如何工作?數(shù)據(jù)分析數(shù)據(jù)挖掘需解決的問(wèn)題數(shù)據(jù)挖掘流程UESTC1數(shù)據(jù)挖掘流程UESTC2數(shù)據(jù)挖掘需解決的問(wèn)題UESTC3數(shù)據(jù)分析

數(shù)據(jù)分析是對(duì)數(shù)據(jù)進(jìn)行檢查、清理、轉(zhuǎn)換和建模的過(guò)程,目的是發(fā)現(xiàn)有用的信息、提出結(jié)論和支持決策。UESTC4數(shù)據(jù)挖掘如何工作?UESTC5數(shù)據(jù)挖掘的五個(gè)組成部分UESTC大數(shù)據(jù)與智能物流概述2017年3月31UESTC第五部分大數(shù)據(jù)與智能物流Contents智能物流體系構(gòu)建及其信息體系結(jié)構(gòu)物流大數(shù)據(jù)應(yīng)用與研究現(xiàn)狀物流大數(shù)據(jù)關(guān)鍵技術(shù)物流大數(shù)據(jù)分析平臺(tái)架構(gòu)物流大數(shù)據(jù)特點(diǎn)UESTC1物流大數(shù)據(jù)

在龐大的物流系統(tǒng)中,涉及到多類(lèi)型、多用途和多功能的大數(shù)據(jù),這些大數(shù)據(jù)包括了物流系統(tǒng)中的攬件、登記、路徑規(guī)劃、派件等各環(huán)節(jié)過(guò)程中產(chǎn)生的各種結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)。不僅包括貨物的流通,還涉及到資金、信息的流通,具有涉及人員多、數(shù)據(jù)實(shí)時(shí)更新、信息類(lèi)型多樣等特點(diǎn),這導(dǎo)致物流大數(shù)據(jù)的數(shù)據(jù)數(shù)量大、增長(zhǎng)快速、類(lèi)型豐富。即:物流大數(shù)據(jù)除具有大數(shù)據(jù)的4V共性特點(diǎn)外,還具有安全要求高及涉及面廣等特點(diǎn)。

安全要求高:大數(shù)據(jù)給物流行業(yè)帶來(lái)極大的經(jīng)濟(jì)價(jià)值和社會(huì)價(jià)值的同時(shí),也對(duì)用戶(hù)隱私保護(hù)、安全存儲(chǔ)、合理使用等方面的信息安全提出了更高的要求。

涉及面廣:物流系統(tǒng)在攬件、分揀、打包、倉(cāng)儲(chǔ)、運(yùn)輸、派送等各環(huán)節(jié)都會(huì)產(chǎn)生不同類(lèi)型的數(shù)據(jù),所涉及的數(shù)據(jù)量極大。UESTC2物流大數(shù)據(jù)分析平臺(tái)架構(gòu)

以物流大數(shù)據(jù)存儲(chǔ)和物流大數(shù)據(jù)處理為核心,包含大數(shù)據(jù)訪問(wèn)、大數(shù)據(jù)調(diào)度、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)管理、備份與恢復(fù)等功能。UESTC1平臺(tái)基礎(chǔ)(OS、服務(wù)器)2存儲(chǔ)(HDFS--收集、清洗、存儲(chǔ))處理(MapReduce--查詢(xún)、計(jì)算)連接(網(wǎng)絡(luò)層實(shí)現(xiàn))

訪問(wèn)(Pig、Hive和Sqoop等)4調(diào)度與組織5安全防護(hù)

物流大數(shù)據(jù)的分析是在軟硬件工具輔助下,首先對(duì)數(shù)據(jù)進(jìn)行采集、匯聚、清洗、存儲(chǔ),然后利用分析算法對(duì)數(shù)據(jù)進(jìn)行計(jì)算來(lái)獲取有價(jià)值的信息,最后通過(guò)圖、文、報(bào)表等形式展現(xiàn)給用戶(hù)。3物流大數(shù)據(jù)關(guān)鍵技術(shù)(1)、數(shù)據(jù)集成管理技術(shù)

物流大數(shù)據(jù)集成管理技術(shù)是把從不同系統(tǒng)中采集到的不同格式、特點(diǎn)和性質(zhì)的數(shù)據(jù)進(jìn)行集中,采用一系列清洗算法清洗出其中的冗余數(shù)據(jù)、無(wú)效數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)等,從而形成一個(gè)集成的、穩(wěn)定的、真實(shí)的數(shù)據(jù)集合。物流大數(shù)據(jù)的數(shù)據(jù)集成管理技術(shù)具體包含數(shù)據(jù)抽取技術(shù)、數(shù)據(jù)清洗技術(shù)、數(shù)據(jù)融合技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等。UESTC3物流大數(shù)據(jù)關(guān)鍵技術(shù)(2)分布式存儲(chǔ)技術(shù)

分布式存儲(chǔ)技術(shù)是將分散在不同物理位置的存儲(chǔ)設(shè)備組成一個(gè)虛擬的存儲(chǔ)設(shè)備,根據(jù)各位置存儲(chǔ)資源及系統(tǒng)需求將數(shù)據(jù)存儲(chǔ)在最佳的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論