新一代信息技術(shù)導(dǎo)論(微課版)(第2版) 課件 楊竹青 第4-6章 日新月異的大數(shù)據(jù);引領(lǐng)未來人工智能;信用基石區(qū)塊鏈_第1頁
新一代信息技術(shù)導(dǎo)論(微課版)(第2版) 課件 楊竹青 第4-6章 日新月異的大數(shù)據(jù);引領(lǐng)未來人工智能;信用基石區(qū)塊鏈_第2頁
新一代信息技術(shù)導(dǎo)論(微課版)(第2版) 課件 楊竹青 第4-6章 日新月異的大數(shù)據(jù);引領(lǐng)未來人工智能;信用基石區(qū)塊鏈_第3頁
新一代信息技術(shù)導(dǎo)論(微課版)(第2版) 課件 楊竹青 第4-6章 日新月異的大數(shù)據(jù);引領(lǐng)未來人工智能;信用基石區(qū)塊鏈_第4頁
新一代信息技術(shù)導(dǎo)論(微課版)(第2版) 課件 楊竹青 第4-6章 日新月異的大數(shù)據(jù);引領(lǐng)未來人工智能;信用基石區(qū)塊鏈_第5頁
已閱讀5頁,還剩207頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

日新月異的大數(shù)據(jù)

引導(dǎo)大數(shù)據(jù)時代已經(jīng)來臨,給信息技術(shù)的發(fā)展帶來了巨大變革,也深刻影響著社會生產(chǎn)和人們生活的方方面面。在全球范圍內(nèi),世界各國均高度重視大數(shù)據(jù)相關(guān)技術(shù)的研究和產(chǎn)業(yè)發(fā)展,紛紛把大數(shù)據(jù)上升為國家戰(zhàn)略,并加以重點(diǎn)推進(jìn)。2學(xué)習(xí)目標(biāo)【知識目標(biāo)】掌握大數(shù)據(jù)的概念;掌握大數(shù)據(jù)的關(guān)鍵技術(shù);了解大數(shù)據(jù)的相關(guān)應(yīng)用?!炯寄苣繕?biāo)】熟悉大數(shù)據(jù)技術(shù)應(yīng)用的基本過程;熟悉大數(shù)據(jù)相關(guān)應(yīng)用的內(nèi)在原理;掌握大數(shù)據(jù)技術(shù)的存儲和處理流程?!舅刭|(zhì)目標(biāo)】培養(yǎng)學(xué)生運(yùn)用大數(shù)據(jù)思維方式分析問題的意識;強(qiáng)化學(xué)生的團(tuán)隊(duì)協(xié)作意識和處理綜合問題的能力。3思維導(dǎo)圖44.1大數(shù)據(jù)概述

序:6

對于一個國家而言,能否緊緊抓住大數(shù)據(jù)發(fā)展機(jī)遇,快速形成核心技術(shù)和應(yīng)用并參與新一輪的全球化競爭,將直接決定未來若干年世界范圍內(nèi)各國科技力量博弈的格局。大數(shù)據(jù)專業(yè)人才的培養(yǎng)是新一輪科技較量的基礎(chǔ),高等院校承擔(dān)著大數(shù)據(jù)人才培養(yǎng)的重任,因此,各高等院校非常重視大數(shù)據(jù)課程的開設(shè),大數(shù)據(jù)課程已經(jīng)成為計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的核心課程。4.1.1概念7

大數(shù)據(jù)技術(shù)是指以大數(shù)據(jù)為基礎(chǔ),利用大數(shù)據(jù)分析技術(shù),從海量數(shù)據(jù)中提取有價值的信息,從而支持企業(yè)決策的技術(shù)。它是一種新興的技術(shù),它可以幫助企業(yè)更好地利用數(shù)據(jù),提高企業(yè)的效率和效益。大數(shù)據(jù)技術(shù)包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化和數(shù)據(jù)倉庫等。大數(shù)據(jù)是一個體量特別大、數(shù)據(jù)類型特別多的數(shù)據(jù)集,且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進(jìn)行抓取、管理和處理。目前所說的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。4.1.2特征

大數(shù)據(jù)的定義多而雜,但是內(nèi)涵都差不多,即大數(shù)據(jù)由巨型數(shù)據(jù)集組成,這些數(shù)據(jù)集規(guī)模超出了常用軟件在可接受時間下的收集、管理、處理和使用能力。雖然大數(shù)據(jù)的定義沒有統(tǒng)一,但是國際知名公司IBM定義的大數(shù)據(jù)的五個特征卻受到業(yè)界的廣泛認(rèn)可,也就是5V特征:Volume(數(shù)據(jù)量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(數(shù)據(jù)處理速度快)、Value(數(shù)據(jù)價值密度低)和Veracity(數(shù)據(jù)具備真實(shí)性)。8數(shù)據(jù)量大9

傳感器、物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦等均是大數(shù)據(jù)的源頭,生活在數(shù)字時代的我們天天都在產(chǎn)生著數(shù)量的數(shù)據(jù)(如微信、QQ聊天,上網(wǎng)搜索,網(wǎng)上購物等產(chǎn)生的數(shù)據(jù))。從數(shù)據(jù)量的角度而言,大數(shù)據(jù)泛指無法在可容忍的時間內(nèi)用傳統(tǒng)信息技術(shù)和軟硬件工具對其進(jìn)行獲取、管理和處理的巨量數(shù)據(jù)集合,需要可伸縮的計(jì)算體系結(jié)構(gòu)以支持其存儲、處理和分析。

大數(shù)據(jù)不再以GB或TB為單位來衡量,而是以PB(1000TB)、EB(100萬TB)或ZB(10億TB)為計(jì)量單位。因此,數(shù)據(jù)量大是大數(shù)據(jù)的首要特征。數(shù)據(jù)量大10

根據(jù)著名咨詢機(jī)構(gòu)互聯(lián)網(wǎng)數(shù)據(jù)中心(InternetDataCenter,IDC)做出的估測,人類社會產(chǎn)生的數(shù)據(jù)一直都在以每年50%的速度增長,也就是說,大約每兩年數(shù)據(jù)量就翻番,這被稱為“大數(shù)據(jù)摩爾定律”。這意味著,人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量之和。預(yù)計(jì)2020年,全球?qū)⒖偣矒碛?5ZB(數(shù)據(jù)存儲單位之間的換算關(guān)系見表4-1)的數(shù)據(jù)量,是2010年的數(shù)據(jù)量的近30倍。數(shù)據(jù)量大11存儲單位換算關(guān)系Byte(字節(jié))1Byte=8bitKB(千字節(jié))1KB=1024ByteMB(兆字節(jié))1MB=1024KBGB(吉字節(jié))1GB=1024MBTB(太字節(jié))1TB=1024GBPB(拍字節(jié))1PB=1024TBEB(艾字節(jié))1EB=1024PBZB(澤字節(jié))1ZB=1024EB數(shù)據(jù)類型繁多12大數(shù)據(jù)的來源眾多,如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。生物大數(shù)據(jù)、交通大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、電信大數(shù)據(jù)、電力大數(shù)據(jù)和金融大數(shù)據(jù)等都呈現(xiàn)出“井噴式”增長態(tài)勢,所涉及的數(shù)據(jù)量十分巨大,已經(jīng)從TB級別躍升到PB級別。各行各業(yè)每時每刻都在生成各種不同類型的數(shù)據(jù)。數(shù)據(jù)類型繁多13消費(fèi)者大數(shù)據(jù)2020年,我國移動互聯(lián)網(wǎng)用戶數(shù)量穩(wěn)步增長,但增速卻持續(xù)放緩。2020年我國4G用戶總數(shù)達(dá)到12.89億戶,占移動電話用戶數(shù)的80.8%。我國5G用戶規(guī)??焖贁U(kuò)大,5G終端連接數(shù)突破2億戶。截至2020年12月,中國手機(jī)網(wǎng)民規(guī)模已達(dá)9.86億,每日新增據(jù)量達(dá)到18TB,累計(jì)存儲量超過900PB。2020年,國內(nèi)智能手機(jī)出貨量2.96億部,智能音箱市場銷量3676萬臺,智能家居設(shè)備市場出貨量為2億臺。同時,2020年中國可穿戴設(shè)備市場出貨量近1.1億臺,其中智能藍(lán)牙耳機(jī)市場出貨量5078萬臺,成人智能手表市場出貨量1532萬臺。2020年國內(nèi)市場5G手機(jī)累計(jì)出貨量1.63億部,上市新機(jī)型累計(jì)218款。

國內(nèi)市場的移動應(yīng)用數(shù)量小幅減少。截至2020年12月,國內(nèi)市場監(jiān)測到的相關(guān)App數(shù)量為345萬款,較2019年減少22萬款。其中,游戲類、音樂視頻類、日常工具類、社交軟件類、系統(tǒng)工具類App下載量排在前列。數(shù)據(jù)類型繁多14金融大數(shù)據(jù)。

隨著信息技術(shù)的飛速發(fā)展,特別是云計(jì)算、大數(shù)據(jù)技術(shù)在電子商務(wù)、證券期貨、互聯(lián)網(wǎng)金融等領(lǐng)域的廣泛應(yīng)用,未來金融業(yè)的核心競爭力很大程度上依賴于從大數(shù)據(jù)中提取信息和知識的速度快慢與能力大小,而這種速度和能力,取決于數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)應(yīng)用的水平。隨著互聯(lián)網(wǎng)金融、移動支付等新型金融業(yè)態(tài)的不斷涌現(xiàn),強(qiáng)化以“用戶為中心”的服務(wù)模式將成為未來金融業(yè)的重要發(fā)展方向,這一變化有助于金融產(chǎn)品創(chuàng)新、精準(zhǔn)營銷和風(fēng)險管理,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)向市場競爭力的。

據(jù)不完全統(tǒng)計(jì),中國平安有約8.8億客戶的臉譜和信用信息,以及近5000萬個聲紋庫;中國工商銀行擁有約5.5億個人客戶,全行數(shù)據(jù)量超過60PB;中國建設(shè)銀行擁有超過5億的客戶,手機(jī)銀行用戶達(dá)到1.8億,網(wǎng)銀用戶超過2億,數(shù)據(jù)存儲量達(dá)到100PB。數(shù)據(jù)類型繁多15醫(yī)療大數(shù)據(jù)

隨著我國醫(yī)療衛(wèi)生事業(yè)的發(fā)展,國內(nèi)的醫(yī)療信息化建設(shè)已經(jīng)取得了顯著的成就。醫(yī)院每天會有PB級的數(shù)據(jù)增加,數(shù)據(jù)涉及的方向和維度也不斷增多,因此數(shù)據(jù)展示仍然面臨很大困難。一個人擁有約1014個細(xì)胞、109個堿基,一次全面的基因測序產(chǎn)生的個人數(shù)據(jù)可以達(dá)到100~600GB。在醫(yī)學(xué)影像中,一次3D核磁共振檢查可以產(chǎn)生約150MB的數(shù)據(jù),一張CT圖像約產(chǎn)生150MB的數(shù)據(jù)。

綜上所述,大數(shù)據(jù)的數(shù)據(jù)量非常大,但是其總體可以分成兩大類,即結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。其中,前者占10%左右,主要是指存儲在關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);后者占90%左右,且種類繁多,包括電子郵件、音頻、視頻、位置信息、鏈接信息、手機(jī)呼叫信息和網(wǎng)絡(luò)日志等。處理速度快16

數(shù)據(jù)增長速度快,這就要求系統(tǒng)需要對數(shù)據(jù)進(jìn)行實(shí)時分析和處理以便及時丟棄。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的地方(傳統(tǒng)數(shù)據(jù)采用事后批處理的方式)。在Web2.0應(yīng)用領(lǐng)域,在1分鐘內(nèi),新浪可以產(chǎn)生20000條微博,Twitter可以產(chǎn)生100000條推文,Apple可以產(chǎn)生下載47000萬次應(yīng)用的數(shù)據(jù),淘寶可以賣出60000件商品,百度可以產(chǎn)生900000次搜索查詢的數(shù)據(jù),F(xiàn)acebook可以產(chǎn)生6000000次瀏覽量。

高性能計(jì)算(HighPerformanceComputing,HPC)發(fā)展迅猛,中國作為HPC的新興市場,未來巨大的市場份額不僅吸引了全球眾多的HPC廠商,也激勵了本土企業(yè)(如曙光)的崛起。作為中國本土“高性能計(jì)算領(lǐng)跑者”的曙光公司,曾進(jìn)入全球HPC銷售額十強(qiáng)。另外,量子計(jì)算機(jī)的逐步商業(yè)化應(yīng)用,也將使得大數(shù)據(jù)高速處理方法的研究如虎添翼。數(shù)據(jù)價值密度低17

大數(shù)據(jù)雖然看起來很“美”,但是其數(shù)據(jù)價值密度遠(yuǎn)遠(yuǎn)低于傳統(tǒng)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)價值密度。在大數(shù)據(jù)時代,很多有價值的信息是分散在海量數(shù)據(jù)中的。以小區(qū)監(jiān)控?cái)z像頭為例,如果沒有意外事件發(fā)生,則連續(xù)不斷產(chǎn)生的數(shù)據(jù)都是沒有任何價值的,當(dāng)發(fā)生偷盜等意外情況時,也只有記錄了事件過程的那一小段視頻有價值。但是為了能夠獲得發(fā)生偷盜等意外情況時的那一段有價值的視頻,人們不得不投入大量資金購買監(jiān)控設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備和耗費(fèi)大量的電能和存儲空間來保存攝像頭連續(xù)不斷產(chǎn)生的監(jiān)控?cái)?shù)據(jù)。數(shù)據(jù)具備真實(shí)性18

數(shù)據(jù)的真實(shí)性是指大數(shù)據(jù)的質(zhì)量優(yōu)劣,大數(shù)據(jù)的內(nèi)容是與真實(shí)世界息息相關(guān)的,真實(shí)不一定代表準(zhǔn)確,但一定不是虛假數(shù)據(jù),這也是數(shù)據(jù)分析的基礎(chǔ)?;谡鎸?shí)的交易與用戶行為產(chǎn)生的數(shù)據(jù)才有意義。因此,如何識別造假數(shù)據(jù),更是值得研究的領(lǐng)域。

如今,幾乎每個企業(yè)都在使用大數(shù)據(jù)。大數(shù)據(jù)分析提供了一個真正具有潛在利益的礦藏,大數(shù)據(jù)的真實(shí)性體現(xiàn)在數(shù)據(jù)的質(zhì)量上。質(zhì)量好的數(shù)據(jù)能夠給生產(chǎn)和生活帶來前所未有的效益。4.1.3發(fā)展歷程19

大數(shù)據(jù)是信息技術(shù)發(fā)展的必然產(chǎn)物,推動了數(shù)字經(jīng)濟(jì)的形成與繁榮,它的出現(xiàn)標(biāo)志著信息化進(jìn)程進(jìn)入發(fā)展新階段。當(dāng)前,我們正在進(jìn)入以數(shù)據(jù)的深度挖掘和融合應(yīng)用為主要特征的大數(shù)據(jù)時代?;仡櫞髷?shù)據(jù)的發(fā)展歷程,可以大致分為以下四個時期:萌芽期、成長期、爆發(fā)期和大規(guī)模應(yīng)用期。萌芽期(1980-2008年)20

大數(shù)據(jù)的概念被提出,相關(guān)技術(shù)也得到一定程度的傳播,但沒有得到實(shí)質(zhì)性發(fā)展。同一時期,隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等。成長期(2009-2012年)21

大數(shù)據(jù)市場迅速成長,互聯(lián)網(wǎng)數(shù)據(jù)呈爆發(fā)式增長,大數(shù)據(jù)技術(shù)逐漸被大眾熟悉并使用。截至2009年12月31日,中國互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計(jì)數(shù)據(jù)顯示,2019年中國網(wǎng)民規(guī)模達(dá)到3.84億人,互聯(lián)網(wǎng)普及率達(dá)到28.9%。寬帶網(wǎng)民規(guī)模達(dá)到3.46億人。國際出口帶寬達(dá)866,367Mbit/s。互聯(lián)網(wǎng)數(shù)據(jù)呈爆發(fā)式增長。爆發(fā)期(2013-2015年)22

大數(shù)據(jù)迎來了發(fā)展的高潮階段,包括我國在內(nèi)的世界各個國家紛紛布局大數(shù)據(jù)戰(zhàn)略。2013年也被稱為大數(shù)據(jù)元年,以百度、阿里、騰訊為代表的國內(nèi)互聯(lián)網(wǎng)公司各顯身手,紛紛推出創(chuàng)新性的大數(shù)據(jù)應(yīng)用。國家統(tǒng)計(jì)局與阿里、百度等11家企業(yè)簽署了戰(zhàn)略合作框架協(xié)議,推動大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用。大規(guī)模應(yīng)用期(2016年至今)23

大數(shù)據(jù)應(yīng)用滲透至各行各業(yè),大數(shù)據(jù)價值不斷凸顯,數(shù)據(jù)驅(qū)動決策和社會智能化程度大幅提高,大數(shù)據(jù)產(chǎn)業(yè)迎來快速發(fā)展和大規(guī)模應(yīng)用實(shí)施。2016年1月,《貴州省大數(shù)據(jù)發(fā)展應(yīng)用促進(jìn)條例》出臺,成立全國首部大數(shù)據(jù)地方法規(guī)。4.2大數(shù)據(jù)關(guān)鍵技術(shù)

4.2.1大數(shù)據(jù)技術(shù)應(yīng)用的基本流程25

討論大數(shù)據(jù)技術(shù)時,首先需要了解大數(shù)據(jù)的基本處理流程,主要包括數(shù)據(jù)采集、存儲、分析和結(jié)果呈現(xiàn)等環(huán)節(jié)。

數(shù)據(jù)無處不在,互聯(lián)網(wǎng)網(wǎng)站、政務(wù)系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、自動化生產(chǎn)系統(tǒng)、監(jiān)控?cái)z像頭和傳感器等每時每刻都在不斷產(chǎn)生數(shù)據(jù)。這些分散在各處的數(shù)據(jù)需要采用相應(yīng)的設(shè)備或軟件進(jìn)行采集。采集到的數(shù)據(jù)通常無法直接用于后續(xù)的數(shù)據(jù)分析,因?yàn)閷τ趤碓幢姸唷㈩愋投鄻拥臄?shù)據(jù)而言,數(shù)據(jù)缺失和語義模糊等問題是不可避免的,必須采取相應(yīng)措施有效解決這些問題,這就需要一個被稱為“數(shù)據(jù)預(yù)處理”的過程,把數(shù)據(jù)變成一個可用的狀態(tài)。數(shù)據(jù)經(jīng)過預(yù)處理以后會被放到文件系統(tǒng)或數(shù)據(jù)庫系統(tǒng)中進(jìn)行存儲與管理,再采用數(shù)據(jù)挖掘工具對數(shù)據(jù)進(jìn)行處理分析,最后采用可視化工具為用戶呈現(xiàn)結(jié)果。在整個數(shù)據(jù)處理流程中,必須注意隱私保護(hù)和數(shù)據(jù)安全問題。數(shù)據(jù)采集與預(yù)處理利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等,抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ);也可以利用日志采集工具(如Flume、Kafka等)把實(shí)時采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入,進(jìn)行實(shí)時處理分析。26數(shù)據(jù)存儲與管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)等,實(shí)現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲和管理。27數(shù)據(jù)處理與分析利用分布式并行編程模式和計(jì)算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對海量數(shù)據(jù)的處理和分析;對分析結(jié)果進(jìn)行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)。28數(shù)據(jù)安全與隱私保護(hù)在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價值和學(xué)術(shù)價值的同時,構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,有效保護(hù)個人隱私和數(shù)據(jù)安全。294.2.2大數(shù)據(jù)的計(jì)算形式

所謂大數(shù)據(jù)計(jì)算形式,即依據(jù)大數(shù)據(jù)的不同數(shù)據(jù)特征和計(jì)算特征,從多樣性的大數(shù)據(jù)計(jì)算問題和需求中提煉并樹立的各種高層籠統(tǒng)或模型如加州大學(xué)伯克利分校著名的Spark系統(tǒng)中的“散布內(nèi)存籠統(tǒng)”,卡內(nèi)基梅隆大學(xué)著名的圖計(jì)算系統(tǒng)GraphLab中的“圖并行籠統(tǒng)”等。傳統(tǒng)的并行計(jì)算辦法主要從體系構(gòu)造和編程語言的層面定義了一些較為底層的并行計(jì)算籠統(tǒng)和模型,但大數(shù)據(jù)處置問題具有很多高層的數(shù)據(jù)特征和計(jì)算特征,因此大數(shù)據(jù)處置需要更多地分離這些高層特征并思索更為高層的計(jì)算形式。

30典型的計(jì)算機(jī)模式依據(jù)大數(shù)據(jù)處置多樣性的需求和以上不同的特征維度,目前呈現(xiàn)了多種典型和重要的大數(shù)據(jù)計(jì)算形式。31大數(shù)據(jù)計(jì)算模式解決問題代表產(chǎn)品批處理計(jì)算針對大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計(jì)算針對流數(shù)據(jù)的實(shí)時計(jì)算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺等圖計(jì)算針對大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計(jì)算大規(guī)模數(shù)據(jù)的存儲管理和查詢分析Dremel、Hive、Cassandra、Impala等MapReduce由于MapReduce主要合適于停滯大數(shù)據(jù)線下批處置,在面向低延遲和具有復(fù)雜數(shù)據(jù)關(guān)系和復(fù)雜計(jì)算的大數(shù)據(jù)問題時有很大的不順應(yīng)性。大數(shù)據(jù)處理的問題復(fù)雜多樣,單一的計(jì)算模式是無法滿足不同類型的計(jì)算需求的,MapReduce其實(shí)只是大數(shù)據(jù)計(jì)算模式中的一種,它代表了針對大規(guī)模數(shù)據(jù)的批量處理技術(shù)。

32批處理計(jì)算批處理計(jì)算主要解決針對大規(guī)模數(shù)據(jù)的批量處理,也是我們?nèi)粘?shù)據(jù)分析工作中非常常見的一類數(shù)據(jù)處理需求。Spark是一個針對超大數(shù)據(jù)集合的低延遲的集群分布式計(jì)算系統(tǒng),比MapReduce快許多。Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,還可以優(yōu)化迭代工作負(fù)載。33流計(jì)算流數(shù)據(jù)也是大數(shù)據(jù)分析中的重要數(shù)據(jù)類型。流數(shù)據(jù)(或數(shù)據(jù)流)是指在時間分布和數(shù)量上無限的一系列動態(tài)數(shù)據(jù)集合體,數(shù)據(jù)的價值隨著時間的流逝而降低,因此必須采用實(shí)時計(jì)算的方式給出秒級響應(yīng)。34目前業(yè)內(nèi)已涌現(xiàn)出許多的流計(jì)算框架與平臺:第一類是商業(yè)級的流計(jì)算平臺,包括IBMInfoSphereStreams等;第二類是開源流計(jì)算框架,包括TwitterStorm、Yahoo!S4、SparkStreaming等;第三類是公司為支持自身業(yè)務(wù)開發(fā)的流計(jì)算框架,如Facebook使用Puma和HBase相結(jié)合來處理實(shí)時數(shù)據(jù),百度開發(fā)了通用實(shí)時流數(shù)據(jù)計(jì)算系統(tǒng)DStream,淘寶開發(fā)了通用流數(shù)據(jù)實(shí)時計(jì)算系統(tǒng)——銀河流數(shù)據(jù)處理平臺。圖計(jì)算在大數(shù)據(jù)時代,許多大數(shù)據(jù)都是以大規(guī)模圖或網(wǎng)絡(luò)的形式呈現(xiàn),如社交網(wǎng)絡(luò)、傳染病傳播途徑、交通事故對路網(wǎng)的影響等,此外,許多非圖結(jié)構(gòu)的大數(shù)據(jù)也常常會被轉(zhuǎn)換為圖模型后再進(jìn)行處理分析。35Pregel主要用于圖遍歷、最短路徑、PageRank計(jì)算等。其他代表性的圖計(jì)算產(chǎn)品還包括:Facebook針對Pregel的開源實(shí)現(xiàn)Giraph;Spark下的GraphX;

圖數(shù)據(jù)處理系統(tǒng)PowerGraph等。查詢分析針對超大規(guī)模數(shù)據(jù)的存儲管理和查詢分析,需要提供實(shí)時或準(zhǔn)實(shí)時的響應(yīng),才能很好地滿足企業(yè)經(jīng)營管理需求。36谷歌公司開發(fā)的Dremel是一種可擴(kuò)展的、交互式的實(shí)時查詢系統(tǒng),用于只讀嵌套數(shù)據(jù)的分析。4.2.3HadoopHadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運(yùn)算和存儲。Hadoop實(shí)現(xiàn)了一個分布式文件系統(tǒng),其中一個組件是Hadoop分布式文件系統(tǒng)(HDFS)。HDFS有高容錯性的特點(diǎn),并部署在低廉的硬件上;它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。Hadoop的框架最核心的設(shè)計(jì)就是HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,而MapReduce為海量的數(shù)據(jù)提供了計(jì)算。37起源Hadoop起源于ApacheNutch項(xiàng)目,始于2002年,是ApacheLucene的子項(xiàng)目之一。2004年,谷歌在“操作系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)”會議上公開發(fā)表了題為《MapReduce:簡化大集群上的數(shù)據(jù)處理》的論文之后,受到啟發(fā)的道格·卡丁等人開始嘗試實(shí)現(xiàn)MapReduce計(jì)算框架,并將它與基于Nutch的分布式文件系統(tǒng)(NutchDistributedFileSystem,NDFS)結(jié)合,用于支持Nutch引擎的主要算法。因?yàn)镹DFS和MapReduce在Nutch引擎中有著良好的應(yīng)用,所以它們于2006年2月被分離出來,成為一套完整而獨(dú)立的軟件,并被命名為Hadoop。到了2008年初,Hadoop已成為Apache的頂級項(xiàng)目,其包含眾多子項(xiàng)目,并被應(yīng)用到包括Yahoo在內(nèi)的很多互聯(lián)網(wǎng)公司。38優(yōu)點(diǎn)①高可靠性:Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。②高擴(kuò)展性:Hadoop是在可用的計(jì)算機(jī)集群間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集群可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的結(jié)點(diǎn)中。③高效性:Hadoop能夠在結(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù),并保證各個結(jié)點(diǎn)的動態(tài)平衡,且其處理速度非???。④高容錯性:Hadoop能夠自動保存數(shù)據(jù)的多個副本,并能夠自動對失敗的任務(wù)進(jìn)行重新分配。⑤低成本:與一體機(jī)、商用數(shù)據(jù)倉庫及QlikView、YonghongZ-Suite等數(shù)據(jù)集市相比,Hadoop是開源的,項(xiàng)目的軟件成本因此會大大降低。39Hadoop核心框架

①高可靠性:Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。②高擴(kuò)展性:Hadoop是在可用的計(jì)算機(jī)集群間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集群可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的結(jié)點(diǎn)中。③高效性:Hadoop能夠在結(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù),并保證各個結(jié)點(diǎn)的動態(tài)平衡,且其處理速度非常快。④高容錯性:Hadoop能夠自動保存數(shù)據(jù)的多個副本,并能夠自動對失敗的任務(wù)進(jìn)行重新分配。⑤低成本:與一體機(jī)、商用數(shù)據(jù)倉庫及QlikView、YonghongZ-Suite等數(shù)據(jù)集市相比,Hadoop是開源的,項(xiàng)目的軟件成本因此會大大降低。40Hadoop核心框架

41HDFS寫入數(shù)據(jù)流程

42HDFS讀出數(shù)據(jù)流程

43Linux集群44Hadoop發(fā)展現(xiàn)狀45Hadoop設(shè)計(jì)之初的目標(biāo)定位于高可靠性、高可擴(kuò)展性、高容錯性和高效性,正是這些設(shè)計(jì)上與生俱來的優(yōu)點(diǎn)才使得Hadoop一出現(xiàn)就受到眾多大公司的青睞,同時引起了研究界的普遍關(guān)注。Hadoop技術(shù)在互聯(lián)網(wǎng)領(lǐng)域已經(jīng)得到了廣泛運(yùn)用,例如,Yahoo使用4000個結(jié)點(diǎn)的Hadoop集群來支持廣告系統(tǒng)和Web搜索的研究;Facebook使用1000個結(jié)點(diǎn)的集群運(yùn)行Hadoop,用于存儲日志數(shù)據(jù),并支持其上的數(shù)據(jù)分析和機(jī)器學(xué)習(xí);百度使用Hadoop處理每周200TB的數(shù)據(jù),從而進(jìn)行搜索日志分析和網(wǎng)頁數(shù)據(jù)挖掘工作;4.2.4Spark46ApacheSpark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎。Spark是加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室開源的類HadoopMapReduce的通用并行框架。Spark擁有MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是——任務(wù)中間的輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。Spark概述47Spark是一種快速、通用、可擴(kuò)展的大數(shù)據(jù)分析引擎,2009年誕生于加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室,2010年開源,2013年6月成為Apache孵化項(xiàng)目,2014年2月成為Apache頂級項(xiàng)目。目前,Spark生態(tài)系統(tǒng)已經(jīng)發(fā)展成為一個包含多個子項(xiàng)目的集合,其中包含Spark結(jié)構(gòu)化查詢模式(SparkSQL)、Spark實(shí)時計(jì)算模式(SparkStreaming)、圖計(jì)算模式(GraphX)、機(jī)器學(xué)習(xí)庫(MLlib)等子項(xiàng)目。Spark基于內(nèi)存計(jì)算,提高了大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實(shí)時性,同時保證了高容錯性和高可伸縮性,允許用戶將Spark部署在大量廉價硬件之上,形成集群。優(yōu)點(diǎn)48①更快的速度:在內(nèi)存計(jì)算中,Spark的處理速度是Hadoop的100倍。②易用性:Spark提供了80多個高級運(yùn)算符。③通用性:Spark提供了大量的庫,包括Spark內(nèi)核(SparkCore)、SparkSQL、SparkStreaming、MLlib、GraphX,開發(fā)者可以在同一個應(yīng)用程序中無縫組合使用這些庫。④支持多種資源管理器:Spark支持HadoopYARN等資源管理架構(gòu)其自帶的獨(dú)立集群管理器。Spark生態(tài)系統(tǒng)49Spark框架50Spark框架核心組件51用戶程序工作原理524.3大數(shù)據(jù)應(yīng)用

大數(shù)據(jù)的熱潮并未有消退跡象,相反,航空、金融、電子商務(wù)、政府、電信、電力等各個行業(yè)的企業(yè)都在紛紛掘金大數(shù)據(jù)??梢钥闯?,在推動大數(shù)據(jù)企業(yè)應(yīng)用方面,真正看到大數(shù)據(jù)潛在商業(yè)價值的企業(yè)比大數(shù)據(jù)技術(shù)廠商還要著急。例如,IT經(jīng)理網(wǎng)曾經(jīng)報道過沃爾瑪大數(shù)據(jù)實(shí)驗(yàn)室直接參與到大數(shù)據(jù)工具的開發(fā)和開源工作中。在國內(nèi),雖然管理學(xué)界和財(cái)經(jīng)媒體對大數(shù)據(jù)推崇備至,認(rèn)為大數(shù)據(jù)是信息技術(shù)改變商業(yè)世界的關(guān)鍵應(yīng)用,但是關(guān)于大數(shù)據(jù)在我國企業(yè)中應(yīng)用成功的報道卻出奇得少。4.3.1精準(zhǔn)營銷互聯(lián)網(wǎng)企業(yè)使用大數(shù)據(jù)技術(shù)采集客戶的各類數(shù)據(jù),并通過大數(shù)據(jù)分析技術(shù)來建立“用戶畫像”,以抽象地描述用戶的信息全貌,從而可以對用戶進(jìn)行精準(zhǔn)營銷和廣告投放等。554.3.2定制化服務(wù)

電子商務(wù)具有提供差異化服務(wù)的先天優(yōu)勢,可以通過技術(shù)支持實(shí)時獲得用戶的在線記錄,并及時為用戶提供定制化服務(wù)。

許多電子商務(wù)企業(yè)已經(jīng)嘗試依靠數(shù)據(jù)分析在首頁為用戶提供全面的、個性化的商品推薦。例如,海爾和天貓?zhí)峁┝俗層脩粼诰W(wǎng)上定制電視的功能,顧客可以先在電視機(jī)生產(chǎn)以前選擇尺寸、邊框、清晰度、能耗、顏色和接口等,再由廠商組織生產(chǎn)并送貨到顧客家中。這樣的定制化服務(wù)受到了用戶的廣泛歡迎。564.3.3個性化推薦個性化推薦系統(tǒng)通過分析用戶的行為,包括反饋意見、購買記錄和社交數(shù)據(jù)等,以分析和挖掘用戶與商品之間的相關(guān)性,從而發(fā)現(xiàn)用戶的個性化需求、興趣等,并將用戶感興趣的信息、產(chǎn)品推薦給用戶。個性化推薦系統(tǒng)針對用戶特點(diǎn)及興趣愛好進(jìn)行商品推薦,能有效地提高電子商務(wù)系統(tǒng)的服務(wù)能力,從而留住客戶。57新一代信息技術(shù)導(dǎo)論第五章引領(lǐng)未來人工智能第五章引領(lǐng)世界人工智能5.1.人工智能概述本模塊將首先介紹人工智能的概念、特征和發(fā)展歷程,人類對人工智能的態(tài)度,人工智能在各領(lǐng)域的應(yīng)用情況及人工智能的未來發(fā)展趨勢;然后,重點(diǎn)介紹人工智能技術(shù)中的機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等,并詳細(xì)介紹通過人工智能技術(shù)實(shí)現(xiàn)數(shù)字識別、人臉識別的過程;最后,詳細(xì)介紹人工智能技術(shù)在果蔬采摘機(jī)器人中的應(yīng)用。

第五章引領(lǐng)世界人工智能普通公眾對人工智能發(fā)展應(yīng)用的認(rèn)知,始于2016年初的AlphaGo與人類的對局人工智能的應(yīng)用已經(jīng)走進(jìn)了千家萬戶,已經(jīng)無處不在了,只是很多人還沒有完全意識到他的存在5.1.1人工智能的到來人工智能逐漸發(fā)展成一門學(xué)科——人工智能,當(dāng)下最火最具有發(fā)展前景的一個專業(yè)第五章引領(lǐng)世界人工智能5.1.1人工智能的到來人人工智能的定義可以分為兩部分,即“人工”和“智能”,它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)學(xué)科第五章引領(lǐng)世界人工智能5.1.1人工智能的概念5.1.2人工智能的特征第五章引領(lǐng)世界人工智能1.學(xué)習(xí)能力:AI系統(tǒng)能夠從數(shù)據(jù)中學(xué)習(xí)、自動調(diào)整并改進(jìn)性能。2.自主決策:AI系統(tǒng)可以根據(jù)數(shù)據(jù)和先前的經(jīng)驗(yàn)做出決策,且過程無須人類干預(yù)。這包括自主決策制定和問題解決。3.感知能力:AI系統(tǒng)可以感知和理解環(huán)境,包括圖像、聲音、文本等數(shù)據(jù)形式。機(jī)器視覺和自然語言處理是感知能力體現(xiàn)的關(guān)鍵領(lǐng)域。4.模仿人類思維:部分AI系統(tǒng)旨在模仿人類思維過程,包括推理、問題解決和判斷。5.自我改進(jìn):部分AI系統(tǒng)具有自我改進(jìn)的功能,可以通過學(xué)習(xí)錯誤結(jié)果不斷提高性能和判斷的準(zhǔn)確性。6.適應(yīng)性:AI系統(tǒng)能夠適應(yīng)不同的任務(wù)和環(huán)境,從而使系統(tǒng)的預(yù)測結(jié)果具有通用性。7.自動化:AI可以自動執(zhí)行任務(wù),減輕了人類的工作負(fù)擔(dān),典型場景如自動駕駛汽車和自動化生產(chǎn)線。5.1.3人工智能的概念第五章引領(lǐng)世界人工智能人工智能(ArtificialIntelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。5.1.4人工智能的定義第五章引領(lǐng)世界人工智能1.明斯基提出:人工智能是一門科學(xué),是使機(jī)器做那些人需要通過智能來做的事情。2.尼爾遜教授對人工智能下了這樣一個定義:“人工智能是關(guān)于知識的學(xué)科—怎樣表示知識以及怎樣獲得知識并使用知識的科學(xué)?!?.美國麻省理工學(xué)院的溫斯頓教授認(rèn)為:“人工智能就是研究如何使計(jì)算機(jī)去做過去只有人才能做的智能工作?!比斯ぶ悄艿亩x描述包括以下5種:第五章引領(lǐng)世界人工智能1.人工智能是不可思議的計(jì)算機(jī)程序,是機(jī)器可以完成人們認(rèn)為機(jī)器不能勝任的事。人工智能的定義描述包括以下5種:第五章引領(lǐng)世界人工智能2.人工智能是與人類思考方式相似的計(jì)算機(jī)程序,能夠遵照思維里的邏輯規(guī)律進(jìn)行思考。人工智能的定義描述包括以下5種:第五章引領(lǐng)世界人工智能3.人工智能是與人類行為相似的計(jì)算機(jī)程序,只要計(jì)算機(jī)程序的功能表現(xiàn)與人類在類似環(huán)境下行為相似則可以認(rèn)為該程序是該領(lǐng)域的人工智能程序。人工智能的定義描述包括以下5種:第五章引領(lǐng)世界人工智能4.工智能是會學(xué)習(xí)的計(jì)算機(jī)程序,這一定義也符合人類認(rèn)知的特點(diǎn),人類的智慧離不開不斷的學(xué)習(xí)。人工智能的定義描述包括以下5種:第五章引領(lǐng)世界人工智能5.人工智能是根據(jù)對環(huán)境的感知,做出合理的行動,并獲得最大收益的計(jì)算機(jī)程序。5.1.3人工智能的發(fā)展歷程第五章引領(lǐng)世界人工智能1.人工智能元年1956年洛克菲勒基金會提供了7500美元的資金支持,在美國新罕布什爾漢諾威小鎮(zhèn)的達(dá)特茅斯學(xué)院舉辦了為期2個月的人工智能研討會。第五章引領(lǐng)世界人工智能1.人工智能元年艾倫·麥席森·圖靈克勞德·香農(nóng)5.1.3人工智能的發(fā)展歷程圖靈測試第五章引領(lǐng)世界人工智能圖靈測試是測試人在與被測試者(一個人和一臺機(jī)器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。問過一些問題后,如果被測試者超過30%的答復(fù)不能使測試人確認(rèn)出哪個是人、哪個是機(jī)器的回答,那么這臺機(jī)器就通過了測試,并被認(rèn)為具有人類智能。阿蘭·圖靈英國數(shù)學(xué)家、邏輯學(xué)家,被視為計(jì)算機(jī)科學(xué)之父。1931年圖靈進(jìn)入劍橋大學(xué)國王學(xué)院,畢業(yè)后到美國普林斯頓大學(xué)攻讀博士學(xué)位,二戰(zhàn)爆發(fā)后回到劍橋,后曾協(xié)助軍方破解德國的著名密碼系統(tǒng)Enigma,幫助盟軍取得了二戰(zhàn)的勝利。第五章引領(lǐng)世界人工智能2.人工智能的第一個高潮在1956年的會議之后,人工智能迎來了屬于它的第一個發(fā)展高潮。約翰·麥卡錫馬文·明斯基ELIZA聊天機(jī)器人5.1.3人工智能的發(fā)展歷程第五章引領(lǐng)世界人工智能3.人工智能的第一個寒冬20世紀(jì)70年代,人工智能進(jìn)入了第一個發(fā)展低潮。5.1.3人工智能的發(fā)展歷程第五章引領(lǐng)世界人工智能4.人工智能的第二個繁榮期專家系統(tǒng)、神經(jīng)網(wǎng)路的應(yīng)用帶來了人工智能的第二繁榮期5.1.3人工智能的發(fā)展歷程第五章引領(lǐng)世界人工智能5.人工智能的第二個嚴(yán)冬1987-1993是人工智能歷史上的第二個嚴(yán)冬。5.1.3人工智能的發(fā)展歷程第五章引領(lǐng)世界人工智能6.人工智能穩(wěn)健發(fā)展的時代1988年,美國科學(xué)家朱迪亞·皮爾將概率統(tǒng)計(jì)方法引入人工智能的推理過程中,這對后來人工智能的發(fā)展起到了重大影響。英國人工智能科學(xué)家卡朋特開發(fā)了Jabberwacky聊天程序,嘗試更好的通過圖靈測試,至今這個程序的后續(xù)版cleverbot仍然被很多人使用1992年,在蘋果公司任職的華人李開復(fù)使用統(tǒng)計(jì)學(xué)的方法,設(shè)計(jì)開發(fā)了具有連續(xù)語音識別能力的助理程序,Casper,這也是二十年后Siri最早的原型1989年,AT&T貝爾實(shí)驗(yàn)室的雅恩·樂昆和團(tuán)隊(duì)使用卷積神經(jīng)網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)了人工智能識別手寫的郵政編碼數(shù)字圖像。人工智能再次興起5.1.3人工智能的發(fā)展歷程第五章引領(lǐng)世界人工智能Cleverbot教育編程機(jī)器人6.人工智能穩(wěn)健發(fā)展的時代IMB的計(jì)算機(jī)深藍(lán)與人類世界象棋冠軍卡斯帕羅夫之戰(zhàn)5.1.3人工智能的發(fā)展歷程第五章引領(lǐng)世界人工智能小米第二代AI音箱小愛同學(xué)6.人工智能穩(wěn)健發(fā)展的時代米家掃地機(jī)器人5.1.3人工智能的發(fā)展歷程第五章引領(lǐng)世界人工智能6.人工智能穩(wěn)健發(fā)展的時代霍金斯出版了《人工智能的未來》提出新的見解杰弗里辛頓《LearningMultipleLayersofRepresentation》提出了神經(jīng)網(wǎng)絡(luò)的全新的架構(gòu)5.1.3人工智能的發(fā)展歷程第五章引領(lǐng)世界人工智能6.人工智能穩(wěn)健發(fā)展的時代2009華裔科學(xué)家李飛飛讓人工智能程序完全自主的識別圖形中的內(nèi)容2012吳恩達(dá)應(yīng)用一個超強(qiáng)的神經(jīng)網(wǎng)絡(luò),進(jìn)行自主學(xué)習(xí)實(shí)現(xiàn)了小貓的識別5.1.3人工智能的發(fā)展歷程第五章引領(lǐng)世界人工智能6.人工智能穩(wěn)健發(fā)展的時代天博智可旺二代人工智能仿生機(jī)器狗電子寵物波士頓機(jī)器人5.1.3人工智能的發(fā)展歷程第五章引領(lǐng)世界人工智能5.1.3人工智能的發(fā)展歷程5.1.4人類對人工智能的態(tài)度第五章引領(lǐng)世界人工智能1.威脅論的態(tài)度一類為擔(dān)心人工智能威脅人類的“末世論”,霍金警告人類,人工智能終將超越人類的智能,人工智能在未來可能對人類造成威脅第五章引領(lǐng)世界人工智能機(jī)器人三定律第一定律:機(jī)器人不得傷害人類個體,或者目睹人類個體將遭受危險而袖手不管第二定律:機(jī)器人必須服從人給予它的命令,當(dāng)該命令與第一定律沖突時例外第三定律:機(jī)器人在不違反第一、第二定律的情況下要盡可能保護(hù)自己的生存5.1.4人類對人工智能的態(tài)度第五章引領(lǐng)世界人工智能2.積極態(tài)度的“樂天派”機(jī)器也不應(yīng)該成為人的對手,機(jī)器和人合作才有未來5.1.4人類對人工智能的態(tài)度第五章引領(lǐng)世界人工智能5.1.4人類對人工智能的態(tài)度第五章引領(lǐng)世界人工智能第一個真正通過圖靈測試的仿真人細(xì)思極恐5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能1.智能助理Siri小米AI音箱虛擬個人助理,輔助你安排每天的工作、學(xué)習(xí)和生活在線音樂、網(wǎng)絡(luò)電臺、有聲讀物、廣播電臺等,提供新聞、天氣、鬧鐘、倒計(jì)時、備忘、提醒、時間、匯率、股票、限行、算數(shù)、查找手機(jī)、百科/問答、閑聊、笑話、菜譜、翻譯等各類功能

百度輸入法的虛擬智能助理第五章引領(lǐng)世界人工智能2.圖像處理與機(jī)器視覺智能識別人臉和拍照場景,判斷最佳拍照時機(jī)、智能完美虛化,呈現(xiàn)“奶油化開”般迷人效果,幫助人們輕松拍出“大師級”的美照將低光拍攝的照片和長曝光強(qiáng)度足夠的照片進(jìn)行訓(xùn)練人工智獲得模型后處理低光拍攝的照片5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能通過人臉識別能夠快速的識別身份,人臉識別被廣泛應(yīng)用在安保、支付等領(lǐng)域5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能廣義的機(jī)器視覺包括人臉識別、圖像識別、視頻中的圖像識別、場地識別、地點(diǎn)識別等5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能3.音樂、電影、新聞、購物推薦1.根據(jù)個人的歷史記錄推薦新聞、電影音樂;2.根據(jù)個人的喜好進(jìn)行廣告推送;5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能4.客服許多網(wǎng)站都提供用戶與客服在線聊天的窗口,但并不是每個網(wǎng)站都有一個真人提供實(shí)時服務(wù),在很多情況下,和你對話的僅僅只是一個AI5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能5.游戲應(yīng)用大多數(shù)游戲都包含了一些AI的應(yīng)用,最近幾年里,游戲AI的復(fù)雜性和有效性卻迅猛發(fā)展5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能6.安全防護(hù)智能監(jiān)控,監(jiān)控?cái)z像頭系統(tǒng)中引入人工智能技術(shù)5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能人工智能通常部署來監(jiān)控欺詐行為5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能道子智能繪畫系統(tǒng)創(chuàng)作的作品7.人工智能藝術(shù)5.1.5人工智能在各領(lǐng)域的應(yīng)用情況

道子智能繪畫系統(tǒng)創(chuàng)作的黃賓虹繪畫風(fēng)格的藝術(shù)作品第五章引領(lǐng)世界人工智能8.智能搜索引擎智能搜索引擎具有信息服務(wù)的智能化、人性化特征,允許用戶采用自然語言進(jìn)行信息的檢索,為他們提供更方便、更確切的搜索服務(wù)5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能9.機(jī)器翻譯機(jī)器翻譯技術(shù)的發(fā)展一直與計(jì)算機(jī)技術(shù)的發(fā)展緊密相隨,結(jié)合神經(jīng)網(wǎng)絡(luò)的人工智能技術(shù)的應(yīng)用,機(jī)器翻譯的效果已經(jīng)達(dá)到了較高的水平。5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能10.自動駕駛百度無人駕駛汽車5.1.5人工智能在各領(lǐng)域的應(yīng)用情況第五章引領(lǐng)世界人工智能11.機(jī)器人倉儲機(jī)器人實(shí)現(xiàn)貨物的搬運(yùn)人工智能機(jī)器人進(jìn)行生產(chǎn)操作智能機(jī)器人掃地機(jī)器人5.1.5人工智能在各領(lǐng)域的應(yīng)用情況人工智能可以分為“弱人工智能”、“強(qiáng)人工智能”、“超人工智能”當(dāng)前:處于“弱人工智能”未來:有望實(shí)現(xiàn)“強(qiáng)人工智能”指擅長于單方面的人工智能各方面都與人類相當(dāng)?shù)娜斯ぶ悄苋娉饺祟愔悄芩降娜斯ぶ悄芪磥?超人工智能時代第五章引領(lǐng)世界人工智能5.1.6人工智能的未來發(fā)展趨勢第五章引領(lǐng)世界人工智能5.1.6人工智能的未來發(fā)展趨勢第五章引領(lǐng)世界人工智能經(jīng)過60多年的發(fā)展,人工智能在算法、算力(計(jì)算能力)和算料(數(shù)據(jù))等“三算”方面取得了重要突破,正處于從“不能用”到“可以用”的技術(shù)拐點(diǎn),但是距離“很好用”還有諸多瓶頸。5.1.6人工智能的未來發(fā)展趨勢第五章引領(lǐng)世界人工智能人工智能從專用智能向通用智能發(fā)展5.1.6人工智能的未來發(fā)展趨勢第五章引領(lǐng)世界人工智能從人工智能向人機(jī)混合智能5.1.6人工智能的未來發(fā)展趨勢第五章引領(lǐng)世界人工智能從“人工+智能”向自主智能系統(tǒng)發(fā)展5.1.6人工智能的未來發(fā)展趨勢第五章引領(lǐng)世界人工智能人工智能將加速與其他學(xué)科領(lǐng)域交叉滲透5.1.6人工智能的未來發(fā)展趨勢第五章引領(lǐng)世界人工智能人工智能將推動人類進(jìn)入普惠型智能社會5.1.6人工智能的未來發(fā)展趨勢5.2人工智能技術(shù)第五章引領(lǐng)世界人工智能人工智能技術(shù)所取得的成就在很大程度上得益于目前機(jī)器學(xué)習(xí)理論和技術(shù)的進(jìn)步5.2.1知識表示第五章引領(lǐng)世界人工智能知識由概念組成,概念是構(gòu)成人類知識世界的基本單元所謂概念的精確定義,就是可以給出一個命題,亦稱概念的經(jīng)典定義方法概念名內(nèi)涵表示外延表示概念定義原型理論樣例理論知識理論屬于不屬于第五章引領(lǐng)世界人工智能一個概念指稱的所有對象組成的整體稱為該概念的集合集合有兩種表示方法:一種是枚舉表示法,一種是謂詞表示法枚舉法:列出全部對象例如:A={1,2,3,4,5,6,7,8,9,0}

5.2.1知識表示第五章引領(lǐng)世界人工智能知識是人類對客觀世界認(rèn)識的結(jié)晶,并且受到長期實(shí)踐的檢驗(yàn)。5.2.1知識表示第五章引領(lǐng)世界人工智能由于現(xiàn)實(shí)世界的復(fù)雜性,信息可能是精確的,也可能是不精確的、模糊的,關(guān)聯(lián)可能是確定的,也可能是不確定的。造成知識具有不確定性的原因是多方面的,主要有由隨機(jī)性引起的不確定性。5.2.1知識表示第五章引領(lǐng)世界人工智能常用的知識表示方法包括產(chǎn)生式、框架、狀態(tài)空間知識表示方法,其他(如神經(jīng)網(wǎng)絡(luò)等)幾種知識表示方法。產(chǎn)生式框架法狀態(tài)空間神經(jīng)網(wǎng)絡(luò)其它方法常用知識表示方法5.2.1知識表示5.2.2機(jī)器學(xué)習(xí)第五章引領(lǐng)世界人工智能什么叫機(jī)器學(xué)習(xí)?還沒有統(tǒng)一的“機(jī)器學(xué)習(xí)”定義,而且也很難給出一個公認(rèn)的、準(zhǔn)確的定義機(jī)器學(xué)習(xí)的目的是讓機(jī)器能像人樣具有學(xué)習(xí)能力機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)的交叉,也是人工智能和數(shù)據(jù)科學(xué)的核心第五章引領(lǐng)世界人工智能人工智能技術(shù)的關(guān)系結(jié)構(gòu)5.2.2機(jī)器學(xué)習(xí)第五章引領(lǐng)世界人工智能機(jī)器學(xué)習(xí)的目的?是掌握知識、掌握能力、掌握技巧,最終能夠進(jìn)行比較復(fù)雜或者高要求的工作讓機(jī)器獨(dú)立或至少半獨(dú)立地進(jìn)行相對復(fù)雜或者高要求的工作讓機(jī)器幫助人類做一些大規(guī)模的數(shù)據(jù)識別、分揀、規(guī)律總結(jié)等人類做起來比較花時間的事情,這就是機(jī)器學(xué)習(xí)的本質(zhì)性目的人類學(xué)習(xí)的目的?5.2.2機(jī)器學(xué)習(xí)第五章引領(lǐng)世界人工智能機(jī)器學(xué)習(xí)模仿人的學(xué)習(xí)過程(監(jiān)督學(xué)習(xí))根據(jù)提供的數(shù)據(jù)進(jìn)行學(xué)習(xí)

識別圖片中每種動物的特征和對應(yīng)的動物名稱編號通過學(xué)習(xí),獲得認(rèn)知模型測試結(jié)果不滿足識別要求,不能準(zhǔn)確識別未知對象繼續(xù)學(xué)習(xí)每學(xué)習(xí)若干次后使用訓(xùn)練的模型進(jìn)行測試獲得訓(xùn)練模型訓(xùn)練結(jié)果滿足識別要求應(yīng)用模型識別未知對象5.2.2機(jī)器學(xué)習(xí)第五章引領(lǐng)世界人工智能機(jī)器學(xué)習(xí)學(xué)習(xí)過程學(xué)習(xí)數(shù)據(jù)的處理貓的圖片編號為0,獅子類的圖片編號為1,豹子類圖片編號為2,猞猁圖片編號為3,老虎類圖片編號為4每張圖片為320*320的像素構(gòu)成的圖片,每個像素用一個數(shù)據(jù)來描述像素的信息,則一張圖片需要102400將圖片處理為計(jì)算機(jī)能夠讀懂的二進(jìn)制數(shù)據(jù)集保存圖片數(shù)據(jù)及對應(yīng)的編號5.2.2機(jī)器學(xué)習(xí)第五章引領(lǐng)世界人工智能機(jī)器學(xué)習(xí)學(xué)習(xí)過程模型進(jìn)行訓(xùn)練5.2.2機(jī)器學(xué)習(xí)第五章引領(lǐng)世界人工智能機(jī)器學(xué)習(xí)學(xué)習(xí)過程應(yīng)用訓(xùn)練模型進(jìn)行識別5.2.2機(jī)器學(xué)習(xí)第五章引領(lǐng)世界人工智能機(jī)器學(xué)習(xí)可以分為以下五個大類:1.監(jiān)督學(xué)習(xí)(SupervisedLearning):從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個函數(shù),當(dāng)新的數(shù)據(jù)到來時,可以根據(jù)這個函數(shù)預(yù)測結(jié)果,動物識別為監(jiān)督學(xué)習(xí)。2.無監(jiān)督學(xué)習(xí)(Unsupervisedlearning):無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)相比,訓(xùn)練集沒有人為標(biāo)注的結(jié)果。3.半監(jiān)督學(xué)習(xí)(Semi-SupervisedLearning):這是一種介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間的方法。4.遷移學(xué)習(xí)(TransferLearning):將已經(jīng)訓(xùn)練好的模型參數(shù)遷移到新的模型來幫助新模型訓(xùn)練數(shù)據(jù)集。5.增強(qiáng)學(xué)習(xí)(Reinforcementlearning):通過觀察周圍環(huán)境來學(xué)習(xí)。5.2.2機(jī)器學(xué)習(xí)5.2.3神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)第五章引領(lǐng)世界人工智能深度學(xué)習(xí)(deeplearning)中的重要分支—神經(jīng)網(wǎng)絡(luò),或稱人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ANN)。1943年,心理學(xué)家McCulloch和數(shù)學(xué)家Pitts參考了生物神經(jīng)元的結(jié)構(gòu),發(fā)表了抽象的神經(jīng)元模型MP第五章引領(lǐng)世界人工智能一個比較簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通常會分這樣幾層:三層神經(jīng)網(wǎng)絡(luò)多層神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖里的關(guān)鍵不是“神經(jīng)元”,而是連接線(代表“神經(jīng)元”之間的連接)5.2.3神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)第五章引領(lǐng)世界人工智能深度學(xué)習(xí)所涉及的技術(shù)主要有:線性代數(shù)、概率和信息論、欠擬合、過擬合、正則化、最大似然估計(jì)和貝葉斯統(tǒng)計(jì)、隨機(jī)梯度下降、監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)、深度前饋網(wǎng)絡(luò)、代價函數(shù)和反向傳播、正則化、稀疏編碼和dropout、自適應(yīng)學(xué)習(xí)算法、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)和深度堆疊網(wǎng)絡(luò)、LSTM長短時記憶、主成分分析、正則自動編碼器、表征學(xué)習(xí)、蒙特卡洛、受限波茲曼機(jī)、深度置信網(wǎng)絡(luò)、softmax回歸、決策樹和聚類算法、KNN和SVM、生成對抗網(wǎng)絡(luò)和有向生成網(wǎng)絡(luò)、機(jī)器視覺和圖像識別、自然語言處理、語音識別和機(jī)器翻譯、有限馬爾科夫、動態(tài)規(guī)劃、梯度策略算法和增強(qiáng)學(xué)習(xí)(Q-learning)等等。5.2.3神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)第五章引領(lǐng)世界人工智能深度超過8層的神經(jīng)網(wǎng)絡(luò)才叫深度學(xué)習(xí),深度學(xué)習(xí)的”深度“是指從”輸入層“到”輸出層“所經(jīng)歷層次的數(shù)目,即”隱藏層“的層數(shù),層數(shù)越多,深度也越深。5.2.3神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)第五章引領(lǐng)世界人工智能深度學(xué)習(xí)的應(yīng)用第五章引領(lǐng)世界人工智能深度學(xué)習(xí)的應(yīng)用第五章引領(lǐng)世界人工智能神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)目前提供了針對圖像識別,語音識別和自然語言處理領(lǐng)域諸多問題的最佳解決方案。5.2.3神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)第五章引領(lǐng)世界人工智能卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一

。5.2.3神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)第五章引領(lǐng)世界人工智能卷積神經(jīng)網(wǎng)絡(luò)依次為:輸入層-->卷積層->最大池化層->卷積層->最大池化層->全連接層->輸出層5.2.3神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)第五章引領(lǐng)世界人工智能卷積神經(jīng)網(wǎng)絡(luò)普遍用在圖像特征提取上,一些圖像分類、目標(biāo)檢測、文字識別幾乎都使用到卷積神經(jīng)網(wǎng)絡(luò)作為圖像的特征提取方式5.2.3神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別5.3.1卷積神經(jīng)網(wǎng)絡(luò)與圖像識別卷積神經(jīng)網(wǎng)絡(luò)通常應(yīng)用于圖像識別和語音識別等領(lǐng)域,并能給出優(yōu)秀的結(jié)果,也可以應(yīng)用于視頻分析、機(jī)器翻譯、自然語言處理等領(lǐng)域。第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別5.3.1卷積神經(jīng)網(wǎng)絡(luò)與圖像識別一張貓咪的照片,它有寬度和高度屬性,因?yàn)椴噬掌烊淮嬖诩t(R)、綠(G)、藍(lán)(B)3種顏色,所以它還擁有深度屬性,此時貓咪的圖像深度為3;第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別5.3.1卷積神經(jīng)網(wǎng)絡(luò)與圖像識別假設(shè)現(xiàn)在拿出上圖中的一小塊,輸入至一個具有k個輸出的小型神經(jīng)網(wǎng)絡(luò),并將輸出表示為垂直的一小列,在不改變權(quán)重的情況下,通過小型神經(jīng)網(wǎng)絡(luò)滑動掃描整張圖片。此時,輸出端畫出了另一張圖片;第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別5.3.1卷積神經(jīng)網(wǎng)絡(luò)與圖像識別它與之前的寬度和高度不同,更重要的是,它和之前的深度也不同,不再只有紅、綠、藍(lán)3種顏色,而是得到了k個顏色通道(圖像深度為k),這種操作稱為卷積。第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別5.3.1卷積神經(jīng)網(wǎng)絡(luò)與圖像識別首先,假設(shè)有一張彩色圖片,它包括R、G、B的三原色分量,圖像的寬度和高度分別為256像素,彩色圖片的三個顏色通道分別是紅、綠、藍(lán)3個圖層,也可以看作像素點(diǎn)的深度。然后,卷積神經(jīng)網(wǎng)絡(luò)將圖片的寬度和高度進(jìn)行壓縮,使其變成128像素×128像素×16像素的方塊,壓縮的方法是將圖片的寬度和高度縮小,從而增大圖片深度。最后,繼續(xù)將圖片壓縮至64像素×64像素×64像素,直至將圖片壓縮至32像素×32像素×

256像素。此時它變成了一個深度很大的長條方塊,這里稱之為分類器(Classifier)。該分類器能夠?qū)Ψ诸惤Y(jié)果進(jìn)行預(yù)測。卷積神經(jīng)網(wǎng)絡(luò)通過不斷壓縮圖片的寬度和高度,增大深度,最終會得到一個深度很大的分類器,從而進(jìn)行分類預(yù)測。第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別5.3.2數(shù)字識別1.MINIST手寫數(shù)字識別MNIST是一個入門級的計(jì)算機(jī)視覺數(shù)據(jù)集,它包含各種手寫數(shù)字圖片,其中訓(xùn)練集有55000張圖片、驗(yàn)證集有5000張圖片、測試集有10000張圖片。MNIST數(shù)據(jù)集中的手寫數(shù)字圖片第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別5.3.2數(shù)字識別1.MINIST手寫數(shù)字識別4張圖片的標(biāo)簽分別是5、0、4、1。通過MNIST數(shù)據(jù)集可以訓(xùn)練一個機(jī)器學(xué)習(xí)模型用于預(yù)測圖片中的數(shù)字。手寫數(shù)字識別應(yīng)用第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別2.光學(xué)字符識別光學(xué)字符識別(OpticalCharacterRecognition,OCR)是指使用電子設(shè)備(如掃描儀或數(shù)碼照相機(jī))檢查紙上的字符,通過檢測暗、亮的模式確定其形狀,并通過字符識別方法將形狀翻譯成計(jì)算機(jī)文字的過程。第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別人臉識別(也稱為人像識別、面部識別)是現(xiàn)在非常熱門的一個領(lǐng)域,其在安防監(jiān)控、金融等多個領(lǐng)域都有應(yīng)用。通過機(jī)器視覺手段可以找出特定的人物,如識別出多張圖中相同的人,即輸入一個人的照片后,可以讓機(jī)器在數(shù)據(jù)庫中查找此人究竟是誰,這些都是人臉識別的不同應(yīng)用方向。5.3.3人臉識別第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別一是建立一個包含大批量人臉圖像的數(shù)據(jù)庫;二是通過各種方式來獲得當(dāng)前要進(jìn)行識別的目標(biāo)的人臉圖像;三是將目標(biāo)的人臉圖像與數(shù)據(jù)庫中存在的人臉圖像進(jìn)行比對和篩選。人臉識別技術(shù)的實(shí)現(xiàn)主要分為三大步驟:第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別1.人臉識別應(yīng)用人臉圖像的采集與預(yù)處理是對人臉識別技術(shù)實(shí)施流程的第一步,然后基于處理后的圖像進(jìn)行人臉檢測,主要用于檢測并定位圖片中的人臉,返回高精度的人臉框坐標(biāo)及人臉特征點(diǎn)坐標(biāo)。人臉識別會進(jìn)一步提取每個人臉上所含有的特征,并將其與已知的人臉進(jìn)行對比,從而識別出其身份。第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別一個完整的視頻流人臉識別系統(tǒng)的主要工作流程如下:(1)通過OpenCV抓取攝像頭的視頻流。(2)通過多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MultipleTaskCNN,MTCNN)對每幀圖片進(jìn)行人臉檢測和對齊,設(shè)置每n個間隔幀進(jìn)行一次檢測。(3)通過FaceNet預(yù)訓(xùn)練模型對步驟(2)中得到的人臉進(jìn)行512維的特征值提取。(4)收集目標(biāo)數(shù)據(jù)集來訓(xùn)練自己的分類模型。(5)將步驟(3)中得到的512維的特征值作為步驟(4)的輸入,輸出即人臉識別結(jié)果。第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別2.身份識別應(yīng)用人臉識別技術(shù)可以提供人臉檢測與屬性分析、人臉1︰1對比、人臉?biāo)阉骱突铙w檢測等功能。目前靈活應(yīng)用于金融、安防等領(lǐng)域,以滿足身份核驗(yàn)、考勤和閘機(jī)通行等(即身份識別)業(yè)務(wù)需求。第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別(1)人臉檢測。此步驟是在輸入的圖片中查找有沒有人臉,找到人臉?biāo)诘奈恢?,并用方框?biāo)出人臉,以及計(jì)算檢測到的人臉數(shù)量人臉的檢測識別操作第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別(2)人臉跟蹤。此步驟主要是“跟蹤”人臉,通常是在一個視頻流中實(shí)時捕捉到某個人臉部主要特征點(diǎn)的位置,這樣就能得到一個內(nèi)容比較豐富、立體的人臉信息,也能夠從中識別出表情上的細(xì)膩?zhàn)兓H四樚卣鼽c(diǎn)的捕捉第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別(3)人臉識別。人臉識別指通過攝像機(jī)或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進(jìn)而對檢測到的人臉進(jìn)行臉部識別的一系列相關(guān)技術(shù)。其應(yīng)用場景最多的是身份認(rèn)證,無論人臉圖像中人物表情是什么、戴眼鏡與否、圖片中是否為側(cè)臉、光線昏暗與否,甚至年齡發(fā)生變化,也能夠正確識別。第五章引領(lǐng)世界人工智能5.3人工智能技術(shù)應(yīng)用之圖像識別身份驗(yàn)證技術(shù)流程第五章引領(lǐng)世界人工智能5.4人工智能技術(shù)應(yīng)用之果蔬采摘機(jī)器人在工業(yè)4.0、機(jī)器人替代人工勞動的大環(huán)境下,通過智能設(shè)備的集成,機(jī)器人在各種場景中完成特定的任務(wù)已經(jīng)成為目前的研究熱點(diǎn)。移動抓取機(jī)器人分為移動和機(jī)械臂操作兩部分,同時融合了多種傳感器以使機(jī)器人擁有自主感知規(guī)劃的功能。5.4.1機(jī)器人操作系統(tǒng)基本情況第五章引領(lǐng)世界人工智能5.4人工智能技術(shù)應(yīng)用之果蔬采摘機(jī)器人5.4.1機(jī)器人操作系統(tǒng)基本情況本模塊的案例采用了四驅(qū)差速驅(qū)動方式的輪式底盤結(jié)構(gòu)的移動機(jī)器人,通過搭載六自由度的機(jī)械臂和末端執(zhí)行器(機(jī)械爪)實(shí)現(xiàn)果蔬的采摘-抓取-擺放功能。第五章引領(lǐng)世界人工智能機(jī)器人操作系統(tǒng)集合了國內(nèi)外多種主流的機(jī)械臂、激光雷達(dá)等設(shè)備。用戶可以按需選配,從事ROS研究、運(yùn)動控制研究、農(nóng)業(yè)采摘研究、巡檢研究、視覺研究的個人、研究院所及高校團(tuán)隊(duì)都可以使用該產(chǎn)品,這樣可以節(jié)省大量的時間和成本,從而更便捷、更高效、更專注地進(jìn)行研究和開發(fā)工作。5.4人工智能技術(shù)應(yīng)用之果蔬采摘機(jī)器人第五章引領(lǐng)世界人工智能5.4.2果蔬采摘機(jī)器人5.4人工智能技術(shù)應(yīng)用之果蔬采摘機(jī)器人果蔬采摘機(jī)器人由ROS、驅(qū)控一體化移動底盤、協(xié)作機(jī)器人、避障傳感器系統(tǒng)、激光雷達(dá)導(dǎo)航系統(tǒng)、北斗差分定位系統(tǒng)、3D視覺系統(tǒng)和基于5G網(wǎng)絡(luò)的通信系統(tǒng)等組成,其集多種傳感器數(shù)據(jù)采集、數(shù)據(jù)分析及智能控制于一體,可以支持與部署當(dāng)前流行的深度學(xué)習(xí)應(yīng)用。第五章引領(lǐng)世界人工智能將機(jī)械臂、移動底盤攝像頭等硬件設(shè)備結(jié)合為一體的果蔬采摘機(jī)器人,節(jié)省了硬件搭建與調(diào)試的成本。若構(gòu)建一套多設(shè)備的耦合系統(tǒng),將協(xié)作機(jī)械臂搭載在移動機(jī)器人上,并將抓手及深度攝像頭通過連接法蘭安裝在機(jī)械臂的末端法蘭上,則可組成一個帶抓取功能與導(dǎo)航移動功能的機(jī)器人系統(tǒng)。該系統(tǒng)可在非接觸狀態(tài)下操作果蔬采摘機(jī)器人自主完成一片區(qū)域內(nèi)的果蔬的采摘工作。相關(guān)操作人員可以設(shè)定機(jī)器人的工作模式,既可以隨時手動操作,又可以設(shè)定程序?qū)崿F(xiàn)遠(yuǎn)程、無人、自主操作摘取工作。5.4人工智能技術(shù)應(yīng)用之果蔬采摘機(jī)器人第五章引領(lǐng)世界人工智能5.4人工智能技術(shù)應(yīng)用之果蔬采摘機(jī)器人5.4.3自主導(dǎo)航與避障自主導(dǎo)航技術(shù)是提高果蔬采摘機(jī)器人智能程度的核心技術(shù)之一,其中SLAM是解決其自主導(dǎo)航的關(guān)鍵。根據(jù)Cartographer算法進(jìn)行構(gòu)圖和定位,將基于圖優(yōu)化的SLAM分為前端(LocalSLAM)和后端(GlobalSLAM)兩個模塊。第五章引領(lǐng)世界人工智能5.4人工智能技術(shù)應(yīng)用之果蔬采摘機(jī)器人5.4.3自主導(dǎo)航與避障首先,獲取激光雷達(dá)、里程計(jì)和慣性測量裝置(InertialMeasurementUnit,IMU)傳感器數(shù)據(jù);根據(jù)體素濾波器檢測此次姿態(tài)運(yùn)動的大小,根據(jù)優(yōu)化好的位姿將點(diǎn)云幀插入子圖中進(jìn)行疊加,實(shí)現(xiàn)子圖的構(gòu)建?;诟倪M(jìn)的人工智能算法實(shí)現(xiàn)全局位姿優(yōu)化,實(shí)現(xiàn)向當(dāng)前節(jié)點(diǎn)的任意方向前進(jìn)。通過掛載在機(jī)器人上的激光雷達(dá)對周圍地形與障礙物進(jìn)行全方位掃描,以構(gòu)建一塊與真實(shí)可行動空間吻合的環(huán)境地圖。第五章引領(lǐng)世界人工智能5.4人工智能技術(shù)應(yīng)用之果蔬采摘機(jī)器人5.4.3自主導(dǎo)航與避障控制軟件提供了根據(jù)生成地圖進(jìn)行導(dǎo)航的功能。導(dǎo)航時需要先手動指定機(jī)器人的起始位置和目標(biāo)位置,同時機(jī)器人會計(jì)算出機(jī)器人在地圖中的位置,再規(guī)劃最短路徑。將地圖中的每個像素作為圖中的一個節(jié)點(diǎn),規(guī)劃出起始點(diǎn)到目標(biāo)點(diǎn)的最短無障礙路徑,最后計(jì)算出控制命令發(fā)送給移動平臺,使機(jī)器人沿規(guī)劃的路徑前進(jìn),在前進(jìn)的過程中自動避開障礙物。第五章引領(lǐng)世界人工智能5.4人工智能技術(shù)應(yīng)用之果蔬采摘機(jī)器人5.4.4精準(zhǔn)定位與抓取精準(zhǔn)定位與抓取是指使用機(jī)器人的視覺系統(tǒng)對非結(jié)構(gòu)化環(huán)境下的目標(biāo)物體進(jìn)行識別。果蔬采摘機(jī)器人的視覺系統(tǒng)通過掛載在移動底盤與機(jī)械臂上的攝像頭捕捉圖像(因?yàn)闄C(jī)械臂具有靈活性,所以果蔬采摘機(jī)器人能對周圍環(huán)境進(jìn)行多方位觀察),第五章引領(lǐng)世界人工智能5.4人工智能技術(shù)應(yīng)用之果蔬采摘機(jī)器人在開放的復(fù)雜環(huán)境下識別目標(biāo)物體時,通常會因?yàn)轭愃聘蓴_物與自然光線等而導(dǎo)致識別正確率降低,尤其是傳統(tǒng)的識別方案在物體遮掩等問題上表現(xiàn)得不太理想。果蔬采摘機(jī)器人的視覺識別主要圍繞深度學(xué)習(xí)的方法來實(shí)現(xiàn),在可能的場景下預(yù)先對大量包含識別目標(biāo)的數(shù)據(jù)集進(jìn)行標(biāo)注,并加入干擾項(xiàng)得到完整的訓(xùn)練集。第五章引領(lǐng)世界人工智能首先,訓(xùn)練樣本增強(qiáng)。在可能的場景下預(yù)先對大量包含識別目標(biāo)的數(shù)據(jù)集進(jìn)行標(biāo)注,加入干擾項(xiàng)得到完整的訓(xùn)練集。然后,算法模型改進(jìn)。使用基于深度學(xué)習(xí)的Mask(掩膜)RCNN算法檢測蘋果時,需要改進(jìn)模型參數(shù)量以提高檢測速度,加快模型推理速度,在設(shè)置邊框損失的權(quán)重后,可以使分割結(jié)果更加精確。最后,基于3D重建方法的蘋果定位技術(shù)實(shí)現(xiàn)果蔬抓取。5.4人工智能技術(shù)應(yīng)用之果蔬采摘機(jī)器人新一代信息技術(shù)導(dǎo)論

謝謝大家!信息導(dǎo)論新一代江蘇信息職業(yè)技術(shù)學(xué)院

技術(shù)目錄第四章日新月異大數(shù)據(jù)第三章走進(jìn)云計(jì)算時代第二章觸摸世界物聯(lián)網(wǎng)新一代信息技術(shù)導(dǎo)論第五章引領(lǐng)未來人工智能第一章緒論第六章信用基石區(qū)塊鏈新一代信息技術(shù)導(dǎo)論第六章信用基石區(qū)塊鏈第六章信用基石區(qū)塊鏈目錄區(qū)塊鏈概述區(qū)塊鏈技術(shù)區(qū)塊鏈的應(yīng)用第六章信用基石區(qū)塊鏈學(xué)習(xí)目標(biāo)【知識目標(biāo)】了解區(qū)塊鏈的概念與特征;理解區(qū)塊鏈的技術(shù);熟悉區(qū)塊鏈在各行業(yè)中的實(shí)際應(yīng)用?!炯寄苣繕?biāo)】了解區(qū)塊鏈的發(fā)展歷程;了解區(qū)塊鏈應(yīng)用存在的問題與未來的發(fā)展。【素質(zhì)目標(biāo)】培養(yǎng)學(xué)生的數(shù)字化思維,提升其在數(shù)字時代的適應(yīng)能力。第六章信用基石區(qū)塊鏈思維導(dǎo)圖6.1區(qū)塊鏈概述6.1.1概念第六章信用基石區(qū)塊鏈一個去中心化的分布式賬本,其本身是一系列使用密碼學(xué)而產(chǎn)生的互相關(guān)聯(lián)的數(shù)據(jù)塊。區(qū)塊鏈?區(qū)塊鏈作為去中心化的分布式賬本,有什么樣的好處或特征?6.1.1概念6.1.2特征6.1.3發(fā)展歷程6.1區(qū)塊鏈概述6.1.1概念第六章信用基石區(qū)塊鏈信息處理與共享便利價值轉(zhuǎn)移價值轉(zhuǎn)移分享寵視頻?分享手中的錢?√×6.1區(qū)塊鏈概述6.1.1概念第六章信用基石區(qū)塊鏈價值轉(zhuǎn)移6.1區(qū)塊鏈概述6.1.1概念第六章信用基石區(qū)塊鏈價值轉(zhuǎn)移復(fù)制黏貼給收款方?-500+5006.1區(qū)塊鏈概述6.1.1概念第六章信用基石區(qū)塊鏈價值轉(zhuǎn)移6.1區(qū)塊鏈概述6.1.1概念第六章信用基石區(qū)塊鏈分享寵視頻?分享手中的錢?√×將某一部分價值從A地址轉(zhuǎn)移到B地址,需要A地址精確地減少了這部分價值,而B地址精確地增加了這部分價值。這就是區(qū)別于信息轉(zhuǎn)移的價值轉(zhuǎn)移。目前的互聯(lián)網(wǎng)協(xié)議是不支持價值轉(zhuǎn)移功能的。所以,目前的價值轉(zhuǎn)移往往不是直接傳輸,而是由一個中心化的第三方來做背書。價值轉(zhuǎn)移6.1區(qū)塊鏈概述6.1.1概念第六章信用基石區(qū)塊鏈人與人之間信任的建立全靠看臉。遠(yuǎn)古部落雙十一人們相信遠(yuǎn)在千里之外的一個賣衣服商家,并且向他付款。現(xiàn)代社會因?yàn)樵谶@個交易過程中,我們把信任托付給了國家機(jī)構(gòu)或大型企業(yè)這些中心化的第三方。?圖文參考:徐明星等.圖說區(qū)塊鏈[M]北京:中信出版社,2017信用建設(shè)6.1區(qū)塊鏈概述6.1.1概念第六章信用基石區(qū)塊鏈信用建設(shè)6.1區(qū)塊鏈概述6.1.1概念第六章信用基石區(qū)塊鏈基于中心化機(jī)構(gòu)背書的信用體系構(gòu)建本身存在一些局限。對于中心體的過渡依賴系統(tǒng)的可信度問題高昂的信用成本?。。∈召M(fèi):匯款金額的1‰最低50元/筆,最高260元/筆有限性機(jī)會主義為了快速完成信用建設(shè),實(shí)現(xiàn)安全且低成本的價值轉(zhuǎn)移,區(qū)塊鏈技術(shù)就這樣應(yīng)運(yùn)而生了。信用建設(shè)第六章信用基石區(qū)塊鏈6.1區(qū)塊鏈概述6.1.2特征中心化第三方第六章信用基石區(qū)塊鏈6.1區(qū)塊鏈概述6.1.2特征節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)第六章信用基石區(qū)塊鏈6.1區(qū)塊鏈概述6.1.2特征區(qū)塊鏈?zhǔn)欠植际降?,區(qū)塊鏈在網(wǎng)絡(luò)上會有許多獨(dú)立的節(jié)點(diǎn)。在區(qū)塊鏈公信力模型中,區(qū)塊鏈不制定政策,它只是扮演一個公證人的角色。第六章信用基石區(qū)塊鏈6.1區(qū)塊鏈概述6.1.2特征公信力政府公眾區(qū)塊鏈?zhǔn)欠植际降膮^(qū)塊鏈不制定政策而只是一個公證人的角色區(qū)塊鏈?zhǔn)且慌_創(chuàng)造信任的機(jī)器。第六章信用基石區(qū)塊鏈6.1區(qū)塊鏈概述6.1.3發(fā)展歷程區(qū)塊鏈

1.0

時代技術(shù)發(fā)展與數(shù)字貨幣密切相關(guān),應(yīng)用普遍集中在貨幣轉(zhuǎn)移、兌換和支付等方面,這個時期的區(qū)塊鏈技術(shù)找到了一個解決貨幣和支付去中心化的方案。區(qū)塊鏈2.0

時代解決了市場的去中心化問題,以太坊(Ethereum)的概念也開始出現(xiàn)。這一時期的關(guān)鍵詞是“合約”。區(qū)塊鏈3.0

時代代表了區(qū)塊鏈技術(shù)的最新發(fā)展階段,其開始的標(biāo)志是通證(Token)的出現(xiàn)。第六章信用基石區(qū)塊鏈6.2區(qū)塊鏈技術(shù)6.2.1區(qū)塊鏈的賬本系統(tǒng)與交易模型這個城市里有4個居民,他們互相借錢的時候,是這么操作的:假設(shè)乙向甲借了10塊錢,甲就會在人群中大喊:“我是甲,我借給了乙10塊錢!”同時,乙也在人群中大喊:“我是乙,甲借了10塊錢給我!”這時候城市里的其他居民,丙和丁都聽到了這些消息,他們在自己手中的小賬本上把這一事件記錄下來:“某年某月某日,甲借給了乙10塊錢?!睒O端情況:去中心化小城區(qū)塊鏈作為一本去中心化的分布式賬本,如何運(yùn)行呢?第六章信用基石區(qū)塊鏈極端情況:去中心化小城這個去中心化的小城中不再需要一個擁有公信力的組織。這是因?yàn)楫?dāng)分布式結(jié)構(gòu)中的每個人都記賬的時候,篡改賬本是不可行的。我不欠甲10塊錢!不對,我的賬本上明明記錄了你在某年某月某日向了甲借了10塊錢,并且沒有你還款的相關(guān)記錄。6.2區(qū)塊鏈技術(shù)6.2.1區(qū)塊鏈的賬本系統(tǒng)與交易模型第六章信用基石區(qū)塊鏈1.可以無限增加2.加密且有順序3.去中心化6.2區(qū)塊鏈技術(shù)6.2.1區(qū)塊鏈的賬本系統(tǒng)與交易模型第六章信用基石區(qū)塊鏈6.2區(qū)塊鏈技術(shù)6.2.1區(qū)塊鏈賬本系統(tǒng)與交易模型在依托網(wǎng)絡(luò)的區(qū)塊鏈城市中生活著很多居民,他們相互進(jìn)行交易活動。這里,我們舉例關(guān)注其中的五個居民,他們分別是ABCDE。區(qū)塊鏈城市區(qū)塊鏈城市所有交易都依托區(qū)塊鏈賬本系統(tǒng)進(jìn)行。第六章信用基石區(qū)塊鏈6.2區(qū)塊鏈技術(shù)6.2.1區(qū)塊鏈賬本系統(tǒng)與交易模型這五個居民互相進(jìn)行交易,如買賣商品,所以他們相互之間就要進(jìn)行支付。在一次交易中,A首先支付了10元錢給B,此時,A和B就需要記賬,而且為了讓這筆賬在區(qū)塊鏈?zhǔn)澜绲玫匠姓J(rèn),A和B在記賬后都需要將賬單廣播出去,告訴城市中的所有人。稍后,B又由于交易需要支付了5元錢給C,與此同時,B和C也同樣要把對這筆交易的記錄廣播給所有人,如果之后C又支付了2元錢給D,那這一賬單,也同樣需要向全世界廣播。BDAC金額:10金額:5金額:2其他……第六章信用基石區(qū)塊鏈6.2區(qū)塊鏈技術(shù)6.2.1區(qū)塊鏈賬本系統(tǒng)與交易模型對這一時期區(qū)塊鏈城市中發(fā)生的A、B、C、D之間的賬單以及其他賬單進(jìn)行打包,形成一個塊,這個塊稱為區(qū)塊。當(dāng)這一區(qū)塊打包完成后,人們將這個區(qū)塊鏈接到以前的交易記錄上,之后新的區(qū)塊繼續(xù)形成,再將新區(qū)塊繼續(xù)鏈接到這一區(qū)塊之后,這樣就形成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論