人工智能行業(yè)分析報告_第1頁
人工智能行業(yè)分析報告_第2頁
人工智能行業(yè)分析報告_第3頁
人工智能行業(yè)分析報告_第4頁
人工智能行業(yè)分析報告_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

人工智能行業(yè)分析報告人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第1頁。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第1頁。人工智能行業(yè)分析報告行業(yè)深度研究報告2017年9月人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第2頁。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第2頁。目錄1.人工智能厚積薄發(fā),引領(lǐng)IT新一輪革命 41.1.人工智能發(fā)展的三大背景 41.1.1.神經(jīng)網(wǎng)絡(luò)的出現(xiàn),為人工智能的出現(xiàn)提供動力 41.1.2.運(yùn)算能力和儲存能力提升,為人工智能第三次浪潮的到來提供基礎(chǔ) 61.1.3.各界需求的不斷攀升,為人工智能的完善保駕護(hù)航 91.2.人工智能在IT中的架構(gòu)中處于核心地位 111.3.人工智能演化歷史,三起兩落 122.人工智能前沿解析——人工智能全方位超越人類 142.1.感知智能全方面超越人類 152.1.1.人臉識別率達(dá)99.80%,機(jī)器視覺超越人眼 162.1.2.語音識別率接近人類,實(shí)驗(yàn)環(huán)境更待普遍化 192.2.語言領(lǐng)域功能創(chuàng)新讓機(jī)器不再冰冷 212.2.1.語音轉(zhuǎn)錄技術(shù)已成熟,正在逐步實(shí)現(xiàn)各場景滲透 212.2.2.語音交互從各個特殊場景起步,功能日漸強(qiáng)大 242.2.3.特征識別通過語音來實(shí)現(xiàn)身份認(rèn)證 262.3.計算機(jī)視覺讓機(jī)器成為敏銳的觀察者 292.3.1.特定物體識別已實(shí)現(xiàn)突破,其中人臉識別最具價值 292.3.2.通用物體識別是真正強(qiáng)智能時代的標(biāo)志 312.3.3.空間位置感知技術(shù)構(gòu)成無人駕駛最核心功能 332.4.人工智能連下數(shù)城,認(rèn)知智能逐漸突破 352.4.1.AlphaGo攻下圍棋領(lǐng)域,完整信息博弈先下一城 362.4.2.Libratus斬獲德州撲克,非完整信息博弈再下一城 382.4.3.認(rèn)知智能下一座城在何處? 412.5.邏輯推斷完成機(jī)器認(rèn)知智能第一步 422.5.1.行為決策源于游戲,卻高于游戲 422.5.2.知識圖譜為機(jī)器提供更加龐大的認(rèn)知體系 43人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第3頁。3.人工智能算法的突破將為AI應(yīng)用提供無限可能 45人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第3頁。3.1.神經(jīng)網(wǎng)絡(luò)是人工智能算法的核心 453.2.監(jiān)督學(xué)習(xí)算法讓人工智能成為可能 483.2.1.CNN算法帶領(lǐng)機(jī)器視覺全面超越人類 513.2.2.RNN算法幫助機(jī)器聽懂人類語言 553.3.未來智能學(xué)習(xí)新領(lǐng)域——非監(jiān)督學(xué)習(xí)算法 583.3.1.Apriori算法 593.3.2.K-Means算法 603.3.3.高斯混合模型算法 603.4.聚焦算法創(chuàng)新進(jìn)展 613.4.1.FSMN改善語音實(shí)時交互延時問題 613.4.2.DFCNN讓卷積神經(jīng)網(wǎng)絡(luò)“聽得更多” 623.4.3.遷移學(xué)習(xí)擴(kuò)寬深度學(xué)習(xí)算法應(yīng)用邊界 624.人工智能芯片為AI提供物理基礎(chǔ) 634.1.算力提升是人工智能發(fā)展的前提保障 634.2.AI硬件架構(gòu)戰(zhàn)場烽火未定 644.2.1.英偉達(dá)在AI硬件領(lǐng)域率先起跑,已獲得生態(tài)圈優(yōu)勢 654.2.2.Intel大舉并購,成為CPU+FPGA陣營的領(lǐng)軍者 754.2.3.以高通、ARM為代表的ARM陣營有望統(tǒng)一終端計算市場 774.2.4.其他技術(shù)路線應(yīng)受到更大重視 785.人工智能發(fā)展趨勢與投資策略 805.1.MITTechReview2017年人工智能5大趨勢預(yù)測 805.1.1.趨勢一:正向強(qiáng)化學(xué)習(xí)(Positivereinforcement) 805.1.2.趨勢二:對抗性神經(jīng)網(wǎng)絡(luò)(Duelingneuralnetworks) 805.1.3.趨勢三:中國的人工智能熱潮(China'sAIboom) 815.1.4.趨勢四:語言學(xué)習(xí)(Languagelearning) 865.1.5.趨勢五:反對人工智能過度炒作(Backlashtothehype) 87人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第4頁。1.人工智能厚積薄發(fā),引領(lǐng)IT新一輪革命人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第4頁。1.1.人工智能發(fā)展的三大背景2016年是人工智能的元年,AlphaGo的勝利引爆了全民的熱情。如今,人工智能其實(shí)已經(jīng)無所不在,打開你的手機(jī),每個APP里面都是人工智能:百度的搜索欄總會跳出你想要的詞條;淘寶的首頁推薦總是你想要的寶貝;美團(tuán)里推薦的店鋪總是你想去的。如今深度學(xué)習(xí)進(jìn)入一個井噴時代,它就是一個智能大腦,未來人類將會被取代嗎?當(dāng)下在各類新觀點(diǎn)的充斥中,有人說:70%的制造業(yè)工人會下崗,“機(jī)械式體力勞動”被取代;90%醫(yī)生,程序員和編輯也會失業(yè),“可重復(fù)式經(jīng)驗(yàn)判斷”被取代;大學(xué)生的英語四六級不用考了,學(xué)外語變得沒有那么必要,手機(jī)翻譯軟件會做的比你更優(yōu)秀。人類會被A取代嗎?這篇文章會給你答案。1.1.1.神經(jīng)網(wǎng)絡(luò)的出現(xiàn),為人工智能的出現(xiàn)提供動力人類的大腦中有數(shù)百至上千億個神經(jīng)元,而且每個神經(jīng)元都通過成千上萬個“突觸”與其他神經(jīng)元相連,形成超級龐大和復(fù)雜的神經(jīng)元網(wǎng)絡(luò),以分布和并發(fā)的方式傳導(dǎo)信號,相當(dāng)于超大規(guī)模的并行計算(ParallelComputing)。因此盡管單個神經(jīng)元傳導(dǎo)信號的速度很慢(每秒百米的級別,遠(yuǎn)低于計算機(jī)的CPU),但這種超大規(guī)模的并行計算結(jié)構(gòu)仍然使得人腦遠(yuǎn)超計算機(jī),成為世界上到目前為止最強(qiáng)大的信息處理系統(tǒng)。圖1:人工神經(jīng)網(wǎng)絡(luò)示意圖人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第5頁。人工神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò),是一類模式匹配算法。通常用于解決分類和回歸問題。重要的人工神經(jīng)網(wǎng)絡(luò)算法包括:感知器神經(jīng)網(wǎng)絡(luò)(PerceptronNeuralNetwork),反向傳遞(BackPropagation),Hopfield網(wǎng)絡(luò),自組織映射(Self-OrganizingMap,SOM)。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第5頁。深度學(xué)習(xí)算法對人工神經(jīng)網(wǎng)絡(luò)的進(jìn)一步發(fā)展,百度開始大力發(fā)展深度學(xué)習(xí),引起了國內(nèi)的廣泛關(guān)注。在計算能力變得日益發(fā)展的今天,深度學(xué)習(xí)試圖建立更大更復(fù)雜的神經(jīng)網(wǎng)絡(luò)。很多深度學(xué)習(xí)的算法是半監(jiān)督式學(xué)習(xí)算法,用來處理存在少量未標(biāo)識數(shù)據(jù)的大數(shù)據(jù)集。利用數(shù)學(xué)模型的支撐,深度學(xué)習(xí)首先在圖像、聲音和語義識別取得了長足的進(jìn)步,特別是在圖像和聲音領(lǐng)域相比傳統(tǒng)的算法大大提升了識別率。目前,在短短的不到10年時間里,深度學(xué)習(xí)帶來了在視覺、語音等領(lǐng)域革命性的進(jìn)步,引爆了人工智能爆發(fā)的新浪潮。圖2:神經(jīng)網(wǎng)絡(luò)發(fā)展階段一圖3:神經(jīng)網(wǎng)絡(luò)發(fā)展階段二人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第6頁。圖4:深度學(xué)習(xí)近期標(biāo)桿事件人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第6頁。圖5:基本完整的深度學(xué)習(xí)網(wǎng)絡(luò)1.1.2.運(yùn)算能力和儲存能力提升,為人工智能第三次浪潮的到來提供基礎(chǔ)1946年計算機(jī)正式出現(xiàn)在人們的視野中,至今已有70年的發(fā)展歷史,從5000次/秒的加法運(yùn)算能力到現(xiàn)在5.59億次/秒的峰值計算速度;從簡單的科學(xué)計算到現(xiàn)在各領(lǐng)域數(shù)據(jù)處理的應(yīng)用;從單機(jī)處理到全球網(wǎng)絡(luò)互聯(lián)互通的協(xié)同作業(yè);從人工連線驅(qū)動計算到現(xiàn)在的智能大腦的誕生;計算機(jī)運(yùn)算能力的不斷提升,為人工智能大時代的到來提供了物理硬件基礎(chǔ)。圖6:CPU架構(gòu)人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第7頁。圖7:GPU架構(gòu)人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第7頁。CPU和GPU架構(gòu)差異很大,其中綠色的是計算單元,橙色的是存儲單元,黃色的是控制單元。CPU功能模塊很多,能適應(yīng)復(fù)雜運(yùn)算環(huán)境;GPU構(gòu)成則相對簡單,目前流處理器和顯存控制器占據(jù)了絕大部分晶體管。相比于CPU,GPU的計算速度有了質(zhì)的飛躍,它擁有驚人的處理浮點(diǎn)運(yùn)算的能力。2005年GPU的出現(xiàn),極大地提高了運(yùn)算效率,并促使無人監(jiān)督學(xué)習(xí)技術(shù)(深度學(xué)習(xí)涉及技術(shù)中的一種)成功。摩爾定律其實(shí)不是預(yù)測CPU性能提高的規(guī)律,而是預(yù)測半導(dǎo)體技術(shù)提高幅度的規(guī)律,主要是晶體管的集成度?,F(xiàn)在CPU的技術(shù)進(jìn)步正在慢于摩爾定律,而GPU(視頻卡上的圖形處理器)的運(yùn)行速度已超過摩爾定律,而且每6個月其性能都會增加一倍。2006年,在GPU與CPU價格相當(dāng)?shù)那闆r下,GPU的計算能力已經(jīng)遠(yuǎn)遠(yuǎn)高于CPU的計算能力。可見GPU并行計算已成未來趨勢。圖8:CPU和GPU計算能力比較人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第8頁。并行計算是指同時對多個任務(wù)或多條指令、或?qū)Χ鄠€數(shù)據(jù)項(xiàng)進(jìn)行處理。完成此項(xiàng)處理的計算機(jī)系統(tǒng)稱為并行計算機(jī)系統(tǒng),它是將多個處理器(可以幾個、幾十個、幾千個、幾萬個等)通過網(wǎng)絡(luò)連接以一定的方式有序地組織起來。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第8頁。將摩爾定律簡單應(yīng)用在芯片集成度的增長方面,我們可以得出這在今天意味著:每年單芯片中可以大約多放置50%的元件。通過集成度的指數(shù)倍增長,計算成本被不斷壓縮。圖9:摩爾定律驅(qū)動的產(chǎn)業(yè)就存儲行業(yè)方面而言,從最初的SAN和NAS存儲到今天的云存儲,我們能夠看到存儲行業(yè)的變遷。圖10:機(jī)械硬盤:容量增加了100萬倍人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第9頁。圖11:服務(wù)器磁盤存儲:36萬倍的提升人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第9頁。1956年,世界上第一款硬盤驅(qū)動器RAMAC350問世,看上去像是一個空氣凈化器,重量達(dá)到了一噸,存儲容量僅為5MB,當(dāng)時的售價超過5000美元(時值人民幣13000元),可謂天價?,F(xiàn)在,臺式機(jī)硬盤普遍為3.5英寸大小,單塊容量可達(dá)4TB。同時,硬盤技術(shù)仍在不斷進(jìn)化,在2020年,使用磁記錄技術(shù)(HAMR)的硬盤可以實(shí)現(xiàn)60TB的容量。第一代的服務(wù)器僅用于256MBRAM和2GB的硬盤空間,而22年后,則進(jìn)化至128GBRAM和720TB的硬盤空間,實(shí)現(xiàn)了36萬倍的提升。當(dāng)然,存儲機(jī)制、速度的進(jìn)化也是不能忽略的?;谠朴嬎惆l(fā)展起來的云儲存系統(tǒng),不僅能使人們在任何時間地點(diǎn),只要通過可聯(lián)網(wǎng)裝置便可鏈接到云端方便存儲。云儲存除了給人們生活帶來了幾大的便利,還大大減少了移動儲存設(shè)備的使用,降低了企業(yè)成本;基于使用人數(shù)和空間可以及時的進(jìn)行持續(xù)擴(kuò)展,而且不會影響前端客戶;數(shù)據(jù)的實(shí)時同步有效避免了介質(zhì)存儲數(shù)據(jù)造成丟失損壞的問題,提升了安全性。隨著摩爾定律的不斷印證,計算機(jī)計算性能大幅度提升,再加上不斷擴(kuò)大的儲存空間和不斷降低的儲存成本,為人工智能的飛速發(fā)展奠定了硬件基礎(chǔ)。1.1.3.各界需求的不斷攀升,為人工智能的完善保駕護(hù)航如今,人類對人工智能的需求不斷增加:在工業(yè)制造業(yè)中,大量的機(jī)器人可以提升制造效率,可以減少產(chǎn)品的殘次率,更重要的是在人力成本上的節(jié)?。辉诎卜李I(lǐng)域中,通過視頻監(jiān)控,人臉識別,人群監(jiān)控等技術(shù)為市民安全帶來保障;在醫(yī)療健康方面,通過海量數(shù)據(jù)對比輔助醫(yī)生進(jìn)行診斷,自動讀片等;在智能駕人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第10頁。駛方面,路標(biāo)識別的準(zhǔn)確率不斷提高,圖像和運(yùn)動傳感器與全球定位系統(tǒng)結(jié)合,大大地降低了成本,提升了整體安全系數(shù)。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第10頁。短期階段,人工智能在金融領(lǐng)域會取得較大發(fā)展;到了中期,隨著大數(shù)據(jù)技術(shù)的不斷完善,海量的數(shù)據(jù)積累,會推動人工智能在醫(yī)療方面取得新的突破;從長期來看,人工智能的最終點(diǎn)就是無人駕駛,計算力、海量數(shù)據(jù)、算法與決策、以及傳感器的數(shù)據(jù)采集四要素完備以后,人類才能逐步實(shí)現(xiàn)全天候、全自動化的無人駕駛。圖12:人工智能板塊藍(lán)圖人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第11頁。1.2.人工智能在IT中的架構(gòu)中處于核心地位人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第11頁。圖13:ICT在過去的變革信息和通訊技術(shù)(ICT),它是信息技術(shù)與通訊技術(shù)相融合而形成的一個新的概念和新的技術(shù)領(lǐng)域。如今云計算、移動化、網(wǎng)絡(luò)和大數(shù)據(jù)技術(shù)不斷走向深度融合,人工智能在IT架構(gòu)中的核心地位也日益顯現(xiàn)。從移動互聯(lián)時代開始,從軟件到硬件、從信息收集到平臺服務(wù),人工智能在各個領(lǐng)域的生態(tài)會更加完整,未來隨著物聯(lián)網(wǎng)和云計算的發(fā)展,人工智能在應(yīng)用方面的深度和廣度會越來越大。全球市場研究機(jī)構(gòu)IDC公司首席分析師FrankGens指出:“未來4到5年,云解決方案的數(shù)量預(yù)計將增加10倍。許多云解決方案的戰(zhàn)略重要性將超過傳統(tǒng)IT。與此同時,領(lǐng)先的云提供商將面臨前所未有的競爭和整合壓力。大規(guī)模創(chuàng)新將不斷涌現(xiàn),企業(yè)之間的競爭日趨白熱化,未來幾年將成為當(dāng)前和新興IT市場領(lǐng)導(dǎo)者的關(guān)鍵時期?!钡?025年,全球?qū)⒂?000億臺數(shù)字設(shè)備接入物聯(lián)網(wǎng),物聯(lián)網(wǎng)市場估值將高達(dá)2萬億美元。屆時,ICT供應(yīng)商需要以互聯(lián)基礎(chǔ)設(shè)施和移動寬帶技術(shù)為基礎(chǔ),打造最高水準(zhǔn)的數(shù)字生態(tài)體系,讓人們無論何時何地都能享受高速聯(lián)接服務(wù)。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第12頁。圖14:人工智能產(chǎn)業(yè)生態(tài)格局的三層基本架構(gòu)人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第12頁。底層為基礎(chǔ)資源支持層,由運(yùn)算平臺和數(shù)據(jù)工廠組成;中層為AI技術(shù)層,通過不同類型的算法建立模型,形成有效的可供應(yīng)用的技術(shù);頂層為AI應(yīng)用層,利用AI技術(shù)為用戶提供智能化的服務(wù)和產(chǎn)品;每一層架構(gòu)中,都有不同的企業(yè)參與,最終形成圍繞AI技術(shù),產(chǎn)品和服務(wù)的生態(tài)圈。1.3.人工智能演化歷史,三起兩落人工智能的Founder——圖靈(AlanTuring),他既是計算機(jī)之父,也是人工智能之父。人工智能是指計算機(jī)系統(tǒng)具備的能力,它可以履行原本只有依靠人類智慧才能完成的復(fù)雜任務(wù)。硬件體系能力的不足加上發(fā)展道路上曾經(jīng)出現(xiàn)偏差,以及算法的缺陷,使得人工智能技術(shù)的發(fā)展在上世紀(jì)80—90年代曾經(jīng)一度低迷。近年來,成本低廉的大規(guī)模云計算、大數(shù)據(jù)、深度學(xué)習(xí)算法、需求應(yīng)用4大催化劑的齊備,導(dǎo)致人工智能的發(fā)展出現(xiàn)了向上的拐點(diǎn)。人工智能第一次浪潮(1956-1976):這二十年間主要是符號主義、推理、專家系統(tǒng)等領(lǐng)域的迅速發(fā)展。1956年的達(dá)特矛斯會議上,提出的斷言之一是“學(xué)習(xí)或者智能的任何其他特性的每一個方面都應(yīng)能被精確地加以描述,使得機(jī)器可以對其進(jìn)行模擬?!蓖瑫r,會議確立了AI的名稱和基本任務(wù),因此這一事件被廣泛承認(rèn)為AI誕生的標(biāo)志。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第13頁。圖15:人工智能的演化歷史人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第13頁。人工智能的第一次低谷:到了70年代,由于計算機(jī)性能的瓶頸、計算復(fù)雜性的增長以及數(shù)據(jù)量的不足,很多項(xiàng)目的承諾無法兌現(xiàn),比如現(xiàn)在常見的計算機(jī)視覺根本找不到足夠的數(shù)據(jù)庫去支撐算法去訓(xùn)練,智能也就無從談起。后來學(xué)界將人工智能分為兩種:難以實(shí)現(xiàn)的強(qiáng)人工智能和可以嘗試的弱人工智能。人工智能第二次浪潮(1976-2000):鏈接主義盛行,深度學(xué)習(xí)尚未突破。1975年P(guān)ualWerbos提出了BP算法,使得多層人工神經(jīng)元網(wǎng)絡(luò)的的學(xué)習(xí)邊城可能。1986年兩層神經(jīng)元網(wǎng)絡(luò)的提出,是整個人工智能浪潮的奠基性工作。BP網(wǎng)絡(luò)的出現(xiàn)第一次證明,神經(jīng)元網(wǎng)絡(luò)可以通過BP網(wǎng)絡(luò)使得這個網(wǎng)絡(luò)可以收斂,在這個基礎(chǔ)上就能實(shí)現(xiàn)學(xué)習(xí)了。人工智能的第二次危機(jī):20世紀(jì)90年代之前的大部分人工智能項(xiàng)目都是靠政府機(jī)構(gòu)的資助資金在研究室里支撐,經(jīng)費(fèi)的走向直接影響著人工智能的發(fā)展。80年代中期,蘋果和IBM的臺式機(jī)性能已經(jīng)超過了運(yùn)用專家系統(tǒng)的通用型計算機(jī),人工智能研究再次遭遇經(jīng)費(fèi)危機(jī)。同時,商業(yè)機(jī)構(gòu)對AI的追捧,導(dǎo)致了大量的經(jīng)濟(jì)泡沫,美股暴跌。人工智能的第三次浪潮(2000-至今):鏈接主義盛行,深度學(xué)習(xí)取得突破。除了硬件的進(jìn)步,還有卷積神經(jīng)網(wǎng)絡(luò)模型CNN及參數(shù)訓(xùn)練技巧的進(jìn)步。標(biāo)志性的事情是,2012年Hinton的學(xué)生在圖片分類競賽ImageNet上大大降低了錯誤人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第14頁。率,打敗了工業(yè)界的巨頭Google,這不僅學(xué)術(shù)意義重大,更是吸引了工業(yè)界大規(guī)模的對深度學(xué)習(xí)的投入。Google收購Hinton的DNN、LeCun加盟Facebook、百度成立深度學(xué)習(xí)研究所,不僅科技巨頭們加大對AI的投入,一大批初創(chuàng)公司也隨著深度學(xué)習(xí)的風(fēng)潮涌現(xiàn),使得人工智能的第三次浪潮熱鬧非凡。從人工智能發(fā)展的歷史看,基本上是一個算法進(jìn)化的歷史。隨著計算速度的越來越快,數(shù)據(jù)越來越豐富,新的算法不斷被開發(fā),人工智能的未來讓人充滿了想象。人工智能的未來人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第14頁。發(fā)展:1.探索新的機(jī)器學(xué)習(xí)方法,是發(fā)展人工智能的主要引擎;2.推動以知識處理為核心的研究,攻克非確定性信息處理難題;3.發(fā)展以神經(jīng)網(wǎng)絡(luò)為主的感知與識別系統(tǒng),提升識別準(zhǔn)確率;2.人工智能前沿解析——人工智能全方位超越人類人工智能主要三階段:運(yùn)算智能、感知智能、認(rèn)知智能。圖16:人工智能三大階段第一階段運(yùn)算智能,即快速計算和記憶存儲能力。人工智能所涉及的各項(xiàng)技術(shù)的發(fā)展是不均衡的?,F(xiàn)階段計算機(jī)比較具有優(yōu)勢的是運(yùn)算能力和存儲能力。1996年IBM的深藍(lán)計算機(jī)戰(zhàn)勝了當(dāng)時的國際象棋冠軍卡斯帕羅夫,從此,人類在這樣的強(qiáng)運(yùn)算型的比賽方面就不能戰(zhàn)勝機(jī)器了。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第15頁。表1:人工智能最新進(jìn)展人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第15頁。第二階段感知智能,即視覺、聽覺、觸覺等感知能力。人和動物都具備,能夠通過各種智能感知能力與自然界進(jìn)行交互。自動駕駛汽車,就是通過激光雷達(dá)等感知設(shè)備和人工智能算法,實(shí)現(xiàn)這樣的感知智能的。機(jī)器在感知世界方面,比人類還有優(yōu)勢。人類都是被動感知的,但是機(jī)器可以主動感知,如:激光雷達(dá)、微波雷達(dá)和紅外雷達(dá)。第三階段認(rèn)知智能,即能理解會思考的能力。人類有語言,才有概念,才有推理,所以概念、意識、觀念等都是人類認(rèn)知智能的表現(xiàn)?,F(xiàn)今,全球市場都在人工智能的巨大浪潮中,各家公司、機(jī)構(gòu)加緊對戰(zhàn)略、研發(fā)和投資的部署和準(zhǔn)備。其中,國外的科技巨頭-蘋果、谷歌、微軟、IBM,國內(nèi)的互聯(lián)網(wǎng)巨頭-百度、阿里、騰訊,國內(nèi)專業(yè)科技公司-商湯科技、Face++、科大訊飛等都在這場巨大的革命性的風(fēng)潮中,開始對感知智能、認(rèn)知智能進(jìn)行投入,并開始嶄露頭角。2.1.感知智能全方面超越人類感知智能有賴于數(shù)據(jù)獲取技術(shù),目前主要有語音識別和機(jī)器視覺兩種技術(shù)。通過傳感器獲得“視覺”、“聽覺”等感知能力,與周圍環(huán)境進(jìn)行交互。在大力的投資下,由于計算處理能力的突破以及互聯(lián)網(wǎng)大數(shù)據(jù)的爆發(fā),再加上深度學(xué)習(xí)算法在數(shù)據(jù)訓(xùn)練上取得的進(jìn)展,算法、計算、數(shù)據(jù)三者都已成熟,推動了人工智能在感知智能上實(shí)現(xiàn)巨大突破。人臉識別超越人眼,語音識別無限接近。機(jī)器視覺方面,根據(jù)LabeledFacesintheWild(LFW)公布的2016年人臉識別榜單,近年來機(jī)器視覺技術(shù)發(fā)展極為迅猛,不僅超越了人眼對剪裁后人臉97.53%的識別率,今年更是超越了人眼對完整人臉99.20%的超高識別率,最高達(dá)到了騰訊優(yōu)圖公布的99.80%。語音識別人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第16頁。方面,百度、搜狗、科大訊飛都在2016年11月發(fā)布稱,對中文的識別錯誤率降低到了3%,超越了人類自身對中文4%左右的識別錯誤率;微軟、IBM也陸續(xù)表示,對于英文的識別錯誤率也降低到了5%+的超高水準(zhǔn),最低達(dá)到了IBM的5.5%的超低錯誤率,無限接近人類對英文5.1%的識別錯誤率。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第16頁。我們認(rèn)為,經(jīng)過深度學(xué)習(xí)這項(xiàng)里程碑性的技術(shù)突破發(fā)展,機(jī)器視覺方面,人工智能在識別率等技術(shù)上已經(jīng)成功超越人類水平,下一階段更應(yīng)該關(guān)注三維信息、大規(guī)模N對N比對等技術(shù)發(fā)展和技術(shù)應(yīng)用等問題;語音辨別方面,人工智能雖然已經(jīng)無限接近人類水準(zhǔn),但是仍然存在1%識別率差距、實(shí)驗(yàn)條件局限等最后1公里要走,未來必須在發(fā)展產(chǎn)品應(yīng)用的同時,抓緊研發(fā)突破核心技術(shù),實(shí)現(xiàn)對人類感知的全方位超越。2.1.1.人臉識別率達(dá)99.80%,機(jī)器視覺超越人眼機(jī)器視覺代替人眼。簡單的說,機(jī)器視覺就是用機(jī)器代替人眼來做測量和判斷。機(jī)器視覺系統(tǒng)是通過機(jī)器視覺產(chǎn)品(即圖像攝取裝置,分CMOS和CCD兩種)將被攝取目標(biāo)轉(zhuǎn)換成圖像信號,傳送給專用的圖像處理系統(tǒng),得到被攝目標(biāo)的形態(tài)信息,根據(jù)像素分布和亮度、顏色等信息,轉(zhuǎn)變成數(shù)字化信號;圖像系統(tǒng)對這些信號進(jìn)行各種運(yùn)算來抽取目標(biāo)的特征,進(jìn)而根據(jù)判別的結(jié)果來控制現(xiàn)場的設(shè)備動作。人臉識別率達(dá)99.80%,攻破人類視覺感知最后一道防線。對于人臉的識別,是人工智能在視覺方面最主要的應(yīng)用之一,也是作為人工智能和人眼比較的重要標(biāo)志。根據(jù)LabeledFacesintheWild數(shù)據(jù)顯示,人眼對于遮擋的人臉的識別率為94.27%,對于剪裁后的人臉識別率為97.53%,而人眼對于完整的人臉識別率則達(dá)到了99.20%的超高準(zhǔn)確率。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第17頁。圖17:機(jī)器視覺工作原理人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第17頁。2016年年底,LFW榜單公布了最新的人臉識別榜單數(shù)據(jù),人工智能在人臉識別領(lǐng)域進(jìn)展突飛猛進(jìn),不僅超越了人眼對剪裁后臉部97.53%的識別率,更是突破了看似高不可及的99.20%的人眼對完整臉部的識別率。根據(jù)榜單顯示,2016年,數(shù)十家企業(yè)、機(jī)構(gòu)的人眼識別率達(dá)到了99%以上的超高水準(zhǔn),其中具有代表性的包括了最高值騰訊優(yōu)圖的99.80%、中科奧森和百度的99.77%、谷歌FaceNet的99.63%、DeepID和商湯科技的99.53%、中科云從和Face++的99.50%以及飛搜科技的99.40%,具超越了人眼極限99.20%的識別率。圖18:人工智能99.80%超越人類人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第18頁。圖19:高置信度條件人工智能顯優(yōu)勢人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第18頁。實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)確可信,高置信度條件人工智能優(yōu)勢更明顯。LabeledFacesintheWild榜單的識別率確定方法,采用的是統(tǒng)計學(xué)分布的方式。我們根據(jù)LFW網(wǎng)站數(shù)據(jù),重現(xiàn)了人臉識別FalsePositiveRate-TruePositiveRate的數(shù)據(jù)圖,并做出更加深入的分析。我們可以看出,在任意存?zhèn)温实闹眯哦葪l件下,人工智能的識別準(zhǔn)確率都要高于人眼的識別率。在存?zhèn)温?.05的置信度條件下,人工智能識別準(zhǔn)確率達(dá)到了99.95%的超高值,比人眼識別完整臉部的準(zhǔn)確率略高一籌,遠(yuǎn)高于人眼對剪裁或者遮擋后人臉的識別準(zhǔn)確率。我們進(jìn)行了更加深入的分析,當(dāng)存?zhèn)温氏陆档?.01的置信度條件下,騰訊優(yōu)圖和百度的識別準(zhǔn)確率仍然保持在99.60%和99.53%,F(xiàn)ace++的識別準(zhǔn)確率為97.23%,而人眼對完整人臉的識別準(zhǔn)確率則降低到了96.80%,人眼對裁剪和遮擋后臉部的識別準(zhǔn)確率甚至降低到了82.73%和44.03%的水準(zhǔn)。我們得出結(jié)論:首先,在置信度提高的過程中,人工智能的人臉識別準(zhǔn)確率仍然保持著極高的水準(zhǔn),數(shù)據(jù)浮動極小,可判斷FLW榜單公布的人工智能識別率最高值99.80%等數(shù)據(jù)均準(zhǔn)確可信;再則,當(dāng)存?zhèn)温蕪?.05提升到0.01后,數(shù)據(jù)的置信度水平更加高,更適應(yīng)于極其精確的嚴(yán)苛條件,而此時人工智能和人眼的識別準(zhǔn)確率差別幾乎翻了10倍達(dá)到了大約3%,標(biāo)志著條件越苛刻,置信度人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第19頁。條件越高,人工智能的優(yōu)勢將得到更大的體現(xiàn)。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第19頁。跳出識別率競爭,實(shí)現(xiàn)多維度趕超人類。經(jīng)過深度學(xué)習(xí)這項(xiàng)里程碑性的技術(shù)突破發(fā)展,機(jī)器視覺方面,人工智能在識別率等技術(shù)上已經(jīng)完全超越人類水平,下一階段更應(yīng)該跳出識別率競爭,實(shí)現(xiàn)對人類的多維度超越。其中,三維信息結(jié)合、多特征融合、大規(guī)模N對N人臉對比和大數(shù)據(jù)應(yīng)用都應(yīng)該作為重要發(fā)展方向,加以關(guān)注。2.1.2.語音識別率接近人類,實(shí)驗(yàn)環(huán)境更待普遍化識別與理解,將語音轉(zhuǎn)化為命令。語音識別是感知智能的應(yīng)用,形象的說可以比做為“機(jī)器的聽覺系統(tǒng)”。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程,把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個方面。語音識別技術(shù)所涉及的領(lǐng)域包括信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等。圖20:微軟語音識別Cortana圖21:蘋果語音識別人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第20頁。識錯率英文5.5%、中文3%,人工智能無限接近人類水準(zhǔn)。語音識別作為感知智能重要的一部分,其識別率水準(zhǔn)也被視作人工智能和人類在感知領(lǐng)域較量的一個重要部分。2016年以來,各家人工智能巨頭在語音識別方面陸續(xù)發(fā)布消息,表示自身人工智能的識錯率進(jìn)一步下降。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第20頁。中文方面,搜狗、百度、科大訊飛于2016年11月陸續(xù)宣布,公司人工智能對中文的語音識別取得了里程碑式的突破,識錯率降低到了3%的水平,成功超越了人類對中文4%的識錯率。英文方面,根據(jù)微軟官方宣稱,公司人工智能語音識別英文識錯率于2016年降到了5.9%的水平,第一次突破6%的大關(guān);2017年3月,IBM公司發(fā)布消息,公司人工智能語音識別取得了突破性的進(jìn)展,英文識錯率成功達(dá)到了5.5%的水平,距離人類對英文識錯率5.1%只差一步之遙,標(biāo)志著人工語音識別在英文領(lǐng)域已經(jīng)無限接近人類。圖22:英文語音識錯率人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第21頁。圖23:中文語音識錯率人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第21頁。實(shí)驗(yàn)條件過于嚴(yán)苛,核心技術(shù)更待突破。近年來,各家人工智能巨頭們紛紛表示聲稱,公司語音識別取得進(jìn)展,識錯率降低到了人類水平,但是,各家公司的實(shí)驗(yàn)條件都設(shè)置得極其的嚴(yán)苛,比如環(huán)境安靜、發(fā)音標(biāo)準(zhǔn)、語音連貫、無方言等各項(xiàng)規(guī)定,無法普遍適用于實(shí)際語言環(huán)境。我們認(rèn)為,各大企業(yè)在深度學(xué)習(xí)技術(shù)應(yīng)用于語音識別之后,語音識別識別率水準(zhǔn)提高了極多,并開始大力推廣智能語音的各項(xiàng)產(chǎn)品和市場應(yīng)用,但是與此同時,各家企業(yè)必須正視適用條件的現(xiàn)實(shí)問題,致力于核心技術(shù)的研發(fā)與突破,期待在下一次像深度學(xué)習(xí)這樣的里程碑式進(jìn)展的時刻,實(shí)際解決環(huán)境、條件等實(shí)際問題,確保3%的識錯率普遍適用于現(xiàn)實(shí)。2.2.語言領(lǐng)域功能創(chuàng)新讓機(jī)器不再冰冷語言應(yīng)用包括語音識別(SpeechRecognition)和語義理解(NaturalLanguageUnderstanding)。語音識別是將語音轉(zhuǎn)換為文本的技術(shù)。通過特征提取、模式匹配將語音信號變?yōu)槲谋净蛎?,以?shí)現(xiàn)讓機(jī)器識別和理解語音。語義理解則可以讓計算機(jī)對文本進(jìn)行理解。語義理解的文本可以是語音識別系統(tǒng)轉(zhuǎn)換而來,也可以由用戶直接輸入。語義理解建立在自然語言處理的模型基礎(chǔ)上,它可以讓機(jī)器對人類的自然語音進(jìn)行理解。這兩種應(yīng)用有時會單獨(dú)使用,但是更多時候需要它們結(jié)合發(fā)揮更好的功效。語音類應(yīng)用包括語音轉(zhuǎn)錄、語音交互、特征識別和機(jī)器翻譯。2.2.1.語音轉(zhuǎn)錄技術(shù)已成熟,正在逐步實(shí)現(xiàn)各場景滲透語音轉(zhuǎn)錄是指計算機(jī)將語音轉(zhuǎn)化為文字的過程,這一過程建立在語音識別上,人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第22頁。是語言類其他應(yīng)用的基礎(chǔ)。語音轉(zhuǎn)錄的使用范圍非常廣泛,在客服類應(yīng)用、智能手機(jī)、智能家居領(lǐng)域都有涉及。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第22頁。客服類應(yīng)用指使用采取自助語音服務(wù)與客戶進(jìn)行互動。人工智能客服可以代替一部分人工客服服務(wù),降低人力成本。同時,人工智能客服強(qiáng)大的語音識別功能可以將傳統(tǒng)客服電話中繁冗的按鍵菜單扁平化,有效降低用戶操作時間,改善用戶體驗(yàn)。在國內(nèi),科大訊飛在人工智能客服行業(yè)走在行業(yè)前端??拼笥嶏w的智能客服解決方案基于科大訊飛智能語音及語言技術(shù),可以理解用戶的語音信息并與之進(jìn)行交互??拼笥嶏w智能客服解決方案已成功應(yīng)用于電信、金融、電力、交通和教育等行業(yè)。中國移動和中國聯(lián)通的人工智能客戶服務(wù)由科大訊飛提供。用戶用語言對語音機(jī)器人下達(dá)指令便可以便捷地辦理業(yè)務(wù)。原先的前臺-人工服務(wù)的結(jié)構(gòu)也改變?yōu)檎Z音導(dǎo)航-人工服務(wù)的架構(gòu)。人工智能語音客服可以將傳統(tǒng)繁雜的撥號導(dǎo)航菜單進(jìn)行極大簡化,同時拓展了自主服務(wù)的業(yè)務(wù)范圍,也降低了人工服務(wù)的坐席壓力,減少人工成本,提高用戶體驗(yàn)。中國工商銀行于2011年9月上線了95588語音導(dǎo)航系統(tǒng)。該導(dǎo)航系統(tǒng)可以覆蓋200多個業(yè)務(wù),可以有效代替之前龐雜的按鍵菜單層,減少人力成本,提高用戶體驗(yàn)。在2011年的世博會上,科大訊飛為上海電信提供的語音引擎和服務(wù)構(gòu)建了一條智能化的世博熱線。該技術(shù)可以提供準(zhǔn)確的端點(diǎn)檢測、智能打斷、多語種識別及自由說技術(shù),使得用戶可以以開放式的人機(jī)語音對話實(shí)現(xiàn)更加靈活的語音交互。除了代替電話客服,人工智能還可以基礎(chǔ)應(yīng)用的形式安裝在設(shè)備中,包括智能手機(jī)、智能家居。這一類應(yīng)用可以將傳統(tǒng)的需要通過按鍵或者遙控器才可以完成的功能使用語言指令便可以達(dá)成。在豐富用戶體驗(yàn)的同時,也讓用戶在一些不便使用按鍵的場合仍可操作設(shè)備。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第23頁。圖24:亞馬遜Echo及無線遙控器人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第23頁。圖25:GoogleHome多房間支持亞馬遜的Echo音響是智能家居行業(yè)的一個典范。亞馬遜Echo是一款語音交互式藍(lán)牙音箱,可以使用內(nèi)置的Alexa語音交互系統(tǒng),來同步語音數(shù)據(jù)、播放音樂和進(jìn)行智能家居設(shè)備控制。Echo支持鬧鈴、音樂播放控制、天氣查詢、網(wǎng)絡(luò)搜索以及新聞查詢等多項(xiàng)功能,所有的操作都可以通過語音控制完成。由于亞馬遜的根基是電商,Echo最基本的功能是語音購物,語音選購商品,并進(jìn)行語音支付,可以支持用戶重新買以前買過的東西,或?yàn)橛脩敉扑]亞馬遜的各類商品,但是購買的產(chǎn)品必須支持亞馬遜會員Prime類別下的。Echo的語音購物功能吸引了更多的用戶在亞馬遜上購物及參與成為Prime會員。根據(jù)SliceIntelligence的報告,Echo用戶都是“亞馬遜重度消費(fèi)者”,他們比非Echo用戶在亞馬遜上的花費(fèi)多7%。這也給了亞馬遜更多的用戶消費(fèi)數(shù)據(jù),從而提高消費(fèi)者體驗(yàn)。同時Echo可以完成智能喚醒、日常生活情景交互等多種任務(wù)。谷歌在2016年10月4日的硬件發(fā)布會上正式推出了GoogleHome這一人工智能音箱。它就像一個隨時待命的具象化的虛擬助理,能夠調(diào)用谷歌搜索以人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第24頁。及其他應(yīng)用程序,用戶通過語音指令,控制它執(zhí)行播放音樂、關(guān)閉房間照明、回答知識性問題、查詢交通狀況、更改預(yù)約等任務(wù)。谷歌強(qiáng)調(diào)GoogleHome可以與用戶像和人交談一樣雙向?qū)υ挘瑹o論實(shí)時交通還是天文地理,交互的方式都更為友好與親近,讓人覺得家里多了一個真實(shí)的助理。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第24頁。它暫時不支持軟件支付,由于谷歌在用戶消費(fèi)數(shù)據(jù)上無法與亞馬遜相比,所以他們選擇了更為熟悉的領(lǐng)域,即用戶日常生活行為習(xí)慣數(shù)據(jù),這些數(shù)據(jù)來源于用戶每日的日程安排、地圖搜索、郵件收發(fā)等行為。2.2.2.語音交互從各個特殊場景起步,功能日漸強(qiáng)大語音交互指計算機(jī)通過識別自然語言文本進(jìn)行相應(yīng)的操作,和人類用戶進(jìn)行交互的過程。語音交互基于語義理解,即自然語言處理。語音交互的應(yīng)用一般與語音轉(zhuǎn)錄相結(jié)合,在客服類應(yīng)用、智能手機(jī)、智能家居行業(yè)都有涉獵。在客服類領(lǐng)域,使用到語音交互的應(yīng)用實(shí)例不僅包括電信類服務(wù)應(yīng)用,也包括各種客服助手。這些客服助手有的可以接收用戶的語音信息,例如阿里小蜜;也可以直接基于用戶輸入的文本進(jìn)行理解,例如京東的JIMI。圖26:阿里小蜜和京東JIMI機(jī)器人隨著自營電商、跨境電商、垂直電商、自媒體電商異軍突起,作為國內(nèi)兩大電商巨頭的阿里和京東分別在15和13年上線了自主研發(fā)的阿里小蜜和京東人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第25頁。JIMI,數(shù)據(jù)顯示,“阿里小蜜”的工作量堪比3.3萬人工客服,而京東JIMI累計服務(wù)用戶早已突破億級大關(guān)。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第25頁。2016年3月中旬,阿里巴巴推出人工智能服務(wù)產(chǎn)品“阿里小蜜”。小蜜可以大幅度減少用戶原先打客服電話消耗的時間。小蜜不僅可以完成咨詢投訴等基礎(chǔ)服務(wù),還可以作為智能助理,在小蜜上完成充話費(fèi)、查天氣、買機(jī)票、導(dǎo)購等等功能。除此之外,每天還有不少人喜歡找小蜜閑聊侃。區(qū)別于市場上很多人工智能產(chǎn)品只能實(shí)現(xiàn)單句的一問一答,小蜜真正采用人工智能+知識圖譜的方式,能夠基于上下文多輪對話更加準(zhǔn)確去理解會員語義,進(jìn)而精準(zhǔn)的識別會員需求。京東作為國內(nèi)最大的自營式電商,雖然有5000左右的人工在線客服團(tuán)隊(duì),但面對類似雙十一等消費(fèi)旺季時依然力不從心。2014年9月9日,京東成立了京東深度神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)室(DNNLab),旨在通過神經(jīng)網(wǎng)絡(luò)、知識層次、異構(gòu)計算等新興領(lǐng)域的研究和應(yīng)用來確保京東技術(shù)的領(lǐng)先性,提高JIMI的智能性及其應(yīng)用的廣泛性是實(shí)驗(yàn)室的首個直接目標(biāo)。目前DNN在JIMI的應(yīng)用,主要包括命名實(shí)體識別、用戶意圖識別、自動問答等三個層面。首先,對于用戶輸入的人名、地名、商品名等進(jìn)行識別之后抽取命名實(shí)體,可以更好地理解用戶的語言和意圖。意圖識別對JIMI系統(tǒng)非常重要,因?yàn)橹挥幸鈭D識別正確,才能在相應(yīng)的類別里面反饋用戶的答案。在此之后,JIMI就會確定問題的分類(訂單、售后、商品、閑聊等),進(jìn)行答案匹配,候選答案抽取和排序,然后給用戶反饋?zhàn)罴汛鸢负徒ㄗh。目前JIMI已經(jīng)成功應(yīng)用于售前咨詢、售后服務(wù)和生活伴侶三個場景,承擔(dān)超過30%的京東客服任務(wù)。據(jù)預(yù)測,未來JIMI可以包攬至少80%的客服工作。手機(jī)和電腦是現(xiàn)代人生活中不可或缺的重要工具。在和這些電子設(shè)備打交道時,人類已經(jīng)不滿足于傳統(tǒng)的觸碰式交互,也希望可以用語音來指揮這些密不可分的電子產(chǎn)品。目前世界上許多互聯(lián)網(wǎng)領(lǐng)域的公司都開發(fā)了富有特色的智能語音助手,包括蘋果的Siri,谷歌的谷歌助理(GoogleAssistant),微軟的Cortana,F(xiàn)acebook的FacebookM等。蘋果手機(jī)上搭載的Siri的特色在于它對自然語言的理解能力,也就是語音識別、語義理解及語音合成的技術(shù)融合在一起。Siri趨向于快速的功能化,對話用語比較簡潔。使用者可以通過聲控、文字輸入的方式,來搜尋餐廳、電影院等生活信息,收看各項(xiàng)相關(guān)評論,甚至是直接訂位、訂票。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第26頁。谷歌助理是谷歌最新研發(fā)的人工智能語音助手,它是谷歌此前的智能助理應(yīng)用程序GoogleNow的升級版。谷歌助理在GoogleNow的個人信息學(xué)習(xí)技術(shù)的功能上,結(jié)合了谷歌搜索的深度學(xué)習(xí)技術(shù)以及自然語義處理技術(shù),可以很流暢地使用自然語言和用戶進(jìn)行對話形式的交互,它的特點(diǎn)是可以基于上下文進(jìn)行語音理解。例如用戶之前提過的一個位置可以在人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第26頁。后文使用代詞進(jìn)行指代,這一點(diǎn)其他語音助手暫時無法完成。Cortana是微軟在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域方面的嘗試。不同于蘋果與谷歌助理的功能性導(dǎo)向,微軟打造這款產(chǎn)品的思路是自然口語化的交互模式,用起來比其他機(jī)械式交互模式更自然。不少用戶在社交網(wǎng)絡(luò)上紛紛反映,Cortana的使用體驗(yàn)更加像一個真實(shí)的人,有一個形象存在。FacebookM是Facebook的聊天應(yīng)用Messeger上搭載的一款私人語音助手。它的定位非常巧妙:在日常生活中,用戶在公共場合對著機(jī)器進(jìn)行喚醒會讓人覺得尷尬。但是FacebookM則巧妙地躲避了這一尷尬,因?yàn)镸essenger本身就是一款類似微信支持語音聊天的社交、軟件,因此使用FacebookM就顯得比較自然。FacebookM也有深度學(xué)習(xí)功能,除了協(xié)助用戶訂餐、網(wǎng)購等功能外,還會結(jié)合用戶的愛好與習(xí)慣對不同的事務(wù)進(jìn)行評價和推薦,例如旅游地點(diǎn)、用餐地點(diǎn)等。圖27:Siri、谷歌助理、百度度秘提問測試對比2.2.3.特征識別通過語音來實(shí)現(xiàn)身份認(rèn)證聲紋是用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜。類似于人類的指紋和人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第27頁。DNA,聲紋也是人體獨(dú)特的個性生物特征,很難找到兩個聲紋完全一樣的人。通過聲紋識別這一技術(shù),機(jī)器人可以利用測試者說出的一段話來判別他的身份。雖然人的聲音會受生理狀況、情緒、年齡等因素影響,但是由于不同人之間聲音的差距較大,該技術(shù)成本也較低,因此在銀行證券、公安司法、軍隊(duì)國防、保安和證件防偽等領(lǐng)域有廣泛的應(yīng)用。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第27頁。在銀行證券領(lǐng)域,由于密碼的安全性并不高,在電話銀行和遠(yuǎn)程證券交易等業(yè)務(wù)中對操作人的身份進(jìn)行二次鑒定。為了避免事先錄音造假,該技術(shù)還可以采用隨機(jī)題庫的方式讓操作人進(jìn)行回答,增強(qiáng)防偽功能。在公安司法領(lǐng)域,聲紋識別技術(shù)可以輔助辨認(rèn)綁架案勒索電話中嫌疑人的聲音信息,減少偵查范圍,也可以當(dāng)做法庭證據(jù)。在軍隊(duì)國防領(lǐng)域,在電話交談時,聲紋識別技術(shù)可以檢測對話人的身份;在通過電話發(fā)布軍事命令時,聲紋識別技術(shù)也可以對發(fā)令人的身份進(jìn)行驗(yàn)證,分別敵我。美軍EP-3偵察機(jī)中就載有類似的聲紋識別偵聽模塊在保安和證件防偽領(lǐng)域,區(qū)別于傳統(tǒng)的刷卡或者輸入密碼等容易泄密的方式,聲紋識別可以更加安全地鑒定用戶的身份。例如把用戶的聲紋特征儲存在芯片中,讓用戶念出密碼來進(jìn)行雙重驗(yàn)證。2.2.4.機(jī)器翻譯幫助人類迅速實(shí)現(xiàn)地球村概念機(jī)器翻譯是計算機(jī)將一種自然語言轉(zhuǎn)化成另一種自然語言的過程。機(jī)器翻譯的研究歷史可以追溯到20世紀(jì)三四十年代。1954年,美國喬治敦大學(xué)(GeorgetownUniversity)在IBM公司協(xié)同下,用IBM-701計算機(jī)首次完成了英俄機(jī)器翻譯試驗(yàn),向公眾和科學(xué)界展示了機(jī)器翻譯的可行性。雖然經(jīng)歷了一段時間的挫敗期,但是隨著上世紀(jì)70年代后期,國與國之間的相互來往愈發(fā)頻繁,傳統(tǒng)的人工翻譯很難滿足要求,同時計算機(jī)硬件的發(fā)展也大幅度提高自然語言處理的能力,機(jī)器翻譯的研究重新被提上日程。上世紀(jì)90年代,隨著互聯(lián)網(wǎng)時代的到來,翻譯的需求激增。同時,互聯(lián)網(wǎng)帶來的海量數(shù)據(jù)以及新統(tǒng)計方法的普及,許多研究所與互聯(lián)網(wǎng)公司紛紛成立機(jī)器翻譯研究組,研發(fā)基于互聯(lián)網(wǎng)大數(shù)據(jù)的機(jī)器翻譯系統(tǒng),將機(jī)器翻譯商業(yè)化與民用化。數(shù)年前,搜索引擎公司先后上線了機(jī)器翻譯業(yè)務(wù),并憑借其強(qiáng)大的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)能力,不斷擴(kuò)充語言數(shù)量、提高翻譯質(zhì)量,提升整體的機(jī)器翻譯水平。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第28頁。以百度翻譯為例,目前已擴(kuò)充至16種語言,186個語言方向,并支持對文本和網(wǎng)頁的翻譯,某些場景準(zhǔn)確率已經(jīng)達(dá)到實(shí)用水平。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第28頁。谷歌在10年前發(fā)布了谷歌翻譯,背后的核心算法是基于短語的機(jī)器翻譯技術(shù)(Phrase-BasedMachineTranslation,PBMT)。這種PBMT主要是將句子中的詞和短語拆分進(jìn)行獨(dú)立翻譯,很容易出現(xiàn)罕見詞不識別以及上下文意不通的情況。近日,谷歌在機(jī)器翻譯技術(shù)領(lǐng)域取得突破進(jìn)展。谷歌發(fā)布的這個名為谷歌神經(jīng)機(jī)器翻譯(GoogleNeuralMachineTranslationsystem,GNMT)的系統(tǒng),實(shí)現(xiàn)了機(jī)器翻譯技術(shù)的巨大進(jìn)步,它將整個句子視作翻譯的基本輸入單元,可以避免傳統(tǒng)的短語拆分過程中遺漏部分句子結(jié)構(gòu)的問題。圖28:谷歌翻譯、有道翻譯、百度翻譯實(shí)例對比而谷歌此次使用的神經(jīng)機(jī)器翻譯系統(tǒng)(NMT),則將整個句子視作翻譯的基本輸入單元。NMT相對于PBMT的優(yōu)勢在于能夠減少工程設(shè)計。隨著NMT的不斷改進(jìn),研究人員又加入了外部對準(zhǔn)模型(ExternalAlignmentModel)來標(biāo)記罕見詞。不過GoogleBrain的成員表示,GNMT中沒有使用外部對準(zhǔn)模型的幫助,整個模型就是直接的端到端訓(xùn)練。上圖是谷歌翻譯、有道翻譯以及百度翻譯分別對“小偷偷偷偷東西”的英文翻譯??梢钥吹剑雀璺g完整的翻譯了句子內(nèi)容,而有道翻譯與百度翻譯分別根據(jù)各自的翻譯規(guī)則省略了中文句子的部分內(nèi)容,可以看出均是基于短語的機(jī)器翻譯技術(shù)的思路??拼笥嶏w近日發(fā)布了曉譯翻譯機(jī),它不僅支持普通話、英語等常用語言,還基于我國國情,支持各大少數(shù)民族的語言。據(jù)中國經(jīng)濟(jì)新聞網(wǎng)此前報道,曉譯翻譯機(jī)支持漢英、漢維、漢藏等多語種雙向互譯。在擁有強(qiáng)大語音識別技術(shù)的同時,它以大量聊天對話預(yù)料作為對話基礎(chǔ),可以符合語境迅速作出翻譯。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第29頁。2.3.計算機(jī)視覺讓機(jī)器成為敏銳的觀察者人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第29頁。計算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué),更進(jìn)一步的說,就是是指用攝影機(jī)和電腦代替人眼對目標(biāo)進(jìn)行識別、跟蹤和測量等機(jī)器視覺,并進(jìn)一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。計算機(jī)視覺包括目標(biāo)檢測、目標(biāo)識別、行為識別三個過程,分別對應(yīng)“去背景”“、”是什么“、干什么”的認(rèn)知步驟。計算機(jī)視覺的核心應(yīng)用功能包括特定物體識別,通用物體識別以及空間位置感知。2.3.1.特定物體識別已實(shí)現(xiàn)突破,其中人臉識別最具價值特定物體識別是讓計算機(jī)識別一個已知的2D或者3D物體,在識別物體前,計算機(jī)需要通過學(xué)習(xí)得知識別物體的特征,然后將輸入物體和已知物體之間的特征匹配來完成。特定物體識別可以高效地完成一些模式化、標(biāo)準(zhǔn)化的工作,極大增加工作效率,降低工作成本。特定物體識別功能作用的典型領(lǐng)域包括安防領(lǐng)域和醫(yī)療領(lǐng)域。人工智能化是安防監(jiān)視領(lǐng)域發(fā)展的一大需求。隨著各級政府大力推進(jìn)“平安城市”的建設(shè),監(jiān)控點(diǎn)位越來越多,這些監(jiān)控卡口產(chǎn)生了海量的數(shù)據(jù),如果使用傳統(tǒng)的人工化處理方式,處理效率將嚴(yán)重不足。因此,智能化的視頻處理方式呼之欲出。同時,大數(shù)據(jù)、視頻結(jié)構(gòu)化技術(shù)支撐人工智能在安防應(yīng)用的發(fā)展。所謂的數(shù)據(jù)結(jié)構(gòu)化就是將視頻中的相關(guān)信息進(jìn)行識別提取并打上抽象標(biāo)簽,并且可以使用搜索引擎的方式將類似信息進(jìn)行查找和整合。目前人工智能在安防行業(yè)的發(fā)展趨勢包括更高效的后臺處理和數(shù)據(jù)的前端化處理,數(shù)據(jù)前端化處理包括前端數(shù)據(jù)結(jié)構(gòu)化,即在前端就將視頻中的重要信息提取出來,可以大大增進(jìn)數(shù)據(jù)處理效率。例如在安防攝像頭上安裝上人工智能芯片,在攝像頭層面就可以將人臉識別出來并且單獨(dú)儲存?zhèn)鬏?。計算機(jī)視覺技術(shù)在安防領(lǐng)域的具體應(yīng)用包括門禁和監(jiān)控。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第30頁。圖29:人臉識別進(jìn)行身份驗(yàn)證人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第30頁。在門禁方面,傳統(tǒng)的門禁使用密碼或者刷卡等安全性較低的方式,指紋識別將驗(yàn)證信息與人綁定了起來,但是存在容易仿造以及部分從業(yè)人群指紋難以識別的局限性。使用計算機(jī)視覺技術(shù)研發(fā)的人臉識別或虹膜識別則在驗(yàn)證方式上更進(jìn)一步。首先,計算機(jī)視覺技術(shù)可以做到活體識別,需要用戶在鏡頭前做一系列動作,與系統(tǒng)發(fā)生3D交互,不容易被照片、換臉軟件等形式騙過。其次,人臉更容易作為標(biāo)準(zhǔn)化數(shù)據(jù)和用戶身份進(jìn)行綁定,對于特定人群,例如重體力勞動人員,他們的指紋因磨損難以進(jìn)行識別,因此人臉更適合作為身份識別標(biāo)準(zhǔn)化的一項(xiàng)特征。在監(jiān)控領(lǐng)域,人工智能能夠?qū)Ξ嬅鎴鼍爸械娜嘶蜍囕v的行為進(jìn)行識別、判斷,并在適當(dāng)?shù)臈l件下,產(chǎn)生報警提示用戶,極大較少人力資源成本。在監(jiān)控領(lǐng)域,計算機(jī)視覺技術(shù)專注于識別人-車-人臉等對象,其核心技術(shù)應(yīng)用包括以下幾類:物體識別:即識別出一個物體是什么,是人還是車,包括其運(yùn)動情況。這是識別技術(shù)的基礎(chǔ)。越界識別:在視頻畫面上人為的畫一道線或曲線,可以識別出物體穿越此界限的行為。比如可以檢測車輛在馬路有沒有發(fā)生越線行駛的違法行為。軌跡跟蹤:識別出一個物體之后可以記錄跟蹤物體在畫面畫面中的運(yùn)動軌跡。例如如果一個人在某場合徘徊逗留過久則會被定義為可疑人物,觸發(fā)報警。車牌識別:車牌識別技術(shù)可以將運(yùn)動中的汽車牌照從復(fù)雜背景中提取并識別出來,目前最新的技術(shù)水平為字母和數(shù)字的識別率可達(dá)到99.7%,漢字的識別率可達(dá)到99%。車牌識別可以在被納入“黑名單”的車輛經(jīng)過特定路段時報警,也可以識別超速的車輛并通知執(zhí)法人員處理,還可以用于ETC電子計費(fèi)系統(tǒng)或單人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第31頁。位/小區(qū)車輛放行系統(tǒng)在醫(yī)療領(lǐng)域,計算機(jī)視覺技術(shù)也可以大放異彩,將醫(yī)生和護(hù)士從一部分重復(fù)性勞動中解放出來,讓醫(yī)療資源可以集中到更需要的患者上。計算機(jī)視覺在醫(yī)療行業(yè)的應(yīng)用場景包括醫(yī)療文本和圖像的解讀、對病人的監(jiān)護(hù)等。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第31頁。目前醫(yī)療數(shù)據(jù)中有超過90%來自于醫(yī)學(xué)影像,但是這些數(shù)據(jù)大多要進(jìn)行人工分析。如果能夠運(yùn)用人工智能技術(shù)分析醫(yī)學(xué)影像,并將影像與醫(yī)學(xué)文本記錄進(jìn)行交叉對比,就能夠極大地降低醫(yī)學(xué)診斷上的失誤,幫助醫(yī)生精準(zhǔn)診斷。例如上海多家大型醫(yī)療機(jī)構(gòu)合作開展了“上海地區(qū)早期肺癌的影像學(xué)篩查及診斷研究”項(xiàng)目。該早期肺癌篩查平臺使用肺癌計算機(jī)輔助檢測(CAD)引擎,可以識別圖像中較小的肺結(jié)節(jié),在一定程度上解決早期肺癌難以發(fā)現(xiàn)、容易漏診的問題。人工智能可以輔助護(hù)士對患者進(jìn)行看護(hù),監(jiān)視其服藥行為。研究表明大約20%到30%的臨床試驗(yàn)失敗,是因?yàn)榛颊卟蛔袷蒯t(yī)囑,而這項(xiàng)技術(shù)可以確保患者按時服藥。同時,這項(xiàng)技術(shù)可以將護(hù)士從藥物管理中解放出來,照顧更需要看護(hù)的患者。2.3.2.通用物體識別是真正強(qiáng)智能時代的標(biāo)志2012年,GoogleX實(shí)驗(yàn)室開發(fā)出了一套具備自主學(xué)習(xí)能力的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。它可以不需要外界提示,從圖片中找到有貓臉的圖片。乍看之下,這和特定物體識別中的人臉識別十分相似,但是實(shí)際上,傳統(tǒng)的人臉識別是在對計算機(jī)進(jìn)行學(xué)習(xí)時,先告訴計算機(jī)人臉應(yīng)該長什么樣,或者可以理解為,給計算機(jī)進(jìn)行訓(xùn)練時,給予的數(shù)據(jù)事先打上了標(biāo)簽。而在貓臉識別中,研究者事先并沒有告訴計算機(jī)貓臉應(yīng)該長什么樣子,而是讓計算機(jī)通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方式,在處理無數(shù)的圖片時,將特征的圖像進(jìn)行標(biāo)記歸類。借助這種技術(shù),將可以在一張照片中識別出不同類型的物體。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第32頁。圖30:谷歌可以識別照片上的各種物體人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第32頁。為了讓計算機(jī)可以識別自然界中的各種物體,谷歌開發(fā)了一個名為DistBelief的基礎(chǔ)框架。利用它,谷歌可以調(diào)用龐大的計算機(jī)集群,使用數(shù)十億參量進(jìn)行深度學(xué)習(xí),為各種相似物體分門別類打上標(biāo)簽。一旦計算機(jī)再次接觸到相似的物體,它就可以識別出該物體和之前哪一類打上標(biāo)簽的物體相類似。貓臉識別只是谷歌的深入學(xué)習(xí)應(yīng)用的一個簡單的展示,它的核心是設(shè)法讓計算機(jī)可以自行對無標(biāo)記的數(shù)據(jù)進(jìn)行識別處理,畢竟網(wǎng)絡(luò)上大部分?jǐn)?shù)據(jù)都是沒有標(biāo)簽的。谷歌更感興趣的是將這項(xiàng)技術(shù)在其他領(lǐng)域中進(jìn)行應(yīng)用,例如語音識別、自然語言建模等其他領(lǐng)域?!眻D31:谷歌圖片識別原理圖與我們生活更貼近的另一個例子是以圖搜圖。目前著名的圖片搜索引擎,例人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第33頁。如谷歌和百度都有這一功能,區(qū)別于傳統(tǒng)的輸入關(guān)鍵字搜索圖片的模式,用戶可以上傳一張圖片的方式來搜索與之相似的結(jié)果。這種圖片搜索的技術(shù)關(guān)鍵是“感知哈希算法”(PerceptualHashAlgorithm)。這種算法首先將圖片進(jìn)行縮放壓縮等處理,然后根據(jù)灰度計算哈希值,這種哈希值類似于圖片的指紋。如果兩張圖片的哈希值區(qū)別越小,就認(rèn)為這兩張圖片更相近。例如,對于64位的哈希碼,如果兩張圖片只有5位以內(nèi)不一致,則可認(rèn)定是同一物體。通過更強(qiáng)大的算法,這種技術(shù)可以識別輕微變形后的圖片。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第33頁。2.3.3.空間位置感知技術(shù)構(gòu)成無人駕駛最核心功能空間位置感知指計算機(jī)識別周邊物體并建立坐標(biāo)信息,計算它們與自己相對位置,并以此為基礎(chǔ)采取相應(yīng)的行動。這一應(yīng)用主要被用在機(jī)器人和無人駕駛等領(lǐng)域。計算機(jī)視覺可以幫助工業(yè)機(jī)器人進(jìn)行工件定位和壞點(diǎn)檢測等功能。傳統(tǒng)的工業(yè)機(jī)器人只能基于預(yù)定的程序執(zhí)行指令動作,應(yīng)用比較局限。在工業(yè)機(jī)器人系統(tǒng)中引入計算機(jī)視覺可擴(kuò)展機(jī)器人的應(yīng)用領(lǐng)域,例如在機(jī)器人上安裝攝像頭可以檢測工件的位置,對機(jī)器人的行動作出實(shí)時調(diào)整,檢測精度可達(dá)0.1毫米。人工智能系統(tǒng)也可以幫助機(jī)器人對冶金焊接質(zhì)量進(jìn)行檢測,該系統(tǒng)采集冶金圖像后經(jīng)過去除噪聲,增強(qiáng)處理等手段提高圖像的質(zhì)量,并根據(jù)計算機(jī)視覺壞點(diǎn)識別模型實(shí)現(xiàn)冶金焊接壞點(diǎn)識別。除了工業(yè)機(jī)器人,服務(wù)類機(jī)器人也可以受益于空間位置感知技術(shù)。掃地機(jī)器人是服務(wù)機(jī)器人的一個典范。相比于傳統(tǒng)的吸塵器,掃地機(jī)器人能夠?qū)崿F(xiàn)脫離人工控制。掃地機(jī)器人的尋路方式分為隨機(jī)碰撞和路徑規(guī)劃兩種。隨機(jī)碰撞掃地機(jī)器人工作效率高度依賴算法好壞,整體效率不高。搭載了攝像頭或激光定位系統(tǒng)的路徑規(guī)劃型掃地機(jī)器人可以掃描房間的整體環(huán)境并定位自身位置,產(chǎn)品要求高,但是工作效率比隨機(jī)碰撞機(jī)器人高。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第34頁。圖32:特斯拉Autopilot升級階段人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第34頁。無人駕駛汽車是也可以理解為一種機(jī)器人,它主要依靠車內(nèi)的以計算機(jī)系統(tǒng)為主的智能駕駛儀來實(shí)現(xiàn)無人駕駛。無人駕駛汽車是利用車載傳感器來感知車輛周圍環(huán)境,并根據(jù)感知所獲得的道路、車輛位置和障礙物信息,控制車輛的轉(zhuǎn)向和速度,從而使車輛能夠安全、可靠地在道路上行駛。無人駕駛的無人化程度可以分為L1-L5。L0為完全手動,L5為完全自動化駕駛。目前商業(yè)化的無人駕駛處于L2-L3級別,研發(fā)能力趨近L4等級。2015年10月14日,特斯拉為60000輛安裝了傳感器的ModelS車主們帶來了Autopilot車載系統(tǒng)。Autopilot借用了航空領(lǐng)域自動駕駛的概念,結(jié)合車輛的4個模塊:攝像頭、雷達(dá)、超聲波傳感器以及GPS,為駕駛員提供了類似飛行員的操作,包括車速控制、車道內(nèi)自動跟車、變更車道、自動泊車等。Autopilot屬于半自動駕駛的范疇,在無人駕駛等價劃分中屬于L2-L3級別。2016年5月7日,在美國佛羅里達(dá)州,一輛ModelS在Autopilot自動駕駛模式下撞上一輛掛車,車主直接遇難,這也是特斯拉無人駕駛系統(tǒng)遇到的首例車禍。雖然在事件中,車主完全沒有操作車輛,不符合特斯拉無人駕駛系統(tǒng)的合理操作模式,但是這一事件也讓人對半自動化駕駛的模式產(chǎn)生懷疑,即半自動駕駛會讓駕駛員降低警惕,以至于無法及時在危險發(fā)生時迅速做出處理。區(qū)別于特斯拉的半自動駕駛,谷歌在2014年底提出了無方向盤、無剎車的無人車原型概念,設(shè)計為完全無人駕駛模式,主要部件包括一套由64個激光單元組成的LIDAR(LightDetectionandRanging)傳感計算系統(tǒng)。當(dāng)攝像頭和LIDAR傳感系統(tǒng)將車身周圍環(huán)境掃描并輸入電腦后,電腦系統(tǒng)根據(jù)物體的形狀、大小、運(yùn)動形式等特點(diǎn)判斷物體的類別,他們通過這個方法來判定交通信號、其他車輛、自行車手和人行道上的行人等。區(qū)別于人類司機(jī),谷歌無人車可以同時識別周圍海量的交通信息而不會分心并選擇出最佳的路徑避讓。谷歌無人駕駛項(xiàng)目技術(shù)負(fù)人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第35頁。責(zé)人DmitriDolgov表示,在未來,谷歌無人車不僅需要探測并識別出路面的行人和物體,還要理解對方的行為,并作出交互反應(yīng)。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第35頁。圖33:谷歌無人車的3DLIDAR圖像圖34:LIDAR掃描車身周圍環(huán)境示意圖2.4.人工智能連下數(shù)城,認(rèn)知智能逐漸突破人機(jī)交互、高校知識管理、智能推理學(xué)成認(rèn)知智能關(guān)鍵能力。認(rèn)知智能有三大核心支撐能力:人機(jī)交互、高效知識管理、智能推理學(xué),通俗的說就是認(rèn)知智能不但需要賦予機(jī)器“能聽會說”的能力,還能賦予機(jī)器“能理解會思考”的能人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第36頁。力。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第36頁。以AlphaGo和Libretus為代表的人工智能在認(rèn)知智能領(lǐng)域連下數(shù)城。2016年初開始,AlphaGo在圍棋界以4:1大勝李世石、60勝0負(fù)橫掃圍棋各路高手、問鼎世界第一的排名;此后,Libratus在一對一無限注德州撲克中,面對4位人類最高水平選手,以壓倒性的14bb/h完勝。圍棋博弈中,存在著10^170級別的數(shù)據(jù)空間,AlphaGo一路過五關(guān)斬六將的獲勝,已經(jīng)標(biāo)志著人類在完整信息博弈中的全面失守;而一對一無限注德州撲克的博弈中,不僅存在了10^160級別的數(shù)據(jù)空間,更是一個信息不互通、需要所謂的“直覺”和對對手的主觀判斷的過程,Libratus的再次獲勝,也意味著人類在非完整信息博弈中被人工智能再下一城。至此,人工智能連下數(shù)城,在一年的時間內(nèi)突破了完整信息和非完整信息的博弈,完全突破了人類一對一博弈的全部防線,為認(rèn)知智能逐步突破開了一個好頭。圖35:認(rèn)知智能連下數(shù)城2.4.1.AlphaGo攻下圍棋領(lǐng)域,完整信息博弈先下一城AlphaGo是一款圍棋人工智能程序,由谷歌(Google)旗下DeepMind公司的戴密斯·哈薩比斯、大衛(wèi)·席爾瓦、黃士杰與他們的團(tuán)隊(duì)開發(fā)。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第37頁。圖36:被AlphaGo逼入苦戰(zhàn)的李世石人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第37頁。AlphaGo圍棋界大殺四方,技高一籌無對手。恰逢人工智能學(xué)科誕生一甲子,2016年3月,AlphaGo首次挑戰(zhàn)圍棋界人類世界冠軍,并輕松以4:1的巨大優(yōu)勢擊敗李世石;2016年7月,AlphaGo以3612分,超越3608分的柯潔穩(wěn)定世界職業(yè)圍棋排名GoRatings的桂冠寶座;2016年12月至2017年1月,AlphaGo更是以“大師”(Master)為注冊帳號與中日韓數(shù)十位圍棋高手進(jìn)行快棋對決,連勝60局無一敗績,實(shí)力完勝人類棋手。深度學(xué)習(xí)+雙大腦,AlphaGo智能之核心。作為一款先進(jìn)的人工智能程序,AlphaGo其主要的工作原理就在于深度學(xué)習(xí),其次通過監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)(PolicyNetwork)和價值網(wǎng)絡(luò)(ValueNetwork)兩個不同神經(jīng)網(wǎng)絡(luò)“大腦”合作來改進(jìn)下棋,兩項(xiàng)核心智能技術(shù)使得這項(xiàng)人工智能大放異彩。信息集達(dá)到10^170級別,超宇宙中原子數(shù)量。人類在圍棋界的落敗,象征著人類在一對一完整信息博弈領(lǐng)域的全面潰敗。與此同時,值得關(guān)注的在于,圍棋博弈中存在著10^170個決策點(diǎn),而現(xiàn)今觀測到的宇宙的原子數(shù)量也僅為10^75個,相比較之下,圍棋博弈的信息集龐大到無法描繪。而AlphaGo面對10^170這種數(shù)量級的信息集,能夠做出運(yùn)算和處理,并且做出唯一的最優(yōu)解,標(biāo)志著其運(yùn)算能力已經(jīng)取得了突破性的進(jìn)展。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第38頁。圖37:AlphaGo解空間人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第38頁。圖38:信息集量級對比2.4.2.Libratus斬獲德州撲克,非完整信息博弈再下一城Libratus是美國卡內(nèi)基梅隆大學(xué)開發(fā)的一款人工智能系統(tǒng),其領(lǐng)域在于一對一無限注德州撲克。德州撲克由于其存在底牌這樣的非公開信息,故屬于非完整信息博弈。由于人工智能無法獲取當(dāng)前所有的信息,即不存在一個最優(yōu)解,必須通過“直覺”對自己的對手進(jìn)行習(xí)慣判斷以獲取更多信息,因此對人工智能而言,是一個更大的挑戰(zhàn),也被視為人類在一對一博弈中的最后一道防線。14bb/h碾壓人類選手,Libratus輕松再下一城。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第39頁。2017年1月11日至1月30日,卡耐基梅隆大學(xué)(CMU)開發(fā)的人工智能系統(tǒng)Libratus與4名人類選手共玩了12萬手一對一不限注德州撲克。到比賽結(jié)束時,人工智能領(lǐng)先人類選手共約177萬美元的籌碼,在4名人類頂尖選手中,輸?shù)米钌俚囊晃灰猜浜笕斯ぶ悄芗s8.6萬美元的籌碼。經(jīng)過賽后統(tǒng)計,比賽中Libratus平均以14bb/h的巨大優(yōu)勢直接實(shí)現(xiàn)碾壓獲勝(根據(jù)德州撲克規(guī)律,5-10bb/h說明技高一籌,達(dá)到15bb/h代表已經(jīng)統(tǒng)治該桌)。10^165節(jié)點(diǎn)+10^160信息集、信息不完全公開,增加人工智能挑戰(zhàn)。一對一無限注德州撲克博弈中,共計有10^160個信息集,還有10^165個游戲樹節(jié)點(diǎn),運(yùn)算量級難度較圍棋有增無減。此外,在完整信息博弈中,計算機(jī)可以在決策樹中進(jìn)行分析,得出唯一最優(yōu)解;而在非完整信息博弈中,計算機(jī)不知道對方的底牌,也不知道發(fā)牌員在flop、turn和river上發(fā)出的下一張牌,這意味著不能在決策樹的架構(gòu)下選擇下一步,即不存在唯一的最優(yōu)解。為此計算機(jī)必須從對手的以往行為中進(jìn)行分析、獲取額外信息,從而通過遞歸推理(RecursiveReasoning)分析未知信息的概率分布。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第39頁。圖39:Libratus完勝人類選手圖40:信息集量級對比人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第40頁。為了完成對超大計算體量非完整信息博弈的突破,Libratus采用了3套不同的系統(tǒng)。人工智能行業(yè)分析報告全文共88頁,當(dāng)前為第40頁。第一種系統(tǒng)是反事實(shí)遺憾最小化(CounterfactualRegretMinimization,CFR)的算法。CFR的思路為從隨機(jī)策略開始,每次優(yōu)化一個玩家的策略以提高其收益并反復(fù)迭代,最后取平均策略作為最終策略。事實(shí)上可以證明,對于兩人零和游戲,CFR會收斂到納什均衡點(diǎn),即只要其他玩家的策略保持不變,單一玩家就無法通過變換策略獲益。通俗的說,Libratus通過算法找到一個不變的策略,該算法的強(qiáng)大之處不在于挖掘?qū)κ值娜觞c(diǎn),而是以不變應(yīng)萬變,讓對手無法從自己身上獲取利益。第二種系統(tǒng)是殘局解算器(end-gamesolver)。在第二套系統(tǒng)的幫助下,第一套系統(tǒng)再也不需要像過去那樣跑完所有可能的場景了。一方面,Libratus可以在比賽過程中分析對手行為獲取信息并將其運(yùn)用于之后的牌局以獲取更大的信息面;另一方面,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論