人工智能介紹PPT_第1頁
人工智能介紹PPT_第2頁
人工智能介紹PPT_第3頁
人工智能介紹PPT_第4頁
人工智能介紹PPT_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

人工智能技術(shù)介紹PPT人工智能技術(shù)概述第一節(jié)深度學(xué)習與國際象棋第二節(jié)智能問答第三節(jié)深度學(xué)習與智能圍棋第四節(jié)更多人機交互大戰(zhàn)第三節(jié)目錄content人工智能技術(shù)概述第一節(jié)自動化技術(shù)發(fā)展趨勢自動化技術(shù)自動化技術(shù)是一門涉及學(xué)科較多、應(yīng)用廣泛的綜合性系統(tǒng)工程,其對象為大規(guī)模、復(fù)雜的工程和非工程系統(tǒng)廣義內(nèi)涵包括三方面的含義:代替人體力勞動的機器人;代替或輔助人腦力勞動的程序;對人機進行協(xié)調(diào)、管理、控制和優(yōu)化的智能系統(tǒng)研究內(nèi)容包括自動控制和信息處理兩方面,應(yīng)用包括過程自動化、機械制造自動化、管理自動化和家庭自動化等不斷提高傳統(tǒng)行業(yè)的技術(shù)水平和市場競爭力,并與光電子、計算機、信息技術(shù)等融合和創(chuàng)新,不斷創(chuàng)造和形成新的經(jīng)濟增長點和管理戰(zhàn)略哲理智能科學(xué)發(fā)展趨勢智能科學(xué)智能屬于哲學(xué)問題,智能科學(xué)研究智能的本質(zhì)和實現(xiàn)技術(shù),是由腦科學(xué)、認知科學(xué)、人工智能等綜合形成的交叉學(xué)科腦科學(xué)從分子水平、神經(jīng)回路、行為實驗研究自然智能機理,目的在于闡明人類大腦的結(jié)構(gòu)與功能,以及人類行為與心理活動的物質(zhì)基礎(chǔ)認知科學(xué)是研究人類感知、學(xué)習、記憶、思維、意識等人腦心智活動過程的科學(xué),是心理學(xué)、信息學(xué)、神經(jīng)科學(xué)和自然哲學(xué)的交叉人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)自動化技術(shù)智能科學(xué)人工智能技術(shù)在科學(xué)發(fā)展過程中,在那些已經(jīng)建立起來的學(xué)科之間,還存在著一些被人忽視的無人區(qū),正是從這些領(lǐng)域里可能得到最大的收獲?!Z伯特·維納《控制論》,1948人工智能技術(shù)的挑戰(zhàn)人-信息人-機器人-環(huán)境科技進步改變著我們的生活,但卻使人們在信息、機器高度密集的環(huán)境中,變得更為被動和無奈。信息越來越多,甚至成為垃圾,對信息的有效組織和挖掘極度匱乏,人與信息的共生環(huán)境尚未建立。簡單的體力勞動已可以被機器所替代,但腦力勞動,特別是智力尚未完全轉(zhuǎn)移和擴展到機器上。需要更好地尊重、理解并滿足人的各種需要,以人為本,促進人與物理時空環(huán)境的和諧發(fā)展。人工智能技術(shù)發(fā)展的特征人工智能由人類設(shè)計,為人類服務(wù),本質(zhì)為計算,基礎(chǔ)為數(shù)據(jù)。必須體現(xiàn)服務(wù)人類的特點,而不應(yīng)該傷害人類,特別是不應(yīng)該有目的性地做出傷害人類的行為。以人為本人工智能技術(shù)發(fā)展的特征環(huán)境增強人工智能能感知環(huán)境,能產(chǎn)生反應(yīng),能與人交互,能與人互補。能夠幫助人類做人類不擅長、不喜歡但機器能夠完成的工作,而人類則適合于去做更需要創(chuàng)造性、洞察力、想象力的工作。人工智能技術(shù)發(fā)展的特征學(xué)習適應(yīng)人工智能有適應(yīng)特性,有學(xué)習能力,有演化迭代,有連接擴展。人工智能可以應(yīng)對不斷變化的現(xiàn)實環(huán)境,從而使人工智能系統(tǒng)在各行各業(yè)產(chǎn)生豐富的應(yīng)用。。人機博弈棋類游戲是人類智慧的結(jié)晶,自古以來就有著廣泛的愛好者群體,也產(chǎn)生了一代又一代的偶像級棋王。選擇棋類游戲作為人工智能研究的對象,不僅是因為棋類游戲規(guī)則清晰,勝負判斷一目了然,而且也更容易在愛好者群體中產(chǎn)生共鳴,因此人工智能研究者前赴后繼投身到對不同棋類游戲的挑戰(zhàn)中?;迎h(huán)節(jié):人機小挑戰(zhàn)機器學(xué)習之父

機器博弈的水平實際上代表了當時計算機體系架構(gòu)與計算機科學(xué)的最高水平。早在1962年,就職于IBM的阿瑟?薩繆爾就在內(nèi)存僅為32k的IBM7090晶體管計算機上開發(fā)出了西洋跳棋(Checkers)AI程序,并擊敗了當時全美最強的西洋棋選手之一的羅伯特?尼雷,引起了轟動。值得一提的是,薩繆爾所研制的下棋程序是世界上第一個有自主學(xué)習功能的游戲程序,因此他也被后人稱之為“機器學(xué)習之父”。阿瑟?薩繆爾里程碑事件1997年IBM公司“更深的藍”(DeeperBlue)戰(zhàn)勝世界國際象棋棋王卡斯帕羅夫,這是基于知識規(guī)則引擎和強大計算機硬件的人工智能系統(tǒng)的勝利2011年IBM公司的問答機器人“沃森”在美國智力問答競賽節(jié)目中大勝人類冠軍,這是基于自然語言理解和知識圖譜的人工智能系統(tǒng)的勝利2016年谷歌公司AlphaGo戰(zhàn)勝了圍棋世界冠軍李世石,2017年初AlphaGo升級版Master橫掃全球60位頂尖高手,這是基于蒙特卡洛樹搜索和深度學(xué)習的人工智能系統(tǒng)的勝利真正引起中國人廣泛關(guān)注的機器博弈史上三個里程碑事件是:PART2深度學(xué)習與國際象棋機器學(xué)習人機對抗歷史深藍成功秘訣國際象棋國際象棋起源于亞洲,后由阿拉伯人傳入歐洲,成為國際通行棋種,也是一項受到廣泛喜愛的智力競技運動,據(jù)稱全世界有多達三億的國際象棋愛好者,甚至在1924年曾一度被列為奧林匹克運動會正式比賽項目。國際象棋棋盤由橫縱各8格、顏色一深一淺交錯排列的64個小方格組成,棋子共32個,分為黑白兩方,每方各16個。和8×8的西洋跳棋Checkers相比,國際象棋的狀態(tài)復(fù)雜度(指從初始局面出發(fā),產(chǎn)生的所有合法局面的總和)從1021上升到1046,博弈樹復(fù)雜度(指從初始局面開始,其最小搜索樹的所有葉子節(jié)點的總和)也從1031上升到10123。19581973198319871988198919911993人機對抗歷史從1958年開始,人工智能研究者對國際象棋的挑戰(zhàn)持續(xù)了半個多世紀:1958年名為“思考”

IBM704成為第一臺能同人下國際象棋的計算機,處理速度每秒200步;1973年B.Slate和Atkin開發(fā)了國際象棋軟件“CHESS4.0”,成為未來國際象棋AI程序基礎(chǔ);1983年,KenThompson開發(fā)了國際象棋硬件“BELLE”,達到大師水平;1987年,美國卡內(nèi)基梅隆大學(xué)設(shè)計的國際象棋計算機程序“深思”(DeepThought)以每秒鐘75萬步的處理速度露面,其水平相當于擁有2450國際等級分的棋手;1988年,“深思”擊敗丹麥特級大師拉爾森;1989年,“深思”已經(jīng)有6臺信息處理器,每秒處理速度達到200萬步,但還是在與世界棋王卡斯帕羅夫的人機大戰(zhàn)中以0比2敗北;1991年,由CHESSBASE公司研制的國際象棋計算機程序“弗里茨”(Fretz)問世;1993年,“深思”二代擊敗了丹麥國家隊,并在與前女子世界冠軍小波爾加的對抗中獲勝。深藍一戰(zhàn)卡斯帕羅夫

1995年,IBM公司設(shè)計了全球第一臺采用并行化系統(tǒng)、以RS/6000SP為基礎(chǔ)、集成了總計256塊處理器以及480顆專門為國際象棋對弈設(shè)計的VLSI加速芯片的國際象棋計算機“深藍”,重達1270公斤。

1996年2月10日至17日,為了紀念首臺通用計算機ENIAC誕生50周年,“深藍”在美國費城向國際象棋世界冠軍、世界排名第一的加里?卡斯帕羅夫發(fā)起了挑戰(zhàn)。

在6局的人機對弈比賽中,“深藍”并未占到什么便宜,棋王卡斯帕羅夫以4比2的總比分輕松獲勝,但“深藍”贏得了六場比賽中的一場勝利,這也是計算機第一次在與頂級選手的對弈中取得勝局。“深藍”升級改造

第一次對決落敗之后,IBM對“深藍”計算機進行了升級,97型深藍取名“更深的藍”(DeeperBlue)。團隊還豐富了象棋加速芯片中的象棋知識,使它能夠識別不同的棋局,并從眾多可能性中找出最佳行棋方案?!案畹乃{”每秒可檢索1億到2億個棋局,系統(tǒng)能夠搜尋和估算出當前局面往后的12步行棋方案,最多可達20步,而人類棋手的極限是10步。即使按照一盤棋平均走80步,每步棋可能的落子位置為35個計算,其狀態(tài)復(fù)雜度和博弈樹復(fù)雜度也遠非超級計算機所能窮舉,為了在合理的時間內(nèi)完成走棋任務(wù),必須要進行剪枝搜索。

運算能力“更深的藍”(DeeperBlue)運算速度為每秒2億步棋,計算能力為每秒113.8億次浮點運算,是1996年版本的2倍,其運算能力在當時的全球超級計算機中也能排在第259位。剪枝搜索象棋知識“更深的藍”出師告捷

1997年5月,IBM公司再次邀請加里?卡斯帕羅夫到美國紐約曼哈頓進行第二次人機大戰(zhàn),同樣是6盤棋制比賽。

在前5局里,卡斯帕羅夫為了避免在計算力方面用人腦與“更深的藍”進行直接較量,他采取了獨特的行棋策略來對付“更深的藍”,但是這個奇招并沒有取得明顯的效果,“更深的藍”總是能夠憑借準確無誤的局面判斷和精確的計算給出最強的應(yīng)手。

最終前五局雙方2.5對2.5打平,尤其是第三、第四、第五局連續(xù)三場和局,卡斯帕羅夫的助手看見他坐在房間的角落里,雙手捂面,仿佛已經(jīng)失去了斗志。在最后一局中,卡斯帕羅夫失去耐心,回到了“正?!钡南路ǎ诘谄呋睾暇头噶艘粋€不可挽回的低級錯誤,局勢急轉(zhuǎn)直下,最終在第六盤決勝局中僅僅走了19步就向“更深的藍”俯首稱臣。

最終卡斯帕羅夫1勝2負3平,以2.5比3.5的總比分輸給“更深的藍”?!案畹乃{”贏得了這場備受世人矚目的人機大戰(zhàn),也標志著國際象棋近2000年的發(fā)展歷史走向了新時代。人機博弈勝負已明“深藍”并不是終結(jié),卡斯帕羅夫也沒有服氣。1999年,“弗里茨”升級為“更弗里茨”(DeepFritz),并在2001年擊敗了卡斯帕羅夫。

當今國際象棋男子等級分排名最高的選手是出生于1990年的挪威特級大師卡爾森(MagnusCarlsen),他的等級分是2863分,而至少有10款開源國際象棋引擎等級分達到了3000分以上。

人與機器的國際象棋之爭已勝負分明,國際象棋領(lǐng)域的人機博弈也畫上了句號,取而代之的是2010年開始舉辦的機機博弈——國際象棋引擎競賽TCEC(ThoresenChessEngineCompetition)。加速芯片:“深藍”的成功秘訣“深藍”計算機在硬件上將通用計算機處理器與象棋加速芯片相結(jié)合,采用混合決策的方法,即在通用處理器上執(zhí)行運算分解任務(wù),交給象棋加速芯片并行處理復(fù)雜的棋步自動推理,然后將推理得到的可能行棋方案結(jié)果返回通用處理器,最后由通用處理器決策出最終的行棋方案。

97型深藍與1996年相比,運算速度差不多提高了兩倍,象棋加速芯片的升級功不可沒。升級后的象棋加速芯片能夠從棋局中抽取更多的特征,并在有限的時間內(nèi)計算出當前盤面往后12步甚至20步的行棋方案,從而讓“深藍”更準確地評估盤面整體局勢。知識規(guī)則引擎:“深藍”的成功秘訣“深藍”在軟件設(shè)計上采用了超大規(guī)模知識庫結(jié)合優(yōu)化搜索的方法。一方面,“深藍”存儲了國際象棋100多年來70萬份國際特級大師的棋譜,利用知識庫在開局和殘局階段節(jié)省處理時間并得出更合理的行棋方案。

另一方面,“深藍”采用Alpha-Beta剪枝搜索算法和基于規(guī)則的方法對棋局進行評價,通過縮小搜索空間的上界和下界提高搜索效率,同時根據(jù)棋子的重要程度、棋子的位置、棋子對的關(guān)系等特征對棋局進行更有效的評價。剪枝搜索算法示意圖PART3智力問答Watson自然語言處理知識圖譜自主學(xué)習Watson認知計算系統(tǒng)平臺問世在“深藍”之后,IBM公司又選擇了一個新的領(lǐng)域挑戰(zhàn)人類極限——DeepQA,不僅僅把DeepQA項目看成一個問答游戲系統(tǒng),而且將其稱之為認知計算系統(tǒng)平臺。認知計算被定義為一種全新的計算模式,它包含數(shù)據(jù)分析、自然語言處理和機器學(xué)習領(lǐng)域的大量技術(shù)創(chuàng)新,能夠幫助人類從大量非結(jié)構(gòu)化數(shù)據(jù)中找出有用的答案。IBM公司對其寄予厚望,并用公司創(chuàng)始人Thomas?J?Watson的名字將這個平臺命名為Watson。如果說“深藍”只是在做非常大規(guī)模的計算,是人類數(shù)學(xué)能力的體現(xiàn),那么Watson就是將機器學(xué)習、大規(guī)模并行計算、語義處理等領(lǐng)域整合在一個體系架構(gòu)下來理解人類自然語言的嘗試。Watson問答系統(tǒng)能力解析理解(Understanding)與用戶進行交互,根據(jù)用戶問題通過自然語言理解技術(shù)分析包括結(jié)構(gòu)化數(shù)據(jù)和圖文、音視頻、圖像等非結(jié)構(gòu)化所有類型的數(shù)據(jù),最終實現(xiàn)用戶提出問題的有效應(yīng)答。推理(Reasoning)通過假設(shè)生成,透過數(shù)據(jù)揭示洞察、模式和關(guān)系,將散落在各處的知識片段連接起來進行推理、分析、對比、歸納、總結(jié)和論證,從而獲取深入的理解和決策的證據(jù)。學(xué)習(Learning)通過以證據(jù)為基礎(chǔ)的學(xué)習能力,從大數(shù)據(jù)中快速提取關(guān)鍵信息,像人類一樣學(xué)習和記憶這些知識,并可以通過專家訓(xùn)練,在不斷與人的交互中通過經(jīng)驗學(xué)習來獲取反饋,優(yōu)化模型。

交互(interacting)通過精細的個性化分析能力,獲得用戶的語義、情緒等信息,進一步利用文本分析與心理語言學(xué)模型對海量數(shù)據(jù)進行深入分析,掌握用戶個性特質(zhì),構(gòu)建全方位用戶畫像,實現(xiàn)更加自然的互動交流。Watson研發(fā)團隊全面?zhèn)鋺?zhàn)IBM公司調(diào)動其全球研發(fā)團隊參與到DeepQA項目中,這些團隊分工極為細致,讓它的各個團隊都發(fā)揮出最大的效率,目標就是在2011年的綜藝節(jié)目《危險邊緣》(QuizShowJeopardy!)中一鳴驚人。

問答搜索:以色列海法團隊負責深度開放域問答系統(tǒng)工程的搜索;

詞語連接:日本東京團隊負責在問答中將詞意和詞語連接;

數(shù)據(jù)支持:中國北京和上海團隊則負責以不同的資源給Watson提供數(shù)據(jù)支持

算法研究:此外還有專門研究算法的團隊和研究博弈下注策略的團隊等。團隊分工算法研究數(shù)據(jù)支持詞語連接問答搜索

Watson包括90臺IBM小型機服務(wù)器、360個Power750系列處理器以及IBM研發(fā)的DeepQA系統(tǒng)。Power750系列處理器是當時RISC(精簡指令集計算機)架構(gòu)中最強的處理器,可以支持Watson在不超過3秒鐘的時間內(nèi)得出可靠答案。

1.攝像頭拍照,OCR識別文字,得到文字文本。2.提取專有名詞基本信息,為其打上分類標簽。7.語音合成引擎將答案文本轉(zhuǎn)換成語音并播放出來,完成回答。3.提取文字結(jié)構(gòu)信息,減少冗余搜索。4.

逐級分解每個問題,直到獲得所有子問題的答案。5.在自身知識圖譜中搜索并匯集特定實體的屬性信息,實現(xiàn)實體屬性完整勾畫。6.運用算法評估可能答案,可信度最高且超過51%,執(zhí)行器按下信號燈。文字識別實體抽取關(guān)系抽取問題分析答案生成判斷決策回答問題Watson的工作過程Watson挑戰(zhàn)成功最終比分成績?yōu)閃atson:$77147,Jennings:$24000,Rutter:$21600,比賽塵埃落定,人類已經(jīng)和Watson相距太遠。

2011年2月14日-16日,做好一切準備的Watson開始了與人類的對決。Watson在第一輪中就奠定了領(lǐng)先地位,但在比賽中出現(xiàn)了幾個糟糕的回答。

比如一個美國城市類的問題,Watson的答案為多倫多。這道題的回答讓人大跌眼鏡,主要原因是Watson沒有為答案設(shè)置邊緣條件。

另一道回答奧利奧餅干是什么時候被推出的時候,幾秒前人類選手Jennings回答相同問題時剛被告知“20年”錯了,Watson還是繼續(xù)回答“1920年”。這是因為研究團隊為了簡化Watson的編程,讓它對其他玩家的回答“裝聾作啞”,結(jié)果吃了大虧。

Watson進入商業(yè)化運營階段如今,Watson已經(jīng)被運用到超過35個國家的17個產(chǎn)業(yè)領(lǐng)域,超過7.7萬名開發(fā)者參與到WatsonDeveloperCloud平臺來實施他們的商業(yè)夢想,WatsonAPI的月調(diào)用量也已高達13億次,并仍在增長。借著這次Watson人機大戰(zhàn)的風頭,2012年IBM公司的小型機占據(jù)了全球?qū)⒔?/3的市場份額,Watson也于2013年開始進入商業(yè)化運營,陸續(xù)推出的相關(guān)產(chǎn)品:Watson相關(guān)產(chǎn)品Watson發(fā)現(xiàn)顧問(WatsonDiscoveryAdvisor)Watson參與顧問(WatsonEngagementAdvisor)Watson分析(WatsonAnalytics)Watson探索(WatsonExplorer)Watson知識工作室(WatsonKnowledgeStudio)Watson腫瘤治療(WatsonforOncology)Watson臨床試驗匹配(WatsonforClinicalTrialMatching)Watson成功秘訣:自然語言處理“Jeopardy!”這類問答類節(jié)目,對于人類而言規(guī)則很簡單,但是對于Watson則意味著眾多挑戰(zhàn)。

它不僅要理解主持人提問的自然語言,還需要分析這些語言是否包含諷刺、雙關(guān)、修飾等,以正確判斷題目的意思,并評估各種答案的可能性,給出最后的選擇。

自然語言處理研究實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法,是計算機科學(xué)與人工智能研究中的重要方向之一。

自然語言處理技術(shù)廣泛應(yīng)用

Watson的成功得益于自然語言處理技術(shù)多年的積累,同樣也帶動了這個領(lǐng)域進入了一個更加快速的發(fā)展階段:2011年10月蘋果公司在發(fā)布新品時集成Siri智能語音助手,把聊天問答系統(tǒng)帶入了成熟商業(yè)化階段;2013年谷歌公司開源Word2Vec引爆深度學(xué)習這個新的熱點,機器翻譯、文檔摘要、關(guān)系抽取等任務(wù)不斷取得重要進展,從此人工智能走向第三次高潮。蘋果Siri智能語音助手谷歌公司開源Word2VecWatson成功秘訣:知識圖譜

知識圖譜本質(zhì)上是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(Point)和邊(Edge)組成。在知識圖譜中,每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關(guān)系”??梢哉f,知識圖譜就是把異構(gòu)信息連接在一起而得到的一個關(guān)系網(wǎng)絡(luò),提供了從“關(guān)系”的角度去分析問題的能力。

2012年谷歌公司推出知識圖譜搜索服務(wù),國內(nèi)互聯(lián)網(wǎng)公司百度和搜狗也分別推出“知心”和“知立方”來改進其搜索質(zhì)量。在搜索引擎中引入知識圖譜大幅的地提升和優(yōu)化了搜索體驗。谷歌改進知識圖譜添加比較及過濾等新功能知識圖譜的廣泛應(yīng)用知識圖譜也被廣泛應(yīng)用于聊天機器人和問答系統(tǒng)中,用于輔助深度理解人類的語言和支持推理,并提升人機問答的用戶體驗。

此外,在金融、農(nóng)業(yè)、電商、醫(yī)療健康、環(huán)境保護等垂直領(lǐng)域,知識圖譜同樣得到了廣泛的應(yīng)用。知識圖譜問答系統(tǒng)金融農(nóng)業(yè)電商醫(yī)療健康環(huán)保PART4圍棋AlphaGo機器學(xué)習蒙特卡洛樹搜索深度學(xué)習

圍棋復(fù)雜度增加8*8格國際象棋的狀態(tài)復(fù)雜度為1046,博弈樹復(fù)雜度為10123。19*19格的圍棋,其狀態(tài)復(fù)雜度已上升到10172,博弈樹復(fù)雜度則達到驚人的10360,因此也被視為人類在棋類人機對抗中最后的堡壘。國際象棋圍棋人機對抗的嘗試與探索

在很長一段時間里,靜態(tài)方法成了主流研究方向,中山大學(xué)化學(xué)系教授陳志行開發(fā)的圍棋博弈程序“手談”和開源軟件GNUGO在2003年以前能夠在9*9圍棋中達到人類5-7級水平。

2006年S.Gelly等人提出的UCT算法(UpperConfidenceBoundApplytoTree,上限置信區(qū)間算法),該算法在蒙特卡洛樹搜索中使用UCB公式解決了探索和利用的平衡,并采用隨機模擬對圍棋局面進行評價。該程序的勝率竟然比先前最先進的蒙特卡羅擴展算法高出了幾乎一倍,但它也僅能在9路圍棋中偶爾戰(zhàn)勝人類職業(yè)棋手,在19路圍棋中還遠遠不能與人類抗衡。靜態(tài)方法UCT算法陳志行手談AlphaGo橫空出世這是圍棋歷史上一次史無前例的突破,人工智能程序能在不讓子的情況下,第一次在完整的圍棋競技中擊敗專業(yè)選手。AlphaGo大戰(zhàn)樊麾2016年D.Silver等人在世界頂級科學(xué)雜志《Nature》發(fā)表文章,稱被谷歌公司收購的DeepMind團隊開發(fā)出AlphaGo在沒有任何讓子情況下,以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。AlphaGo系統(tǒng)簡介監(jiān)督、強化學(xué)習該系統(tǒng)通過對16萬局人類高手棋譜中的3000萬手盤面進行監(jiān)督學(xué)習和強化學(xué)習;策略、價值網(wǎng)絡(luò)使用策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)實現(xiàn)落子決策和局勢評估;蒙特卡洛算法通過與蒙特卡洛樹搜索算法結(jié)合,極大地改善了搜索決策的質(zhì)量;

異步分布并行算法提出異步分布式并行算法,使其可運行于CPU/GPU集群上。系統(tǒng)AlphaGo所向披靡

2016年3月AlphaGo與李世石進行圍棋人機大戰(zhàn),以4比1的總比分獲勝;

2016年末2017年初,它以Master為帳號與中日韓數(shù)十位圍棋高手快棋對決,連續(xù)60局全勝。

2017年5月在中國烏鎮(zhèn)圍棋峰會上,它與柯潔對戰(zhàn),以3比0的總比分獲勝。圍棋界公認AlphaGo的棋力已經(jīng)超過人類職業(yè)圍棋頂尖水平,其最新版本自我估分在4500分左右,實力水平大約在13段左右,人類選手中已然無敵。AlphaGo大戰(zhàn)李世石Master大戰(zhàn)聶衛(wèi)平AlphaGo大戰(zhàn)柯潔AlphaGo新技能AlphaGo通過學(xué)習大量棋譜,以及更大規(guī)模的自我對弈完成學(xué)習,這種深度學(xué)習的能力使得它能不斷學(xué)習進化。AlphaGo發(fā)現(xiàn)了人類沒有的圍棋著法,初步展示了機器發(fā)現(xiàn)“新事物”的創(chuàng)造性。這意味著它的增強學(xué)習算法可以從大數(shù)據(jù)中發(fā)現(xiàn)新的規(guī)律和知識,為人類擴展自己的知識體系開辟了新的認知通道。AlphaGo展現(xiàn)了曾被認為是人類獨有、計算機難以做到的“棋感直覺”這些技術(shù)使得人工智能程序初步具備了既可以考慮局部得失,又可以考慮全局態(tài)勢的能力,從而具備了一種全局性“直覺”能力。深度學(xué)習發(fā)現(xiàn)新著法棋感知覺新技能AlphaGoZero青出于藍

學(xué)習策略整合策略、價值網(wǎng)絡(luò)舍棄快速走子網(wǎng)絡(luò)引入殘差結(jié)構(gòu)2.舍棄快速走子網(wǎng)絡(luò),不再進行隨機模擬,而是完全使用神經(jīng)網(wǎng)絡(luò)得到的結(jié)果替換隨機模擬,從而在提升學(xué)習速率的同時,增強神經(jīng)網(wǎng)絡(luò)估值的準確性。1.AlphaGoZero將策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)整合在一起,使用純粹的深度強化學(xué)習方法進行端到端的自我對弈學(xué)習,神經(jīng)網(wǎng)絡(luò)的權(quán)值完全從隨機初始化開始,使用強化學(xué)習進行自我博弈和提升。3.AlphaGoZero神經(jīng)網(wǎng)絡(luò)中還引入了殘差結(jié)構(gòu),可使用更深的神經(jīng)網(wǎng)絡(luò)進行特征表征提取,從而能在更加復(fù)雜的棋盤局面中進行學(xué)習。AlphaGoZero青出于藍

AlphaGo最高需要1920塊CPU和280塊GPU訓(xùn)練,AlphaGoLee用了176塊GPU和48塊TPU,而AlphaGoZero僅僅使用了單機4塊TPU便完成了訓(xùn)練任務(wù)。硬件結(jié)構(gòu)

AlphaGoZero僅用3天的時間便達到了AlphaGoLee的水平,21天后達到AlphaGoMaster的水平。AlphaGoZero成功證明了在沒有人類指導(dǎo)和經(jīng)驗的前提下,深度強化學(xué)習方法在圍棋領(lǐng)域里仍然能夠出色的完成指定的任務(wù),甚至于比有人類經(jīng)驗知識指導(dǎo)時,完成的更加出色。AlphaGo成功秘訣:蒙特卡洛樹搜索在機器博弈中,每步行棋方案的運算時間、堆棧空間都是有限的,只能給出局部最優(yōu)解,因此2006年提出的蒙特卡洛樹搜索就成為隨機搜索算法的首選。應(yīng)用意義它結(jié)合了隨機模擬的一般性和樹搜索的準確性,近年來在圍棋等完全信息博弈、多人博弈及隨機類博弈難題上取得了成功應(yīng)用。理論上,蒙特卡洛樹搜索可被用在以{狀態(tài),行動}定義并用模擬預(yù)測輸出結(jié)果的任何領(lǐng)域。

它結(jié)合了廣度優(yōu)先搜索和深度優(yōu)先搜索,會較好地集中到“更值得搜索的變化”(雖然不一定準確),同時可以給出一個同樣不怎么準確的全局評估結(jié)果,最后隨著搜索樹的自動生長,可以保證在足夠大的運算能力和足夠長的時間后收斂到完美解。AlphaGo成功秘訣:強化學(xué)習目標:從一個已經(jīng)標記的訓(xùn)練集中進行學(xué)習。機器學(xué)習有監(jiān)督學(xué)習SupervisedLearning無監(jiān)督學(xué)習UnsupervisedLearning強化學(xué)習ReinforcementLearning目標:從一堆未標記樣本中發(fā)現(xiàn)隱藏的結(jié)構(gòu)。目標:在當前行動和未來狀態(tài)中獲得最大回報。在邊獲得樣例邊學(xué)習的過程中,不斷迭代“在當前模型的情況下,如何選擇下一步的行動才對完善當前的模型最有利”的過程直到模型收斂。強化學(xué)習的廣泛應(yīng)用阿里巴巴公司在雙11推薦場景中,使用了深度強化學(xué)習與自適應(yīng)在線學(xué)習建立決策引擎,對海量用戶行為以及百億級商品特征進行實時分析,提高人和商品的配對效率,將手機用戶點擊率提升了10-20%。無人駕駛廣告投放強化學(xué)習在機器博弈以外還有很多應(yīng)用,例如無人駕駛和廣告投放等。

01人機大戰(zhàn):深度學(xué)習算法的標志性成果最復(fù)雜(注:狀態(tài)復(fù)雜度與博弈復(fù)雜度)的智力游戲:看似簡單,實為復(fù)雜,具有10的170次方狀態(tài)復(fù)雜空間涉及邏輯推理,形象思維,優(yōu)化選擇等多種人類智能(注:國際象棋只有邏輯推理,沒有形象思維)02接近人類公認是人工智能領(lǐng)域長期以來的重大挑戰(zhàn)03標志性國際學(xué)術(shù)界曾經(jīng)普遍認為解決圍棋問題需要15-20年時間04挑戰(zhàn)為什么做圍棋AI?創(chuàng)新性投入力度業(yè)內(nèi)龍頭

目前技術(shù)優(yōu)勢:起步早,算法新,技術(shù)強,資源雄厚最近一年專注于強化學(xué)習研究

擬于近期公布新論文和數(shù)據(jù),并從此退出圍棋AI領(lǐng)域GoogleDeepmind簡介傳統(tǒng)圍棋AI算法—MCTS(蒙特卡洛樹搜索)雙人一人一步雙方信息完備(棋類—完全信息,牌類—不完全信息)零和動態(tài)博弈問題計算機下棋棋類要素的數(shù)字化——恰當?shù)臄?shù)據(jù)結(jié)構(gòu)棋盤、棋子、棋規(guī)(著法規(guī)則,勝負規(guī)則)用著法推演局面——博弈樹展開從有利局面選擇當前著法——博弈搜索局面評估——指標定義與綜合展開深度為4的博弈樹本方本方本方對方對方Ply1Ply3Ply4Ply2Ply0根節(jié)點為當前局面葉節(jié)點為展開終點雙方輪流出手偶數(shù)層為本方奇數(shù)層為對方圍棋落子蒙特卡洛數(shù)學(xué)模型及評估圍棋對弈過程可以看做一個馬爾科夫過程:五元組:{T,S,A(i),P(·|i,a),r(i,a)}T:決策時刻S:狀態(tài)空間,S={i}A(i):可行動集合(可落子點)P(·|i,a):狀態(tài)i下選擇行動a的概率r(i,a):狀態(tài)i下選擇行動a后課獲得的收益從當前局面的所有可落子點中隨機(或者給勝率高的點分配更多的計算力)選擇一個點落子重復(fù)以上過程直到勝負可判斷為止經(jīng)多次模擬后(計算越多越精確),選擇勝率最大的點落子傳統(tǒng)圍棋AI算法—數(shù)學(xué)模型MCTS(蒙特卡洛樹搜索)基本思想與特點:-將可能出現(xiàn)的狀態(tài)轉(zhuǎn)移過程用狀態(tài)樹表示-從初始狀態(tài)開始重復(fù)抽樣,逐步擴展樹中的節(jié)點-某個狀態(tài)再次被訪問時,可以利用已有的結(jié)果,提高了效率-在抽樣過程中可以隨時得到行為的評價選擇-從根節(jié)點出發(fā)自上而下地選擇一個落子點擴展-向選定的點添加一個或多個子節(jié)點模擬-對擴展出的節(jié)點用蒙特卡洛方法進行模擬回溯-根據(jù)模擬結(jié)果依次向上更新祖先節(jié)點估計值13個卷積層,每層192個卷積核,每個卷積核3*3,參數(shù)個數(shù)800萬+GPU3ms/步預(yù)測準確率57%PolicyNetwork(策略網(wǎng)絡(luò))在每個分支節(jié)點直接判斷形勢與Rollout隨機模擬相結(jié)合,互為補充ValueNetwork(價值網(wǎng)絡(luò))給勝率高的點分配更多的計算力任意時間算法,計算越多越精確1、選取2、展開3、評估4、倒傳MCTS(蒙特卡洛樹搜索)通過隨機模擬走子勝率來判定形勢速度很快(1ms/盤)隨機性與合理性的平衡Rollout(隨機模擬走子)AlphaGo的實現(xiàn)原理控制寬度(250)控制深度(150)基本算法快速模擬圍棋是完全信息博弈,從理論上來說可以通過暴力搜索所有可能的對弈過程來確定最優(yōu)的走法PolicyNetwork策略網(wǎng)絡(luò):落子棋感深度神經(jīng)網(wǎng)絡(luò)的有監(jiān)督學(xué)習,目標是獲得在圍棋盤面下的落子棋感學(xué)習職業(yè)棋手和業(yè)余高段棋手的棋譜(數(shù)十萬份棋譜,上億數(shù)量級的落子方式)把當前局面作為輸入,預(yù)測下一步的走棋。它的預(yù)測不只給出最強的一手,而是對棋盤上所有可能的下一著給一個分數(shù)用PolicyNetwork作為第一感,將計算力分配到最有希望的選點分枝數(shù)從上百個減少到幾個優(yōu)先計算PolicyNetwork分數(shù)高的點,計算力充沛時,適當分配到其他分值較低的點PolicyNetwork—輸入特征3×224248×552128×272192×132192×132128×1322048204820482048192×32192×32128×3248×523×112192×32192×32192×132192×132128×132128×27248×5248×552128×321000局部感知域權(quán)重共享特征訓(xùn)練卷積層+池化層模型結(jié)構(gòu)13個卷積層,每層192個3*3卷積核數(shù)百萬個參數(shù)訓(xùn)練數(shù)據(jù)KGS6d以上對局,17萬,職業(yè)對局8萬。訓(xùn)練數(shù)據(jù)量5000萬+訓(xùn)練時間幾十天運算速度GPU,3ms預(yù)測準確率57%左右互博,自我進化Agent通過和環(huán)境s的交互,選擇下一步的動作a,這個動作會影響環(huán)境s,給Agent一個reward,Agent然后繼續(xù)和環(huán)境交互。根據(jù)游戲結(jié)果迭代更新轉(zhuǎn)移概率和評估函數(shù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與策略網(wǎng)絡(luò)相同訓(xùn)練方法:自我對局目標:校正價值導(dǎo)向?qū)⒉呗跃W(wǎng)絡(luò)權(quán)值作為初始值,自我對弈更新權(quán)值,從而提升棋力Pros:棋藝更高(win80%ofthegameswithSLpolicynetwork)Cons:走法集中,不適應(yīng)MCTS多搜索范圍的需求強化學(xué)習(RL)Fast-Rollout快速走子Rollout(隨機模擬走子)通過隨機模擬走子勝率來判定形勢速度快隨機性,合理性的平衡原因:1.策略網(wǎng)絡(luò)的運行速度較慢(3ms)

快速走子在2us2.用來評估盤面。在同等時間下,模擬走子速度快乃至使用隨機走子,雖然單次估值精度低,但可以多模擬幾次算平均值,效果未必不好。提升棋力結(jié)構(gòu):局部特征匹配+線性回歸特征:圍棋專業(yè)知識ValueNetwork:勝負棋感深度神經(jīng)網(wǎng)絡(luò)的增強型學(xué)習(DeepMind獨創(chuàng))通過自我博弈,學(xué)習不同盤面下的勝負情況(三千萬盤自我對局)獲取在圍棋盤面的勝負棋感(注:對每一個落子點給一個當時的快速的勝負感(估算),這個勝負估算并不是根據(jù)分析計算出來的,而是直覺)(通過AlphaGo幾千萬盤的訓(xùn)練學(xué)習得來的)形勢判斷:-1:白棋必勝<0:白棋優(yōu)勢0:雙方均勢>0:黑棋優(yōu)勢1:黑棋必勝ValueNetwork模型模型結(jié)構(gòu)13個卷積層,每層192個卷積核,每個卷積核3*3數(shù)百萬個參數(shù)訓(xùn)練數(shù)據(jù)PolicyNetwork自我對弈棋譜。3000萬+特定盤面+勝負結(jié)果訓(xùn)練時間幾十天運算速度GPU,3ms方法:在每個分支節(jié)點,使用ValueNetwork直接判斷形勢與Rollout隨機模擬相結(jié)合,互為補充效果:職業(yè)水平,AlphaGoMCTS在對局中實時搜索Step1:基于策略網(wǎng)絡(luò)落子,可能性大的落子拓展節(jié)點Step2:對未來走勢進行評估,同時使用估值網(wǎng)絡(luò)和快速走子,綜合兩者預(yù)測未來走法Step3:評估結(jié)果作為下一步走法的Q值。重新模擬。Step4:結(jié)合下一步走法的Q值和策略網(wǎng)絡(luò)進行再一次模擬。如果出現(xiàn)同樣走法,Q值起平均。新分數(shù)=調(diào)整后的初始分+0.5*通過模擬(策略網(wǎng)絡(luò)+快速走棋)得到的贏棋概率+0.5*估值網(wǎng)絡(luò)的局面評估分Step5:反復(fù)循環(huán)直到n次,或者timeout,選擇被選擇次數(shù)最多的走法作為下一步Put-TogetherAlphaGoZero第3天,下了490萬局棋,打敗老大老三戰(zhàn)績老三學(xué)棋過程剛開始,隨機下子熱衷于吃子,完全不顧死活發(fā)現(xiàn)了如果先占住棋盤的邊和角,后面占便宜學(xué)會了如何「打劫」、「征子」懂得看「棋形」第21天,敗了老二第40天,完整走過了一個人類棋手學(xué)棋的全過程棋盤/黑子/白子棋子被圍起來就死規(guī)則棋士柯潔10月19日02:22一個純凈、純粹自我學(xué)習的AlphaGo是最強的...對于AlphaGo的自我進步來講...人類太多余了老大AlphaGoLee,2016年3月4:1打敗韓國棋手李世石老二AlphaGoMaster,2017年5月3:0打敗中國棋手柯潔老三AlphaGoZero,2017年10月宣布自學(xué)圍棋40天,打敗所有人AlphaGoZero解析人類經(jīng)驗由于樣本空間大小的限制,往往都收斂于局部最優(yōu)而不自知(或無法發(fā)現(xiàn)),阿法元不再被人類認知所局限,而能夠發(fā)現(xiàn)新知識,發(fā)展新策略區(qū)別1:特征提取層采用40個殘差模塊,每個模塊包含2個卷積層。運用殘差模塊提升了網(wǎng)絡(luò)深度,更深的網(wǎng)絡(luò)能更有效地直接從棋盤上提取特征區(qū)別2:同時訓(xùn)練走子策略(policy)網(wǎng)絡(luò)和勝率值(value)網(wǎng)絡(luò)啟示深度學(xué)習訓(xùn)練過程需要消耗大量人類標注樣本,而這對于小樣本應(yīng)用領(lǐng)域(比如醫(yī)療圖像處理)是不可能辦到的。所以減少樣本和人類標注的方法非常重要開局和收官和專業(yè)棋手的下法并無區(qū)別,但是中盤難于理解;機器經(jīng)驗與人類經(jīng)驗有很大差別,我們又該如何去選擇和利用呢?智能圍棋與蒙特卡洛樹搜索沒有棋感直覺不行,完全依賴棋感直覺也不行直覺需要通過嚴格的數(shù)學(xué)模型和計算方法,對棋感直覺進行驗證AlphaGo使用蒙特卡洛樹搜索,對落子棋感和勝負感進行計算驗證。蒙特卡洛樹搜索:搜索驗證基于數(shù)學(xué)期望的勝負評估模型(勝率)基于蒙特卡洛模擬進行勝負結(jié)果采樣(模擬采樣比直覺更可靠)根據(jù)模擬采樣結(jié)果驗證盤面勝負的數(shù)學(xué)期望可靠程度與采樣規(guī)模相關(guān)(采樣越大,離真理會更近些)蒙特卡洛模擬采樣:勝負棋感驗證智能圍棋與神經(jīng)網(wǎng)絡(luò)谷歌的AlphaGo是深度學(xué)習算法的標志性成果;深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutionalNeuralNetwork,DCNN),是近年發(fā)展起來,并引起

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論