人工智能與人機(jī)博弈課件_第1頁
人工智能與人機(jī)博弈課件_第2頁
人工智能與人機(jī)博弈課件_第3頁
人工智能與人機(jī)博弈課件_第4頁
人工智能與人機(jī)博弈課件_第5頁
已閱讀5頁,還剩93頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能與人機(jī)博弈人工智能1自動化技術(shù)發(fā)展趨勢自動化技術(shù)自動化技術(shù)是一門涉及學(xué)科較多、應(yīng)用廣泛的綜合性系統(tǒng)工程,其對象為大規(guī)模、復(fù)雜的工程和非工程系統(tǒng)廣義內(nèi)涵包括三方面的含義:代替人體力勞動的機(jī)器人;代替或輔助人腦力勞動的程序;對人機(jī)進(jìn)行協(xié)調(diào)、管理、控制和優(yōu)化的智能系統(tǒng)研究內(nèi)容包括自動控制和信息處理兩方面,應(yīng)用包括過程自動化、機(jī)械制造自動化、管理自動化和家庭自動化等不斷提高傳統(tǒng)行業(yè)的技術(shù)水平和市場競爭力,并與光電子、計(jì)算機(jī)、信息技術(shù)等融合和創(chuàng)新,不斷創(chuàng)造和形成新的經(jīng)濟(jì)增長點(diǎn)和管理戰(zhàn)略哲理自動化技術(shù)發(fā)展趨勢自動化技術(shù)自動化技術(shù)是一門涉及學(xué)科較多、應(yīng)2智能科學(xué)發(fā)展趨勢智能科學(xué)智能屬于哲學(xué)問題,智能科學(xué)研究智能的本質(zhì)和實(shí)現(xiàn)技術(shù),是由腦科學(xué)、認(rèn)知科學(xué)、人工智能等綜合形成的交叉學(xué)科腦科學(xué)從分子水平、神經(jīng)回路、行為實(shí)驗(yàn)研究自然智能機(jī)理,目的在于闡明人類大腦的結(jié)構(gòu)與功能,以及人類行為與心理活動的物質(zhì)基礎(chǔ)認(rèn)知科學(xué)是研究人類感知、學(xué)習(xí)、記憶、思維、意識等人腦心智活動過程的科學(xué),是心理學(xué)、信息學(xué)、神經(jīng)科學(xué)和自然哲學(xué)的交叉人工智能是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)智能科學(xué)發(fā)展趨勢智能科學(xué)智能屬于哲學(xué)問題,智能科學(xué)研究智能的3自動化技術(shù)智能科學(xué)人工智能技術(shù)在科學(xué)發(fā)展過程中,在那些已經(jīng)建立起來的學(xué)科之間,還存在著一些被人忽視的無人區(qū),正是從這些領(lǐng)域里可能得到最大的收獲。——諾伯特·維納《控制論》,1948自動化智能科學(xué)人工智能在科學(xué)發(fā)展過程中,在那些已經(jīng)建4人工智能技術(shù)的挑戰(zhàn)人-信息人-機(jī)器人-環(huán)境科技進(jìn)步改變著我們的生活,但卻使人們在信息、機(jī)器高度密集的環(huán)境中,變得更為被動和無奈。信息越來越多,甚至成為垃圾,對信息的有效組織和挖掘極度匱乏,人與信息的共生環(huán)境尚未建立。簡單的體力勞動已可以被機(jī)器所替代,但腦力勞動,特別是智力尚未完全轉(zhuǎn)移和擴(kuò)展到機(jī)器上。需要更好地尊重、理解并滿足人的各種需要,以人為本,促進(jìn)人與物理時空環(huán)境的和諧發(fā)展。人工智能技術(shù)的挑戰(zhàn)人-信息人-機(jī)器人-環(huán)境科技進(jìn)步改變著我們5人工智能技術(shù)發(fā)展的特征人工智能由人類設(shè)計(jì),為人類服務(wù),本質(zhì)為計(jì)算,基礎(chǔ)為數(shù)據(jù)。必須體現(xiàn)服務(wù)人類的特點(diǎn),而不應(yīng)該傷害人類,特別是不應(yīng)該有目的性地做出傷害人類的行為。以人為本人工智能技術(shù)發(fā)展的特征人工智能由人類設(shè)計(jì),為人類服務(wù),本質(zhì)為6人工智能技術(shù)發(fā)展的特征環(huán)境增強(qiáng)人工智能能感知環(huán)境,能產(chǎn)生反應(yīng),能與人交互,能與人互補(bǔ)。能夠幫助人類做人類不擅長、不喜歡但機(jī)器能夠完成的工作,而人類則適合于去做更需要創(chuàng)造性、洞察力、想象力的工作。人工智能技術(shù)發(fā)展的特征環(huán)境增強(qiáng)人工智能能感知環(huán)境,能產(chǎn)生反應(yīng)7人工智能技術(shù)發(fā)展的特征學(xué)習(xí)適應(yīng)人工智能有適應(yīng)特性,有學(xué)習(xí)能力,有演化迭代,有連接擴(kuò)展。人工智能可以應(yīng)對不斷變化的現(xiàn)實(shí)環(huán)境,從而使人工智能系統(tǒng)在各行各業(yè)產(chǎn)生豐富的應(yīng)用。。人工智能技術(shù)發(fā)展的特征學(xué)習(xí)適應(yīng)人工智能有適應(yīng)特性,有學(xué)習(xí)能力8人機(jī)博弈棋類游戲是人類智慧的結(jié)晶,自古以來就有著廣泛的愛好者群體,也產(chǎn)生了一代又一代的偶像級棋王。選擇棋類游戲作為人工智能研究的對象,不僅是因?yàn)槠孱愑螒蛞?guī)則清晰,勝負(fù)判斷一目了然,而且也更容易在愛好者群體中產(chǎn)生共鳴,因此人工智能研究者前赴后繼投身到對不同棋類游戲的挑戰(zhàn)中。互動環(huán)節(jié):人機(jī)小挑戰(zhàn)人機(jī)博弈棋類游戲是人類智慧的結(jié)晶,自古以來就有著9機(jī)器學(xué)習(xí)之父

機(jī)器博弈的水平實(shí)際上代表了當(dāng)時計(jì)算機(jī)體系架構(gòu)與計(jì)算機(jī)科學(xué)的最高水平。早在1962年,就職于IBM的阿瑟?薩繆爾就在內(nèi)存僅為32k的IBM7090晶體管計(jì)算機(jī)上開發(fā)出了西洋跳棋(Checkers)AI程序,并擊敗了當(dāng)時全美最強(qiáng)的西洋棋選手之一的羅伯特?尼雷,引起了轟動。值得一提的是,薩繆爾所研制的下棋程序是世界上第一個有自主學(xué)習(xí)功能的游戲程序,因此他也被后人稱之為“機(jī)器學(xué)習(xí)之父”。阿瑟?薩繆爾機(jī)器學(xué)習(xí)之父機(jī)器博弈的水平實(shí)際上代表了當(dāng)時計(jì)算機(jī)體10里程碑事件1997年IBM公司“更深的藍(lán)”(DeeperBlue)戰(zhàn)勝世界國際象棋棋王卡斯帕羅夫,這是基于知識規(guī)則引擎和強(qiáng)大計(jì)算機(jī)硬件的人工智能系統(tǒng)的勝利2011年IBM公司的問答機(jī)器人“沃森”在美國智力問答競賽節(jié)目中大勝人類冠軍,這是基于自然語言理解和知識圖譜的人工智能系統(tǒng)的勝利2016年谷歌公司AlphaGo戰(zhàn)勝了圍棋世界冠軍李世石,2017年初AlphaGo升級版Master橫掃全球60位頂尖高手,這是基于蒙特卡洛樹搜索和深度學(xué)習(xí)的人工智能系統(tǒng)的勝利真正引起中國人廣泛關(guān)注的機(jī)器博弈史上三個里程碑事件是:里程碑事件1997年IBM公司“更深的藍(lán)”(Deepe11PART1國際象棋機(jī)器學(xué)習(xí)人機(jī)對抗歷史深藍(lán)成功秘訣PART國際象棋機(jī)器學(xué)習(xí)人機(jī)對抗歷史深藍(lán)成功秘訣12國際象棋國際象棋起源于亞洲,后由阿拉伯人傳入歐洲,成為國際通行棋種,也是一項(xiàng)受到廣泛喜愛的智力競技運(yùn)動,據(jù)稱全世界有多達(dá)三億的國際象棋愛好者,甚至在1924年曾一度被列為奧林匹克運(yùn)動會正式比賽項(xiàng)目。國際象棋棋盤由橫縱各8格、顏色一深一淺交錯排列的64個小方格組成,棋子共32個,分為黑白兩方,每方各16個。和8×8的西洋跳棋Checkers相比,國際象棋的狀態(tài)復(fù)雜度(指從初始局面出發(fā),產(chǎn)生的所有合法局面的總和)從1021上升到1046,博弈樹復(fù)雜度(指從初始局面開始,其最小搜索樹的所有葉子節(jié)點(diǎn)的總和)也從1031上升到10123。國際象棋國際象棋起源于亞洲,后由阿拉伯人傳入歐洲1319581973198319871988198919911993人機(jī)對抗歷史從1958年開始,人工智能研究者對國際象棋的挑戰(zhàn)持續(xù)了半個多世紀(jì):1958年名為“思考”

IBM704成為第一臺能同人下國際象棋的計(jì)算機(jī),處理速度每秒200步;1973年B.Slate和Atkin開發(fā)了國際象棋軟件“CHESS4.0”,成為未來國際象棋AI程序基礎(chǔ);1983年,KenThompson開發(fā)了國際象棋硬件“BELLE”,達(dá)到大師水平;1987年,美國卡內(nèi)基梅隆大學(xué)設(shè)計(jì)的國際象棋計(jì)算機(jī)程序“深思”(DeepThought)以每秒鐘75萬步的處理速度露面,其水平相當(dāng)于擁有2450國際等級分的棋手;1988年,“深思”擊敗丹麥特級大師拉爾森;1989年,“深思”已經(jīng)有6臺信息處理器,每秒處理速度達(dá)到200萬步,但還是在與世界棋王卡斯帕羅夫的人機(jī)大戰(zhàn)中以0比2敗北;1991年,由CHESSBASE公司研制的國際象棋計(jì)算機(jī)程序“弗里茨”(Fretz)問世;1993年,“深思”二代擊敗了丹麥國家隊(duì),并在與前女子世界冠軍小波爾加的對抗中獲勝。19581973198319871988198919911914深藍(lán)一戰(zhàn)卡斯帕羅夫

1995年,IBM公司設(shè)計(jì)了全球第一臺采用并行化系統(tǒng)、以RS/6000SP為基礎(chǔ)、集成了總計(jì)256塊處理器以及480顆專門為國際象棋對弈設(shè)計(jì)的VLSI加速芯片的國際象棋計(jì)算機(jī)“深藍(lán)”,重達(dá)1270公斤。

1996年2月10日至17日,為了紀(jì)念首臺通用計(jì)算機(jī)ENIAC誕生50周年,“深藍(lán)”在美國費(fèi)城向國際象棋世界冠軍、世界排名第一的加里?卡斯帕羅夫發(fā)起了挑戰(zhàn)。

在6局的人機(jī)對弈比賽中,“深藍(lán)”并未占到什么便宜,棋王卡斯帕羅夫以4比2的總比分輕松獲勝,但“深藍(lán)”贏得了六場比賽中的一場勝利,這也是計(jì)算機(jī)第一次在與頂級選手的對弈中取得勝局。深藍(lán)一戰(zhàn)卡斯帕羅夫1995年,IBM公司設(shè)計(jì)了全15“深藍(lán)”升級改造

第一次對決落敗之后,IBM對“深藍(lán)”計(jì)算機(jī)進(jìn)行了升級,97型深藍(lán)取名“更深的藍(lán)”(DeeperBlue)。團(tuán)隊(duì)還豐富了象棋加速芯片中的象棋知識,使它能夠識別不同的棋局,并從眾多可能性中找出最佳行棋方案?!案畹乃{(lán)”每秒可檢索1億到2億個棋局,系統(tǒng)能夠搜尋和估算出當(dāng)前局面往后的12步行棋方案,最多可達(dá)20步,而人類棋手的極限是10步。即使按照一盤棋平均走80步,每步棋可能的落子位置為35個計(jì)算,其狀態(tài)復(fù)雜度和博弈樹復(fù)雜度也遠(yuǎn)非超級計(jì)算機(jī)所能窮舉,為了在合理的時間內(nèi)完成走棋任務(wù),必須要進(jìn)行剪枝搜索。

運(yùn)算能力“更深的藍(lán)”(DeeperBlue)運(yùn)算速度為每秒2億步棋,計(jì)算能力為每秒113.8億次浮點(diǎn)運(yùn)算,是1996年版本的2倍,其運(yùn)算能力在當(dāng)時的全球超級計(jì)算機(jī)中也能排在第259位。剪枝搜索象棋知識“深藍(lán)”升級改造第一次對決落敗之后,IBM對“深16“更深的藍(lán)”出師告捷

1997年5月,IBM公司再次邀請加里?卡斯帕羅夫到美國紐約曼哈頓進(jìn)行第二次人機(jī)大戰(zhàn),同樣是6盤棋制比賽。

在前5局里,卡斯帕羅夫?yàn)榱吮苊庠谟?jì)算力方面用人腦與“更深的藍(lán)”進(jìn)行直接較量,他采取了獨(dú)特的行棋策略來對付“更深的藍(lán)”,但是這個奇招并沒有取得明顯的效果,“更深的藍(lán)”總是能夠憑借準(zhǔn)確無誤的局面判斷和精確的計(jì)算給出最強(qiáng)的應(yīng)手。

最終前五局雙方2.5對2.5打平,尤其是第三、第四、第五局連續(xù)三場和局,卡斯帕羅夫的助手看見他坐在房間的角落里,雙手捂面,仿佛已經(jīng)失去了斗志。在最后一局中,卡斯帕羅夫失去耐心,回到了“正?!钡南路?,在第七回合就犯了一個不可挽回的低級錯誤,局勢急轉(zhuǎn)直下,最終在第六盤決勝局中僅僅走了19步就向“更深的藍(lán)”俯首稱臣。

最終卡斯帕羅夫1勝2負(fù)3平,以2.5比3.5的總比分輸給“更深的藍(lán)”?!案畹乃{(lán)”贏得了這場備受世人矚目的人機(jī)大戰(zhàn),也標(biāo)志著國際象棋近2000年的發(fā)展歷史走向了新時代?!案畹乃{(lán)”出師告捷1997年5月,IBM公司再17人機(jī)博弈勝負(fù)已明“深藍(lán)”并不是終結(jié),卡斯帕羅夫也沒有服氣。1999年,“弗里茨”升級為“更弗里茨”(DeepFritz),并在2001年擊敗了卡斯帕羅夫。

當(dāng)今國際象棋男子等級分排名最高的選手是出生于1990年的挪威特級大師卡爾森(MagnusCarlsen),他的等級分是2863分,而至少有10款開源國際象棋引擎等級分達(dá)到了3000分以上。

人與機(jī)器的國際象棋之爭已勝負(fù)分明,國際象棋領(lǐng)域的人機(jī)博弈也畫上了句號,取而代之的是2010年開始舉辦的機(jī)機(jī)博弈——國際象棋引擎競賽TCEC(ThoresenChessEngineCompetition)。人機(jī)博弈勝負(fù)已明“深藍(lán)”并不是終結(jié),卡18加速芯片:“深藍(lán)”的成功秘訣“深藍(lán)”計(jì)算機(jī)在硬件上將通用計(jì)算機(jī)處理器與象棋加速芯片相結(jié)合,采用混合決策的方法,即在通用處理器上執(zhí)行運(yùn)算分解任務(wù),交給象棋加速芯片并行處理復(fù)雜的棋步自動推理,然后將推理得到的可能行棋方案結(jié)果返回通用處理器,最后由通用處理器決策出最終的行棋方案。

97型深藍(lán)與1996年相比,運(yùn)算速度差不多提高了兩倍,象棋加速芯片的升級功不可沒。升級后的象棋加速芯片能夠從棋局中抽取更多的特征,并在有限的時間內(nèi)計(jì)算出當(dāng)前盤面往后12步甚至20步的行棋方案,從而讓“深藍(lán)”更準(zhǔn)確地評估盤面整體局勢。加速芯片:“深藍(lán)”的成功秘訣“深藍(lán)”計(jì)算機(jī)在硬件19知識規(guī)則引擎:“深藍(lán)”的成功秘訣“深藍(lán)”在軟件設(shè)計(jì)上采用了超大規(guī)模知識庫結(jié)合優(yōu)化搜索的方法。一方面,“深藍(lán)”存儲了國際象棋100多年來70萬份國際特級大師的棋譜,利用知識庫在開局和殘局階段節(jié)省處理時間并得出更合理的行棋方案。

另一方面,“深藍(lán)”采用Alpha-Beta剪枝搜索算法和基于規(guī)則的方法對棋局進(jìn)行評價,通過縮小搜索空間的上界和下界提高搜索效率,同時根據(jù)棋子的重要程度、棋子的位置、棋子對的關(guān)系等特征對棋局進(jìn)行更有效的評價。剪枝搜索算法示意圖知識規(guī)則引擎:“深藍(lán)”的成功秘訣“深藍(lán)”在軟件設(shè)20PART2智力問答Watson自然語言處理知識圖譜自主學(xué)習(xí)PART智力問答Watson自然語言處理知識圖譜自主學(xué)習(xí)21Watson認(rèn)知計(jì)算系統(tǒng)平臺問世在“深藍(lán)”之后,IBM公司又選擇了一個新的領(lǐng)域挑戰(zhàn)人類極限——DeepQA,不僅僅把DeepQA項(xiàng)目看成一個問答游戲系統(tǒng),而且將其稱之為認(rèn)知計(jì)算系統(tǒng)平臺。認(rèn)知計(jì)算被定義為一種全新的計(jì)算模式,它包含數(shù)據(jù)分析、自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域的大量技術(shù)創(chuàng)新,能夠幫助人類從大量非結(jié)構(gòu)化數(shù)據(jù)中找出有用的答案。IBM公司對其寄予厚望,并用公司創(chuàng)始人Thomas?J?Watson的名字將這個平臺命名為Watson。如果說“深藍(lán)”只是在做非常大規(guī)模的計(jì)算,是人類數(shù)學(xué)能力的體現(xiàn),那么Watson就是將機(jī)器學(xué)習(xí)、大規(guī)模并行計(jì)算、語義處理等領(lǐng)域整合在一個體系架構(gòu)下來理解人類自然語言的嘗試。Watson認(rèn)知計(jì)算系統(tǒng)平臺問世在“深藍(lán)”之22Watson問答系統(tǒng)能力解析理解(Understanding)與用戶進(jìn)行交互,根據(jù)用戶問題通過自然語言理解技術(shù)分析包括結(jié)構(gòu)化數(shù)據(jù)和圖文、音視頻、圖像等非結(jié)構(gòu)化所有類型的數(shù)據(jù),最終實(shí)現(xiàn)用戶提出問題的有效應(yīng)答。推理(Reasoning)通過假設(shè)生成,透過數(shù)據(jù)揭示洞察、模式和關(guān)系,將散落在各處的知識片段連接起來進(jìn)行推理、分析、對比、歸納、總結(jié)和論證,從而獲取深入的理解和決策的證據(jù)。學(xué)習(xí)(Learning)通過以證據(jù)為基礎(chǔ)的學(xué)習(xí)能力,從大數(shù)據(jù)中快速提取關(guān)鍵信息,像人類一樣學(xué)習(xí)和記憶這些知識,并可以通過專家訓(xùn)練,在不斷與人的交互中通過經(jīng)驗(yàn)學(xué)習(xí)來獲取反饋,優(yōu)化模型。

交互(interacting)通過精細(xì)的個性化分析能力,獲得用戶的語義、情緒等信息,進(jìn)一步利用文本分析與心理語言學(xué)模型對海量數(shù)據(jù)進(jìn)行深入分析,掌握用戶個性特質(zhì),構(gòu)建全方位用戶畫像,實(shí)現(xiàn)更加自然的互動交流。Watson問答系統(tǒng)能力解析理解(Understand23Watson研發(fā)團(tuán)隊(duì)全面?zhèn)鋺?zhàn)IBM公司調(diào)動其全球研發(fā)團(tuán)隊(duì)參與到DeepQA項(xiàng)目中,這些團(tuán)隊(duì)分工極為細(xì)致,讓它的各個團(tuán)隊(duì)都發(fā)揮出最大的效率,目標(biāo)就是在2011年的綜藝節(jié)目《危險(xiǎn)邊緣》(QuizShowJeopardy!)中一鳴驚人。

問答搜索:以色列海法團(tuán)隊(duì)負(fù)責(zé)深度開放域問答系統(tǒng)工程的搜索;

詞語連接:日本東京團(tuán)隊(duì)負(fù)責(zé)在問答中將詞意和詞語連接;

數(shù)據(jù)支持:中國北京和上海團(tuán)隊(duì)則負(fù)責(zé)以不同的資源給Watson提供數(shù)據(jù)支持

算法研究:此外還有專門研究算法的團(tuán)隊(duì)和研究博弈下注策略的團(tuán)隊(duì)等。團(tuán)隊(duì)分工算法研究數(shù)據(jù)支持詞語連接問答搜索

Watson包括90臺IBM小型機(jī)服務(wù)器、360個Power750系列處理器以及IBM研發(fā)的DeepQA系統(tǒng)。Power750系列處理器是當(dāng)時RISC(精簡指令集計(jì)算機(jī))架構(gòu)中最強(qiáng)的處理器,可以支持Watson在不超過3秒鐘的時間內(nèi)得出可靠答案。

Watson研發(fā)團(tuán)隊(duì)全面?zhèn)鋺?zhàn)IBM公司調(diào)動241.攝像頭拍照,OCR識別文字,得到文字文本。2.提取專有名詞基本信息,為其打上分類標(biāo)簽。7.語音合成引擎將答案文本轉(zhuǎn)換成語音并播放出來,完成回答。3.提取文字結(jié)構(gòu)信息,減少冗余搜索。4.

逐級分解每個問題,直到獲得所有子問題的答案。5.在自身知識圖譜中搜索并匯集特定實(shí)體的屬性信息,實(shí)現(xiàn)實(shí)體屬性完整勾畫。6.運(yùn)用算法評估可能答案,可信度最高且超過51%,執(zhí)行器按下信號燈。文字識別實(shí)體抽取關(guān)系抽取問題分析答案生成判斷決策回答問題Watson的工作過程1.攝像頭拍照,OCR識別文字,得到文字文本。2.提取專有25Watson挑戰(zhàn)成功最終比分成績?yōu)閃atson:$77147,Jennings:$24000,Rutter:$21600,比賽塵埃落定,人類已經(jīng)和Watson相距太遠(yuǎn)。

2011年2月14日-16日,做好一切準(zhǔn)備的Watson開始了與人類的對決。Watson在第一輪中就奠定了領(lǐng)先地位,但在比賽中出現(xiàn)了幾個糟糕的回答。

比如一個美國城市類的問題,Watson的答案為多倫多。這道題的回答讓人大跌眼鏡,主要原因是Watson沒有為答案設(shè)置邊緣條件。

另一道回答奧利奧餅干是什么時候被推出的時候,幾秒前人類選手Jennings回答相同問題時剛被告知“20年”錯了,Watson還是繼續(xù)回答“1920年”。這是因?yàn)檠芯繄F(tuán)隊(duì)為了簡化Watson的編程,讓它對其他玩家的回答“裝聾作啞”,結(jié)果吃了大虧。

Watson挑戰(zhàn)成功最終比分成績?yōu)閃ats26Watson進(jìn)入商業(yè)化運(yùn)營階段如今,Watson已經(jīng)被運(yùn)用到超過35個國家的17個產(chǎn)業(yè)領(lǐng)域,超過7.7萬名開發(fā)者參與到WatsonDeveloperCloud平臺來實(shí)施他們的商業(yè)夢想,WatsonAPI的月調(diào)用量也已高達(dá)13億次,并仍在增長。借著這次Watson人機(jī)大戰(zhàn)的風(fēng)頭,2012年IBM公司的小型機(jī)占據(jù)了全球?qū)⒔?/3的市場份額,Watson也于2013年開始進(jìn)入商業(yè)化運(yùn)營,陸續(xù)推出的相關(guān)產(chǎn)品:Watson相關(guān)產(chǎn)品Watson發(fā)現(xiàn)顧問(WatsonDiscoveryAdvisor)Watson參與顧問(WatsonEngagementAdvisor)Watson分析(WatsonAnalytics)Watson探索(WatsonExplorer)Watson知識工作室(WatsonKnowledgeStudio)Watson腫瘤治療(WatsonforOncology)Watson臨床試驗(yàn)匹配(WatsonforClinicalTrialMatching)Watson進(jìn)入商業(yè)化運(yùn)營階段如今,Wa27Watson成功秘訣:自然語言處理

“Jeopardy!”這類問答類節(jié)目,對于人類而言規(guī)則很簡單,但是對于Watson則意味著眾多挑戰(zhàn)。

它不僅要理解主持人提問的自然語言,還需要分析這些語言是否包含諷刺、雙關(guān)、修飾等,以正確判斷題目的意思,并評估各種答案的可能性,給出最后的選擇。

自然語言處理研究實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法,是計(jì)算機(jī)科學(xué)與人工智能研究中的重要方向之一。

Watson成功秘訣:自然語言處理“Jeo28自然語言處理技術(shù)廣泛應(yīng)用

Watson的成功得益于自然語言處理技術(shù)多年的積累,同樣也帶動了這個領(lǐng)域進(jìn)入了一個更加快速的發(fā)展階段:

2011年10月蘋果公司在發(fā)布新品時集成Siri智能語音助手,把聊天問答系統(tǒng)帶入了成熟商業(yè)化階段;

2013年谷歌公司開源Word2Vec引爆深度學(xué)習(xí)這個新的熱點(diǎn),機(jī)器翻譯、文檔摘要、關(guān)系抽取等任務(wù)不斷取得重要進(jìn)展,從此人工智能走向第三次高潮。蘋果Siri智能語音助手谷歌公司開源Word2Vec自然語言處理技術(shù)廣泛應(yīng)用Watson的29Watson成功秘訣:知識圖譜

知識圖譜本質(zhì)上是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。在知識圖譜中,每個節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”??梢哉f,知識圖譜就是把異構(gòu)信息連接在一起而得到的一個關(guān)系網(wǎng)絡(luò),提供了從“關(guān)系”的角度去分析問題的能力。

2012年谷歌公司推出知識圖譜搜索服務(wù),國內(nèi)互聯(lián)網(wǎng)公司百度和搜狗也分別推出“知心”和“知立方”來改進(jìn)其搜索質(zhì)量。在搜索引擎中引入知識圖譜大幅的地提升和優(yōu)化了搜索體驗(yàn)。谷歌改進(jìn)知識圖譜添加比較及過濾等新功能Watson成功秘訣:知識圖譜知識圖譜本30知識圖譜的廣泛應(yīng)用知識圖譜也被廣泛應(yīng)用于聊天機(jī)器人和問答系統(tǒng)中,用于輔助深度理解人類的語言和支持推理,并提升人機(jī)問答的用戶體驗(yàn)。

此外,在金融、農(nóng)業(yè)、電商、醫(yī)療健康、環(huán)境保護(hù)等垂直領(lǐng)域,知識圖譜同樣得到了廣泛的應(yīng)用。知識圖譜問答系統(tǒng)金融農(nóng)業(yè)電商醫(yī)療健康環(huán)保知識圖譜的廣泛應(yīng)用知識圖譜也被廣泛應(yīng)31PART3圍棋AlphaGo機(jī)器學(xué)習(xí)蒙特卡洛樹搜索深度學(xué)習(xí)PART圍棋AlphaGo機(jī)器學(xué)習(xí)蒙特卡洛樹搜索深度學(xué)習(xí)32

圍棋復(fù)雜度增加8*8格國際象棋的狀態(tài)復(fù)雜度為1046,博弈樹復(fù)雜度為10123。

19*19格的圍棋,其狀態(tài)復(fù)雜度已上升到10172,博弈樹復(fù)雜度則達(dá)到驚人的10360,因此也被視為人類在棋類人機(jī)對抗中最后的堡壘。國際象棋圍棋圍棋復(fù)雜度增加8*8格國際象棋的狀態(tài)復(fù)雜33人機(jī)對抗的嘗試與探索

在很長一段時間里,靜態(tài)方法成了主流研究方向,中山大學(xué)化學(xué)系教授陳志行開發(fā)的圍棋博弈程序“手談”和開源軟件GNUGO在2003年以前能夠在9*9圍棋中達(dá)到人類5-7級水平。

2006年S.Gelly等人提出的UCT算法(UpperConfidenceBoundApplytoTree,上限置信區(qū)間算法),該算法在蒙特卡洛樹搜索中使用UCB公式解決了探索和利用的平衡,并采用隨機(jī)模擬對圍棋局面進(jìn)行評價。

該程序的勝率竟然比先前最先進(jìn)的蒙特卡羅擴(kuò)展算法高出了幾乎一倍,但它也僅能在9路圍棋中偶爾戰(zhàn)勝人類職業(yè)棋手,在19路圍棋中還遠(yuǎn)遠(yuǎn)不能與人類抗衡。靜態(tài)方法UCT算法陳志行手談人機(jī)對抗的嘗試與探索在很長一段時間里,靜態(tài)方法34AlphaGo橫空出世這是圍棋歷史上一次史無前例的突破,人工智能程序能在不讓子的情況下,第一次在完整的圍棋競技中擊敗專業(yè)選手。AlphaGo大戰(zhàn)樊麾2016年D.Silver等人在世界頂級科學(xué)雜志《Nature》發(fā)表文章,稱被谷歌公司收購的DeepMind團(tuán)隊(duì)開發(fā)出AlphaGo在沒有任何讓子情況下,以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。AlphaGo橫空出世這是圍棋歷史上一35AlphaGo系統(tǒng)簡介監(jiān)督、強(qiáng)化學(xué)習(xí)該系統(tǒng)通過對16萬局人類高手棋譜中的3000萬手盤面進(jìn)行監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí);策略、價值網(wǎng)絡(luò)使用策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)實(shí)現(xiàn)落子決策和局勢評估;蒙特卡洛算法通過與蒙特卡洛樹搜索算法結(jié)合,極大地改善了搜索決策的質(zhì)量;

異步分布并行算法提出異步分布式并行算法,使其可運(yùn)行于CPU/GPU集群上。系統(tǒng)AlphaGo系統(tǒng)簡介監(jiān)督、強(qiáng)化學(xué)習(xí)該系統(tǒng)通過對1636AlphaGo所向披靡

2016年3月AlphaGo與李世石進(jìn)行圍棋人機(jī)大戰(zhàn),以4比1的總比分獲勝;

2016年末2017年初,它以Master為帳號與中日韓數(shù)十位圍棋高手快棋對決,連續(xù)60局全勝。

2017年5月在中國烏鎮(zhèn)圍棋峰會上,它與柯潔對戰(zhàn),以3比0的總比分獲勝。圍棋界公認(rèn)AlphaGo的棋力已經(jīng)超過人類職業(yè)圍棋頂尖水平,其最新版本自我估分在4500分左右,實(shí)力水平大約在13段左右,人類選手中已然無敵。AlphaGo大戰(zhàn)李世石Master大戰(zhàn)聶衛(wèi)平AlphaGo大戰(zhàn)柯潔AlphaGo所向披靡2016年3月Alpha37AlphaGo新技能AlphaGo通過學(xué)習(xí)大量棋譜,以及更大規(guī)模的自我對弈完成學(xué)習(xí),這種深度學(xué)習(xí)的能力使得它能不斷學(xué)習(xí)進(jìn)化。AlphaGo發(fā)現(xiàn)了人類沒有的圍棋著法,初步展示了機(jī)器發(fā)現(xiàn)“新事物”的創(chuàng)造性。這意味著它的增強(qiáng)學(xué)習(xí)算法可以從大數(shù)據(jù)中發(fā)現(xiàn)新的規(guī)律和知識,為人類擴(kuò)展自己的知識體系開辟了新的認(rèn)知通道。AlphaGo展現(xiàn)了曾被認(rèn)為是人類獨(dú)有、計(jì)算機(jī)難以做到的“棋感直覺”這些技術(shù)使得人工智能程序初步具備了既可以考慮局部得失,又可以考慮全局態(tài)勢的能力,從而具備了一種全局性“直覺”能力。深度學(xué)習(xí)發(fā)現(xiàn)新著法棋感知覺新技能AlphaGo新技能AlphaGo通過學(xué)習(xí)大量棋譜,38

AlphaGoZero青出于藍(lán)

學(xué)習(xí)策略整合策略、價值網(wǎng)絡(luò)舍棄快速走子網(wǎng)絡(luò)引入殘差結(jié)構(gòu)2.舍棄快速走子網(wǎng)絡(luò),不再進(jìn)行隨機(jī)模擬,而是完全使用神經(jīng)網(wǎng)絡(luò)得到的結(jié)果替換隨機(jī)模擬,從而在提升學(xué)習(xí)速率的同時,增強(qiáng)神經(jīng)網(wǎng)絡(luò)估值的準(zhǔn)確性。1.AlphaGoZero將策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)整合在一起,使用純粹的深度強(qiáng)化學(xué)習(xí)方法進(jìn)行端到端的自我對弈學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)的權(quán)值完全從隨機(jī)初始化開始,使用強(qiáng)化學(xué)習(xí)進(jìn)行自我博弈和提升。3.AlphaGoZero神經(jīng)網(wǎng)絡(luò)中還引入了殘差結(jié)構(gòu),可使用更深的神經(jīng)網(wǎng)絡(luò)進(jìn)行特征表征提取,從而能在更加復(fù)雜的棋盤局面中進(jìn)行學(xué)習(xí)。AlphaGoZero青出于藍(lán)學(xué)習(xí)策39

AlphaGoZero青出于藍(lán)

AlphaGo最高需要1920塊CPU和280塊GPU訓(xùn)練,AlphaGoLee用了176塊GPU和48塊TPU,而AlphaGoZero僅僅使用了單機(jī)4塊TPU便完成了訓(xùn)練任務(wù)。硬件結(jié)構(gòu)

AlphaGoZero僅用3天的時間便達(dá)到了AlphaGoLee的水平,21天后達(dá)到AlphaGoMaster的水平。AlphaGoZero成功證明了在沒有人類指導(dǎo)和經(jīng)驗(yàn)的前提下,深度強(qiáng)化學(xué)習(xí)方法在圍棋領(lǐng)域里仍然能夠出色的完成指定的任務(wù),甚至于比有人類經(jīng)驗(yàn)知識指導(dǎo)時,完成的更加出色。AlphaGoZero青出于藍(lán)AlphaGo40

AlphaGo成功秘訣:蒙特卡洛樹搜索在機(jī)器博弈中,每步行棋方案的運(yùn)算時間、堆??臻g都是有限的,只能給出局部最優(yōu)解,因此2006年提出的蒙特卡洛樹搜索就成為隨機(jī)搜索算法的首選。應(yīng)用意義它結(jié)合了隨機(jī)模擬的一般性和樹搜索的準(zhǔn)確性,近年來在圍棋等完全信息博弈、多人博弈及隨機(jī)類博弈難題上取得了成功應(yīng)用。理論上,蒙特卡洛樹搜索可被用在以{狀態(tài),行動}定義并用模擬預(yù)測輸出結(jié)果的任何領(lǐng)域。

它結(jié)合了廣度優(yōu)先搜索和深度優(yōu)先搜索,會較好地集中到“更值得搜索的變化”(雖然不一定準(zhǔn)確),同時可以給出一個同樣不怎么準(zhǔn)確的全局評估結(jié)果,最后隨著搜索樹的自動生長,可以保證在足夠大的運(yùn)算能力和足夠長的時間后收斂到完美解。AlphaGo成功秘訣:蒙特卡洛樹搜索在41

AlphaGo成功秘訣:強(qiáng)化學(xué)習(xí)目標(biāo):從一個已經(jīng)標(biāo)記的訓(xùn)練集中進(jìn)行學(xué)習(xí)。機(jī)器學(xué)習(xí)有監(jiān)督學(xué)習(xí)SupervisedLearning無監(jiān)督學(xué)習(xí)UnsupervisedLearning強(qiáng)化學(xué)習(xí)ReinforcementLearning目標(biāo):從一堆未標(biāo)記樣本中發(fā)現(xiàn)隱藏的結(jié)構(gòu)。目標(biāo):在當(dāng)前行動和未來狀態(tài)中獲得最大回報(bào)。在邊獲得樣例邊學(xué)習(xí)的過程中,不斷迭代“在當(dāng)前模型的情況下,如何選擇下一步的行動才對完善當(dāng)前的模型最有利”的過程直到模型收斂。AlphaGo成功秘訣:強(qiáng)化學(xué)習(xí)目標(biāo):從一個已經(jīng)標(biāo)記的訓(xùn)練42強(qiáng)化學(xué)習(xí)的廣泛應(yīng)用阿里巴巴公司在雙11推薦場景中,使用了深度強(qiáng)化學(xué)習(xí)與自適應(yīng)在線學(xué)習(xí)建立決策引擎,對海量用戶行為以及百億級商品特征進(jìn)行實(shí)時分析,提高人和商品的配對效率,將手機(jī)用戶點(diǎn)擊率提升了10-20%。無人駕駛廣告投放強(qiáng)化學(xué)習(xí)在機(jī)器博弈以外還有很多應(yīng)用,例如無人駕駛和廣告投放等。

強(qiáng)化學(xué)習(xí)的廣泛應(yīng)用阿里巴巴公司在雙11推薦場景中43PART4更多的人機(jī)大戰(zhàn)AlphaAILibratus先知1.0戰(zhàn)爭策略游戲PART更多的人機(jī)大戰(zhàn)AlphaAILibratus先知144

人工智能改變世界隨著深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、人機(jī)協(xié)同等技術(shù)的快速發(fā)展,人工智能必將成為未來科技的制高點(diǎn)。以AlphaGo為代表和標(biāo)志的技術(shù)突破,預(yù)示著一種具有直覺、認(rèn)知和自我進(jìn)化能力的新的人工智能時代的到來。這不僅會給工業(yè)界帶來巨大的震動,也將對我們的工作生活方式帶來本質(zhì)的改變。人工智能工業(yè)工作生活人工智能改變世界隨著深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、45感知和決策能力提高在通用人工智能領(lǐng)域,感知和決策能力是衡量一個智能體水平的關(guān)鍵指標(biāo)。深度學(xué)習(xí)具有較強(qiáng)的感知能力,但是缺乏一定的決策能力;而強(qiáng)化學(xué)習(xí)具有決策能力,對感知問題束手無策。

因此,將兩者結(jié)合起來,優(yōu)勢互補(bǔ),能夠?yàn)閺?fù)雜系統(tǒng)的感知決策問題提供解決思路。AlphaGo運(yùn)用的方法,實(shí)際上是一種解決復(fù)雜決策問題的通用框架,而不僅是圍棋領(lǐng)域的獨(dú)門秘籍。人工智能程序所具有的的自我學(xué)習(xí)的能力,使得機(jī)器博弈有了進(jìn)化的可能。感知和決策能力提高在通用人工智能領(lǐng)域,感知46通用人工智能任重道遠(yuǎn)由于搜索算法與生俱來的搜索時間與空間的開銷,對實(shí)時制游戲有著巨大的影響,因此DeepMind團(tuán)隊(duì)在星際爭霸游戲中使用深度強(qiáng)化學(xué)習(xí)方法所能達(dá)到的效果也與期望相去甚遠(yuǎn)。因此,通用人工智能問題的研究及解決仍然任重道遠(yuǎn)。開發(fā)AlphaGo的DeepMind設(shè)計(jì)團(tuán)隊(duì)將下一步挑戰(zhàn)目標(biāo)設(shè)定為即時戰(zhàn)爭策略游戲“星際爭霸”,已經(jīng)開始向軍事指揮和戰(zhàn)爭決策接近,說明這種技術(shù)框架未來具有極為廣闊的應(yīng)用前景。前景廣闊前景廣闊任重道遠(yuǎn)通用人工智能任重道遠(yuǎn)由于搜索算法與生俱來的搜47

即時戰(zhàn)略領(lǐng)域人機(jī)大戰(zhàn)

2016.62016.82017.22017.92016年6月,人工智能飛行員AlphaAI(阿爾法鷹)戰(zhàn)勝了美國空軍著名戰(zhàn)術(shù)專家李上校;2016年8月,卡耐基梅隆大學(xué)的Mayhem機(jī)器人戰(zhàn)隊(duì)?wèi)?zhàn)勝了所有人類戰(zhàn)隊(duì),奪得美國國防高級研究計(jì)劃局(DARPA)第24屆網(wǎng)絡(luò)挑戰(zhàn)大賽(CGC)冠軍;2017年2月,卡耐基梅隆大學(xué)開發(fā)的人工智能系統(tǒng)Libratus在人機(jī)德州撲克大戰(zhàn)中擊敗了人類頂級職業(yè)玩家;2017年9月,由中國科學(xué)院自動化研究所研制的人工智能程序“先知1.0”在全國首屆兵棋推演大賽上,以7:1的戰(zhàn)績戰(zhàn)勝了經(jīng)驗(yàn)豐富的人類高手。即時戰(zhàn)略領(lǐng)域人機(jī)大戰(zhàn)2016.62016.8248

即時戰(zhàn)略游戲人工智能展望既然國際象棋領(lǐng)域能夠誕生“深藍(lán)”,圍棋領(lǐng)域能夠誕生AlphaGo,那么以即時戰(zhàn)略游戲?yàn)榇淼母鼜?fù)雜、更靈活、更加不透明的人機(jī)協(xié)同環(huán)境下不完全信息機(jī)器博弈,也一定會產(chǎn)生出能夠超越人類最高水平的人工智能體,并且很可能在兩三年內(nèi)就可以誕生!

期待人機(jī)博弈下一次大戰(zhàn)!即時戰(zhàn)略游戲人工智能展望既然國際象棋領(lǐng)域能49人工智能與人機(jī)博弈人工智能50自動化技術(shù)發(fā)展趨勢自動化技術(shù)自動化技術(shù)是一門涉及學(xué)科較多、應(yīng)用廣泛的綜合性系統(tǒng)工程,其對象為大規(guī)模、復(fù)雜的工程和非工程系統(tǒng)廣義內(nèi)涵包括三方面的含義:代替人體力勞動的機(jī)器人;代替或輔助人腦力勞動的程序;對人機(jī)進(jìn)行協(xié)調(diào)、管理、控制和優(yōu)化的智能系統(tǒng)研究內(nèi)容包括自動控制和信息處理兩方面,應(yīng)用包括過程自動化、機(jī)械制造自動化、管理自動化和家庭自動化等不斷提高傳統(tǒng)行業(yè)的技術(shù)水平和市場競爭力,并與光電子、計(jì)算機(jī)、信息技術(shù)等融合和創(chuàng)新,不斷創(chuàng)造和形成新的經(jīng)濟(jì)增長點(diǎn)和管理戰(zhàn)略哲理自動化技術(shù)發(fā)展趨勢自動化技術(shù)自動化技術(shù)是一門涉及學(xué)科較多、應(yīng)51智能科學(xué)發(fā)展趨勢智能科學(xué)智能屬于哲學(xué)問題,智能科學(xué)研究智能的本質(zhì)和實(shí)現(xiàn)技術(shù),是由腦科學(xué)、認(rèn)知科學(xué)、人工智能等綜合形成的交叉學(xué)科腦科學(xué)從分子水平、神經(jīng)回路、行為實(shí)驗(yàn)研究自然智能機(jī)理,目的在于闡明人類大腦的結(jié)構(gòu)與功能,以及人類行為與心理活動的物質(zhì)基礎(chǔ)認(rèn)知科學(xué)是研究人類感知、學(xué)習(xí)、記憶、思維、意識等人腦心智活動過程的科學(xué),是心理學(xué)、信息學(xué)、神經(jīng)科學(xué)和自然哲學(xué)的交叉人工智能是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)智能科學(xué)發(fā)展趨勢智能科學(xué)智能屬于哲學(xué)問題,智能科學(xué)研究智能的52自動化技術(shù)智能科學(xué)人工智能技術(shù)在科學(xué)發(fā)展過程中,在那些已經(jīng)建立起來的學(xué)科之間,還存在著一些被人忽視的無人區(qū),正是從這些領(lǐng)域里可能得到最大的收獲。——諾伯特·維納《控制論》,1948自動化智能科學(xué)人工智能在科學(xué)發(fā)展過程中,在那些已經(jīng)建53人工智能技術(shù)的挑戰(zhàn)人-信息人-機(jī)器人-環(huán)境科技進(jìn)步改變著我們的生活,但卻使人們在信息、機(jī)器高度密集的環(huán)境中,變得更為被動和無奈。信息越來越多,甚至成為垃圾,對信息的有效組織和挖掘極度匱乏,人與信息的共生環(huán)境尚未建立。簡單的體力勞動已可以被機(jī)器所替代,但腦力勞動,特別是智力尚未完全轉(zhuǎn)移和擴(kuò)展到機(jī)器上。需要更好地尊重、理解并滿足人的各種需要,以人為本,促進(jìn)人與物理時空環(huán)境的和諧發(fā)展。人工智能技術(shù)的挑戰(zhàn)人-信息人-機(jī)器人-環(huán)境科技進(jìn)步改變著我們54人工智能技術(shù)發(fā)展的特征人工智能由人類設(shè)計(jì),為人類服務(wù),本質(zhì)為計(jì)算,基礎(chǔ)為數(shù)據(jù)。必須體現(xiàn)服務(wù)人類的特點(diǎn),而不應(yīng)該傷害人類,特別是不應(yīng)該有目的性地做出傷害人類的行為。以人為本人工智能技術(shù)發(fā)展的特征人工智能由人類設(shè)計(jì),為人類服務(wù),本質(zhì)為55人工智能技術(shù)發(fā)展的特征環(huán)境增強(qiáng)人工智能能感知環(huán)境,能產(chǎn)生反應(yīng),能與人交互,能與人互補(bǔ)。能夠幫助人類做人類不擅長、不喜歡但機(jī)器能夠完成的工作,而人類則適合于去做更需要創(chuàng)造性、洞察力、想象力的工作。人工智能技術(shù)發(fā)展的特征環(huán)境增強(qiáng)人工智能能感知環(huán)境,能產(chǎn)生反應(yīng)56人工智能技術(shù)發(fā)展的特征學(xué)習(xí)適應(yīng)人工智能有適應(yīng)特性,有學(xué)習(xí)能力,有演化迭代,有連接擴(kuò)展。人工智能可以應(yīng)對不斷變化的現(xiàn)實(shí)環(huán)境,從而使人工智能系統(tǒng)在各行各業(yè)產(chǎn)生豐富的應(yīng)用。。人工智能技術(shù)發(fā)展的特征學(xué)習(xí)適應(yīng)人工智能有適應(yīng)特性,有學(xué)習(xí)能力57人機(jī)博弈棋類游戲是人類智慧的結(jié)晶,自古以來就有著廣泛的愛好者群體,也產(chǎn)生了一代又一代的偶像級棋王。選擇棋類游戲作為人工智能研究的對象,不僅是因?yàn)槠孱愑螒蛞?guī)則清晰,勝負(fù)判斷一目了然,而且也更容易在愛好者群體中產(chǎn)生共鳴,因此人工智能研究者前赴后繼投身到對不同棋類游戲的挑戰(zhàn)中?;迎h(huán)節(jié):人機(jī)小挑戰(zhàn)人機(jī)博弈棋類游戲是人類智慧的結(jié)晶,自古以來就有著58機(jī)器學(xué)習(xí)之父

機(jī)器博弈的水平實(shí)際上代表了當(dāng)時計(jì)算機(jī)體系架構(gòu)與計(jì)算機(jī)科學(xué)的最高水平。早在1962年,就職于IBM的阿瑟?薩繆爾就在內(nèi)存僅為32k的IBM7090晶體管計(jì)算機(jī)上開發(fā)出了西洋跳棋(Checkers)AI程序,并擊敗了當(dāng)時全美最強(qiáng)的西洋棋選手之一的羅伯特?尼雷,引起了轟動。值得一提的是,薩繆爾所研制的下棋程序是世界上第一個有自主學(xué)習(xí)功能的游戲程序,因此他也被后人稱之為“機(jī)器學(xué)習(xí)之父”。阿瑟?薩繆爾機(jī)器學(xué)習(xí)之父機(jī)器博弈的水平實(shí)際上代表了當(dāng)時計(jì)算機(jī)體59里程碑事件1997年IBM公司“更深的藍(lán)”(DeeperBlue)戰(zhàn)勝世界國際象棋棋王卡斯帕羅夫,這是基于知識規(guī)則引擎和強(qiáng)大計(jì)算機(jī)硬件的人工智能系統(tǒng)的勝利2011年IBM公司的問答機(jī)器人“沃森”在美國智力問答競賽節(jié)目中大勝人類冠軍,這是基于自然語言理解和知識圖譜的人工智能系統(tǒng)的勝利2016年谷歌公司AlphaGo戰(zhàn)勝了圍棋世界冠軍李世石,2017年初AlphaGo升級版Master橫掃全球60位頂尖高手,這是基于蒙特卡洛樹搜索和深度學(xué)習(xí)的人工智能系統(tǒng)的勝利真正引起中國人廣泛關(guān)注的機(jī)器博弈史上三個里程碑事件是:里程碑事件1997年IBM公司“更深的藍(lán)”(Deepe60PART1國際象棋機(jī)器學(xué)習(xí)人機(jī)對抗歷史深藍(lán)成功秘訣PART國際象棋機(jī)器學(xué)習(xí)人機(jī)對抗歷史深藍(lán)成功秘訣61國際象棋國際象棋起源于亞洲,后由阿拉伯人傳入歐洲,成為國際通行棋種,也是一項(xiàng)受到廣泛喜愛的智力競技運(yùn)動,據(jù)稱全世界有多達(dá)三億的國際象棋愛好者,甚至在1924年曾一度被列為奧林匹克運(yùn)動會正式比賽項(xiàng)目。國際象棋棋盤由橫縱各8格、顏色一深一淺交錯排列的64個小方格組成,棋子共32個,分為黑白兩方,每方各16個。和8×8的西洋跳棋Checkers相比,國際象棋的狀態(tài)復(fù)雜度(指從初始局面出發(fā),產(chǎn)生的所有合法局面的總和)從1021上升到1046,博弈樹復(fù)雜度(指從初始局面開始,其最小搜索樹的所有葉子節(jié)點(diǎn)的總和)也從1031上升到10123。國際象棋國際象棋起源于亞洲,后由阿拉伯人傳入歐洲6219581973198319871988198919911993人機(jī)對抗歷史從1958年開始,人工智能研究者對國際象棋的挑戰(zhàn)持續(xù)了半個多世紀(jì):1958年名為“思考”

IBM704成為第一臺能同人下國際象棋的計(jì)算機(jī),處理速度每秒200步;1973年B.Slate和Atkin開發(fā)了國際象棋軟件“CHESS4.0”,成為未來國際象棋AI程序基礎(chǔ);1983年,KenThompson開發(fā)了國際象棋硬件“BELLE”,達(dá)到大師水平;1987年,美國卡內(nèi)基梅隆大學(xué)設(shè)計(jì)的國際象棋計(jì)算機(jī)程序“深思”(DeepThought)以每秒鐘75萬步的處理速度露面,其水平相當(dāng)于擁有2450國際等級分的棋手;1988年,“深思”擊敗丹麥特級大師拉爾森;1989年,“深思”已經(jīng)有6臺信息處理器,每秒處理速度達(dá)到200萬步,但還是在與世界棋王卡斯帕羅夫的人機(jī)大戰(zhàn)中以0比2敗北;1991年,由CHESSBASE公司研制的國際象棋計(jì)算機(jī)程序“弗里茨”(Fretz)問世;1993年,“深思”二代擊敗了丹麥國家隊(duì),并在與前女子世界冠軍小波爾加的對抗中獲勝。19581973198319871988198919911963深藍(lán)一戰(zhàn)卡斯帕羅夫

1995年,IBM公司設(shè)計(jì)了全球第一臺采用并行化系統(tǒng)、以RS/6000SP為基礎(chǔ)、集成了總計(jì)256塊處理器以及480顆專門為國際象棋對弈設(shè)計(jì)的VLSI加速芯片的國際象棋計(jì)算機(jī)“深藍(lán)”,重達(dá)1270公斤。

1996年2月10日至17日,為了紀(jì)念首臺通用計(jì)算機(jī)ENIAC誕生50周年,“深藍(lán)”在美國費(fèi)城向國際象棋世界冠軍、世界排名第一的加里?卡斯帕羅夫發(fā)起了挑戰(zhàn)。

在6局的人機(jī)對弈比賽中,“深藍(lán)”并未占到什么便宜,棋王卡斯帕羅夫以4比2的總比分輕松獲勝,但“深藍(lán)”贏得了六場比賽中的一場勝利,這也是計(jì)算機(jī)第一次在與頂級選手的對弈中取得勝局。深藍(lán)一戰(zhàn)卡斯帕羅夫1995年,IBM公司設(shè)計(jì)了全64“深藍(lán)”升級改造

第一次對決落敗之后,IBM對“深藍(lán)”計(jì)算機(jī)進(jìn)行了升級,97型深藍(lán)取名“更深的藍(lán)”(DeeperBlue)。團(tuán)隊(duì)還豐富了象棋加速芯片中的象棋知識,使它能夠識別不同的棋局,并從眾多可能性中找出最佳行棋方案?!案畹乃{(lán)”每秒可檢索1億到2億個棋局,系統(tǒng)能夠搜尋和估算出當(dāng)前局面往后的12步行棋方案,最多可達(dá)20步,而人類棋手的極限是10步。即使按照一盤棋平均走80步,每步棋可能的落子位置為35個計(jì)算,其狀態(tài)復(fù)雜度和博弈樹復(fù)雜度也遠(yuǎn)非超級計(jì)算機(jī)所能窮舉,為了在合理的時間內(nèi)完成走棋任務(wù),必須要進(jìn)行剪枝搜索。

運(yùn)算能力“更深的藍(lán)”(DeeperBlue)運(yùn)算速度為每秒2億步棋,計(jì)算能力為每秒113.8億次浮點(diǎn)運(yùn)算,是1996年版本的2倍,其運(yùn)算能力在當(dāng)時的全球超級計(jì)算機(jī)中也能排在第259位。剪枝搜索象棋知識“深藍(lán)”升級改造第一次對決落敗之后,IBM對“深65“更深的藍(lán)”出師告捷

1997年5月,IBM公司再次邀請加里?卡斯帕羅夫到美國紐約曼哈頓進(jìn)行第二次人機(jī)大戰(zhàn),同樣是6盤棋制比賽。

在前5局里,卡斯帕羅夫?yàn)榱吮苊庠谟?jì)算力方面用人腦與“更深的藍(lán)”進(jìn)行直接較量,他采取了獨(dú)特的行棋策略來對付“更深的藍(lán)”,但是這個奇招并沒有取得明顯的效果,“更深的藍(lán)”總是能夠憑借準(zhǔn)確無誤的局面判斷和精確的計(jì)算給出最強(qiáng)的應(yīng)手。

最終前五局雙方2.5對2.5打平,尤其是第三、第四、第五局連續(xù)三場和局,卡斯帕羅夫的助手看見他坐在房間的角落里,雙手捂面,仿佛已經(jīng)失去了斗志。在最后一局中,卡斯帕羅夫失去耐心,回到了“正常”的下法,在第七回合就犯了一個不可挽回的低級錯誤,局勢急轉(zhuǎn)直下,最終在第六盤決勝局中僅僅走了19步就向“更深的藍(lán)”俯首稱臣。

最終卡斯帕羅夫1勝2負(fù)3平,以2.5比3.5的總比分輸給“更深的藍(lán)”。“更深的藍(lán)”贏得了這場備受世人矚目的人機(jī)大戰(zhàn),也標(biāo)志著國際象棋近2000年的發(fā)展歷史走向了新時代?!案畹乃{(lán)”出師告捷1997年5月,IBM公司再66人機(jī)博弈勝負(fù)已明“深藍(lán)”并不是終結(jié),卡斯帕羅夫也沒有服氣。1999年,“弗里茨”升級為“更弗里茨”(DeepFritz),并在2001年擊敗了卡斯帕羅夫。

當(dāng)今國際象棋男子等級分排名最高的選手是出生于1990年的挪威特級大師卡爾森(MagnusCarlsen),他的等級分是2863分,而至少有10款開源國際象棋引擎等級分達(dá)到了3000分以上。

人與機(jī)器的國際象棋之爭已勝負(fù)分明,國際象棋領(lǐng)域的人機(jī)博弈也畫上了句號,取而代之的是2010年開始舉辦的機(jī)機(jī)博弈——國際象棋引擎競賽TCEC(ThoresenChessEngineCompetition)。人機(jī)博弈勝負(fù)已明“深藍(lán)”并不是終結(jié),卡67加速芯片:“深藍(lán)”的成功秘訣“深藍(lán)”計(jì)算機(jī)在硬件上將通用計(jì)算機(jī)處理器與象棋加速芯片相結(jié)合,采用混合決策的方法,即在通用處理器上執(zhí)行運(yùn)算分解任務(wù),交給象棋加速芯片并行處理復(fù)雜的棋步自動推理,然后將推理得到的可能行棋方案結(jié)果返回通用處理器,最后由通用處理器決策出最終的行棋方案。

97型深藍(lán)與1996年相比,運(yùn)算速度差不多提高了兩倍,象棋加速芯片的升級功不可沒。升級后的象棋加速芯片能夠從棋局中抽取更多的特征,并在有限的時間內(nèi)計(jì)算出當(dāng)前盤面往后12步甚至20步的行棋方案,從而讓“深藍(lán)”更準(zhǔn)確地評估盤面整體局勢。加速芯片:“深藍(lán)”的成功秘訣“深藍(lán)”計(jì)算機(jī)在硬件68知識規(guī)則引擎:“深藍(lán)”的成功秘訣“深藍(lán)”在軟件設(shè)計(jì)上采用了超大規(guī)模知識庫結(jié)合優(yōu)化搜索的方法。一方面,“深藍(lán)”存儲了國際象棋100多年來70萬份國際特級大師的棋譜,利用知識庫在開局和殘局階段節(jié)省處理時間并得出更合理的行棋方案。

另一方面,“深藍(lán)”采用Alpha-Beta剪枝搜索算法和基于規(guī)則的方法對棋局進(jìn)行評價,通過縮小搜索空間的上界和下界提高搜索效率,同時根據(jù)棋子的重要程度、棋子的位置、棋子對的關(guān)系等特征對棋局進(jìn)行更有效的評價。剪枝搜索算法示意圖知識規(guī)則引擎:“深藍(lán)”的成功秘訣“深藍(lán)”在軟件設(shè)69PART2智力問答Watson自然語言處理知識圖譜自主學(xué)習(xí)PART智力問答Watson自然語言處理知識圖譜自主學(xué)習(xí)70Watson認(rèn)知計(jì)算系統(tǒng)平臺問世在“深藍(lán)”之后,IBM公司又選擇了一個新的領(lǐng)域挑戰(zhàn)人類極限——DeepQA,不僅僅把DeepQA項(xiàng)目看成一個問答游戲系統(tǒng),而且將其稱之為認(rèn)知計(jì)算系統(tǒng)平臺。認(rèn)知計(jì)算被定義為一種全新的計(jì)算模式,它包含數(shù)據(jù)分析、自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域的大量技術(shù)創(chuàng)新,能夠幫助人類從大量非結(jié)構(gòu)化數(shù)據(jù)中找出有用的答案。IBM公司對其寄予厚望,并用公司創(chuàng)始人Thomas?J?Watson的名字將這個平臺命名為Watson。如果說“深藍(lán)”只是在做非常大規(guī)模的計(jì)算,是人類數(shù)學(xué)能力的體現(xiàn),那么Watson就是將機(jī)器學(xué)習(xí)、大規(guī)模并行計(jì)算、語義處理等領(lǐng)域整合在一個體系架構(gòu)下來理解人類自然語言的嘗試。Watson認(rèn)知計(jì)算系統(tǒng)平臺問世在“深藍(lán)”之71Watson問答系統(tǒng)能力解析理解(Understanding)與用戶進(jìn)行交互,根據(jù)用戶問題通過自然語言理解技術(shù)分析包括結(jié)構(gòu)化數(shù)據(jù)和圖文、音視頻、圖像等非結(jié)構(gòu)化所有類型的數(shù)據(jù),最終實(shí)現(xiàn)用戶提出問題的有效應(yīng)答。推理(Reasoning)通過假設(shè)生成,透過數(shù)據(jù)揭示洞察、模式和關(guān)系,將散落在各處的知識片段連接起來進(jìn)行推理、分析、對比、歸納、總結(jié)和論證,從而獲取深入的理解和決策的證據(jù)。學(xué)習(xí)(Learning)通過以證據(jù)為基礎(chǔ)的學(xué)習(xí)能力,從大數(shù)據(jù)中快速提取關(guān)鍵信息,像人類一樣學(xué)習(xí)和記憶這些知識,并可以通過專家訓(xùn)練,在不斷與人的交互中通過經(jīng)驗(yàn)學(xué)習(xí)來獲取反饋,優(yōu)化模型。

交互(interacting)通過精細(xì)的個性化分析能力,獲得用戶的語義、情緒等信息,進(jìn)一步利用文本分析與心理語言學(xué)模型對海量數(shù)據(jù)進(jìn)行深入分析,掌握用戶個性特質(zhì),構(gòu)建全方位用戶畫像,實(shí)現(xiàn)更加自然的互動交流。Watson問答系統(tǒng)能力解析理解(Understand72Watson研發(fā)團(tuán)隊(duì)全面?zhèn)鋺?zhàn)IBM公司調(diào)動其全球研發(fā)團(tuán)隊(duì)參與到DeepQA項(xiàng)目中,這些團(tuán)隊(duì)分工極為細(xì)致,讓它的各個團(tuán)隊(duì)都發(fā)揮出最大的效率,目標(biāo)就是在2011年的綜藝節(jié)目《危險(xiǎn)邊緣》(QuizShowJeopardy!)中一鳴驚人。

問答搜索:以色列海法團(tuán)隊(duì)負(fù)責(zé)深度開放域問答系統(tǒng)工程的搜索;

詞語連接:日本東京團(tuán)隊(duì)負(fù)責(zé)在問答中將詞意和詞語連接;

數(shù)據(jù)支持:中國北京和上海團(tuán)隊(duì)則負(fù)責(zé)以不同的資源給Watson提供數(shù)據(jù)支持

算法研究:此外還有專門研究算法的團(tuán)隊(duì)和研究博弈下注策略的團(tuán)隊(duì)等。團(tuán)隊(duì)分工算法研究數(shù)據(jù)支持詞語連接問答搜索

Watson包括90臺IBM小型機(jī)服務(wù)器、360個Power750系列處理器以及IBM研發(fā)的DeepQA系統(tǒng)。Power750系列處理器是當(dāng)時RISC(精簡指令集計(jì)算機(jī))架構(gòu)中最強(qiáng)的處理器,可以支持Watson在不超過3秒鐘的時間內(nèi)得出可靠答案。

Watson研發(fā)團(tuán)隊(duì)全面?zhèn)鋺?zhàn)IBM公司調(diào)動731.攝像頭拍照,OCR識別文字,得到文字文本。2.提取專有名詞基本信息,為其打上分類標(biāo)簽。7.語音合成引擎將答案文本轉(zhuǎn)換成語音并播放出來,完成回答。3.提取文字結(jié)構(gòu)信息,減少冗余搜索。4.

逐級分解每個問題,直到獲得所有子問題的答案。5.在自身知識圖譜中搜索并匯集特定實(shí)體的屬性信息,實(shí)現(xiàn)實(shí)體屬性完整勾畫。6.運(yùn)用算法評估可能答案,可信度最高且超過51%,執(zhí)行器按下信號燈。文字識別實(shí)體抽取關(guān)系抽取問題分析答案生成判斷決策回答問題Watson的工作過程1.攝像頭拍照,OCR識別文字,得到文字文本。2.提取專有74Watson挑戰(zhàn)成功最終比分成績?yōu)閃atson:$77147,Jennings:$24000,Rutter:$21600,比賽塵埃落定,人類已經(jīng)和Watson相距太遠(yuǎn)。

2011年2月14日-16日,做好一切準(zhǔn)備的Watson開始了與人類的對決。Watson在第一輪中就奠定了領(lǐng)先地位,但在比賽中出現(xiàn)了幾個糟糕的回答。

比如一個美國城市類的問題,Watson的答案為多倫多。這道題的回答讓人大跌眼鏡,主要原因是Watson沒有為答案設(shè)置邊緣條件。

另一道回答奧利奧餅干是什么時候被推出的時候,幾秒前人類選手Jennings回答相同問題時剛被告知“20年”錯了,Watson還是繼續(xù)回答“1920年”。這是因?yàn)檠芯繄F(tuán)隊(duì)為了簡化Watson的編程,讓它對其他玩家的回答“裝聾作啞”,結(jié)果吃了大虧。

Watson挑戰(zhàn)成功最終比分成績?yōu)閃ats75Watson進(jìn)入商業(yè)化運(yùn)營階段如今,Watson已經(jīng)被運(yùn)用到超過35個國家的17個產(chǎn)業(yè)領(lǐng)域,超過7.7萬名開發(fā)者參與到WatsonDeveloperCloud平臺來實(shí)施他們的商業(yè)夢想,WatsonAPI的月調(diào)用量也已高達(dá)13億次,并仍在增長。借著這次Watson人機(jī)大戰(zhàn)的風(fēng)頭,2012年IBM公司的小型機(jī)占據(jù)了全球?qū)⒔?/3的市場份額,Watson也于2013年開始進(jìn)入商業(yè)化運(yùn)營,陸續(xù)推出的相關(guān)產(chǎn)品:Watson相關(guān)產(chǎn)品Watson發(fā)現(xiàn)顧問(WatsonDiscoveryAdvisor)Watson參與顧問(WatsonEngagementAdvisor)Watson分析(WatsonAnalytics)Watson探索(WatsonExplorer)Watson知識工作室(WatsonKnowledgeStudio)Watson腫瘤治療(WatsonforOncology)Watson臨床試驗(yàn)匹配(WatsonforClinicalTrialMatching)Watson進(jìn)入商業(yè)化運(yùn)營階段如今,Wa76Watson成功秘訣:自然語言處理

“Jeopardy!”這類問答類節(jié)目,對于人類而言規(guī)則很簡單,但是對于Watson則意味著眾多挑戰(zhàn)。

它不僅要理解主持人提問的自然語言,還需要分析這些語言是否包含諷刺、雙關(guān)、修飾等,以正確判斷題目的意思,并評估各種答案的可能性,給出最后的選擇。

自然語言處理研究實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法,是計(jì)算機(jī)科學(xué)與人工智能研究中的重要方向之一。

Watson成功秘訣:自然語言處理“Jeo77自然語言處理技術(shù)廣泛應(yīng)用

Watson的成功得益于自然語言處理技術(shù)多年的積累,同樣也帶動了這個領(lǐng)域進(jìn)入了一個更加快速的發(fā)展階段:

2011年10月蘋果公司在發(fā)布新品時集成Siri智能語音助手,把聊天問答系統(tǒng)帶入了成熟商業(yè)化階段;

2013年谷歌公司開源Word2Vec引爆深度學(xué)習(xí)這個新的熱點(diǎn),機(jī)器翻譯、文檔摘要、關(guān)系抽取等任務(wù)不斷取得重要進(jìn)展,從此人工智能走向第三次高潮。蘋果Siri智能語音助手谷歌公司開源Word2Vec自然語言處理技術(shù)廣泛應(yīng)用Watson的78Watson成功秘訣:知識圖譜

知識圖譜本質(zhì)上是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。在知識圖譜中,每個節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。可以說,知識圖譜就是把異構(gòu)信息連接在一起而得到的一個關(guān)系網(wǎng)絡(luò),提供了從“關(guān)系”的角度去分析問題的能力。

2012年谷歌公司推出知識圖譜搜索服務(wù),國內(nèi)互聯(lián)網(wǎng)公司百度和搜狗也分別推出“知心”和“知立方”來改進(jìn)其搜索質(zhì)量。在搜索引擎中引入知識圖譜大幅的地提升和優(yōu)化了搜索體驗(yàn)。谷歌改進(jìn)知識圖譜添加比較及過濾等新功能Watson成功秘訣:知識圖譜知識圖譜本79知識圖譜的廣泛應(yīng)用知識圖譜也被廣泛應(yīng)用于聊天機(jī)器人和問答系統(tǒng)中,用于輔助深度理解人類的語言和支持推理,并提升人機(jī)問答的用戶體驗(yàn)。

此外,在金融、農(nóng)業(yè)、電商、醫(yī)療健康、環(huán)境保護(hù)等垂直領(lǐng)域,知識圖譜同樣得到了廣泛的應(yīng)用。知識圖譜問答系統(tǒng)金融農(nóng)業(yè)電商醫(yī)療健康環(huán)保知識圖譜的廣泛應(yīng)用知識圖譜也被廣泛應(yīng)80PART3圍棋AlphaGo機(jī)器學(xué)習(xí)蒙特卡洛樹搜索深度學(xué)習(xí)PART圍棋AlphaGo機(jī)器學(xué)習(xí)蒙特卡洛樹搜索深度學(xué)習(xí)81

圍棋復(fù)雜度增加8*8格國際象棋的狀態(tài)復(fù)雜度為1046,博弈樹復(fù)雜度為10123。

19*19格的圍棋,其狀態(tài)復(fù)雜度已上升到10172,博弈樹復(fù)雜度則達(dá)到驚人的10360,因此也被視為人類在棋類人機(jī)對抗中最后的堡壘。國際象棋圍棋圍棋復(fù)雜度增加8*8格國際象棋的狀態(tài)復(fù)雜82人機(jī)對抗的嘗試與探索

在很長一段時間里,靜態(tài)方法成了主流研究方向,中山大學(xué)化學(xué)系教授陳志行開發(fā)的圍棋博弈程序“手談”和開源軟件GNUGO在2003年以前能夠在9*9圍棋中達(dá)到人類5-7級水平。

2006年S.Gelly等人提出的UCT算法(UpperConfidenceBoundApplytoTree,上限置信區(qū)間算法),該算法在蒙特卡洛樹搜索中使用UCB公式解決了探索和利用的平衡,并采用隨機(jī)模擬對圍棋局面進(jìn)行評價。

該程序的勝率竟然比先前最先進(jìn)的蒙特卡羅擴(kuò)展算法高出了幾乎一倍,但它也僅能在9路圍棋中偶爾戰(zhàn)勝人類職業(yè)棋手,在19路圍棋中還遠(yuǎn)遠(yuǎn)不能與人類抗衡。靜態(tài)方法UCT算法陳志行手談人機(jī)對抗的嘗試與探索在很長一段時間里,靜態(tài)方法83AlphaGo橫空出世這是圍棋歷史上一次史無前例的突破,人工智能程序能在不讓子的情況下,第一次在完整的圍棋競技中擊敗專業(yè)選手。AlphaGo大戰(zhàn)樊麾2016年D.Silver等人在世界頂級科學(xué)雜志《Nature》發(fā)表文章,稱被谷歌公司收購的DeepMind團(tuán)隊(duì)開發(fā)出AlphaGo在沒有任何讓子情況下,以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。AlphaGo橫空出世這是圍棋歷史上一84AlphaGo系統(tǒng)簡介監(jiān)督、強(qiáng)化學(xué)習(xí)該系統(tǒng)通過對16萬局人類高手棋譜中的3000萬手盤面進(jìn)行監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí);策略、價值網(wǎng)絡(luò)使用策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)實(shí)現(xiàn)落子決策和局勢評估;蒙特卡洛算法通過與蒙特卡洛樹搜索算法結(jié)合,極大地改善了搜索決策的質(zhì)量;

異步分布并行算法提出異步分布式并行算法,使其可運(yùn)行于CPU/GPU集群上。系統(tǒng)AlphaGo系統(tǒng)簡介監(jiān)督、強(qiáng)化學(xué)習(xí)該系統(tǒng)通過對1685AlphaGo所向披靡

2016年3月AlphaGo與李世石進(jìn)行圍棋人機(jī)大戰(zhàn),以4比1的總比分獲勝;

2016年末2017年初,它以Master為帳號與中日韓數(shù)十位圍棋高手快棋對決,連續(xù)60局全勝。

2017年5月在中國烏鎮(zhèn)圍棋峰會上,它與柯潔對戰(zhàn),以3比0的總比分獲勝。圍棋界公認(rèn)AlphaGo的棋力已經(jīng)超過人類職業(yè)圍棋頂尖水平,其最新版本自我估分在4500分左右,實(shí)力水平大約在13段左右,人類選手中已然無敵。AlphaGo大戰(zhàn)李世石Master大戰(zhàn)聶衛(wèi)平AlphaGo大戰(zhàn)柯潔AlphaGo所向披靡2016年3月Alpha86AlphaGo新技能AlphaGo通過學(xué)習(xí)大量棋譜,以及更大規(guī)模的自我對弈完成學(xué)習(xí),這種深度學(xué)習(xí)的能力使得它能不斷學(xué)習(xí)進(jìn)化。AlphaGo發(fā)現(xiàn)了人類沒有的圍棋著法,初步展示了機(jī)器發(fā)現(xiàn)“新事物”的創(chuàng)造性。這意味著它的增強(qiáng)學(xué)習(xí)算法可以從大數(shù)據(jù)中發(fā)現(xiàn)新的規(guī)律和知識,為人類擴(kuò)展自己的知識體系開辟了新的認(rèn)知通道。AlphaGo展現(xiàn)了曾被認(rèn)為是人類獨(dú)有、計(jì)算機(jī)難以做到的“棋感直覺”這些技術(shù)使得人工智能程序初步具備了既可以考慮局部得失,又可以考慮全局態(tài)勢的能力,從而具備了一種全局性“直覺”能力。深度學(xué)習(xí)發(fā)現(xiàn)新著法棋感知覺新技能AlphaGo新技能AlphaGo通過學(xué)習(xí)大量棋譜,87

AlphaGoZero青出于藍(lán)

學(xué)習(xí)策略整合策略、價值網(wǎng)絡(luò)舍棄快速走子網(wǎng)絡(luò)引入殘差結(jié)構(gòu)2.舍棄快速走子網(wǎng)絡(luò),不再進(jìn)行隨機(jī)模擬,而是完全使用神經(jīng)網(wǎng)絡(luò)得到的結(jié)果替換隨機(jī)模擬,從而在提升學(xué)習(xí)速率的同時,增強(qiáng)神經(jīng)網(wǎng)絡(luò)估值的準(zhǔn)確性。1.AlphaGo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論