版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
12Jun2024中國互聯(lián)網(wǎng)ChinaInternet“人工智能+”引爆新質(zhì)生產(chǎn)力革命“ArtificialIntelligence+”TriggersaNewProductivityRevolution觀點(diǎn)聚焦InvestmentFocus科大訊飛金山辦公浪潮信息??低?570HAIChinaInternetMSCIChinaJun-23Sep-23Dec-23MaPresentation:AI革命:機(jī)遇與風(fēng)險(xiǎn)(AIRevolution:Opportunitiesand(16May2024)(PleaseseeAPPENDIX1forEnglishsummary)縱觀人類歷史,生產(chǎn)力和生產(chǎn)效率的革命是人類發(fā)展的核心動(dòng)力和主要目標(biāo)。從18世紀(jì)的第一次工業(yè)革命開始,以蒸汽機(jī)為基礎(chǔ)的機(jī)械化革命便開始將人類從繁重的體力勞動(dòng)和低效的畜力生產(chǎn)效率中解脫開來。此后歷次的工業(yè)革命,都誕生了新的技術(shù)來提高生產(chǎn)力和生產(chǎn)效率,同時(shí)也推動(dòng)著人類社會(huì)組織架構(gòu)的變革。技術(shù)進(jìn)步驅(qū)動(dòng)的全要素生產(chǎn)率提升是經(jīng)濟(jì)增長的關(guān)鍵。根據(jù)索洛增長模型(SolowGrowthModel經(jīng)濟(jì)增長由勞動(dòng)力、資本和全要素生產(chǎn)率的增速共同決定。全要素生產(chǎn)率的提升決定了經(jīng)濟(jì)發(fā)展放緩時(shí)能否出現(xiàn)新的增長點(diǎn),而科技發(fā)展是決定全要素生產(chǎn)率增長的主要因素。因此在經(jīng)濟(jì)進(jìn)入長期穩(wěn)定停滯狀態(tài)時(shí),唯有技術(shù)突破才能提供新的增長飛躍,生成式AI正是本次工業(yè)革命的核心突破。生成式AI將成為新的勞動(dòng)主體,大幅提高全要素生產(chǎn)率。人工智能系統(tǒng)能通過分析數(shù)據(jù)來學(xué)習(xí)、處理知識(shí),理解并使用自然語言,甚至展現(xiàn)出創(chuàng)造性思維。人工智能技術(shù)的出現(xiàn)和廣泛應(yīng)用是工業(yè)社會(huì)發(fā)展中又一次科技飛躍,將再次引領(lǐng)社會(huì)的生產(chǎn)變革。AI技術(shù)已發(fā)展至人類能力的高水位,AI4S有望沖擊科學(xué)研究的高峰,為現(xiàn)有的生產(chǎn)方式帶來進(jìn)一步的顛覆。AIforScience(AI4S)將為人類提供新的科學(xué)研究工具,填補(bǔ)現(xiàn)有范式難以解決的鴻溝。目前的科學(xué)研究嚴(yán)重受到“維度災(zāi)難”的制約,尤其在海量數(shù)據(jù)處理和復(fù)雜物理系統(tǒng)中,現(xiàn)有算力條件都因代價(jià)過高難以建立高精度的模型。而以機(jī)器學(xué)習(xí)為代表的AI技術(shù)為系統(tǒng)性解決此類難題打開了窗口,有望引領(lǐng)人類跨越新的高峰。本報(bào)告第一章簡(jiǎn)述AI技術(shù)的進(jìn)步性與局限性,并展望向通用式人工智能(AGI)發(fā)展的路徑;第二章提供全景式的AI產(chǎn)業(yè)鏈圖譜和中美AI能力對(duì)比;第三章闡述了生成式AI的核心技術(shù)及發(fā)展趨勢(shì);第四章聚焦AI對(duì)行業(yè)的影響和賦能,結(jié)合互聯(lián)網(wǎng)、傳媒、計(jì)算機(jī)、電子、能源、自動(dòng)駕駛、人形機(jī)器人等行業(yè)探討生成式AI帶來的投資機(jī)會(huì);第五章從測(cè)評(píng)、監(jiān)管和安全的角度來探討可靠AI生態(tài)的建立;第六章展望AI商業(yè)化路徑和產(chǎn)業(yè)競(jìng)爭(zhēng)格局演變,并提出可能的投資機(jī)會(huì)。風(fēng)險(xiǎn)人工智能發(fā)展不及預(yù)期。鄭創(chuàng)凱EvanZheng楊昊翎HarryYangevan.ck.zheng@本研究報(bào)告由海通國際分銷,海通國際是由海通國際研究有限公司,海通證券印度私人有限公司,海通國際株式會(huì)社和海通國際證券集團(tuán)其他各成員單位的證券研究團(tuán)隊(duì)所組成的全球品牌,海通國際證券集團(tuán)各成員分別在其許可的司法管轄區(qū)內(nèi)從事證券活動(dòng)。關(guān)于海通國際的分析師證明,重要披露聲明和免責(zé)聲明,請(qǐng)參閱附錄。(PleaseseeappendixforEnglishtranslationofthedisclaimer)1.人工智能將帶來第四次工業(yè)革命縱觀人類歷史,生產(chǎn)力和生產(chǎn)效率的革命是人類發(fā)展的核心動(dòng)力和主要目標(biāo)。從18世紀(jì)的第一次工業(yè)革命開始,以蒸汽機(jī)為基礎(chǔ)的機(jī)械化革命將人類從繁重的體力勞動(dòng)和低效的畜力生產(chǎn)效率中解脫開來,珍妮紡織機(jī)、蒸汽輪機(jī)、火車等機(jī)械設(shè)備都給人類的生活帶來天翻地覆的變化。而以電氣能源為基礎(chǔ)的批量生產(chǎn)革命,將生產(chǎn)效率不斷提升,電氣化代替機(jī)械化成為推動(dòng)生產(chǎn)效率的新的火車頭。四次工業(yè)革命示意圖Source:HTI每次技術(shù)革命主要產(chǎn)品技術(shù)及受益行業(yè)Source:HTI歷次工業(yè)革命都涌現(xiàn)了一批核心產(chǎn)品,推動(dòng)了特定行業(yè)的高速發(fā)展和人類社會(huì)的組織2良蒸汽機(jī)、火車等發(fā)明的出現(xiàn)引起了手工勞動(dòng)向動(dòng)力機(jī)器生產(chǎn)轉(zhuǎn)變的重大飛躍,隨著蒸汽動(dòng)力的廣泛應(yīng)用、紡織業(yè)機(jī)械化和鐵路網(wǎng)絡(luò)的擴(kuò)張顯著提高勞動(dòng)生產(chǎn)率,輕工行業(yè)加速發(fā)展,人類社會(huì)開始從農(nóng)業(yè)社會(huì)向工業(yè)社會(huì)發(fā)生轉(zhuǎn)變,資本主義經(jīng)濟(jì)體系逐漸第二次工業(yè)革命(1870s-1940s)是以電為標(biāo)志,以內(nèi)燃機(jī)、電話、電報(bào)、汽車等一系列核心發(fā)明為代表,人類從蒸汽時(shí)代邁進(jìn)電氣時(shí)代?;A(chǔ)科學(xué)與工業(yè)經(jīng)濟(jì)的突破推動(dòng)了大規(guī)模生產(chǎn)和制造業(yè)的興起,繼而帶來工業(yè)生產(chǎn)的效率和規(guī)模大幅提升,促進(jìn)了全球化貿(mào)易的興起,使得部分國家如美國、德國等取得世界領(lǐng)導(dǎo)地位,同時(shí)也導(dǎo)致激烈的資源爭(zhēng)奪和戰(zhàn)爭(zhēng);第三次工業(yè)革命(20世紀(jì)中葉至21世紀(jì)初)是以電腦和網(wǎng)絡(luò)為基礎(chǔ)的知識(shí)信息革命。計(jì)算機(jī)技術(shù)、生物技術(shù)、原子能技術(shù)的應(yīng)用發(fā)展加速開啟了信息時(shí)代,隨著知識(shí)經(jīng)濟(jì)的興起與全球信息共享的加速,半導(dǎo)體、計(jì)算機(jī)和互聯(lián)網(wǎng)行業(yè)蓬勃發(fā)展;航天技術(shù)也得到重大發(fā)展,這時(shí)期蘇聯(lián)和美國首次發(fā)射了人造地球衛(wèi)星;第四次工業(yè)革命(21世紀(jì)初至今)是以大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等信息技術(shù)為基礎(chǔ)的超連接革命。21世紀(jì)正在進(jìn)行的第四次工業(yè)革命指以人工智能、物聯(lián)網(wǎng)、區(qū)塊鏈、新能源、新材料、虛擬現(xiàn)實(shí)等等一系列創(chuàng)新技術(shù)引領(lǐng)的范式變革,推動(dòng)著數(shù)字化轉(zhuǎn)型和工作方式和生活方式的變革。相比前三次工業(yè)革命,它的發(fā)展速度更快、影響范圍更廣、程度更深。1.1歷史上的工業(yè)革命全球GDP歷史增長Source:WorldBank(2023),BoltandvanZanden-MaddisonProjectDatabase2023,MaddisonDatabase2010,HTI隨著人類生產(chǎn)力的不斷增長和生產(chǎn)效率的大幅提高,全球GDP已從18世紀(jì)的7,510億1980年,1990-2008年的增速最為顯著,分別為時(shí)期的電力、核能、互聯(lián)網(wǎng)等技術(shù)的誕生和大規(guī)模投入到生產(chǎn)當(dāng)中。技術(shù)的變革是顛覆性和難以抵抗的。每一次工業(yè)革命都是以前一代的技術(shù)被替代、組織架構(gòu)變更、產(chǎn)業(yè)勞動(dòng)者被淘汰為結(jié)果。如第一次工業(yè)革命的工業(yè)化以圈地運(yùn)動(dòng)為前提,失去土地的農(nóng)民投入工商業(yè)成為工業(yè)生產(chǎn)的勞動(dòng)力來源,隨之而來的是工人階級(jí)的壯大,同時(shí)傳統(tǒng)的家庭手工業(yè)也因無法與工廠生產(chǎn)的效率競(jìng)爭(zhēng)而被逐漸淘汰;第二次工業(yè)革命中電力和內(nèi)燃機(jī)的普及取代了蒸汽機(jī)的工作,新技術(shù)催生了技術(shù)人員如電力工程師、化學(xué)工程師等崗位的涌現(xiàn),同時(shí)大規(guī)模機(jī)械化生產(chǎn)促進(jìn)企業(yè)迅速增長,新生的中產(chǎn)階級(jí)不斷擴(kuò)大,帶來新一波的社會(huì)結(jié)構(gòu)和經(jīng)濟(jì)模式轉(zhuǎn)型。31.2科技的發(fā)展和生產(chǎn)率的提升生產(chǎn)率(productivity)是原材料變成產(chǎn)品的過程中每單位投入的產(chǎn)出。以單一要素投入量測(cè)定生產(chǎn)率,可將生產(chǎn)率分類為勞動(dòng)生產(chǎn)率、原材料生產(chǎn)率、能源生產(chǎn)率等;考慮全部資源投入所計(jì)算的生產(chǎn)率,即多種生產(chǎn)率的總和,稱為全要素生產(chǎn)率(TotalFactorProductivity/TFP)。人力與機(jī)械功率對(duì)比Source:騰訊新聞,懂車帝,EVdatabase,Petrotech,“TheNewSiemensGasTurbineSGT5-8000H力的維度,如果以人為單位,一個(gè)成年人的最高功率約為750瓦,而蒸汽機(jī)的功率可達(dá)300kW,蒸汽輪機(jī)的功率可超過1,000M使用大幅降低了人力消耗;能源轉(zhuǎn)換效率的維度,1954年晶硅太陽能光伏電池的開發(fā)讓光電轉(zhuǎn)換效率從1%提高至6%,至今已接近30%大關(guān),接近其理論轉(zhuǎn)換效率極限;再例如信息生產(chǎn)和傳遞效率維度,信息從初始依靠紙張和人力的數(shù)日傳遞,到使用有線通訊如傳真、無線通訊如移動(dòng)電話、數(shù)字通訊如互聯(lián)網(wǎng),顯著縮減了信息傳遞的時(shí)間和損耗。索洛增長模型Source:RobertSolow,HTI技術(shù)進(jìn)步驅(qū)動(dòng)的TFP提升是經(jīng)濟(jì)增長的關(guān)鍵。根據(jù)索洛增長模型(SolowGrowthModel),經(jīng)濟(jì)增長速度(以人均產(chǎn)出衡量)由勞動(dòng)力、資本和全要素生產(chǎn)率(TFP)的增速共同決定。據(jù)索洛模型測(cè)算,勞動(dòng)力和資本投入驅(qū)動(dòng)下的有效人均資本波動(dòng)將在長期達(dá)到穩(wěn)態(tài),即這兩項(xiàng)要素驅(qū)動(dòng)的經(jīng)濟(jì)增長最終會(huì)減緩并達(dá)到均衡狀態(tài);在此狀態(tài)4下,僅有TFP的增速能提供有效人均資本穩(wěn)態(tài)水平的增長。簡(jiǎn)言之,TFP的提升與否決定了在經(jīng)濟(jì)發(fā)展放緩時(shí)能否出現(xiàn)新的增長點(diǎn)。而如前所述,科技發(fā)展是決定TFP增長的主要因素,因此在上一次技術(shù)變革帶來的動(dòng)能消退、勞動(dòng)力與資本難以驅(qū)動(dòng)經(jīng)濟(jì)的情況下,新的技術(shù)突破將是新一輪增長的關(guān)鍵。1.3人工智能是什么,它將改變什么?人工智能(ArtificialIntelligence,簡(jiǎn)稱AI)是用人制造的機(jī)器呈現(xiàn)人類智能的科技。人工智能系統(tǒng)能通過分析數(shù)據(jù)來學(xué)習(xí)、處理知識(shí),理解并使用自然語言,甚至展現(xiàn)出創(chuàng)造性思維。人工智能技術(shù)的出現(xiàn)和廣泛應(yīng)用是工業(yè)社會(huì)發(fā)展中又一次科技飛躍,將為經(jīng)濟(jì)提供新的增長動(dòng)能,再次引領(lǐng)社會(huì)的生產(chǎn)變革。生成式AI將成為新的勞動(dòng)主體,大幅提高TFP。在1980年夠執(zhí)行需要人類智能任務(wù)的機(jī)器和程序,以按照指令執(zhí)行為主,依托于大型機(jī),數(shù)據(jù)儲(chǔ)存單位僅千字節(jié);1980至2010年,機(jī)器學(xué)習(xí)的概念出現(xiàn),強(qiáng)調(diào)在沒有明確編程的情況下機(jī)器通過數(shù)據(jù)和算法自動(dòng)改進(jìn)其性能和學(xué)習(xí)的能力,硬件迭代為小型機(jī),數(shù)據(jù)存儲(chǔ)能力擴(kuò)張至兆字節(jié);2010至2020年,AI的定義在機(jī)器學(xué)習(xí)的基礎(chǔ)上延伸至深度學(xué)習(xí),即基于深度神經(jīng)網(wǎng)絡(luò),模擬人腦處理信息的方式,從錯(cuò)誤反饋中學(xué)習(xí)處理復(fù)雜的數(shù)據(jù)模式如圖像、聲音、文本。深度學(xué)習(xí)涉及大量的并行計(jì)算,存儲(chǔ)數(shù)據(jù)量可達(dá)十億字節(jié)的GPU成為其首選硬件;2020年至今,AI形式迭代至大語言模型(LLM),即預(yù)訓(xùn)練的大規(guī)模機(jī)器學(xué)習(xí)模型,專門用于處理和生成自然語言。這些模型由多層深度神經(jīng)網(wǎng)絡(luò)構(gòu)成,基于支持大量的矩陣運(yùn)算和并行處理的GPU集群開發(fā)訓(xùn)練,能夠通過“自己學(xué)”的方式理解并執(zhí)行多種自然語言任務(wù),生成連貫文本,具有廣泛的應(yīng)用潛力。發(fā)展后的AI有望成為新的勞動(dòng)主體。AI迭代歷程Source:云知聲,HTI歷史上只有人類是唯一的勞動(dòng)主體,生成式AI的誕生會(huì)帶來和人類現(xiàn)有組織形態(tài)的本質(zhì)性沖突。AI最擅長的領(lǐng)域是依規(guī)行事,其沖突對(duì)象將是人類現(xiàn)處工業(yè)社會(huì)的兩大成就,1)以業(yè)務(wù)流程化和組織科層化為核心的工業(yè)企業(yè);2)專業(yè)人士。專業(yè)人士的價(jià)值取決于業(yè)務(wù)流程環(huán)節(jié)邊界的定義,及工業(yè)社會(huì)對(duì)操作流程的標(biāo)準(zhǔn)化規(guī)則,其專業(yè)知識(shí)更多由社會(huì)需求決定,此特征與AI的強(qiáng)勢(shì)領(lǐng)域重合,AI將在專業(yè)領(lǐng)域與人類勞動(dòng)產(chǎn)生強(qiáng)烈的對(duì)抗。另一方面,AI不擅長處理不斷變化的未知事物與創(chuàng)造性,意味著AI和人類具有完全互補(bǔ)的關(guān)系,AI在人類的優(yōu)勢(shì)領(lǐng)域也將無法應(yīng)用。5工業(yè)企業(yè)特征Source:智識(shí)神工,HTI專業(yè)人士特征Source:智識(shí)神工,HTI遍存在三大謬誤,現(xiàn)出對(duì)AI技術(shù)不同程度的過度輕視或放大威脅。此類謬誤背后對(duì)AI技術(shù)特征和發(fā)展路徑的誤解,將嚴(yán)重阻礙AI技術(shù)在社會(huì)和企業(yè)層面的廣泛與正確應(yīng)謬誤1:AI是一種更強(qiáng)的工具,像超級(jí)計(jì)算機(jī)一樣可被購買。種全新的生產(chǎn)方式,將帶來與之匹配的全方位組織形式變革。對(duì)AI技術(shù)革命性的輕視、思維上的墨守成規(guī),可能導(dǎo)致企業(yè)和政府錯(cuò)過技術(shù)和組織轉(zhuǎn)型的關(guān)鍵入場(chǎng)點(diǎn),或?qū)I的使用浮于表面,無法及時(shí)利用AI模型改善運(yùn)營和決策全流程,此后的追趕將困難重重。謬誤2:AI無所不能,人類是執(zhí)行器,AI將取代人類。此謬誤忽視AI存在的固有缺陷,AI仍沒有取代人類的能力,例如,AI在創(chuàng)造性方面無術(shù)開始突破臨界點(diǎn)的當(dāng)下,放大AI威脅論只會(huì)在社會(huì)輿論中制造恐慌,對(duì)AI技術(shù)和人類工作的有效融合無益。謬誤3:AI將和人類具備平等的地位。這種認(rèn)知不是科學(xué)也不是社會(huì)治理理念,忽視了AI工具性的本質(zhì)。AI是計(jì)算機(jī)程序構(gòu)建的模型,其目的是更好地根據(jù)數(shù)據(jù)做出預(yù)測(cè),本身不具備主觀感覺能力。人類固然為人類所用。跳出輿論對(duì)AI技術(shù)的過度吹捧與貶低,AI本身并不應(yīng)被“神化”。在AI發(fā)展中產(chǎn)生了五大悖論,揭示了AI作為技術(shù)的局限性和未來可能應(yīng)用方向的限制。莫拉維克悖論認(rèn)為,實(shí)現(xiàn)類似人類的高階的認(rèn)知任務(wù)(如推理和解決問題)需要很少的計(jì)算能力,但在模擬人類的基本感知和運(yùn)動(dòng)技能時(shí)卻需要大量算力。這意味著雖然AI能夠輕易完成計(jì)算、推理甚至圍棋、編程等“高級(jí)任務(wù)”,它在人類輕而易舉可以達(dá)到的運(yùn)動(dòng)、手眼協(xié)調(diào)等“低智能”領(lǐng)域卻寸步難行。悖論2:腦科學(xué)悖論盡管AI在模擬人類智能方面實(shí)現(xiàn)了巨大的進(jìn)步,但AI和人類大腦的工作原理在本質(zhì)上是不同的。AI的原理是基于算法和數(shù)學(xué)模型實(shí)現(xiàn)智能行為,其學(xué)習(xí)機(jī)制和決策能力都和人類大腦不同。人類智能是腦科學(xué)和心理學(xué)的結(jié)合,AI難以完全復(fù)制人類大腦的復(fù)雜性,實(shí)現(xiàn)通用人工智能仍需要進(jìn)一步模擬大腦智能的機(jī)制。6悖論3:可解釋性與自主性悖論模型,導(dǎo)致決策過程難以追溯和解釋,從而降低了可解釋性;而人類使用者需要可解釋性來理解決策背后的原因,以便進(jìn)行監(jiān)管和糾正錯(cuò)誤。未來的AI系統(tǒng)需要在保持高度自主性的同時(shí),也能夠提供足夠的透明度和可解釋性,以滿足社會(huì)的需求。悖論4:知識(shí)圖譜悖論盡管AI和機(jī)器學(xué)習(xí)技術(shù)能夠從大量數(shù)據(jù)中發(fā)現(xiàn)模式和知識(shí),但它們只能執(zhí)行預(yù)設(shè)的算法和處理已有的信息,而不會(huì)產(chǎn)生真正意義上的新知識(shí)。因此,AI在創(chuàng)造性方面遠(yuǎn)遜于人類。悖論5:生成AI悖論生成AI在生成內(nèi)容的質(zhì)量和邏輯性難以評(píng)估,因?yàn)锳I可能并不完全理解其自身創(chuàng)作的內(nèi)容;同時(shí),這種內(nèi)容往往基于大量現(xiàn)有數(shù)據(jù)的學(xué)習(xí)和模仿,可能導(dǎo)致其原創(chuàng)性受到質(zhì)疑。在在提高AI技術(shù)能力的同時(shí),也應(yīng)有相應(yīng)的監(jiān)管政策到位,確保其符合倫理標(biāo)準(zhǔn)和社會(huì)價(jià)值觀。即使存在以上的悖論與局限,AI依然是一種意義重大的技術(shù),它將顯著提高生產(chǎn)和工作效率,并有希望在更復(fù)雜的領(lǐng)域?yàn)槿祟愖龀鼍薮筘暙I(xiàn)。1.5第五范式與AI4S科學(xué)研究共發(fā)展出了四種主要范式,AI技術(shù)則提供第五范式的可能。四種現(xiàn)存的范式分別為:從幾千幾百年前起通過觀察和實(shí)驗(yàn)來描述自然現(xiàn)象的經(jīng)驗(yàn)范式;使用模型或歸納法進(jìn)行科學(xué)研究的理論范式;隨著電子計(jì)算機(jī)發(fā)展而產(chǎn)生的采用計(jì)算機(jī)進(jìn)行仿真模擬的計(jì)算范式;進(jìn)入大數(shù)據(jù)時(shí)代后,對(duì)大規(guī)模實(shí)驗(yàn)科學(xué)數(shù)據(jù)進(jìn)行建模和分析的數(shù)據(jù)驅(qū)動(dòng)范式。AI技術(shù)的發(fā)展揭示了第五種科學(xué)研究范式,即通過機(jī)器猜想的方式應(yīng)用于科學(xué)智能,通過不同的算法思維和應(yīng)用場(chǎng)景的對(duì)撞,得到不同領(lǐng)域?qū)I(yè)知識(shí),從而推導(dǎo)位置結(jié)論的范式。第一到第五范式第一到第五范式Source:澎湃新聞,HTIAIforScience(AI4S)將為人類提供新的科學(xué)研究工具,填補(bǔ)現(xiàn)有范式難以解決的鴻溝。目前的科學(xué)研究圍繞數(shù)據(jù)驅(qū)動(dòng)的開普勒范式和基于第一性原理的牛頓范式開展,嚴(yán)重受到“維度災(zāi)難”的制約,即隨著維數(shù)的增加計(jì)算代價(jià)呈指數(shù)增長,尤其在海量數(shù)據(jù)處理和復(fù)雜物理系統(tǒng)中,現(xiàn)有算力條件都因代價(jià)過高難以建立高精度的模型。以機(jī)器學(xué)習(xí)為代表的AI技術(shù)為系統(tǒng)性解決此類難題打開了窗口,使得原理驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)的兩種范式得以統(tǒng)一。在數(shù)據(jù)充足的學(xué)科問題中,AI4S可以在大數(shù)據(jù)的基礎(chǔ)上利用深度學(xué)習(xí)+高性能計(jì)算提效;而數(shù)據(jù)缺乏、原理明確的問題中,AI4S能利用生成式模型生產(chǎn)高質(zhì)量數(shù)據(jù),并高效利用小數(shù)據(jù)實(shí)現(xiàn)突破。7AI4SSource:DPTechnology,北京科學(xué)智能研究院,深勢(shì)科技,高瓴創(chuàng)投,HTIAI4S已在多個(gè)科學(xué)領(lǐng)域?qū)崿F(xiàn)了初步成果。2解決科學(xué)問題。2020年后,Alphafold(DeepMind開發(fā)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)程式)、Modulus(Nvidia開發(fā)的基于物理的機(jī)器學(xué)習(xí)平臺(tái))等優(yōu)秀AI4S工具相繼誕生,域的工具與方法已初步成熟。至2023年,AI4S工具的發(fā)展和運(yùn)用已在材料科學(xué)、氣候變化、計(jì)算機(jī)科學(xué)、醫(yī)學(xué)等領(lǐng)域產(chǎn)生了深遠(yuǎn)影響。盡管AI4S概念在科學(xué)領(lǐng)域的導(dǎo)入已基本完成,但目前AI4S工具的使用仍以學(xué)術(shù)界為主導(dǎo),沒有產(chǎn)生系統(tǒng)性的工程化需求。未來5年中,AI4S仍需走過關(guān)鍵的基礎(chǔ)設(shè)施建設(shè)時(shí)期,進(jìn)入成熟應(yīng)用階段?,F(xiàn)有AI4S工具與成果AAI4S工具現(xiàn)有成果產(chǎn)業(yè)物理仿真Modulus(Nvidia)“基于物理的人工智能引擎~”Modulus,同精度級(jí)別的計(jì)算速度比傳統(tǒng)仿真快1,000100,000倍,基于其顯著的速度優(yōu)勢(shì),伯克利勞倫斯國家實(shí)驗(yàn)室與加州理工團(tuán)隊(duì)實(shí)現(xiàn)對(duì)復(fù)雜氣象的實(shí)時(shí)仿真(0.25s計(jì)算出7日預(yù)測(cè)數(shù)據(jù))材料科學(xué)GNoME(DeepMind)GNoME發(fā)現(xiàn)了220萬種新晶體預(yù)測(cè)(相當(dāng)于人類科學(xué)家近800年的知識(shí)積累),其中有38萬個(gè)穩(wěn)定的晶體結(jié)構(gòu),有望通過實(shí)驗(yàn)合成,部分材料或許會(huì)引發(fā)技術(shù)變革,如下一代電池、超導(dǎo)體等分子結(jié)構(gòu)AlphaFold(DeepMind)DeepMid團(tuán)隊(duì)用特殊的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),充分利用數(shù)據(jù)使得蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)達(dá)到前所未有的精度醫(yī)學(xué)研究EVEscape(Harvard/Oxford)通用模塊化框架EVEscape能夠在不依賴于大流行期間的測(cè)序數(shù)據(jù)或抗體結(jié)構(gòu)信息的情況下,預(yù)測(cè)病毒的逃逸潛力。這一早期預(yù)警系統(tǒng)為公共衛(wèi)生決策和準(zhǔn)備工作提供了指導(dǎo),有助于最大限度地減少大流行對(duì)人類健康和社會(huì)經(jīng)濟(jì)的負(fù)面影響Source:Human-CenterAritificialIntelligence(HAI),北京科學(xué)智能研究院,深勢(shì)科技,高瓴創(chuàng)投,HTIAI技術(shù)已發(fā)展至人類能力的高水位,AI4S有望沖擊科學(xué)研究的高峰。漢斯·莫拉維克(HansMoravec)認(rèn)為,人類的潛能類似地形分布,低地為算術(shù)、背誦等技能,山麓則是下棋、定理證明、科學(xué)研究等能力。計(jì)算機(jī)潛能的提升正在過去的數(shù)年內(nèi)逐漸淹沒人類能力的領(lǐng)地。2016年AlphaGo戰(zhàn)勝人類棋手,淹沒了圍棋的丘陵;AI代碼審查工具DeepCode、AI編程助手GitHubCopilot等技術(shù)已進(jìn)入編程領(lǐng)域年推出的視頻生成模型Sora開始了對(duì)影視領(lǐng)域的沖擊;多種文生圖、文生UI工具抵達(dá)AI設(shè)計(jì)的臨界點(diǎn),此后AI能力的邊界有望加速擴(kuò)張,沖擊科研的頂點(diǎn),為現(xiàn)有的生產(chǎn)方式帶來進(jìn)一步的顛覆。8人類能力地形圖Source:HansMoravec,HTI1.6通往AGI之路人工通用智能(ArtificialGeneralIntelligen越人類的人工智能,能表現(xiàn)正常人類所具有的所有智能行為。它是一種具有廣泛認(rèn)知能力的人工智能系統(tǒng),能夠?qū)崿F(xiàn)無需標(biāo)注的自監(jiān)督學(xué)習(xí),像人類一樣在多種不同領(lǐng)域和環(huán)境中靈活地思考、學(xué)習(xí)、推理和解決問題。目前的大語言模型仍然不符合AGI的要求。目前的AI在幾個(gè)基準(zhǔn)表現(xiàn),包括圖像分類、視覺推理和英語理解等。然而,它在數(shù)學(xué)競(jìng)賽、視覺常識(shí)推理和規(guī)劃等更復(fù)雜的任務(wù)上仍然落后于人類,也不具備自主能力,需要人類具體定義每個(gè)任務(wù)。此外,1.0時(shí)代的AI需要花費(fèi)巨大規(guī)?;芰?,亦難以實(shí)現(xiàn)商業(yè)上的成功。從AI1.0到AI2.0Source:李開復(fù),HTI需人工標(biāo)注的海量數(shù)據(jù)訓(xùn)練出的具有跨領(lǐng)域知識(shí)的基礎(chǔ)大模型可以通過微調(diào)適配和執(zhí)行多樣任務(wù),實(shí)現(xiàn)平臺(tái)化效應(yīng)和商業(yè)化機(jī)會(huì)。AI2.0的發(fā)展范式是迭代式的,從“輔助人類”到“全程自動(dòng)”將會(huì)出現(xiàn)三個(gè)階段:第一階段人機(jī)協(xié)同,生產(chǎn)力工具將會(huì)首先實(shí)現(xiàn)9升級(jí),所有使用者界面將被重新設(shè)計(jì),用戶可以通過描述告訴AI期望的產(chǎn)出。在這一階段,人類仍與AI保持協(xié)作,篩選和糾正AI創(chuàng)作的內(nèi)容;第二階段局部自動(dòng),容錯(cuò)度高的應(yīng)用和行業(yè)將率先實(shí)現(xiàn)AI自動(dòng)化,例如廣告投放、電子商務(wù)、搜索引三階段全程自動(dòng),AI將在不容出錯(cuò)的領(lǐng)域?qū)崿F(xiàn)自動(dòng)化,AI醫(yī)生、AI教師等應(yīng)用成為可2.HTI全球人工智能圖譜2024(HTIGlobalAILandscape2024)HTI全球人工智能圖譜Source:信通院,中商產(chǎn)業(yè)研究院,HTI12Jun2024Source:HAI-AIIndexReport2024,SynergyResearchGrou12Jun20243.GenAI核心技術(shù)解析及發(fā)展趨勢(shì)傳統(tǒng)意義上的AI模型,主要分為判別式模型(DiscriminativeModels)和生成式模型判別式模型(DiscriminativeModels):用于解決回歸或分類任務(wù),重點(diǎn)在于區(qū)分類別的數(shù)據(jù)。與生成模型不同,判別模型不生成新數(shù)據(jù),而是專注于學(xué)習(xí)輸入特征與輸出標(biāo)簽之間的關(guān)系,以便準(zhǔn)確地進(jìn)行分類或預(yù)測(cè)。判別式模型在各種應(yīng)用中廣泛使用,特別是在需要分類或回歸任務(wù)的場(chǎng)景中,例如:BERT(用于各種NLP任務(wù))、金融風(fēng)險(xiǎn)評(píng)估的信用評(píng)分系統(tǒng)(如FICO)、癌癥檢測(cè)系統(tǒng)等等。生成式與判別式模型Source:Learnopencv,HTI而生成式模型(GenerativeModels):是生成式AI背后的技術(shù),是一類能學(xué)習(xí)和模仿數(shù)據(jù)分布的模型,它們能夠創(chuàng)建看起來與訓(xùn)練數(shù)據(jù)相當(dāng)相似的新數(shù)據(jù)樣本。舉個(gè)例子,如果我們有一個(gè)人臉生成模型,它可以生成看起來像真人臉的圖片,而這些圖片與模型用來訓(xùn)練的真實(shí)人臉圖片很相似,甚至很難區(qū)分哪個(gè)是生成的,哪個(gè)是真實(shí)的。生成式模型已被廣泛應(yīng)用于各種領(lǐng)域,特別是在需要生成新數(shù)據(jù)樣本的任務(wù)中,大模型是“大算力+強(qiáng)算法”結(jié)合的產(chǎn)物。大模型通練,學(xué)習(xí)出一種特征和規(guī)則。基于大模型進(jìn)行應(yīng)用開發(fā)時(shí),將大模型進(jìn)行微調(diào),下游特定任務(wù)上的小規(guī)模有標(biāo)注數(shù)據(jù)進(jìn)行二次訓(xùn)練,或者不進(jìn)行微調(diào),就可以完成多個(gè)應(yīng)用場(chǎng)景的任務(wù)。從參數(shù)規(guī)模上看,AI大模型先后經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個(gè)階段,參數(shù)量實(shí)現(xiàn)了從億級(jí)到百萬億級(jí)的突破。從模態(tài)支持上看,AI大模型從支持圖片、圖像、文本、語音單一模態(tài)下的單一任務(wù),逐漸發(fā)展為支持多種模態(tài)下的多種任務(wù)生成式AI是利用生成式模型從大量數(shù)據(jù)中學(xué)習(xí)并生成新內(nèi)容的技術(shù),它能夠創(chuàng)作與訓(xùn)練數(shù)據(jù)相似的文本、圖像、音頻等。如GPT4,通過理解數(shù)據(jù)的結(jié)構(gòu)和模式,生成自然流暢的文本、逼真的圖像和音視頻。目前,生成式AI已廣泛應(yīng)用于內(nèi)容創(chuàng)作和藝術(shù)設(shè)計(jì)等領(lǐng)域,在交互娛樂等方面也有著廣闊的應(yīng)用前景。以GPT-3.5為例,其訓(xùn)練的過程主要有三個(gè)階段。第一步是訓(xùn)練監(jiān)督策略,人類標(biāo)注員對(duì)隨機(jī)抽取的提示提供預(yù)期結(jié)果,用監(jiān)督學(xué)習(xí)的形式微調(diào)GPT-3.5,生成SupervisedFine-Tuning(SFT)模型,使GPT-3.5初步理解指令,這一步與先前的GPT-3模型訓(xùn)練方式相同,類似于老師為學(xué)生提供標(biāo)答的過程。第二步是獎(jiǎng)勵(lì)模型,在SFT模型中隨機(jī)抽取提示并生成數(shù)個(gè)結(jié)果,由人類標(biāo)注員對(duì)結(jié)果的匹配程度進(jìn)行排序,再將問題與結(jié)果配對(duì)成數(shù)據(jù)對(duì)輸入獎(jiǎng)勵(lì)模型進(jìn)行打分訓(xùn)練,這個(gè)步驟類似于學(xué)生模擬標(biāo)答寫出自己的答案,老師再對(duì)每個(gè)答案進(jìn)行評(píng)分。第三步是近段策略優(yōu)化(ProximalPolicyOptimization,PPO),也是ChatGPT最突出的升級(jí)。模型通過第二步的打分機(jī)制,對(duì)SFT模型內(nèi)數(shù)據(jù)進(jìn)行訓(xùn)練,自動(dòng)優(yōu)化迭代,提高ChatGPT輸出結(jié)果的質(zhì)量,即是學(xué)生根據(jù)老師反饋的評(píng)分,對(duì)自己的作答進(jìn)行修改,使答案更接近高分標(biāo)準(zhǔn)。GPT-3.5訓(xùn)練過程Source:OpenAI,HTI人工智能領(lǐng)域中的一些重要基礎(chǔ)技術(shù)概念如下:):功能的計(jì)算方法。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)通常分為輸入層、隱藏層和輸出層。輸入層接受原始數(shù)據(jù),隱藏層負(fù)責(zé)數(shù)據(jù)的特征提取和處理,輸出層生成預(yù)測(cè)結(jié)果。神經(jīng)網(wǎng)絡(luò)技術(shù)可以處理復(fù)雜數(shù)據(jù)和任務(wù),已在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域中廣泛應(yīng)用。深度神經(jīng)網(wǎng)絡(luò)Source:IBM,HTI(2)神經(jīng)符號(hào)推理(Neuro-SymbolicReasoning)結(jié)合了神經(jīng)網(wǎng)絡(luò)和符號(hào)推理的混合方法,利用兩種技術(shù)的優(yōu)勢(shì)來解決復(fù)雜的推理和學(xué)習(xí)任務(wù)。這種方法在人工智能領(lǐng)域具有廣泛的應(yīng)用前景,因?yàn)樗軌蛱幚韽?fù)雜的數(shù)據(jù)和關(guān)系,同時(shí)保留符號(hào)邏輯的可解釋性和規(guī)則性。神經(jīng)符號(hào)推理Source:Semanticscholar,HTI(3)尺度定律(ScalingLaw)是指在訓(xùn)練模型時(shí),模型性能隨模型規(guī)模(如參數(shù)數(shù)量)、訓(xùn)練數(shù)據(jù)量和計(jì)算資源的增加而變化的規(guī)律。這些定律幫助研究人員和工程師更好地理解和預(yù)測(cè)擴(kuò)展模型時(shí)的效果和需求。在GPT-3的開發(fā)過程中,OpenAI遵循了尺度定律,通過大幅增加模型參數(shù)數(shù)量(達(dá)到1750億),顯著提高了模型的自然語言當(dāng)價(jià)格不變時(shí),集成電路上可容納的晶體管數(shù)目,每隔18個(gè)月便會(huì)增加一倍,意味著性能也將提升一倍。兩個(gè)定律應(yīng)用領(lǐng)域不同,但都體現(xiàn)了技術(shù)進(jìn)步在各自領(lǐng)域內(nèi)的驅(qū)動(dòng)力。尺度定律(隨著時(shí)間推移,機(jī)器學(xué)習(xí)的計(jì)算資源顯著增加)Source:Epoch,HTI):分析、語義理解等。這些技術(shù)幫助模型更好地理解和生成自然語言文本,使得生成的文本更加準(zhǔn)確和語義豐富。自然語言處理技術(shù)Source:Deloitte,HTI):些數(shù)據(jù)集包含豐富的語言知識(shí)和模式,能夠幫助模型學(xué)習(xí)到更好的表示和生成能力。大規(guī)模數(shù)據(jù)集Source:CSDN,HTI(6)無監(jiān)督學(xué)習(xí)算法(UnsupervisedLearning):能夠從數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)模式和特征,無需人工標(biāo)記的監(jiān)督信息。這對(duì)于生成式AI模型的訓(xùn)練至關(guān)重要,可以使模型從大量未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)到有用的知識(shí)。監(jiān)督與無監(jiān)督學(xué)習(xí)算法Source:BigQuant,HTI(7)強(qiáng)化學(xué)習(xí)(ReinforcementLearning,RL)是一種機(jī)器學(xué)習(xí)方法,用于訓(xùn)練模型做出決策,以實(shí)現(xiàn)最佳結(jié)果。通過反復(fù)試錯(cuò)和獎(jiǎng)懲制度,與環(huán)境交互來學(xué)習(xí)最優(yōu)策略,有助于實(shí)現(xiàn)目標(biāo)的軟件操作會(huì)得到加強(qiáng),而偏離目標(biāo)的操作將被忽略,從而在不同狀態(tài)下選擇最佳處理路徑以獲得最大化預(yù)期回報(bào)。強(qiáng)化學(xué)習(xí)廣泛應(yīng)用于機(jī)器人控制、游戲AI、推薦系統(tǒng)等領(lǐng)域。例如,著名的AlphaGo在訓(xùn)練過程中結(jié)合了強(qiáng)化學(xué)習(xí)策略,以尋找最佳落子策略。強(qiáng)化學(xué)習(xí)Source:Techvidvan,HTI(8)強(qiáng)化學(xué)習(xí)與人類反饋(ReinforcementLearningwithHumanFeedback,RLHF)結(jié)合強(qiáng)化學(xué)習(xí)的自動(dòng)學(xué)習(xí)能力和人類的反饋,通過人類反饋指導(dǎo)學(xué)習(xí)的過程,顯著加速學(xué)習(xí)速度,提高性能及安全性。強(qiáng)化學(xué)習(xí)與AI反饋(ReinforcementLearningwithAIFeedback,RLAIF)是結(jié)合了強(qiáng)化學(xué)習(xí)的自動(dòng)學(xué)習(xí)能力和AI模型的智能反饋。其智能體不僅從環(huán)境中獲得獎(jiǎng)勵(lì),還從另一個(gè)AI系統(tǒng)中獲得反饋。這種方法利用AI反饋來指導(dǎo)和改進(jìn)智能體的學(xué)習(xí)過程,從而加速策略優(yōu)化,提高整體性能。強(qiáng)化學(xué)習(xí)與人類反饋Source:CSDN,HTI(9)遷移學(xué)習(xí)(TransferLearning)是一種機(jī)器學(xué)習(xí)方法,其中一個(gè)模型在某個(gè)任務(wù)上學(xué)到的知識(shí)被應(yīng)用到另一個(gè)相關(guān)的任務(wù)中。通過這種方法,遷移學(xué)習(xí)能夠利用已有的經(jīng)驗(yàn),提高新任務(wù)的學(xué)習(xí)效率和性能。尤其是在數(shù)據(jù)有限的情況下,遷移學(xué)習(xí)能夠顯著提升模型性能。遷移學(xué)習(xí)Source:CSDN,HTI設(shè)備或節(jié)點(diǎn)上訓(xùn)練。這種方式能夠在保護(hù)數(shù)據(jù)隱私的前提下,利用分散的數(shù)據(jù)進(jìn)行模型訓(xùn)練,可以在全局模型的基礎(chǔ)上,進(jìn)一步調(diào)整和優(yōu)化個(gè)性化模型,滿足不同用戶的需求。聯(lián)邦學(xué)習(xí)Source:Geeksforgeeks,HTI):生成器和判別器。生成器嘗試生成與真實(shí)數(shù)據(jù)相似的假數(shù)據(jù),而判別器嘗試區(qū)分真假數(shù)據(jù)。通過不斷的對(duì)抗訓(xùn)練,生成器最終能夠生成較為逼真的數(shù)據(jù)。生成對(duì)抗網(wǎng)絡(luò)Source:Javatpoint,HTI):刻的輸出,廣泛應(yīng)用于文本生成和音頻生成等領(lǐng)域。自回歸模型Source:Otexts,HTI):個(gè)“潛在空間”。這就像畫家將復(fù)雜的畫面概括成簡(jiǎn)單的草圖,這個(gè)草圖包含了圖片的關(guān)鍵要素,但省略了細(xì)節(jié)。解碼器根據(jù)這些草圖畫出新圖片。就像畫家根據(jù)草圖創(chuàng)作出一幅新畫。這些新畫看起來像是從原始圖片中生成的,但又是獨(dú)一無二的。在訓(xùn)練過程中,VAE會(huì)不斷調(diào)整編碼器和解碼器,讓生成的圖片越來越逼真。變分自編碼器Source:CSDN,HTI損失函數(shù),提高模型性能。常見的優(yōu)化算法包括隨機(jī)梯度下降(StochasticGradientDescent,SGD)和其變種,以及自適應(yīng)學(xué)習(xí)率算法如Adam等。例如,隨機(jī)梯度下降是指不使用全量樣本計(jì)算當(dāng)前的梯度,而是使用小批量(mini-batch)樣本來估計(jì)梯度,大大提高了效率。優(yōu)化算法Source:Researchgate,HTI20):效果。注意力機(jī)制在生成式AI中被廣泛應(yīng)用,例如用于自然語言處理任務(wù)中的注意力機(jī)制模型(如Transformer)能夠有效處理長距離依賴關(guān)系和提升生成性能。注意力機(jī)制Source:Researchgate,HTI以上的這些技術(shù)在過去的20年中快速發(fā)展,直到2017年的歷史性的突破Transformer的到來,才有了生成式AI的基礎(chǔ)。而在2022年ChatGPT的橫空出世,進(jìn)一步將生成式AI模型從需要大量標(biāo)注數(shù)據(jù)而進(jìn)行訓(xùn)練的時(shí)代帶入到不需要標(biāo)注數(shù)據(jù)而進(jìn)行海量數(shù)據(jù)訓(xùn)練的時(shí)代。3.1GenAI的核心技術(shù)3.1.1GameChanger--Transformer:Attention(注意力機(jī)制)isAllyouneed成式AI發(fā)展的基石。2017年Vaswani等人發(fā)表了論文《AttentionisAllYouNeed》,介紹了Transformer模型的核心思想,自此徹底改變了自然語言處理(NLP)領(lǐng)域,為模型處理大規(guī)模數(shù)據(jù)和學(xué)習(xí)復(fù)雜模式提供了基礎(chǔ),已成為NLP界最具影響力的模型之一。2017-2022年Transformer模型的算力需求每2年增長275倍,而其他AI模型的趨勢(shì)是每2年增長8倍。21Trasnformer模型算力需求Source:Nvidia,HTI相比傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),Transformer存在顯著不同點(diǎn),是一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu)。其核心是自注意力機(jī)制,允許模型在處理當(dāng)前輸入時(shí)關(guān)注輸入序列中的所有位置,能夠更好地捕捉長距離依賴關(guān)系,并實(shí)現(xiàn)高度并行計(jì)算。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)如前饋神經(jīng)網(wǎng)絡(luò)主要用于非序列的分類和回歸任務(wù),卷積神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于圖像處理,循環(huán)神經(jīng)網(wǎng)絡(luò)則適用于序列數(shù)據(jù)處理。相比之下,Transformer因其高效性和靈活性,特別在自然語言處理和圖像處理領(lǐng)域表現(xiàn)出色,并已成為許多現(xiàn)代NLP模型(如BERT、GPT)的基礎(chǔ)。22Source:Researchgate,HTITransformer模型主要由兩個(gè)部分組成:編碼器(Encoder)和解碼器(Decoder)。每部分由多個(gè)相同的層(Layer)組成。以下是各組件的詳細(xì)介紹(架構(gòu)圖如上):編碼器堆棧:這是由Nx個(gè)相同的編碼器層組成的堆棧(原論文中,Nx=6)。每個(gè)編碼器層都由兩個(gè)子層組成:多頭自注意力機(jī)制(Multi-HeadAttention)和前饋神經(jīng)網(wǎng)絡(luò)(FeedForward)。多頭自注意力機(jī)制用于對(duì)輸入序列中的不同位置之間的關(guān)系進(jìn)行建模,而前饋神經(jīng)網(wǎng)絡(luò)則用于對(duì)每個(gè)位置進(jìn)行非線性轉(zhuǎn)換。編碼器堆棧的作用是將輸入序列轉(zhuǎn)換為一系列高級(jí)特征表示。解碼器堆棧:這也是由Nx個(gè)相同的解碼器層組成的堆棧(原論文中,Nx=6)。每個(gè)解碼器層除了包含編碼器層的兩個(gè)子層外,還包含一個(gè)額外的多頭自注意力機(jī)制子層行關(guān)注,并幫助解碼器對(duì)輸入序列中的信息進(jìn)行解碼和生成輸出序列。在編碼器和解碼器堆棧之間,還有一個(gè)位置編碼層(PositionalEncod是利用序列的順序信息,為輸入序列中的每個(gè)位置提供一個(gè)固定的編碼表示。這樣,模型可以在沒有遞歸或卷積操作的情況下,利用位置編碼層來處理序列的順序信息。3.1.2擴(kuò)散模型(DiffusionModel)擴(kuò)散模型(DiffusionModel),其核心概念是通過逐步添加噪聲使數(shù)據(jù)接近于隨機(jī)噪聲,然后再逐步去除噪聲以生成新的數(shù)據(jù)。這一過程模擬了數(shù)據(jù)的擴(kuò)散和逆擴(kuò)散過程,為高質(zhì)量數(shù)據(jù)樣本的生成提供了一種新的方法。相比于傳統(tǒng)的生成模型,擴(kuò)散模型具有穩(wěn)定(無模式崩潰)的訓(xùn)練過程和高質(zhì)量(高保真度)的生成能力,因此在圖像生成、圖像修復(fù)、語音和文本生成等任務(wù)中顯示出了巨大的潛力。23以下小貓圖像正是運(yùn)用了擴(kuò)散模型,可以看出擴(kuò)散模型包括兩個(gè)過程:正向擴(kuò)散和參數(shù)化反向擴(kuò)散。正向和反向過程通常使用數(shù)千個(gè)步驟來逐步注入噪聲,并在生成過程中進(jìn)行去噪。擴(kuò)散模型應(yīng)用示例Source:Nvidia,HTI擴(kuò)散模型特征Source:Researchgate,HTIDiT是一種結(jié)合了擴(kuò)散模型(DiffusionModel)和Transformer架構(gòu)的生成模型。它通過逐步添加和去除噪聲的擴(kuò)散過程與Transformer的自注意力機(jī)制相結(jié)合,實(shí)現(xiàn)高質(zhì)量、靈活性、穩(wěn)定性的數(shù)據(jù)生成。DiT不僅在圖像生成等任務(wù)中展現(xiàn)出色,還具有靈活性,可擴(kuò)展到多模態(tài)生成和其他領(lǐng)域,成為生成模型領(lǐng)域的重要?jiǎng)?chuàng)新之一。下圖可以發(fā)現(xiàn),計(jì)算程度更高的DiT模型的圖片質(zhì)量更高。24DiT模型效果Source:UCBerkeley,HTIDiT模型Source:UCBerkeley,HTI3.1.4基礎(chǔ)模型(FoundationModel)基礎(chǔ)模型是在大量無標(biāo)記數(shù)據(jù)基礎(chǔ)上進(jìn)行無監(jiān)督訓(xùn)練的大規(guī)模人工智能模型。其具備通用性和可遷移性的優(yōu)勢(shì),可利用海量數(shù)據(jù)和計(jì)算資源生成從文本到圖像的任何內(nèi)容。這些模型在預(yù)訓(xùn)練后可直接在各種NLP任務(wù)中使用,而無需從新開始訓(xùn)練?;A(chǔ)模型的出現(xiàn)促使NLP技術(shù)的普及和應(yīng)用。自GPT-3后,越來越多的基礎(chǔ)模型隨之出現(xiàn),其參數(shù)規(guī)模亦越來越大。這些模型通過大規(guī)模的無監(jiān)督學(xué)習(xí)從文本語料庫中學(xué)習(xí)了豐富的語言表示,能夠捕捉詞匯、語法、語義等各個(gè)層面的信息。25基礎(chǔ)模型定義Source:Renaissancerachel,HTI基礎(chǔ)模型發(fā)展進(jìn)程Source:Stanford,HTI多模態(tài)大模型是能夠處理和理解多種類型數(shù)據(jù)(如文本、圖像、音頻、視頻等)的深度學(xué)習(xí)模型。通過整合不同模態(tài)的數(shù)據(jù),可以實(shí)現(xiàn)更豐富和準(zhǔn)確的任務(wù)處理,提升各類應(yīng)用的智能水平。多數(shù)多模態(tài)模型是基于Transformer架構(gòu),通過注意力機(jī)制在不同模態(tài)的數(shù)據(jù)之間建立關(guān)聯(lián)。26單模態(tài)和多模態(tài)Source:Aimultipleresearch,HTI值得注意的是,訓(xùn)練模型的算力需求激增如早期的AlexNet僅需要470PBFLOP用于訓(xùn)練而2017年發(fā)布的Transfomer則需要約7400PB。谷歌的GeminiUltra是目前最先進(jìn)的基礎(chǔ)模型之一則需要500億PBFLOP的算力。傳統(tǒng)的人工智能系統(tǒng)的能力有限,語言模型在文本理解方面表現(xiàn)出色,但在圖像處理方面表現(xiàn)不佳反之亦然。隨著多模態(tài)大模型的發(fā)展,一些新的模型如谷歌的Gemini和OpenAI的GPT4已經(jīng)展示出同時(shí)處理好圖像和文本任務(wù)的能力,甚至可以處理音頻如GPT-4o。MMLU精準(zhǔn)度Source:Stanford,HTI27機(jī)器學(xué)習(xí)模型算力Source:Stanford,HTI混合專家模型是用于提高深度學(xué)習(xí)模型效率和性能的模型之一。這個(gè)模型可將一個(gè)復(fù)雜問題可以被拆分為多個(gè)領(lǐng)域知識(shí)的簡(jiǎn)單問題,通過把各個(gè)領(lǐng)域問題分發(fā)各個(gè)領(lǐng)域的專家來解決,最后再匯總結(jié)論。它由多個(gè)專業(yè)化的子模型即專家組合而成每一個(gè)專家都在其擅長的領(lǐng)域內(nèi)做出貢獻(xiàn)。該模型在計(jì)算時(shí)僅激活部分專家,大幅減少了計(jì)算需求,與具有相同參數(shù)數(shù)量的模型相比具有更快的推理速度,有效降低模型訓(xùn)練成本。但是,該模型也存在一定的挑戰(zhàn),其需要將所有專家的參數(shù)加載到內(nèi)存中,對(duì)分布式計(jì)算能力有更高需求,以及模型訓(xùn)練復(fù)雜性高,需要處理專家之間的不平衡激活問題和優(yōu)化分配機(jī)制。MoE架構(gòu)Source:ResearchGate,HTI28MoE模型對(duì)比Source:UCBerkeley,HTI3.1.7代理工作流(AgenticWorkflow)代理工作流通過將一個(gè)復(fù)雜的任務(wù)分解成較小的步驟,在整個(gè)過程中融入了更多人類參與到流程中的規(guī)劃與定義。它減少了對(duì)PromptEngineering和模型推理能力的依賴,提高了LLM應(yīng)用面向復(fù)雜任務(wù)的性能,更豐富、更精確。代理工作流示意圖Source:Abacus.AI,HTI293.1.8檢索增強(qiáng)生成(RetrievalAu檢索增強(qiáng)生成是一種結(jié)合了信息檢索(Retriever)和生成技術(shù)(Generator)言處理模型。它通過檢索器從大型知識(shí)庫中檢索相關(guān)信息,并利用生成器根據(jù)檢索到的信息和輸入的上下文來生成自然語言文本。RAG模型在問答系統(tǒng)等任務(wù)中表現(xiàn)出色,能夠有效地利用外部知識(shí)來生成相關(guān)、準(zhǔn)確的文本結(jié)果。此外,企業(yè)可以通過在本地部署RAG系統(tǒng),在使用AI模型的同時(shí),避免企業(yè)敏感數(shù)據(jù)泄漏。檢索增強(qiáng)生成Source:CSDN,HTI3.2技術(shù)發(fā)展演進(jìn)趨勢(shì)3.2.1開源生態(tài)與閉源生態(tài)之爭(zhēng)科技界長久以來存在著開源與閉源之爭(zhēng),AI大模型也不例外。目前閉源大模型憑借其商業(yè)模式優(yōu)勢(shì),在技術(shù)水平上暫時(shí)領(lǐng)先;開源大模型發(fā)展十分迅速,綜合考慮成本、安全、法律等因素,開源大模型在未來也十分具有發(fā)展?jié)摿ΑG∷飘?dāng)年操作系統(tǒng)開源還是閉源的世紀(jì)之爭(zhēng),未來誰將更勝一籌或最終取決于生態(tài)。以GPT-4、Claude、Gemini等為代表的閉源大模型,通過付費(fèi)訂閱等方式實(shí)現(xiàn)商業(yè)化,從而吸引人才和資源,推動(dòng)模型性能提升。在數(shù)學(xué)、推理、編程和語言等方面,閉源模型的表現(xiàn)曾經(jīng)顯著優(yōu)于開源模型。30開源閉源大模型性能差異Source:ArtificialIntelligenceIndexReport2不過自2021年以來,開源模型的比例顯著增加。2023年,65.8%的基礎(chǔ)模型以開源形式發(fā)布,另外18.8%的模型沒有開源,15.4%的模型限制訪問?;A(chǔ)模型開源與閉源百分比分布Source:ArtificialIntelligenceIndexReport2024,HTI31基礎(chǔ)模型開源與閉源個(gè)數(shù)分布Source:ArtificialIntelligenceIndexReport2024,HTI開源大模型在性能表現(xiàn)上正快速追趕閉源模型,展現(xiàn)出強(qiáng)大的發(fā)展?jié)摿?。盡管此前閉源模型在數(shù)學(xué)、推理、編程和語言等方面占據(jù)優(yōu)勢(shì),但Llama3的發(fā)布改變了這一格局。Llama3在推理、代碼生成和指令跟隨等能力上的提升顯著,性流閉源模型相媲美。例如,其80億參數(shù)模型在MMLU、GPQA、HumanEval等多項(xiàng)基準(zhǔn)測(cè)試中,表現(xiàn)優(yōu)于Gemma7B和Mistral7BInstruct等模型。更令人驚喜的是,Llama3的700億參數(shù)模型性能超越了閉源領(lǐng)域的佼佼者Claude3Sonnet,并能與谷歌的GeminiPro1.5相抗衡。32開源閉源大模型性能發(fā)展過程Source:ArkInvestment,HTI除性能上的提升外,開源大模型在成本、定制化、安全等方面也具備一定優(yōu)勢(shì)。(1)開源大模型的使用成本較低。由于權(quán)重文件完全公開,使用者無需承擔(dān)高昂的訂閱費(fèi)用或使用限制,可以更低成本地進(jìn)行研究和應(yīng)用開發(fā)。(2)開源大模型具有高度的可定制化。使用者可以根據(jù)自身需求,在開源模型權(quán)重文件的基礎(chǔ)上自由進(jìn)行微調(diào),以更好地適應(yīng)特定場(chǎng)景和任務(wù),無需受限于閉源模型的功能范圍。(3)開源大模型能夠更好地保障使用者在安全和利益方面的訴求。無論是使用還是微調(diào)模型,企業(yè)無需將核心數(shù)據(jù)和商業(yè)機(jī)密傳輸出去,有效避免數(shù)據(jù)泄露和知識(shí)產(chǎn)權(quán)糾紛,保障自身核心利益。(4)開源模式還有助于解決知識(shí)產(chǎn)權(quán)和收益分配問題。雖然開源和閉源模型在語料使用方面均存在版權(quán)爭(zhēng)議,但開源模式下,語料庫的構(gòu)建和使用更有利于知識(shí)共享和收益共贏。(5)開源大模型的推廣應(yīng)用有利于推動(dòng)技術(shù)民主化和平權(quán)發(fā)展,打破技術(shù)壟斷,促進(jìn)人工智能領(lǐng)域的開放合作和創(chuàng)新發(fā)展。開源與閉源大模型對(duì)比開源閉源模型性能略低略高使用成本較低,無需承擔(dān)高昂的訂閱費(fèi)用較高定制化允許允許,但往往費(fèi)用高昂安全性企業(yè)核心數(shù)據(jù)及機(jī)密方面更安全由于不公開,更不容易受到攻擊其他知識(shí)產(chǎn)權(quán)、收益分配問題;科技平權(quán)商業(yè)模式便于盈利Source:HTI33顧當(dāng)年操作系統(tǒng)的開源閉源之爭(zhēng)可以發(fā)現(xiàn),什么樣的操作系統(tǒng)能生存下來最終還是取決于生態(tài)是否繁榮,而這與開源還是閉源并沒有必然聯(lián)系,二者可以并肩共存。生態(tài)的繁榮取決于誰能具備更好的可開發(fā)能力、讓更多開發(fā)者參與其中。開發(fā)者體驗(yàn)的核心要素包括:(1)高效的開發(fā)工具:功能強(qiáng)大的IDE、完善的技術(shù)文檔和豐富的API接是iOS生態(tài)繁榮的重要因素。(2)開放的開發(fā)平臺(tái):開源系統(tǒng)允許開發(fā)者自由訪問源碼,進(jìn)行深度定制和開發(fā),并與其他開發(fā)者共享和交流。Android的開源特性催生了眾多開發(fā)者社區(qū),例如XDA,這些社區(qū)促進(jìn)了知識(shí)共享和系統(tǒng)發(fā)展。(3)可持續(xù)的盈利模式:一個(gè)健康的生態(tài)系統(tǒng)需要為開發(fā)者提供合理的回報(bào)和發(fā)展空間。AppStore為iOS開發(fā)者提供了應(yīng)用分發(fā)平臺(tái)和相對(duì)公平的分成機(jī)制,保障了開發(fā)者的收益。無論是開源還是閉源,最終目標(biāo)都是吸引和留住開發(fā)者。操作系統(tǒng)需要通過提供優(yōu)質(zhì)的開發(fā)工具、開放的平臺(tái)和可持續(xù)的盈利模式,來構(gòu)建繁榮的開發(fā)者生態(tài)系統(tǒng),最終贏得市場(chǎng)競(jìng)爭(zhēng)。PC操作系統(tǒng)市場(chǎng)份額Source:Statcounter,HTI手機(jī)操作系統(tǒng)市場(chǎng)份額Source:Statcounter,HTI343.2.2具身智能具身智能將是未來AI領(lǐng)域最大的風(fēng)口。之前生成式AI的訓(xùn)練主要是基于互聯(lián)網(wǎng)上的數(shù)據(jù),也就是虛擬世界的數(shù)據(jù),所以導(dǎo)致今天大部分AI并不了解物理世界。下一代AI將學(xué)習(xí)物理世界的數(shù)據(jù),從而進(jìn)入到物理世界。NVIDIAOmniverse作為機(jī)器人訓(xùn)練開發(fā)的虛擬世界,機(jī)器人可以在Omniverse中訓(xùn)練如何精確操控物體,自主導(dǎo)航環(huán)境,找到最佳路徑,并規(guī)避障礙物和危險(xiǎn)。在Omniverse中進(jìn)行訓(xùn)練,最大程度的減少了虛擬和現(xiàn)實(shí)訓(xùn)練的差距,快速地進(jìn)行訓(xùn)練和學(xué)習(xí)。同時(shí)他也給出了構(gòu)建生成物理AI機(jī)器人所需的三臺(tái)計(jì)算機(jī):訓(xùn)練模型的NVIDIAJetsonOrin,運(yùn)行模型的JetsonThor,以及Omniverse。下一波AI已經(jīng)到來,AI驅(qū)動(dòng)的機(jī)器人將影響到各行各業(yè)。具身智能指一種能夠通過感知和交互與環(huán)境進(jìn)行實(shí)時(shí)互動(dòng)的智能系統(tǒng)或機(jī)器??梢院?jiǎn)單理解為在真實(shí)的物理環(huán)境下執(zhí)行各種各樣的任務(wù)的各種不同形態(tài)的機(jī)器人。具身智能近期技術(shù)突破頻出,科技巨頭加速布局,推動(dòng)商業(yè)化進(jìn)程。近期,Google、DeepMind、特斯拉、蘋果、英偉達(dá)等科技巨頭在具身智能領(lǐng)域的布局和突破,該領(lǐng)域正進(jìn)入快速發(fā)展階段,并有望成為未來AI發(fā)展的重要驅(qū)動(dòng)力。例如自動(dòng)駕駛、家用機(jī)器人、工業(yè)機(jī)器人、輔助機(jī)器人、醫(yī)療機(jī)器人、野外機(jī)器人和多機(jī)器人系統(tǒng)。預(yù)訓(xùn)練的大模型可用于改進(jìn)機(jī)器人環(huán)境中的各種任務(wù)。將基礎(chǔ)模型集成到機(jī)器人技術(shù)中是一個(gè)快速發(fā)展的領(lǐng)域,機(jī)器人技術(shù)界最近開始探索如何在機(jī)器人領(lǐng)域內(nèi)利用這些大型模型進(jìn)行感知、預(yù)測(cè)、規(guī)劃和控制?;诨A(chǔ)模型的具身智能任務(wù)概述Source:FirooziR,TuckerJ,TianS,etal.Foundationmodelsinrobotics:Applications,challenges,andthefuture[J].arXivpr2023.,HTI35預(yù)訓(xùn)練機(jī)器人模型Source:FirooziR,TuckerJ,TianS,etal.Foundationmodelsinrobotics:Applications,challenges,andthefuture[J].arXivpr2023.,HTI基礎(chǔ)模型的進(jìn)步帶動(dòng)具身智能模型發(fā)展。例如,Googl機(jī)器人技術(shù)相結(jié)合,賦予機(jī)器人理解和執(zhí)行復(fù)雜指令的能力,例如“我的錘子掉在地上了,你能幫我撿起來嗎?”。PaLM-E的成功案例表明,LLM可以讓機(jī)器人在更復(fù)雜的環(huán)境中完成更靈活的任務(wù)。DeepMind發(fā)布了RT-2模型,通過將LLM的知識(shí)和推理能力融入機(jī)器人控制系統(tǒng),RT-2顯著提高了機(jī)器人在新環(huán)境中的任務(wù)執(zhí)行能力,例如在未曾見過的場(chǎng)景中識(shí)別和抓取物體。從RT-2可以看出機(jī)器人已能較好適應(yīng)復(fù)雜多變的現(xiàn)實(shí)世界,而不僅僅局限于預(yù)先編程好的特定任務(wù)。PaLM-E架構(gòu)Source:PaLM-E,HTI科技巨頭們已經(jīng)嗅到了具身智能的巨大潛力,紛紛加速布局。特斯拉計(jì)劃于2025年底前推出人形機(jī)器人Optimus,并將在其工廠中承擔(dān)實(shí)際工作任務(wù)。如果Optimus能如期達(dá)到預(yù)期,將對(duì)制造業(yè)產(chǎn)生顛覆性影響。而蘋果公司則被曝出正在開發(fā)可以跟隨用戶在家中走動(dòng)的移動(dòng)機(jī)器人,以及利用機(jī)器人技術(shù)移動(dòng)顯示屏的先進(jìn)桌面家用設(shè)備。這些產(chǎn)品一旦問世,將為家庭生活帶來很大便利。此外,英偉達(dá)也發(fā)布了ProjectGR00T人形機(jī)器人基礎(chǔ)模型和開發(fā)套件JetsonThor,為人形機(jī)器人的開發(fā)提供強(qiáng)大的硬件和軟件支持。36OptimusSource:特斯拉,HTIGR00T模型訓(xùn)練工作流程Source:英偉達(dá),HTI37隨著科技巨頭的積極布局和技術(shù)的不斷突破,具身智能將成為未來AI發(fā)展的重要趨勢(shì),并有望在未來幾年內(nèi)深刻改變?nèi)祟惿鐣?huì)和生活方式。市場(chǎng)研究機(jī)構(gòu)Statista預(yù)測(cè),到2025年,全球具身智能市場(chǎng)規(guī)模將達(dá)到225.2億美元,2030年將超過643.5億美元。具身智能在制造業(yè)、物流、醫(yī)療保健、家庭服務(wù)等領(lǐng)域的巨大應(yīng)用潛力,將推動(dòng)市場(chǎng)持續(xù)增長。具身智能作為人工智能與機(jī)器人技術(shù)的深度融合,正在從實(shí)驗(yàn)室走向現(xiàn)實(shí)應(yīng)用。全球具身智能市場(chǎng)規(guī)模Source:Statista,HTIAI代理(AIAgent)是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動(dòng)作的智能指揮。不同于傳統(tǒng)的人工智能,AI代理具備通過獨(dú)立思考、調(diào)用工具去逐步完成給定目標(biāo)的能力。LLM的快速發(fā)展為AI代理的構(gòu)建提供了新的思路,其強(qiáng)大的理解和生成能力使其能夠勝任AI代理的控制中樞,協(xié)調(diào)各個(gè)模塊完成復(fù)雜任務(wù)。根據(jù)《Asurveyonlargelanguagemodelbasedautonomousagents》,一個(gè)典型的AI代理通常包含配置文件模塊、記憶模塊、規(guī)劃模塊和動(dòng)作模塊等核心組件。配置文件模塊定義AI代理的目標(biāo)、行為準(zhǔn)則以及與外部環(huán)境交互的方式;記憶模塊存儲(chǔ)AI代理與環(huán)境交互的歷史信息,為決策提供上下文依據(jù);規(guī)劃模塊根據(jù)目標(biāo)和環(huán)境信息,制定行動(dòng)計(jì)劃,并將計(jì)劃分解成可執(zhí)行的步驟;動(dòng)作模塊則負(fù)責(zé)執(zhí)行規(guī)劃模塊輸出的行動(dòng)指令,與外部環(huán)境進(jìn)行交互,并接收反饋信息。LLM作為AI代理的核心控制器,可以有效地協(xié)調(diào)這些模塊之間的協(xié)作,例如,理解配置文件模塊中定義的目標(biāo),利用記憶模塊中的歷史信息進(jìn)行推理,并指導(dǎo)規(guī)劃模塊制定合理的行動(dòng)計(jì)劃。38基于LLM的AI代理研究數(shù)目趨勢(shì)及主要成果Source:WangL,MaC,FengX,etal.AsurveyonlargelanguagemodelHTI在LLM的加持下,AI代理正在經(jīng)歷從在簡(jiǎn)單受控環(huán)境下完成特定任務(wù)到走向開放世界持續(xù)學(xué)習(xí)的轉(zhuǎn)變。早期AI代理的應(yīng)用范圍主要局限于簡(jiǎn)單的游戲或受控環(huán)境下的任務(wù)。雖然AlphaZero等人工智能系統(tǒng)在國際象棋、圍棋和日本將棋等封閉的、規(guī)則定義明確的環(huán)境中取得了成功,但它們?cè)诟鼊?dòng)態(tài)的環(huán)境中卻缺乏持續(xù)學(xué)習(xí)的能力。長期以來,人工智能研究人員一直面臨著在開放世界中創(chuàng)建能夠探索、計(jì)劃和學(xué)習(xí)的AI代理的挑戰(zhàn)。如今,AI代理已經(jīng)能夠駕馭更加復(fù)雜的環(huán)境和挑戰(zhàn)。例如,由英偉達(dá)、加州理工學(xué)院、德克薩斯大學(xué)奧斯汀分校、斯坦福大學(xué)和威斯康星大學(xué)麥迪遜分校聯(lián)合創(chuàng)建的Voyager,一個(gè)基于GPT-4的MinecraftAI代理,就在動(dòng)態(tài)的電子游戲環(huán)境中表現(xiàn)出了非凡的游戲技巧,甚至超越了人類玩家的水平。AI代理未來應(yīng)用空間廣闊。(1)在科學(xué)研究事業(yè)上,AI代理被用于協(xié)助研究人員進(jìn)行學(xué)術(shù)研究,例如收集和分析數(shù)據(jù)、生成研究報(bào)告等。其中在社會(huì)科學(xué)領(lǐng)域,計(jì)算社會(huì)科學(xué)利用計(jì)算方法分析復(fù)雜的人類行為數(shù)據(jù),而LLM強(qiáng)大的類人能力為其帶來了新的研究方法,已應(yīng)用于心理學(xué)、政治學(xué)與經(jīng)濟(jì)學(xué)、社會(huì)模擬、法理學(xué)、社會(huì)科學(xué)研究助理等細(xì)分領(lǐng)域;在自然科學(xué)領(lǐng)域,基于LLM的AI代理也展現(xiàn)出巨大潛力,檔和數(shù)據(jù)管理、自然科學(xué)實(shí)驗(yàn)助手、自然科學(xué)教育等方面。(2)在工程領(lǐng)域,基于LLM的AI代理在土木工程、計(jì)算機(jī)科學(xué)與軟件工程、航空航天工程、工業(yè)自動(dòng)化、機(jī)器人與嵌入式人工智能、通用自主AI代理等領(lǐng)域展現(xiàn)出巨大潛力。特別是在計(jì)算機(jī)科學(xué)與軟件工程領(lǐng)域,基于LLM的AI代理為自動(dòng)化編碼、測(cè)試、調(diào)試和文檔生成提能。(3)在娛樂領(lǐng)域,AI代理正朝著更加擬人和個(gè)性化的娛樂體驗(yàn)。一方面,AI代理可以作為陪伴者,與用戶進(jìn)行情感交流,提供情感支持,滿足用戶的情感需求。另一方面,AI代理可以化身為游戲或虛擬世界中更加真實(shí)可信的NPC,與玩家進(jìn)行更自然、更智能的互動(dòng),豐富游戲內(nèi)容,提升娛樂體39基于LLM的AI代理體系結(jié)構(gòu)設(shè)計(jì)的統(tǒng)一框架Source:WangL,MaC,FengX,etal.AHTI3.2.4可解釋AI通常生成式AI的數(shù)據(jù)推理和生成過程是一個(gè)“黑匣子”成式AI更安全、更有效的實(shí)現(xiàn)商用化,可解釋AI將成為未來AI合規(guī)的重點(diǎn)研發(fā)方根據(jù)BeenKim等人的定義,可解釋性是指人們能夠一致地預(yù)測(cè)模型結(jié)果的程度。機(jī)器學(xué)習(xí)模型的可解釋性越高,人們就越容易理解模型為何做出特定決策或預(yù)測(cè),換言之,模型決策背后的“推理過程”是透明的。然而,深度神經(jīng)網(wǎng)絡(luò)通常擁有數(shù)百萬甚至數(shù)十億個(gè)參數(shù),其復(fù)雜程度使得人們難以理解它們是如何根據(jù)輸入數(shù)據(jù)進(jìn)行預(yù)測(cè)的,因此常被稱為“黑匣”。雖然黑匣模型在許多任務(wù)中表現(xiàn)出色,但其缺乏透明度可能導(dǎo)致難以調(diào)試錯(cuò)誤、識(shí)別偏差,以及在出現(xiàn)問題時(shí)難以追責(zé)。Anthropic的Claude團(tuán)隊(duì)在提高AI可解釋性方面取解釋性是將神經(jīng)網(wǎng)絡(luò)分解成比整體更容易理解的組件,通過理解每個(gè)組件的功能以及它們之間的交互方式來解釋整個(gè)網(wǎng)絡(luò)的行為。然而拆分組件并不容易,神經(jīng)網(wǎng)絡(luò)的計(jì)算單元神經(jīng)元并不是人類理解的自然單元,因?yàn)樵S多神經(jīng)元是多義的:它們對(duì)看似無關(guān)的輸入的混合做出反應(yīng),這種多義性使得我們很難根據(jù)單個(gè)神經(jīng)元的活動(dòng)來解釋網(wǎng)絡(luò)的行為。針對(duì)這一問題,Claude團(tuán)隊(duì)在2023年10月發(fā)表的《TowardsMonosemanticity:DecomposingLanguageModelsWithDictionaryLearning》一文中,利用字典學(xué)習(xí),成功將ChatGPT的神經(jīng)元分解為約4000個(gè)可解釋特征,初步克服了神經(jīng)網(wǎng)絡(luò)的不可解釋性問題。2024年5月發(fā)布的《ScalingMonosemanticity:ExtractingInterpretfromClaude3Sonnet》將方法擴(kuò)展到最先進(jìn)的Transformer,從Anthropic的中型生產(chǎn)模型Claude3Sonnet中提取了百萬級(jí)別的高質(zhì)量特征。這些特征能夠?qū)Τ橄笮蟹磻?yīng),也能從行為上導(dǎo)致抽象行為,例如,名人的特征、國家和城市的特征等。許多特征是多語言和多模態(tài)的,并且包含相同想法的抽象和具體實(shí)例(例如,具有安全漏洞的代碼,以及對(duì)安全漏洞的抽象討論)。40文本與圖片樣本與特征的匹配Source:《ScalingMonosemanticity:ExtractingInterpretableFeaturesfromClaude3Sonnet》,HTI可解釋性可以提高對(duì)AI系統(tǒng)的信任程度,也可以增強(qiáng)AI安全性。一方面,可解釋性對(duì)于建立對(duì)AI系統(tǒng)的信任至關(guān)重要,尤其是在醫(yī)療診斷、金融貸款、自動(dòng)駕駛等高風(fēng)險(xiǎn)領(lǐng)域。另一方面,Claude團(tuán)隊(duì)發(fā)現(xiàn)部分特征與安全高度相關(guān),例如與代碼中的安全漏洞和后門相關(guān)的特征;偏見(包括公開的誹謗和更微妙的偏見);撒謊、欺騙和尋求權(quán)力(包括背叛);諂媚;危險(xiǎn)/犯罪內(nèi)容(例如,制造生物武器)等。提高可解釋性可以從廣義上提高模型的安全性,包括降低偏見、確保AI誠實(shí)行動(dòng)、防止濫用3.2.5人類反饋納入評(píng)估體系純以數(shù)據(jù)benchmark和測(cè)評(píng)榜單并不足以完成對(duì)其能力的完整評(píng)估,人類反饋亟須被納入到評(píng)估體系。生成式AI產(chǎn)出的結(jié)果更需要人類來判別其創(chuàng)新性。隨著生成式人工智能技術(shù)的進(jìn)步,傳統(tǒng)基準(zhǔn)測(cè)試方法在評(píng)估人工智能系統(tǒng)方面的局限性日益凸顯。雖然ImageNet、SQuAD等傳統(tǒng)基準(zhǔn)測(cè)試在衡量特定技術(shù)指標(biāo)方面發(fā)揮了重要作用,但它們難以全面評(píng)估人工智能系統(tǒng)在創(chuàng)造力、情感表達(dá)等方面的能力。例如,一個(gè)在文本生成任務(wù)中獲得高分的AI系統(tǒng),在生成內(nèi)容的風(fēng)格、原創(chuàng)性等方面可能仍有不足。為解決這一問題,業(yè)界更多地將人類評(píng)估納入人工智能系統(tǒng)的評(píng)價(jià)體系。例如,聊天機(jī)器人競(jìng)技場(chǎng)排行榜(ChatbotArenaLeaderboard)等平臺(tái),允許用戶直接與不同的聊天機(jī)器人互動(dòng)并進(jìn)行評(píng)價(jià),為評(píng)估人工智能系統(tǒng)的用戶體驗(yàn)提供了重要參考。這種以人為中心的方法強(qiáng)調(diào)公眾感知、用戶滿意度等因素,推動(dòng)人工智能系統(tǒng)朝著更具吸引力、更符合人類價(jià)值觀的方向發(fā)展。41聊天機(jī)器人競(jìng)技場(chǎng)排行榜成立于2023年,旨在通過大規(guī)模用戶投票,量化公眾對(duì)不同大型語言模型(LLM)的偏好。截至2024年2月,該平臺(tái)已累積超過20萬張投票。數(shù)據(jù)顯示,OpenAI的GPT-4Turbo模型以68.7%的得票率位居榜首,Google的GeminiPro模型以21.3%的得票率排名第二。值得注意的是,部分在傳統(tǒng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異的模型,在該排行榜上的排名相對(duì)靠后,這進(jìn)一步凸顯了用戶體驗(yàn)在LLM評(píng)價(jià)中的重要性。我們預(yù)計(jì)未來將有更多開發(fā)者參考聊天機(jī)器人競(jìng)技場(chǎng)排行榜等用戶驅(qū)動(dòng)型評(píng)價(jià)指標(biāo),優(yōu)化模型以提升用戶體驗(yàn)。ChatbotArena大模型排名Source:《ArtificialIntelligenceIndexReport2024》,HTI3.2.6AI安全:超級(jí)對(duì)齊超級(jí)對(duì)齊(SuperAlignment)是指確保在所有領(lǐng)域都超越人類智能的超級(jí)人工智能(AI)系統(tǒng)按照人類的價(jià)值觀和目標(biāo)行事。超級(jí)對(duì)齊是A概念,目標(biāo)在于解決開發(fā)高度先進(jìn)的AI所帶來的風(fēng)險(xiǎn)。AI的安全問題主要涉及兩個(gè)方面,分別是AI模型的內(nèi)生安全問題和AI模型交互過程所產(chǎn)生的外生安全問題。超級(jí)對(duì)齊的過程可以確保AI的目標(biāo)和行為符合人類利益,防現(xiàn)超級(jí)對(duì)齊需要在AI系統(tǒng)中增加多層次監(jiān)督和控制機(jī)制、持續(xù)監(jiān)控機(jī)制、融入倫理培訓(xùn)和結(jié)合人類反饋機(jī)制,以確保AI系統(tǒng)的初始階段符合人類利益。同時(shí),通過定期獨(dú)立的外部安全審查、多層級(jí)的內(nèi)部檢驗(yàn)系統(tǒng)等措施,保證AI行為始終符合預(yù)設(shè)標(biāo)準(zhǔn),從而維護(hù)系統(tǒng)的完整性和安全性。42超級(jí)對(duì)齊示意圖Source:OpenAI,HTI首席科學(xué)家IlyaSutskever等人發(fā)表論STRONGCAPABILITIESWITHWEAKSUPERVISION》,研究表明1.單純依賴人類監(jiān)督機(jī)制(如強(qiáng)化學(xué)習(xí)與人類反饋(RLHF))在應(yīng)對(duì)超人模型(Supermanmodels)可能擴(kuò)展性不佳,需進(jìn)一步改進(jìn);2.GPT-4在GPT-2的監(jiān)督下,能達(dá)到接近人類監(jiān)督下GPT-3.5級(jí)別的性能,實(shí)現(xiàn)了“弱到強(qiáng)泛化”(weaktostronggeneralizat下,強(qiáng)模型的表現(xiàn)仍較優(yōu)),即是可實(shí)現(xiàn)讓小模型監(jiān)督大模型。2024年5月,IlyaSutskever和超級(jí)對(duì)齊團(tuán)隊(duì)負(fù)責(zé)人JanLeike官宣離職,這對(duì)于OpenAI超級(jí)對(duì)齊團(tuán)會(huì)帶來巨大動(dòng)蕩。測(cè)試結(jié)果Source:OpenAI,HTI434.“人工智能+”的行業(yè)賦能4.1互聯(lián)網(wǎng):被迫參戰(zhàn)的軍備競(jìng)賽,贏者通吃全球互聯(lián)網(wǎng)滲透率抵達(dá)高位,行業(yè)競(jìng)爭(zhēng)從增據(jù),互聯(lián)網(wǎng)行業(yè)的全球用戶滲透率2021年就已經(jīng)高達(dá)59.5%;歐美互聯(lián)網(wǎng)滲透率較高,非洲互聯(lián)網(wǎng)滲透率提升空間較大。Statista數(shù)據(jù)顯示,截至24年4月,全球互聯(lián)網(wǎng)滲透率最高的5個(gè)地區(qū)為北歐、北美、西歐、南歐、東歐,其中北歐滲透率達(dá)到97.4%。在中國,根據(jù)CNNIC數(shù)據(jù),截至23年6月,中國網(wǎng)民數(shù)達(dá)10.8億,較21年底提升4.9%,互聯(lián)網(wǎng)滲透率達(dá)76.4%。走向未來,我們認(rèn)為互聯(lián)網(wǎng)行業(yè)的競(jìng)爭(zhēng)降逐漸走向存量市場(chǎng)博弈,AI作為新的技術(shù)變革必將成為各家廠商的必爭(zhēng)之“贏者通吃”,同時(shí)AI技術(shù)也將輔助互聯(lián)網(wǎng)公司提升變現(xiàn)轉(zhuǎn)化率。全球互聯(lián)網(wǎng)用戶規(guī)模和滲透率中國的互聯(lián)網(wǎng)用戶規(guī)模和滲透率Source:Statista,HTISource:CNNIC,HTI國外各家互聯(lián)網(wǎng)巨頭的超大規(guī)模預(yù)訓(xùn)練模型起步于2018年,并在2021年進(jìn)入“軍備競(jìng)賽”階段。2017年,Vaswani等提出Transformer架構(gòu),奠定了當(dāng)前大模型領(lǐng)域主流的算法架構(gòu)基礎(chǔ);Transformer結(jié)構(gòu)的提出,使深度學(xué)習(xí)模型參數(shù)達(dá)到了上億的規(guī)模。2018年,谷歌提出了大規(guī)模預(yù)訓(xùn)練語言模型BERT,該模型是基于Transformer的雙向深層預(yù)訓(xùn)練模型,其參數(shù)首次超過3億規(guī)模;同年,OpenAI提出了生成式預(yù)訓(xùn)練Transformer模型——GPT,大大地推動(dòng)了自然語言處理領(lǐng)域的發(fā)展。此后,基于BERT的改進(jìn)模型、ELNet、RoBERTa、T5等大量新式預(yù)訓(xùn)練語言模型不斷涌現(xiàn),預(yù)訓(xùn)在自然語言處理領(lǐng)域蓬勃發(fā)展。2019年,OpenAI繼續(xù)推出15億參數(shù)的GPT-2,能夠生的閱讀理解、機(jī)器翻譯等。緊接著,英偉達(dá)推出了83億參數(shù)的Megatron-LM,谷歌推出了110億參數(shù)的T5,微軟推出了170億參數(shù)的圖靈T推出了超大規(guī)模語言訓(xùn)練模型GPT-3,其參數(shù)達(dá)到了1750億,在兩年左右的時(shí)間實(shí)現(xiàn)了模型規(guī)模從億級(jí)到上千億級(jí)的突破,并能夠?qū)崿F(xiàn)作詩、聊天、生成代碼等功能。此言生成模型(MT-NLG)。2021年1月,谷歌推出的SwitchTransformer模型以高達(dá)1.6萬億的參數(shù)量成為史上首個(gè)萬億級(jí)語言模型;同年12月,谷歌還提出了1.2萬億參數(shù)的通用稀疏語言模型GLaM,在7項(xiàng)小樣本學(xué)習(xí)領(lǐng)域的性能超過GPT-3??梢钥吹剑笮驼Z言模型的參數(shù)數(shù)量保持著指數(shù)增長勢(shì)頭。這樣高速的發(fā)展并沒有結(jié)束,2022年,又有一些常規(guī)業(yè)態(tài)大模型涌現(xiàn),比如StabilityAI發(fā)布的文字到圖像的創(chuàng)新模型Diffusion,以及OpenAI推出的ChatGPT,ChatGPT是由效果比GPT3更強(qiáng)大的GPT-3.5系列模型提供支持,并且這些模型使用微軟AzureAI超級(jí)計(jì)算基礎(chǔ)設(shè)施上的文本和代碼數(shù)據(jù)進(jìn)行訓(xùn)練。44國外大模型參數(shù)對(duì)比廠商發(fā)布時(shí)間模型名稱參數(shù)規(guī)模(B)預(yù)訓(xùn)練數(shù)據(jù)模型領(lǐng)域OpenAI2022.5GPT-3300BtokensNLP2023.1GPT-41,800多模態(tài)2024.1GPT-4Turbo1,76016Ttokens多模態(tài)2024.5GPT-4Omni多模態(tài)谷歌2022.1LaMDA768Btokens2022.4PaLM540NLP2023.5PaLM23403.6TtokensNLP2023.12Gemini多模態(tài)2024.2Gemini1.5多模態(tài)2024.2Gemma2/7NLP2024.5Gemini1.5Pro多模態(tài)Meta2022.5OPT180BtokensNLP2023.1LLaMA651.4TtokensNLP2023.6LLaMA2702TtokensNLP2024.4LLaMA37015TtokensNLP微軟2020.2Turing-NLGCV2021.11Florence英偉達(dá)2021.10Megatron-TuringNLG530339BtokensNLP2024.3.17Grok-1314NLPSource:各公司官網(wǎng),HTI國內(nèi)大模型參數(shù)對(duì)比廠商發(fā)布時(shí)間模型名稱參數(shù)規(guī)模(B)預(yù)訓(xùn)練數(shù)據(jù)模型領(lǐng)域阿里巴巴2021.11M610,0001.9TB圖像和292GB文本多模態(tài)2023.4通義千問70多模態(tài)2023.10通義千問2.01,000多模態(tài)騰訊2023.9混元AI大模型1,000五大跨模態(tài)視頻檢索數(shù)據(jù)集多模態(tài)華為2021.4盤古NLP大模型40TB數(shù)據(jù)NLP2021.4盤古CV大模型3CV2023.7盤古3.0大模型10/38/71/1003TtokensNLP2022.1ERNIE3.0Titan2604TB語料庫NLP商湯科技2021.11書生(INTERN+)CV2024.4日日新5.0大模型600多模態(tài)Source:各公司官網(wǎng),HTI4.1.1微軟:作為破壞性創(chuàng)新者,在算力+算法+應(yīng)用生態(tài)上已呈現(xiàn)完整布局OpenAI公司擴(kuò)大合作伙伴關(guān)系,兩家公司合作伙伴關(guān)系進(jìn)入第三階段,微軟將向OpenAI進(jìn)行一項(xiàng)為期多年、價(jià)值數(shù)十億美元的投資,以加速其在人工智能領(lǐng)域的技術(shù)突破。我們認(rèn)為,微軟在AIGC領(lǐng)域的完整生態(tài),可助力其在未來發(fā)展中保持優(yōu)勢(shì)。強(qiáng)大的算力為微軟在AI領(lǐng)域奠定了良好基礎(chǔ)服務(wù)一直為OpenAI的產(chǎn)品、API服務(wù)和研究中所有的工作負(fù)載提供支持,同時(shí)雙方在Azure上合作研發(fā)人工智能超級(jí)計(jì)算技術(shù)。此后,微軟于20年便推出了用于在Azu45此超算平臺(tái)性能位居全球前五,并且得益于在Azure上托管,這臺(tái)超級(jí)計(jì)算機(jī)擁有現(xiàn)代云計(jì)算基礎(chǔ)設(shè)施的各種優(yōu)點(diǎn),包括快速部署、可持續(xù)發(fā)展的數(shù)據(jù)中心并可以訪問所有Azure服務(wù)。強(qiáng)大的算力是ChatGPT不斷迭代進(jìn)化的基礎(chǔ):從數(shù)據(jù)需求看,GPT3.0使用了1750億個(gè)參數(shù)進(jìn)行訓(xùn)練,而GPT-4使用1.8萬億參數(shù),預(yù)示著更多的算力需求以及高集中度的云服務(wù)。從專注于感知型(圖像、聲音和視頻等感官數(shù)據(jù)的解讀)人工智能進(jìn)化到生成型人工智能(新內(nèi)容的創(chuàng)建),這將需要成倍增長的計(jì)算能力。我們認(rèn)為,微軟的強(qiáng)大的算力疊加生態(tài)服務(wù),為公司在AIGC領(lǐng)域奠定了良好基礎(chǔ),且這一優(yōu)勢(shì)已在過去云基礎(chǔ)服務(wù)市場(chǎng)所驗(yàn)證:在全球云基礎(chǔ)設(shè)施服務(wù)市場(chǎng),根據(jù)SynergyResearchGroup數(shù)據(jù)顯示,微軟Azure在2Q22市場(chǎng)份額已達(dá)到21%,僅次于亞馬遜AWS,并呈節(jié)節(jié)上升之勢(shì)。全球云基礎(chǔ)設(shè)施服務(wù)份額(IaaS,PaaS和私有云托管)Source:SynergyResearchGroup,HTIAIGC算法層面,微軟在自研與合作上同時(shí)進(jìn)據(jù)2月8日微軟發(fā)布會(huì)介紹,這一模型專為搜索3.5的重要經(jīng)驗(yàn),而且速度更快、更準(zhǔn)確,這一模型將搭載在全新的Bing服務(wù)上。此外,微軟與OpenAI合作研發(fā)的“P
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024銅門制安工程賠償合同
- 2025年度不銹鋼板材行業(yè)綠色制造與可持續(xù)發(fā)展合同范本2篇
- 2024藥品研發(fā)項(xiàng)目合作開發(fā)與成果轉(zhuǎn)讓合同3篇
- 2025年度智能倉儲(chǔ)物流服務(wù)合同范本二零二五年度4篇
- 《銀伯爵珠寶培訓(xùn)》課件
- 2024版商鋪轉(zhuǎn)讓協(xié)議書范本
- 中國魔芋素食品行業(yè)發(fā)展前景預(yù)測(cè)及投資方向研究報(bào)告
- 2025年水電工程安裝與智能化改造合同范本
- 2025年鞍鋼集團(tuán)工程技術(shù)有限公司招聘筆試參考題庫含答案解析
- 2025年中咨工程管理咨詢有限公司招聘筆試參考題庫含答案解析
- 導(dǎo)尿及留置導(dǎo)尿技術(shù)
- 情人合同范例
- 建筑公司勞務(wù)合作協(xié)議書范本
- 安徽省合肥市2023-2024學(xué)年高一上學(xué)期物理期末試卷(含答案)
- 《基于杜邦分析法的公司盈利能力研究的國內(nèi)外文獻(xiàn)綜述》2700字
- 儒家思想講解課程設(shè)計(jì)
- 2024年個(gè)人汽車抵押借款合同范本(四篇)
- 2024-2025學(xué)年九年級(jí)化學(xué)上冊(cè) 第二單元 單元測(cè)試卷(人教版)
- 軌道交通設(shè)備更新項(xiàng)目可行性研究報(bào)告-超長期國債
- 2024-2030年中國一氧化二氮?dú)怏w行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析報(bào)告
- NB/T 11446-2023煤礦連采連充技術(shù)要求
評(píng)論
0/150
提交評(píng)論