2023年人工智能行業(yè)專題 GPT會是AI算法模型的終極答案嗎-_第1頁
2023年人工智能行業(yè)專題 GPT會是AI算法模型的終極答案嗎-_第2頁
2023年人工智能行業(yè)專題 GPT會是AI算法模型的終極答案嗎-_第3頁
2023年人工智能行業(yè)專題 GPT會是AI算法模型的終極答案嗎-_第4頁
2023年人工智能行業(yè)專題 GPT會是AI算法模型的終極答案嗎-_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2023年人工智能行業(yè)專題GPT會是AI算法模型的終極答案嗎_1.技術(shù)路線:大語言模型(LLM)有望實現(xiàn)主導(dǎo),并不斷向GPT方案靠攏AI模型發(fā)展回顧:過去10年里,AI模型經(jīng)歷了從小模型到以Transformer為代表的大模型的轉(zhuǎn)變。從人工智能這個概念在1950年被提出開始,已經(jīng)經(jīng)歷了從規(guī)則學(xué)習(xí)到機器學(xué)習(xí)再到神經(jīng)網(wǎng)絡(luò)的關(guān)鍵轉(zhuǎn)變,本輪我們看到的人工智能技術(shù)突破都是基于在神經(jīng)網(wǎng)絡(luò)技術(shù)上的不斷進(jìn)步。而細(xì)分近十年來模型發(fā)展的進(jìn)步,我們又觀察到從以CNN、DNN為代表的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)小模型到以Transformer為代表的神經(jīng)網(wǎng)絡(luò)大模型轉(zhuǎn)變的趨勢。我們根據(jù)全球AI行業(yè)近10年的發(fā)展歷史,并將其總結(jié)為以下四個階段:1)2017年前:以深度學(xué)習(xí)為核心的小模型占據(jù)主流:這類模型以LSTM及CNN模型作為典型的特征抽取器,根據(jù)特定領(lǐng)域標(biāo)注數(shù)據(jù)訓(xùn)練,在一些任務(wù)上可以達(dá)到接近人類的水準(zhǔn)。但是硬件算力不夠?qū)е箩槍ζ渌I(lǐng)域重新訓(xùn)練成本過高,讓其通用型任務(wù)的完成情況較差。2)2017年到2020年:以谷歌Bert為代表的雙向預(yù)訓(xùn)練+FineTuning(微調(diào))的Transformer模型橫空出世成為了人工智能的主流方向。谷歌研究團(tuán)隊發(fā)表的《Attentionisallyouneed》論文(作者:AshishVaswani,NoamShazeer,NikiParmar等)開創(chuàng)了Transformer模型,重新統(tǒng)一了自然語言模型(NLP)的研究范式。這類模型以預(yù)訓(xùn)練的方式學(xué)習(xí)語言學(xué)特征,大幅簡化了過去NLP繁瑣的研究種類。Transformer作為特征提取器效果好于CNN、LSTM模型等,在信息容納能力、并行計算等方面明顯占優(yōu),讓AI首次能在語言任務(wù)的部分場景中追平人類。3)2020年到2022年:產(chǎn)業(yè)界與學(xué)術(shù)界繼續(xù)沿著Transformer的道路前景,但開始嘗試不同于Bert的其他Transformer架構(gòu),通過預(yù)訓(xùn)練無監(jiān)督學(xué)習(xí)的方法不斷增加模型體積成為了這一時段的主流。以1750億參數(shù)的GPT-3為代表,各大互聯(lián)網(wǎng)巨頭不斷嘗試增加模型體積以獲得更好的效果。GPT-3為代表的自回歸+Prompting的方法開始展現(xiàn)產(chǎn)品化能力的優(yōu)越性,與Fine-tuning方法的Bert模型成為兩條道路。相比于Bert,GPT-3的自回歸+Prompting在產(chǎn)品化能力展現(xiàn)出了兩個優(yōu)點:1)Fine-tuning對于小公司更難部署,從產(chǎn)品化的角度上更加困難;2)Prompting的方法更符合我們對以人類的方式使用AI的愿望,并實現(xiàn)了人、模型之間的自然交互。谷歌等巨頭在這一階段也意識到了Prompting方法的重要性,逐漸開始轉(zhuǎn)向。國內(nèi)AI研究在這一段時間內(nèi)出現(xiàn)了明顯落后,仍然沿著Bert模型的方向繼續(xù)前進(jìn),對GPT-3的研究很少;同時受制于中文優(yōu)質(zhì)語料的缺乏,模型大小也較難提升。4)2022年至今:ChatGPT的成功證明了GPT模型的Prompting道路的正確性,同時也強調(diào)了數(shù)據(jù)質(zhì)量的重要性。ChatGPT最重要的成功是在產(chǎn)品化上更進(jìn)一步:ChatGPT在模型精度上并沒有飛躍性的突破,但從FewShotprompt(需要輸入少量范例示范)轉(zhuǎn)換到Instruct(用人類語言描述想做什么)更加貼合用戶的習(xí)慣。總結(jié):產(chǎn)品邏輯上,Prompting雖然犧牲了部分精度,但無需用任務(wù)區(qū)分器區(qū)別不同的任務(wù),更接近于大眾所理解的“通用人工智能”。此前大眾此前接觸的人工智能如·Siri、小愛、小度音箱等,通過以任務(wù)分類的形式運行,準(zhǔn)備不同任務(wù)的標(biāo)注數(shù)據(jù)分別進(jìn)行訓(xùn)練,是傳統(tǒng)的Bert類模型。簡單來說,將預(yù)先設(shè)置好的任務(wù)類型放于模型背后,使用者通過描述任務(wù)類型系統(tǒng)來匹配對應(yīng)的模塊,缺點是使用者的指令需要清晰且無法執(zhí)行沒有預(yù)先設(shè)置的任務(wù)類型。而GPT類模型面對用戶不同的輸入,模型可以自行判斷給了用戶更好的體驗,這也更接近于大眾理解的“通用人工智能”。除了應(yīng)用于文字領(lǐng)域,目前LLM(大語言模型)已經(jīng)被應(yīng)用于圖像、音視頻等場景的問題求解中,并不斷取得理想的效果,而在LLM模型的技術(shù)路線上,GPT在內(nèi)容生成、理解上的良好表現(xiàn),以及更為可行的人、模型交互方式(prompt提示詞),亦使得LLM技術(shù)路線不斷向GPT方向進(jìn)行收斂。2.競爭壁壘:數(shù)據(jù)、工程實踐、人才、資本等回顧過去近十年人工智能模型的發(fā)展,我們總結(jié)發(fā)現(xiàn),新廠商進(jìn)入大語言模型研發(fā)的門檻越來越高。從2017年谷歌提出Bert模型至今,我們可以看到大語言模型的迭代主要都是由老牌的互聯(lián)網(wǎng)大廠或是巨頭全力支持的初創(chuàng)公司(OpenAI、Deepmind)推動。這個賽道中的參與者數(shù)量十分稀少,而原因就來自于極高的準(zhǔn)入門檻。基于上文的分析,中期維度,伴隨AI模型技術(shù)路線朝著以GPT為主的LLM(大語言模型)方向收斂,我們總結(jié)認(rèn)為,AI算法模型的核心技術(shù)壁壘將主要集中到:數(shù)據(jù)、工程實踐、資本、核心人才等層面。數(shù)據(jù):目前公開互聯(lián)網(wǎng)數(shù)據(jù)已經(jīng)被很大程度利用。從Bert開始到GPT-3再到谷歌的PALM,網(wǎng)絡(luò)中的公開語言數(shù)據(jù)源已經(jīng)在被盡可能地利用(論壇、新聞、維基百科等等),利用爬蟲等手段可以大量爬取公開的數(shù)據(jù)源。但模型的進(jìn)一步優(yōu)化仍需要更多數(shù)據(jù),這要求模型開發(fā)商有能力接觸到優(yōu)質(zhì)的私有數(shù)據(jù)來源,從而才能在模型的數(shù)據(jù)底層取得差異性的優(yōu)勢。我們判斷,優(yōu)質(zhì)私有數(shù)據(jù)源,以及通過私有數(shù)據(jù)進(jìn)一步生成的合成數(shù)據(jù),將在未來3-5年里人工智能模型的精度優(yōu)化上發(fā)揮更為重要的作用。爬蟲難以爬取的社交媒體數(shù)據(jù)、保存在后臺的用戶偏好數(shù)據(jù)、代碼托管數(shù)據(jù)等仍具有開發(fā)空間,這也將成為數(shù)據(jù)獲取端的優(yōu)勢。如Google對用戶搜索以及Youtube視頻的數(shù)據(jù)源、微軟在Github中收集到的私有數(shù)據(jù)都將成為決定模型能力的差異化因素。此外,結(jié)合這些私有數(shù)據(jù)生成的合成數(shù)據(jù)將進(jìn)一步放大這些公司數(shù)據(jù)端的優(yōu)勢。例如英偉達(dá)推出的Omniverse平臺就與奔馳展開合作:奔馳可以通過將自有行車記錄數(shù)據(jù)輸入Omniverse生成用于自動駕駛的合成數(shù)據(jù),這部分?jǐn)?shù)據(jù)可以模擬在現(xiàn)實世界中較為少見的特殊情景并對自動駕駛模型做進(jìn)一步的補充。資本投入:隨著模型體積仍在指數(shù)級增長,大量的前期資本投入是阻礙新入者的重要因素。在過去五年內(nèi),我們看到人工智能模型的獨角獸都在尋找互聯(lián)網(wǎng)科技大廠作為其背后的依靠,極少有僅靠PE、VC融資的大語言模型初創(chuàng)公司出現(xiàn)。原因我們可以總結(jié)為以下幾點:1)能夠得到充足而短時間內(nèi)不求回報的資金支持;2)依靠互聯(lián)網(wǎng)大廠的公有云等相關(guān)資源進(jìn)一步降低成本;3)獲取互聯(lián)網(wǎng)大廠長期以來所積累的優(yōu)質(zhì)數(shù)據(jù)源。這也是我們?yōu)槭裁纯吹皆谶^去五年內(nèi)人工智能頭部廠商逐漸從開源走向閉源,利用其資源優(yōu)勢來打造差異化的AI模型,而落后者更希望通過開源的模式以求縮小與頭部廠商的距離的原因。工程實踐:研發(fā)團(tuán)隊的工程能力是決定公司在大語言模型競爭力的另一個重要因素。工程能力決定了AI研發(fā)團(tuán)隊對模型的部署、迭代以及維護(hù)的速度,這也變相增加了模型的成本。當(dāng)前的大語言模型參數(shù)量在2000億以上,整個預(yù)訓(xùn)練過程長達(dá)最少一個月,這其中包含了大量的工程實施問題。如何優(yōu)化工程細(xì)節(jié),以及缺乏實踐工程經(jīng)驗導(dǎo)致的試錯成本是目前新進(jìn)入者的一個重要困難。核心人才:大語言模型與以往小模型研究范式的區(qū)別決定了,目前具備足夠工程能力的人才十分稀缺,大語言模型研發(fā)擁有經(jīng)驗豐富的領(lǐng)頭人極為關(guān)鍵。以往的人工智能模型開發(fā)主要圍繞LSTM、CNN等小模型,這些小模型的調(diào)試、使用方法等往往都包含在了學(xué)校課程中,個體工程師也可以通過自有資源進(jìn)行摸索并豐富自己的經(jīng)驗。但隨著語言模型的體積不斷增加,在研究方法上現(xiàn)今千億量級的模型與之前幾十億量級的小模型發(fā)生了本質(zhì)變化,個體工程師沒有能力通過自有資源積累對大模型的學(xué)習(xí)經(jīng)驗。一個合格的大模型研發(fā)團(tuán)隊需要依靠大公司的資源支持才能積累對模型調(diào)試、優(yōu)化、實際部署等各個環(huán)節(jié)足夠的經(jīng)驗。根據(jù)OpenAI在其招聘官網(wǎng)中所公布的細(xì)節(jié),其基本要求博士生畢業(yè)獲有3年以上在大語言模型經(jīng)驗的研究生。優(yōu)秀的工程人才稀缺以及培養(yǎng)難度讓沒有經(jīng)驗的新公司進(jìn)入更為困難,如何招募到一個大模型領(lǐng)域經(jīng)驗豐富的專家并在其影響力的基礎(chǔ)上招募來自于大公司的有一定工程經(jīng)驗的團(tuán)隊將成為新入公司的核心問題。3.算力成本:單位成本持續(xù)保持快速下降趨勢根據(jù)我們之前系列報告的測算,盡管人工智能模型的總研發(fā)投入持續(xù)在提高,但主要原因來自于模型體積的倍數(shù)式增長,而人工智能模型的單位成本保持下降趨勢。根據(jù)斯坦福大學(xué)AIindex2022的報告,2017年訓(xùn)練93%精確度的Imagenet需要花費1112.6美元,而在2021年底僅需4.6美元,單位成本僅為四年前的223分之1。大語言模型訓(xùn)練端成本:兩年內(nèi)下降約66%。因為單次模型訓(xùn)練耗時較長,一般情況下不太會反復(fù)預(yù)訓(xùn)練大語言模型,因此我們在測算訓(xùn)練環(huán)節(jié)成本時,假定預(yù)訓(xùn)練單次,且訓(xùn)練過程中沒有出現(xiàn)錯誤時的成本。實際情形中,考慮到訓(xùn)練過程中出現(xiàn)工程類錯誤的可能性,實際成本會高于我們計算的理想情況成本。假設(shè)參數(shù)量為175B、500BTokens的情況下,根據(jù)OpenAI的“ScalingLawsforNeuralLanguageModels”論文,在使用256個HGXA100服務(wù)器的情況下,ModelFLOPsUtilization(MFU)假設(shè)為Megatron-LM的51.04%,我們推測單次訓(xùn)練時長約為30.71天,換算為1509702.7GPU小時。假設(shè)訓(xùn)練使用成本價約為1美元/GPU小時的情況下,耗費服務(wù)器端成本約為151萬美元。而在2020年根據(jù)Stanford講師Mourri的測算,當(dāng)時訓(xùn)練GPT-3的成本約為460萬美元,我們可以看到訓(xùn)練相同模型的成本在兩內(nèi)下降了約66%。成本下降速度:根據(jù)斯坦福大學(xué)講師Mourri在2020年使用TeslaV100顯卡作為基準(zhǔn)的估算,當(dāng)時訓(xùn)練GPT-3的成本約為460萬美元。由此可見成本在兩年內(nèi)下降了約66%,不過考慮到訓(xùn)練時間成本仍然高昂,反復(fù)預(yù)訓(xùn)練大語言模型仍不會成為首選。大語言模型推理端成本:通過蒸餾、稀疏化處理等方式持續(xù)優(yōu)化,中短期內(nèi)仍存在數(shù)倍的優(yōu)化空間。以ChatGPT為例,根據(jù)我們在2022年底的測算,ChatGPT生成一次回答的成本約在1-2美分之間。而從3月2日OpenAI對ChatGPTAPI的定價出,0.2美分每1000tokens的定價對應(yīng)為百億參數(shù)級別的模型,結(jié)合ChatGPT在訓(xùn)練過程中所使用得RewardModel(獎勵模型,記錄了人類偏好)應(yīng)為千億參數(shù)級別的模型,這意味著OpenAI將其在千億參數(shù)模型中所學(xué)習(xí)到的能力通過類似于蒸餾(distillation)的方式濃縮進(jìn)了百億參數(shù)的模型中,通過縮減參數(shù)量的形式快速降低了成本消耗。根據(jù)目前用戶在社交媒體的反饋結(jié)果看,這個百億參數(shù)模型的能力以及追平甚至超越了先前的大尺寸模型??偨Y(jié):因此無論是模型推理端或訓(xùn)練端,我們都觀察到單位成本在持續(xù)保持快速下降趨勢,而總成本的提高,則主要來源于模型體積的增長、訓(xùn)練數(shù)據(jù)集增加、推理端用戶調(diào)用次數(shù)增加等。當(dāng)未來模型大小與日活用戶數(shù)接近閾值后,我們認(rèn)為成本端的優(yōu)化將會收束模型整體成本的膨脹,也提供給一些中小公司切入垂直領(lǐng)域的機會,最終形成:AI巨頭提供泛用性模型以及服務(wù)主要ToC需求,中小公司切入特定垂直行業(yè)并根據(jù)需求做微調(diào)優(yōu)化模型的格局。4.未來展望:通過插件等擴(kuò)展大語言模型(LLM)能力邊界OpenAI在ChatGPT中推出插件接口,進(jìn)一步擴(kuò)展ChatGPT能力。OpenAI團(tuán)隊于2023年3月宣布其為插件(Plugins)接口展開了LimitedAlpha測試,插件將ChatGPT連接到第三方應(yīng)用程序。這些插件使ChatGPT能夠與外部定義的API進(jìn)行交互,增強ChatGPT的功能并使其能夠執(zhí)行各種操作。例如:獲取實時信息:體育比分、股票價格、最新新聞等;獲取知識庫信息:公司文檔、個人筆記等;代表用戶執(zhí)行操作:預(yù)訂航班、訂購食物等。插件的推出,能夠有效解決ChatGPT在獲取聯(lián)網(wǎng)信息、回答復(fù)雜邏輯推理問題等層面的潛在缺陷,并為持續(xù)擴(kuò)展ChatGPT的能力邊界,提供了一種極為理想的實現(xiàn)方式,這種思路和圖靈獎得主YannLeCun在最新的論文《AugmentedLanguageModels:aSurvey》提出的增強語言模型(ALM)不謀而合,YannLeCun認(rèn)為,可以通過復(fù)雜問題分解、鏈接外部知識&工具等所謂的增強語言模型方式,來解決現(xiàn)有大語言模型在問答可靠性、信息及時性等方面的固有缺陷。插件模式下,第三方廠商無需接觸部署大語言模型,簡化了微調(diào)環(huán)節(jié)的實施難度。過去第三方廠商對模型的微調(diào)需要首先將模型本地部署再根據(jù)自有數(shù)據(jù)進(jìn)行調(diào)整,但隨著模型體積的膨脹,本地部署對一些小公司非常困難?,F(xiàn)在第三方廠商將可以自有的數(shù)據(jù)源及部分算法作為ChatGPT之上的插件,ChatGPT可以調(diào)用插

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論