版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
CIC灼識咨詢
大模型與AIGC藍(lán)皮書
?2023ChinaInsightsConsultancy.Allrightsreserved.Thisdocumentcontainshighlyconfidentialinformationandissolelyfortheuseofourclient.
Nopartofitmaybecirculated,quoted,copiedorotherwisereproducedwithoutthewrittenconsentofChinaInsightsConsultancy.1
灼識咨詢是一家知名咨詢公司。其服務(wù)包括IPO行業(yè)咨詢、商業(yè)盡職調(diào)查、戰(zhàn)略咨詢、專家網(wǎng)絡(luò)
服務(wù)等。其咨詢團(tuán)隊(duì)長期追蹤物流、互聯(lián)網(wǎng)、消費(fèi)品、大數(shù)據(jù)、高科技、能源電力、供應(yīng)鏈、
人工智能、金融服務(wù)、醫(yī)療、教育、文娛、環(huán)境和樓宇科技、化工、工業(yè)、制造業(yè)、農(nóng)業(yè)等方
面最新的市場趨勢,并擁有上述行業(yè)最相關(guān)且有見地的市場信息。
灼識咨詢通過運(yùn)用各種資源進(jìn)行一手研究和二手研究。一手研究包括訪談行業(yè)專家和業(yè)內(nèi)人士。
二手研究包括分析各種公開發(fā)布的數(shù)據(jù)資源,數(shù)據(jù)來源包括中華人民共和國國家統(tǒng)計(jì)局、上市
公司公告等。灼識咨詢使用內(nèi)部數(shù)據(jù)分析模型對所收集的信息和數(shù)據(jù)進(jìn)行分析,通過對使用各
類研究方法收集的數(shù)據(jù)進(jìn)行參考比對,以確保分析的準(zhǔn)確性。
所有統(tǒng)計(jì)數(shù)據(jù)真實(shí)可靠,并是基于截至本報(bào)告發(fā)布日的可用信息。
若您希望獲取CIC灼識咨詢的詳細(xì)資料、與灼識建立媒體/市場合作,或加入灼識行業(yè)交流群,
歡迎掃碼、致致函marketing@。
2
目錄
I.大模型如今已展現(xiàn)出卓越的能力,隨著其不斷演進(jìn)和完善,
必將引領(lǐng)AI的未來道路,開創(chuàng)智能時(shí)代的新紀(jì)元
II.受益于大模型技術(shù)的日益成熟,AIGC有望掀起新一輪產(chǎn)業(yè)革
命,開啟人類發(fā)展的智能新時(shí)代
III.GPGPU高度并行的計(jì)算資源為大型模型的訓(xùn)練和推理提供了
不可或缺的支持,推動了大模型與AI領(lǐng)域的不斷進(jìn)步和創(chuàng)新
IV.彩蛋:生成式AI如何提升工作效率
3
AI應(yīng)用現(xiàn)狀
全球AI市場預(yù)計(jì)將于2030年達(dá)到1萬億美元,并且全球超過15%的GDP將由AI驅(qū)動;AI在各垂直領(lǐng)域的應(yīng)用滲
透率也將繼續(xù)提升。
AI在垂直領(lǐng)域中的應(yīng)用強(qiáng)/主要的弱/次要的
數(shù)據(jù)及AI基礎(chǔ)設(shè)施建設(shè)中國AI應(yīng)用情況
行業(yè)占支出比例AI應(yīng)用的挑戰(zhàn)
中國AI支出占AI市場AIITAI支出CAGR,
數(shù)據(jù)量數(shù)據(jù)質(zhì)量IT系統(tǒng)成熟度
比例,
202220222027E22-27E
?不同機(jī)構(gòu)之間的數(shù)據(jù)孤島
金融12.1%11.8%19.8%28.1%
?數(shù)據(jù)系統(tǒng)安全及隱私
?傳統(tǒng)零售商獲取結(jié)構(gòu)化/高度可用的數(shù)據(jù)
零售5.7%3.7%5.7%26.6%
?供應(yīng)鏈機(jī)器學(xué)習(xí)算法優(yōu)化
?專注單點(diǎn)技術(shù)突破,但無法跨場景規(guī)?;瘧?yīng)用
制造業(yè)8.6%1.8%4.4%43.6%?數(shù)據(jù)整合程度低,管理欠佳
?AI解決方案供應(yīng)商分散
能源2.6%5.1%9.8%41.4%?AI應(yīng)用/轉(zhuǎn)型進(jìn)度較慢
?數(shù)據(jù)分散在各醫(yī)院/管理機(jī)構(gòu)
醫(yī)療5.6%5.5%8.2%27.6%
?數(shù)據(jù)系統(tǒng)安全及隱私
汽車12.3%19.5%25.5%21.0%?自動駕駛數(shù)據(jù)融合難度高
?不同機(jī)構(gòu)之間的數(shù)據(jù)孤島
政府27.1%21.6%28.3%18.7%
?數(shù)據(jù)系統(tǒng)安全及隱私
資料來源:灼識咨詢4
大模型的定義
大模型是基于海量多源數(shù)據(jù)打造的模型,其是實(shí)現(xiàn)通用人工智能(AGI)的重要路徑。大模型可以整合多種不
同類型的數(shù)據(jù)和信息,實(shí)現(xiàn)多模態(tài)處理和分析,從而更全面地理解和解決復(fù)雜問題,其具備通用性、涌現(xiàn)性等
諸多特點(diǎn)。
定義
?AI可分為ANI(ArtificialNarrowIntelligence)、AGI(ArtificialGeneralIntelligence)和ASI(ArtificialSuperIntelligence)。ANI是專注于執(zhí)行某一領(lǐng)域任務(wù)的經(jīng)過訓(xùn)練的人工智能,是目前大多數(shù)的AI
形式;AGI是通用人工智能,是指一種具有與人類相當(dāng)?shù)恼J(rèn)知能力的智能系統(tǒng),能夠理解、學(xué)習(xí)、計(jì)劃和解決問題;ASI是超級人工智能,指在幾乎所有領(lǐng)域都超過最優(yōu)秀的人類所具備的智能、知
識、創(chuàng)造力、智慧和社交能力的智能系統(tǒng)。目前,ANI已經(jīng)廣泛應(yīng)用,AGI處于研發(fā)階段,而大模型是實(shí)現(xiàn)AGI的重要路徑。
AI的三種類型比較大模型是實(shí)現(xiàn)AGI的重要路徑,其具有諸多特點(diǎn)
擅長領(lǐng)域具備能力發(fā)展成熟度
?通用性?高投入
大模型可以快速并大模型具有重投入、
大規(guī)模地與云計(jì)算、長周期的特點(diǎn),如每
互聯(lián)網(wǎng)等其他技術(shù)次測試需要海量的算
某一特定領(lǐng)域具備執(zhí)行能力已應(yīng)用廣泛結(jié)合,廣泛地應(yīng)用力資源,訓(xùn)練一次成
專用人工智能
(ANI)在經(jīng)濟(jì)的各個(gè)領(lǐng)域。本高達(dá)千萬美元。
四大特點(diǎn)
擁有能夠與人類相媲美
大部分領(lǐng)域處于研發(fā)階段?工程化
通用人工智能(AGI)的智慧?涌現(xiàn)性
大模型對數(shù)據(jù)、算法、
大模型參數(shù)超過百
算力要求極高,需要
億級時(shí),模型性能
工程化的經(jīng)營思路。
會呈現(xiàn)出指數(shù)級增
需要嚴(yán)格把控?cái)?shù)據(jù)清
長,同時(shí)能夠?qū)ξ?/p>
洗,把控用于關(guān)鍵性
經(jīng)專門訓(xùn)練的問題
訓(xùn)練的數(shù)據(jù),和構(gòu)建
所有領(lǐng)域全知全能尚處早期舉一反三。
超級人工智能(ASI)大規(guī)模高質(zhì)量訓(xùn)練的
算力。
資料來源:灼識咨詢5
大模型產(chǎn)業(yè)圖譜
大模型產(chǎn)業(yè)涵蓋了行業(yè)應(yīng)用、產(chǎn)品服務(wù)、模型工具和基礎(chǔ)設(shè)施四個(gè)關(guān)鍵層面,廣泛應(yīng)用于各行業(yè)與垂直場景,
前景廣闊。
大模型相關(guān)產(chǎn)業(yè)圖譜
金融教育藝術(shù)設(shè)計(jì)游戲醫(yī)藥文化娛樂其他
行
業(yè)
應(yīng)
用
文本圖像音頻視頻虛擬空間代碼
產(chǎn)
品
服
務(wù)
算法模型
模
型
與
工工具平臺模型托管/交易
具
基數(shù)據(jù)芯片云平臺
礎(chǔ)
設(shè)
施
資料來源:中國信通院,灼識咨詢6
大模型的演變
大模型的演變經(jīng)歷3個(gè)階段:基礎(chǔ)大模型具備大量知識儲備,能理解并生成內(nèi)容,質(zhì)量差強(qiáng)人意;精調(diào)大模型能
按照人類偏好及普世價(jià)值取向、并保證一定安全性的前提下,生成高度可用的內(nèi)容;而出現(xiàn)能力涌現(xiàn)的大模型
所生成的內(nèi)容接近人類水平。
大模型演變概覽高/強(qiáng)低/弱
1基礎(chǔ)大模型2精調(diào)大模型3能力涌現(xiàn)的大模型
模型示意圖,以GPT-3模型為例指令精調(diào)示意圖能力涌現(xiàn)示意圖
取余數(shù)國際音單詞解謎修辭手法
學(xué)習(xí)輸出模板運(yùn)算標(biāo)轉(zhuǎn)寫
每層
…千個(gè)人工對大量問題的回答形成模板供模型學(xué)習(xí)準(zhǔn)準(zhǔn)準(zhǔn)
確準(zhǔn)確確
性確性性
節(jié)點(diǎn)性
每層
…千個(gè)建立評分機(jī)制
模節(jié)點(diǎn)人工對模型的數(shù)個(gè)輸出進(jìn)行排序,建立獎(jiǎng)勵(lì)模型真實(shí)場景映射多任務(wù)自然語境理解
型并為后續(xù)結(jié)果進(jìn)行打分問答語言理解
變每層
準(zhǔn)準(zhǔn)準(zhǔn)準(zhǔn)
化…千個(gè)確確確確
根據(jù)結(jié)果重復(fù)優(yōu)化過程性性性性
節(jié)點(diǎn)
…模型根據(jù)打分結(jié)果調(diào)整后續(xù)輸出,并不斷重復(fù)上
述過程以優(yōu)化模型
共128層
模型規(guī)模
?GPT-3采用了96層的多頭Transformer,參數(shù)量達(dá)?指令精調(diào)在于確保模型輸出結(jié)果的準(zhǔn)確性及安全性,?隨著模型參數(shù)的指數(shù)級增長,大模型能力呈現(xiàn)明顯
到1,750億,并使用45TB數(shù)據(jù)進(jìn)行訓(xùn)練。在該階段需要使用較多的人工標(biāo)注介入。在此基礎(chǔ)上,的爆發(fā)增長,呈現(xiàn)能力涌現(xiàn)的情況。
引入獎(jiǎng)勵(lì)模型,讓模型脫落人工指引,實(shí)現(xiàn)自優(yōu)化。
模
型
特?具備大量知識儲備,能理解并生成語言,質(zhì)量差強(qiáng)?能按照人類偏好及普世價(jià)值取向,并保證一定安全?具備邏輯推理能力及上下文理解能力,更接近人類
征人意。性的前提下生成高度可用的內(nèi)容。水平。
資料來源:“AreEmergentAbilitiesofLargeLanguageModelsaMirage?”,灼識咨詢7
大模型的終端用戶
大模型的終端用戶包括C端、B端和企業(yè)自用三類。C端用戶一般使用標(biāo)準(zhǔn)化的模型產(chǎn)品,B端用戶更傾向于選擇
能滿足行業(yè)或企業(yè)特定需求的個(gè)性化解決方案,而企業(yè)自用的模型則旨在降低運(yùn)營成本、提高運(yùn)營效率、優(yōu)化
產(chǎn)品的用戶體驗(yàn)。
大模型的終端用戶分類
主要特點(diǎn)主要變現(xiàn)模式應(yīng)用案例
?主要用于個(gè)人娛樂、學(xué)習(xí)和創(chuàng)作
?標(biāo)準(zhǔn)化程度高,普適性強(qiáng)?C端用戶訂閱
C端
?強(qiáng)調(diào)用戶友好性與互動性
?針對企業(yè)和機(jī)構(gòu),提供針對性解決方案的大
模型
?通?;诨A(chǔ)大模型,根據(jù)不同企業(yè)、行業(yè)
?B端企業(yè)用戶訂閱或購買非
的需求進(jìn)行一定程度的定制,模型較為異質(zhì)
定制化行業(yè)模型
B端化、用途多樣
?強(qiáng)調(diào)模型在不同領(lǐng)域的專業(yè)能力,以及客戶
的數(shù)據(jù)隱私和安全
?主要用于內(nèi)部業(yè)務(wù)優(yōu)化
?無直接變現(xiàn),主要作用在于
企業(yè)自用?個(gè)性化定制,解決企業(yè)獨(dú)特的問題和需求
降低企業(yè)自身運(yùn)營成本并提
?數(shù)據(jù)保密性至關(guān)重要,強(qiáng)調(diào)內(nèi)部控制和數(shù)據(jù)升效率
安全
資料來源:灼識咨詢8
大模型的表現(xiàn)
大模型在多領(lǐng)域表現(xiàn)卓越,在自然語言理解、學(xué)習(xí)能力、視覺聽覺識別等領(lǐng)域可以媲美甚至超越人類。提高大
模型的創(chuàng)造能力、減少對數(shù)據(jù)的依賴性、加強(qiáng)隱私保護(hù)等將會是大模型迭代的重點(diǎn)。
大模型在不同場景中與人類表現(xiàn)對比
MNISTMNIST(handwriting(手寫識別)recognition)SwitchboardSwitchboard(speech(語音識別)recognition)
ImageNetImageNet(image(圖像識別)recognition)SQuADSQuAD1.11.1(reading(綜合閱讀)comprehension)
聽覺識別
直覺視覺SQuADSQuAD2.02.0(reading(綜合閱讀)comprehension)2GLUEGLUE(language(語言理解)understanding)
識別
0.2
創(chuàng)造性思維
抽象思維
倫理是非人類表現(xiàn)
學(xué)習(xí)能力判斷
自然語言0
理解
藝術(shù)表現(xiàn)
情感判斷
大模型尚不具備-0.2
大模型具備但仍需改進(jìn)
大模型具備且可與人類媲美
-0.4
?視覺/聽覺識別:基本達(dá)到甚至一定程度上超越人類,準(zhǔn)確率較高
?學(xué)習(xí)能力:具備自動學(xué)習(xí)能力,在特定任務(wù)和數(shù)據(jù)集上可以超越
人類
-0.6
?自然語言理解:熟練掌握多種人類語言,基本達(dá)到甚至一定程度
上超越人類,存在一定語言不夠自然(機(jī)械化)的問題
?創(chuàng)造性思維:能夠生成創(chuàng)造性內(nèi)容,但通常是在已知樣本的基礎(chǔ)
上進(jìn)行創(chuàng)作或是需要人類指導(dǎo)/二次修改
?抽象思維:相對有限,依賴于數(shù)據(jù)與模型參數(shù)-0.8
?藝術(shù)表現(xiàn):可以生成藝術(shù)作品,但通常缺乏情感和創(chuàng)新
?情感判斷:能夠進(jìn)行情感分析,但不具備真實(shí)情感體驗(yàn)
?倫理是非判斷:不具備,可能引發(fā)錯(cuò)誤或數(shù)據(jù)隱私等安全問題
?直覺:不具備-1
19982003200820132018
資料來源:“ComputersaceIQtestsbutstillmakedumbmistakes.Candifferenttestshelp?”,灼識咨詢9
大模型的發(fā)展現(xiàn)狀
隨著大模型的不斷演進(jìn),它們的參數(shù)規(guī)模也呈現(xiàn)出指數(shù)級增長的趨勢;與此同時(shí),它們的復(fù)雜性和功能愈發(fā)提
升,使得大模型能夠在各領(lǐng)域擔(dān)任更加多樣和復(fù)雜的任務(wù)。
大模型的發(fā)展及參數(shù)量
參數(shù)數(shù)量
WuDao2.0
3.2e+12Megatron-GPT-4(1.8T)
TuringNLG
530BPaLM(540B)
GPT-3175BMinerva(540B)
BLOOM
HyperClovaGopherErnieBot(260B)
(davinci)PanGu-uOPT-175B
3.2e+11日日新
Jurassic-1-GLM-130B(180B)
JumboChinchillaSparrow(70B)
Claude(52B)
3.2e+10TuringNLG
T5-11BDALL-ECodexGPT-NeoX-20B
Megatron-LM通義千問(7B)
GPT-J-6BERNIE3.0
(Original,8.3B)Jurassic-XChatGL
T5-3BM-6B
CogViewDALL·E2
3.2e+9MeenaGPT-Neo
WuDao-WenStableDiffusion
Yuan(LDM-KL-8-G)
GPT-2Grover-Mega
ERNIE-GEN
3.2e+8(large)
20192020202120222023時(shí)間
分析
?在大模型出現(xiàn)之前,機(jī)器學(xué)習(xí)算法的參數(shù)量以平均每5-6年翻一個(gè)數(shù)量級的速度快速增長,而大模型的出現(xiàn)使模型參數(shù)量的增長速度大幅提升。
?舉例而言,大模型及多模態(tài)模型的鼻祖之一GPT-2發(fā)布于2019年,參數(shù)量為15億;GPT-3發(fā)布于2020年,參數(shù)量即達(dá)到了1,750億,相比GPT-2增長了100多倍。粗略計(jì)算,在大模型興起的前幾年,
大模型的參數(shù)量每年即可增長1-2個(gè)數(shù)量級。
?在目前已公開參數(shù)量的大模型中,參數(shù)量最多的達(dá)到了1.75萬億。
資料來源:HAI,灼識咨詢10
大模型的應(yīng)用
大模型正在各應(yīng)用場景嶄露頭角,其應(yīng)用場景廣泛且多樣化。從自然語言處理到圖像生成,從音頻處理到視頻、
3D場景創(chuàng)建,大模型能夠應(yīng)對多領(lǐng)域的挑戰(zhàn)。未來,大模型有望為更多應(yīng)用場景帶來更多機(jī)會和創(chuàng)新。
大模型的應(yīng)用場景
應(yīng)用場景主要用途相關(guān)大模型描述
GPTCohere?模型比較擅長通用的短/中篇幅寫作,通常用于初稿
及更新稿撰寫
?營銷(內(nèi)容)?通用寫作GopherAnthropic
文本?模型能夠理解上下文,生成更自然的文本,準(zhǔn)確性
?銷售(郵件)?記筆記
OPTAI2逐漸接近人類水平,廣泛應(yīng)用于智能客服、文本摘
要、內(nèi)容生成等領(lǐng)域
BloomYandex
?代碼生成可能在短期內(nèi)對開發(fā)人員的生產(chǎn)力帶來重
?代碼生成?文本到SQLGPT
編程大影響
?代碼文檔化?網(wǎng)頁應(yīng)用構(gòu)建Stability.ai
Tabnine?能降低非開發(fā)人員編程的門檻
?在圖像識別、分割、風(fēng)格轉(zhuǎn)換等領(lǐng)域有廣泛應(yīng)用,
?圖像生成?媒體/廣告Dall-E2
圖像能夠處理復(fù)雜的視覺任務(wù)
?消費(fèi)者/社交應(yīng)用?設(shè)計(jì)Craiyon
StableDiffusion?不同風(fēng)格的圖像模型以及編輯和修改生成圖像技術(shù)
?對聲音和語音的理解能力逐漸提高,生成的音頻逐
音頻?語音合成
OpenAI漸自然、不機(jī)械,且接近人類水平
?用于自動剪輯、特效創(chuàng)作、噪音修復(fù)、虛擬場景制
視頻?視頻編輯/生成
X-CLIPMake-A-Video作等,大大提升了編輯效率
DreamFusion?在游戲、電影、虛擬現(xiàn)實(shí)、建筑和實(shí)體產(chǎn)品設(shè)計(jì)等
3D?3D模型/場景搭建
MDM(MotionDiffusionModel)大型創(chuàng)意市場極具潛力
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024屆浙江省杭州市9+1高中聯(lián)盟高三實(shí)驗(yàn)班暑期第一次月考數(shù)學(xué)試題
- 鄂教版科學(xué)三下《蠶蛹變成了什么》課件
- 新版浙教版2024-2025學(xué)年度八年級數(shù)學(xué)上學(xué)期期末綜合素質(zhì)評價(jià)二含答案
- 胸科醫(yī)院裝修施工組織設(shè)計(jì)
- 垃圾分類主題班會課件
- 2024八年級數(shù)學(xué)上冊第六章數(shù)據(jù)的分析專題十二平均數(shù)中位數(shù)眾數(shù)實(shí)際應(yīng)用的四種類型習(xí)題課件新版北師大版
- 《烹飪營養(yǎng)與食品安全》課件 熱能
- 2024年贛州考從業(yè)資格證客運(yùn)試題
- 2024年六安客運(yùn)資格證考試答題
- 2024年合肥客運(yùn)員考試題目及答案
- 醫(yī)院培訓(xùn)課件:《RCA-根本原因分析》
- 民宿合作方案
- 苯妥英鋅的合成1(修改)
- 盒馬鮮生管理手冊
- 高中物理《相互作用》大單元集體備課
- 南仁東和中國天眼課件
- 彩票市場銷售計(jì)劃書
- 設(shè)備維保的現(xiàn)場維修與故障處理
- 平面鏡成像-說課課件
- 宋代詩人蘇軾的藝術(shù)心態(tài)與文學(xué)成就
- 紀(jì)委監(jiān)督工作培訓(xùn)課件
評論
0/150
提交評論