![2024人工智能開源大模型生態(tài)體系研究報告_第1頁](http://file4.renrendoc.com/view12/M0B/15/31/wKhkGWbpHuKAblWyAADIN6iIzOw351.jpg)
![2024人工智能開源大模型生態(tài)體系研究報告_第2頁](http://file4.renrendoc.com/view12/M0B/15/31/wKhkGWbpHuKAblWyAADIN6iIzOw3512.jpg)
![2024人工智能開源大模型生態(tài)體系研究報告_第3頁](http://file4.renrendoc.com/view12/M0B/15/31/wKhkGWbpHuKAblWyAADIN6iIzOw3513.jpg)
![2024人工智能開源大模型生態(tài)體系研究報告_第4頁](http://file4.renrendoc.com/view12/M0B/15/31/wKhkGWbpHuKAblWyAADIN6iIzOw3514.jpg)
![2024人工智能開源大模型生態(tài)體系研究報告_第5頁](http://file4.renrendoc.com/view12/M0B/15/31/wKhkGWbpHuKAblWyAADIN6iIzOw3515.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
出品機(jī)構(gòu):甲子光年智庫研究指導(dǎo):宋濤報告撰寫:努爾麥麥提·
買合木提(小麥)發(fā)布時間:2024.06(初版)更新時間:2024年6日人工智能開源大模型生態(tài)研究開源為先場景突破Part
02
人工智能大模型的開源生態(tài)體系分析Part
05
人工智能大模型典型商業(yè)化案例及未來展望Part
03
人工智能開源大模型的創(chuàng)投情況分析Part
04
開源大模型生態(tài)建設(shè)的成功經(jīng)驗(yàn)與典型案例Part
01發(fā)展人工智能產(chǎn)業(yè)的重要性與新機(jī)遇目錄CON
下ENTS甲子光年J
A
Z
Z
Y
I
A
R甲子光年IAZZY
h
A
RGPT-4生物識別自然語言
處理人臉
語音
識別
識別智慧交通智慧金融風(fēng)險評估
反欺詐
智能
投顧智能理賠
智能保顧數(shù)字人輔助診斷與篩查智慧醫(yī)療藥物研發(fā)醫(yī)療知識庫智智能導(dǎo)診智能診斷智能制造智能工廠實(shí)時監(jiān)控與操控智能供應(yīng)鏈協(xié)作機(jī)器人智慧能源自動駕駛視覺感知高級輔三維
助駕駛建
點(diǎn)云處理車路協(xié)同仿真測試智慧科研農(nóng)作物監(jiān)測氣象預(yù)報天文發(fā)現(xiàn)
高分子材蛋白質(zhì)結(jié)構(gòu)預(yù)測智慧電網(wǎng)碳資產(chǎn)管理人工智能技術(shù)經(jīng)歷70年的發(fā)展已經(jīng)進(jìn)入成熟期,即將進(jìn)入大規(guī)模應(yīng)用落地階段人工智能即將進(jìn)入大規(guī)模應(yīng)用落地階段邏輯推理為主,聚焦決策、
認(rèn)知能力機(jī)器
學(xué)
習(xí)聚焦學(xué)習(xí)環(huán)節(jié),
大模型ChatGPTGPT-3Transformer車輛
識別車輛路網(wǎng)智能交管智能停
車管理智能路燈智能調(diào)度智慧工地電力巡檢智能勘測與開發(fā)時間Al能力情感倫理社會協(xié)作執(zhí)行學(xué)
習(xí)決策認(rèn)知感知1.1人工智能發(fā)展進(jìn)入應(yīng)用落地階段195619741980198719952013202020212022202320252030以概率統(tǒng)計的建模、學(xué)習(xí)和計算為
主,聚焦感知、認(rèn)知、決策分解為五大學(xué)科
深度學(xué)
習(xí)數(shù)據(jù)來源:甲子光年智庫,聚焦執(zhí)行與社會協(xié)
作環(huán)節(jié)甲子光年I
A
Z
z
Y
h
A
R產(chǎn)生情感?神經(jīng)網(wǎng)絡(luò)邏輯
推理用藥
提
醒智能
質(zhì)檢料研發(fā)AIGC人工智能三要素:數(shù)據(jù)
(data)、
算
法(algorithm)
和算力(computing
power);口
人工智能(A)的快速發(fā)展依賴于三個核心要素數(shù)據(jù),算法,算力。這個觀點(diǎn)已經(jīng)得到了業(yè)界的高度認(rèn)可。只有這三個要素同時滿足了才能加速人工
智能的大發(fā)展。隨著人工智能大模型規(guī)模變大以及普及應(yīng)用,人工智能對能源的需求也在不斷加大,逐漸成為人工智能發(fā)展關(guān)鍵因素之一。人工智能核心三要素:數(shù)據(jù)、算力、算法TensorBoard
Tensorflow-SlimKerasTensorFlowTheano
Caffe2PyTorchzookeeper
Matplotib
格式
TFRecordImdbRecordlOScrapyBlockChain處理
PandasKettleHiveHDFSMySQLHBaseMongoDBK8S
OpenStackKubeFlow
PaddleEDLHadoopSparkCPUGPU
FPGA
TPUBPUNPU訓(xùn)練、微調(diào)
…
.現(xiàn)
在Al算力需求最密集的地
方是訓(xùn)練,但是AI價值最高
的地方是推理,而不是訓(xùn)練。大量高性能硬件組成的計算能力
(幾千個GPU組成的計算機(jī)群)1.2數(shù)據(jù)、算力、算法作為人工智能發(fā)展的核心三要素已經(jīng)具備基礎(chǔ)條件應(yīng)用工業(yè)金融醫(yī)療商業(yè)電商交通安防通信模型訓(xùn)練模型方法工具訓(xùn)練框架管理獲取存儲基礎(chǔ)架構(gòu)基礎(chǔ)設(shè)施Deep
SpeechRBN
LSTMRL算
法
數(shù)
據(jù)
算
力VGGDNN
CNN數(shù)據(jù)來源:甲子光年智庫,RestNetRNN甲子光年IAZZ
Y
H
A
R.大數(shù)據(jù)+大算力+通用大模型成為新的發(fā)展范式,將推動Al能力提升逼近通用人工智能持續(xù)進(jìn)化,Al
綜合能力逼近臨界點(diǎn)社會
協(xié)作執(zhí)行學(xué)習(xí)AI能力進(jìn)化曲線邏輯推理為主
大數(shù)據(jù)+小算力+專用范式2013
2020
2023大數(shù)據(jù)+大算力+通用范式情感倫理1.3大數(shù)據(jù)+大算力+通用大模型成為新的發(fā)展范式2030?
時間.1956數(shù)據(jù)來源:甲子光年智庫,甲子光年IAZZ
Y
H
A
RAl綜
合
能
力決策認(rèn)知感知工智能智能將推動人類文明生產(chǎn)力的躍遷,標(biāo)志著人類生產(chǎn)效率出現(xiàn)了第二次腦力效率飛躍口
Al2.0時代將開啟社會生產(chǎn)力新變革,首先體現(xiàn)在對于人類生產(chǎn)效率的顛覆式提升。口
人類文明演進(jìn)依次走過了原始時代、農(nóng)業(yè)時代、工業(yè)時代、信息時代、數(shù)字時代,到今天的數(shù)智時代,每個時代的代表性生產(chǎn)工具都不同。所有生產(chǎn)工具反映的都是生產(chǎn)效率的提升能力。數(shù)字時代的云、網(wǎng)、端、芯、鏈等數(shù)字工具,除了體力效率的提升之外,還有腦力效率的輔助作用,ChatGPT所代表的AIGC工具的出現(xiàn),標(biāo)志著人類生產(chǎn)效率出現(xiàn)了第二次腦力效率飛躍,是新一輪生產(chǎn)力的躍遷,真正實(shí)現(xiàn)從體力效率提升向腦力效率提升的轉(zhuǎn)變,這將推動人類社會發(fā)生深遠(yuǎn)變革,其意義不亞于新時代的蒸汽機(jī)。腦力生產(chǎn)效率的二次飛躍
內(nèi)容再加工者腦力生產(chǎn)效率的提升內(nèi)容生產(chǎn)者體力生產(chǎn)效率的提升
體力輸出者工
O
立
自
葉
出
米
ウ
時
出
米
知
出1.4人工智能將推動人類文明生產(chǎn)力躍遷和生產(chǎn)效率的飛躍社會生產(chǎn)效率提升與人類文明進(jìn)化歷程腦力
創(chuàng)意腦力
輔助體力原始時代數(shù)據(jù)來源:甲子光年智庫,生產(chǎn)效率的提升云、網(wǎng)、端、
芯、鏈甲子光年IAZZ
Y
H
A
R人工智能農(nóng)具+牛PC/軟件太
O
時
代機(jī)械石器1.5人工智能進(jìn)入時代拐點(diǎn),大模型開源生態(tài)成為推動Al產(chǎn)業(yè)發(fā)展的重要模式
大模型開源生態(tài)成為推動人工智能產(chǎn)業(yè)從技術(shù)走向應(yīng)用的重要模式口
開源大模型是指基于開源軟件模式,由全球開發(fā)者共同參與、共同維護(hù)、共同發(fā)展的機(jī)器學(xué)習(xí)模型。開源大模型的特點(diǎn)是開放性、共享性和可擴(kuò)展性,這使得開源大模型在全球范圍內(nèi)得到了廣泛的應(yīng)用和推廣。目前,開源大模型已經(jīng)成為全球人工智能領(lǐng)域的重要發(fā)展趨勢??谀P烷_源生態(tài)不僅加速了人工智能技術(shù)的創(chuàng)新,而且推動了其在各個行業(yè)的廣泛應(yīng)用。通過開源大模型,企業(yè)能夠更快地實(shí)現(xiàn)任務(wù)部署和技術(shù)落
地,這對于人工智能產(chǎn)業(yè)的發(fā)展起到了關(guān)鍵作用。隨著更多的開源大模型案例和應(yīng)用的發(fā)布,我們可以預(yù)見人工智能將在未來的經(jīng)濟(jì)社會發(fā)展中
扮演更加重要的角色。開源生態(tài)的加速形成是大模型時代“安卓時刻”的來臨·
開源系統(tǒng)的優(yōu)勢在于影響力的迅速擴(kuò)散,加快垂直場景應(yīng)用;·
開源生態(tài)參與者、開發(fā)者眾多,反應(yīng)速度快,商業(yè)化探索更具潛力;·大模型開源,有助于企業(yè)/開發(fā)者加快實(shí)現(xiàn)任務(wù)部署和技術(shù)落
地應(yīng)用,促進(jìn)產(chǎn)業(yè)發(fā)展成熟與生態(tài)形成。數(shù)據(jù)來源:甲子光年智庫
應(yīng)用:垂直場景平臺:模型部署開源大模型Part
05
人工智能開源大模型典型商業(yè)化案例及未來展望Part
03
人工智能開源大模型的創(chuàng)投情況分析Part
04
開源大模型生態(tài)建設(shè)的成功經(jīng)驗(yàn)與典型案例Part
01
發(fā)展人工智能產(chǎn)業(yè)的重要性與新機(jī)遇Part
02人工智能大模型的開源生態(tài)體系分析目錄CON
下ENTS甲子光年JAZ
ZY
I
A
RAl能
力邏輯推理為主,聚焦決策,認(rèn)知能力情感倫理GPT-4ChatGPT機(jī)器人學(xué)GPT-3Transformer機(jī)器學(xué)習(xí)認(rèn)知科學(xué)自然語言理解計算機(jī)視覺19871995201320202021202220232025E
時間口
第一階段A
以邏輯推理為主,Al能力主要聚焦決策和認(rèn)知;第二階段Al注重概率統(tǒng)計的建模、學(xué)習(xí)和計算,AI能力開始聚焦感知、認(rèn)知和決策;第三階段Al聚焦學(xué)習(xí)環(huán)節(jié),注重大模型的建設(shè),Al
能力覆蓋學(xué)習(xí)和執(zhí)行;第四階段則聚焦執(zhí)行與社會協(xié)作環(huán)節(jié),開始注重人機(jī)交互協(xié)作,注重人
類對人工智能的反饋訓(xùn)練。口
當(dāng)下正處于第四階段,這一階段從2020年開始,代表性事件是GPT-3的發(fā)布,突破了以往模型在自然語言處理領(lǐng)域的限制,為語言模型的進(jìn)一步
發(fā)展提供了強(qiáng)有力的基礎(chǔ),也為實(shí)現(xiàn)智能化的語言交互和人機(jī)對話打開了全新的可能性,是人工智能發(fā)展的一個關(guān)鍵節(jié)點(diǎn)。2.1人工智能技術(shù)架構(gòu)的演變與新趨勢
人工智能技術(shù)進(jìn)化出七大核心能力,實(shí)現(xiàn)從“解放四肢”到“解放大腦”的升級數(shù)據(jù)來源:甲子光年智庫,
社會協(xié)作執(zhí)行學(xué)習(xí)決策認(rèn)知感知不同時期AI側(cè)重能力進(jìn)化路線以概率統(tǒng)計的建模、學(xué)習(xí)和計算
為主,聚焦感知、認(rèn)知、決策甲子光年I
A
Z
Z
Y
H
A
R聚焦學(xué)習(xí)環(huán)節(jié),
大模型聚焦執(zhí)行與社
會協(xié)作環(huán)節(jié)19561974
1980機(jī)器
學(xué)習(xí)產(chǎn)生情感?邏輯
推理神經(jīng)
網(wǎng)絡(luò)深度
學(xué)
習(xí)2.2基于新一代人工智能開源技術(shù)架構(gòu)的大模型開源生態(tài)體系基礎(chǔ)設(shè)施、大模型、行業(yè)應(yīng)用構(gòu)成大模型開源生態(tài)體系數(shù)據(jù)來源:甲子光年智庫,
數(shù)據(jù)C網(wǎng)易易盾同伴客數(shù)據(jù)TBanic
Data金融Qwen
天
工
文心一言
MOSS智譜·AI
零一萬物01.Al智源研究院
訊飛星火通用大模型專用大模型芯片騰訊云nvIDIA.
百川智能BAICHUANAlAli
aba醫(yī)療盤
古@
Ga-AlplaGoogleBERT編程deepseekao
Defog.aiDefog.aiA
DE
PTBaidu百
度HUAWEI昆侖芯KUNLUNXIN[ambricon寒
武
紀(jì)
騰訊云[-]阿里云微以學(xué)自然語言處理實(shí)驗(yàn)室中國科學(xué)院國家天文臺3AAI智源研究院ChatGPT
iceanvIDIA.
Colossal-AI
MISTRALH
AI
圖顯機(jī)器LTURINGRoBoT教育百川智能BAICHUAN
AlAsialnfo亞信科技博特智能BotSmart云平臺中國移動China
Mobiled
抖音華為云HUAWEIBigCodereplit甲子光年IAZZY
H
A
R基礎(chǔ)設(shè)施行業(yè)應(yīng)用CINTENAnoNAL
0ichtalLCONOMY天數(shù)智芯lluvatar
CoreXDolly大模型XVERSE
元象中國電信CHINA
TELECOM文娛粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(福田)C粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(福田)3AAIOgrAfotCONOMY10開源是大模型未來,開源生態(tài)體系持續(xù)演進(jìn)口
開源大模型是基于開源軟件模式,由全球開發(fā)者共同參與、共同維護(hù)、共同發(fā)展的機(jī)器學(xué)習(xí)模型。開源由開源規(guī)則、開源對象、開源基礎(chǔ)設(shè)施、參與主體組成。是參與主體在基礎(chǔ)設(shè)施之上針對對象在遵循一定規(guī)則下的一種開放式協(xié)作模式,其目的是為了能產(chǎn)生公開復(fù)用
的產(chǎn)出物。口
開源的優(yōu)勢,在于降低商業(yè)軟件采購成本、增強(qiáng)可定制性、保障軟件高質(zhì)量更新、維持技術(shù)創(chuàng)新等。AlibabaBai
百度魔搭社區(qū)提供最新最熱、開放開源的多
領(lǐng)域預(yù)訓(xùn)練模型和優(yōu)質(zhì)數(shù)據(jù)集千帆大模型平臺不僅提供了包括文心一言底層模型和第三方開源大模型,還提
供了各種AI開發(fā)工具和整套開發(fā)環(huán)境子
2.3大模型開源生態(tài)體系的創(chuàng)新主體與創(chuàng)新機(jī)制騰訊云騰訊云TI平臺接入LLama2、Falcon
等
超20個主流模型,支持大模型直接部署
調(diào)用且可全程低代碼操作通過Github等平臺發(fā)布建設(shè)自有平臺技術(shù)流派所用數(shù)據(jù)Decoder-only、encoder-decoder
為主流架構(gòu)>LLaMa
系列單卡版本成為社區(qū)熱點(diǎn)baichuan-7B
大模型已在HuggingFace、Github以及ModelScope平
臺發(fā)布基于Chatbot
生成的問答數(shù)據(jù)集合規(guī)高質(zhì)量數(shù)據(jù)集ChatGLM
開源大模型在Hugging
face、GitHub發(fā)布天工Skywork-13B
系列模型在
GitHub開源
智譜
·AI數(shù)據(jù)來源:github,
甲甲子光年IAZZY
H
A
R112.4.1中國大模型開源生態(tài)體系的競爭格局大模型開源生態(tài)體系由算力層、基礎(chǔ)層、平臺層、應(yīng)用層、安全層構(gòu)成大模型開源生態(tài)體系算力層
GPU算
力
云算力算力數(shù)據(jù)來源:甲子光年智庫,
12甲子光年IAZZ
Y
H
A
RLightGPTBERTLlamaERNIE
1.0Pangu
AlphaQwenGTEMPTGPT-JGPT4AllBERTMPT-30ChatGLMGPT-1FalconGPT-2
DollyXVERSE
GPT-NeoClaireLlamaBloomLMStableCode應(yīng)用層平臺層基礎(chǔ)層AgentLME5-Large-v2MOSSXGenPangu
AlphaERNIE
1.0Distil-WhisperSQLCoderColossal-chatOpenLLaMA13BERNIE1.0Pangu
Alphabaichuan
YiQwenYuan2.0StableDiffusion
XLvacuna
BGEBERTAquilaCodeLLaMA-2-7B-32KBGE
CPM-BeeStarCoder
PythiaDistil-WhisperSkywork-13BERNIE
1.0LlamaQwenLightGPT安全層數(shù)據(jù)來源
大
小
(
G
B
)數(shù)據(jù)源數(shù)據(jù)處理步驟開放數(shù)據(jù)集文本重訓(xùn)練數(shù)據(jù)集BaiDuQA、CAIL2018、Sogou-CA等百
科
數(shù)
據(jù)22.0
百度百科、搜狗百科等百科類數(shù)據(jù)文本去重改進(jìn)模型大數(shù)據(jù)管理平臺
去電
子
書
籍
299.0不同主題的電子書籍,如小說、歷史、敏感詞過濾、基于模型的
詩歌、古文等
文本過濾改進(jìn)模型CommonCrawl
714.92018年1月—2020年12月的Common
Crawl網(wǎng)頁數(shù)據(jù)數(shù)據(jù)清洗、過濾、去重等所有數(shù)據(jù)處理步驟盤古350M)新聞數(shù)據(jù)35.5
1992—2011年的新聞數(shù)據(jù)文本去重模型參數(shù)數(shù)量/億層數(shù)內(nèi)層維度FFN大小頭數(shù)鵬程
·盤
古2.6B263225601024032鵬程
·盤
古
1
3
B1314051202048040鵬程
·盤
古200B2070641638465536128>26億盤古模型動態(tài)剪枝盤古大模型聯(lián)邦剪枝探索模型文件遷移、模型代碼對齊、
并行訓(xùn)練實(shí)現(xiàn)
提示微調(diào)
持續(xù)學(xué)習(xí)pipeline模型壓縮應(yīng)用層
框架移植可持續(xù)學(xué)習(xí)2.4.2中國大模型開源生態(tài)體系代表性廠商———華為口
鵬程:盤古模型是全球首個全開源2000億參數(shù)的自回歸中文預(yù)訓(xùn)練語言大模型,在知識問答、知識檢索、知識推理、閱讀理解等文本生成領(lǐng)鵬程
·盤古——大規(guī)模自回歸中文預(yù)訓(xùn)練語言模型鵬程
·盤古模型中文語料數(shù)據(jù)組成
HUAWEI增加/修改清洗規(guī)則基于模型的數(shù)據(jù)評估
(鵬程
·鵬程·盤古模型的規(guī)模和參數(shù)數(shù)據(jù)來源:甲子光年智庫,增加/修改清洗規(guī)則原始數(shù)據(jù)清洗15個開放數(shù)據(jù)集,如DuReader、甲子光年IAZZY
H
A
R域表現(xiàn)突出。數(shù)據(jù)格式轉(zhuǎn)換、文本去重基礎(chǔ)模型數(shù)據(jù)集垃圾文
本過濾人工評估27.9Transformer
層Query
層132.4.2中國大模型開源生態(tài)體系的代表性廠商——百度
文心大模型——AI應(yīng)用場景全覆蓋口
文心大模型ERNIE
是百度發(fā)布的產(chǎn)業(yè)級知識增強(qiáng)大模型,涵蓋了NLP大模型和跨模態(tài)大模型。2019年3月,百度開源了國內(nèi)首個開源預(yù)訓(xùn)練模型文心ERNIE1.0,此后在語言與跨模態(tài)的理解和生成等領(lǐng)域取得一系列技術(shù)突破,并對外開源與開放了系列模型,助力大模型研究與產(chǎn)BML·AI開發(fā)平臺百度百舸
·AI異構(gòu)計算平臺業(yè)化應(yīng)用發(fā)展。百度智能云千帆大模型平臺大模型通用大模型行業(yè)大模型數(shù)據(jù)管理數(shù)據(jù)集管理數(shù)據(jù)標(biāo)注數(shù)據(jù)清洗數(shù)據(jù)增強(qiáng)數(shù)據(jù)分析百度文心大模型baichuan2
Llama
2Stable
Diffusion
元象Xverse模型調(diào)優(yōu)Post-PretrainingSFTRLHF增強(qiáng)訓(xùn)練訓(xùn)練可視化推理服務(wù)部署推理服務(wù)部署Profile記憶在線測試器統(tǒng)計監(jiān)控Prompt工程預(yù)置Prompt
模板自定義模板自動優(yōu)化批量優(yōu)化模型評估&優(yōu)化模型管理模型評估模型壓縮HuggingFace
Transformers插件庫
插件庫調(diào)試編排千帆AI原生應(yīng)用工作平臺千帆大模型平臺百度文心大模型ERNIE
BotERNIE-ViLG模型廣場大模型工具鏈數(shù)據(jù)來源:百度智能云,日ChatGLMRWKV2.4.2中國大模型開源生態(tài)體系的代表性廠商——阿里云通義干問——持續(xù)進(jìn)化的AI大模型口
通義干問的大語言模型已經(jīng)實(shí)現(xiàn)全尺寸開源——包括18億、70億、140億、720億7個參數(shù),不同規(guī)模和尺寸的模型,可拓寬應(yīng)用場景。通義曉蜜通義靈碼通義星塵通義聽悟通義干問高質(zhì)量數(shù)據(jù)集通義法睿通義仁心通義萬相豐富的行業(yè)知識與生態(tài)通義大模型家族
Alibaba應(yīng)用模型●通義千問14B模
型系列開源·開源Qwen-Agent框架、Qwen-Browser
插件基礎(chǔ)模型領(lǐng)先的算法框架通義點(diǎn)金通義智文●通義千問7B模型系列開源●QWen-7B、QWen-VL數(shù)據(jù)來源:阿里云,甲子·通義千問72B模
型系列即將開源甲子光年IAZZY
H
A
R2023.082023.092023.125大模型訓(xùn)練和應(yīng)用面臨著算力和能耗算力方面的挑戰(zhàn)口
大模型需要大量計算資源,導(dǎo)致全球算力需求指數(shù)級增長,對全社會信息基礎(chǔ)設(shè)施和眾多企業(yè)、科研機(jī)構(gòu)的大模型研發(fā)帶來巨大壓力??谀芎姆矫?,大模型對能源的巨大需求導(dǎo)致人工智能能源消耗占全球能源消耗的3%左右,到2025年將消耗全球15%的電能,給全球環(huán)境治理帶來挑戰(zhàn)。我國大模型發(fā)展帶來的高能耗可能增加碳達(dá)峰、碳中和壓力。算力短缺·
大模型通常需要具有數(shù)十億乃至上萬億個參數(shù),訓(xùn)練時用到
數(shù)萬億個Token,
這就需要消耗巨大的算力。算力需求隨著
大模型的發(fā)展而呈指數(shù)級增長,對全球算力規(guī)模提出了巨大
的要求。大型預(yù)訓(xùn)練模型的訓(xùn)練和調(diào)優(yōu)過程需要消耗巨大的
算力資源。例如,訓(xùn)練ChatGPT
所需的算力相當(dāng)于64個英偉達(dá)A100GPU訓(xùn)練1年的時間。此外,大模型的日常運(yùn)營
和優(yōu)化也需要大量的算力投入。預(yù)計到2030年,全球算力
總規(guī)模將達(dá)到56ZFlops,其中智能算力成為推動算力增長
的主要動力。這對于社會的信息基礎(chǔ)設(shè)施建設(shè)和企業(yè)、科研
機(jī)構(gòu)的大模型研發(fā)都帶來了巨大的挑戰(zhàn)?!?/p>
根據(jù)工信部的數(shù)據(jù),2022年全球智能算力中,美國占45%
的份額,中國占28%的份額,美國智能算力規(guī)模為我國的
1.6倍,在中美算力競爭中,我國仍然處于相對劣勢的一方。能耗巨大·
大模型對算力的巨大需求,帶來了對能源的巨大
消耗。人工智能服務(wù)器的功率較普通服務(wù)器高6至
8倍,訓(xùn)練大模型所需的能耗是常規(guī)云工作的3倍。
據(jù)估計,目前人工智能的能源消耗占全球能源消
耗的3%左右,到2025年,人工智能將消耗全球
15%的電能。人工智能的快速發(fā)展將對能源消耗和環(huán)境產(chǎn)生巨大影響。
據(jù)
估
計
,GPT-4—
次訓(xùn)練的耗電量相當(dāng)于1200個
中國人一年的用電量,僅占模型實(shí)際使用時的40
%,實(shí)際運(yùn)行階段將消耗更多能源。
一些大型模
型運(yùn)行時的碳排放量巨大,給全球環(huán)境治理帶來
挑戰(zhàn)。我國大模型發(fā)展的高能耗可能增加碳達(dá)峰
和碳中和的壓力。2.5大模型企業(yè)發(fā)展面臨的問題與困境(1)數(shù)據(jù)來源:甲子光年智甲子光年IAZ.ZY
HA
R16口
大模型面臨的挑戰(zhàn)包括數(shù)據(jù)獲取便利性、數(shù)據(jù)來源合法性、數(shù)據(jù)質(zhì)量可靠性、數(shù)據(jù)使用安全性、資金投入等方面的挑戰(zhàn)。口資金投入方面,大模型成本高昂,包括模型開發(fā)成本、訓(xùn)練成本、算力成本、數(shù)據(jù)成本、運(yùn)維成本等,對普通企業(yè)和科研機(jī)構(gòu)而言,資金成為難
以逾越的“門檻”。數(shù)據(jù)規(guī)模與質(zhì)量待提高
資金緊缺·
數(shù)據(jù)獲取方面,專用類大模型需要專業(yè)數(shù)據(jù),而這些數(shù)
據(jù)往往屬于企業(yè)、研究機(jī)構(gòu)等實(shí)體,增加了訓(xùn)練難度。●
數(shù)據(jù)來源合法性方面,個人信息保護(hù)意識的提高使得數(shù)
據(jù)合法使用成為問題?!?/p>
數(shù)據(jù)質(zhì)量可靠性方面,開源數(shù)據(jù)集雖然數(shù)量巨大,但質(zhì)
量良莠不齊,從中提取符合預(yù)訓(xùn)練要求的高質(zhì)量數(shù)據(jù)面
臨很大挑戰(zhàn)?!?/p>
數(shù)據(jù)使用安全性方面,如何保證使用的數(shù)據(jù)不帶偏見,
以及如何保證人工智能制造的數(shù)據(jù)本身的安全性,都是
需要解決的問題。·大模型訓(xùn)練開發(fā)成高昂,其成本主要由模型開發(fā)成本、訓(xùn)練成本、算力成本、數(shù)據(jù)成本、運(yùn)維成本等構(gòu)成,僅訓(xùn)練成本便動輒高達(dá)數(shù)百萬美元。
以
Meta
大語音模型LLaMA
為例,在多達(dá)1.4萬億的數(shù)據(jù)集上,使用
2000多個英偉達(dá)A100
GPU,訓(xùn)練了21天,花費(fèi)或高達(dá)1000萬美元。根據(jù)華為公布的消息,開發(fā)和訓(xùn)練一次人工智能大模型的成本高達(dá)
1200萬美元?!?/p>
大模型巨大的資金投入,更是將很多小型研究機(jī)構(gòu)和中小型企業(yè)拒之門
外,導(dǎo)致大模型研發(fā)都集中在頭部企業(yè)和研發(fā)機(jī)構(gòu),加劇了不平等現(xiàn)象?!?/p>
在大模型的投資方面,根據(jù)美國斯坦福大學(xué)2022年的報告,美國和中
國位列全球投資總額的前兩位,但美國的投資是中國的3倍,中國在資
金投入方面還有較大差距。2.5大模型企業(yè)發(fā)展面臨的問題與困境(2)大模型在數(shù)據(jù)和資金方面也面臨著挑戰(zhàn)數(shù)據(jù)來源:甲子光年智口
針對大模型技術(shù),國內(nèi)企業(yè)與歐美國家存在差距,主要體現(xiàn)在底層架構(gòu)設(shè)計和硬件技術(shù)方面。在底層架構(gòu)設(shè)計方面,國內(nèi)尚無類似的底層架構(gòu),
大模型的預(yù)訓(xùn)練方面只能“在別人的地基上蓋房子”;在硬件技術(shù)方面,美國占據(jù)絕對領(lǐng)先地位,我國自研能力不足,對美國進(jìn)口依賴程度高
存在“卡脖子”風(fēng)險???/p>
在人才方面,國內(nèi)大模型人才數(shù)量嚴(yán)重不足,與美國相比頂尖人才數(shù)量少,制約了大模型研發(fā)的快速發(fā)展。具體表現(xiàn)為人才數(shù)量不足、人才質(zhì)量
不夠高和人才外流嚴(yán)重。針對以上挑戰(zhàn),需要加強(qiáng)國內(nèi)大模型技術(shù)的研發(fā),提高自研能力,降低對美國進(jìn)口的依賴程度;同時,需要加強(qiáng)人才培
養(yǎng),提高人才質(zhì)量,減少頂尖人才的流失。大模型技術(shù)涉及軟件和硬件兩方面:·
從軟件技術(shù)看,國內(nèi)企業(yè)與歐美國家存在差距。底層架構(gòu)設(shè)計方面,國內(nèi)
尚無類似谷歌的Transformer
模型,對大模型的預(yù)訓(xùn)練只能依賴外部技術(shù)。
在迭代升級和更新?lián)Q代方面,國內(nèi)企業(yè)也落后于歐美企業(yè),競爭劣勢明顯?!?/p>
從硬件技術(shù)看,在人工智能GPU方面,美國占據(jù)絕對領(lǐng)先地位,我國自研
能力不足,對進(jìn)口依賴較高,存在風(fēng)險。當(dāng)前大部分大模型訓(xùn)練所用的GPU
由美國英偉達(dá)公司生產(chǎn),國產(chǎn)GPU
與其性能差距明顯。美國已禁止向
中國銷售A100,而英偉達(dá)推出了性能更強(qiáng)的H100,并將優(yōu)先部署在自家
服務(wù)器上。國內(nèi)大模型人才數(shù)量嚴(yán)重不足,與美國相比頂尖人才數(shù)量少,制約了大模型研發(fā)發(fā)展?!?/p>
首先,人才數(shù)量嚴(yán)重不足。我國人工智能人才缺口超過500萬,供需比例嚴(yán)重失衡,
人工智能成為“最缺人”的行業(yè)?!?/p>
其次,人才質(zhì)量不夠高。與美國相比,國內(nèi)缺乏頂尖算法人才,數(shù)量嚴(yán)重不足。美
國在全球最具影響力的人工智能學(xué)者榜單中占據(jù)主導(dǎo)地位,中國學(xué)者數(shù)量遠(yuǎn)遠(yuǎn)落后?!?/p>
此外,人才外流問題也十分嚴(yán)重。許多國內(nèi)優(yōu)秀人才選擇出國深造并留在國外,導(dǎo)來
人才的流失。這加大了國內(nèi)大模型研發(fā)與美國的差距,給我國大模型研發(fā)帶2.5大模型企業(yè)發(fā)展面臨的問題與困境(3)大模型發(fā)展在技術(shù)和人才方面也面臨著挑戰(zhàn)數(shù)據(jù)來源:甲子光年智庫,甲子光年I
A
Z
Z
Y
h
A
R嚴(yán)峻18Part
02
人工智能大模型的開源生態(tài)體系分析Part
05
人工智能開源大模型典型商業(yè)化案例及未來展望Part
01
發(fā)展人工智能產(chǎn)業(yè)的重要性與新機(jī)遇Part
04
開源大模型生態(tài)建設(shè)的成功經(jīng)驗(yàn)與典型案例Part
03
人工智能開源大模型的創(chuàng)投情況分析目
錄CON下ENTS甲子光年JAZ
ZY
I
A
R3.1人工智能開源大模型的投資現(xiàn)狀甲子光年IAZZ
Y
H
A
R閉源大模型融資遠(yuǎn)高于開源大模型融資大模型資本市場融資情況閉源大模型融資規(guī)模(億美元)
開源大模型融資規(guī)模(億美元)*—些開模型廠商可能提供其模型的開源版本,但保留其核心模型的專有權(quán)*不包括沒有融資的開源開發(fā)者時間截止:2024年6月13日時間截止:2024年6月13日76
3.963.45OpenAI
Anthropic
Inflection
Moonshot
cohere
minimax
baichuan
ADEPTAI1407.56Mistral
AIHugging
Face智譜AIstability.aitogether.aimosaicML數(shù)據(jù)來源:甲子光年智庫,9.19
8.54.150.3715.251.231.512012575
生成式AI-大型語言模型開發(fā)269.2618
生成式AI-圖像模型開發(fā)142.1151
AI發(fā)展平臺93.0625
機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)管理7.9124
特征存儲與管理6.3457模型驗(yàn)證和監(jiān)控
5.8625
大模型應(yīng)用開發(fā)
5.4123
聯(lián)邦學(xué)習(xí)平臺
4.3829開源版本控制和實(shí)驗(yàn)跟蹤
4.2227硬件感知優(yōu)化
3.6317
向量數(shù)據(jù)庫
3.5128
模型部署與服務(wù)
2.4244
表格與文本合成訓(xùn)練數(shù)據(jù)2.1231
多媒體合成訓(xùn)練數(shù)據(jù)1.6813
算法審計與風(fēng)險管理0.35時間截止:2023年10月27日數(shù)據(jù)來源:CB
Insights,
21開源模型總?cè)谫Y事件數(shù)量和融資規(guī)模融資事件數(shù)量(件)3.2人工智能開源大模型的重點(diǎn)投資領(lǐng)域融資規(guī)模(億美元)保護(hù)知識產(chǎn)權(quán)和法律支持1提供知識產(chǎn)權(quán)保護(hù)和法律支持,幫助
開發(fā)者和組織解決知識產(chǎn)權(quán)相關(guān)的問
題和法律風(fēng)險,鼓勵創(chuàng)新和技術(shù)的持
續(xù)發(fā)展。當(dāng)然,還有其他一些開源基
金會在推動大模型生態(tài)建設(shè)方面發(fā)揮
的作用口
開源基金會將有助于解決模型生態(tài)所遇到的挑戰(zhàn),促進(jìn)Al生態(tài)發(fā)展完善???/p>
開源基金會可以提供資金、技術(shù)、人才等方面的支持,幫助解決模型生態(tài)所遇到的挑戰(zhàn),促進(jìn)AI生態(tài)發(fā)展完善。促進(jìn)AI生態(tài)發(fā)展完善。例如,開
源基金會可以資助大模型研發(fā),提供技術(shù)支持,吸引頂尖人才,推動大模型技術(shù)的發(fā)展???/p>
開源基金會還可以促進(jìn)不同企業(yè)和研究機(jī)構(gòu)之間的合作,共同解決模型生態(tài)所遇到的挑戰(zhàn),推動AI生態(tài)的發(fā)展和完善。3.3開源基金會對推動大模型生態(tài)建設(shè)的作用開源基金會將有助于解決模型生態(tài)所遇到的挑戰(zhàn),促進(jìn)Al生態(tài)發(fā)展完善5
資金支持提供資金支持,通過資助項(xiàng)目、研究和開發(fā)者,促進(jìn)大模型的創(chuàng)新和發(fā)展。這些資金可以用于設(shè)備采購、研究經(jīng)
費(fèi)、人員招聘等方面,幫助開發(fā)者專
注于大模型的研究和應(yīng)用。人才教育與培訓(xùn)提供教育和培訓(xùn)資源,幫助開發(fā)者和研究者掌握大模型的相關(guān)技術(shù)和工具。這有助于提高人才的技術(shù)水平和創(chuàng)新
能力,推動大模型生態(tài)系統(tǒng)的培養(yǎng)和
發(fā)展??缃绾献髋c創(chuàng)新應(yīng)用開源基金會鼓勵不同領(lǐng)域的交叉合作,
例如與學(xué)術(shù)界、產(chǎn)業(yè)界和社會組織等
的合作。通過跨界合作,可以加速大
模型在各個領(lǐng)域的應(yīng)用和推廣,促進(jìn)
技術(shù)的跨界融合和創(chuàng)新。推動標(biāo)準(zhǔn)和規(guī)范推動制定相關(guān)的標(biāo)準(zhǔn)和規(guī)范,例如模型格式、訓(xùn)練流程和模型評估等方面
的標(biāo)準(zhǔn)化。這有助于提高模型的互操
作性和可重復(fù)性,并促進(jìn)生態(tài)系統(tǒng)的
健康發(fā)展。安全和隱私保護(hù)鼓勵開發(fā)者遵循最佳實(shí)踐,確保模型
的安全性和隱私保護(hù)。通過提供安全審計、漏洞修復(fù)和隱私保護(hù)指南等支
持,開源基金會幫助保護(hù)用戶和組織
的利益。提供技術(shù)支持和資源為大模型開發(fā)者和研究者提供技術(shù)支
持和資源,包括開源工具、框架和庫
等。這些資源可以幫助開發(fā)者更高效
地構(gòu)建和訓(xùn)練大模型,加速生態(tài)系統(tǒng)
的發(fā)展。促進(jìn)合作與共享開源基金會鼓勵開發(fā)者和組織之間的合作與共享。通過共同開發(fā)和分享模
型、數(shù)據(jù)集、算法和最佳實(shí)踐,可以
加速大模型的研究和應(yīng)用,并促進(jìn)創(chuàng)
新。數(shù)據(jù)來源:甲子光年智庫,甲子光年IAZ.ZYH
A
R78423622Part
02
人工智能大模型的開源生態(tài)體系分析Part
05
人工智能開源大模型典型商業(yè)化案例及未來展望Part
03
人工智能開源大模型的創(chuàng)投情況分析Part
04開源大模型生態(tài)建設(shè)的成功經(jīng)驗(yàn)與典型案例Part
01
發(fā)展人工智能產(chǎn)業(yè)的重要性與新機(jī)遇目
錄CON
下ENTS
23北京·
智普Al:ChatGLM·
百川智能:baichuan·春田知韻(抖音):BuboGPT·
面壁智能:CPM-Bee·
昆侖萬維:SkyWork天工,Skywork-MoE·
浪潮信息:源2.0·零一萬物:Yi,Yi-1.5,Yi-VL·
智源:智源悟道·
天鷹Aquila
7B·
中科聞歌:雅意2上?!ど虾ILab:書生
·浦語,OpenMEDLab·
復(fù)
旦
大
學(xué):
M
O
S
S浙江·
阿里巴巴:Qwen,Qwen-1.5,Qwen-1.5-110B·深度求索:Deepseek
Coder廣東·騰訊:Hunyuan-DiT·
元象:XVERSE4.1大模型產(chǎn)品數(shù)量與區(qū)域分布情況分析國產(chǎn)大模型主要分布在北京、長三角和珠三角區(qū)域國產(chǎn)開源大模型(部分)數(shù)據(jù)來源:github,
甲子)24口據(jù)統(tǒng)計,截至2024年6月,我國10億參數(shù)規(guī)模以上的大模型廠商及高校院所共計254家,分布于20余省市/地區(qū),其中北京有122家,數(shù)量居全國首位,約占全國的一半按模型類型分析,北京擁有通用大模型廠商及高校院所37家,占比30%,以百度、智譜華章、百川智能等為代表;行
業(yè)大模型85家,以第四范式、云知聲、遠(yuǎn)科技等為代表???/p>
北京大模型的廠商及高校院所可大致分為四類:·人工智能領(lǐng)域的頭部企業(yè),以百度、抖音、360等為代表,在數(shù)據(jù)、技術(shù)、工程化、場景、資金等多方面具備優(yōu)勢。·人工智能領(lǐng)域的高校和科研機(jī)構(gòu),清華大學(xué)、智源研究院、中國科學(xué)院等單位的基礎(chǔ)研究實(shí)力強(qiáng),聚焦技術(shù)創(chuàng)新引領(lǐng)。人工智能領(lǐng)域的獨(dú)角獸企業(yè)和初創(chuàng)公司,其中智譜華章、云知聲、曠視等AI
獨(dú)角獸企業(yè),已跑通自研大模型的閉環(huán)全流程,可提供MaS
模式的AI解決方案:百川智能、零一萬物、銜遠(yuǎn)科技等
Al大模型初創(chuàng)公司,迅速布局入場激發(fā)大模型創(chuàng)新活力。·傳統(tǒng)大數(shù)據(jù)系統(tǒng)開發(fā)企業(yè),以拓爾思、中科聞歌為代表,通過其行業(yè)數(shù)據(jù)積累,推出面向媒體、金融、政務(wù)等領(lǐng)域的定制化行業(yè)大模型,率先搶占行業(yè)應(yīng)用市場北京開源大模型領(lǐng)域典型企業(yè)/機(jī)構(gòu)BAAl
BGE
AltCLIP
百川智能
baichuan
百度
ERNIE文心一言AquilaAltDiffusion大語言模型多模態(tài)大模型向量大模型
編程大模型AIAgent4.2.1北京大模型開源大模型生態(tài)發(fā)展情況北京占中國大模型市場的半壁江山WizardCoderWizardMath北京大學(xué)WizardLM清華大學(xué)/智普AIChatGLMVisCPMAgentVerseAgentLMVisualGLMCodeGeeXCogVLM面壁智能ChatDEVCPM-BeeXAgent數(shù)據(jù)來源:甲子光年智庫,甲子光年IAZZ
Y
H
A
R254.2.2北京大模型開源社區(qū)的典型經(jīng)驗(yàn)分析北京是國內(nèi)開源大模型生態(tài)發(fā)展較為領(lǐng)先的區(qū)域社區(qū)合作與共享經(jīng)驗(yàn)大模型開源社區(qū)的核心理念是合作和共享。社區(qū)成員可以通過協(xié)作開發(fā)項(xiàng)目、分享經(jīng)驗(yàn)和解決問題來共同推動大模型技術(shù)的發(fā)展。通過分析社區(qū)成員之間的合作模式和共享經(jīng)驗(yàn)的方式,可以了解到社區(qū)成員之間的互動和協(xié)作方式,以及他們?nèi)绾喂餐苿哟竽P烷_源社區(qū)的發(fā)展?!?/p>
●●●·近年來,開源模型在人工智能領(lǐng)域迅速崛起,具有更好的透明度和可信賴性。盡管開源模型仍面臨數(shù)據(jù)瓶頸和商業(yè)化的挑戰(zhàn),但隨著更多企業(yè)開源其模型,開源社區(qū)有望在數(shù)
據(jù)建立和模型發(fā)展方面取得更大突破。近期,Llama2
項(xiàng)目引起廣泛關(guān)注,開源社區(qū)參與者背景發(fā)生變化,商業(yè)公司也開始與開源社區(qū)合作?!ぴ谀P图夹g(shù)方面,大家關(guān)注點(diǎn)集中在模型大小、強(qiáng)度和商業(yè)化上。開源社區(qū)是開源項(xiàng)目從商業(yè)角度區(qū)別于其他商業(yè)模式的核心點(diǎn),使?jié)撛诘拿赓M(fèi)用戶變成社區(qū)的貢獻(xiàn)者,產(chǎn)生
價值。國內(nèi)互聯(lián)網(wǎng)大廠有技術(shù)能力,但語言壁壘限制了其在全球范圍內(nèi)的應(yīng)用。未來開源社區(qū)將解決語言壁壘,實(shí)現(xiàn)跨語言合作,國內(nèi)社區(qū)將得到進(jìn)
一
步發(fā)展。開源項(xiàng)目和貢獻(xiàn)大模型開源社區(qū)是一個開源項(xiàng)目的孵化和貢獻(xiàn)平臺。社區(qū)成員
可以通過參與開源項(xiàng)目的開發(fā)和貢獻(xiàn)來推動大模型技術(shù)的發(fā)展。
通過分析社區(qū)成員參與開源項(xiàng)目的方式和貢獻(xiàn)的內(nèi)容,可以了
解到社區(qū)成員對于開源項(xiàng)目的貢獻(xiàn)和參與程度,以及他們?nèi)绾?/p>
通過開源項(xiàng)目來推動大模型技術(shù)的發(fā)展。技術(shù)交流和分享大模型開源社區(qū)是一個技術(shù)交流和分享的平
臺。社區(qū)成員可以通過技術(shù)演講、技術(shù)文章、
技術(shù)討論等方式分享自己的經(jīng)驗(yàn)和見解。通
過分析社區(qū)成員的技術(shù)交流和分享方式,可
以了解到社區(qū)成員之間的技術(shù)交流和學(xué)習(xí)方
式,以及他們?nèi)绾瓮ㄟ^分享經(jīng)驗(yàn)來促進(jìn)大模
型技術(shù)的發(fā)展。社區(qū)治理和組織大模型開源社區(qū)需要一定的治理和組織機(jī)制
來保證社區(qū)的正常運(yùn)行和發(fā)展。通過分析社
區(qū)的治理和組織機(jī)制,可以了解到社區(qū)成員
如何參與社區(qū)的決策和管理,以及他們?nèi)绾?/p>
通過社區(qū)的治理和組織機(jī)制來推動大模型技
術(shù)的發(fā)展。百川智能智源人工智能研究院面壁智能浪潮信息智
普AI數(shù)據(jù)來源:甲子光年智庫,甲子光年IAZZ
Y
H
A
R26開源社區(qū)組織架構(gòu)·
智源研究院與多家產(chǎn)學(xué)研單位共同構(gòu)建了大模型開源開放軟件體系FlagOpen,
這顯示了其開源社區(qū)的合作性組織架
構(gòu),旨在推動大模型軟硬件生態(tài)的建設(shè)。FlagEval
(天秤)大語言評測體系及開放平臺是「科技創(chuàng)
新2030」旗艦項(xiàng)目重要課題,合作共建單位包括北大、北
航、北師大、北郵、閩江學(xué)院、南開等高校和中科院自動
化所、中國電子技術(shù)標(biāo)準(zhǔn)化研究院等科研院所,定期發(fā)布
權(quán)威評測榜單。重點(diǎn)應(yīng)用領(lǐng)域智源研究院的大模型技術(shù)主要應(yīng)用于語言、視覺、多模
態(tài)等基礎(chǔ)大模型領(lǐng)域。例如,"悟道
·天鷹Aquila"語言大模型支持中英雙語知識,
"悟道·視界"視覺大模型系列解決了計算機(jī)視覺領(lǐng)域的一
系列瓶頸問題4.3智源人工智能研究院大模型開源社區(qū)的典型經(jīng)驗(yàn)分析智源人工智能研究院
(BAAl)FlagEval面向大規(guī)?;A(chǔ)模型的一體化評測平臺Flag
AI集大模型算法和工具為一體的一站式開源大模型軟件體系FlagVision面向通用機(jī)器視覺的開源基礎(chǔ)模型FlagPerf面向AI異構(gòu)芯片的一體化基準(zhǔn)
性能評測引擎數(shù)據(jù)來源:BAAI,
甲
子
光
投融資情況·
北京智源人工
智能研究是非
盈利研發(fā)機(jī)構(gòu)?!?/p>
根據(jù)其非營利
機(jī)構(gòu)性質(zhì),智
源研究院可能
主要依賴于政
府資助、科研
項(xiàng)目經(jīng)費(fèi)和行
業(yè)合作來支持
其運(yùn)營和研發(fā)
活動。開源生態(tài)布局智源研究院推出了包括FlagAI、FlagPerf、FlagEval、FlagData、FlagBoot
和
FlagStudio
在內(nèi)的FlagOpen(飛智)大模型技術(shù)開源體系,
旨在支持多種深度學(xué)習(xí)框架和AI芯片,降低大模型開發(fā)的難度,助力全球開發(fā)者開展各種大模型的開發(fā)和研究工作生態(tài)研發(fā)主體是以其自身為核心,聯(lián)合國內(nèi)外的研究機(jī)構(gòu)和企
業(yè)共同推進(jìn)的。智源研究院致力于構(gòu)建以大模型
為核心的生態(tài)系統(tǒng),這不僅包括底層數(shù)據(jù)處理和
匯聚、模型能力和算法評測,還包括開源開放的
生態(tài)布局運(yùn)營模式運(yùn)營模式側(cè)重于構(gòu)建以大模型為核心的生態(tài),
這包括底層數(shù)據(jù)處理和匯聚、模型能力和算法
評測、開源開放,形成一套高效的大模型技術(shù)
和算法體系FlagStudio利用人工智能大模型支持藝術(shù)創(chuàng)作應(yīng)用FlagBoot基于Scala開發(fā)的輕量級高
并發(fā)微服務(wù)框架FlagData面向大模型研究領(lǐng)域的高
效易用數(shù)據(jù)處理工具包北京智源3
人
人甲子光年IAZZY
H
A
R投融資情況融資額3億美元5000萬美
元投資方阿里巴巴、騰訊投資、小米集團(tuán)、心資本、愉悅資本騰訊、小米、金山、慕華資本、清華大學(xué)資產(chǎn)管理有限公司、好未來、漢策資本、深創(chuàng)投、紅點(diǎn)中國、卓源資本、眾為資本、愉悅資本、順為資本、心資本等十余家聯(lián)合投資開源生態(tài)布局百川智能開源大模型生態(tài)已經(jīng)建立了較為完善的開源生態(tài)布
局。在模型庫方面,百川智能已經(jīng)開源了多個大模型,包括
70億參數(shù)量的Baichuan2-7B
和130億參數(shù)量的Baichuan2-13B等。這些模型的數(shù)據(jù)來自萬億互聯(lián)網(wǎng)數(shù)據(jù)和垂直行業(yè)中的
數(shù)據(jù),并且訓(xùn)練的規(guī)模高達(dá)2.6TB。同時,百川智能還對模型
訓(xùn)練進(jìn)行了優(yōu)化,使得在千卡A800
集群中的訓(xùn)練性能達(dá)到了
180TFLOPS,并且機(jī)器利用率超過50%。時間2023年10月Baichuan2-13BBaichuan2-13B開源可商用
低成本部署
多語言Baichuan2-7BBaichuan2-7B開源可商用
低成本部署
多語言2
0
2
3
年
5
月
天使輪130億
模型參數(shù)量2.6T多語言語料4K大尺寸上下文70億
模型參數(shù)量2.6T多語言語料4K大尺寸上下文百川智能BAICHUANAI開源社區(qū)組織架構(gòu)百川智能開源大模型生態(tài)的開源社區(qū)組織架構(gòu)包
括多個技術(shù)委員會、工作委員會和咨詢委員會等。這些委員會由來自不同領(lǐng)域和行業(yè)的專家和開發(fā)
者組成,負(fù)責(zé)技術(shù)決策、項(xiàng)目管理、社區(qū)運(yùn)營等
方面的工作。同時,百川智能還積極與合作伙伴、企業(yè)、科研機(jī)構(gòu)等合作,共同打造各領(lǐng)域和行業(yè)
的大模型,推動大模型的開源與應(yīng)用。重點(diǎn)應(yīng)用領(lǐng)域百川智能開源大模型生態(tài)的重點(diǎn)應(yīng)用領(lǐng)域包括互聯(lián)網(wǎng)、金融、醫(yī)療、教育等。這些領(lǐng)域?qū)Υ竽P偷男枨髲?qiáng)烈,通過應(yīng)
用大模型可以提高效率、優(yōu)化流程、改
善用戶體驗(yàn)等。百川智能的大模型也對中、英、西、法
等幾十種語言提供支持,主要應(yīng)用于學(xué)
術(shù)研究、互聯(lián)網(wǎng)和金融領(lǐng)域。4.4百川智能大模型開源社區(qū)的典型經(jīng)驗(yàn)分析
甲子光年百川智能生態(tài)研發(fā)主體百川智能開源大模型生態(tài)的研發(fā)主體主要是百
川智能公司。百川智能是一家專注于自然語言
處
理
(NLP)和深度學(xué)習(xí)技術(shù)的創(chuàng)新型公司,
擁有豐富的研發(fā)經(jīng)驗(yàn)和專業(yè)技術(shù)團(tuán)隊(duì),能夠?yàn)?/p>
大模型的研發(fā)和優(yōu)化提供強(qiáng)大的技術(shù)支持。運(yùn)營模式百川智能開源大模型生態(tài)采用開放、協(xié)作、共贏的運(yùn)營模式。
參與者可以通過開源社區(qū)共同開發(fā)和優(yōu)化大模型,共享資源,
互相學(xué)習(xí),提高研發(fā)效率和應(yīng)用效果。同時,百川智能還通
過與合作伙伴、企業(yè)、科研機(jī)構(gòu)等合作,共同打造各領(lǐng)域和
行業(yè)的大模型,推動大模型的開源與應(yīng)用。數(shù)據(jù)來源:百川智能,甲于輪次A1輪IA
Z.Z
Y
H
A
R28Part
02
人工智能大模型的開源生態(tài)體系分析Part
03
人工智能開源大模型的創(chuàng)投情況分析Part05
人工智能開源大模型典型商業(yè)化案例及未來展望Part
04
開源大模型生態(tài)建設(shè)的成功經(jīng)驗(yàn)與典型案例Part
01
發(fā)展人工智能產(chǎn)業(yè)的重要性與新機(jī)遇目
錄CO
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度城市更新項(xiàng)目合作建房合同樣本
- 2025年度智慧城市建設(shè)項(xiàng)目貸款保證合同
- 2025年度數(shù)字廣告平臺合作推廣合同范本
- 2025年度綠色生態(tài)農(nóng)業(yè)綜合開發(fā)借款合同0223(2024版)
- 2025年度風(fēng)力發(fā)電場電氣設(shè)備安裝與運(yùn)維合同
- 2025年度公共衛(wèi)生檢驗(yàn)檢測中心合作框架合同
- 2025年度建筑門窗節(jié)能改造項(xiàng)目合同
- 2025年度架子工工程臨時設(shè)施搭建與合同管理
- 2025年人工智能技術(shù)研發(fā)與應(yīng)用咨詢費(fèi)用合同
- 2025年度智能化設(shè)備質(zhì)押融資合同
- Unit 2 We're going to do some research(教案)-2023-2024學(xué)年湘少版(三起)英語五年級下冊
- 緊密型縣域醫(yī)療衛(wèi)生共同體慢病管理中心運(yùn)行指南試行等15個指南
- 基金應(yīng)知應(yīng)會專項(xiàng)考試題庫(證券類190題)附有答案
- 快速入門穿越機(jī)-讓你迅速懂穿越機(jī)
- 水利安全生產(chǎn)風(fēng)險防控“六項(xiàng)機(jī)制”右江模式經(jīng)驗(yàn)分享
- 幼兒園衛(wèi)生保健開學(xué)培訓(xùn)
- 食材配送服務(wù)售后服務(wù)方案
- 新目標(biāo)(goforit)版初中英語九年級(全一冊)全冊教案-unit
- 《如何做一名好教師》課件
- 2016-2023年婁底職業(yè)技術(shù)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 貴陽市2024年高三年級適應(yīng)性考試(一)一模英語試卷(含答案)
評論
0/150
提交評論