




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
證券研究報(bào)告科技AI
大模型需要什么樣的數(shù)據(jù)華泰研究電子通信研究員增持
(維持)增持
(維持)2023
年
5
月
11
日│中國內(nèi)地專題研究黃樂平,PhD數(shù)據(jù)是大模型競爭關(guān)鍵要素之一,關(guān)注中國
AI
大模型數(shù)據(jù)發(fā)展SACNo.S0570521050001
leping.huang@SFCNo.
AUZ066+(852)36586000AI
的突破得益于高質(zhì)量數(shù)據(jù),我們認(rèn)為數(shù)據(jù)是大模型競爭關(guān)鍵要素之一:1)訓(xùn)練大模型需要高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集;2)優(yōu)質(zhì)中文數(shù)據(jù)集稀缺,數(shù)字中國戰(zhàn)略將促進(jìn)數(shù)據(jù)要素市場完善,助力數(shù)據(jù)集發(fā)展。近期歐洲議會(huì)議員《人工智能法案》提案、網(wǎng)信辦《生成式人工智能服務(wù)管理辦法(征求意見稿)》對(duì)大模型訓(xùn)練數(shù)據(jù)的版權(quán)披露、合法性提出要求,對(duì)于數(shù)據(jù)產(chǎn)業(yè)鏈的投資機(jī)會(huì),我們認(rèn)為:1)數(shù)據(jù)資產(chǎn)儲(chǔ)備公司的商業(yè)化進(jìn)程值得關(guān)注;2)行業(yè)數(shù)據(jù)價(jià)值高,具有優(yōu)質(zhì)數(shù)據(jù)和一定大模型能力的公司或通過行業(yè)大模型賦能業(yè)務(wù);3)關(guān)注卡位優(yōu)質(zhì)客戶、技術(shù)降低人力成本的數(shù)據(jù)服務(wù)企業(yè)。研究員余熠yuyi@+(86)75582492388SACNo.S0570520090002SFCNo.BNC535聯(lián)系人權(quán)鶴陽quanheyang@+(86)2128972228SACNo.S0570122070045聯(lián)系人王珂SACNo.S0570122080148
wangke020520@+(86)2128972228海外開源數(shù)據(jù)集積累豐富,合成數(shù)據(jù)或?qū)⒕徑飧哔|(zhì)量數(shù)據(jù)耗盡隱憂我們梳理了海外主要的開源語言和多模態(tài)數(shù)據(jù)集,主要的發(fā)布方包括高校、互聯(lián)網(wǎng)巨頭研究部門、非盈利研究組織以及政府機(jī)構(gòu)。我們認(rèn)為海外積累豐富的開源高質(zhì)量數(shù)據(jù)集得益于:1)相對(duì)較好的開源互聯(lián)網(wǎng)生態(tài);2)免費(fèi)線上書籍、期刊的長期資源積累;3)學(xué)術(shù)界、互聯(lián)網(wǎng)巨頭研究部門、非盈利研究組織及其背后的贊助基金形成了開放數(shù)據(jù)集、發(fā)表論文-被引用的開源氛圍。然而,高質(zhì)量語言數(shù)據(jù)或于
2026
年耗盡,AI
合成數(shù)據(jù)有望緩解數(shù)據(jù)耗盡的隱憂,Gartner
預(yù)測(cè)
2030
年大模型使用的絕大部分?jǐn)?shù)據(jù)或由
AI
合成。行業(yè)走勢(shì)圖電子通信(%)57滬深3004022中文開源數(shù)據(jù)集數(shù)量少、規(guī)模小,看好數(shù)字中國戰(zhàn)略激活數(shù)據(jù)要素產(chǎn)業(yè)鏈與國外類似,國內(nèi)大模型的訓(xùn)練數(shù)據(jù)包括互聯(lián)網(wǎng)爬取數(shù)據(jù)、書籍期刊、公司自有數(shù)據(jù)以及開源數(shù)據(jù)集等。就開源數(shù)據(jù)集而言,國內(nèi)外的發(fā)布方都涵蓋高校、互聯(lián)網(wǎng)巨頭、非盈利機(jī)構(gòu)等組織。但國內(nèi)開源數(shù)據(jù)集數(shù)量少、規(guī)模小,因此國內(nèi)大模型訓(xùn)練往往使用多個(gè)海外開源數(shù)據(jù)集。國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的原因在于:1)高質(zhì)量數(shù)據(jù)集需要高資金投入;2)相關(guān)公司開源意識(shí)較低;3)學(xué)術(shù)領(lǐng)域中文數(shù)據(jù)集受重視程度低。看好數(shù)字中國戰(zhàn)略助力國內(nèi)數(shù)據(jù)集發(fā)展:1)各地?cái)?shù)據(jù)交易所設(shè)立運(yùn)營提升數(shù)據(jù)資源流通;2)數(shù)據(jù)服務(wù)商鏈接數(shù)據(jù)要素產(chǎn)業(yè)鏈上下游,激活數(shù)據(jù)交易流通市場,提供更多樣化的數(shù)據(jù)產(chǎn)品。5(13)May-22Sep-22Jan-23May-23資料來源:Wind,華泰研究數(shù)據(jù)產(chǎn)業(yè)鏈投資機(jī)會(huì):關(guān)注數(shù)據(jù)生產(chǎn)與處理環(huán)節(jié)數(shù)據(jù)產(chǎn)業(yè)鏈包括生產(chǎn)、處理等環(huán)節(jié)。我們認(rèn)為數(shù)據(jù)生產(chǎn)可以分為通用數(shù)據(jù)和行業(yè)數(shù)據(jù):1)海外主要數(shù)據(jù)集的通用數(shù)據(jù)來自維基、書籍期刊、高質(zhì)量論壇,國內(nèi)相關(guān)公司包括文本領(lǐng)域的百度百科、中文在線、中國科傳、知乎等,以及視覺領(lǐng)域的視覺中國等。2)數(shù)據(jù)是垂直行業(yè)企業(yè)的護(hù)城河之一,相關(guān)公司包括城市治理和
ToB
行業(yè)應(yīng)用領(lǐng)域的中國電信、中國移動(dòng)、中國聯(lián)通,CV
領(lǐng)域的??怠⒋笕A等。數(shù)據(jù)處理環(huán)節(jié),模型研發(fā)企業(yè)的外包需求強(qiáng)烈,利好卡位優(yōu)質(zhì)客戶、技術(shù)賦能降低人力成本的數(shù)據(jù)服務(wù)企業(yè),如
Appen、Telus
International、Scale
AI。隱私保護(hù):監(jiān)管與技術(shù)手段并舉個(gè)人數(shù)據(jù)的采集、存儲(chǔ)和處理引發(fā)了對(duì)于
AI
時(shí)代數(shù)據(jù)隱私保護(hù)的關(guān)注。隱私保護(hù)可從監(jiān)管、技術(shù)角度著手:1)監(jiān)管:全球各地區(qū)出臺(tái)相關(guān)法律法規(guī),例如《中華人民共和國個(gè)人信息保護(hù)法》、歐盟《通用數(shù)據(jù)保護(hù)條例》等。2)技術(shù):隱私保護(hù)計(jì)算在不泄露原始數(shù)據(jù)的前提下,對(duì)數(shù)據(jù)進(jìn)行處理和使用。風(fēng)險(xiǎn)提示:AI
及技術(shù)落地不及預(yù)期;本研報(bào)中涉及到未上市公司或未覆蓋個(gè)股內(nèi)容,均系對(duì)其客觀公開信息的整理,并不代表本研究團(tuán)隊(duì)對(duì)該公司、該股票的推薦或覆蓋。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。1科技正文目錄AI
大模型需要什么樣的數(shù)據(jù)集......................................................................................................................................5數(shù)據(jù)將是未來
AI
大模型競爭的關(guān)鍵要素...............................................................................................................5數(shù)據(jù)集如何產(chǎn)生.....................................................................................................................................................7他山之石#1:海外主要大語言模型數(shù)據(jù)集
............................................................................................................9數(shù)據(jù)集#1:維基百科
.....................................................................................................................................9數(shù)據(jù)集#2:書籍
..........................................................................................................................................10數(shù)據(jù)集#3:期刊
..........................................................................................................................................10數(shù)據(jù)集#4:WebText(來自
鏈接)..................................................................................................11數(shù)據(jù)集#5:Commoncrawl/C4....................................................................................................................13其他數(shù)據(jù)集
..................................................................................................................................................13他山之石#2:海外主要多模態(tài)數(shù)據(jù)集..................................................................................................................14類別#1:語音+文本.....................................................................................................................................14類別#2:圖像+文本.....................................................................................................................................15類別#3:視頻+圖像+文本
...........................................................................................................................16類別#4:圖像+語音+文本
...........................................................................................................................17類別#5:視頻+語音+文本
...........................................................................................................................17他山之石#3:海外主要大模型數(shù)據(jù)集由何方發(fā)布................................................................................................18高質(zhì)量語言數(shù)據(jù)和圖像數(shù)據(jù)或?qū)⒑谋M,合成數(shù)據(jù)有望生成大模型數(shù)據(jù)
...............................................................19數(shù)字中國戰(zhàn)略助力中國
AI
大模型數(shù)據(jù)基礎(chǔ)發(fā)展
.........................................................................................................22中國
AI
大模型數(shù)據(jù)集從哪里來
...........................................................................................................................22中國大模型如何構(gòu)建數(shù)據(jù)集#1:LLM..........................................................................................................24中國大模型如何構(gòu)建數(shù)據(jù)集#2:多模態(tài)大模型
...........................................................................................25中國開源數(shù)據(jù)集#1:大語言模型數(shù)據(jù)集
......................................................................................................26中國開源數(shù)據(jù)集#2:多模態(tài)模型數(shù)據(jù)集
......................................................................................................30國內(nèi)數(shù)據(jù)要素市場建設(shè)逐步完善,助力優(yōu)質(zhì)數(shù)據(jù)集生產(chǎn)流通..............................................................................32數(shù)據(jù)交易環(huán)節(jié):數(shù)據(jù)交易所發(fā)展進(jìn)入新階段,緩解中文數(shù)據(jù)集數(shù)量不足問題.............................................34數(shù)據(jù)加工環(huán)節(jié):數(shù)據(jù)服務(wù)產(chǎn)業(yè)加速發(fā)展,助力中文數(shù)據(jù)集質(zhì)量提升
...........................................................35AI
時(shí)代數(shù)據(jù)的監(jiān)管與隱私保護(hù)問題
............................................................................................................................37數(shù)據(jù)產(chǎn)業(yè)鏈投資機(jī)會(huì)...................................................................................................................................................39數(shù)據(jù)生產(chǎn)環(huán)節(jié)
......................................................................................................................................................39數(shù)據(jù)處理環(huán)節(jié)
......................................................................................................................................................40風(fēng)險(xiǎn)提示..............................................................................................................................................................40免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。2科技圖表目錄圖表
1:
更高質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)是
GPT模型成功的驅(qū)動(dòng)力;而除模型權(quán)重變化之外,模型架構(gòu)保持相似.....5圖表
2:
以數(shù)據(jù)為中心的
AI:模型不變,通過改進(jìn)數(shù)據(jù)集質(zhì)量提升模型效果
............................................................5圖表
3:
以數(shù)據(jù)為中心的
AI:工作流拆解...................................................................................................................6圖表
4:
數(shù)據(jù)標(biāo)注基本流程
.........................................................................................................................................7圖表
5:
數(shù)據(jù)采集三種常見方式..................................................................................................................................7圖表
6:
缺失數(shù)據(jù)的處理方法
.....................................................................................................................................8圖表
7:
三大類數(shù)據(jù)標(biāo)注.............................................................................................................................................8圖表
8:
各數(shù)據(jù)標(biāo)注質(zhì)量評(píng)估算法對(duì)比.......................................................................................................................9圖表
9:
大語言模型數(shù)據(jù)集綜合分析...........................................................................................................................9圖表
10:
英文維基百科數(shù)據(jù)集分類
..........................................................................................................................10圖表
11:
BookCorpus
分類
......................................................................................................................................10圖表
12:
ArVix
官網(wǎng)
.................................................................................................................................................11圖表
13:
美國國家衛(wèi)生研究院官網(wǎng)
..........................................................................................................................11圖表
14:
WebText
前
50
個(gè)域
..................................................................................................................................12圖表
15:
C4
前
23
個(gè)域名(不包括維基百科)........................................................................................................13圖表
16:
按有效尺寸劃分的
The
Pile
組成樹狀圖....................................................................................................13圖表
17:
其他常見
NLP
數(shù)據(jù)集................................................................................................................................14圖表
18:
多模態(tài)大模型數(shù)據(jù)集介紹
..........................................................................................................................14圖表
19:
SEMAINE——四個(gè)
SAL
角色化身
............................................................................................................15圖表
20:
LAION-400M
搜索“藍(lán)眼睛的貓”得出的結(jié)果示例
..................................................................................16圖表
21:
LAION-5B
搜索“法國貓”得出的結(jié)果示例..............................................................................................16圖表
22:
OpenViDial——兩個(gè)簡短對(duì)話中的視覺環(huán)境
.............................................................................................16圖表
23:
YFCC100M
數(shù)據(jù)集中
100
萬張照片樣本的全球覆蓋................................................................................17圖表
24:
CH-SIMS
與其他數(shù)據(jù)集之間注釋差異的示例............................................................................................17圖表
25:
IEMOCAP——有
8
個(gè)攝像頭的
VICON
運(yùn)動(dòng)捕捉系統(tǒng)..............................................................................18圖表
26:
MELD
數(shù)據(jù)集——對(duì)話中和對(duì)話前說話人情緒變化對(duì)比...........................................................................18圖表
27:
常見大模型數(shù)據(jù)集發(fā)布方總結(jié)...................................................................................................................19圖表
28:
低質(zhì)量語言數(shù)據(jù)集數(shù)據(jù)或?qū)⒂?/p>
2030
年耗盡
..............................................................................................20圖表
29:
高質(zhì)量語言數(shù)據(jù)集數(shù)據(jù)或?qū)⒂?/p>
2026
年耗盡
..............................................................................................20圖表
30:
圖像數(shù)據(jù)存量為
8.11e12
~2.3e13...............................................................................................................20圖表
31:
圖像數(shù)據(jù)集數(shù)據(jù)趨勢(shì)或?qū)⒂?/p>
2030~2060
年耗盡........................................................................................20圖表
32:
GPT-4
技術(shù)報(bào)告中對(duì)合成數(shù)據(jù)應(yīng)用的探討
................................................................................................20圖表
33:
到
2030
年
AI
模型中的合成數(shù)據(jù)將完全蓋過真實(shí)數(shù)據(jù)
..............................................................................21圖表
34:
NVIDIA
Omniverse——用戶可使用
Python
為自動(dòng)駕駛車輛生成合成數(shù)據(jù)
..............................................21圖表
35:
2021-2026
中國數(shù)據(jù)量規(guī)模
CAGR
達(dá)到
24.9%,位居全球第一
..............................................................22圖表
36:
國內(nèi)各行業(yè)數(shù)據(jù)量分布及增長預(yù)測(cè)............................................................................................................22圖表
37:
數(shù)據(jù)集分布及發(fā)展趨勢(shì)..............................................................................................................................23圖表
38:
國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的主要原因............................................................................................................23圖表
39:
國內(nèi)科技互聯(lián)網(wǎng)廠商訓(xùn)練大模型基于的數(shù)據(jù)基礎(chǔ)......................................................................................24免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。3科技圖表
40:
中國大語言模型數(shù)據(jù)集構(gòu)成.......................................................................................................................24圖表
41:
華為盤古大模型
1.1TB
中文文本語料庫數(shù)據(jù)組成
.....................................................................................25圖表
42:
WeLM
大模型訓(xùn)練語料庫統(tǒng)計(jì)...................................................................................................................25圖表
43:
中國多模態(tài)模型數(shù)據(jù)集構(gòu)成.......................................................................................................................25圖表
44:
M6
預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)成
...............................................................................................................................26圖表
45:
InternVideo
預(yù)訓(xùn)練過程中使用的數(shù)據(jù)集統(tǒng)計(jì)............................................................................................26圖表
46:
DuReader
漢語六種題型示例(附英文注釋)...............................................................................................26圖表
47:
WuDaoCorpora
示例.................................................................................................................................27圖表
48:
CAIL2018
示例..........................................................................................................................................27圖表
49:
Math23K
和其他幾個(gè)公開數(shù)據(jù)集對(duì)比
.......................................................................................................28圖表
50:
Ape210K
與現(xiàn)有數(shù)學(xué)應(yīng)用題數(shù)據(jù)集的比較................................................................................................28圖表
51:
DRCD
的問題類型.....................................................................................................................................28圖表
52:
不同漢語語法糾錯(cuò)語料庫的對(duì)比
...............................................................................................................29圖表
53:
E-KAR
與以往類比基準(zhǔn)的比較..................................................................................................................29圖表
54:
豆瓣會(huì)話語料庫統(tǒng)計(jì)
.................................................................................................................................29圖表
55:
ODSQA、DRCD-TTS、DRCD-backtrans
的數(shù)據(jù)統(tǒng)計(jì).............................................................................29圖表
56:
MATINF
中問題、描述和答案的平均字符數(shù)和單詞數(shù)
...............................................................................30圖表
57:
MUGE
數(shù)據(jù)集——多模態(tài)數(shù)據(jù)示例...........................................................................................................30圖表
58:
WuDaoMM
數(shù)據(jù)集——強(qiáng)相關(guān)性圖像-文本對(duì)示例....................................................................................30圖表
59:
Noah-Wukong
數(shù)據(jù)集——模型概述
.........................................................................................................31圖表
60:
Zero
數(shù)據(jù)集——示例
................................................................................................................................31圖表
61:
COCO-CN
數(shù)據(jù)集——示例
......................................................................................................................31圖表
62:
Flickr30k-CN
數(shù)據(jù)集——跨語言圖像字幕示例..........................................................................................31圖表
63:
Product1M
數(shù)據(jù)集——多模態(tài)實(shí)例級(jí)檢索.................................................................................................32圖表
64:
AIChallenger
數(shù)據(jù)集——示例..................................................................................................................32圖表
65:
數(shù)據(jù)要素是數(shù)字中國發(fā)展框架中的重要環(huán)節(jié)之一......................................................................................32圖表
66:
我國數(shù)據(jù)要素相關(guān)政策..............................................................................................................................33圖表
67:
我國數(shù)據(jù)要素市場規(guī)模及預(yù)測(cè)...................................................................................................................33圖表
68:
數(shù)據(jù)要素流通產(chǎn)業(yè)鏈
.................................................................................................................................34圖表
69:
國內(nèi)大數(shù)據(jù)交易所建設(shè)歷程.......................................................................................................................34圖表
70:
GPT3
訓(xùn)練中各國語言占比
.......................................................................................................................35圖表
71:
數(shù)據(jù)服務(wù)商在數(shù)據(jù)要素市場中的角色
........................................................................................................35圖表
72:
國內(nèi)各類型數(shù)據(jù)服務(wù)商企業(yè)統(tǒng)計(jì)樣本數(shù)及占比..........................................................................................36圖表
73:
大模型數(shù)據(jù)隱私問題實(shí)例
..........................................................................................................................37圖表
74:
各地區(qū)數(shù)據(jù)隱私相關(guān)法律
..........................................................................................................................38圖表
75:
隱私保護(hù)計(jì)算的五大關(guān)鍵技術(shù)...................................................................................................................38圖表
76:
國內(nèi)外數(shù)據(jù)處理相關(guān)公司
..........................................................................................................................40圖表
77:
全文提及公司列表
.....................................................................................................................................41免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。4科技AI
大模型需要什么樣的數(shù)據(jù)集數(shù)據(jù)將是未來
AI
大模型競爭的關(guān)鍵要素人工智能發(fā)展的突破得益于高質(zhì)量數(shù)據(jù)的發(fā)展。例如,大型語言模型的最新進(jìn)展依賴于更高質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)集:與
GPT-2
相比,GPT-3
對(duì)模型架構(gòu)只進(jìn)行了微小的修改,但花費(fèi)精力收集更大的高質(zhì)量數(shù)據(jù)集進(jìn)行訓(xùn)練。ChatGPT與
GPT-3
的模型架構(gòu)類似,并使用
RLHF(來自人工反饋過程的強(qiáng)化學(xué)習(xí))來生成用于微調(diào)的高質(zhì)量標(biāo)記數(shù)據(jù)。圖表1:
更高質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)是
GPT
模型成功的驅(qū)動(dòng)力;而除模型權(quán)重變化之外,模型架構(gòu)保持相似4.8GB(未過濾)數(shù)據(jù)XXX.YYY.ZZZ在一句話中解釋上述內(nèi)容40GB人類過濾數(shù)據(jù)類似的模型結(jié)構(gòu)15*67+6是多少?570GB過濾數(shù)據(jù),來自45TB原始數(shù)據(jù)“飲料做好了”是中性、負(fù)面還是正面?“飲料做好了”是中性人工示范和標(biāo)注數(shù)據(jù)規(guī)模↑數(shù)據(jù)質(zhì)量↑模型固定資料來源:DaochenZhaetal.”Data-centricArtificialIntelligence:ASurvey”2023,華泰研究基于此,人工智能領(lǐng)域的權(quán)威學(xué)者吳承恩發(fā)起了“以數(shù)據(jù)為中心的
AI”運(yùn)動(dòng),即在模型相對(duì)固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個(gè)模型的訓(xùn)練效果。提升數(shù)據(jù)集質(zhì)量的方法主要有:添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測(cè)和維護(hù)數(shù)據(jù)等。因此,我們認(rèn)為未來數(shù)據(jù)成本在大模型開發(fā)中的成本占比或?qū)⑻嵘?,主要包括?shù)據(jù)采集,清洗,標(biāo)注等成本。圖表2:
以數(shù)據(jù)為中心的
AI:模型不變,通過改進(jìn)數(shù)據(jù)集質(zhì)量提升模型效果資料來源:DaochenZhaetal."Data-centricArtificialIntelligence:ASurvey"
2023,華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。5科技圖表3:
以數(shù)據(jù)為中心的
AI:工作流拆解資料來源:DaochenZhaetal."Data-centricArtificialIntelligence:ASurvey"
2023,華泰研究我們認(rèn)為
AI
大模型需要高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集。1)高質(zhì)量:高質(zhì)量數(shù)據(jù)集能夠提高模型精度與可解釋性,并且減少收斂到最優(yōu)解的時(shí)間,即減少訓(xùn)練時(shí)長。2)大規(guī)模:OpenAI
在《ScalingLawsforNeuralLanguageModels》中提出
LLM
模型所遵循的“伸縮法則”(scaling
law),即獨(dú)立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)?;蛘哐娱L模型訓(xùn)練時(shí)間,預(yù)訓(xùn)練模型的效果會(huì)越來越好。3)豐富性:數(shù)據(jù)豐富性能夠提高模型泛化能力,過于單一的數(shù)據(jù)會(huì)非常容易讓模型過于擬合訓(xùn)練數(shù)據(jù)。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。6科技數(shù)據(jù)集如何產(chǎn)生建立數(shù)據(jù)集的流程主要分為
1)數(shù)據(jù)采集;2)數(shù)據(jù)清洗:由于采集到的數(shù)據(jù)可能存在缺失值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題;3)數(shù)據(jù)標(biāo)注:最重要的一個(gè)環(huán)節(jié);4)模型訓(xùn)練:模型訓(xùn)練人員會(huì)利用標(biāo)注好的數(shù)據(jù)訓(xùn)練出需要的算法模型;5)模型測(cè)試:審核員進(jìn)行模型測(cè)試并將測(cè)試結(jié)果反饋給模型訓(xùn)練人員,而模型訓(xùn)練人員通過不斷地調(diào)整參數(shù),以便獲得性能更好的算法模型;6)產(chǎn)品評(píng)估:產(chǎn)品評(píng)估人員使用并進(jìn)行上線前的最后評(píng)估。圖表4:
數(shù)據(jù)標(biāo)注基本流程資料來源:蔡莉等《數(shù)據(jù)標(biāo)注研究綜述》2020,華泰研究流程#1:數(shù)據(jù)采集。采集的對(duì)象包括視頻、圖片、音頻和文本等多種類型和多種格式的數(shù)據(jù)。數(shù)據(jù)采集目前常用的有三種方式,分別為:1)系統(tǒng)日志采集方法;2)網(wǎng)絡(luò)數(shù)據(jù)采集方法;3)ETL。圖表5:
數(shù)據(jù)采集三種常見方式數(shù)據(jù)采集三種常見方式系統(tǒng)日志采集方法網(wǎng)絡(luò)數(shù)據(jù)采集ETL????構(gòu)建應(yīng)用系統(tǒng)和分析系統(tǒng)的橋梁,并將它們之間的關(guān)聯(lián)解耦;??即Extract-Transform-Load,描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程;??通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API方式獲取大數(shù)據(jù)信息;網(wǎng)絡(luò)爬蟲工具包括
python爬蟲、分布式網(wǎng)絡(luò)爬蟲工具、Java網(wǎng)絡(luò)爬蟲工具、非Java網(wǎng)絡(luò)爬蟲工具。分布式網(wǎng)絡(luò)爬蟲工具,如Nutch。支持近實(shí)時(shí)的在線分析系統(tǒng)和分布式并發(fā)的離線分析系統(tǒng);具有高可擴(kuò)展性,也就是說,當(dāng)數(shù)據(jù)量增加時(shí),可以通過增加節(jié)點(diǎn)進(jìn)行水平擴(kuò)展;它是一個(gè)數(shù)據(jù)集成過程,將來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)組合到一個(gè)單一的、一致的數(shù)據(jù)存儲(chǔ)中,該數(shù)據(jù)存儲(chǔ)被加載到數(shù)據(jù)倉庫或其他目標(biāo)系統(tǒng)中。目前為止,運(yùn)用較為廣泛的有Flume、Chukwa、Scrible和Kafka。資料來源:CSDN,Apache,Scrible,Python,GitHub,Scrapy,IBM,搜狗百科,華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。7科技流程#2:數(shù)據(jù)清洗是提高數(shù)據(jù)質(zhì)量的有效方法。由于采集到的數(shù)據(jù)可能存在缺失值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題,故需要執(zhí)行數(shù)據(jù)清洗任務(wù),數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié),清洗后數(shù)據(jù)的質(zhì)量很大程度上決定了
AI
算法的有效性。圖表6:
缺失數(shù)據(jù)的處理方法資料來源:鄧建新等《缺失數(shù)據(jù)的處理方法及其發(fā)展趨勢(shì)》2019,華泰研究流程#3:數(shù)據(jù)標(biāo)注是流程中最重要的一個(gè)環(huán)節(jié)。管理員會(huì)根據(jù)不同的標(biāo)注需求,將待標(biāo)注的數(shù)據(jù)劃分為不同的標(biāo)注任務(wù)。每一個(gè)標(biāo)注任務(wù)都有不同的規(guī)范和標(biāo)注點(diǎn)要求,一個(gè)標(biāo)注任務(wù)將會(huì)分配給多個(gè)標(biāo)注員完成。圖表7:
三大類數(shù)據(jù)標(biāo)注文本標(biāo)注語音標(biāo)注圖像標(biāo)注文本分類情感標(biāo)注OCR轉(zhuǎn)寫實(shí)體標(biāo)注語義標(biāo)注發(fā)音校對(duì)韻腳標(biāo)注語音清洗音素標(biāo)注語音切割情緒判定矩形框標(biāo)注3D立體框?qū)嵗指顦?biāo)注意圖標(biāo)注線段標(biāo)注?目標(biāo)跟蹤標(biāo)注NLP標(biāo)注資料來源:DevolShah“AStep-by-StepGuidetoTextAnnotation”2022,CSDN,景聯(lián)文科技,華泰研究流程#4:最終通過產(chǎn)品評(píng)估環(huán)節(jié)的數(shù)據(jù)才算是真正過關(guān)。產(chǎn)品評(píng)估人員需要反復(fù)驗(yàn)證模型的標(biāo)注效果,并對(duì)模型是否滿足上線目標(biāo)進(jìn)行評(píng)估。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。8科技圖表8:
各數(shù)據(jù)標(biāo)注質(zhì)量評(píng)估算法對(duì)比分類算法名稱優(yōu)點(diǎn)缺點(diǎn)圖像標(biāo)注質(zhì)量評(píng)估算法MV
算法簡單易用,常用作其他眾包質(zhì)量控制算法的基準(zhǔn)算法沒有考慮到每個(gè)標(biāo)注任務(wù)、
標(biāo)注者的不同可靠性EM
算法在一定意義下可以收斂到局部最大化將分類器與
Ground-truth
結(jié)合起來進(jìn)行學(xué)習(xí)方便、快速、結(jié)果有參考價(jià)值數(shù)據(jù)缺失比例較大時(shí),收斂速度比較緩慢需要對(duì)標(biāo)注專家的特異性和敏感性強(qiáng)加先驗(yàn)測(cè)評(píng)精度易受常用詞干擾RY
算法文本標(biāo)注質(zhì)量評(píng)估算法BLEU
算法ROUGE
算法參考標(biāo)注越多,待評(píng)估數(shù)據(jù)的相關(guān)性就越高無法評(píng)價(jià)標(biāo)注數(shù)據(jù)的流暢度METEOR
算法
評(píng)估時(shí)考慮了同義詞匹配,
提高了評(píng)估的準(zhǔn)確率長度懲罰,當(dāng)被評(píng)估的數(shù)據(jù)量小時(shí),測(cè)量精度較高CIDEr
算法SPICE
算法從文本標(biāo)注質(zhì)量評(píng)估的相關(guān)性上升到質(zhì)量評(píng)估的相似性進(jìn)從圖的語義層面對(duì)圖像標(biāo)注進(jìn)行評(píng)估對(duì)所有匹配上的詞都同等對(duì)待會(huì)導(dǎo)致部分詞的重要性被削弱圖的語義解析方面還有待進(jìn)一步完善ZenCrowd算將算法匹配和人工匹配結(jié)合,在一定程度上實(shí)現(xiàn)了標(biāo)注質(zhì)量
無法自動(dòng)為定實(shí)體選擇最佳數(shù)據(jù)集和效率的共同提高法語音標(biāo)注質(zhì)量評(píng)估算法WER
算法SER
算法可以分?jǐn)?shù)字、英文、中文等情況分別來看當(dāng)數(shù)據(jù)量大時(shí),性能會(huì)特別差對(duì)句子的整體性評(píng)估要優(yōu)于
WER
算法句錯(cuò)誤率較高,一般是詞錯(cuò)誤率的
2
倍~3
倍資料來源:蔡莉等《數(shù)據(jù)標(biāo)注研究綜述》2020,華泰研究他山之石#1:海外主要大語言模型數(shù)據(jù)集參數(shù)量和數(shù)據(jù)量是判斷大模型的重要參數(shù)。2018
年以來,大語言模型訓(xùn)練使用的數(shù)據(jù)集規(guī)模持續(xù)增長。2018
年的
GPT-1
數(shù)據(jù)集約
4.6GB,2020
年的
GPT-3
數(shù)據(jù)集達(dá)到了
753GB,而到了
2021
年的
Gopher,數(shù)據(jù)集規(guī)模已經(jīng)達(dá)到了
10,550GB??偨Y(jié)來說,從
GPT-1
到LLaMA
的大語言模型數(shù)據(jù)集主要包含六類:維基百科、書籍、期刊、Reddit
鏈接、CommonCrawl
和其他數(shù)據(jù)集。圖表9:
大語言模型數(shù)據(jù)集綜合分析大模型GPT-1維基百科書籍4.6期刊Reddit鏈接
Common
Crawl其他合計(jì)4.6GPT-24040GPT-311.4611.46.412.583211184.61182100851012445063386357022710798334504162.27538251611374105504828.2ThePile
v1Megatron-11BMT-NLGGopher16777164.4921274823406LLaMA注:以
GB為單位,公開的數(shù)據(jù)以粗體表示,僅原始訓(xùn)練數(shù)據(jù)集大小資料來源:AlanD.Thompson“What’sinMyAI”2023,HugoTouvronet
al.“LLaMA:OpenandEfficientFoundationLanguageModels”2023,華泰研究數(shù)據(jù)集#1:維基百科維基百科是一個(gè)免費(fèi)的多語言協(xié)作在線百科全書。維基百科致力于打造包含全世界所有語言的自由的百科全書,由超三十萬名志愿者組成的社區(qū)編寫和維護(hù)。截至
2023
年
3
月
,維基百科擁有
332
種語言版本,總計(jì)
60,814,920
條目。其中,英文版維基百科中有超過
664萬篇文章,擁有超
4,533
萬個(gè)用戶。維基百科中的文本很有價(jià)值,因?yàn)樗粐?yán)格引用,以說明性文字形式寫成,并且跨越多種語言和領(lǐng)域。一般來說,重點(diǎn)研究實(shí)驗(yàn)室會(huì)首先選取它的純英文過濾版作為數(shù)據(jù)集。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。9科技圖表10:
英文維基百科數(shù)據(jù)集分類排名1類別占比27.80%17.70%15.80%9.90%7.80%6.50%4.80%4.40%3.50%1.80%100%大?。℅B)3.1Tokens(百萬)生物834531474297234195144132105542地理1.93文化和藝術(shù)歷史1.741.15生物、健康和醫(yī)學(xué)體育0.960.77商業(yè)0.58其他社會(huì)科學(xué)
&數(shù)學(xué)教育0.590.410總計(jì)0.211.43000資料來源:AlanD.
Thompson“What’sinMy
AI”2023,華泰研究數(shù)據(jù)集#2:書籍書籍主要用于訓(xùn)練模型的故事講述能力和反應(yīng)能力,包括小說和非小說兩大類。數(shù)據(jù)集包括
Project
Gutenberg
和
Smashwords
(Toronto
BookCorpus/BookCorpus)等。ProjectGutenberg
是一個(gè)擁有
7
萬多本免費(fèi)電子書的圖書館,包括世界上最偉大的文學(xué)作品,尤其是美國版權(quán)已經(jīng)過期的老作品。BookCorpus
以作家未出版的免費(fèi)書籍為基礎(chǔ),這些書籍來自于世界上最大的獨(dú)立電子書分銷商之一的
Smashwords。圖表11:
BookCorpus
分類序號(hào)1類別書籍?dāng)?shù)量28801502823占比(書籍?dāng)?shù)量
/11038)26.10%13.60%7.50%浪漫2幻想3科技小說新成人年輕成人驚悚47666.90%57486.80%66465.90%7神秘6215.60%8吸血鬼恐怖6005.40%94484.10%10111213141516總計(jì)青少年冒險(xiǎn)4303.90%3903.50%其他3603.30%文學(xué)3303.00%幽默2652.40%歷史1781.60%主題510.50%11038100.0%資料來源:AlanD.
Thompson“What’sinMy
AI”2023,華泰研究數(shù)據(jù)集#3:期刊期刊可以從
ArXiv
和美國國家衛(wèi)生研究院等官網(wǎng)獲取。預(yù)印本和已發(fā)表期刊中的論文為數(shù)據(jù)集提供了堅(jiān)實(shí)而嚴(yán)謹(jǐn)?shù)幕A(chǔ),因?yàn)閷W(xué)術(shù)寫作通常來說更有條理、理性和細(xì)致。ArXiv
是一個(gè)免費(fèi)的分發(fā)服務(wù)和開放獲取的檔案,包含物理、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、定量生物學(xué)、定量金融學(xué)、統(tǒng)計(jì)學(xué)、電氣工程和系統(tǒng)科學(xué)以及經(jīng)濟(jì)學(xué)等領(lǐng)域的
2,235,447
篇學(xué)術(shù)文章。美國國家衛(wèi)生研究院是美國政府負(fù)責(zé)生物醫(yī)學(xué)和公共衛(wèi)生研究的主要機(jī)構(gòu),支持各種生物醫(yī)學(xué)和行為研究領(lǐng)域的研究,從其官網(wǎng)的“研究&培訓(xùn)”板塊能夠獲取最新的醫(yī)學(xué)研究論文。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。10科技圖表12:
ArVix
官網(wǎng)圖表13:
美國國家衛(wèi)生研究院官網(wǎng)資料來源:AriVix,華泰研究資料來源:美國國家衛(wèi)生研究院官網(wǎng),華泰研究數(shù)據(jù)集#4:WebText(來自
鏈接)Reddit
鏈接代表流行內(nèi)容的風(fēng)向標(biāo)。Reddit
是一個(gè)娛樂、社交及新聞網(wǎng)站,注冊(cè)用戶可以將文字或鏈接在網(wǎng)站上發(fā)布,使它成為了一個(gè)電子布告欄系統(tǒng)。WebText
是一個(gè)大型數(shù)據(jù)集,它的數(shù)據(jù)是從社交媒體平臺(tái)
所有出站鏈接網(wǎng)絡(luò)中爬取的,每個(gè)鏈接至少有三個(gè)贊,代表了流行內(nèi)容的風(fēng)向標(biāo),對(duì)輸出優(yōu)質(zhì)鏈接和后續(xù)文本數(shù)據(jù)具有指導(dǎo)作用。Reddit
宣布收取數(shù)據(jù)使用費(fèi)。2023
年
4
月,Reddit
宣布將向使用其
API
訓(xùn)練
AI
聊天機(jī)器人的公司收取數(shù)據(jù)使用費(fèi),其中便包含微軟、谷歌、OpenAI
等,目前具體收費(fèi)標(biāo)準(zhǔn)暫未公布,但可能會(huì)根據(jù)不同使用者劃分不同等級(jí)收費(fèi)標(biāo)準(zhǔn)。許多公司已經(jīng)意識(shí)到數(shù)據(jù)的價(jià)值,如圖片托管服務(wù)商
Shutterstock
已把圖像數(shù)據(jù)出售給
OpenAI,推特計(jì)劃針對(duì)
API
使用收取幾萬到幾十萬美元不等的費(fèi)用。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。11科技圖表14:
WebText
前
50
個(gè)域排名1域鏈接(百萬個(gè))1.540.600.460.410.330.320.320.310.310.100.090.090.090.080.080.080.080.080.080.080.080.080.080.070.070.070.070.070.070.070.070.06占比3.4%1.3%1.0%0.9%0.7%0.7%0.7%0.7%0.7%0.5%0.5%0.5%0.4%0.4%0.4%0.4%0.4%0.4%0.4%0.3%0.3%0.3%0.3%0.3%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.1%0.1%0.1%0.1%20.7%Tokens(百萬)Google51419915213811110710510410482707066656262616154474543424036353533313130282727262626262626252424242323222222222ArchiveBlogspotGitHub345TheNY
TimesWordPressWashingtonPostWikia6789BBC1011121314151617181920212223242526272829303132333435363738394041424344454647484950總計(jì)TheGuardianeBayPastebinCNNYahooHuffingtonPostGoReutersIMDbGooNIHCBCAppleMediumDailyMailSteamPoweredIndependentEtsyCraigslistBusinessInsiderTelegraphWizardsUSAtodayTheHillNHLFoxNews淘寶BloombergNPRMLBLATimesMegalodonESPNKickStarterBreitBartABCNewEggWWEMyAnimeListMicrosoftBuzzfeed9.3資料來源:AlanD.
Thompson“What’sinMy
AI”2023,華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。12科技數(shù)據(jù)集#5:Commoncrawl/C4Common
crawl
是
2008
年至今的一個(gè)網(wǎng)站抓取的大型數(shù)據(jù)集。Common
Crawl
是一家非盈利組織,致力于為互聯(lián)網(wǎng)研究人員、公司和個(gè)人免費(fèi)提供互聯(lián)網(wǎng)副本,用于研究和分析,它的數(shù)據(jù)包含原始網(wǎng)頁、元數(shù)據(jù)和文本提取,文本包含
40
多種語言和不同領(lǐng)域。重點(diǎn)研究實(shí)驗(yàn)室一般會(huì)首先選取它的純英文過濾版(C4)作為數(shù)據(jù)集。圖表15:
C4
前
23
個(gè)域名(不包括維基百科)排名1域Token(百萬)占比0.48%0.06%0.06%0.06%0.06%0.05%0.05%0.05%0.04%0.04%0.04%0.04%0.04%0.04%0.04%0.04%0.04%0.04%0.04%0.03%0.03%0.03%0.03%1.42%GooglePatentsTheNY
TimesLosAngelesTimesTheGuardianPLoS75010090234905906Forbes807HuffingtonPostPScribd758719701011121314151617181920212223WashingtonPostTheMotley
FoolIPFS656160Frontiers
MediaBusiness
InsiderChicagoTribuneBTheAtlanticSpringerLinkAlJazeera60605958575655Kickstarter54FindLawCaselawNCBI5353NPR52總計(jì)2219資料來源:AlanD.
Thompson“What’sinMy
AI”2023,華泰研究其他數(shù)據(jù)集The
Pile
數(shù)據(jù)集:一個(gè)
825.18
GB
的英語文本數(shù)據(jù)集,用于訓(xùn)練大規(guī)模語言模型。The
Pile由上文提到的
ArXiv、WebText、Wikipedia
等在內(nèi)的
22
個(gè)不同的高質(zhì)量數(shù)據(jù)集組成,包括已經(jīng)建立的自然語言處理數(shù)據(jù)集和幾個(gè)新引入的數(shù)據(jù)集。除了訓(xùn)練大型語言模型外,ThePile
還可以作為語言模型跨領(lǐng)域知識(shí)和泛化能力的廣泛覆蓋基準(zhǔn)。圖表16:
按有效尺寸劃分的
ThePile
組成樹狀圖資料來源:LeoGao
et
al.
“ThePile:An800GBDatasetofDiverseTextforLanguageModeling”2020,華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。13科技其他數(shù)據(jù)集包含了
GitHub
等代碼數(shù)據(jù)集、StackExchange
等對(duì)話論壇和視頻字幕數(shù)據(jù)集等。圖表17:
其他常見
NLP
數(shù)據(jù)集數(shù)據(jù)集分類代碼數(shù)據(jù)集數(shù)據(jù)集簡介一個(gè)大型的開源代碼庫,在多年以前的預(yù)訓(xùn)練語言模型例如
BER
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 葡萄酒銷售協(xié)議書
- 環(huán)保材料研發(fā)服務(wù)合同
- IT服務(wù)行業(yè)IT解決方案設(shè)計(jì)與實(shí)施服務(wù)
- 公路工程資料承包合同年
- 游戲電競產(chǎn)業(yè)電競戰(zhàn)隊(duì)管理與賽事組織方案設(shè)計(jì)
- 企業(yè)股權(quán)結(jié)構(gòu)調(diào)整方案
- 高新農(nóng)業(yè)技術(shù)創(chuàng)新發(fā)展合同
- 第2單元 生物體的結(jié)構(gòu)層次 單元導(dǎo)學(xué)(新教學(xué)設(shè)計(jì))2023-2024學(xué)年七年級(jí)上冊(cè)生物(人教版)
- 文心蘭種苗買賣合同8篇
- 藥品質(zhì)量保證協(xié)議新5篇
- 2024托盤行業(yè)市場趨勢(shì)分析報(bào)告
- 碼頭安全生產(chǎn)知識(shí)培訓(xùn)
- 初中數(shù)學(xué)解《一元二次方程》100題含答案解析
- 牛津書蟲系列1-6級(jí) 雙語 4B-03.金銀島中英對(duì)照
- 瀝青拌合站安裝專項(xiàng)施工方案
- 機(jī)械基礎(chǔ)(少學(xué)時(shí))(第三版) 課件全套 第0-15章 緒論、帶傳動(dòng)-氣壓傳動(dòng)
- 07J912-1變配電所建筑構(gòu)造
- 糾正冤假錯(cuò)案申訴范文
- 鋰離子電池串并聯(lián)成組優(yōu)化研究
- 寧夏閩寧鎮(zhèn):昔日干沙灘-今日金沙灘+課件-高教版(2023)中職語文職業(yè)模塊
- 2023-2024學(xué)年六年級(jí)科學(xué)下冊(cè)(青島版)第2課 預(yù)防近視(教案)
評(píng)論
0/150
提交評(píng)論