2024大模型訓(xùn)練數(shù)據(jù)白皮書_第1頁
2024大模型訓(xùn)練數(shù)據(jù)白皮書_第2頁
2024大模型訓(xùn)練數(shù)據(jù)白皮書_第3頁
2024大模型訓(xùn)練數(shù)據(jù)白皮書_第4頁
2024大模型訓(xùn)練數(shù)據(jù)白皮書_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大模型訓(xùn)練數(shù)據(jù)白皮書2024大模型訓(xùn)練數(shù)據(jù)白皮書目錄CONTENTS010203

訓(xùn)練數(shù)據(jù)對大模型發(fā)展的重要性 02模型訓(xùn)練所需的數(shù)據(jù)類型 03訓(xùn)練大語言模型的數(shù)據(jù) 03訓(xùn)練多模態(tài)模型的數(shù)據(jù) 04訓(xùn)練數(shù)據(jù)的常見疑問和誤解 04大模型訓(xùn)練并不依賴用戶個人信息 04中文語料短缺不是制約我國大模型發(fā)展的重要因素 05科學(xué)理解高質(zhì)量數(shù)據(jù)的含義與作用 06高質(zhì)量數(shù)據(jù)的重要性 06高質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn) 07高質(zhì)量數(shù)據(jù)類型的三重不確定性 07同類數(shù)據(jù)的評估標(biāo)準(zhǔn)并不完全一致 08040506

合成數(shù)據(jù)作為解決訓(xùn)練數(shù)據(jù)供給不足的新方案 09訓(xùn)練數(shù)據(jù)供給不足帶來的思考 09合成數(shù)據(jù)的定義 10合成數(shù)據(jù)的必要性 10合成數(shù)據(jù)的生成方法及分類 11合成數(shù)據(jù)在模型訓(xùn)練中的作用 12預(yù)訓(xùn)練語料的新物種 12提升對齊語料獲取效率的加速器 13解決訓(xùn)練數(shù)據(jù)供給不足的新方案 14在發(fā)展中治理的合成數(shù)據(jù) 16對大模型訓(xùn)練數(shù)據(jù)治理的思考 17大模型對訓(xùn)練數(shù)據(jù)的使用特點 17大模型訓(xùn)練數(shù)據(jù)合規(guī)的治理之智 18政府與社會力量協(xié)同的訓(xùn)練數(shù)據(jù)生態(tài) 19美國的現(xiàn)狀 19中國的現(xiàn)狀 2107

阿里巴巴集團(tuán)在大模型訓(xùn)練與應(yīng)用的探索 2308

以更開放和務(wù)實的方式解決高質(zhì)量訓(xùn)練數(shù)據(jù)供給 24自《中共中央國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》發(fā)布以來,我國數(shù)據(jù)要素建設(shè)不斷深入,在國家數(shù)據(jù)局等17部門聯(lián)合印發(fā)的《“數(shù)據(jù)要素×”三年行動計劃(20242026年》進(jìn)一步明確“建設(shè)高質(zhì)量語料庫和基礎(chǔ)科學(xué)數(shù)據(jù)集,支持開展人工智能大模型開發(fā)和訓(xùn)練”。通過數(shù)據(jù)要素建設(shè)推動人工智能大模型發(fā)展,可以有效解決我國人工智能,特別是大模型研發(fā)所面臨的數(shù)據(jù)瓶頸,進(jìn)一步發(fā)揮大模型對于世界知識數(shù)據(jù)的匯集和處理能力,創(chuàng)造更大的生產(chǎn)力,助力我國從數(shù)據(jù)經(jīng)濟(jì)走向智能經(jīng)濟(jì)新發(fā)展模式。大模型是數(shù)據(jù)要素價值釋放的最短路徑,通過理解其訓(xùn)練所使用的數(shù)據(jù)類型,可以更好理解大模型發(fā)揮價值的內(nèi)在機(jī)制,破解對訓(xùn)練數(shù)據(jù)常見的迷思和誤解。而促進(jìn)高質(zhì)量訓(xùn)練數(shù)據(jù)的建設(shè),需要理解人工智能對數(shù)據(jù)的實際需求,科學(xué)評價數(shù)據(jù)的規(guī)模和質(zhì)量;需要綜合利用政府、企業(yè)、社會等各方資源,構(gòu)建共享、共創(chuàng)、共贏的合作生態(tài),以更務(wù)實、多元、開放的方式解決供給不足的問題;還需要為技術(shù)發(fā)展預(yù)留空間,構(gòu)建更順應(yīng)模型發(fā)展的數(shù)據(jù)治理體系,相信隨著技術(shù)的日益成熟,相應(yīng)的商業(yè)模式和制度設(shè)計也都會逐步完善。010303大模型訓(xùn)練數(shù)據(jù)白皮書大模型訓(xùn)練數(shù)據(jù)白皮書02020101訓(xùn)練數(shù)據(jù)對大模型發(fā)展的重要性業(yè)界認(rèn)為,算法、算力與數(shù)據(jù),是支撐大模型發(fā)展的三大基石。更高質(zhì)量、更豐富的數(shù)據(jù)是以GPT為例的生成式人工智能大模型成功的驅(qū)動力。GPT模型架構(gòu)從第1代到第4代均較為相似,而用來訓(xùn)練數(shù)據(jù)的數(shù)據(jù)規(guī)模和質(zhì)量卻有很大的不同。GPT-1是由4.8G未過濾原始數(shù)據(jù)訓(xùn)練,GPT-2是由經(jīng)人類過濾后的40G數(shù)據(jù)訓(xùn)練,GPT-3是由從45T原始數(shù)據(jù)中過濾的570G數(shù)據(jù)訓(xùn)練,而chatGPT/GPT-4則是在該基礎(chǔ)上又加入了高質(zhì)量人類標(biāo)注。以吳恩達(dá)(AndrewNg)為代表的學(xué)者觀點認(rèn)為,人工智能是以數(shù)據(jù)為中心的,而不是以模型為中心?!坝袠?biāo)注的高質(zhì)量數(shù)據(jù)才能釋放人工智能的價值,如果業(yè)界將更多精力放在數(shù)據(jù)質(zhì)量上,人工智能的發(fā)展會更快”。0202模型訓(xùn)練所需的數(shù)據(jù)類型數(shù)據(jù)作為大模型訓(xùn)練的基礎(chǔ),它提供了大模型所必需的知識和信息。區(qū)別于以往搜索系統(tǒng)、個性化推薦等所需的大量用戶行為和偏好數(shù)據(jù),隨著技術(shù)的演進(jìn),大模型所需的數(shù)據(jù)是對知識性內(nèi)容有強(qiáng)需求,是一種新的類型。2.12.1 訓(xùn)練大語言模型的數(shù)據(jù)大模型所需要的數(shù)據(jù)根據(jù)訓(xùn)練的階段有所不同。以ChatGPT為代表的大語言模型(LLM)為例,其訓(xùn)練過程分為預(yù)訓(xùn)練Pre-trainin、監(jiān)督微調(diào)SFT、基于人類反饋的強(qiáng)化學(xué)習(xí)RLHF)三個階段,后兩部分又統(tǒng)稱為0505大模型訓(xùn)練數(shù)據(jù)白皮書大模型訓(xùn)練數(shù)據(jù)白皮書0404“對齊”(Alignment)階段。第一階段預(yù)訓(xùn)練所需的語料是各種類型的世界知識,包括網(wǎng)頁、書籍、新聞、論文期刊、對話文本、代碼等形式,通過大量學(xué)習(xí)世界知識,構(gòu)建模型的基礎(chǔ)能力,理解客觀世界的規(guī)律,該階段的語料特征可以概括為“廣”。第二階段SFT,通過標(biāo)注人員設(shè)計問答,編寫正確答案,將例題投喂給模型,并希望模型在沒有見過的任務(wù)中“舉一反三”,提升泛化能力。第三階段RLHF,訓(xùn)練目標(biāo)是讓模型的價值觀與人類對齊,需要人類對模型的回答進(jìn)行打分、排序,讓模型知道"怎么說更好"。第二和第三階段的數(shù)據(jù)質(zhì)量要求較高,需要來自人類的高質(zhì)量反饋,語料特征可以概括為“齊”。如果將模型微調(diào)后部署應(yīng)用于特定的場景形成行業(yè)大模型(如工業(yè)、金融、醫(yī)療等,則需要滿足該場景專業(yè)需求的特定領(lǐng)域知識做預(yù)訓(xùn)練和對齊,需要具備一定專業(yè)深度,如行業(yè)數(shù)據(jù)庫、專業(yè)文檔、專業(yè)網(wǎng)站等,這部分的語料特征是“?!?。2.22.2 訓(xùn)練多模態(tài)模型的數(shù)據(jù)大語言模型迅速發(fā)展的同時,Transformer開始遷移到圖像、視頻和語音等其他模態(tài)數(shù)據(jù)領(lǐng)域,并與大語言模型融合,形成多模態(tài)大模型。多模態(tài)模型模擬人類大腦處理信息的方式,把各種感知模態(tài)結(jié)合起來,以更全面、綜合的方式理解和生成信息,最終實現(xiàn)更豐富的任務(wù)和應(yīng)用。從以Mid-journey和Sora為例的多模態(tài)大模型看,在訓(xùn)練階段需要大量圖像-文本對、視頻-文本對等有標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練。圖像-文本對是包含一張圖像和一段描述該圖像內(nèi)容的文本的數(shù)據(jù),讓模型學(xué)習(xí)組成圖像的像素之間、文字與圖像的關(guān)聯(lián)。視頻-文本對包括一個短視頻和一段描述視頻中發(fā)生事件的文本,讓模型不僅學(xué)習(xí)單個畫面,還需要理解視頻中的時間序列和動態(tài)變化。2.32.3 訓(xùn)練數(shù)據(jù)的常見疑問和誤解大模型訓(xùn)練并不依賴用戶個人信息人工智能經(jīng)歷了從有監(jiān)督學(xué)習(xí)到無監(jiān)督學(xué)習(xí)的發(fā)展階段,神經(jīng)網(wǎng)絡(luò)等技術(shù)推動了數(shù)據(jù)驅(qū)動的應(yīng)用模式。傳統(tǒng)的決策類人工智能在需求側(cè)通過學(xué)習(xí)和分析海量的用戶行為數(shù)據(jù),判斷用戶的偏好和需求。在供給側(cè)通過學(xué)習(xí)內(nèi)容的特征,借助推薦、排序等機(jī)制實現(xiàn)需求和內(nèi)容的匹配,并根據(jù)用戶的行為反饋進(jìn)行優(yōu)化,提高算法的準(zhǔn)確性。以個性化搜索為例,以大量的用戶使用記錄、用戶畫像、內(nèi)容畫像等原始數(shù)據(jù)為基礎(chǔ),提煉出客群和內(nèi)容標(biāo)簽等不同維征。與以前的決策類人工智能相比,以大模型為代表的生成式人工智能的技術(shù)特征有明顯差異。大模型是模擬人類的思維活動方式生成人類可以理解和使用的內(nèi)容,而訓(xùn)練數(shù)據(jù)也是基于世界知識,對語料庫等知識性內(nèi)容有強(qiáng)烈需求,因此大模型訓(xùn)練階段不依賴個人信息等原始數(shù)據(jù)。此外,為保證生成內(nèi)容與人類價值觀對齊,業(yè)界往往利用強(qiáng)化學(xué)習(xí),通過納入人工標(biāo)注等機(jī)制優(yōu)化表達(dá),使模型生成內(nèi)容更接近于人類認(rèn)知。因此大模型對于用戶數(shù)據(jù)并不依賴,而對專業(yè)化、高質(zhì)量語料的知識性內(nèi)容依賴大。由此看出,隨著技術(shù)的演進(jìn),對訓(xùn)練數(shù)據(jù)的需求類型也有所不同。然而,有很多人對此仍存在誤解。根據(jù)第三方專業(yè)機(jī)構(gòu)測評顯示,超過60%的受訪者誤選了“盜取、泄露個人隱私數(shù)據(jù)的安全風(fēng)險”作為大模型的最主要風(fēng)險點。與一般看法相反,過量的個人數(shù)據(jù)會負(fù)面影響大模型的能力,而過于個性化的應(yīng)用也將增加大模型的運(yùn)算負(fù)擔(dān)。對此,OpenAI負(fù)責(zé)人SamAltman表示,ChatGPT不需要用戶的個人數(shù)據(jù),用戶可以選擇刪除其與ChatGPT的交互歷史;類似的,我國目前主流大模型在提供用戶隱私保護(hù)的基礎(chǔ)上,并不過度收集和使用用戶個人信息,并允許用戶控制和刪除其與大模型交互的對話和提供的內(nèi)容。當(dāng)然,在大模型的推理階段,如果用戶惡意誘導(dǎo),盡管有相應(yīng)的模型安全機(jī)制,仍不能完全避免個人信息泄露的問題。但可以明確的是,大模型在訓(xùn)練階段并不依賴個人信息。中文語料短缺不是制約我國大模型發(fā)展的重要因素談到中文大模型,一個普遍關(guān)注的問題是,中文語料和英文語料在互聯(lián)網(wǎng)中的占比存在顯著差異:在全球網(wǎng)站中,英文占59.8%,而中文僅占1.3%,那中文語料供給短缺是否是制約我國大模型發(fā)展的關(guān)鍵要素呢?在實踐中發(fā)現(xiàn),規(guī)模并不是決定性影響因素。一是世界知識的積累有的屬于客觀事實,用英文或中文表達(dá),其原理是一致的?;蛘哒f,在機(jī)器翻譯質(zhì)量有保障的前提下,可以彌補(bǔ)這部分中文語料的缺少。二是在訓(xùn)練技術(shù)上引入新方法也可以彌補(bǔ)語料供給不足的問題。例如通過合理安排不同語言類型的訓(xùn)練順序,也能讓模型學(xué)習(xí)到供給相對較少語言的豐富特征。然而有一種類型的中文語料是極為重要且存在短缺的-中式價值觀類語料。因為模型為了更好地理解客觀世界和掌握規(guī)律,需要學(xué)習(xí)大量來自知識和價值觀層的數(shù)據(jù),它們更多受到人類主觀意志的影響。而大模型是概率分布模型,其使用的數(shù)據(jù)來源分布將使得模型具備與之相似的人類意志。所以,訓(xùn)練中加入更多代表中式價值觀的語料,有助于大模型更好地理解和反映中文使用者的文化背景和價值取向,從而在全球化的背景下保持文化的多樣性和獨特性。而且此類語料短缺的問題也沒有辦法通過機(jī)器翻譯彌補(bǔ),因為即使翻譯質(zhì)量有保障,仍會引入源語言的偏見,體現(xiàn)的仍是源語言的價值觀??傮w來看,文言文、古漢語、電子書籍等反映優(yōu)秀傳統(tǒng)文化的內(nèi)容,以及主流媒體發(fā)布的能反映本土價值觀的內(nèi)容,都可視為高質(zhì)量具有中式價值觀的語料。但目前看,與語料相關(guān)的各環(huán)節(jié):0707大模型訓(xùn)練數(shù)據(jù)白皮書大模型訓(xùn)練數(shù)據(jù)白皮書0606從積累機(jī)制、數(shù)字化(比如我國古籍?dāng)?shù)字化率不到%,到開放共享與開發(fā)利用,及訓(xùn)練過程中機(jī)器算法與編碼系統(tǒng)的建設(shè),都仍需大量持續(xù)投入精力。可見,中文語料“量”的短缺尚可有解決方案,但中式價值觀類的語料短缺,則會成為制約我國大模型發(fā)展的短板。0303科學(xué)理解高質(zhì)量數(shù)據(jù)的含義與作用在生成式人工智能時代,模型訓(xùn)練的成功與否與所依賴的數(shù)據(jù)質(zhì)量息息相關(guān)。模型的能力很大程度上可以反映出其訓(xùn)練數(shù)據(jù)的質(zhì)量,這也無疑凸顯了高質(zhì)量數(shù)據(jù)在大模型訓(xùn)練和應(yīng)用中不可替代的重要性。3.13.1 高質(zhì)量數(shù)據(jù)的重要性由于高質(zhì)量數(shù)據(jù)可以更好地模擬客觀世界,將其作為訓(xùn)練數(shù)據(jù)可以增強(qiáng)模型能力。從技術(shù)層面看,通常用損失函數(shù)來量化模型預(yù)測輸出與實際目標(biāo)之間的不匹配程度。能更好模擬客觀世界的高質(zhì)量數(shù)據(jù),可以使模型預(yù)測的概率分布盡可能逼近實際數(shù)據(jù)的真實分布,通過優(yōu)化算法調(diào)整模型參數(shù),讓模型在訓(xùn)練集上的損失函數(shù)最小。從模型能力表現(xiàn)看,一是高質(zhì)量數(shù)據(jù)可以提升模型的準(zhǔn)確性和穩(wěn)定性。首先,這些數(shù)據(jù)通常包含更準(zhǔn)確和豐富的信息,有助于模型更好地理解數(shù)據(jù)的內(nèi)在結(jié)構(gòu),掌握世界規(guī)律,提升產(chǎn)出的精準(zhǔn)性。其次,數(shù)據(jù)清洗是提高數(shù)據(jù)質(zhì)量的重要環(huán)節(jié),包括去重、刪除個信隱私內(nèi)容、糾正錯誤、填補(bǔ)缺失值等,經(jīng)過清洗的數(shù)據(jù)可以提升訓(xùn)練階段的穩(wěn)定性。二是高質(zhì)量數(shù)據(jù)具有多樣性,可以降低模型對特定數(shù)據(jù)集的依賴,提升魯棒性和泛化能力。一方面高質(zhì)量數(shù)據(jù)通過對現(xiàn)有不同來源的數(shù)據(jù)加以混合,調(diào)試配比,提升模型執(zhí)行下游任務(wù)的泛化能力。另一方面可以利用數(shù)據(jù)增強(qiáng)等手段有效提升多樣性,即通過對現(xiàn)有數(shù)據(jù)進(jìn)行變換或擴(kuò)充,如旋轉(zhuǎn)、縮放、亮度調(diào)整等,生成更多的訓(xùn)練樣本,增加訓(xùn)練數(shù)據(jù)代表性和多樣性。然而,即使在訓(xùn)練各階段中的語料都滿足高質(zhì)量,能做到“真實性”、“準(zhǔn)確性”、“客觀性”、“多樣性”的要求,仍不能完全避免模型結(jié)果產(chǎn)生幻覺,即“一本正經(jīng)胡說八道”。因為大模型本質(zhì)是概率模型,是基于前文預(yù)測下一個詞出現(xiàn)的概率,“詞語接龍”出現(xiàn)的下一個詞并不是100%有確定性的。所以高質(zhì)量的語料,可以大幅降低模型結(jié)果產(chǎn)生幻覺的概率,但并不能完全避免。但如果在訓(xùn)練中使用了較多錯誤、有毒、重復(fù)的低質(zhì)量數(shù)據(jù),則會對模型能力產(chǎn)生破壞性影響,也就是人們常說的“GarbageInGarbageOut”,比如沒有經(jīng)過嚴(yán)格質(zhì)量篩選的大量社交媒體對話、用戶生成的內(nèi)容等。在對則可能會導(dǎo)致模型在訓(xùn)練過程中對特定類型的示例產(chǎn)生偏見,降低生成結(jié)果的多樣性,造成模型能力的顯著下降。由于高質(zhì)量數(shù)據(jù)如此重要,會引發(fā)對一系列問題的思考,比如我們能否前置制定統(tǒng)一的標(biāo)準(zhǔn)體系,把高質(zhì)量訓(xùn)練數(shù)據(jù)先識別出來?數(shù)據(jù)質(zhì)量與模型的能力有什么聯(lián)系?3.23.2 高質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn)高質(zhì)量數(shù)據(jù)類型的三重不確定性第一重不確定性來自于所需的語料種類,其類型是由人類對模型能力需求決定的,而能力需求又是根據(jù)需要模型所完成的任務(wù)而不斷演變?;厮莼A(chǔ)大模型的發(fā)展歷程,在2020年左右,基于Transformer架構(gòu)的GoogleMeena,其目的是讓模型具有生成連貫且有意義內(nèi)容的對話能力,因此對話文本被視為最重要的高質(zhì)量數(shù)據(jù)。而隨著技術(shù)路線的演進(jìn),人們發(fā)現(xiàn)更通用的上下文理解是重點,因此書籍和科研論文等又被視為高質(zhì)量數(shù)據(jù)。通過提升其在訓(xùn)練語料中的占比,可以增強(qiáng)模型從文本中捕捉長距離依賴的能力。隨著人們對通用人工智能的向往,對提升通用性能的北極星指標(biāo)-推理能力有幫助的語料,又更加被重視。一種是代碼數(shù)據(jù),因為里面涉及大量If-Then-Else等條件控制信息;另一種是教材,因為涉及了比較詳細(xì)的數(shù)學(xué)推理過程,和邏輯鏈高度相關(guān)。如果再拓展到行業(yè)模型,根據(jù)對模型能力的不同需求,語料類型更難以一一列舉。比如,經(jīng)人類標(biāo)注的,由視覺相似性圖片構(gòu)成的匹配對數(shù)據(jù)庫,可以作為高質(zhì)量數(shù)據(jù)用于大模型在廣告領(lǐng)域的訓(xùn)練,通過更好預(yù)測用戶需求實現(xiàn)對素材點擊率的優(yōu)化。而通過收集人類駕駛員對稀有事件(比如駕駛過程中遇到的復(fù)雜路況、極端天氣、異常行為的人或車輛等場景)的應(yīng)對數(shù)據(jù),則可以更好訓(xùn)練完全自動駕駛(FSD)模型在不同場景中的處理能力。由此看出,由于生成式AI在技術(shù)演進(jìn)和應(yīng)用場景拓展中具有不確定性,模型對所需要語料類型也在發(fā)生變化,“高質(zhì)量語料”的類型和范圍也在不斷拓展。第二重不確定性來自于語料形態(tài)的演化,高質(zhì)量數(shù)據(jù)的形態(tài)會不斷增強(qiáng),以強(qiáng)化該類型語料的能力。一方面隨直接使用的原始數(shù)據(jù),通過加工、改造和泛化可以形成模型訓(xùn)練可用的知識類數(shù)據(jù)。另外,在自動駕駛等領(lǐng)域,通0909大模型訓(xùn)練數(shù)據(jù)白皮書大模型訓(xùn)練數(shù)據(jù)白皮書0808世界中對稀有事件觀測不足的問題。另一方面,隨著模型長上下文建模能力的增強(qiáng),對代碼和教材的需求又有了質(zhì)的變化。例如,訓(xùn)練用的代碼數(shù)據(jù)從執(zhí)行單一任務(wù)到倉庫級,讓模型推理能力從掌握單任務(wù)模塊進(jìn)化到學(xué)習(xí)整體架構(gòu);訓(xùn)練用的教材從中小學(xué)級別知識拓展到大學(xué),進(jìn)一步增強(qiáng)了復(fù)雜場景下的推理能力。配比(數(shù)據(jù)混合,二是不同來源數(shù)據(jù)用于訓(xùn)練的順序(數(shù)據(jù)課程。數(shù)據(jù)混合環(huán)節(jié)可以在訓(xùn)練的不同階段設(shè)定配比,在實踐中不斷嘗試出最優(yōu)的組合。例如在監(jiān)督微調(diào)階段,有研究者從StackExchange、Reddit等網(wǎng)站中精選高贊語料,配合手工整理的問答對,得到共計1000條高質(zhì)量微調(diào)數(shù)據(jù),以“少而精”的數(shù)據(jù)在模型對齊能力上取得了很好的效果。數(shù)據(jù)混合在實踐中會采取不同策略,一是增加數(shù)據(jù)源的多樣性,這對大模型在下游任務(wù)能力的提升十分關(guān)鍵;二是可以根據(jù)大模型執(zhí)行的目標(biāo)任務(wù),選擇對任務(wù)性能產(chǎn)生積極影響的數(shù)據(jù)。數(shù)據(jù)課程環(huán)節(jié)是為了讓大模型更好地學(xué)習(xí)某項技能,對語料學(xué)習(xí)順序進(jìn)行探索。一般來說,按照技能集合的順序組織預(yù)訓(xùn)練語料(從基礎(chǔ)技能到目標(biāo)技能,比直接從專注于目標(biāo)技能的語料庫中學(xué)習(xí)更為有效,如從通用或簡單的例子開始,逐步引入更具專業(yè)化或復(fù)雜度的數(shù)據(jù)。同類數(shù)據(jù)的評估標(biāo)準(zhǔn)并不完全一致對同類語料的質(zhì)量評估,往往從質(zhì)量、規(guī)模、多樣性三個維度出發(fā)。在質(zhì)量上,被視為“高質(zhì)量”通常是因為其信息已經(jīng)通過了有用性或質(zhì)量篩選,這些大多可以從來源中做判斷。例如,在語言模型訓(xùn)練中,新聞、科研論文或開源代碼項目中的內(nèi)容會受到專業(yè)標(biāo)準(zhǔn)(如同行評審)的篩選;常識性內(nèi)容中,維基百科則經(jīng)受了一群專注編輯者的篩選;而經(jīng)過篩選的對話內(nèi)容則是基于用戶的積極互動(如在Reddit上獲得的點贊數(shù)量;在多模態(tài)模型訓(xùn)練中,以視覺中國為例,其網(wǎng)站有經(jīng)過專業(yè)設(shè)計師篩選的大量圖片和視頻素材,并有對圖像的光照、構(gòu)圖、藝術(shù)性、美觀性等專業(yè)性標(biāo)注,形成了高質(zhì)量的圖像/視頻人們會嘗試用評估模型進(jìn)行打分。例如對大量公開的網(wǎng)頁,通過先對少量樣本人工評價得到可讀性、幫助性、安全性等指標(biāo),通過這些具有代表性的樣本訓(xùn)練評估模型,將人工定義的評價標(biāo)準(zhǔn)轉(zhuǎn)化為機(jī)器可識別的特征和模式,在此基礎(chǔ)上評價語料中所有網(wǎng)頁信息的質(zhì)量。然而,即使有了前兩種方法,針對部分語料仍無法前置判斷其質(zhì)量。如用于領(lǐng)域模型訓(xùn)練的語料,涉及到不同行業(yè)的專業(yè)知識,缺少統(tǒng)一的判斷標(biāo)準(zhǔn),往往是在模型訓(xùn)練中不斷檢驗其質(zhì)量的高低。從規(guī)???,收集足夠規(guī)模的高質(zhì)量語料也非常重要。根據(jù)大模型“伸縮法則”,當(dāng)模型的參數(shù)或計算量按比例擴(kuò)大時,模型性能也與之成比例提升。而隨著參數(shù)規(guī)模的增加,也需要更多數(shù)據(jù)來訓(xùn)練模型,即模型參數(shù)與訓(xùn)練語料之間也存在類似的比例關(guān)系。需要指出的是,并不是語料規(guī)模越大越好,而是高信息密度的語料規(guī)模越大越好:以CC(CommonCrawl)和C4數(shù)據(jù)集的對比為例,CC是一個有400TB的公共網(wǎng)絡(luò)抓取數(shù)據(jù)集,包含了互聯(lián)網(wǎng)上數(shù)十億網(wǎng)頁,內(nèi)容非常廣泛但未經(jīng)清洗。而C4則是對CC進(jìn)行了過濾噪聲、重復(fù)內(nèi)容等清洗后的305GB數(shù)據(jù)集。經(jīng)評估發(fā)現(xiàn)基于C4訓(xùn)練的模型性能優(yōu)于CC,這既說明了數(shù)據(jù)清洗的重要性,也說明了語料規(guī)模不能一味追求大。此外,同類型語料中的多樣性也是值得關(guān)注的問題。首先,會涉及到數(shù)據(jù)集的公平性,從網(wǎng)絡(luò)采集的信息存在對于弱勢群體(如種族、性別、職業(yè)、年齡等)不平衡的問題,可能會加劇現(xiàn)有偏見或系統(tǒng)性不平等。在技術(shù)層面上,通過對訓(xùn)練數(shù)據(jù)集進(jìn)行仔細(xì)地審查和篩選,確保其分布的廣度和均衡性,可以緩解公平性問題。另外,同類語料的多樣性也會影響模型能力,特別是在安全能力建設(shè)方面。真實世界中潛在隱患的出現(xiàn)往往是偶然事件,相較于對這些“不良信息”的一概刪除,對這些樣本采用打安全標(biāo)簽的方式,反而有助于提升模型對安全風(fēng)險的識別,增強(qiáng)安全防護(hù)能力。針對不同類型的高質(zhì)量語料,意味著其在語料類型、語料形態(tài)以及語料搭配使用三個層面存在不確定性。而針對同類型的語料,又涉及到從質(zhì)量、規(guī)模、多樣性三方面的綜合考量,對高質(zhì)量并沒有統(tǒng)一的評估標(biāo)準(zhǔn)。就像生成式人工智能技術(shù)的發(fā)展路徑充滿不確定性一樣,對高質(zhì)量數(shù)據(jù)的判斷,也同樣沒有人擁有“上帝視角”,可以精準(zhǔn)前置預(yù)知高質(zhì)量的標(biāo)準(zhǔn),來決定哪些是未來的高質(zhì)量數(shù)據(jù)。因此,在對高質(zhì)量數(shù)據(jù)的理解上,應(yīng)認(rèn)識到對高質(zhì)量并不適合被前置的客觀標(biāo)準(zhǔn)定義?!案哔|(zhì)量”更多是一種主觀判斷,它的標(biāo)準(zhǔn)取決于模型的應(yīng)用目的,數(shù)據(jù)類型會根據(jù)模型的發(fā)展階段“因時而動”、根據(jù)技術(shù)人員的理解判斷“因人而異”、根據(jù)模型的訓(xùn)練效果“因效而定”。因此,所謂“高質(zhì)量標(biāo)準(zhǔn)”的制定,至多也只是對同類型數(shù)據(jù)在質(zhì)量維度評估提供一種參考,對模型訓(xùn)練的價值有限。0404合成數(shù)據(jù)作為解決訓(xùn)練數(shù)據(jù)供給不足的新方案4.14.1 訓(xùn)練數(shù)據(jù)供給不足帶來的思考在生成式人工智能技術(shù)不斷發(fā)展的趨勢下,訓(xùn)練數(shù)據(jù)來源是人們最關(guān)心的問題之一。上節(jié)以政府和社會力量的視角展開。本節(jié)以已經(jīng)使用的數(shù)據(jù)源和正在探索的新數(shù)據(jù)源視角展開。在已經(jīng)使用的訓(xùn)練語料中,有用于語言大模PAGEPAGE11大模型訓(xùn)練數(shù)據(jù)白皮書大模型訓(xùn)練數(shù)據(jù)白皮書PAGEPAGE10型訓(xùn)練的文本數(shù)據(jù),包括網(wǎng)頁信息、書籍、科研論文、知識百科、專業(yè)問答、代碼以及領(lǐng)域知識,也有用于多模態(tài)模型的圖片、視頻、音頻等媒體數(shù)據(jù)。根據(jù)EpochAI的估算,書籍、科研論文等高質(zhì)量語言數(shù)據(jù)集可能會在2024年前耗盡。人們正在積極探索新數(shù)據(jù)源,以緩解訓(xùn)練語料可能面臨不足的問題。一種思路是將未數(shù)字化的知識數(shù)字化,如在最新發(fā)布的Claude3中,提到了將大量未數(shù)字化的書籍和資料做數(shù)字化處理,成為模型可讀取的訓(xùn)練語料。還可利用機(jī)器感知數(shù)據(jù),比如將無人車、無人機(jī)、其他智能硬件設(shè)備等生成的大量物理世界數(shù)據(jù)用于訓(xùn)練。另一種思路是利用模型或算法,批量生成新數(shù)據(jù),比如合成數(shù)據(jù),然后利用它們訓(xùn)練模型。近期,合成數(shù)據(jù)在大模型訓(xùn)練和應(yīng)用的話題引起了廣泛關(guān)注。一方面,高質(zhì)量的合成數(shù)據(jù)可以作為真實數(shù)據(jù)的補(bǔ)充和替代,模擬現(xiàn)實世界的復(fù)雜性和多樣性,被視為擴(kuò)展模型學(xué)習(xí)范圍與能力的重要手段。另一方面,合成數(shù)據(jù)的生成過程可能存在偏差或噪聲,導(dǎo)致其質(zhì)量和真實性無法完全模擬客觀世界。由此引出一系列值得深入討論的問題:對于合成數(shù)據(jù)的價值,它能否拓展大模型能力的邊界?又是否能替代真實數(shù)據(jù),緩解優(yōu)質(zhì)數(shù)據(jù)供給不足的問題?此外,合成數(shù)據(jù)能否通過對現(xiàn)有數(shù)據(jù)的深加工,將之前不能被用于訓(xùn)練的數(shù)據(jù)轉(zhuǎn)化為可用,提升模型對數(shù)據(jù)利用的可能性?而對于合成數(shù)據(jù)的風(fēng)險,人們也會擔(dān)憂是否會出現(xiàn)“大模型自己產(chǎn)生數(shù)據(jù)進(jìn)行自我訓(xùn)練”的循環(huán),導(dǎo)致初始偏差被不斷放大,最終使模型失控?這種新數(shù)據(jù)源還會帶來哪些新風(fēng)險?4.24.2 合成數(shù)據(jù)的定義合成數(shù)據(jù)是通過算法和數(shù)學(xué)模型創(chuàng)建的。首先建模真實數(shù)據(jù)的分布,然后在該分布上進(jìn)行采樣,創(chuàng)建出新數(shù)據(jù)集,模擬真實數(shù)據(jù)中的統(tǒng)計模式和關(guān)系。合成數(shù)據(jù)類似于數(shù)據(jù)的“替身演員”,發(fā)揮補(bǔ)充或替代真實數(shù)據(jù)的作用。在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,合成數(shù)據(jù)可以為模型提供訓(xùn)練材料,幫助它們學(xué)習(xí)、理解和預(yù)測。需要注意的是,如果生成過程設(shè)計不當(dāng),合成數(shù)據(jù)也可能缺乏保真度,對客觀世界的模擬出現(xiàn)偏差。4.34.3 合成數(shù)據(jù)的必要性什么情況下會用到合成數(shù)據(jù)?本質(zhì)原因是真實世界中獲取數(shù)據(jù)遇到困難。一是真實世界中難以觀測,如罕見病或極端天氣等。利用合成數(shù)據(jù)可以設(shè)計比真實數(shù)據(jù)集更廣泛的情況,對CornerCase進(jìn)行模擬,提升訓(xùn)練數(shù)據(jù)集的全面性和多樣性,確保在處理邊緣案例時也有良好性能,提升模型泛化能力。二是真實世界中數(shù)據(jù)獲取的成本高,如大模型對齊訓(xùn)練中需要人類大量的高質(zhì)量反饋。利用合成數(shù)據(jù)可以實現(xiàn)對齊流程自動化,幾乎不需人類標(biāo)注,大幅節(jié)省成本,提高獲取效率。三是數(shù)據(jù)獲取和處理涉及到真實世界中的個信甚至敏感信息,特別是醫(yī)療健康和金融領(lǐng)域。合成數(shù)據(jù)可以利用差分隱私對個體信息“加噪聲”等方法,模擬真實數(shù)據(jù)集的分布,而不模擬其中的真實個人信息,實現(xiàn)對個信去標(biāo)識化。由此歸納出,合成數(shù)據(jù)具有全面性和多樣性、經(jīng)濟(jì)高效、有利于隱私保護(hù)等優(yōu)點。4.44.4 合成數(shù)據(jù)的生成方法及分類根據(jù)是否基于實際數(shù)據(jù)集生成,合成數(shù)據(jù)生成方法主要分為兩大類。第一種是基于真實數(shù)據(jù)集構(gòu)建的:人們會建立模型以捕獲真實數(shù)據(jù)的分布特性和結(jié)構(gòu)特征,刻畫數(shù)據(jù)中的多變量關(guān)系和相互作用。然后從該模型中抽樣或生成合成數(shù)據(jù)。如果模型能很好地代表真實數(shù)據(jù),那么合成數(shù)據(jù)將具有與真實數(shù)據(jù)相似的統(tǒng)計特性。以ChatGPT為例,它深入研究了人類寫的數(shù)十億例文本,分析了詞語之間的關(guān)系,并構(gòu)建了一個模型來理解它們是如何組合在一起的。在生成文本時,每一個單詞的選擇也都取決于它前一個單詞出現(xiàn)的統(tǒng)計概率。第二種生成方法并不來源于真實數(shù)據(jù),而是通過使用現(xiàn)有模型或者人類專業(yè)背景知識來創(chuàng)建?,F(xiàn)有的模型可以是某個過程的統(tǒng)計模型,也可以是模擬模型。模擬可以通過游戲引擎等方法創(chuàng)建,如最近火爆的Sora文生視頻模型,里面用到了由游戲引擎(Unity、UnrealEngine5等)合成的視頻數(shù)據(jù)作為訓(xùn)練集,以提高生成質(zhì)量。根據(jù)用于訓(xùn)練的AI類型,可以將合成數(shù)據(jù)分為應(yīng)用于生成式AI和判別式AI訓(xùn)練兩類。應(yīng)用于生成式AI訓(xùn)練的通常有媒體合成數(shù)據(jù),即由模型和算法合成的視頻、圖像或聲音。文本合成數(shù)據(jù),即在自然語言處理中由模型生成的文本。而判別式AI訓(xùn)練(分類或回歸)所需的通常是表格合成數(shù)據(jù),類似真實生活中數(shù)據(jù)記錄或表格的合成數(shù)據(jù)。4.54.5 合成數(shù)據(jù)在模型訓(xùn)練中的作用基礎(chǔ)大模型訓(xùn)練所需的數(shù)據(jù)類型包含兩大類,一是用于預(yù)訓(xùn)練的世界知識,二是用于對齊的數(shù)據(jù)。合成數(shù)據(jù)作為真實數(shù)據(jù)的一種替代,現(xiàn)階段雖然在預(yù)訓(xùn)練占比不高,但未來發(fā)展?jié)摿薮螅勺鳛橐粋€“新物種”密切關(guān)注;目前合成數(shù)據(jù)多應(yīng)用于提升對齊階段的數(shù)據(jù)獲取效率,增強(qiáng)模型安全和可靠性。預(yù)訓(xùn)練語料的新物種模型預(yù)訓(xùn)練階段是通過大量無監(jiān)督學(xué)習(xí)構(gòu)建基礎(chǔ)能力,掌握世界的規(guī)律。大語言模型需要各類世界知識,包括網(wǎng)頁、書籍、新聞、代碼等;而多模態(tài)又需要視頻、圖片、音頻等語料。那么合成數(shù)據(jù)作為新物種,能對模型的訓(xùn)練語料起到哪些補(bǔ)充作用呢?首先,合成數(shù)據(jù)可應(yīng)用于多模態(tài)數(shù)據(jù)的生成。最近火爆的Sora文生視頻大模型,里面用到了大量由游戲引擎合成的視頻數(shù)據(jù)作為訓(xùn)練集,以提高生成質(zhì)量。此外,利用模擬器生成的多模態(tài)場景數(shù)據(jù)還廣泛應(yīng)用于具身智能機(jī)器人、自動駕駛、AIforScience等場景的訓(xùn)練。利用模擬模型生成多模態(tài)數(shù)據(jù)可以更好滿足模型對訓(xùn)練數(shù)據(jù)差異化的需求,例如通過有效“過采樣”(隨機(jī)復(fù)制少數(shù)樣例以增大它們的規(guī)模)罕見事件或災(zāi)難性事件,以確保模型能夠針對更廣泛的輸入保持魯棒性。而伴隨生成式人工智能走向更通用,模型訓(xùn)練將不僅從文字中學(xué)習(xí),也會從聲音、圖片和視頻中學(xué)習(xí),就更需要多模態(tài)的訓(xùn)練數(shù)據(jù)。因此,我們判斷通過合成的多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練的需求還會持續(xù)且大幅增加。其次,合成數(shù)據(jù)還可應(yīng)用于高價值領(lǐng)域知識的生成。核心是合成數(shù)據(jù)能通過對現(xiàn)有數(shù)據(jù)的深加工,將之前不能被用于訓(xùn)練的數(shù)據(jù)轉(zhuǎn)化為可用,提升模型對數(shù)據(jù)利用的可能性。例如工業(yè)制造領(lǐng)域,利用合成數(shù)據(jù),可以把生產(chǎn)、制造等工藝流程相關(guān)的原始數(shù)據(jù),結(jié)合行業(yè)知識圖譜,轉(zhuǎn)化為可供大模型學(xué)習(xí)的工業(yè)語料,以緩解行業(yè)語料短缺的問題。該過程分為三步:一是將原始數(shù)據(jù)a)轉(zhuǎn)變?yōu)樾畔ⅲ╪:即將非自然語言描述的內(nèi)容(如工藝生產(chǎn)中的操作行為或時序數(shù)據(jù))轉(zhuǎn)化為大模型可讀的結(jié)構(gòu)化信息(操作記錄。二是將信息提煉為知識(Knowledg:僅有操作記錄并不能直接提供有效知識,但將多條結(jié)構(gòu)化信息與行業(yè)的知識圖譜、專家經(jīng)驗相結(jié)合,可以產(chǎn)出有價值的行業(yè)知識(如在什么溫度下應(yīng)該如何操作,好處是什么。三是將得到的知識泛化:利用大模型的推理能力,將相對單一的知識進(jìn)行多樣性拓展,積累更豐富的行業(yè)語料。由此看出,大模型可以利用原始數(shù)據(jù)、信息、知識等不同層次的內(nèi)容,打通數(shù)據(jù)利用的模式。我們判斷,通過合成數(shù)據(jù)拓展對數(shù)據(jù)利用的可能性,生成領(lǐng)域知識的趨勢是“精”,即對語料質(zhì)量要求高,且是不可或缺的。因為大模型只有在預(yù)訓(xùn)練中學(xué)習(xí)過領(lǐng)域知識,才能在后期利用行業(yè)語料進(jìn)行SFT訓(xùn)練時激發(fā)出更好的效果,更容易應(yīng)用于垂直領(lǐng)域。綜上,我們認(rèn)為合成數(shù)據(jù)作為預(yù)訓(xùn)練語料的新物種,發(fā)展?jié)摿薮螅貏e是在多模態(tài)數(shù)據(jù)和領(lǐng)域知識生成方面值得密切關(guān)注。提升對齊語料獲取效率的加速器對齊數(shù)據(jù)以人類高質(zhì)量反饋為主,包含監(jiān)督微調(diào)階段和基于人類反饋的強(qiáng)化學(xué)習(xí)。此方法主要在以下幾方面遇到問題:一是數(shù)據(jù)獲取的成本更高,二是人類評估的準(zhǔn)確性和一致性,三是模型通常選擇避免回答敏感和有爭議的問題,降低模型的整體效用。如果引入合成數(shù)據(jù)作為真實數(shù)據(jù)的補(bǔ)充和替代,能否緩解這些問題呢?合成數(shù)據(jù)最大的優(yōu)勢是可以大幅提升對齊數(shù)據(jù)的獲取效率,“如果掌握了合成數(shù)據(jù)技術(shù),對齊的成本可能會降低好幾個數(shù)量級,或用一樣的投入產(chǎn)生更大數(shù)量級的數(shù)據(jù),競爭格局就會發(fā)生變化”。這種對合成數(shù)據(jù)的應(yīng)用是“從人工智能反饋中進(jìn)行強(qiáng)化學(xué)習(xí)RLAIF”。通常是用一個較大規(guī)模模型產(chǎn)出合成數(shù)據(jù),生成指令及輸入和輸出樣本,過濾掉無效或重復(fù)信息,自動化微調(diào)出性能較好的小模型,全過程中幾乎無需人類標(biāo)注。這不僅大幅降低了標(biāo)注成本,也能緩解人工對齊導(dǎo)致模型對敏感問題拒答的情況。例如斯坦福大學(xué)發(fā)布的70億參數(shù)對話大模型Alpaca,正是采用此類自我指導(dǎo)(Self-instruct)方法,用OpenAI的API自動生成指令數(shù)據(jù)進(jìn)行微調(diào)。還有一種基于RLAIF新思路探索,希望在不引入外部模型的前提下實現(xiàn)自動化微調(diào)。例如自我對局Self-play,在滿足一定條件時,利用合成數(shù)據(jù)進(jìn)行自我對抗微調(diào)(t+1代的模型嘗試將t代模型的輸出與真人的輸出區(qū)分開,得到了比RLHF更好的效果。再如Claude3用到的憲法式AI,讓AI系統(tǒng)在遵循預(yù)先設(shè)定的原則下,使用模型自身生成的反饋和修正意見來進(jìn)行自我改進(jìn),得到一個既能生成無害內(nèi)容,又不規(guī)避有害問題的模型。同時另一種對合成數(shù)據(jù)“從人類和人工智能反饋中進(jìn)行強(qiáng)化學(xué)習(xí)RLHAIF”AI表明,在利用AI協(xié)助人類評估模型有效性時,模型生成的批評有助于人類發(fā)現(xiàn)可能錯過的缺陷,提高人類評估的準(zhǔn)確性。4.64.6 解決訓(xùn)練數(shù)據(jù)供給不足的新方案高質(zhì)量數(shù)據(jù)是大模型技術(shù)發(fā)展的主要瓶頸之一,可供大模型學(xué)習(xí)的數(shù)據(jù)類型較多,但能夠進(jìn)一步拓展大模型知識邊界、推動大模型推理、泛化等關(guān)鍵能力提升的數(shù)據(jù)更多偏向于視頻、圖片等多模態(tài)數(shù)據(jù),以及特定行業(yè)中的領(lǐng)域知識數(shù)據(jù)。此類數(shù)據(jù)主要來自于人類的創(chuàng)造、制作和經(jīng)驗積累,其規(guī)模、類型和質(zhì)量因客觀條件的不同存在較大差異。在大模型強(qiáng)大的無監(jiān)督數(shù)據(jù)學(xué)習(xí)能力面前,大模型的數(shù)據(jù)需求快速經(jīng)歷了從量到質(zhì)的轉(zhuǎn)換,能夠被大模型更為直接地利用、可以進(jìn)一步提升大模型關(guān)鍵能力、幫助大模型生成內(nèi)容更符合人類習(xí)慣和要求的高質(zhì)量數(shù)據(jù),成為了最為關(guān)鍵的數(shù)據(jù)類型。對于提高此類高質(zhì)量訓(xùn)練數(shù)據(jù)的供給,現(xiàn)行的主要方案側(cè)重于構(gòu)建更為開放、包容的高質(zhì)量數(shù)據(jù)源,包括建立具有公共或準(zhǔn)公共屬性的高質(zhì)量數(shù)據(jù)集,鼓勵行業(yè)數(shù)據(jù)的進(jìn)一步共享,放寬對于訓(xùn)練數(shù)據(jù)的權(quán)屬保護(hù)規(guī)則等。而合成數(shù)據(jù)為模型數(shù)據(jù)供給提供了新的技術(shù)方案,將合成數(shù)據(jù)應(yīng)用于大模型訓(xùn)練數(shù)據(jù)中,可以從以下三個方面幫助解決高質(zhì)量訓(xùn)練數(shù)據(jù)供給不足的問題。其一,合成數(shù)據(jù)解決了部分類型的真實世界數(shù)據(jù)難以觀測的問題,拓展了訓(xùn)練數(shù)據(jù)的多樣性。傳統(tǒng)上看,通過生成“邊緣情況”(如極端天氣、罕見?。┗蛘哒鎸嵤澜缰械摹皾撛陔[患”(如金融詐騙等安全風(fēng)險,可以彌補(bǔ)因為樣本分布不均衡導(dǎo)致的客觀限制。在輸入端糾正數(shù)據(jù)在采集和處理過程中引入的偏誤,提高數(shù)據(jù)分布的合理性和客觀性。面向未來,利用合成數(shù)據(jù)技術(shù)生成的仿真數(shù)據(jù)(如游戲引擎生成的視頻,以及對于大模型難以直接使用數(shù)據(jù)的加工和改造形成的新型數(shù)據(jù)如領(lǐng)域知識,可以提升模型對數(shù)據(jù)利用的可能性,對于推理、泛化等大模型核心能力的突破將起到更為顯著的作用。其二,合成數(shù)據(jù)和真實世界的配合使用提高了模型的安全性和可靠性。在LLM中,合成數(shù)據(jù)將更為廣泛地應(yīng)用于模型對齊階段,可以提升模型對齊能力,解決基于人類反饋的強(qiáng)化學(xué)習(xí)過程中人類回答標(biāo)準(zhǔn)不統(tǒng)一,因知識欠缺造成問答準(zhǔn)確性不足,以及人類提供反饋成本較高的問題。以高性能模型生成得到的高質(zhì)量合成數(shù)據(jù),以知識蒸餾的方式幫助輕量級模型進(jìn)一步的監(jiān)督學(xué)習(xí),并為下游開發(fā)提供準(zhǔn)確、高效的對齊數(shù)據(jù)來源,從整體上提高各種規(guī)模尺寸模型的性能,促進(jìn)模型安全。在圖像領(lǐng)域,合成數(shù)據(jù)可以彌補(bǔ)對抗樣本稀疏的缺陷,將合成圖像數(shù)據(jù)和普通圖像數(shù)據(jù)按照一定比例進(jìn)行混合,可以提高視覺模型對圖片的識別和判斷能力,即使在普通數(shù)據(jù)樣本完全缺失的情況下,使用合成數(shù)據(jù)進(jìn)行圖像識別訓(xùn)練,也可以得到接近普通數(shù)據(jù)樣本訓(xùn)練的效果,從而提升圖像識別的魯棒性。其三,合成數(shù)據(jù)可以替代個人特征數(shù)據(jù),有助于用戶隱私保護(hù),解決數(shù)據(jù)獲取合規(guī)性的問題。例如,當(dāng)合成數(shù)據(jù)用于推薦系統(tǒng),可以降低后者對個人信息的依賴。傳統(tǒng)的直接利用個人行為特征數(shù)據(jù)進(jìn)行推薦,模型并不能從文義角度理解用戶的需求,為了提升“猜你喜歡”的準(zhǔn)確度則需要獲取和分析大量的用戶行為特征信息。在推薦系統(tǒng)等涉及個人隱私信息的判別式模型中,通過與大模型的結(jié)合可以有效緩解該問題。首先,利用生成器自動產(chǎn)出個性化提示詞(即合成數(shù)據(jù))用于模型優(yōu)化;然后,發(fā)揮大模型對文義的推理能力,可以更好地預(yù)測用戶的實際需求。用戶和大模型進(jìn)行簡單溝通后,由大模型代為執(zhí)行推薦,在提升推薦匹配度的同時還可以降低推薦模型對個人特征數(shù)據(jù)的依賴。推薦模型不再高度依賴個人特征信息,也為隱私增強(qiáng)技術(shù)的加入提供了操作空間,在合成數(shù)據(jù)的生成過程可以加入差分隱私等去標(biāo)識技術(shù),推薦系統(tǒng)在不識別特定用戶的情況下也能良好判斷用戶的實際需求,進(jìn)行針對用戶實際需求而非臆測性、推斷性的推薦。4.74.7 在發(fā)展中治理的合成數(shù)據(jù)其一,相比于對合成數(shù)據(jù)量的擴(kuò)增,在應(yīng)用中要更重視質(zhì)的提升。首先,在語料中使用占比更高的仍然是來自真實世界的數(shù)據(jù)集,合成數(shù)據(jù)未被用于大規(guī)模替代真實數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。相反,如果此階段過多引入合成數(shù)據(jù),可能會影響訓(xùn)練數(shù)據(jù)分布,從而導(dǎo)致模型對世界知識的理解產(chǎn)生偏差。其次,合成數(shù)據(jù)的總體規(guī)模也會受到模型生成能力和生成速度的限制(例如按照當(dāng)前的合成圖像數(shù)據(jù)生成速度,在A100GPU上每個圖像生成時間大約為0.8s;啟用xformer時,在V100GPU上每個圖像的生成時間約為2秒。因此,更重要的是關(guān)注生成合成數(shù)據(jù)對客觀世界模擬的準(zhǔn)確性,更好滿足模型對訓(xùn)練數(shù)據(jù)差異化的需求,以及拓展模型對訓(xùn)練數(shù)據(jù)利用的可能性。較為通用的方案是按照一定比例將合成數(shù)據(jù)與真實世界的數(shù)據(jù)進(jìn)行混合,用于模型優(yōu)化,提升模型準(zhǔn)確性、魯棒性和安全性。其二,合成數(shù)據(jù)本身具備良好的安全性,在后續(xù)使用中較為可靠。用于模型優(yōu)化訓(xùn)練的合成數(shù)據(jù)目的在于替代普通優(yōu)化數(shù)據(jù)提高模型的對齊能力和垂類應(yīng)用效果,要達(dá)到此目的,合成數(shù)據(jù)安全性和真實性不低于真實世界的數(shù)據(jù),否則使用合成數(shù)據(jù)并不能更好地提升模型性能——如果合成數(shù)據(jù)的質(zhì)量低于真實數(shù)據(jù)的數(shù)據(jù),則可能造成模型性能不升反降,使用合成數(shù)據(jù)的價值也將大打折扣?,F(xiàn)實情況來看,合成數(shù)據(jù)往往也是通過高性能模型生成而得來的,此類模型具有良好的安全防護(hù)機(jī)制,能夠有效控制生成內(nèi)容的安全性,因此產(chǎn)生的合成數(shù)據(jù)在下游利用中可靠性良好,不會帶來“數(shù)據(jù)-模型自我循環(huán)”導(dǎo)致的模型失控問題。其三,對合成數(shù)據(jù)仍需設(shè)置相應(yīng)的安全管控策略,確保模型整體的安全性不會因為合成數(shù)據(jù)的使用而受到影響。一是加強(qiáng)對合成數(shù)據(jù)質(zhì)量的評估檢測。合成數(shù)據(jù)和其他類型的訓(xùn)練數(shù)據(jù)一樣,需要不斷提高準(zhǔn)確性和可靠性,而為了保證合成數(shù)據(jù)具有可用性價值,其準(zhǔn)確性和可靠性要高于普通的真實世界數(shù)據(jù)。二是為合成數(shù)據(jù)設(shè)置備用數(shù)據(jù)集。合成數(shù)據(jù)在模型訓(xùn)練中的使用還處于探索階段,需要更為審慎地觀察不同類型、模態(tài)和配比合成數(shù)據(jù)對模型性能帶來的影響,并為合成數(shù)據(jù)準(zhǔn)備備用的真實世界數(shù)據(jù)集,當(dāng)模型能力和安全性評測、紅隊測試等監(jiān)控指標(biāo)出現(xiàn)異常時,及時介入并采用備份的數(shù)據(jù)集繼續(xù)模型訓(xùn)練和應(yīng)用,保證模型的穩(wěn)定性。三是建議對用于模型優(yōu)化、對齊的合成數(shù)據(jù)在適當(dāng)環(huán)節(jié)引入人類參與。例如,對用于對齊階段生成的問答對和其他媒體格式內(nèi)容,在進(jìn)行模型優(yōu)化前進(jìn)行人工抽檢,確保后續(xù)模型調(diào)優(yōu)和對齊的質(zhì)量。0505PAGEPAGE17大模型訓(xùn)練數(shù)據(jù)白皮書大模型訓(xùn)練數(shù)據(jù)白皮書PAGEPAGE185.15.1 大模型對訓(xùn)練數(shù)據(jù)的使用特點對大模型訓(xùn)練數(shù)據(jù)治理的思考首先,在個人信息方面,模型訓(xùn)練階段不依賴個人信息,對公開個信的使用屬于合理使用。人工智能技術(shù)從依賴個人信息的決策模型轉(zhuǎn)向以大模型為代表的生成式AI,反映出數(shù)據(jù)需求的深刻變革。具體而言,大模型的技術(shù)核心在于模擬人類思維進(jìn)行內(nèi)容創(chuàng)造,輸入端的訓(xùn)練數(shù)據(jù)側(cè)重全球知識和高質(zhì)量語料,而非個人信息,即便在前端降低個人信息在訓(xùn)練數(shù)據(jù)中的含量和真實性,均不會對模型最后所展現(xiàn)的性能產(chǎn)生較大影響。其次,即便大模型訓(xùn)練語料中涵蓋個人信息,大模型研發(fā)者已按照相關(guān)安全要求,采取技術(shù)手段進(jìn)行數(shù)據(jù)清洗、去標(biāo)識化、匿名化等操作,對其中所涵蓋的個人信息進(jìn)行了最大化的去除。而剩余的通過爬蟲等技術(shù)獲取的位于公共領(lǐng)域的個人數(shù)據(jù),大模型對于此部分?jǐn)?shù)據(jù)的使用應(yīng)構(gòu)成合理使用的范疇。對大模型訓(xùn)練數(shù)據(jù)治理的思考其次,大模型對版權(quán)類訓(xùn)練語料的使用是轉(zhuǎn)換性使用,屬于合理使用或法定許可。大模型對于版權(quán)作品的使用,并不是以欣賞作品原有價值為目的而進(jìn)行利用,或?qū)υ凶髌穬?nèi)容進(jìn)行復(fù)制和傳播從而替代原有作品,而是為了掌握客觀規(guī)律并培養(yǎng)模型的基礎(chǔ)能力,就如給人類進(jìn)行教育需要對其進(jìn)行廣泛的知識授予一般。有鑒于此,用版權(quán)類數(shù)據(jù)對模型進(jìn)行訓(xùn)練,不應(yīng)被視為“復(fù)制式拷貝”的版權(quán)侵權(quán)行為,而應(yīng)屬于轉(zhuǎn)換性使用的范疇,并應(yīng)構(gòu)成“合理使用”或“法定許可”。目前,已有法律實踐在模型訓(xùn)練使用版權(quán)作品方面做出突破,如歐盟《單一數(shù)字市場版權(quán)指令》為符合條件的“文本和數(shù)據(jù)挖掘”設(shè)置了豁免例外,日本對《著作權(quán)法》的修訂將“不以欣賞作品原有價值為目的”的大模型數(shù)據(jù)訓(xùn)練納入到合理使用的范疇等。此外,模型訓(xùn)練已經(jīng)盡可能地采取了相關(guān)合規(guī)方案,來減少生成式人工智能造成知識產(chǎn)權(quán)侵權(quán)的風(fēng)險,具體包()()()避免跨越技術(shù)措施的爬取。5.25.2 大模型訓(xùn)練數(shù)據(jù)合規(guī)的治理之智基于大模型對訓(xùn)練數(shù)據(jù)的使用特點,應(yīng)構(gòu)建順應(yīng)模型發(fā)展的新時代的數(shù)據(jù)治理制度。2023年4月征求意見至7月正式公布期間,充分考慮了我國大模型發(fā)展的實際需要,在訓(xùn)練數(shù)據(jù)合規(guī)方面也適當(dāng)放寬了要求,如刪去訓(xùn)練數(shù)據(jù)“不含有侵犯知識產(chǎn)權(quán)”的表述,調(diào)整為在訓(xùn)練過程中“不得侵害他人依法享有的知識產(chǎn)權(quán)”同意,以及識別訓(xùn)練數(shù)據(jù)中的知識產(chǎn)權(quán)侵權(quán)風(fēng)險語料并進(jìn)行刪除等。此外,訓(xùn)練數(shù)據(jù)的供給不足一定程度上限制了我國大模型尤其是基礎(chǔ)模型的趕超式發(fā)展,對于訓(xùn)練數(shù)據(jù)的使用管住輸出端的事后風(fēng)險、放寬輸入端的事前限制是務(wù)實的政策選擇。二是提升模型安全訓(xùn)練數(shù)據(jù)的供給,鼓勵安全類數(shù)據(jù)集的開放共享。大模型的能力和表現(xiàn)非常依賴于前端數(shù)據(jù)的輸入,而安全數(shù)據(jù)集作為高質(zhì)量模型訓(xùn)練數(shù)據(jù)之一,具有正外部性,將有助于大模型的人類價值對齊,并對什么是安全和不安全的內(nèi)容,以及怎樣正向地回答這些問題進(jìn)行系統(tǒng)性的了解和學(xué)習(xí)。因此,覆蓋全類別、橫跨多領(lǐng)域的安全數(shù)據(jù)集的開放共享,將顯著提升人類價值觀對齊在性別、職業(yè)、種族、無障礙領(lǐng)域,并有助于提升大模型后端內(nèi)容生成和輸出的無毒性、安全性和可靠性,幫助大模型更加得體和正面地應(yīng)對更廣泛的問題。三是應(yīng)用新技術(shù)以提升訓(xùn)練數(shù)據(jù)的合規(guī)性和安全性,比如合成數(shù)據(jù)的使用可以增強(qiáng)對個信的保護(hù)。一方面合成數(shù)據(jù)的應(yīng)用可以減少對具有可識別性的個人特征數(shù)據(jù)的依賴,另一方面合成數(shù)據(jù)通過差分隱私“加噪聲”的技術(shù),可以有效實現(xiàn)去標(biāo)識化,從而有助于增強(qiáng)對個信的保護(hù),更好解決數(shù)據(jù)獲取合規(guī)性的問題。0606PAGEPAGE19大模型訓(xùn)練數(shù)據(jù)白皮書大模型訓(xùn)練數(shù)據(jù)白皮書PAGEPAGE20政府與社會力量協(xié)同的訓(xùn)練數(shù)據(jù)生態(tài)本節(jié)從政府和社會力量兩方面討論大模型訓(xùn)練數(shù)據(jù)的來源。通過中美對比的現(xiàn)狀,分析兩者的差異性,以及對我國人工智能領(lǐng)域數(shù)據(jù)要素發(fā)展的借鑒作用。政府與社會力量協(xié)同的訓(xùn)練數(shù)據(jù)生態(tài)從政府視角看,哪些公共數(shù)據(jù)可以支持大模型訓(xùn)練?我們梳理了以下幾種:一是,經(jīng)過權(quán)威認(rèn)證或凝聚共識的知識,如專利文檔、上市公司財報、法院判例/裁判文書、醫(yī)療診斷記錄、政策文本等,除了可用于預(yù)訓(xùn)練語料,還可應(yīng)用于行業(yè)大模型監(jiān)督微調(diào)或外掛語料庫建設(shè)。二是,具有科研屬性的數(shù)據(jù),主要特征有長周期、大規(guī)模、多模態(tài)、來源清晰、描述詳細(xì)、可使用,如天氣、醫(yī)療、地球科學(xué)、基礎(chǔ)科學(xué)領(lǐng)域等,用于AIforScience,讓模型提升從復(fù)雜數(shù)據(jù)中提煉規(guī)律,提升精準(zhǔn)預(yù)測的能力,同時拓展AI大模型在更多領(lǐng)域中應(yīng)用。三是,科研期刊論文,用于提升模型上下文的理解能力和邏輯推理能力。而社會力量整合政府開放數(shù)據(jù)與網(wǎng)絡(luò)公開數(shù)據(jù),在拓展廣度的同時,提升精細(xì)度和專業(yè)性?!皬V”的層面,社會力量將公共數(shù)據(jù)與網(wǎng)絡(luò)公開數(shù)據(jù)融合后做進(jìn)一步清洗和加工,形成具有多樣性、大規(guī)模、高質(zhì)量特點的預(yù)訓(xùn)練數(shù)據(jù)集。此外,社會力量還可以通過合成數(shù)據(jù)等技術(shù)手段,拓展模型對數(shù)據(jù)使用的可能性?!褒R”的層面,社會力量通過大量高質(zhì)量反饋做數(shù)據(jù)標(biāo)注,將模型產(chǎn)出與人類價值觀對齊。“?!钡膶用?,也會整合領(lǐng)域知識和經(jīng)驗,促進(jìn)語料的流通和共享,提供行業(yè)大模型所需的高質(zhì)量、專業(yè)性的數(shù)據(jù)供給。由此可見社會力量在大模型訓(xùn)練語料中所起到的主導(dǎo)作用。那么,美國與中國在獲取大模型數(shù)據(jù)方面的做法有哪些不同呢?6.16.1 美國的現(xiàn)狀美國聯(lián)邦政府在公共數(shù)據(jù)中承擔(dān)了“應(yīng)開盡開”的職責(zé),由社會力量來探索數(shù)據(jù)的應(yīng)用。政府開發(fā)了專門針對AI訓(xùn)練數(shù)據(jù)的開放平臺,并針對公共數(shù)據(jù)和科研數(shù)據(jù)進(jìn)行質(zhì)量維護(hù)和運(yùn)營管理,在保證數(shù)據(jù)可用性的同時降低公眾使用門檻。公共數(shù)據(jù)開放的范圍限定在政府?dāng)?shù)據(jù),包括各級政府及政府資助的大學(xué)和研究機(jī)構(gòu)。在開放共享階段,聯(lián)邦政府會對與AI相關(guān)的數(shù)據(jù)做標(biāo)識、在數(shù)據(jù)量大時做“上云”處理、定期更新、分類、清洗、標(biāo)注、結(jié)構(gòu)化、并確定分級開放權(quán)限。在開發(fā)利用階段,政府會提供便捷的用戶檢索服務(wù)、提供數(shù)據(jù)接口(AP。在科研論文方面,設(shè)立PubMed論文檢索系統(tǒng),整合國家醫(yī)學(xué)圖書館下屬的3個論文數(shù)據(jù)庫資源,記錄了3600萬+條生物醫(yī)學(xué)文獻(xiàn)的引用和摘要,并提供原文鏈接。在科研屬性公共數(shù)據(jù)方面,國家氣象和海洋局(NOAA)從衛(wèi)星、雷達(dá)、船舶等來源每天新產(chǎn)生數(shù)十TB數(shù)據(jù),按季度更新150個數(shù)據(jù)集,因數(shù)據(jù)量龐大存儲在云端。為方便公眾開發(fā)利用,提供了數(shù)據(jù)集API接口。在權(quán)威認(rèn)證的知識方面,如法院的裁判文書是很好的結(jié)構(gòu)化數(shù)據(jù),對于訓(xùn)練法律大模型價值很高。美國遵循“公開是原則,不公開是例外”的理念,除了隱去涉及國家秘密和個人隱私的信息,聯(lián)邦和地方法院都實現(xiàn)了公開,并提供了API接口供調(diào)用。在醫(yī)療領(lǐng)域,含有醫(yī)-患-藥信息的診療記錄、CT圖片及結(jié)果標(biāo)注構(gòu)成的醫(yī)學(xué)影像數(shù)據(jù)、基因組與疾病篩查數(shù)據(jù)等對于醫(yī)療大模型訓(xùn)練有較高價值,以國立衛(wèi)生研究院(NIH)為主的機(jī)構(gòu)在確保隱私保護(hù)的前提下對公眾實現(xiàn)分級分類開放(139個醫(yī)療健康數(shù)據(jù)庫,包含9個醫(yī)療影像數(shù)據(jù)庫,擁有超過0萬張CT圖像及標(biāo)注對、0個基因組數(shù)據(jù)庫,供社會力量使用。美國的社會力量整合政府的開放數(shù)據(jù)與網(wǎng)絡(luò)的公開數(shù)據(jù),提升數(shù)據(jù)精細(xì)度和專業(yè)性,形成以開源為主的高質(zhì)量訓(xùn)練語料。社會力量主要有開源/為主,站在前人的肩膀上不斷迭代。以在大模型中被廣泛應(yīng)用的,由開源組織EleutherAI開發(fā)的825GB高質(zhì)量英文語料庫ThePile為例,在22個子數(shù)據(jù)集中,來源于政府公共數(shù)據(jù)的有4個(PubMed庫、衛(wèi)生研究院數(shù)據(jù)等,這也體現(xiàn)了語料中不同類型數(shù)據(jù)有效搭配的重要性。在行業(yè)大模型中,社會力量對領(lǐng)域數(shù)據(jù)集的專業(yè)性也起到了重要貢獻(xiàn)。以把大模型當(dāng)做大腦來輔助運(yùn)行的具身智能機(jī)器人為例,GoogleDeepMindPAGEPAGE21大模型訓(xùn)練數(shù)據(jù)白皮書大模型訓(xùn)練數(shù)據(jù)白皮書PAGEPAGE22聯(lián)合33家學(xué)術(shù)實驗室,匯集了來自22種不同機(jī)器人類型數(shù)據(jù),涵蓋100多萬條片段,展示機(jī)器人在15萬項任務(wù)上的表現(xiàn),創(chuàng)建OpenX-Embodiment開源數(shù)據(jù)集?;谠摂?shù)據(jù)集訓(xùn)練的具身智能模型,解決了機(jī)器人在特定任務(wù)專業(yè)而通用能力差的難題,成功率提高50%,技能表現(xiàn)提高2倍。此外,在合成數(shù)據(jù)領(lǐng)域,美國的發(fā)展也顯示出積極的趨勢和廣泛的應(yīng)用前景,比如微軟在其投資組合中就包含了諸如hazy、Unstructured-IO等合成數(shù)據(jù)公司。在政府與社會力量協(xié)同的方面,美國聯(lián)邦政府發(fā)揮了AI訓(xùn)練數(shù)據(jù)“匯聚融合”的角色。為鞏固美國在AI領(lǐng)域的競爭優(yōu)勢,由政府主導(dǎo)推動為期6年的國家人工智能研究資源NAIRR計劃,讓AI研究者獲得更多算力和數(shù)據(jù)資源。計劃的原則是尊重社會力量的專業(yè)性,作為經(jīng)營主體的指導(dǎo)委員會中有多位來自AI業(yè)界和學(xué)界的資深人士。NAIRR在數(shù)據(jù)資源整合中發(fā)揮的作用體現(xiàn)在,聯(lián)邦政府通過建立數(shù)據(jù)資源服務(wù)平臺,匯聚政府與社會力量的開源數(shù)據(jù)資源。通過建立統(tǒng)一的數(shù)據(jù)匯聚標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)描述格式,促進(jìn)多方數(shù)據(jù)融合。倡導(dǎo)AI-Friendly的數(shù)據(jù)兼容性,將數(shù)據(jù)集整理和格式化成易于AI算法處理和學(xué)習(xí)的形式,如文檔的電子化程度、版面編排以及相關(guān)數(shù)據(jù)來源的完整性。同時推動多方協(xié)作的數(shù)據(jù)資源開發(fā)利用,如運(yùn)營數(shù)據(jù)集社區(qū)、提供數(shù)據(jù)搜索服務(wù)等。6.26.2 中國的現(xiàn)狀我國的公共數(shù)據(jù)采用主體性質(zhì)界分,包含各級行政機(jī)關(guān)在履行公共管理職能中獲取的數(shù)據(jù),覆蓋范圍比美國更廣,但在開放共享和開發(fā)利用程度上仍有不足。如天氣數(shù)據(jù)的開放,在中國氣象數(shù)據(jù)網(wǎng)查詢地面逐小時觀測資料時,個人用戶需注冊,且可選范圍被限定在7天以內(nèi);而對比NOAA,無需注冊即可下載,且以地表溫度為例,數(shù)據(jù)最早可追溯到1951年。在開發(fā)利用中,我國也僅對個別數(shù)據(jù)集提供了API接口。再如法律領(lǐng)域,最高人民法院設(shè)立了裁判文書網(wǎng),除例外情況外統(tǒng)一公布各級人民法院的生效判決書。但近年公開的數(shù)量有明顯下降趨勢,2020年上網(wǎng)文書2300多萬,而2023年截至12月僅公開300萬。另2024年1月將啟用“全國法院裁判文書庫”,僅法院人士在內(nèi)網(wǎng)可查詢。在醫(yī)療領(lǐng)域,對于模型訓(xùn)練價值較高的醫(yī)療影像、基因組數(shù)據(jù)開放程度非常有限,社會力量的探索呈現(xiàn)“散點狀”。我國的社會力量主要是結(jié)合海外優(yōu)質(zhì)開源數(shù)據(jù)集及中文語料,產(chǎn)出訓(xùn)練數(shù)據(jù)集。以阿里巴巴的“通義千問”大模型為例,訓(xùn)練數(shù)據(jù)來自公開來源的混合數(shù)據(jù),以中文和英文為主。而中文語料主要來自知乎、百度百科、百度知道等公開網(wǎng)絡(luò)數(shù)據(jù),來源于政府的公共數(shù)據(jù)非常少。從總體看,中文語料庫的開源情況不如英文普遍,據(jù)AI應(yīng)用開放社區(qū)HuggingFace數(shù)據(jù)統(tǒng)計,中文開源數(shù)據(jù)集數(shù)量僅占英文開源的11%。在行業(yè)大模型中,社會力量對行業(yè)數(shù)據(jù)集專業(yè)性有一定貢獻(xiàn),推動了在交通、政務(wù)、醫(yī)療等領(lǐng)域的應(yīng)用。整體看,用領(lǐng)域知識訓(xùn)練大模型仍面臨困難,第一是領(lǐng)域知識積累的專業(yè)門檻高、時間周期長。第二是企業(yè)出于商業(yè)利益和知識產(chǎn)權(quán)考慮,對領(lǐng)域知識共享意愿度低。第三是因為我國公共數(shù)據(jù)開放不足,導(dǎo)致部分行業(yè)缺少優(yōu)質(zhì)的數(shù)據(jù)供給。在這種情況下,如果還要試圖縮小已經(jīng)開放的公共數(shù)據(jù)范圍,那么高質(zhì)量語料短缺的問題將更為突顯。我國尚未形成對大模型提供有效供給的數(shù)據(jù)資源生態(tài)。相比美國政府以公共數(shù)據(jù)開放服務(wù)于訓(xùn)練語料,社會力量以融合公共數(shù)據(jù)和網(wǎng)絡(luò)公開數(shù)據(jù)提升語料廣度、精細(xì)度和專業(yè)性的生態(tài)模式,我國可供大模型訓(xùn)練的有效數(shù)據(jù)資源呈現(xiàn)碎片化分散狀態(tài)。中文語料、科研成果等高質(zhì)量數(shù)據(jù)集開放程度低,企業(yè)用于訓(xùn)練的語料來源不清晰、權(quán)屬不明確,開源后存在一定的合規(guī)隱患,使得企業(yè)更傾向于自采、自用,大模型數(shù)據(jù)流通機(jī)制尚未形成。此外,由于過多依賴刪除手段治理,導(dǎo)致網(wǎng)絡(luò)上有中式價值觀的高質(zhì)量公開語料供給較少。0707阿里巴巴集團(tuán)在大模型訓(xùn)練與應(yīng)用的探索以上闡述了大模型訓(xùn)練數(shù)據(jù)的技術(shù)原理,本節(jié)以阿里巴巴集團(tuán)在大模型訓(xùn)練和應(yīng)用中的部分案例,簡要說明訓(xùn)練數(shù)據(jù)在產(chǎn)業(yè)中的實現(xiàn)路徑。在大模型訓(xùn)練數(shù)據(jù)的處理和應(yīng)用中,阿里巴巴集團(tuán)整合優(yōu)質(zhì)的中文語料與海外開源數(shù)據(jù)集,在確保數(shù)據(jù)合規(guī)性的同時不斷迭代,優(yōu)化訓(xùn)練數(shù)據(jù)質(zhì)量。在探索不同數(shù)據(jù)類型之間的有效搭配時,阿里巴巴達(dá)摩院在語料學(xué)習(xí)順序中進(jìn)行了“數(shù)據(jù)課程”的設(shè)計,在預(yù)訓(xùn)練和監(jiān)督微調(diào)階段之間,引入了“持續(xù)預(yù)訓(xùn)練”環(huán)節(jié)。因為在達(dá)摩院推出面向東南亞語大模型SeaLLM時,面臨著東南亞區(qū)域語料供給稀缺的問題。遵循數(shù)據(jù)課程的邏輯,達(dá)摩院基于Llama-2模型,在預(yù)訓(xùn)練第一階段使用語言識別工具,只保留英、中、泰、越南、印尼語言的文檔;而在預(yù)訓(xùn)練第二階段篩選高棉語、老撾語、馬來語、緬甸語等特定語料專項學(xué)習(xí),通過持續(xù)預(yù)訓(xùn)練來擴(kuò)展詞匯量,專門針對東南亞語言進(jìn)行優(yōu)化,以確保模型能夠?qū)W習(xí)到豐富的語言特征和文化背景。在涉及個人信息內(nèi)容時,由于大模型訓(xùn)練不依賴個人信息,因此在訓(xùn)練階段會主動采用技術(shù)手段從源頭減少個人信息收集、降低個人信息在訓(xùn)練中的比例和真實性。在實踐中,由于預(yù)訓(xùn)練階段語料數(shù)量巨大,常采取“關(guān)鍵詞+正則表達(dá)式匹配”的方式檢測個人信息,然后執(zhí)行刪除或者模糊化操作。在合成數(shù)據(jù)的探索和應(yīng)用中,在電商場景嘗試通過合成數(shù)據(jù)實現(xiàn)LLM與推薦系統(tǒng)結(jié)合,更好地推理用戶真實需求。其技術(shù)路徑可概括為三步:第一,通過提示詞生成器,由算法根據(jù)上下文信息、用戶需求信息構(gòu)建定制化的提示詞;第二,用合成數(shù)據(jù)對預(yù)訓(xùn)練大模型做優(yōu)化,這通常用效率較高的“提示詞微調(diào)”方法實現(xiàn)。第三,利用微調(diào)后大模型的推理能力,給出更為合理的、用戶能夠理解的推薦理由,讓用戶更容易理解推薦內(nèi)容。引入LLM之后的推薦系統(tǒng)可以在效能提升和隱私保護(hù)兩方面具備優(yōu)勢。從效能提升視角看,一是推薦商品的豐富性提升,由于大模型具有推理能力,通過推薦思路可以無限向外擴(kuò)展,豐富的內(nèi)容可以引導(dǎo)用戶的發(fā)現(xiàn)性。二是無需冷啟動,由于大模型具有少樣本甚至零樣本學(xué)習(xí)的能力,推薦可以依賴大模型內(nèi)在的客觀世界知識,不需要大量場景數(shù)據(jù)的積累,就能快速遷移和復(fù)用。三是可解釋性增強(qiáng),將大模型的推薦思路以推薦理由的形式外化給消費者,可以讓用戶更好理解推薦的邏輯。甚至可以通過LLM與用戶的多輪交互,響應(yīng)實時訴求,做到可交互性。從隱私保護(hù)視角看,引入合成數(shù)據(jù)會降低推薦系統(tǒng)對用戶行為等數(shù)據(jù)的依賴程度。此外,用差分隱私的語言模型可以創(chuàng)造一批“加噪聲”的合成數(shù)據(jù),這些數(shù)據(jù)在統(tǒng)計上代表了原始數(shù)據(jù),但不包含任何個人可識別的信息。用這些合成數(shù)據(jù)來訓(xùn)練,即使模型學(xué)到了很多東西,也不會侵犯到真實用戶的隱私。0808以更開放和務(wù)實的方式解決高質(zhì)量訓(xùn)練數(shù)據(jù)供給促進(jìn)我國人工智能數(shù)據(jù)體系建設(shè),需要理解大模型對訓(xùn)練數(shù)據(jù)的實際需求,數(shù)據(jù)質(zhì)量與模型能力的關(guān)系,綜合利用政府和社會力量各方資源推動數(shù)據(jù)的開放、開發(fā)和利用,構(gòu)建共享、共創(chuàng)、共贏的合作生態(tài)。在意識層面,制度設(shè)計要給技術(shù)發(fā)展預(yù)留空間。正如國務(wù)院研究室副主任陳昌盛在“關(guān)于當(dāng)前促進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展的六個優(yōu)先”中提到的,“數(shù)據(jù)的可及性優(yōu)先于數(shù)據(jù)的確權(quán)”。隨著模型能力提升和模態(tài)擴(kuò)展,高質(zhì)量數(shù)據(jù)類型的演進(jìn)具有不確定性,難以預(yù)判,因此在不違反國家安全、個信保護(hù)、企業(yè)商秘三條紅線的前提下,對大模型訓(xùn)練數(shù)據(jù)的使用應(yīng)持更開放的態(tài)度,不要過多在輸入端做管控,要給技術(shù)發(fā)展預(yù)留空間。而對待剩余風(fēng)險,可以更多采用輸出端限制和事后救濟(jì)補(bǔ)償?shù)脑瓌t。因為在技術(shù)原理上,一方面大模型訓(xùn)練不依賴個人信息,另一方面對版權(quán)類數(shù)據(jù)的學(xué)習(xí)屬于轉(zhuǎn)換性使用,并非直接的拷貝和復(fù)制,可被視為合理使用。另外,對正在發(fā)展中的技術(shù),應(yīng)以促進(jìn)開發(fā)利用為目標(biāo)確定保護(hù)規(guī)則,推動模型能力建設(shè),特別是對作為中間產(chǎn)品類型的合成數(shù)據(jù),不宜過早過度保護(hù)。在操作層面,高質(zhì)量數(shù)據(jù)要素的供給離不開政府與社會力量的市場化分工協(xié)同。如同人工智能的發(fā)展歷程一樣,如何構(gòu)建高質(zhì)量數(shù)據(jù)也并沒有標(biāo)準(zhǔn)答案和成功先例。此類問題要想取得突破,正如著名經(jīng)濟(jì)學(xué)家許成鋼所說,需要的不是政府直接干預(yù),而是大量的自由探索和大批的獨立研究。特別是在具有專業(yè)性和需要試錯迭代的領(lǐng)域,基于市場優(yōu)勝劣汰可以更高效的判斷好壞、配置資源。在政府側(cè),對可用于模型訓(xùn)練的公共數(shù)據(jù)鼓勵“應(yīng)開盡開”,在數(shù)據(jù)開放過程中不要過多預(yù)設(shè)使用場景。在社會力量側(cè),企業(yè)和相關(guān)機(jī)構(gòu)“應(yīng)試盡試”,通過在數(shù)據(jù)混合與數(shù)據(jù)課程環(huán)節(jié)的不斷迭代,尋找發(fā)揮最大價值的“配方”。在該過程中,社會力量本質(zhì)上是憑借各自對技術(shù)和市場的理解,投入時間、人力和算力,探索數(shù)據(jù)集的構(gòu)建方法。在市場機(jī)制層面,高質(zhì)量語料效果會在模型訓(xùn)練和應(yīng)用中得到檢驗,其價值可依據(jù)商業(yè)合同對價按效果付費,而不是按資源占用規(guī)模。對于有確定性、已經(jīng)研究清楚的數(shù)據(jù)類型,要堅決促進(jìn)利用。對有助于模型提升對價值觀引導(dǎo)能力的中式價值觀語料,以及增強(qiáng)對物理世界專業(yè)性理解的科研數(shù)據(jù),應(yīng)高度重視開放共享和開發(fā)利用,涉及到版權(quán)類語料要旗幟鮮明地掃清制度障礙。特別是對于受財政支持的科研或文化單位所有的知識產(chǎn)權(quán)類價值觀語料,應(yīng)盡快向社會公開用于基礎(chǔ)大模型訓(xùn)練,同時可基于非營利性成本補(bǔ)償原則明確合理收費標(biāo)準(zhǔn),如媒體的主流價值觀數(shù)據(jù),國家圖書館電子化圖書、歷史典籍、數(shù)字報紙、科研期刊和論文等。AIAI大模型需要什么樣的數(shù)據(jù)PAGE2PAGE2正文目錄大模型需要什么樣的數(shù)據(jù)集 5數(shù)據(jù)將是未來AI大模型競爭的關(guān)鍵要素 5數(shù)據(jù)集如何產(chǎn)生 7他山之石#1:海外主要大語言模型數(shù)據(jù)集 9數(shù)據(jù)集#1:維基百科 9數(shù)據(jù)集#2:書籍 10數(shù)據(jù)集#3:期刊 10數(shù)據(jù)集來自Reddit鏈接) 數(shù)據(jù)集#5:Commoncrawl/C4 13其他數(shù)據(jù)集 13他山之石#2:海外主要多模態(tài)數(shù)據(jù)集 14類別#1:語音+文本 14類別#2:圖像+文本 15類別#3:視頻+圖像+文本 16類別#4:圖像+語音+文本 17類別#5:視頻+語音+文本 17他山之石#3:海外主要大模型數(shù)據(jù)集由何方發(fā)布 18高質(zhì)量語言數(shù)據(jù)和圖像數(shù)據(jù)或?qū)⒑谋M,合成數(shù)據(jù)有望生成大模型數(shù)據(jù) 19數(shù)字中國戰(zhàn)略助力中國大模型數(shù)據(jù)基礎(chǔ)發(fā)展 22中國AI大模型數(shù)據(jù)集從哪里來 22中國大模型如何構(gòu)建數(shù)據(jù)集#1:LLM 24中國大模型如何構(gòu)建數(shù)據(jù)集#2:多模態(tài)大模型 25中國開源數(shù)據(jù)集#1:大語言模型數(shù)據(jù)集 26中國開源數(shù)據(jù)集#2:多模態(tài)模型數(shù)據(jù)集 30國內(nèi)數(shù)據(jù)要素市場建設(shè)逐步完善,助力優(yōu)質(zhì)數(shù)據(jù)集生產(chǎn)流通 32數(shù)據(jù)交易環(huán)節(jié):數(shù)據(jù)交易所發(fā)展進(jìn)入新階段,緩解中文數(shù)據(jù)集數(shù)量不足問題 34數(shù)據(jù)加工環(huán)節(jié):數(shù)據(jù)服務(wù)產(chǎn)業(yè)加速發(fā)展,助力中文數(shù)據(jù)集質(zhì)量提升 35時代數(shù)據(jù)的監(jiān)管與隱私保護(hù)問題 37科技科技PAGE3PAGE3圖表目錄圖表1:更高質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)是GPT模型成功的驅(qū)動力;而除模型權(quán)重變化之外,模型架構(gòu)保持相似 5圖表2:以數(shù)據(jù)為中心的AI:模型不變,通過改進(jìn)數(shù)據(jù)集質(zhì)量提升模型效果 5圖表3:以數(shù)據(jù)為中心的AI:工作流拆解 6圖表4:數(shù)據(jù)標(biāo)注基本流程 7圖表5:數(shù)據(jù)采集三種常見方式 7圖表6:缺失數(shù)據(jù)的處理方法 8圖表7:三大類數(shù)據(jù)標(biāo)注 8圖表8:各數(shù)據(jù)標(biāo)注質(zhì)量評估算法對比 9圖表9:大語言模型數(shù)據(jù)集綜合分析 9圖表10:英文維基百科數(shù)據(jù)集分類 10圖表BookCorpus分類 10圖表12:ArVix官網(wǎng) 圖表13:美國國家衛(wèi)生研究院官網(wǎng) 圖表14:前50個域 12圖表15:C4前23個域名(不包括維基百科) 13圖表16:按有效尺寸劃分的ThePile組成樹狀圖 13圖表17:其他常見NLP數(shù)據(jù)集 14圖表18:多模態(tài)大模型數(shù)據(jù)集介紹 14圖表19:SEMAINE——四個SAL角色化身 15圖表20:LAION-400M搜索“藍(lán)眼睛的貓”得出的結(jié)果示例 16圖表21:LAION-5B搜索“法國貓”得出的結(jié)果示例 16圖表22:OpenViDial——兩個簡短對話中的視覺環(huán)境 16圖表23:YFCC100M數(shù)據(jù)集中100萬張照片樣本的全球覆蓋 17圖表24:CH-SIMS與其他數(shù)據(jù)集之間注釋差異的示例 17圖表25:IEMOCAP——有8個攝像頭的VICON運(yùn)動捕捉系統(tǒng) 18圖表26:MELD數(shù)據(jù)集——對話中和對話前說話人情緒變化對比 18圖表27:常見大模型數(shù)據(jù)集發(fā)布方總結(jié) 19圖表28:低質(zhì)量語言數(shù)據(jù)集數(shù)據(jù)或?qū)⒂?030年耗盡 20圖表29:高質(zhì)量語言數(shù)據(jù)集數(shù)據(jù)或?qū)⒂?026年耗盡 20圖表30:圖像數(shù)據(jù)存量為~2.3e13 20圖表31:圖像數(shù)據(jù)集數(shù)據(jù)趨勢或?qū)⒂?030~2060年耗盡 20圖表32:GPT-4技術(shù)報告中對合成數(shù)據(jù)應(yīng)用的探討 20圖表33:到2030年AI模型中的合成數(shù)據(jù)將完全蓋過真實數(shù)據(jù) 21圖表34:NVIDIAOmniverse——用戶可使用Python為自動駕駛車輛生成合成數(shù)據(jù) 21圖表35:2021-2026中國數(shù)據(jù)量規(guī)模CAGR達(dá)到24.9%,位居全球第一 22圖表36:國內(nèi)各行業(yè)數(shù)據(jù)量分布及增長預(yù)測 22圖表37:數(shù)據(jù)集分布及發(fā)展趨勢 23圖表38:國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的主要原因 23圖表39:國內(nèi)科技互聯(lián)網(wǎng)廠商訓(xùn)練大模型基于的數(shù)據(jù)基礎(chǔ) 24科技科技PAGE4PAGE4圖表40:中國大語言模型數(shù)據(jù)集構(gòu)成 24圖表41:華為盤古大模型1.1TB中文文本語料庫數(shù)據(jù)組成 25圖表42:WeLM大模型訓(xùn)練語料庫統(tǒng)計 25圖表43:中國多模態(tài)模型數(shù)據(jù)集構(gòu)成 25圖表44:M6預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)成 26圖表45:InternVideo預(yù)訓(xùn)練過程中使用的數(shù)據(jù)集統(tǒng)計 26圖表46:DuReader漢語六種題型示例(附英文注釋) 26圖表47:WuDaoCorpora示例 27圖表48:CAIL2018示例 27圖表49:Math23K和其他幾個公開數(shù)據(jù)集對比 28圖表50:Ape210K與現(xiàn)有數(shù)學(xué)應(yīng)用題數(shù)據(jù)集的比較 28圖表51:DRCD的問題類型 28圖表52:不同漢語語法糾錯語料庫的對比 29圖表53:E-KAR與以往類比基準(zhǔn)的比較 29圖表54:豆瓣會話語料庫統(tǒng)計 29圖表55:ODSQA、DRCD-TTS、DRCD-backtrans的數(shù)據(jù)統(tǒng)計 29圖表56:中問題、描述和答案的平均字符數(shù)和單詞數(shù) 30圖表57:MUGE數(shù)據(jù)集——多模態(tài)數(shù)據(jù)示例 30圖表58:WuDaoMM數(shù)據(jù)集——強(qiáng)相關(guān)性圖像-文本對示例 30圖表59:Noah-Wukong數(shù)據(jù)集——模型概述 31圖表60:Zero數(shù)據(jù)集——示例 31圖表61:COCO-CN數(shù)據(jù)集——示例 31圖表62:Flickr30k-CN數(shù)據(jù)集——跨語言圖像字幕示例 31圖表63:Product1M數(shù)據(jù)集——多模態(tài)實例級檢索 32圖表64:AIChallenger數(shù)據(jù)集——示例 32圖表65:數(shù)據(jù)要素是數(shù)字中國發(fā)展框架中的重要環(huán)節(jié)之一 32圖表66:我國數(shù)據(jù)要素相關(guān)政策 33圖表67:我國數(shù)據(jù)要素市場規(guī)模及預(yù)測 33圖表68:數(shù)據(jù)要素流通產(chǎn)業(yè)鏈 34圖表69:國內(nèi)大數(shù)據(jù)交易所建設(shè)歷程 34圖表70:GPT3訓(xùn)練中各國語言占比 35圖表71:數(shù)據(jù)服務(wù)商在數(shù)據(jù)要素市場中的角色 35圖表72:國內(nèi)各類型數(shù)據(jù)服務(wù)商企業(yè)統(tǒng)計樣本數(shù)及占比 36圖表73:大模型數(shù)據(jù)隱私問題實例 37圖表74:各地區(qū)數(shù)據(jù)隱私相關(guān)法律 38圖表75:隱私保護(hù)計算的五大關(guān)鍵技術(shù) 38圖表76:國內(nèi)外數(shù)據(jù)處理相關(guān)公司 40圖表77:全文提及公司列表 41AI大模型需要什么樣的數(shù)據(jù)集數(shù)據(jù)將是未來AI大模型競爭的關(guān)鍵要素人工智能發(fā)展的突破得益于高質(zhì)量數(shù)據(jù)的發(fā)展。例如,大型語言模型的最新進(jìn)展依賴于更相比,GPT-3對模型架構(gòu)只進(jìn)行了微小的修改,ChatGPTGPT-3RLHF(來自人工反饋過程的強(qiáng)化學(xué)習(xí))來生成用于微調(diào)的高質(zhì)量標(biāo)記數(shù)據(jù)。圖表1:更高質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)是GPT模型成功的驅(qū)動力;而除模型權(quán)重變化之外,模型架構(gòu)保持相似4.8GB(未過濾)數(shù)據(jù) 解釋上述內(nèi)容 類過濾數(shù)據(jù) 是多少? 570GB過濾數(shù)據(jù),來自45TB原始數(shù)據(jù) “飲料做好了”是中性、負(fù)面還是正面? 人工示范和標(biāo)注 模型固定數(shù)據(jù)規(guī)?!鼣?shù)據(jù)質(zhì)量↑“飲料做好了”是中性類似的資料來源:DaochenZhaetalData-centricArtificialIntelligenceASurvey2023,華泰研究AI對固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個模型的訓(xùn)練效果。提升數(shù)據(jù)集質(zhì)量的方法主要有:添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護(hù)數(shù)據(jù)等。因此,我們認(rèn)為未來數(shù)據(jù)成本在大模型開發(fā)中的成本占比或?qū)⑻嵘?,主要包括?shù)據(jù)采集,清洗,標(biāo)注等成本。圖表2:以數(shù)據(jù)為中心的AI:模型不變,通過改進(jìn)數(shù)據(jù)集質(zhì)量提升模型效果資料來源:DaochenZhaetal."Data-centricArtificialIntelligence:ASurvey"2023,華泰研究科技科技PAGE10PAGE10圖表3:以數(shù)據(jù)為中心的AI:工作流拆解資料來源:DaochenZhaetal."Data-centricArtificialIntelligence:ASurvey"2023,華泰研究我們認(rèn)為AI大模型需要高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集。高質(zhì)量:高質(zhì)量數(shù)據(jù)集能夠提高模型精度與可解釋性,并且減少收斂到最優(yōu)解的時間,即減少訓(xùn)練時長。大規(guī)模:OpenAI在《ScalingLawsforNeuralLanguageModelsLLM模型所遵循的“伸縮法則”(scanga,即獨立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)?;蛘哐娱L模型訓(xùn)練時間,預(yù)訓(xùn)練模型的效果會越來越好。合訓(xùn)練數(shù)據(jù)。數(shù)據(jù)集如何產(chǎn)生1)數(shù)據(jù)采集;2)值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題;3)數(shù)據(jù)標(biāo)注:最重要的一個環(huán)節(jié);4)模型訓(xùn)練:測試并將測試結(jié)果反饋給模型訓(xùn)練人員,而模型訓(xùn)練人員通過不斷地調(diào)整參數(shù),以便獲得性能更好的算法模型;6)產(chǎn)品評估:產(chǎn)品評估人員使用并進(jìn)行上線前的最后評估。圖表4:數(shù)據(jù)標(biāo)注基本流程資料來源:蔡莉等《數(shù)據(jù)標(biāo)注研究綜述》2020,華泰研究流程#1:數(shù)據(jù)采集。采集的對象包括視頻、圖片、音頻和文本等多種類型和多種格式的數(shù)據(jù)。數(shù)據(jù)采集目前常用的有三種方式,分別為:1)系統(tǒng)日志采集方法;2)網(wǎng)絡(luò)數(shù)據(jù)采集方法;3)ETL。圖表5:數(shù)據(jù)采集三種常見方式數(shù)據(jù)采集三種常見方式數(shù)據(jù)采集三種常見方式ETL網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)日志采集方法構(gòu)建應(yīng)用系統(tǒng)和分析系統(tǒng)的橋梁,并將它們之間的關(guān)聯(lián)解耦;支持近實時的在線分析系統(tǒng)和分布式并發(fā)的離線分析系統(tǒng);具有高可擴(kuò)展性,也就是說,當(dāng)數(shù)據(jù)量增加時,可以通過增加節(jié)點進(jìn)行水平擴(kuò)展;目前為止,運(yùn)用較為廣泛的有Flume、Chukwa、Scrible和Kafka。

通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API方式獲取大數(shù)據(jù)信息;python爬蟲、分布式網(wǎng)絡(luò)爬蟲工具、Java網(wǎng)絡(luò)爬蟲工具、非Java網(wǎng)絡(luò)爬蟲工具。分布式網(wǎng)絡(luò)爬蟲工具,如Nutch。

即Extract-Transform-Load,描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程;它是一個數(shù)據(jù)集成過程,將來自多個數(shù)據(jù)源的數(shù)據(jù)組加載到數(shù)據(jù)倉庫或其他目標(biāo)系統(tǒng)中。資料來源:CSDN,Apache,Scrible,Python,GitHub,Scrapy,IBM,搜狗百科,華泰研究流程#2:數(shù)據(jù)清洗是提高數(shù)據(jù)質(zhì)量的有效方法。由于采集到的數(shù)據(jù)可能存在缺失值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題,故需要執(zhí)行數(shù)據(jù)清洗任務(wù),數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié),清洗后數(shù)據(jù)的質(zhì)量很大程度上決定了AI算法的有效性。圖表6:缺失數(shù)據(jù)的處理方法資料來源:鄧建新等《缺失數(shù)據(jù)的處理方法及其發(fā)展趨勢》2019,華泰研究流程#3:數(shù)據(jù)標(biāo)注是流程中最重要的一個環(huán)節(jié)。管理員會根據(jù)不同的標(biāo)注需求,將待標(biāo)注的數(shù)據(jù)劃分為不同的標(biāo)注任務(wù)。每一個標(biāo)注任務(wù)都有不同的規(guī)范和標(biāo)注點要求,一個標(biāo)注任務(wù)將會分配給多個標(biāo)注員完成。矩形框標(biāo)注3D立體框標(biāo)注圖表矩形框標(biāo)注3D立體框標(biāo)注文本標(biāo)注文本標(biāo)注語音標(biāo)注圖像標(biāo)注文本分類OCR轉(zhuǎn)寫實體標(biāo)注情感標(biāo)注意圖標(biāo)注文本分類OCR轉(zhuǎn)寫實體標(biāo)注情感標(biāo)注意圖標(biāo)注語義標(biāo)注發(fā)音校對語音清洗語音切割韻腳標(biāo)注音素標(biāo)注情緒判定實例分割線段標(biāo)注 目標(biāo)跟蹤標(biāo)注 NLP標(biāo)注資料來源:DevolShah“AStep-by-StepGuidetoTextAnnotation”2022,CSDN,景聯(lián)文科技,華泰研究流程#4:最終通過產(chǎn)品評估環(huán)節(jié)的數(shù)據(jù)才算是真正過關(guān)。產(chǎn)品評估人員需要反復(fù)驗證模型的標(biāo)注效果,并對模型是否滿足上線目標(biāo)進(jìn)行評估。圖表8:各數(shù)據(jù)標(biāo)注質(zhì)量評估算法對比缺點缺點優(yōu)點算法名稱分類圖像標(biāo)注質(zhì)量評估算法 MV算法 簡單易用,常用作其他眾包質(zhì)量控制算法的基準(zhǔn)算法 沒有考慮到每個標(biāo)注任務(wù)、標(biāo)注者的不同可靠性EM算法 在一定意義下可以收斂到局部最大化 數(shù)據(jù)缺失比例較大時,收斂速度比較緩慢RY算法 將分類器與Ground-truth結(jié)合起來進(jìn)行學(xué)習(xí) 需要對標(biāo)注專家的特異性和敏感性強(qiáng)加先文本標(biāo)注質(zhì)量評估算法 BLEU算法 方便、快速、結(jié)果有參考價值 測評精度易受常用詞干擾ROUGE算法 參考標(biāo)注越多,待評估數(shù)據(jù)的相關(guān)性就越高 無法評價標(biāo)注數(shù)據(jù)的流暢度METEOR算法評估時考慮了同義詞匹配,提高了評估的準(zhǔn)確率 長度懲罰,當(dāng)被評估的數(shù)據(jù)量小時,測量精度較高CIDEr算法 從文本標(biāo)注質(zhì)量評估的相關(guān)性上升到質(zhì)量評估的相似性進(jìn) 對所有匹配上的詞都同等對待會導(dǎo)致部分詞的重要性被削弱SPICE算法 從圖的語義層面對圖像標(biāo)注進(jìn)行評估 圖的語義解析方面還有待進(jìn)一步完善ZenCrowd算法

和效率的共同提高

無法自動為定實體選擇最佳數(shù)據(jù)集語音標(biāo)注質(zhì)量評估算法 WER算法 可以分?jǐn)?shù)字、英文、中文等情況分別來看 當(dāng)數(shù)據(jù)量大時,性能會特別差SER算法 對句子的整體性評估要優(yōu)于WER算法 句錯誤率較高,一般是詞錯誤率的2倍~3倍資料來源:蔡莉等《數(shù)據(jù)標(biāo)注研究綜述》2020,華泰研究他山之石#1:海外主要大語言模型數(shù)據(jù)集參數(shù)量和數(shù)據(jù)量是判斷大模型的重要參數(shù)。20182018GPT-1GPT-3753GB,2021Gopher10,550GB到LLaMARedditCommonCrawl和其他數(shù)據(jù)集。圖表9:大語言模型數(shù)據(jù)集綜合分析大模型 維基百科 書籍 期刊 Reddit鏈接 CommonCrawl 其他 合計GPT-14.64.6GPT-24040GPT-311.4611.46.42150 167 ThePilev111863Megatron-11B4.638

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論