人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓練方法實踐-北京智源+周華_第1頁
人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓練方法實踐-北京智源+周華_第2頁
人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓練方法實踐-北京智源+周華_第3頁
人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓練方法實踐-北京智源+周華_第4頁
人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓練方法實踐-北京智源+周華_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

人工智能行業(yè)數(shù)據(jù)集構(gòu)建及模型訓練方法實踐北京智源人工智能研究院大模型行業(yè)應用總監(jiān)1行業(yè)大模型落地難,難在哪里?專業(yè)需求大模型能力與專業(yè)業(yè)務需求對齊難數(shù)據(jù)構(gòu)建專業(yè)需求大模型能力與專業(yè)業(yè)務需求對齊難行業(yè)大模型專業(yè)數(shù)據(jù)集構(gòu)建難訓練技術(shù)人員算力成本高訓練技術(shù)人員算力成本高,技術(shù)能力建設難現(xiàn)有IT系統(tǒng)的大模型集成和演進難2 一.行業(yè)數(shù)據(jù)集的制作技術(shù)分享二.行業(yè)模型訓練新范式的實踐三.NL2SQL助力大模型與傳統(tǒng)IT系統(tǒng)集成3助力解決行業(yè)模型訓練數(shù)據(jù)問題數(shù)據(jù)是提升大模型性能和實現(xiàn)行業(yè)應用落地的關(guān)鍵。行業(yè)數(shù)據(jù)現(xiàn)狀數(shù)據(jù)量少數(shù)據(jù)質(zhì)量低行業(yè)數(shù)據(jù)現(xiàn)狀數(shù)據(jù)量少數(shù)據(jù)質(zhì)量低行業(yè)覆蓋少行業(yè)數(shù)據(jù)帶來的裨益愿景數(shù)據(jù)量足夠大質(zhì)量足夠高行業(yè)覆蓋多提升模型性能提升模型性能:行業(yè)數(shù)據(jù)中包含專業(yè)的、領域特定的知識或業(yè)務流程;實現(xiàn)應用落地:高質(zhì)量的行業(yè)數(shù)據(jù)是大模型實際應用中落地增強模型適應性:行業(yè)數(shù)據(jù)使模型可以適配行業(yè)中獨有的場景問題或挑戰(zhàn);促進創(chuàng)新:行業(yè)數(shù)據(jù)極大推動不同的工作模式創(chuàng)新4 ?開源數(shù)據(jù)3.4T(2.4EN+1.0ZH) 行業(yè)覆蓋廣?一期18個行業(yè)分類行業(yè)覆蓋廣?二期擴展到30個行業(yè)分類數(shù)據(jù)類型多?行業(yè)預訓練數(shù)據(jù)數(shù)據(jù)類型多數(shù)據(jù)質(zhì)量高?預訓練數(shù)據(jù):基于規(guī)則+模型的多重質(zhì)量提升方案數(shù)據(jù)質(zhì)量高?指令數(shù)據(jù):基于指令復雜性+回復質(zhì)量+多輪相關(guān)性的篩選方案數(shù)據(jù)靈活度高?語種可分:方便行業(yè)數(shù)據(jù)配比實驗數(shù)據(jù)靈活度高?行業(yè)可分:便于多行業(yè)靈活組合配比189.4--274.6458.458.564.146.9333.682.5442編程法律教育金融計算機科技旅游農(nóng)業(yè)情感汽車人工智能時政數(shù)學體育文學新聞影視醫(yī)學圖2.本次開源行業(yè)數(shù)據(jù)集與其它開源行業(yè)數(shù)據(jù)的對比(GB)5語種劃分:識別數(shù)據(jù)語種并進行分別歸檔,這一步放在整個處理的前置階段,可以保證不同語種數(shù)據(jù)分布可被感知。行業(yè)分類:對數(shù)據(jù)進行行業(yè)領域分類,要保證數(shù)據(jù)分類的準確性和類別設置的覆蓋性;質(zhì)量評估:評估數(shù)據(jù)的質(zhì)量,對低質(zhì)數(shù)據(jù)進行過濾刪除?;谝?guī)則:文本長度,特殊字符占比,有毒有害,隱私敏感等;基于模型:質(zhì)量打分模型、模型困惑度6如何實現(xiàn)數(shù)據(jù)的行業(yè)劃分對數(shù)據(jù)進行領域識別是一個典型的文本分類任務:對數(shù)據(jù)進行領域識別是一個典型的文本分類任務:構(gòu)借助LLM多輪生成文本類別,篩選多次生成類別一致數(shù)據(jù);開源新聞數(shù)據(jù),配比10%;模型選型:預訓練Bert、GPT模型,NLU略優(yōu)于NLG訓練方式:basemodel更新參數(shù)模型表現(xiàn)排名:模型表現(xiàn)排名:1.bge-m3(指標高,收斂快)2.qwen1.5-0.5b-chat3.bge-m3(freeze)4.bert-snowflake(fineweb-edu選用)為什么要提升數(shù)據(jù)質(zhì)量{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslated{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslatedfrom*ChineseJournalofBiochemistryandMolecularBiology*,2007,23(2):154--159\\[譯自:中國生物化學與分子生物學報\\]\n","quality_score":0.38929006457328796,}{"text":"![](brjcancer00428-0139.tif\"scanned\"){.737}\n","quality_score":-0.3435468375682831,}{"text":"#ifndef_IMGBMP_H_\n#define_IMGBMP_H_\n\n#ifdefcplusplus\nextern\"C\"{\n#endif\n\nconstuint8_tbmp[]={\n\\/\\/--調(diào)入了一幅圖像:D:\\我的文檔\\MyPictures\\12864-555.bmp--*\\/\n\\/\\/--寬度x高度=128x64--\n0x00,0x06,0x0A,0xFE,0x0A,0xC6,0x00,0xE0,0x00,0xF0,0x00,0xF8,0x00,0x00,0x00,0x00,\n0x00,0x00,0xFE,0x7D,0xBB,0xC7,0xEF,0xEF,0xEF,0xEF,0xEF,,\n};\n\n\n#ifdef cplusplus\n}\n#endif\n\n#endif\\/\\/_IMGBMP_H__SSD1306_16BIT_H_\n”,"quality_score":0.5241761803627014}低質(zhì)量的數(shù)據(jù)在學習過程中貢獻大量Loss是對模型的傷害;在同等數(shù)據(jù)量情況下,數(shù)據(jù)質(zhì)量越高對模型越有幫助;14B高質(zhì)量數(shù)據(jù)可以達到50B未篩選前數(shù)據(jù)表現(xiàn),3倍訓練效率;8如何提升數(shù)據(jù)的質(zhì)量數(shù)據(jù)質(zhì)量過濾漏斗:對數(shù)據(jù)逐層過濾,逐步提升數(shù)據(jù)質(zhì)量;質(zhì)量模型表現(xiàn):具備中英文能力,高質(zhì)量數(shù)據(jù)指標F1=0.82,對比GPT4質(zhì)量判定一致率為90%;開源打分模型表現(xiàn):通常中文能力較差,不適用中文場景圖1.數(shù)據(jù)質(zhì)量評估流程中文+英文:數(shù)據(jù)語種可分帶來的優(yōu)勢繼續(xù)預訓練階段數(shù)據(jù)的繼續(xù)預訓練階段數(shù)據(jù)的語種配比,領域配比,訓練超參對整個模型的訓練有非常大的影響。如果CPT階段的數(shù)據(jù)分布與基礎模型的數(shù)據(jù)分布差異過大很容易導致訓練崩潰。數(shù)據(jù)語種和領域種類可分為開發(fā)者帶來更多數(shù)據(jù)組合便利。?同一數(shù)據(jù),不同模型表現(xiàn)差異較大?同一模型,不同數(shù)據(jù)配比(語言和領域配比)模型收斂分布差異較大PhiPhi1_5Qwen1.5-1.8b圖1.相同醫(yī)療數(shù)據(jù)下的不同模型指標表現(xiàn)圖2.不同配比醫(yī)療數(shù)據(jù)對模型繼續(xù)預訓練影響10一.行業(yè)數(shù)據(jù)集的制作技術(shù)分享 二.行業(yè)模型訓練新范式的實踐三.NL2SQL助力大模型與傳統(tǒng)IT系統(tǒng)集成11行業(yè)模型落地應用訓練范式:總體概覽大模型行業(yè)應用“最后一公里”直接部署使用或調(diào)用API(提示詞工程)☆RAG提示詞+RAG直接部署使用或調(diào)用API(提示詞工程)☆RAG提示詞+RAG——RAG提示詞 SFT數(shù)據(jù)集SFT+RAG——☆☆行業(yè)應用模型☆☆☆CPT數(shù)據(jù)集SFT數(shù)據(jù)集RLHF數(shù)據(jù)集RAG提示詞CPT一SFT一RLHF一+RAG☆☆☆☆通用基座模型LlamaQwenAquila...行業(yè)模型落地應用的智源“行業(yè)模型落地應用的智源“CSR三合一”范式12SFT是一般通行做法,但并不是最佳解決方案?Wedemonstratethatlargelanguagemodelsstruggletoacquirenewfactualknowledgethroughfine-tuning,asfine-tuningexamplesthatintroducenewknowledgearelearnedsignificantlyslowerthanthoseconsistentwiththemodel’sknowledge.However,wealsofindthatastheexampleswithnewknowledgeareeventuallylearned,theylinearlyincreasethemodel’stendencytohallucinate.Takentogether,ourresultshighlighttheriskinintroducingnewfactualknowledgethroughfine-tuning,andsupporttheviewthatlargelanguagemodelsmostlyacquirefactualknowledgethroughpre-training,whereasfinetuningteachesthemtouseitmoreefficiently.?我們證明,大型語言模型很難通過微調(diào)獲得新的事實知識,因為引入新知識的微調(diào)示例的學習速度明顯慢于與模型知識一致的示例。然而,我們還發(fā)現(xiàn),隨著包含新知識的示例最終被學習,它們會線性增加模型產(chǎn)生幻覺的傾向??傊?,我們的結(jié)果凸顯了通過微調(diào)引入新事實知識的風險,并支持以下觀點:大型語言模型主要通過預訓練獲得事實知識,而微調(diào)則教會它們更有效地使用這些知識。??SFT數(shù)據(jù)知識分布與通用模型不一致,會大幅度抬高初始Loss,讓模型收斂更加困難;?SFT訓練數(shù)據(jù)量一般較少,步數(shù)少,對模型參數(shù)影響不大,在專業(yè)知識還未學會的情況下,即過擬合,訓練被迫終止;?專業(yè)知識未徹底學會的情況下,模型更加容易產(chǎn)生幻覺;?僅有正向樣例,缺乏負面樣例,模型不能學到如何避免錯誤。1source:/pdf/2405.059043為什么要采用CPT+SFT+RLHF的“CSR三合一”范式?組合拳總比一招一式更加有效。組合拳總比一招一式更加有效。?BaseModel(基座模型):通用基礎知識和認知;?CPT(繼續(xù)預訓練):注入領域?qū)I(yè)知識和認知,以及業(yè)主的私域業(yè)務知識;?SFT(精調(diào)訓練):學習對齊輸出形式,記住少量事實類信息,如自我介紹,主人信息等;?RLHF(人類反饋強化學習):近一步引入負向樣例,讓模型學會選擇,從而獲得避免錯誤,輸出更好答案的能力。?RAG:更進一步緩解幻覺問題,并支持新知識更新。 最大限度激發(fā)大模型能力,滿足行業(yè)需求。14醫(yī)療領域示范模型訓練使用醫(yī)療領域數(shù)據(jù)使用醫(yī)療領域數(shù)據(jù),在通用模型上進行CPT+SFT+RLHF(CSR)全流程訓練,驗證行業(yè)預訓練數(shù)據(jù)有效性;確定指令微調(diào)數(shù)據(jù),人類偏好數(shù)據(jù)的篩選方案;確立了行業(yè)模型的訓練范式。模型訓練各階段能力各有側(cè)重:預訓練學知識,SFT學指令,RL學偏好;行業(yè)模型CPT的必要性:海量的通用語料中蘊含著大量的領域相關(guān)數(shù)據(jù),有必要從通用語料中提取出高質(zhì)量的領域數(shù)據(jù),以補齊模型的的行業(yè)知識缺失。繼續(xù)預訓練:為了縮小預訓練和SFT之間的差異,設計兩階段繼續(xù)預訓練。指令微調(diào):使用指令數(shù)據(jù)質(zhì)量模型和基于自回歸損失的方法篩選高偏好訓練:借助GPT或打分模型篩選偏好數(shù)據(jù),對齊模型輸出偏好15醫(yī)療領域示范模型訓練:CPT階段CPT兩階段數(shù)據(jù)設置一階段:基于規(guī)則過濾的領域數(shù)據(jù)+配比通用數(shù)據(jù)二階段:基于模型過濾的高質(zhì)量領域數(shù)據(jù)+SFT數(shù)據(jù)CPT兩階段指標趨勢一階段:指標先下降后上升,震蕩上升;二階段:模型指標迅速提升,穩(wěn)步提升;16目的:目的:進一步提高醫(yī)學領域模型的能力。目的:防止由于預訓練和繼續(xù)預訓練數(shù)據(jù)之間的巨大差異導致模型能力顯著下降。SFT數(shù)據(jù)SFT數(shù)據(jù)基于LLM過濾數(shù)據(jù)基于規(guī)則的數(shù)據(jù)質(zhì)量過濾?數(shù)據(jù)中有語法錯誤,語義不連貫,多個不相關(guān)內(nèi)容的拼?從基于規(guī)則過濾后的數(shù)據(jù)中提取20k種子數(shù)據(jù)訓練一個BERT分類器17醫(yī)療領域示范模型訓練:SFT階段還是強調(diào)還是強調(diào)數(shù)據(jù)的重要性,SFT階段通過從開源指令數(shù)據(jù)集中篩選高質(zhì)量數(shù)據(jù),使用更小的訓練代價得到SFT的數(shù)據(jù)考量點:指令:SFT的數(shù)據(jù)考量點:指令:多樣性/復雜性relevance現(xiàn)有數(shù)據(jù)篩選的方法:人工打標簽--消耗大量的人力和時間成本GPT打分--有一定的價值觀傾Judge模型--通用角度評估數(shù)據(jù),有較好適配性18單輪QA數(shù)據(jù)醫(yī)療領域示范模型訓練:SFT階段-數(shù)據(jù)集制作Deita:好數(shù)據(jù)的定義是指令復雜性高且回復質(zhì)量高復雜性模型打分:ci質(zhì)量模型打分:qisi=ci*qi論文鏈接:/abs/2312.1568519醫(yī)療領域示范模型訓練:SFT階段-數(shù)據(jù)集制作高質(zhì)量數(shù)據(jù):缺點:提問簡單且重復優(yōu)點:提問復雜且具體缺點:提問簡單且重復20醫(yī)療領域示范模型訓練:SFT階段-數(shù)據(jù)集制作 ?不同話輪之間的相關(guān)性很低,導致前面的信息對后面的信息產(chǎn)生負面影響?不同話輪之間的相關(guān)性過高,導致上下文重復程度大,信息冗余21醫(yī)療領域示范模型訓練:SFT階段-數(shù)據(jù)集制作上下文相關(guān)性分數(shù)(CR):22醫(yī)療領域示范模型訓練:SFT階段-訓練細節(jié)數(shù)據(jù)分布:23醫(yī)療領域示范模型訓練:RLHF階段28.50%個20.28.50%個20.10%個18.89%個14.75%個All-AveMMLU-MEDCEVAL-MEDMEDQAMEDMCQAAquila-BaseWAquila-MED-CPTWAquila-MED-SFTWAquila-MED-DPO全流程訓練后,領域客觀指標總體提升20%--基于Aquila-MED-Aquila-MED-DPORL數(shù)據(jù)來源:SFT數(shù)據(jù)中抽樣Aquila-MED-chat主觀數(shù)據(jù):使用SFT模型和GPTAquila-MED-chat0%0%40%60%80%0%0%40%60%80%100w更好相似更差%2認知/安全數(shù)據(jù):不進入RL階段SFT+RL訓練后,主觀評估對比標注數(shù)據(jù)勝率為82%24醫(yī)療領域示范模型訓練:RLHF階段-DPO數(shù)據(jù)集構(gòu)建主觀:示例:拒絕響應選擇響應Aquila-Med-Chat流暢性相關(guān)性流暢性相關(guān)性25醫(yī)療領域示范模型訓練:RLHF階段-DPO數(shù)據(jù)集構(gòu)建客觀:選擇響應:正確答案是:A拒絕響應:正確答案是:C示例:隨機選擇錯誤答案隨機選擇錯誤答案26醫(yī)療領域示范模型訓練:RLHF階段-DPO訓練細節(jié)數(shù)據(jù)分布:我們構(gòu)建了一個包含12,727個DPO偏好對的數(shù)據(jù)集,其中包括9,019個主觀數(shù)據(jù)樣本和3,708個客觀數(shù)據(jù)樣本。27醫(yī)療領域示范模型訓練:CSR訓練綜合效果116.98%個18.89%個14.75%個28.50%個20.10%個All-AveMMLU-MEDCEVAL-MEDMEDQAMEDMCQAAquila-BaseAquila-MED-CPTWAquila-MED-SFTWAquila-MED-DPOAquila-MED-DPOAquila-MED-chat全流程訓練后,客觀指標總體提升20%Aquila-MED-DPOAquila-MED-chat0%20%40%60%80%100%更好e相似更差SFT+RLHF訓練后,主觀評估對比標注數(shù)據(jù)勝率為82%,DPO提升9%28一.行業(yè)數(shù)據(jù)集的制作技術(shù)分享二.行業(yè)模型訓練新范式的實踐 三.NL2SQL助力大模型與傳統(tǒng)IT系統(tǒng)集成29模型訓練評估評測SFTFormattedAnswerEVALExactMatchACCAquila-BaseContinuePreTrainSFTFormattedAnswerEVALExactMatchACCAquila-BaseLLM可以很好的適配SQL生成任務?兩步訓練:CPTandSFT?可以在開源Cspider數(shù)據(jù)集達到SOTA表現(xiàn).改變訓練數(shù)據(jù)格式,適配本地數(shù)據(jù)庫查詢。設計基于LLM的NL2SQL指標評估方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論