2025人工智能行業(yè)數(shù)據(jù)集構建及模型訓練方法實踐_第1頁
2025人工智能行業(yè)數(shù)據(jù)集構建及模型訓練方法實踐_第2頁
2025人工智能行業(yè)數(shù)據(jù)集構建及模型訓練方法實踐_第3頁
2025人工智能行業(yè)數(shù)據(jù)集構建及模型訓練方法實踐_第4頁
2025人工智能行業(yè)數(shù)據(jù)集構建及模型訓練方法實踐_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能行業(yè)數(shù)據(jù)集構建及模型訓練方法實踐專業(yè)需求訓練技術

數(shù)據(jù)構建集成演進三.NL2SQL助力大模型與傳統(tǒng)IT智源IndustryCorpus1.0智源IndustryCorpus1.0

開源數(shù)據(jù)一期18二期擴展到30行業(yè)指令數(shù)據(jù)(醫(yī)療、教育)、行業(yè)偏好數(shù)據(jù)(醫(yī)療預訓練數(shù)據(jù):基于規(guī)則+模型指令數(shù)據(jù):基于指令復雜性+回復質量+多輪相關性

IndustryCorpusIndustryCorpus

6借助LLM借助LLM訓練方式:bge-m3(指標高,收斂快qwen1.5-0.5b-bge-bert-snowflake(fineweb-edu圖1圖1圖3{:,:}{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslatedfrom{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslatedfrom*ChineseJournalofBiochemistryandMolecularBiology*,2007,23(2):154--159\\[譯自:中國生物化學與分子生物學報\\]\n","quality_score":{"text":"![](brjcancer00428-0139.tif\"scanned-page\"){.737}\n","quality_score":-0.3435468375682831,}{"text":"#ifndef_IMGBMP_H_\n\n#ifdef {\n#endif\n\nconstuint8_tbmp[]={\n\\/\\/--調入了一幅圖像:D:\\我的文檔\\MyPictures\\12864-555.bmp*\\/\n\\/\\/--寬度x高度=128x64-- _SSD1306_16BIT_H_\n”,圖3圖3.fineweb-edu質量分類模型在中文上的打分表現(xiàn),普遍較低對數(shù)據(jù)質量進行評估,結合使用兩種策略:對數(shù)據(jù)質量進行評估,結合使用兩種策略:Rule-based,odel- 三.NL2SQL助力大模型與傳統(tǒng)IT

☆☆☆☆☆

☆☆☆☆SFTSFTsource:source:Wedemonstratethatlargelanguagemdstruggletoacquirenewfactualknowledgethroughfine-tuning,asfine-tuningexampesthatintroducenewknowledgearelearnedsignificantlyslowerthanthoseconsistentwiththemd’knowledge.However,wealsofindthatastheexampeswithnewknowledgelargelanguagemdmosyacquirefactualknowledgethroughpre-training,whereasfinetuningteachesthemtouseitmoreefficiently.為什么要采用CPT+SFT+RLHF的“CSR為什么要采用CPT+SFT+RLHF的“CSRBase(基座模型):CPT(繼續(xù)預訓練):RAG:使用醫(yī)療領域數(shù)據(jù),在通用模型上進行使用醫(yī)療領域數(shù)據(jù),在通用模型上進行CPT+SFT+RLHF(CSR)全流程訓練,驗證行業(yè)預訓練數(shù)據(jù)有效性指令微調數(shù)據(jù),人類偏好數(shù)據(jù)的篩選方案;確立了行業(yè)模型的訓練范式。

偏好訓練:借助GPT醫(yī)療領域示范模型訓練:CPT醫(yī)療領域示范模型訓練:CPT

CPT二階段:基于模型過濾的高質量領域數(shù)據(jù)+SFTCPT醫(yī)療領域示范模型訓練:CPTStage Stage目的:防止由于預訓練和繼續(xù)預訓練數(shù)據(jù)

基于LLM過濾數(shù) SFT數(shù) token特殊token60B

一L領域數(shù)據(jù)中有語法錯誤,語義不連貫,多個不相關內容的拼從基于規(guī)則過濾后的數(shù)據(jù)中提取20k種子數(shù)據(jù)訓練一個20B醫(yī)療領域示范模型訓練:SFT醫(yī)療領域示范模型訓練:SFTSFTGPTJudge

單輪QA數(shù) 多輪QA數(shù)

CR醫(yī)療領域示范模型訓練:SFT醫(yī)療領域示范模型訓練:SFT si=ci?

不同話輪之間的相關性很低,導致前

L

|H)=?

lOgP(wj|H,w1,w2,…,wj?1;

L

)=?

lOgP(wj|w1,w2,…,wj?1;

(H,T)=CR> CR?1:醫(yī)療領域示范模型訓練:SFT醫(yī)療領域示范模型訓練:SFT中文:英文醫(yī)療領域示范模型訓練:RLHF醫(yī)療領域示范模型訓練:RLHF圖1.RL階段數(shù)據(jù)篩選和訓 全流程訓練后,領域客觀指標總體提升20%--基于harness評RL數(shù)據(jù)來源:SFT主觀數(shù)據(jù):使用SFT模型和GPT認知/安全數(shù)據(jù):不進入RL

SFT+RL訓練后,主觀評估對比標注數(shù)據(jù)勝率為醫(yī)療領域示范模型訓練:RLHF階段-DPO醫(yī)療領域示范模型訓練:RLHF階段-DPO主觀 示例Aquila-Med-

醫(yī)療領域示范模型訓練:RLHF階段-DPO醫(yī)療領域示范模型訓練:RLHF階段-DPO我們構建了一個包含12,727DPO偏好對的數(shù)據(jù)集,其中包括9,019個主觀數(shù)據(jù)樣本和3,708醫(yī)療領域示范模型訓練:CSR醫(yī)療領域示范模型訓練:CSR全流程訓練后,客觀指標總體提升20%--基于harnessSFT+RLHF訓練后,主觀評估對比標注數(shù)據(jù)勝率為82%,DPO提升三.NL2SQL助力大模型與傳統(tǒng)IT三.NL2SQL助力大模型與傳統(tǒng)ITAquilaSQLAquilaSQLContinuePreTrainSQLDataFormattedExactMatchLLM可以很好的適配SQL兩步訓練:CPTand可以在開源Cspider數(shù)據(jù)集達到SOTA表現(xiàn).改變訓練數(shù)據(jù)格式,適配本地數(shù)據(jù)庫查詢。設計基于LLM的NL2SQL格式化SFT生成數(shù)據(jù)中解析出SQL參考傳統(tǒng)Text2SQL任務,計算生成的SQL和LabelAquilaSQL+RAG:NL2SQLAquilaSQL+RAG:NL2SQLSELECTA.az26FROMAORDERBYDESCLIMITAquilaSQL+RAG:NL2SQLAquilaSQL+RAG:NL2SQLd基于向量化召回,找到12.7k個對照關系中最相關的N

SELECTM.az26FROMMORDE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論