版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能行業(yè)數(shù)據(jù)集構建及模型訓練方法實踐專業(yè)需求訓練技術
數(shù)據(jù)構建集成演進三.NL2SQL助力大模型與傳統(tǒng)IT智源IndustryCorpus1.0智源IndustryCorpus1.0
開源數(shù)據(jù)一期18二期擴展到30行業(yè)指令數(shù)據(jù)(醫(yī)療、教育)、行業(yè)偏好數(shù)據(jù)(醫(yī)療預訓練數(shù)據(jù):基于規(guī)則+模型指令數(shù)據(jù):基于指令復雜性+回復質量+多輪相關性
IndustryCorpusIndustryCorpus
6借助LLM借助LLM訓練方式:bge-m3(指標高,收斂快qwen1.5-0.5b-bge-bert-snowflake(fineweb-edu圖1圖1圖3{:,:}{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslatedfrom{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslatedfrom*ChineseJournalofBiochemistryandMolecularBiology*,2007,23(2):154--159\\[譯自:中國生物化學與分子生物學報\\]\n","quality_score":{"text":"![](brjcancer00428-0139.tif\"scanned-page\"){.737}\n","quality_score":-0.3435468375682831,}{"text":"#ifndef_IMGBMP_H_\n\n#ifdef {\n#endif\n\nconstuint8_tbmp[]={\n\\/\\/--調入了一幅圖像:D:\\我的文檔\\MyPictures\\12864-555.bmp*\\/\n\\/\\/--寬度x高度=128x64-- _SSD1306_16BIT_H_\n”,圖3圖3.fineweb-edu質量分類模型在中文上的打分表現(xiàn),普遍較低對數(shù)據(jù)質量進行評估,結合使用兩種策略:對數(shù)據(jù)質量進行評估,結合使用兩種策略:Rule-based,odel- 三.NL2SQL助力大模型與傳統(tǒng)IT
☆☆☆☆☆
☆☆☆☆SFTSFTsource:source:Wedemonstratethatlargelanguagemdstruggletoacquirenewfactualknowledgethroughfine-tuning,asfine-tuningexampesthatintroducenewknowledgearelearnedsignificantlyslowerthanthoseconsistentwiththemd’knowledge.However,wealsofindthatastheexampeswithnewknowledgelargelanguagemdmosyacquirefactualknowledgethroughpre-training,whereasfinetuningteachesthemtouseitmoreefficiently.為什么要采用CPT+SFT+RLHF的“CSR為什么要采用CPT+SFT+RLHF的“CSRBase(基座模型):CPT(繼續(xù)預訓練):RAG:使用醫(yī)療領域數(shù)據(jù),在通用模型上進行使用醫(yī)療領域數(shù)據(jù),在通用模型上進行CPT+SFT+RLHF(CSR)全流程訓練,驗證行業(yè)預訓練數(shù)據(jù)有效性指令微調數(shù)據(jù),人類偏好數(shù)據(jù)的篩選方案;確立了行業(yè)模型的訓練范式。
偏好訓練:借助GPT醫(yī)療領域示范模型訓練:CPT醫(yī)療領域示范模型訓練:CPT
CPT二階段:基于模型過濾的高質量領域數(shù)據(jù)+SFTCPT醫(yī)療領域示范模型訓練:CPTStage Stage目的:防止由于預訓練和繼續(xù)預訓練數(shù)據(jù)
基于LLM過濾數(shù) SFT數(shù) token特殊token60B
一L領域數(shù)據(jù)中有語法錯誤,語義不連貫,多個不相關內容的拼從基于規(guī)則過濾后的數(shù)據(jù)中提取20k種子數(shù)據(jù)訓練一個20B醫(yī)療領域示范模型訓練:SFT醫(yī)療領域示范模型訓練:SFTSFTGPTJudge
單輪QA數(shù) 多輪QA數(shù)
CR醫(yī)療領域示范模型訓練:SFT醫(yī)療領域示范模型訓練:SFT si=ci?
不同話輪之間的相關性很低,導致前
L
|H)=?
lOgP(wj|H,w1,w2,…,wj?1;
L
)=?
lOgP(wj|w1,w2,…,wj?1;
(H,T)=CR> CR?1:醫(yī)療領域示范模型訓練:SFT醫(yī)療領域示范模型訓練:SFT中文:英文醫(yī)療領域示范模型訓練:RLHF醫(yī)療領域示范模型訓練:RLHF圖1.RL階段數(shù)據(jù)篩選和訓 全流程訓練后,領域客觀指標總體提升20%--基于harness評RL數(shù)據(jù)來源:SFT主觀數(shù)據(jù):使用SFT模型和GPT認知/安全數(shù)據(jù):不進入RL
SFT+RL訓練后,主觀評估對比標注數(shù)據(jù)勝率為醫(yī)療領域示范模型訓練:RLHF階段-DPO醫(yī)療領域示范模型訓練:RLHF階段-DPO主觀 示例Aquila-Med-
醫(yī)療領域示范模型訓練:RLHF階段-DPO醫(yī)療領域示范模型訓練:RLHF階段-DPO我們構建了一個包含12,727DPO偏好對的數(shù)據(jù)集,其中包括9,019個主觀數(shù)據(jù)樣本和3,708醫(yī)療領域示范模型訓練:CSR醫(yī)療領域示范模型訓練:CSR全流程訓練后,客觀指標總體提升20%--基于harnessSFT+RLHF訓練后,主觀評估對比標注數(shù)據(jù)勝率為82%,DPO提升三.NL2SQL助力大模型與傳統(tǒng)IT三.NL2SQL助力大模型與傳統(tǒng)ITAquilaSQLAquilaSQLContinuePreTrainSQLDataFormattedExactMatchLLM可以很好的適配SQL兩步訓練:CPTand可以在開源Cspider數(shù)據(jù)集達到SOTA表現(xiàn).改變訓練數(shù)據(jù)格式,適配本地數(shù)據(jù)庫查詢。設計基于LLM的NL2SQL格式化SFT生成數(shù)據(jù)中解析出SQL參考傳統(tǒng)Text2SQL任務,計算生成的SQL和LabelAquilaSQL+RAG:NL2SQLAquilaSQL+RAG:NL2SQLSELECTA.az26FROMAORDERBYDESCLIMITAquilaSQL+RAG:NL2SQLAquilaSQL+RAG:NL2SQLd基于向量化召回,找到12.7k個對照關系中最相關的N
SELECTM.az26FROMMORDE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版辦公家具定制與售后支持協(xié)議3篇
- 二零二五年度跨境離婚協(xié)議書及財產轉移范本3篇
- 二零二五年度海洋資源開發(fā)項目技術人員聘任協(xié)議3篇
- 二零二五年度KTV加盟店運營管理及培訓合同范本3篇
- 二零二五版公積金個人提前還款合同3篇
- 西安航空學院《材料科學基礎I》2023-2024學年第一學期期末試卷
- 二零二五年度柑橘產品溯源與食品安全合同3篇
- 烏海職業(yè)技術學院《視覺藝術賞析與表達》2023-2024學年第一學期期末試卷
- 個性化桶裝水供應服務協(xié)議2024版版B版
- 2024年環(huán)保設備生產與銷售合作合同
- 2024年關愛留守兒童工作總結
- GB/T 45092-2024電解水制氫用電極性能測試與評價
- 《算術平方根》課件
- DB32T 4880-2024民用建筑碳排放計算標準
- 2024-2024年上海市高考英語試題及答案
- 注射泵管理規(guī)范及工作原理
- 山東省濟南市2023-2024學年高二上學期期末考試化學試題 附答案
- 大唐電廠采購合同范例
- GB/T 18724-2024印刷技術印刷品與印刷油墨耐各種試劑性的測定
- IEC 62368-1標準解讀-中文
- 15J403-1-樓梯欄桿欄板(一)
評論
0/150
提交評論