![《電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準備規(guī)范》_第1頁](http://file4.renrendoc.com/view9/M01/3E/11/wKhkGWdmQ2mAAYx5AADRvFAMYxY439.jpg)
![《電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準備規(guī)范》_第2頁](http://file4.renrendoc.com/view9/M01/3E/11/wKhkGWdmQ2mAAYx5AADRvFAMYxY4392.jpg)
![《電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準備規(guī)范》_第3頁](http://file4.renrendoc.com/view9/M01/3E/11/wKhkGWdmQ2mAAYx5AADRvFAMYxY4393.jpg)
![《電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準備規(guī)范》_第4頁](http://file4.renrendoc.com/view9/M01/3E/11/wKhkGWdmQ2mAAYx5AADRvFAMYxY4394.jpg)
![《電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準備規(guī)范》_第5頁](http://file4.renrendoc.com/view9/M01/3E/11/wKhkGWdmQ2mAAYx5AADRvFAMYxY4395.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS號
中國標準文獻分類號
CEST/CESXXX-XXXX
團體標準
T/CESXXX-XXXX
電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準備規(guī)范
DataPreparationRequirementsandStandardsforLargeLanguage
Models(征求意見稿)inthePowerSystem
bileterminalintelligentinteractivemulti-rounddialogueprocessspecification
XXXX-XX-XX發(fā)布XXXX-XX-XX實施
中國電工技術(shù)學會發(fā)布
Ⅱ
T/CESXXX-XXXX
1范圍
本文件適用于電力系統(tǒng)的大語言模型的數(shù)據(jù)準備,包括數(shù)據(jù)的采集、清理、標注、注釋
和整理等所有環(huán)節(jié)。此標準的目的在于規(guī)范在大語言模型訓(xùn)練中的數(shù)據(jù)處理過程,以保證數(shù)
據(jù)的可用性、一致性和可追溯性。本文件規(guī)定了人工智能大語言模型在電力系統(tǒng)中的微調(diào)數(shù)
據(jù)準備規(guī)范,本文件共分為數(shù)據(jù)準備要求、數(shù)據(jù)準備規(guī)范、數(shù)據(jù)準備流程等。
本文件適用于各單位使用大語言模型技術(shù)解決相關(guān)業(yè)務(wù)需求,適用于電力系統(tǒng)人工智能
大語言模型的應(yīng)用開發(fā)等業(yè)務(wù)場景,幫助業(yè)務(wù)人員以及開發(fā)人員完成模型訓(xùn)練、模型微調(diào)等
相關(guān)工作。
2規(guī)范性引用文件
下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適
用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T5271.28-2001信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)
GB/T41867-2022信息技術(shù)人工智能術(shù)語
3術(shù)語和定義
下列術(shù)語和定義僅適用于本文件。
3.1人工智能ArtificialIntelligence
人工智能是一門交叉學科,通常視為計算機科學的分支,研究表現(xiàn)出與人類智能(如推
理和學習)相關(guān)的各種功能的模型和系統(tǒng)。
3.2大語言模型LargeLanguageModel
大語言模型也稱大型語言模型,是一種人工智能模型,旨在理解和生成人類語言。在大
規(guī)模文本語料上訓(xùn)練、包含百億級別(或更多)參數(shù)的語言模型。
3.3指令微調(diào)InstructionTuning
指令微調(diào)是指可以幫助大語言模型實現(xiàn)人類語言指令遵循的能力,在零樣本設(shè)置中泛化
到未見任務(wù)上的學習方法。
3.4數(shù)據(jù)準備DataPreparation
指的是將原始數(shù)據(jù)進行清洗、轉(zhuǎn)換、標記和結(jié)構(gòu)化以適用于大語言模型的過程。
3.5數(shù)據(jù)源DataSources
數(shù)據(jù)源指的是用于訓(xùn)練和應(yīng)用大語言模型的原始數(shù)據(jù),包括但不限于文本、圖像、報告
和傳感器數(shù)據(jù)。
1
T/CESXXX-XXXX
3.6數(shù)據(jù)預(yù)處理DataPreprocessing
數(shù)據(jù)預(yù)處理指的是在得到原始數(shù)據(jù)之后對數(shù)據(jù)進行預(yù)處理,包括數(shù)據(jù)清洗、去重、去噪
以及數(shù)據(jù)標準化等步驟。
4縮略語
下列縮略語適用于本文件。
Json:JS對象簡譜(JavaScriptObjectNotation)
BOM:字節(jié)順序標記(ByteOrderMark)
5總則
本文件規(guī)定了人工智能大語言模型在電力系統(tǒng)中的微調(diào)數(shù)據(jù)準備規(guī)范,本文件共分為數(shù)
據(jù)準備要求、數(shù)據(jù)準備規(guī)范、數(shù)據(jù)處理流程等。其中數(shù)據(jù)準備主要用于規(guī)范電力系統(tǒng)的大模
型在微調(diào)訓(xùn)練中的數(shù)據(jù)收集、數(shù)據(jù)格式以及數(shù)據(jù)隱私與安全等,數(shù)據(jù)準備規(guī)范主要用于規(guī)范
電力系統(tǒng)大模型微調(diào)訓(xùn)練中的數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)標簽與注釋、數(shù)據(jù)及劃分、數(shù)據(jù)
格式化、數(shù)據(jù)集質(zhì)量評估、數(shù)據(jù)增強以及數(shù)據(jù)更新與維護等,數(shù)據(jù)處理流程主要用于規(guī)范數(shù)
據(jù)預(yù)處理的一般步驟和中文數(shù)據(jù)預(yù)處理的步驟等。具體內(nèi)容組織框架見圖1:
圖1組織框架
2
T/CESXXX-XXXX
6數(shù)據(jù)準備規(guī)范
6.1數(shù)據(jù)收集
本文件主要從數(shù)據(jù)來源、數(shù)據(jù)多樣性與數(shù)據(jù)質(zhì)量三個方面對數(shù)據(jù)收集過程進行相關(guān)的規(guī)
范性要求,確保大語言模型微調(diào)技術(shù)應(yīng)用過程中訓(xùn)練數(shù)據(jù)符合要求。
(1)數(shù)據(jù)來源
電力系統(tǒng)的數(shù)據(jù)要求是通過傳感器、智能設(shè)備、視頻監(jiān)控設(shè)備、音頻通信設(shè)備、移動終
端等進行數(shù)據(jù)采集,收集海量結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)集合。在電力系統(tǒng)中,
大語言模型的微調(diào)與訓(xùn)練所使用的數(shù)據(jù)應(yīng)來自可靠和權(quán)威的電力系統(tǒng)數(shù)據(jù)源,包括電力公司、
政府部門和獨立研究機構(gòu)等。
(2)數(shù)據(jù)多樣性
在大語言模型訓(xùn)練過程中所使用的數(shù)據(jù)要求應(yīng)涵蓋電力系統(tǒng)各個方面,包括發(fā)電、輸電、
配電、設(shè)備狀態(tài)、市場數(shù)據(jù)和電力負荷等,需要根據(jù)具體的業(yè)務(wù)場景及需求,保證數(shù)據(jù)的多
樣性和豐富性。
(3)數(shù)據(jù)質(zhì)量
大語言模型訓(xùn)練中應(yīng)過濾低質(zhì)量數(shù)據(jù),保證數(shù)據(jù)的準確性和一致性,可分為兩類方法:
基于分類器的方法和基于啟發(fā)式的方法。
6.2數(shù)據(jù)格式
大語言模型微調(diào)訓(xùn)練中應(yīng)對多樣化的原始數(shù)據(jù)集進行對齊,本文件主要從數(shù)據(jù)結(jié)構(gòu)化和
數(shù)據(jù)標注兩個方面進行要求。
(1)數(shù)據(jù)結(jié)構(gòu)化
數(shù)據(jù)應(yīng)以適當格式進行結(jié)構(gòu)化,便于模型的理解和分析。電力系統(tǒng)中的數(shù)據(jù)來源復(fù)雜多
樣,應(yīng)對收集到的數(shù)據(jù)進行結(jié)構(gòu)化處理,使用統(tǒng)一的格式標準對數(shù)據(jù)進行結(jié)構(gòu)化處理,使得
大語言模型微調(diào)過程中能夠更好的訓(xùn)練,保證模型訓(xùn)練的效果。
(2)數(shù)據(jù)標注
在電力系統(tǒng)大模型訓(xùn)練中應(yīng)對數(shù)據(jù)中的重要信息進行標記和注釋,幫助模型理解數(shù)據(jù)的
語境和含義。可采用的方法有眾包、半監(jiān)督、主動學習以及弱監(jiān)督等,其中眾包是人工標注,
半監(jiān)督方法指利用部分標注數(shù)據(jù)訓(xùn)練一個分類器等輔助標注更多的數(shù)據(jù),主動學習方法指先
從每次選出模型任務(wù)最難的樣本中進行人工標注再接著訓(xùn)練,然后進行多次迭代,弱監(jiān)督方
法是設(shè)計一種標簽函數(shù),通?;趩l(fā)式。
3
T/CESXXX-XXXX
6.3數(shù)據(jù)預(yù)處理
大語言模型的數(shù)據(jù)清洗應(yīng)包括:去除噪聲數(shù)據(jù)、去除重復(fù)數(shù)據(jù)、統(tǒng)一標號、缺失值處理、
語言檢測和文本語言標準化等。數(shù)據(jù)清洗的具體步驟和技巧根據(jù)具體項目和業(yè)務(wù)需求導(dǎo)致數(shù)
據(jù)的要求而有所不同。電力系統(tǒng)的大模型微調(diào)訓(xùn)練中要求去除不需要的數(shù)據(jù),修復(fù)數(shù)據(jù)集中
的缺失值或錯誤,處理異常數(shù)據(jù)和噪聲,將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式和單位,保證數(shù)據(jù)質(zhì)量,
避免對模型的干擾,提高模型訓(xùn)練的效率。在清洗數(shù)據(jù)時,應(yīng)進行反復(fù)測試和驗證。
6.4數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換應(yīng)將電力系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的、適合模型使用的形式,保證數(shù)據(jù)的一致性
和可用性。應(yīng)包括數(shù)據(jù)編碼和數(shù)據(jù)歸一化,數(shù)據(jù)編碼是將數(shù)據(jù)進行編碼,數(shù)據(jù)歸一化是將數(shù)
據(jù)進行歸一化處理。
6.5數(shù)據(jù)標簽與注釋
電力系統(tǒng)的大語言模型微調(diào)中應(yīng)為數(shù)據(jù)添加標簽和注釋,包括人工標注法和自動標注技
術(shù)。其中自動標注技術(shù)可通過機器學習算法自動給數(shù)據(jù)添加標簽,常用的有實體識別、事件
標注等。實體識別是標記電力系統(tǒng)中的關(guān)鍵實體,如設(shè)備、線路、電力站等,事件標注是標
記電力系統(tǒng)中的關(guān)鍵事件,如故障、維護、市場活動等。
6.6數(shù)據(jù)集劃分
對數(shù)據(jù)數(shù)據(jù)集進行劃分要求如下:
(1)將數(shù)據(jù)集劃分為訓(xùn)練集,驗證集和測試集三個數(shù)據(jù)集;
(2)使用交叉驗證來評估模型的性能
(3)通過分層抽樣保證每個類別的數(shù)據(jù)在三個測試集中具有代表性,避免數(shù)據(jù)偏差。
(4)訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)集由輸入和輸出實例組成,這些實例表示模型如何執(zhí)行。使
用的訓(xùn)練和驗證數(shù)據(jù)必須采用JSON(JSONL)文檔格式,其中每一行代表一個
{prompt-completion}對。
訓(xùn)練數(shù)據(jù)的格式實例:
{"prompt":"<prompttext>","completion":"<idealgeneratedtext>"}
{"prompt":"<prompttext>","completion":"<idealgeneratedtext>"}
{"prompt":"<prompttext>","completion":"<idealgeneratedtext>"}
除JSONL格式外,訓(xùn)練和驗證數(shù)據(jù)文件必須以UTF-8編碼并包含字節(jié)順序標記
(BOM),并且文件大小必須小于200MB。
4
T/CESXXX-XXXX
6.7數(shù)據(jù)格式化
數(shù)據(jù)格式化應(yīng)根據(jù)所選擇的模型,將數(shù)據(jù)格式化為適合電力系統(tǒng)大語言模型接受的標準
輸入格式,包括文本編碼、圖像的張量化等。
6.8數(shù)據(jù)集質(zhì)量評估
在電力系統(tǒng)的大語言模型微調(diào)訓(xùn)練中應(yīng)評估數(shù)據(jù)集的質(zhì)量,確保數(shù)據(jù)的準確性、一致性
和完整性。應(yīng)對數(shù)據(jù)集進行及時更新與維護,保證數(shù)據(jù)集中的數(shù)據(jù)具有良好的時效性,便于
不同版本的記錄。
6.9數(shù)據(jù)增強
在準備電力系統(tǒng)大語言模型微調(diào)數(shù)據(jù)中應(yīng)通過增加數(shù)據(jù)樣本和多樣性來提高模型性能,
解決數(shù)據(jù)不平衡問題,增加小類別的樣本,可采用的方法包括Mixup、AutoAugment以及利
用GAN生成新樣本等等。
6.10數(shù)據(jù)更新與維護
電力系統(tǒng)中大語言模型微調(diào)中應(yīng)及時對數(shù)據(jù)進行更新和維護,確保數(shù)據(jù)的時效性和可靠
性。在數(shù)據(jù)準備過程中應(yīng)確定數(shù)據(jù)更新頻率,規(guī)定數(shù)據(jù)來源(包括實時監(jiān)測、傳感器、數(shù)據(jù)
庫等),建立數(shù)據(jù)監(jiān)控系統(tǒng),確保及時處理數(shù)據(jù)異常變化情況,需要記錄數(shù)據(jù)更新與維護的
所有操作,建立清晰的數(shù)據(jù)維護歷史。
6.11數(shù)據(jù)隱私和安全
(1)隱私保護
電力數(shù)據(jù)可能包含大量的敏感信息,如用戶的用電量、電費等,這些信息需要得到嚴格
的保護。因此對大語言微調(diào)數(shù)據(jù)準備過程中涉及到的隱私數(shù)據(jù)要求如下:
a)應(yīng)對敏感信息存儲和記錄,對所記錄的數(shù)據(jù)進行訪問時要設(shè)定權(quán)限嚴格管控,以達
到防止對數(shù)據(jù)進行未經(jīng)授權(quán)的訪問和數(shù)據(jù)泄露等安全問題的產(chǎn)生。
b)應(yīng)大語言模型設(shè)置數(shù)據(jù)安全標準等級規(guī)定,保障電力系統(tǒng)中大量的實時監(jiān)測和控制
系統(tǒng)的穩(wěn)定運轉(zhuǎn)。
(2)安全性
結(jié)合電力數(shù)據(jù)的有關(guān)特性,對數(shù)據(jù)安全性方面作出如下要求:
a)應(yīng)數(shù)據(jù)應(yīng)存儲和傳輸于安全的環(huán)境中,防止數(shù)據(jù)泄露和濫用。
b)大語言模型構(gòu)建過程中應(yīng)告知使用時收集用戶數(shù)據(jù)的范圍,提供數(shù)據(jù)信息撤銷、清
除等操作。
5
T/CESXXX-XXXX
c)針對電力系統(tǒng)中數(shù)據(jù)的特性,要求大語言模型規(guī)范數(shù)據(jù)安全等級。
d)在對大模型進行微調(diào)訓(xùn)練過程中,要求對數(shù)據(jù)進行全面的安全性評估,以確保大語
言模型在電力領(lǐng)域的應(yīng)用滿足相關(guān)法規(guī)和安全要求。
7大語言模型微調(diào)數(shù)據(jù)準備流程規(guī)范
本文件規(guī)定了在電力系統(tǒng)中通用的大語言模型微調(diào)數(shù)據(jù)準備流程規(guī)范,在應(yīng)用過程中應(yīng)
該結(jié)合具體的業(yè)務(wù)要求及應(yīng)用場景適時調(diào)整。具體的流程見圖2:
圖2電力系統(tǒng)中通用的大語言模型微調(diào)數(shù)據(jù)準備流程
(1)數(shù)據(jù)收集
電力系統(tǒng)大語言微調(diào)數(shù)據(jù)的具體要求收集電力系統(tǒng)的原始數(shù)據(jù),包括但不限于發(fā)電、輸
電、變電、配電、用電和調(diào)度等各環(huán)節(jié)的數(shù)據(jù),以及能源數(shù)據(jù)、天氣數(shù)據(jù)等多類型數(shù)據(jù)。
(2)數(shù)據(jù)清洗與數(shù)據(jù)集構(gòu)建
大語言模型對訓(xùn)練數(shù)據(jù)的具體要求包括:
a)對已收集的電力系統(tǒng)原始數(shù)據(jù)進行篩選、標注和整理;
b)開展數(shù)據(jù)預(yù)處理,如去除無關(guān)、重復(fù)、錯誤、低質(zhì)量的數(shù)據(jù)等,有效減少訓(xùn)練數(shù)據(jù)
中的噪聲和偏差,提高大語言模型關(guān)于電力系統(tǒng)場景數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年企業(yè)福利協(xié)議范本
- 2025年藥用空心膠囊項目規(guī)劃申請報告模稿
- 2025年區(qū)域一體化發(fā)展戰(zhàn)略規(guī)劃協(xié)議
- 2025年農(nóng)業(yè)產(chǎn)品買賣合同規(guī)范
- 2025年產(chǎn)品分銷權(quán)合同
- 2025年公共區(qū)域綠化苗木合同
- 2025年中介企業(yè)勞務(wù)合作合同樣本
- 2025年離婚協(xié)議書財產(chǎn)分割及子女撫養(yǎng)策劃大綱
- 2025年港口業(yè)投資項目規(guī)劃申請報告模范
- 2025年聚醚多元醇項目提案報告模稿
- GB 4706.20-2004家用和類似用途電器的安全滾筒式干衣機的特殊要求
- 無紙化會議系統(tǒng)解決方案
- 佛教空性與緣起課件
- 上海鐵路局勞動安全“八防”考試題庫(含答案)
- 《愿望的實現(xiàn)》教學設(shè)計
- 效率提升和品質(zhì)改善方案
- 中山大學抬頭信紙中山大學橫式便箋紙推薦信模板a
- 義務(wù)教育學科作業(yè)設(shè)計與管理指南
- 《汽車發(fā)展史》PPT課件(PPT 75頁)
- 常暗之廂(7規(guī)則-簡體修正)
- 反詐騙防詐騙主題教育宣傳圖文PPT教學課件
評論
0/150
提交評論