版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS國(guó)際標(biāo)準(zhǔn)分類號(hào)
CCS中國(guó)標(biāo)準(zhǔn)文獻(xiàn)分類號(hào)
團(tuán)體標(biāo)準(zhǔn)
T/CESXXX-XXXX
電力知識(shí)智能檢索流程規(guī)范
Specificationforintelligentretrievalprocessofelectricpower
knowledge
(征求意見(jiàn)稿)
XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施
中國(guó)電工技術(shù)學(xué)會(huì)發(fā)布
T/CESXXX—XXXX
電力知識(shí)智能檢索流程規(guī)范
1范圍
本文件規(guī)定了對(duì)電力知識(shí)智能檢索流程的電力知識(shí)文本基本要求、知識(shí)庫(kù)構(gòu)建要求和電力知識(shí)檢
索流程要求,其中電力知識(shí)智能檢索流程主要針對(duì)電力行業(yè)文本數(shù)據(jù)。
本文件適用于國(guó)內(nèi)各單位實(shí)現(xiàn)電力知識(shí)智能檢索流程的相關(guān)人員。
2規(guī)范性引用文件
下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T5271.28信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)
T/CESA1040-2019信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程
T/CES128-2022電力人工智能平臺(tái)總體架構(gòu)及技術(shù)要求
T/CES156-2022電力智能交互文本訓(xùn)練語(yǔ)料標(biāo)注規(guī)范
3術(shù)語(yǔ)和定義
下列術(shù)語(yǔ)和定義適用于本文件。
3.1
電力知識(shí)electricityknowledge
指與電能的產(chǎn)生、傳輸和利用過(guò)程中所涉及的知識(shí)和技術(shù)。
3.2
知識(shí)庫(kù)knowledgebase
是知識(shí)工程中結(jié)構(gòu)化、易操作、易利用、全面有組織的知識(shí)集群。
3.3
文本向量化textvectorization
指將文本信息表示成能夠表達(dá)文本語(yǔ)義的向量,即用數(shù)值向量來(lái)表示文本的語(yǔ)義。
3.4
向量相似度vectorsimilarity
指衡量?jī)蓚€(gè)向量在數(shù)值上的接近程度的度量。
3.5
智能檢索intelligentretrieval
指計(jì)算機(jī)根據(jù)用戶的檢索詞和檢索要求,運(yùn)用人工智能技術(shù)自動(dòng)擴(kuò)展檢索詞和構(gòu)造檢索式,以滿足
用戶檢索要求的過(guò)程。
3.6
提示模版prompttemplate
指在AI大模型訓(xùn)練或應(yīng)用過(guò)程中,用來(lái)引導(dǎo)模型生成特定類型文本或解決特定任務(wù)的一種預(yù)設(shè)語(yǔ)
句。通過(guò)給模型提供明確的上下文信息或者參數(shù)信息,提示模板可以有效地提高模型在特定任務(wù)上的表
現(xiàn)。
3.7
提示prompt
1
T/CESXXX—XXXX
在AI大模型中,prompt主要是用來(lái)給模型提供提示輸入信息的上下文和輸入模型的參數(shù)信息。
4縮略語(yǔ)
下列縮略語(yǔ)適用于本文件。
LLM:大語(yǔ)言模型(LargeLanguageModel),也稱大型語(yǔ)言模型。
5總則
本文件對(duì)電力知識(shí)智能檢索流程的規(guī)范主要體現(xiàn)在三個(gè)方面:電力知識(shí)文本基本要求、電力知識(shí)
庫(kù)構(gòu)建基本要求和電力知識(shí)檢索流程基本要求。其中,電力知識(shí)文本基本要求用于規(guī)范電力知識(shí)文本
文件的命名、存儲(chǔ)格式等,電力知識(shí)庫(kù)構(gòu)建基本要求用于規(guī)范構(gòu)建電力知識(shí)庫(kù),電力知識(shí)檢索流程基
本要求用于規(guī)范基于電力知識(shí)庫(kù)和電力大模型的電力知識(shí)智能檢索流程。這三方面內(nèi)容的具體組織框
架如圖1所示:
圖1內(nèi)容組織框架
6電力知識(shí)文本基本要求
6.1存儲(chǔ)格式要求
電力知識(shí)文件應(yīng)采用txt、docx、md、pdf存儲(chǔ)格式。其中,對(duì)于excel等其他格式的原始數(shù)據(jù)可
以轉(zhuǎn)換為上述存儲(chǔ)格式之一且應(yīng)優(yōu)先轉(zhuǎn)成txt存儲(chǔ)格式。
6.2命名要求
電力知識(shí)文本文件名稱應(yīng)由三個(gè)部分組成:
a)第一部分為當(dāng)前電力知識(shí)文本的專業(yè)信息;
b)第二部分為原始源文件生成時(shí)的日期,日期格式:YYYY-MM-DD;
c)第三部分為文件唯一性編號(hào),從1開(kāi)始計(jì)數(shù);
d)這三部分用下劃線連接,且文件名稱長(zhǎng)度和擴(kuò)展名在內(nèi)最大長(zhǎng)度不超過(guò)100個(gè)字符(包含中英
文字符和特殊字符);
e)文件命名舉例:輸電線路金具部件介紹_2023-10-11_1。
6.3質(zhì)量要求
電力知識(shí)文本文件的質(zhì)量要求如下。
2
T/CESXXX—XXXX
a)確保一個(gè)文件中的知識(shí)都是屬于同一個(gè)細(xì)分領(lǐng)域、同一權(quán)限等級(jí),且不同細(xì)分領(lǐng)域、不同權(quán)限
的知識(shí)不能混雜在同一個(gè)文件中;
b)電力知識(shí)數(shù)據(jù)中不應(yīng)存在重復(fù)的記錄或重復(fù)的信息,以確保數(shù)據(jù)的唯一性;
c)電力知識(shí)數(shù)據(jù)中不應(yīng)包含特殊字符、停用詞、HTML標(biāo)簽等;
d)電力知識(shí)數(shù)據(jù)中不應(yīng)包含含糊不清、模棱兩可、參考價(jià)值小、意義不大的知識(shí)內(nèi)容;
e)電力知識(shí)數(shù)據(jù)中不應(yīng)包含圖片、表格等數(shù)據(jù),但可將圖片、表格中的內(nèi)容提煉為文字表述且可
優(yōu)先轉(zhuǎn)化成問(wèn)答形式;
f)電力知識(shí)數(shù)據(jù)中包含的問(wèn)答形式的數(shù)據(jù)應(yīng)提供詳細(xì)和全面的答案,并確?;卮鸱蠈I(yè)要求和
語(yǔ)言規(guī)范。
6.4電力知識(shí)文本描述文件要求
每批次電力知識(shí)文本文件應(yīng)有一個(gè)描述文件,且描述文件應(yīng)滿足下述要求:
a)存儲(chǔ)格式應(yīng)為txt格式;
b)命名應(yīng)由兩個(gè)部分組成:
1)本文件創(chuàng)建的日期,日期格式:YYYY-MM-DD;
2)文件唯一性編號(hào),從1開(kāi)始計(jì)數(shù);
3)文件名的各部分用下劃線連接,文件命名示例:2023-10-12_1。
c)文件內(nèi)容應(yīng)描述本電力知識(shí)信息的基本信息,應(yīng)包括電力知識(shí)文本文件的來(lái)源、創(chuàng)建日期、聯(lián)
系人、文本用途等信息。
6.5安全管控
電力知識(shí)文件存儲(chǔ)環(huán)境應(yīng)滿足安全管控要求。具體要求包括:
a)電力知識(shí)文件應(yīng)存儲(chǔ)在指定安全機(jī)器中,同時(shí)該機(jī)器應(yīng)開(kāi)啟防火墻,安裝殺毒軟件,并禁用
USB接口功能;
b)存儲(chǔ)電力知識(shí)文件的機(jī)器中的所有數(shù)據(jù)文件需定期做好數(shù)據(jù)備份,不得擅自拷貝、傳輸,防止
數(shù)據(jù)丟失或泄露。
7電力知識(shí)庫(kù)構(gòu)建基本要求
7.1文本內(nèi)容拆分要求
電力知識(shí)文本內(nèi)容的拆分方法應(yīng)采用規(guī)則拆分或語(yǔ)義拆分,具體要求如下:
a)利用規(guī)則進(jìn)行文本拆分應(yīng)根據(jù)文本內(nèi)容中常見(jiàn)終止符號(hào)進(jìn)行拆分,且拆分后的文本長(zhǎng)度控制在
1000內(nèi)。常見(jiàn)文本終止符號(hào)如:?jiǎn)巫址麛嗑浞⒅杏⑽氖÷蕴?hào)、雙引號(hào)等。
b)利用語(yǔ)義拆分方法應(yīng)將文本內(nèi)容拆分為具有語(yǔ)義信息的最小塊,一般是有意義的句子,再將這
些小塊組合并成一定大小的文本段且文本段大小控制在1000內(nèi)。
7.2文本向量化方法選擇要求
對(duì)拆分的文本內(nèi)容進(jìn)行向量化時(shí)選擇的向量化方法要求如下:
a)應(yīng)選擇可以對(duì)中文文本進(jìn)行向量化的方法;
b)所選向量化方法在統(tǒng)一評(píng)測(cè)標(biāo)準(zhǔn)中具有較好評(píng)測(cè)結(jié)果;
c)所選向量化方法在應(yīng)用過(guò)程中易調(diào)用、易遷移部署。
7.3向量數(shù)據(jù)庫(kù)選擇要求
3
T/CESXXX—XXXX
向量化應(yīng)存儲(chǔ)向量數(shù)據(jù)庫(kù)中,選擇向量數(shù)據(jù)庫(kù)的具體要求如下:
a)向量數(shù)據(jù)庫(kù)應(yīng)具備較好查詢性能,可結(jié)合向量數(shù)據(jù)庫(kù)的索引技術(shù)、數(shù)據(jù)結(jié)構(gòu)、硬件配置等因素
判斷向量數(shù)據(jù)庫(kù)的性能;
b)選擇的向量數(shù)據(jù)庫(kù)的存儲(chǔ)量應(yīng)滿足電力知識(shí)數(shù)據(jù)的存儲(chǔ)需求;
c)所選向量數(shù)據(jù)庫(kù)應(yīng)具備良好的社區(qū)支持,以便更容易地解決問(wèn)題和獲取幫助。
d)根據(jù)業(yè)務(wù)需求選擇具備不同功能的向量數(shù)據(jù)庫(kù),如部分向量數(shù)據(jù)庫(kù)提供了全文搜索功能,而另
一部分則提供了更專業(yè)的向量搜索功能。
8電力知識(shí)檢索流程基本要求
8.1總體要求
電力知識(shí)智能檢索流程基本要求具體包括問(wèn)題文本內(nèi)容向量化要求、向量相似度匹配要求、匹配結(jié)
果處理要求、檢索結(jié)果生成要求等,如圖2所示:
圖2電力知識(shí)檢索流程基本要求
8.2問(wèn)題文本內(nèi)容向量化要求
對(duì)用戶輸入的問(wèn)題文本內(nèi)容進(jìn)行向量化操作的基本要求具體如下:
a)對(duì)用戶輸入的問(wèn)題文本內(nèi)容進(jìn)行向量化時(shí)選擇文本向量化方法的要求應(yīng)與第7章中文本向量化
要求相同;
b)選用的文本向量化方法應(yīng)與第7章選用的文本向量化方法相同;
c)用戶輸入的問(wèn)題文本內(nèi)容向量化后應(yīng)根據(jù)電力業(yè)務(wù)需求,與未向量化之前的問(wèn)題文本一同寫(xiě)入
指定日志文件中。
8.3向量相似度匹配要求
進(jìn)行向量相似度匹配的具體要求如下:
a)應(yīng)選擇合適的向量匹配算法,所選向量匹配算法能夠準(zhǔn)確快速計(jì)算出問(wèn)題文本向量與電力知識(shí)
庫(kù)中不同文本向量之間的相似度值;
b)對(duì)計(jì)算所得的相似度值按照從大到小(或者從小到大)的順序進(jìn)行排序,并選取前k個(gè)相似度值
對(duì)應(yīng)的文本向量作為匹配結(jié)果。其中確定k值的要求如下:
1)一般情況下,k值默認(rèn)設(shè)定為3;
2)根據(jù)電力知識(shí)庫(kù)向量匹配情況,可增大或減小k值以獲取滿足業(yè)務(wù)需求的結(jié)果。
c)將獲取的k個(gè)文本向量轉(zhuǎn)換為對(duì)應(yīng)的文本內(nèi)容,并將文本內(nèi)容按照一定方式組合成一個(gè)文本段落,
其中組合方式要求如下:
1)k個(gè)文本內(nèi)容按照向量之間的匹配度(由大到小或者由小到大)直接組合成一個(gè)文本段落;
4
T/CESXXX—XXXX
2)k個(gè)文本內(nèi)容打亂順序后隨機(jī)排序組合成一個(gè)文本段落。
8.3檢索結(jié)果生成要求
檢索結(jié)果生成應(yīng)按照如下要求:
a)最終的檢索結(jié)果通過(guò)電力語(yǔ)言大模型生成;
b)電力語(yǔ)言大模型應(yīng)由基座大模型微調(diào)得到,其中基座大模型的選則應(yīng)遵循以下要求:
1)基座模型LLM應(yīng)可以生成中文文本內(nèi)容;
2)需根據(jù)現(xiàn)有硬件條件(如顯卡GPU的性能、數(shù)量、服務(wù)器數(shù)量等)選擇基座模型,且所選基座
模型LLM能夠在現(xiàn)有硬件環(huán)境中運(yùn)行;
3)基座模型LLM應(yīng)易于遷移部署,且其生成文本內(nèi)容的反應(yīng)時(shí)間應(yīng)小于電力知識(shí)智能檢索要求
的最長(zhǎng)反應(yīng)時(shí)間;
4)基座模型可以通過(guò)提示信息及用戶指令產(chǎn)生指定內(nèi)容;
c)電力大模型生成檢索結(jié)果應(yīng)根據(jù)匹配到的電力知識(shí)內(nèi)容和問(wèn)題內(nèi)容得到。
8.4檢索結(jié)果安全管控
檢索結(jié)果需進(jìn)行安全管控,具體要求如下:
a)檢索結(jié)果應(yīng)以指定形式返回,如以字典形式返回:{“檢索結(jié)果”:“電力知識(shí)檢索具體內(nèi)容”}
b)檢索結(jié)果和問(wèn)題內(nèi)容應(yīng)寫(xiě)入指定日志文件;
c)針對(duì)電力行業(yè)內(nèi)部人員,知識(shí)檢索結(jié)果一般在電力行業(yè)內(nèi)部軟件上返回給需求人員;
d)針對(duì)非電力行業(yè)內(nèi)部人員,檢索結(jié)果需對(duì)檢索結(jié)果脫敏后返回給需求人員。
5
T/CESXXX—XXXX
附錄A
資料性附錄
電力知識(shí)智能檢索提示模版應(yīng)用示例
應(yīng)用場(chǎng)景:電力知識(shí)智能檢索
步驟一:用戶輸入問(wèn)題,具體問(wèn)題(question)具體為:根據(jù)絕緣子的制成材料分類,絕緣子的類
型有哪些?
步驟二:從電力知識(shí)庫(kù)匹配相關(guān)文本內(nèi)容并進(jìn)行文本內(nèi)容拼接,匹配到的具體內(nèi)容(context)為:
絕緣子按安裝方式不同,可分為懸式絕緣子和支柱絕緣子;按照使用的絕緣材料的不同,可分為瓷絕緣
子、玻璃絕緣子和復(fù)合絕緣子(也稱合成絕緣子);按照使用電壓等級(jí)不同,可分為低壓絕緣子和高壓
絕緣子;按照使用的環(huán)境條件的不同,派生出污穢地區(qū)使用的耐污絕緣子;按照使用電壓種類不同,派
生出直流絕緣子;尚有各種特殊用途的絕緣子,如絕緣橫擔(dān)、半導(dǎo)體釉絕緣子和配電用的拉緊絕緣子、
線軸絕緣子和布線絕緣子等。此外,按照絕緣件擊穿可能性不同,又可分為A型即不可擊穿型絕緣子和
B型即可擊穿型絕緣子兩類。
步驟三:已知提示模版是:prompt_template="""已知信息:{context}。根據(jù)上述已知信息,簡(jiǎn)潔
和專業(yè)的來(lái)回答用戶的問(wèn)題。優(yōu)先用已知信息的原文回答,不要解釋信息來(lái)源。如果無(wú)法從中得到答案,
請(qǐng)說(shuō)“根據(jù)已知信息無(wú)法回答該問(wèn)題”
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作總結(jié)之護(hù)士職業(yè)道德總結(jié)
- 工作總結(jié)之地鐵實(shí)習(xí)總結(jié)2000字
- 電工電子技術(shù)(第3版) 課件 3.4 變壓器結(jié)構(gòu)與工作原理
- 公司自查報(bào)告-企業(yè)管理
- 《讓成交變得更輕松》課件
- 《計(jì)算機(jī)應(yīng)用研究》課件
- 八年級(jí)《列夫·托爾斯泰》課件
- 《機(jī)械制造基礎(chǔ)》課件 汪曉云 模塊5-8 機(jī)床夾具的基礎(chǔ)知識(shí)- 機(jī)械裝配工藝的基礎(chǔ)知識(shí)
- 《教育經(jīng)濟(jì)效益》課件
- 福建省三明市建寧縣2023-2024學(xué)年八年級(jí)上學(xué)期期末考試數(shù)學(xué)試卷(含解析)
- 天津市津南區(qū)2023-2024學(xué)年七年級(jí)上學(xué)期期末數(shù)學(xué)測(cè)試卷(含答案)
- 田徑大單元教學(xué)計(jì)劃
- 物理化學(xué)題庫(kù)(含答案)
- 嵌入式軟件設(shè)計(jì)方案
- 包裝工培訓(xùn)方案范本
- 華為財(cái)務(wù)管理(6版)-華為經(jīng)營(yíng)管理叢書(shū)
- 語(yǔ)言領(lǐng)域核心經(jīng)驗(yàn)學(xué)前兒童語(yǔ)言學(xué)習(xí)與發(fā)展核心經(jīng)驗(yàn)
- 一次性工傷醫(yī)療補(bǔ)助金申請(qǐng)表(新表3)1
- 第七課經(jīng)濟(jì)全球化與中國(guó)學(xué)案高中政治選擇性必修一當(dāng)代國(guó)際政治與經(jīng)濟(jì)
- 中國(guó)傳統(tǒng)制墨工藝研究
- 七氟丙烷出廠檢驗(yàn)報(bào)告范本
評(píng)論
0/150
提交評(píng)論