《電力知識(shí)智能檢索流程規(guī)范》_第1頁(yè)
《電力知識(shí)智能檢索流程規(guī)范》_第2頁(yè)
《電力知識(shí)智能檢索流程規(guī)范》_第3頁(yè)
《電力知識(shí)智能檢索流程規(guī)范》_第4頁(yè)
《電力知識(shí)智能檢索流程規(guī)范》_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS國(guó)際標(biāo)準(zhǔn)分類號(hào)

CCS中國(guó)標(biāo)準(zhǔn)文獻(xiàn)分類號(hào)

團(tuán)體標(biāo)準(zhǔn)

T/CESXXX-XXXX

電力知識(shí)智能檢索流程規(guī)范

Specificationforintelligentretrievalprocessofelectricpower

knowledge

(征求意見(jiàn)稿)

XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施

中國(guó)電工技術(shù)學(xué)會(huì)發(fā)布

T/CESXXX—XXXX

電力知識(shí)智能檢索流程規(guī)范

1范圍

本文件規(guī)定了對(duì)電力知識(shí)智能檢索流程的電力知識(shí)文本基本要求、知識(shí)庫(kù)構(gòu)建要求和電力知識(shí)檢

索流程要求,其中電力知識(shí)智能檢索流程主要針對(duì)電力行業(yè)文本數(shù)據(jù)。

本文件適用于國(guó)內(nèi)各單位實(shí)現(xiàn)電力知識(shí)智能檢索流程的相關(guān)人員。

2規(guī)范性引用文件

下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T5271.28信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)

T/CESA1040-2019信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程

T/CES128-2022電力人工智能平臺(tái)總體架構(gòu)及技術(shù)要求

T/CES156-2022電力智能交互文本訓(xùn)練語(yǔ)料標(biāo)注規(guī)范

3術(shù)語(yǔ)和定義

下列術(shù)語(yǔ)和定義適用于本文件。

3.1

電力知識(shí)electricityknowledge

指與電能的產(chǎn)生、傳輸和利用過(guò)程中所涉及的知識(shí)和技術(shù)。

3.2

知識(shí)庫(kù)knowledgebase

是知識(shí)工程中結(jié)構(gòu)化、易操作、易利用、全面有組織的知識(shí)集群。

3.3

文本向量化textvectorization

指將文本信息表示成能夠表達(dá)文本語(yǔ)義的向量,即用數(shù)值向量來(lái)表示文本的語(yǔ)義。

3.4

向量相似度vectorsimilarity

指衡量?jī)蓚€(gè)向量在數(shù)值上的接近程度的度量。

3.5

智能檢索intelligentretrieval

指計(jì)算機(jī)根據(jù)用戶的檢索詞和檢索要求,運(yùn)用人工智能技術(shù)自動(dòng)擴(kuò)展檢索詞和構(gòu)造檢索式,以滿足

用戶檢索要求的過(guò)程。

3.6

提示模版prompttemplate

指在AI大模型訓(xùn)練或應(yīng)用過(guò)程中,用來(lái)引導(dǎo)模型生成特定類型文本或解決特定任務(wù)的一種預(yù)設(shè)語(yǔ)

句。通過(guò)給模型提供明確的上下文信息或者參數(shù)信息,提示模板可以有效地提高模型在特定任務(wù)上的表

現(xiàn)。

3.7

提示prompt

1

T/CESXXX—XXXX

在AI大模型中,prompt主要是用來(lái)給模型提供提示輸入信息的上下文和輸入模型的參數(shù)信息。

4縮略語(yǔ)

下列縮略語(yǔ)適用于本文件。

LLM:大語(yǔ)言模型(LargeLanguageModel),也稱大型語(yǔ)言模型。

5總則

本文件對(duì)電力知識(shí)智能檢索流程的規(guī)范主要體現(xiàn)在三個(gè)方面:電力知識(shí)文本基本要求、電力知識(shí)

庫(kù)構(gòu)建基本要求和電力知識(shí)檢索流程基本要求。其中,電力知識(shí)文本基本要求用于規(guī)范電力知識(shí)文本

文件的命名、存儲(chǔ)格式等,電力知識(shí)庫(kù)構(gòu)建基本要求用于規(guī)范構(gòu)建電力知識(shí)庫(kù),電力知識(shí)檢索流程基

本要求用于規(guī)范基于電力知識(shí)庫(kù)和電力大模型的電力知識(shí)智能檢索流程。這三方面內(nèi)容的具體組織框

架如圖1所示:

圖1內(nèi)容組織框架

6電力知識(shí)文本基本要求

6.1存儲(chǔ)格式要求

電力知識(shí)文件應(yīng)采用txt、docx、md、pdf存儲(chǔ)格式。其中,對(duì)于excel等其他格式的原始數(shù)據(jù)可

以轉(zhuǎn)換為上述存儲(chǔ)格式之一且應(yīng)優(yōu)先轉(zhuǎn)成txt存儲(chǔ)格式。

6.2命名要求

電力知識(shí)文本文件名稱應(yīng)由三個(gè)部分組成:

a)第一部分為當(dāng)前電力知識(shí)文本的專業(yè)信息;

b)第二部分為原始源文件生成時(shí)的日期,日期格式:YYYY-MM-DD;

c)第三部分為文件唯一性編號(hào),從1開(kāi)始計(jì)數(shù);

d)這三部分用下劃線連接,且文件名稱長(zhǎng)度和擴(kuò)展名在內(nèi)最大長(zhǎng)度不超過(guò)100個(gè)字符(包含中英

文字符和特殊字符);

e)文件命名舉例:輸電線路金具部件介紹_2023-10-11_1。

6.3質(zhì)量要求

電力知識(shí)文本文件的質(zhì)量要求如下。

2

T/CESXXX—XXXX

a)確保一個(gè)文件中的知識(shí)都是屬于同一個(gè)細(xì)分領(lǐng)域、同一權(quán)限等級(jí),且不同細(xì)分領(lǐng)域、不同權(quán)限

的知識(shí)不能混雜在同一個(gè)文件中;

b)電力知識(shí)數(shù)據(jù)中不應(yīng)存在重復(fù)的記錄或重復(fù)的信息,以確保數(shù)據(jù)的唯一性;

c)電力知識(shí)數(shù)據(jù)中不應(yīng)包含特殊字符、停用詞、HTML標(biāo)簽等;

d)電力知識(shí)數(shù)據(jù)中不應(yīng)包含含糊不清、模棱兩可、參考價(jià)值小、意義不大的知識(shí)內(nèi)容;

e)電力知識(shí)數(shù)據(jù)中不應(yīng)包含圖片、表格等數(shù)據(jù),但可將圖片、表格中的內(nèi)容提煉為文字表述且可

優(yōu)先轉(zhuǎn)化成問(wèn)答形式;

f)電力知識(shí)數(shù)據(jù)中包含的問(wèn)答形式的數(shù)據(jù)應(yīng)提供詳細(xì)和全面的答案,并確?;卮鸱蠈I(yè)要求和

語(yǔ)言規(guī)范。

6.4電力知識(shí)文本描述文件要求

每批次電力知識(shí)文本文件應(yīng)有一個(gè)描述文件,且描述文件應(yīng)滿足下述要求:

a)存儲(chǔ)格式應(yīng)為txt格式;

b)命名應(yīng)由兩個(gè)部分組成:

1)本文件創(chuàng)建的日期,日期格式:YYYY-MM-DD;

2)文件唯一性編號(hào),從1開(kāi)始計(jì)數(shù);

3)文件名的各部分用下劃線連接,文件命名示例:2023-10-12_1。

c)文件內(nèi)容應(yīng)描述本電力知識(shí)信息的基本信息,應(yīng)包括電力知識(shí)文本文件的來(lái)源、創(chuàng)建日期、聯(lián)

系人、文本用途等信息。

6.5安全管控

電力知識(shí)文件存儲(chǔ)環(huán)境應(yīng)滿足安全管控要求。具體要求包括:

a)電力知識(shí)文件應(yīng)存儲(chǔ)在指定安全機(jī)器中,同時(shí)該機(jī)器應(yīng)開(kāi)啟防火墻,安裝殺毒軟件,并禁用

USB接口功能;

b)存儲(chǔ)電力知識(shí)文件的機(jī)器中的所有數(shù)據(jù)文件需定期做好數(shù)據(jù)備份,不得擅自拷貝、傳輸,防止

數(shù)據(jù)丟失或泄露。

7電力知識(shí)庫(kù)構(gòu)建基本要求

7.1文本內(nèi)容拆分要求

電力知識(shí)文本內(nèi)容的拆分方法應(yīng)采用規(guī)則拆分或語(yǔ)義拆分,具體要求如下:

a)利用規(guī)則進(jìn)行文本拆分應(yīng)根據(jù)文本內(nèi)容中常見(jiàn)終止符號(hào)進(jìn)行拆分,且拆分后的文本長(zhǎng)度控制在

1000內(nèi)。常見(jiàn)文本終止符號(hào)如:?jiǎn)巫址麛嗑浞⒅杏⑽氖÷蕴?hào)、雙引號(hào)等。

b)利用語(yǔ)義拆分方法應(yīng)將文本內(nèi)容拆分為具有語(yǔ)義信息的最小塊,一般是有意義的句子,再將這

些小塊組合并成一定大小的文本段且文本段大小控制在1000內(nèi)。

7.2文本向量化方法選擇要求

對(duì)拆分的文本內(nèi)容進(jìn)行向量化時(shí)選擇的向量化方法要求如下:

a)應(yīng)選擇可以對(duì)中文文本進(jìn)行向量化的方法;

b)所選向量化方法在統(tǒng)一評(píng)測(cè)標(biāo)準(zhǔn)中具有較好評(píng)測(cè)結(jié)果;

c)所選向量化方法在應(yīng)用過(guò)程中易調(diào)用、易遷移部署。

7.3向量數(shù)據(jù)庫(kù)選擇要求

3

T/CESXXX—XXXX

向量化應(yīng)存儲(chǔ)向量數(shù)據(jù)庫(kù)中,選擇向量數(shù)據(jù)庫(kù)的具體要求如下:

a)向量數(shù)據(jù)庫(kù)應(yīng)具備較好查詢性能,可結(jié)合向量數(shù)據(jù)庫(kù)的索引技術(shù)、數(shù)據(jù)結(jié)構(gòu)、硬件配置等因素

判斷向量數(shù)據(jù)庫(kù)的性能;

b)選擇的向量數(shù)據(jù)庫(kù)的存儲(chǔ)量應(yīng)滿足電力知識(shí)數(shù)據(jù)的存儲(chǔ)需求;

c)所選向量數(shù)據(jù)庫(kù)應(yīng)具備良好的社區(qū)支持,以便更容易地解決問(wèn)題和獲取幫助。

d)根據(jù)業(yè)務(wù)需求選擇具備不同功能的向量數(shù)據(jù)庫(kù),如部分向量數(shù)據(jù)庫(kù)提供了全文搜索功能,而另

一部分則提供了更專業(yè)的向量搜索功能。

8電力知識(shí)檢索流程基本要求

8.1總體要求

電力知識(shí)智能檢索流程基本要求具體包括問(wèn)題文本內(nèi)容向量化要求、向量相似度匹配要求、匹配結(jié)

果處理要求、檢索結(jié)果生成要求等,如圖2所示:

圖2電力知識(shí)檢索流程基本要求

8.2問(wèn)題文本內(nèi)容向量化要求

對(duì)用戶輸入的問(wèn)題文本內(nèi)容進(jìn)行向量化操作的基本要求具體如下:

a)對(duì)用戶輸入的問(wèn)題文本內(nèi)容進(jìn)行向量化時(shí)選擇文本向量化方法的要求應(yīng)與第7章中文本向量化

要求相同;

b)選用的文本向量化方法應(yīng)與第7章選用的文本向量化方法相同;

c)用戶輸入的問(wèn)題文本內(nèi)容向量化后應(yīng)根據(jù)電力業(yè)務(wù)需求,與未向量化之前的問(wèn)題文本一同寫(xiě)入

指定日志文件中。

8.3向量相似度匹配要求

進(jìn)行向量相似度匹配的具體要求如下:

a)應(yīng)選擇合適的向量匹配算法,所選向量匹配算法能夠準(zhǔn)確快速計(jì)算出問(wèn)題文本向量與電力知識(shí)

庫(kù)中不同文本向量之間的相似度值;

b)對(duì)計(jì)算所得的相似度值按照從大到小(或者從小到大)的順序進(jìn)行排序,并選取前k個(gè)相似度值

對(duì)應(yīng)的文本向量作為匹配結(jié)果。其中確定k值的要求如下:

1)一般情況下,k值默認(rèn)設(shè)定為3;

2)根據(jù)電力知識(shí)庫(kù)向量匹配情況,可增大或減小k值以獲取滿足業(yè)務(wù)需求的結(jié)果。

c)將獲取的k個(gè)文本向量轉(zhuǎn)換為對(duì)應(yīng)的文本內(nèi)容,并將文本內(nèi)容按照一定方式組合成一個(gè)文本段落,

其中組合方式要求如下:

1)k個(gè)文本內(nèi)容按照向量之間的匹配度(由大到小或者由小到大)直接組合成一個(gè)文本段落;

4

T/CESXXX—XXXX

2)k個(gè)文本內(nèi)容打亂順序后隨機(jī)排序組合成一個(gè)文本段落。

8.3檢索結(jié)果生成要求

檢索結(jié)果生成應(yīng)按照如下要求:

a)最終的檢索結(jié)果通過(guò)電力語(yǔ)言大模型生成;

b)電力語(yǔ)言大模型應(yīng)由基座大模型微調(diào)得到,其中基座大模型的選則應(yīng)遵循以下要求:

1)基座模型LLM應(yīng)可以生成中文文本內(nèi)容;

2)需根據(jù)現(xiàn)有硬件條件(如顯卡GPU的性能、數(shù)量、服務(wù)器數(shù)量等)選擇基座模型,且所選基座

模型LLM能夠在現(xiàn)有硬件環(huán)境中運(yùn)行;

3)基座模型LLM應(yīng)易于遷移部署,且其生成文本內(nèi)容的反應(yīng)時(shí)間應(yīng)小于電力知識(shí)智能檢索要求

的最長(zhǎng)反應(yīng)時(shí)間;

4)基座模型可以通過(guò)提示信息及用戶指令產(chǎn)生指定內(nèi)容;

c)電力大模型生成檢索結(jié)果應(yīng)根據(jù)匹配到的電力知識(shí)內(nèi)容和問(wèn)題內(nèi)容得到。

8.4檢索結(jié)果安全管控

檢索結(jié)果需進(jìn)行安全管控,具體要求如下:

a)檢索結(jié)果應(yīng)以指定形式返回,如以字典形式返回:{“檢索結(jié)果”:“電力知識(shí)檢索具體內(nèi)容”}

b)檢索結(jié)果和問(wèn)題內(nèi)容應(yīng)寫(xiě)入指定日志文件;

c)針對(duì)電力行業(yè)內(nèi)部人員,知識(shí)檢索結(jié)果一般在電力行業(yè)內(nèi)部軟件上返回給需求人員;

d)針對(duì)非電力行業(yè)內(nèi)部人員,檢索結(jié)果需對(duì)檢索結(jié)果脫敏后返回給需求人員。

5

T/CESXXX—XXXX

附錄A

資料性附錄

電力知識(shí)智能檢索提示模版應(yīng)用示例

應(yīng)用場(chǎng)景:電力知識(shí)智能檢索

步驟一:用戶輸入問(wèn)題,具體問(wèn)題(question)具體為:根據(jù)絕緣子的制成材料分類,絕緣子的類

型有哪些?

步驟二:從電力知識(shí)庫(kù)匹配相關(guān)文本內(nèi)容并進(jìn)行文本內(nèi)容拼接,匹配到的具體內(nèi)容(context)為:

絕緣子按安裝方式不同,可分為懸式絕緣子和支柱絕緣子;按照使用的絕緣材料的不同,可分為瓷絕緣

子、玻璃絕緣子和復(fù)合絕緣子(也稱合成絕緣子);按照使用電壓等級(jí)不同,可分為低壓絕緣子和高壓

絕緣子;按照使用的環(huán)境條件的不同,派生出污穢地區(qū)使用的耐污絕緣子;按照使用電壓種類不同,派

生出直流絕緣子;尚有各種特殊用途的絕緣子,如絕緣橫擔(dān)、半導(dǎo)體釉絕緣子和配電用的拉緊絕緣子、

線軸絕緣子和布線絕緣子等。此外,按照絕緣件擊穿可能性不同,又可分為A型即不可擊穿型絕緣子和

B型即可擊穿型絕緣子兩類。

步驟三:已知提示模版是:prompt_template="""已知信息:{context}。根據(jù)上述已知信息,簡(jiǎn)潔

和專業(yè)的來(lái)回答用戶的問(wèn)題。優(yōu)先用已知信息的原文回答,不要解釋信息來(lái)源。如果無(wú)法從中得到答案,

請(qǐng)說(shuō)“根據(jù)已知信息無(wú)法回答該問(wèn)題”

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論