版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大語言模型通識微課
開發(fā)流程與數(shù)據(jù)組織大語言模型如此重要,是因為:(1)高準確性:隨著模型參數(shù)的增加,模型通常能更好地學(xué)習(xí)和適應(yīng)各種數(shù)據(jù),從而提高其預(yù)測和生成的準確性。(2)多功能性:大模型通常更為通用,能夠處理更多種類的任務(wù),而不僅限于特定領(lǐng)域。(3)持續(xù)學(xué)習(xí):大模型的巨大容量使其更適合從持續(xù)的數(shù)據(jù)流中學(xué)習(xí)和適應(yīng)新知識。微課6.1開發(fā)流程與數(shù)據(jù)組織所謂大模型開發(fā),是指建設(shè)以大模型為功能核心、通過其強大的理解能力和生成能力、結(jié)合特殊的數(shù)據(jù)或業(yè)務(wù)邏輯來提供獨特功能的應(yīng)用。開發(fā)大模型相關(guān)應(yīng)用,其技術(shù)核心雖然在大模型上,但一般通過調(diào)用API或開源模型來實現(xiàn)理解與生成,通過提示工程來實現(xiàn)大模型控制,因此,大模型開發(fā)更多的是一個工程問題。圖6-2大模型開發(fā)要素6.1.1什么是大模型開發(fā)大模型開發(fā),是將大模型作為一個調(diào)用工具,通過提示工程、數(shù)據(jù)工程、業(yè)務(wù)邏輯分解等手段來充分發(fā)揮大模型能力,適配應(yīng)用任務(wù)。因此,初學(xué)者并不需要深入研究大模型內(nèi)部原理,而更需要掌握使用大模型的實踐技巧。在大模型開發(fā)中,嘗試用提示工程來替代子模型的訓(xùn)練調(diào)優(yōu),通過提示鏈路組合來實現(xiàn)業(yè)務(wù)邏輯,用一個通用大模型+若干業(yè)務(wù)提示來完成任務(wù),從而將傳統(tǒng)的模型訓(xùn)練調(diào)優(yōu)轉(zhuǎn)變成了更簡單、輕松、低成本的提示設(shè)計調(diào)優(yōu)。6.1.1什么是大模型開發(fā)同時,在評估思路上,大模型開發(fā)與傳統(tǒng)人工智能開發(fā)有質(zhì)的差異。
傳統(tǒng)AI評估
LLM評估圖6-3大模型開發(fā)與傳統(tǒng)人工智能開發(fā)的不同6.1.1什么是大模型開發(fā)通常將大模型開發(fā)分解為以下幾個流程。
圖6-4大模型開發(fā)流程6.1.2大模型開發(fā)流程(1)確定目標。開發(fā)目標即應(yīng)用場景、目標人群、核心價值。對于小型團隊,應(yīng)先設(shè)定最小化目標,從構(gòu)建最小產(chǎn)品開始,逐步完善和優(yōu)化。(2)設(shè)計功能。設(shè)計應(yīng)用所要提供的功能以及每一個功能的大體實現(xiàn)邏輯。越清晰、深入的業(yè)務(wù)邏輯理解往往能帶來更好的提示效果。對于小型團隊來說,應(yīng)先確定應(yīng)用的核心功能,然后延展其上下游功能。(3)搭建整體架構(gòu)。需要針對所設(shè)計的功能,搭建項目的整體架構(gòu),實現(xiàn)從用戶輸入到應(yīng)用輸出的全流程貫通??梢曰贚angChain進行個性化定制,實現(xiàn)從用戶輸入到數(shù)據(jù)庫再到大模型最后輸出的整體架構(gòu)連接。6.1.2大模型開發(fā)流程(4)搭建數(shù)據(jù)庫。需要收集數(shù)據(jù)并進行預(yù)處理,再向量化存儲到數(shù)據(jù)庫中。數(shù)據(jù)預(yù)處理包括從多種格式向純文本的轉(zhuǎn)化,以及對錯誤數(shù)據(jù)、異常數(shù)據(jù)、臟數(shù)據(jù)進行清洗。(5)提示工程。優(yōu)質(zhì)的提示對大模型能力具有極大影響。首先明確提示設(shè)計的一般原則及技巧,構(gòu)建出一個源于實際業(yè)務(wù)的小型驗證集,以此來滿足基本要求、具備基本能力的提示。(6)驗證迭代。通過不斷發(fā)現(xiàn)壞的情況并針對性改進提示工程來提升系統(tǒng)效果、應(yīng)對邊界情況,從而不斷迭代優(yōu)化,基本實現(xiàn)目標的提示版本。6.1.2大模型開發(fā)流程(7)前后端搭建。接下來,設(shè)計產(chǎn)品頁面,讓應(yīng)用上線成為產(chǎn)品。前后端開發(fā)是非常經(jīng)典且成熟的領(lǐng)域,有兩種快速開發(fā)演示的框架。(8)體驗優(yōu)化。接下來需要進行長期的用戶體驗跟蹤,記錄壞情況,與用戶負反饋,再針對性進行優(yōu)化即可。6.1.2大模型開發(fā)流程在設(shè)計、研發(fā)、運行的過程中,大模型面臨的主要挑戰(zhàn)如下。(1)計算資源:訓(xùn)練和運行大模型需要大量的計算資源,這可能限制了許多機構(gòu)和研究者使用它的能力。(2)環(huán)境影響:大規(guī)模模型的訓(xùn)練對能源的需求是巨大的,可能會對環(huán)境造成負面影響。(3)偏見和公正性:由于大模型通常從大量的互聯(lián)網(wǎng)文本中學(xué)習(xí),它們可能會吸收并再現(xiàn)存在于這些數(shù)據(jù)中的偏見。大模型的研發(fā)流程涵蓋了從數(shù)據(jù)采集到模型訓(xùn)練的多個步驟。6.1.3大模型的數(shù)據(jù)組織(1)數(shù)據(jù)采集:是大模型項目的起點,根據(jù)訓(xùn)練需求收集大量數(shù)據(jù)。這些數(shù)據(jù)可以有多種來源,如公開的數(shù)據(jù)集、公司內(nèi)部的數(shù)據(jù)庫、用戶生成的數(shù)據(jù)、傳感器數(shù)據(jù)等。數(shù)據(jù)的類型可以多樣,包括圖像、文本、聲音、視頻等。主要內(nèi)容包括:定義數(shù)據(jù)需求、找到數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)存儲、檢查數(shù)據(jù)質(zhì)量、數(shù)據(jù)整理。這是一個持續(xù)的過程。在整個數(shù)據(jù)采集過程中,需要關(guān)注數(shù)據(jù)的質(zhì)量和一致性,同時也要注意遵守數(shù)據(jù)隱私和安全的相關(guān)規(guī)定。6.1.3大模型的數(shù)據(jù)組織(2)數(shù)據(jù)清洗和預(yù)處理。原始數(shù)據(jù)可能含有噪聲、缺失值、錯誤數(shù)據(jù)等,所以進行清洗。清洗后的數(shù)據(jù)要進行一系列預(yù)處理操作,如歸一化、編碼轉(zhuǎn)換等,使其適合輸入到模型中。主要內(nèi)容包括:數(shù)據(jù)質(zhì)量檢查、處理缺失值、處理重復(fù)值、處理異常值、數(shù)據(jù)轉(zhuǎn)換。進行數(shù)據(jù)清洗和預(yù)處理時,需要對數(shù)據(jù)有深入的理解,以便做出最好的決策。6.1.3大模型的數(shù)據(jù)組織(3)數(shù)據(jù)標注:主要用于監(jiān)督學(xué)習(xí)任務(wù),是一項為原始數(shù)據(jù)添加元信息的工作,以幫助大模型更好地理解和學(xué)習(xí)數(shù)據(jù)。主要內(nèi)容包括:制定標注規(guī)范、選擇或開發(fā)標注工具、進行數(shù)據(jù)標注、質(zhì)量檢查、反饋和修正。高質(zhì)量標注數(shù)據(jù)對訓(xùn)練出高性能的機器學(xué)習(xí)模型至關(guān)重要。因此,盡管這是一個復(fù)雜和耗時的過程,但投入在這個過程中的努力會得到回報。6.1.3大模型的數(shù)據(jù)組織(4)數(shù)據(jù)集劃分:數(shù)據(jù)通常被劃分為訓(xùn)練集、驗證集和測試集。這是大模型項目中的一個重要步驟,可以幫助更好地理解模型的性能。主要內(nèi)容包括:確定劃分策略、隨機劃分、分層抽樣、時間序列數(shù)據(jù)的劃分、分割數(shù)據(jù)、保存數(shù)據(jù)、。這個流程可能根據(jù)數(shù)據(jù)的類型和任務(wù)的需求有所不同。無論如何,正確的數(shù)據(jù)劃分策略對于避免過擬合,以及準確評估模型的性能至關(guān)重要。6.1.3大模型的數(shù)據(jù)組織(5)模型設(shè)計:是大模型項目的關(guān)鍵環(huán)節(jié),需要結(jié)合項目目標、數(shù)據(jù)特性以及算法理論選擇或設(shè)計適合任務(wù)的模型架構(gòu)??赡軙褂脧?fù)雜的深度學(xué)習(xí)架構(gòu),如Transformer等。主要內(nèi)容包括:理解問題、選擇算法、設(shè)計模型架構(gòu)、設(shè)置超參數(shù)、正則化和優(yōu)化策略、定義評估指標。這個流程需要根據(jù)具體的項目和需求進行迭代和調(diào)整,它需要技術(shù)知識、經(jīng)驗以及實驗驗證。在設(shè)計模型時,需要保持對模型復(fù)雜性和泛化能力之間平衡的認識,并始終以實現(xiàn)業(yè)務(wù)目標為導(dǎo)向。6.1.3大模型的數(shù)據(jù)組織(6)模型初始化:是大模型項目中的一個重要步驟。在訓(xùn)練開始前,需要初始化模型的參數(shù),這一般通過隨機方式進行。正確的初始化策略可以幫助模型更快地收斂,并減少訓(xùn)練過程中可能出現(xiàn)的問題。主要內(nèi)容包括:選擇初始化策略、初始化權(quán)重、初始化偏置、設(shè)置初始化參數(shù)、執(zhí)行初始化。這是一個比較技術(shù)性的主題,正確的初始化策略可能對模型的訓(xùn)練速度和性能有很大的影響。應(yīng)該了解不同的初始化策略,以便根據(jù)模型進行選擇。6.1.3大模型的數(shù)據(jù)組織(7)模型訓(xùn)練:是大模型項目中的關(guān)鍵步驟,其中包含了多個環(huán)節(jié)。主要內(nèi)容包括:設(shè)置訓(xùn)練參數(shù)、準備訓(xùn)練數(shù)據(jù)、前向傳播、反向傳播、驗證和調(diào)整、重復(fù)上述步驟、模型測試。實際操作中可能需要根據(jù)特定任務(wù)或特定模型進行相應(yīng)的調(diào)整。6.2.7模型訓(xùn)練(8)模型驗證:是大模型項目中非常關(guān)鍵的一步,目的是在訓(xùn)練過程中,評估模型的性能,定期在驗證集上測試模型的性能,監(jiān)控過擬合,根據(jù)測試和監(jiān)控結(jié)果調(diào)整模型的超參數(shù)。主要內(nèi)容包括:準備驗證集、進行模型預(yù)測、計算評估指標、比較性能、早停法、調(diào)整超參數(shù)。驗證集應(yīng)保持獨立,不能用于訓(xùn)練模型,否則就可能導(dǎo)致模型的性能評估不準確,無法真實反映模型在未見過的數(shù)據(jù)上的性能。6.2.8模型驗證(9)模型保存:是大模型項目的重要一步,讓我們能夠?qū)⒂?xùn)練好的模型存儲起來,以便于后續(xù)的測試、部署或進一步訓(xùn)練或分享。主要內(nèi)容包括:選擇保存格式、保存模型參數(shù)、保存模型架構(gòu)、保存訓(xùn)練配置、執(zhí)行保存操作、驗證保存的模型。這個流程可能會根據(jù)具體需求和所使用的工具或框架進行一些調(diào)整。6.2.9模型保存(10)模型測試:是大模型部署前的最后一步,目的是在測試集上評估模型的最終性能。主要內(nèi)容包括:準備測試集、進行模型預(yù)測、計算評估指標、分析結(jié)果、記錄和報告。測試集應(yīng)當(dāng)保持獨立和未知,不能用于訓(xùn)練或驗證模型,以確保測試結(jié)果能夠真實反映模型在實際環(huán)境中的表現(xiàn)。6.2.10模型測試(11)模型部署:是將訓(xùn)練好的大模型應(yīng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 船舶初步設(shè)計課程設(shè)計
- 生物課題研究的學(xué)生參與計劃
- 經(jīng)理的時間管理技巧分享計劃
- 酒店管理的企業(yè)文化
- 敬業(yè)行業(yè)話務(wù)員崗位展望
- 2025年中考物理一輪復(fù)習(xí)之聲現(xiàn)象
- 酒店管理的利益最大化
- 物流行業(yè)倉儲配送培訓(xùn)總結(jié)
- 汽車美容銷售顧問銷售總結(jié)報告
- 2024年設(shè)備監(jiān)理師考試題庫附答案(輕巧奪冠)
- 廣東省中山市2022-2023學(xué)年高一上學(xué)期期末考試物理試題
- 是誰殺死了周日
- 有關(guān)基建的工作總結(jié)
- 無人機技術(shù)在電信領(lǐng)域的應(yīng)用
- 2023-2024學(xué)年四川省南充市七年級(上)期末數(shù)學(xué)試卷(含解析)
- 氮化硅的制備性質(zhì)及應(yīng)用課件
- 物業(yè)多種經(jīng)營問題分析報告
- 浙江省寧波市鎮(zhèn)海區(qū)2023-2024學(xué)年九年級上學(xué)期期末數(shù)學(xué)試題(含答案)
- 員工健康狀況篩查方案
- 執(zhí)行 如何完成任務(wù)的學(xué)問
- 6.2《青紗帳-甘蔗林》【中職專用】(高教版2023基礎(chǔ)模塊下冊)
評論
0/150
提交評論