大模型掃盲系列-初識(shí)大模型_第1頁(yè)
大模型掃盲系列-初識(shí)大模型_第2頁(yè)
大模型掃盲系列-初識(shí)大模型_第3頁(yè)
大模型掃盲系列-初識(shí)大模型_第4頁(yè)
大模型掃盲系列-初識(shí)大模型_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大模型掃盲系列——初識(shí)大模型近年來(lái),隨著計(jì)算機(jī)技術(shù)和大數(shù)據(jù)的快速發(fā)展,深度學(xué)習(xí)在各個(gè)領(lǐng)域取得了顯著的成果。為了提高模型的性能,研究者們不斷嘗試增加模型的參數(shù)數(shù)量,從而誕生了大模型這一概念。本文將從大模型的原理、訓(xùn)練過(guò)程、prompt和相關(guān)應(yīng)用介紹等方面進(jìn)行分析,幫助讀者初步了解大模型。大模型的定義大模型是指具有數(shù)千萬(wàn)甚至數(shù)億參數(shù)的深度學(xué)習(xí)模型。近年來(lái),隨著計(jì)算機(jī)技術(shù)和大數(shù)據(jù)的快速發(fā)展,深度學(xué)習(xí)在各個(gè)領(lǐng)域取得了顯著的成果,如自然語(yǔ)言處理,圖片生成,工業(yè)數(shù)字化等。為了提高模型的性能,研究者們不斷嘗試增加模型的參數(shù)數(shù)量,從而誕生了大模型這一概念。本文討論的大模型將以平時(shí)指向比較多的大語(yǔ)言模型為例來(lái)進(jìn)行相關(guān)介紹。大模型的基本原理與特點(diǎn)大模型的原理是基于深度學(xué)習(xí),它利用大量的數(shù)據(jù)和計(jì)算資源來(lái)訓(xùn)練具有大量參數(shù)的神經(jīng)網(wǎng)絡(luò)模型。通過(guò)不斷地調(diào)整模型參數(shù),使得模型能夠在各種任務(wù)中取得最佳表現(xiàn)。通常說(shuō)的大模型的“大”的特點(diǎn)體現(xiàn)在:參數(shù)數(shù)量龐大、訓(xùn)練數(shù)據(jù)量大、計(jì)算資源需求高等。很多先進(jìn)的模型由于擁有很“大”的特點(diǎn),使得模型參數(shù)越來(lái)越多,泛化性能越來(lái)越好,在各種專門(mén)的領(lǐng)域輸出結(jié)果也越來(lái)越準(zhǔn)確?,F(xiàn)在市面上比較流行的任務(wù)有AI生成語(yǔ)言(ChatGPT類產(chǎn)品)、AI生成圖片(Midjourney類產(chǎn)品)等,都是圍繞生成這個(gè)概念來(lái)展開(kāi)應(yīng)用?!吧伞焙?jiǎn)單來(lái)說(shuō)就是根據(jù)給定內(nèi)容,預(yù)測(cè)和輸出接下來(lái)對(duì)應(yīng)內(nèi)容的能力。比如最直觀的例子就是成語(yǔ)接龍,可以把大語(yǔ)言模型想象成成語(yǔ)接龍功能的智能版本,也就是根據(jù)最后一個(gè)字輸出接下來(lái)一段文章或者一個(gè)句子。

一個(gè)基本架構(gòu),三種形式:當(dāng)前流行的大模型的網(wǎng)絡(luò)架構(gòu)其實(shí)并沒(méi)有很多新的技術(shù),還是一直沿用當(dāng)前NLP領(lǐng)域最熱門(mén)最有效的架構(gòu)——Transformer結(jié)構(gòu)。相比于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),Transformer具有獨(dú)特的注意力機(jī)制(Attention),這相當(dāng)于給模型加強(qiáng)理解力,對(duì)更重要的詞能給予更多關(guān)注,同時(shí)該機(jī)制具有更好的并行性和擴(kuò)展性,能夠處理更長(zhǎng)的序列,立馬成為NLP領(lǐng)域具有奠基性能力的模型,在各類文本相關(guān)的序列任務(wù)中取得不錯(cuò)的效果。根據(jù)這種網(wǎng)絡(luò)架構(gòu)的變形,主流的框架可以分為Encoder-Decoder,Encoder-Only和Decoder-Only,其中:1)Encoder-Only,僅包含編碼器部分,主要適用于不需要生成序列的任務(wù),只需要對(duì)輸入進(jìn)行編碼和處理的單向任務(wù)場(chǎng)景,如文本分類、情感分析等,這類代表是BERT相關(guān)的模型,例如BERT,RoBERT,ALBERT等2)Encoder-Decoder,既包含編碼器也包含解碼器,通常用于序列到序列(Seq2Seq)任務(wù),如機(jī)器翻譯、對(duì)話生成等,這類代表是以Google訓(xùn)出來(lái)T5為代表相關(guān)大模型。3)Decoder-Only,僅包含解碼器部分,通常用于序列生成任務(wù),如文本生成、機(jī)器翻譯等。這類結(jié)構(gòu)的模型適用于需要生成序列的任務(wù),可以從輸入的編碼中生成相應(yīng)的序列。同時(shí)還有一個(gè)重要特點(diǎn)是可以進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練。在預(yù)訓(xùn)練階段,模型通過(guò)大量的無(wú)標(biāo)注數(shù)據(jù)學(xué)習(xí)語(yǔ)言的統(tǒng)計(jì)模式和語(yǔ)義信息。這種方法可以使得模型具備廣泛的語(yǔ)言知識(shí)和理解能力。在預(yù)訓(xùn)練之后,模型可以進(jìn)行有監(jiān)督微調(diào),用于特定的下游任務(wù)(如機(jī)器翻譯、文本生成等)。這類結(jié)構(gòu)的代表也就是我們平時(shí)非常熟悉的GPT模型的結(jié)構(gòu),所有該家族的網(wǎng)絡(luò)結(jié)構(gòu)都是基于Decoder-Only的形式來(lái)逐步演化??梢钥吹?,很多NLP任務(wù)可能可以通過(guò)多種網(wǎng)絡(luò)結(jié)果來(lái)解決,這也主要是因?yàn)镹LP領(lǐng)域的任務(wù)和數(shù)據(jù)的多樣性和復(fù)雜性,以及現(xiàn)代深度學(xué)習(xí)模型的靈活性和泛化能力,具體哪種結(jié)構(gòu)有效,一般需要根據(jù)具體場(chǎng)景和數(shù)據(jù),通過(guò)實(shí)驗(yàn)效果進(jìn)行選擇。訓(xùn)練三步驟初步認(rèn)識(shí)了大模型長(zhǎng)什么樣了,接下來(lái)一起來(lái)看看如何訓(xùn)練出一個(gè)大模型。訓(xùn)練方式,這里主要參考OpenAI發(fā)表的關(guān)于InstructGPT的相關(guān)訓(xùn)練步驟,主流的大模型訓(xùn)練基本形式大多也是類似的:1、預(yù)訓(xùn)練(Pretraining)預(yù)訓(xùn)練是大模型訓(xùn)練的第一步,目的是讓模型學(xué)習(xí)語(yǔ)言的統(tǒng)計(jì)模式和語(yǔ)義信息。主流的預(yù)訓(xùn)練階段步驟基本都是近似的,其中最重要的就是數(shù)據(jù),需要收集大量的無(wú)標(biāo)注數(shù)據(jù),例如互聯(lián)網(wǎng)上的文本、新聞、博客、論壇等等。這些數(shù)據(jù)可以是多種語(yǔ)言的,并且需要經(jīng)過(guò)一定的清洗和處理,以去除噪音,無(wú)關(guān)信息以及個(gè)人隱私相關(guān)的,最后會(huì)以tokenizer粒度輸入到上文提到的語(yǔ)言模型中。這些數(shù)據(jù)經(jīng)過(guò)清洗和處理后,用于訓(xùn)練和優(yōu)化語(yǔ)言模型。預(yù)訓(xùn)練過(guò)程中,模型會(huì)學(xué)習(xí)詞匯、句法和語(yǔ)義的規(guī)律,以及上下文之間的關(guān)系。OpenAI的ChatGPT4能有如此驚人的效果,主要的一個(gè)原因就是他們訓(xùn)練數(shù)據(jù)源比較優(yōu)質(zhì)。2、

指令微調(diào)階段(InstructionTuningStage)在完成預(yù)訓(xùn)練后,就可以通過(guò)指令微調(diào)去挖掘和增強(qiáng)語(yǔ)言模型本身具備的能力,這步也是很多企業(yè)以及科研研究人員利用大模型的重要步驟。Instructiontuning(指令微調(diào))是大模型訓(xùn)練的一個(gè)階段,它是一種有監(jiān)督微調(diào)的特殊形式,旨在讓模型理解和遵循人類指令。在指令微調(diào)階段,首先需要準(zhǔn)備一系列的NLP任務(wù),并將每個(gè)任務(wù)轉(zhuǎn)化為指令形式,其中指令包括人類對(duì)模型應(yīng)該執(zhí)行的任務(wù)描述和期望的輸出結(jié)果。然后,使用這些指令對(duì)已經(jīng)預(yù)訓(xùn)練好的大語(yǔ)言模型進(jìn)行監(jiān)督學(xué)習(xí),使得模型通過(guò)學(xué)習(xí)和適應(yīng)指令來(lái)提高其在特定任務(wù)上的表現(xiàn)。為了讓模型訓(xùn)練更加高效和簡(jiǎn)單,這個(gè)階段還有一種高效的fine-tuning技術(shù),這為普通的從業(yè)者打開(kāi)了通向使用大模型的捷徑。Parameter-EfficientFine-Tuning(PEFT)旨在通過(guò)最小化微調(diào)參數(shù)的數(shù)量和計(jì)算復(fù)雜度,達(dá)到高效的遷移學(xué)習(xí)的目的,提高預(yù)訓(xùn)練模型在新任務(wù)上的性能,從而緩解大型預(yù)訓(xùn)練模型的訓(xùn)練成本。在訓(xùn)練過(guò)程中,預(yù)訓(xùn)練模型的參數(shù)保持不變,只需微調(diào)少量的額外參數(shù),就可以達(dá)到與全量微調(diào)相當(dāng)?shù)男阅堋D壳?,很多研究?duì)PEFT方法進(jìn)行了探索,例如AdapterTuning和PrefixTuning等。其中,AdapterTuning方法在面對(duì)特定的下游任務(wù)時(shí),將預(yù)訓(xùn)練模型中的某些層固定,只微調(diào)接近下游任務(wù)的幾層參數(shù)。而PrefixTuning方法則是在預(yù)訓(xùn)練模型的基礎(chǔ)上,添加一些額外的參數(shù),這些參數(shù)在訓(xùn)練過(guò)程中會(huì)根據(jù)特定的任務(wù)進(jìn)行更新和調(diào)整。工業(yè)界現(xiàn)在常用的AdapterTuning的技術(shù)是Low-RankAdaptation(LoRA)

。它通過(guò)最小化微調(diào)參數(shù)的數(shù)量和計(jì)算復(fù)雜度,實(shí)現(xiàn)高效的遷移學(xué)習(xí),以提高預(yù)訓(xùn)練模型在新任務(wù)上的性能。LoRA的核心思想是將預(yù)訓(xùn)練模型的權(quán)重矩陣分解為兩個(gè)低秩矩陣的乘積。通過(guò)這種分解,可以顯著減少微調(diào)參數(shù)的數(shù)量,并降低計(jì)算復(fù)雜度。該方式和機(jī)器學(xué)習(xí)中經(jīng)典的降維的思想很類似,類似地,LoRA使用了矩陣分解技術(shù)中的奇異值分解

(SingularValueDecomposition,SVD)

或低秩近似

(Low-RankApproximation)

方法,將原始權(quán)重矩陣分解為兩個(gè)低秩矩陣的乘積。在微調(diào)過(guò)程中,LoRA只更新這兩個(gè)低秩矩陣的參數(shù),而保持其他預(yù)訓(xùn)練參數(shù)固定不變。這樣可以顯著減少微調(diào)所需的計(jì)算資源和時(shí)間,并且在很多任務(wù)上取得了與全量微調(diào)相當(dāng)?shù)男阅堋oRA技術(shù)的引入使得在大規(guī)模預(yù)訓(xùn)練模型上進(jìn)行微調(diào)更加高效和可行,為實(shí)際應(yīng)用提供了更多可能性。3、對(duì)齊微調(diào)(AlignmentTuning)主要目標(biāo)在于將語(yǔ)言模型與人類的偏好、價(jià)值觀進(jìn)行對(duì)齊,其中最重要的技術(shù)就是使用RLHF(reinforcementlearningfromhumanfeedback)來(lái)進(jìn)行對(duì)齊微調(diào)。Step1.預(yù)訓(xùn)練模型的有監(jiān)督微調(diào)先收集一個(gè)提示詞集合,并要求標(biāo)注人員寫(xiě)出高質(zhì)量的回復(fù),然后使用該數(shù)據(jù)集以監(jiān)督的方式微調(diào)預(yù)訓(xùn)練的基礎(chǔ)模型。Step2.訓(xùn)練獎(jiǎng)勵(lì)模型這個(gè)過(guò)程涉及到與人類評(píng)估者進(jìn)行對(duì)話,并根據(jù)他們的反饋來(lái)進(jìn)行調(diào)整和優(yōu)化。評(píng)估者會(huì)根據(jù)個(gè)人偏好對(duì)模型生成的回復(fù)進(jìn)行排序,從而指導(dǎo)模型生成更符合人類期望的回復(fù)。這種基于人類反饋的訓(xùn)練方式可以幫助模型捕捉到更多人類語(yǔ)言的特點(diǎn)和習(xí)慣,從而提升模型的生成能力。Step3.利用強(qiáng)化學(xué)習(xí)模型微調(diào)主要使用了強(qiáng)化學(xué)習(xí)的鄰近策略優(yōu)化(PPO,proximalpolicyoptimization)算法,對(duì)于每個(gè)時(shí)間步,PPO算法會(huì)計(jì)算當(dāng)前產(chǎn)生和初始化的KL散度,根據(jù)這個(gè)分布來(lái)計(jì)算一個(gè)狀態(tài)或動(dòng)作的預(yù)期回報(bào),然后使用這個(gè)回報(bào)來(lái)更新策略,達(dá)到對(duì)SFT模型進(jìn)一步優(yōu)化。但是這種算法存在一些比較明顯的缺點(diǎn),比如PPO是on-policy算法,每一次更新都需要收集新的樣本,這就會(huì)導(dǎo)致算法的效率低下,并且更新是在每次訓(xùn)練時(shí)進(jìn)行的,因此策略更新比較頻繁,這就會(huì)導(dǎo)致算法的穩(wěn)定性較差。所以當(dāng)前有很多新的技術(shù)出來(lái)替代RLHF技術(shù):直接偏好優(yōu)化(DPO)是一種對(duì)傳統(tǒng)RLHF替代的技術(shù),作者在論文中提出擬合一個(gè)反映人類偏好的獎(jiǎng)勵(lì)模型,將獎(jiǎng)勵(lì)函數(shù)和最優(yōu)策略之間的映射聯(lián)系起來(lái),從而把約束獎(jiǎng)勵(lì)最大化問(wèn)題轉(zhuǎn)化為一個(gè)單階段的策略訓(xùn)練問(wèn)題。然后通過(guò)強(qiáng)化學(xué)習(xí)來(lái)微調(diào)大型無(wú)監(jiān)督語(yǔ)言模型,以最大化這個(gè)預(yù)估的獎(jiǎng)勵(lì)。這個(gè)算法具有簡(jiǎn)單有效和計(jì)算輕量級(jí)的特點(diǎn),不需要擬合獎(jiǎng)勵(lì)模型,只需要進(jìn)行單階段訓(xùn)練,也不需要大量的超參數(shù)調(diào)節(jié),所以在響應(yīng)質(zhì)量方面也通常優(yōu)于傳統(tǒng)的RLHF。另外還有RLAIF從采樣方式,生成訓(xùn)練獎(jiǎng)勵(lì)模型的評(píng)分的角度來(lái)替代原有的PPO的RLHF進(jìn)行訓(xùn)練。DPO方法對(duì)齊微調(diào)是一個(gè)關(guān)鍵的階段,這一階段使用強(qiáng)化學(xué)習(xí)從人類反饋中進(jìn)行微調(diào),以進(jìn)一步優(yōu)化模型的生成能力。它通過(guò)與人類評(píng)估者和用戶的互動(dòng),不斷優(yōu)化模型的生成能力,以更好地滿足人類期望和需求。Prompt作為大模型的一個(gè)技術(shù)分支,很多人接觸大模型的第一步就是寫(xiě)prompt,而這的確也是大模型發(fā)展的其中一個(gè)重要方向技術(shù),也是很多實(shí)際運(yùn)用問(wèn)題解決的關(guān)鍵步驟。Prompt技術(shù)的基本思想是,通過(guò)給模型提供一個(gè)或多個(gè)提示詞或短語(yǔ),來(lái)指導(dǎo)模型生成符合要求的輸出。本質(zhì)上是通過(guò)恰當(dāng)?shù)某跏蓟瘏?shù)(也就是適當(dāng)?shù)妮斎胝Z(yǔ)言描述),來(lái)激發(fā)語(yǔ)言模型本身的潛力。例如,在文本分類任務(wù)中,我們可以給模型提供一個(gè)類別標(biāo)簽的列表,并要求它生成與這些類別相關(guān)的文本;在機(jī)器翻譯任務(wù)中,我們可以給模型提供目標(biāo)語(yǔ)言的一段文本,并要求它翻譯這段文本。

Prompt根據(jù)常用的使用場(chǎng)景可以概括為以下四種:Zero-ShotPrompt:

在零樣本場(chǎng)景下使用,模型根據(jù)提示或指令進(jìn)行任務(wù)處理,不需要針對(duì)每個(gè)新任務(wù)或領(lǐng)域都進(jìn)行專門(mén)的訓(xùn)練,這類一般作為訓(xùn)練通用大模型的最常見(jiàn)的評(píng)估手段。Few-ShotPrompt:

在少樣本場(chǎng)景下使用,模型從少量示例中學(xué)習(xí)特定任務(wù),利用遷移學(xué)習(xí)的方法來(lái)提高泛化性能,該類prompt也是很多實(shí)際應(yīng)用案例都采取來(lái)進(jìn)行大模型微調(diào)訓(xùn)練的方式。

Chain-of-thoughtprompt:這類prompt常見(jiàn)于推理復(fù)雜任務(wù),它通過(guò)引導(dǎo)模型逐步解決問(wèn)題,以一系列連貫的步驟展示推理的思路和邏輯關(guān)系。通過(guò)這種逐步推理的方式,模型可以逐漸獲得更多信息,并在整個(gè)推理過(guò)程中累積正確的推斷。Multimodalprompt:這類prompt包含的信息就更豐富,主要是將不同模態(tài)的信息(如文本、圖像、音頻等)融合到一起,形成一種多模態(tài)的提示,以幫助模型更好地理解和處理輸入數(shù)據(jù)。比如在問(wèn)答系統(tǒng)中,可以將問(wèn)題和相關(guān)圖像作為多模態(tài)輸入,以幫助模型更好地理解問(wèn)題的含義和上下文背景,并生成更加準(zhǔn)確和全面的答案。在具體實(shí)踐中,根據(jù)場(chǎng)景設(shè)計(jì)合適的prompt進(jìn)行優(yōu)化,評(píng)估也是大模型工程中重要的一步,對(duì)大模型準(zhǔn)確率和可靠性提升是必不可少的,這步也是將模型潛在強(qiáng)大能力兌現(xiàn)的關(guān)鍵一環(huán)。大模型應(yīng)用當(dāng)前大模型已經(jīng)在很多領(lǐng)域開(kāi)始產(chǎn)品化落地,除了ChatGPT這類大家熟知的產(chǎn)品,主要還有以下一些主流的應(yīng)用:1)辦公Copilot類產(chǎn)品:微軟首先嘗試使用大模型能力來(lái)接入旗下的Office系列軟件,在Word中可以對(duì)文檔進(jìn)行總結(jié)并提出修改編輯的建議,也可以對(duì)所給的文章進(jìn)行總結(jié);此前一直頭疼Excel各種復(fù)雜操作的用戶現(xiàn)在也降低了使用門(mén)檻,可以直接通過(guò)描述就處理數(shù)據(jù);PowerPoint中通過(guò)對(duì)提出要求識(shí)別就能自動(dòng)生成一份展示內(nèi)容;在Outlook中直接使用自然語(yǔ)言來(lái)生成郵件內(nèi)容等功能,實(shí)現(xiàn)真正的AI秘書(shū)。2)GithubCopilot類產(chǎn)品:直接通過(guò)對(duì)話方式進(jìn)行各種功能代碼的生成,包括幫忙寫(xiě)測(cè)試用例,解釋代碼片段和debug程序問(wèn)題,這個(gè)功能對(duì)解放程序員生產(chǎn)力取得了革命性的進(jìn)步,能讓開(kāi)發(fā)人員更多的關(guān)注到業(yè)務(wù)理解,系統(tǒng)設(shè)計(jì),架構(gòu)設(shè)計(jì)等更高級(jí)需求的事情上。2)教育知識(shí)類產(chǎn)品:得益于大模型強(qiáng)大的理解以及知識(shí)儲(chǔ)備,很多公司也嵌入其知識(shí)類產(chǎn)品進(jìn)行應(yīng)用,比如chatPDF就可以幫助經(jīng)??凑撐牡目蒲腥藛T快速地通過(guò)問(wèn)答的方式進(jìn)行文章的信息提取,理解以及總結(jié)重要內(nèi)容,大大提升了閱讀新論文的效率;對(duì)于學(xué)習(xí)語(yǔ)言的人來(lái)說(shuō),一款叫CallAnnie的軟件基本能取代口語(yǔ)老師的角色,并且可以無(wú)限時(shí)間,隨時(shí)隨地進(jìn)行口語(yǔ)對(duì)話練習(xí)。4)搜索引擎和推薦系統(tǒng):大模型可以應(yīng)用于企業(yè)的搜索引擎和推薦系統(tǒng),通過(guò)深度學(xué)習(xí)算法,對(duì)用戶的搜索意圖進(jìn)行準(zhǔn)確理解,提供更精準(zhǔn)的搜索結(jié)果和個(gè)性化的推薦內(nèi)容。這有助于提升用戶體驗(yàn),增加用戶黏性,提高企業(yè)的轉(zhuǎn)化率和銷售額。5)公司業(yè)務(wù)定制化大模型:大模型具有通用性能力,但是在很多零樣本的場(chǎng)景的表現(xiàn)依然比不上那個(gè)領(lǐng)域正在使用的產(chǎn)品,例如在某些垂直領(lǐng)域,包括工業(yè)領(lǐng)域,醫(yī)藥領(lǐng)域,管理領(lǐng)域等場(chǎng)景下進(jìn)行專業(yè)問(wèn)題,研究型問(wèn)題的使用依然需要特定場(chǎng)景的數(shù)據(jù)進(jìn)行微調(diào),這種定制化的服務(wù)也能給企業(yè)帶來(lái)巨大的效率提升和節(jié)省成本的收益,屬于比較有前景的業(yè)務(wù)。6)計(jì)算相關(guān)上下游相關(guān)產(chǎn)業(yè):很多公司正在積極探索基于GPU、FPGA和ASIC等硬件加速制造技術(shù),以支持大模型的訓(xùn)練和推理速度。此外,云計(jì)算技術(shù)的發(fā)展也為大模型的訓(xùn)練提供了更多的計(jì)算資源支持,未來(lái)科技公司將積極探索基于云計(jì)算的分布式訓(xùn)練和推理技術(shù)。除這些外還包括算法優(yōu)化、隱私和數(shù)據(jù)安全以及模型可解釋性等方面的研究和應(yīng)用,每天還有很多大模型的應(yīng)用正在不斷涌現(xiàn),大模型在未來(lái)仍然有很大的發(fā)展?jié)摿?,?guó)內(nèi)的優(yōu)秀大模型代表例如百度文心大模型也正在搭建全系統(tǒng)產(chǎn)業(yè)化的大模型全景。大模型挑戰(zhàn)大模型也存在一些現(xiàn)實(shí)挑戰(zhàn):1.數(shù)據(jù)安全隱患:一方面大模型訓(xùn)練需要大量的數(shù)據(jù)支持,但很多數(shù)據(jù)涉及到機(jī)密以及個(gè)人隱私問(wèn)題,如客戶信息、交易數(shù)據(jù)等。需要保證在訓(xùn)練大模型的同時(shí)保障數(shù)據(jù)安全,防止數(shù)據(jù)泄露和濫用。OpenAI在發(fā)布ChatGPT模型的時(shí)候用了數(shù)月來(lái)保證數(shù)據(jù)安全以及符合人類正常價(jià)值觀標(biāo)準(zhǔn)。2.成本高昂:大模型的訓(xùn)練和部署需要大量的計(jì)算資源和人力資源,成本非常高昂。對(duì)于一些中小型企業(yè)而言,難以承擔(dān)這些成本,也難以獲得足夠的技術(shù)支持和資源。3.無(wú)法保障內(nèi)容可信:大模型會(huì)編造詞句,無(wú)法保障內(nèi)容真實(shí)可信、有據(jù)可查。當(dāng)前使用者只能根據(jù)自己需求去驗(yàn)證生成的內(nèi)容是否真實(shí)可信,很難具有權(quán)威說(shuō)服力。4.無(wú)法實(shí)現(xiàn)成本可控:直接訓(xùn)練和部署千億級(jí)參數(shù)大模型成本過(guò)高,企業(yè)級(jí)應(yīng)用應(yīng)使用百億級(jí)基礎(chǔ)模型,根據(jù)不同需求訓(xùn)練不同的垂直模型,企業(yè)則只需要負(fù)擔(dān)垂直訓(xùn)練成本。但是,如何實(shí)現(xiàn)高效的垂直訓(xùn)練,如何控制成本,仍是大模型面臨的問(wèn)題之一。以上挑戰(zhàn)依然有很大空間值得改進(jìn),需要進(jìn)一步研究和探索新的技術(shù)和方法。比如可以采用數(shù)據(jù)加密、隱私保護(hù)等技術(shù)來(lái)保障數(shù)據(jù)安全;可以通過(guò)改進(jìn)模型架構(gòu)、優(yōu)化訓(xùn)練算法、利用分布式計(jì)算等方式來(lái)提高大模型的效率和性能;此外,還可以通過(guò)開(kāi)源和共享模型資源來(lái)降低成本、促進(jìn)大模型的普及和應(yīng)用等方式??偨Y(jié)最后,大模型的發(fā)展是當(dāng)前人工智能時(shí)代科技進(jìn)步的必然趨勢(shì),甚至可以媲美工業(yè)革命般的歷史意義。近期,有MIT的研究者發(fā)現(xiàn)語(yǔ)言模型竟然能理解這個(gè)世界的時(shí)間和空間,這項(xiàng)研究也進(jìn)一步說(shuō)明大模型還有很多隱藏的能力等著我們?nèi)グl(fā)掘。長(zhǎng)期看,訓(xùn)練出通用人工智能技術(shù)(AGI)應(yīng)該只是時(shí)間問(wèn)題。作為相關(guān)從業(yè)人員,可以開(kāi)發(fā)更高效,更穩(wěn)定的訓(xùn)練算法,不斷探索大模型的上限,作為普通人,我們更需要擁抱這個(gè)技術(shù),至少在日常工作和生活中也能享受到其帶來(lái)的巨大便利。參考:Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.,Kaiser,?.andPolosukhin,I.(2017).AttentionIsAllYouNeed.Ouyang,L.,Wu,J.,Jiang,X.,Almeida,D.,Wainwright,C.L.,Mishkin,P.,Zhang,C.,Agarwal,S.,Slama,K.,Ray,A.,Schulman,J.,Hilton,J.,Kelton,F.,Miller,L.,Simens,M.,Askell,A.,Welinder,P.,Christiano,P.,Leike,J.andLowe,R.(2022).Traininglanguagemodelstofollowinstructionswithhumanfeedback.arXiv:2203.02155[cs].[online]Availableat:

/abs/2203.02155.Houlsby,N.,Giurgiu,A.,Jastrz?bski,S.,Morrone,B.,DeLaroussilhe,Q.,Gesmundo,A.,Attariyan,M.andGelly,S.(n.d.).Parameter-EfficientTransferLearningforNLP.[online]Availableat:

http://proceedings.mlr.press/v97/houlsby19a/houlsby19a.pdf.Hu,E.J.,Shen,Y.,Wallis,P.,Allen-Zhu,Z.,Li,Y.,Wang,S.,Wang,L.andChen,W.(2021).LoRA:Low-RankAdaptationofLargeLanguageModels.arXiv:2106.09685[cs].[online]Availableat:

/abs/2106.09685.Openai,C.,Deepmind,J.,Brown,T.,Deepmind,M.,Deepmind,S.andOpenai,D.(n.d.).DeepReinforcementLearningfromHumanPreferences.[online]Availableat:/pdf/1706.03741.pdf.?Rafailov,R.,Sharma,A.,Mitchell,E.,Ermon,S.,Manning,C.,Finn,C.,&CzBiohub.(n.d.).DirectPreferenceOptimization:YourLanguageModelisSecretlyaRewardModel./pdf/2305.18290.pdfXiang,L.,LiandLiang,P.(n.d.).Prefix-Tuning:OptimizingContinuousPromptsforGeneration.[online]Availableat:

/pdf/2101.00190.pdf.Zhao,W.X.,Zhou,K.,Li,J.,Tang,T.,Wang,X.,Hou,Y.,Min,Y.,Zhang,B.,Zhang,J.,Dong,Z.,Du,Y.,Yang,C.,Chen,Y.,Chen,Z.,Jiang,J.,Ren,R.,Li,Y.,Tang,X.,Liu,Z.andLiu,P.(2023).ASurveyofLargeLanguageModels.arXiv:2303.18223[cs].[online]Availableat:/abs/2303.18223.?Gulcehre,C.,Paine,T.L.,Srinivasan,S.,Konyushkova,K.,Weerts,L.,Sharma,A.,Siddhant,A.,Ahern,A.,Wang,M.,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論