版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
浙江省普通本科高?!笆奈濉敝攸c(diǎn)教材大語言模型通識(shí)大語言模型通識(shí)周蘇教授QQ:81505050第11章大模型應(yīng)用框架大語言模型技術(shù)就像一把神奇的鑰匙,正在為產(chǎn)品開發(fā)打開新世界的大門。無論是個(gè)人開發(fā)者想要借助這項(xiàng)技術(shù)來提升自己的技能和打造酷炫的產(chǎn)品,還是企業(yè)團(tuán)隊(duì)希望通過它在商業(yè)戰(zhàn)場(chǎng)上取得競(jìng)爭(zhēng)優(yōu)勢(shì),都得學(xué)會(huì)運(yùn)用大模型輔助產(chǎn)品的全流程開發(fā)與應(yīng)用。簡(jiǎn)單來說,使用預(yù)訓(xùn)練的大模型開發(fā)的主要優(yōu)勢(shì)在于簡(jiǎn)化開發(fā)過程,降低開發(fā)難度,而傳統(tǒng)的機(jī)器學(xué)習(xí)開發(fā)則需要更多的專業(yè)知識(shí)和資源投入。第11章大模型應(yīng)用框架01大模型哲學(xué)問題02大模型的構(gòu)建流程03大模型的應(yīng)用場(chǎng)景04案例:Magic突破Q算法目錄/CONTENTSPART01大模型哲學(xué)問題人工神經(jīng)網(wǎng)絡(luò)(ANN)和早期的自然語言處理(NLP)結(jié)構(gòu)一直是哲學(xué)討論的焦點(diǎn),聚焦在它們作為建模人類認(rèn)知的適用性上。具體而言,相比于經(jīng)典的、符號(hào)的、基于規(guī)則的對(duì)應(yīng)物模型,它們是否構(gòu)成了更好的人類認(rèn)知模型。其中有些爭(zhēng)論因深度學(xué)習(xí)的發(fā)展和大語言模型的成功而復(fù)蘇和轉(zhuǎn)變。11.1大模型哲學(xué)問題長(zhǎng)期以來,研究者們批評(píng)人工神經(jīng)網(wǎng)絡(luò)無法解釋認(rèn)知的核心結(jié)構(gòu),在模擬人類思維方面存在局限。批評(píng)者認(rèn)為,人工神經(jīng)網(wǎng)絡(luò)要么無法捕捉經(jīng)典符號(hào)架構(gòu)中可以輕松解釋的認(rèn)知特征,或者實(shí)際上只是實(shí)現(xiàn)了這種符號(hào)處理的架構(gòu),但在真正理解思維過程方面并沒有提供新的見解。11.1.1組成性近年來,大模型的迅速發(fā)展挑戰(zhàn)了這種模型局限性的傳統(tǒng)觀點(diǎn)。大量實(shí)證研究調(diào)查了大模型在需要組合處理的任務(wù)上是否能表現(xiàn)出類人水平的性能,這些研究主要評(píng)估模型的組合泛化能力,即它們是否能夠系統(tǒng)地重新組合先前學(xué)到的元素,并將這些元素組成的新輸入映射到正確的輸出上。這對(duì)于大模型來說,本來就是一項(xiàng)困難的任務(wù),因?yàn)樗鼈兺ǔJ怯谬嫶蟮淖匀徽Z言語料庫訓(xùn)練而成的,而這些數(shù)據(jù)可能包含了很多特定的句子模式。但研究者通過精心設(shè)計(jì)的訓(xùn)練-測(cè)試劃分合成數(shù)據(jù)集,克服了這一問題。11.1.1組成性在組合泛化的合成數(shù)據(jù)集上,許多基于Transformer的模型在測(cè)試上取得了不錯(cuò)的表現(xiàn)。元學(xué)習(xí),即通過從許多相關(guān)的學(xué)習(xí)任務(wù)中進(jìn)行泛化以更好地學(xué)習(xí),也表現(xiàn)出無需進(jìn)一步進(jìn)行架構(gòu)調(diào)整即可進(jìn)行泛化的潛力。元學(xué)習(xí)讓模型接觸到多個(gè)相關(guān)任務(wù)的分布,從而幫助它們獲取通用知識(shí)。通過元學(xué)習(xí),在一系列不同于人工訓(xùn)練的Transformer模型上實(shí)現(xiàn)了系統(tǒng)性泛化,展現(xiàn)出與人類相似的準(zhǔn)確性和錯(cuò)誤模式,而且這些模型不需要明確的組合規(guī)則。這表明,要模仿人類大腦的認(rèn)知結(jié)構(gòu),可能不需要嚴(yán)格的內(nèi)置規(guī)則。11.1.1組成性福多認(rèn)為,思維和認(rèn)知過程中涉及的信息以一種類似語言的形式存在,這種“心靈的語言”包含可以組合并且具有明確意義的符號(hào)。在福多的框架下,心理過程涉及對(duì)這些離散符號(hào)的操作,這些符號(hào)不僅在語義上可以被評(píng)估,還在認(rèn)知處理中發(fā)揮直接的因果作用。哲學(xué)家和認(rèn)知科學(xué)家杰里·福多也主張,心理過程應(yīng)該基于離散符號(hào)。11.1.1組成性相比之下,人工神經(jīng)網(wǎng)絡(luò)使用的是連續(xù)向量,這些向量被認(rèn)為缺乏離散的、語義上可評(píng)估的成分,這些成分在算法層面參與處理。在這種觀點(diǎn)下,人工神經(jīng)網(wǎng)絡(luò)處理的是較低層級(jí)的激活值,而不是直接操作語義上明確的符號(hào)。這引發(fā)了人工神經(jīng)網(wǎng)絡(luò)是否滿足經(jīng)典成分結(jié)構(gòu)要求的質(zhì)疑。主張聯(lián)結(jié)主義(通過模擬神經(jīng)元之間的相互連接和權(quán)值來實(shí)現(xiàn)人工智能。其他還有符號(hào)主義和行為主義)的人們認(rèn)為人工神經(jīng)網(wǎng)絡(luò)可能建立在一種非經(jīng)典的建模認(rèn)知結(jié)構(gòu)之上。11.1.1組成性連續(xù)性原則認(rèn)為,信息編碼和處理機(jī)制應(yīng)使用可以連續(xù)變化的實(shí)數(shù)表示,而不是離散符號(hào)表示的實(shí)數(shù)進(jìn)行形式化。首先,這使得對(duì)自然語言等領(lǐng)域進(jìn)行更靈活的建模成為可能。其次,利用連續(xù)性的統(tǒng)計(jì)推理方法,如神經(jīng)網(wǎng)絡(luò),能夠提供可處理的近似解決方案。最后,連續(xù)性允許使用深度學(xué)習(xí)技術(shù),這些技術(shù)可以同時(shí)優(yōu)化信息編碼和模型參數(shù),以發(fā)現(xiàn)最大化性能的任務(wù)特定表示空間。11.1.1組成性總體而言,通過利用連續(xù)性的優(yōu)勢(shì),可以解決離散符號(hào)方法在靈活性、可處理性和編碼方面長(zhǎng)期面臨的挑戰(zhàn)。因此,基于Transformer的人工神經(jīng)為“神經(jīng)組合計(jì)算”提供了有希望的見解:表明人工神經(jīng)網(wǎng)絡(luò)可以滿足認(rèn)知建模的核心約束,特別是連續(xù)和組合結(jié)構(gòu)以及處理的要求。11.1.1組成性天賦觀念是哲學(xué)、美學(xué)用語,指人類生來就有的觀念。一個(gè)傳統(tǒng)爭(zhēng)議在于,人工神經(jīng)網(wǎng)絡(luò)語言模型是否挑戰(zhàn)了語言發(fā)展中天賦論的論點(diǎn)?這場(chǎng)爭(zhēng)論集中在兩個(gè)主張上:一種是較強(qiáng)的原則性主張,另一種是較弱的發(fā)展性主張。原則性主張認(rèn)為,即使接觸再多的語言資料,也不足以使兒童迅速掌握句法知識(shí)。也就是說,如果沒有內(nèi)在的先驗(yàn)語法知識(shí),人類就無法學(xué)習(xí)語言規(guī)則。發(fā)展性主張則基于“貧乏刺激”理論,認(rèn)為兒童在發(fā)展過程中,實(shí)際接觸的語言輸入的性質(zhì)和數(shù)量不足以誘導(dǎo)出底層句法結(jié)構(gòu)的正確概念,除非他們擁有先天知識(shí)。11.1.2天賦論與語言習(xí)得喬姆斯基派的語言學(xué)家認(rèn)為兒童天生具有“通用語法”,這使得兒童能夠通過少量的經(jīng)驗(yàn),高效適應(yīng)特定語言中的特定語法。大模型在學(xué)習(xí)語法結(jié)構(gòu)上的成功,成了天賦論的反例。大模型僅通過訓(xùn)練數(shù)據(jù)集,就能夠獲得復(fù)雜的句法知識(shí)。從這個(gè)意義上說,大模型提供了一種經(jīng)驗(yàn)主義的證據(jù),即統(tǒng)計(jì)學(xué)習(xí)者可以在沒有先天語法的幫助下歸納出語法知識(shí)。11.1.2天賦論與語言習(xí)得然而,這并不直接與發(fā)展性主張相矛盾,因?yàn)榇竽P屯ǔ=邮盏恼Z言輸入量比人類兒童要多上幾個(gè)數(shù)量級(jí)。而且,人類兒童面對(duì)的語言輸入和學(xué)習(xí)環(huán)境與大模型有很大不同。人類學(xué)習(xí)更具有互動(dòng)性、迭代性、基礎(chǔ)性和體驗(yàn)性。研究者逐漸通過在更接近真實(shí)學(xué)習(xí)環(huán)境中訓(xùn)練較小的語言模型,提供證據(jù)來支持這種發(fā)展性主張。11.1.2天賦論與語言習(xí)得班德和科勒認(rèn)為,由于語言模型僅在語言形式的方面接受訓(xùn)練,它們無法直接學(xué)習(xí)到語義,因此,即便大模型能夠通過分析語言序列掌握句法結(jié)構(gòu),也并不意味著它們真的理解了語義。11.1.3語言理解與基礎(chǔ)相關(guān)批評(píng)與哈納德在1990年所述的“基礎(chǔ)問題”不謀而合。這個(gè)問題指出,自然語言處理中的語言詞元與它們?cè)诂F(xiàn)實(shí)世界中所指代的對(duì)象之間存在明顯脫節(jié)。在傳統(tǒng)的自然語言處理中,單詞由任意符號(hào)表示,這些符號(hào)與現(xiàn)實(shí)世界中的指代物沒有直接聯(lián)系,它們的語義通常由外部編程者賦予。從系統(tǒng)的角度來看,它們只是嵌入語法規(guī)則中的毫無意義的詞元。11.1.3語言理解與基礎(chǔ)哈納德認(rèn)為,要使自然語言處理系統(tǒng)中的符號(hào)具有內(nèi)在意義,需要這些內(nèi)部符號(hào)表示與符號(hào)所指代的外部世界中的對(duì)象、事件和屬性存在某種基礎(chǔ)聯(lián)系。如果沒有這種聯(lián)系,系統(tǒng)的表示將與現(xiàn)實(shí)脫節(jié),只能從外部解釋者的角度獲得意義。盡管這一問題最初是針對(duì)經(jīng)典符號(hào)系統(tǒng)提出的,但對(duì)僅在文本上進(jìn)行訓(xùn)練的現(xiàn)代大模型來說,也存在類似的問題。大模型將語言詞元處理為向量,而不是離散符號(hào),這些向量表示同樣可能與現(xiàn)實(shí)世界脫節(jié)。盡管它們能生成對(duì)熟練的語言使用者有意義的句子,但這些句子在沒有外部解釋的情況下可能就沒有獨(dú)立的意義。11.1.3語言理解與基礎(chǔ)第三則批評(píng)涉及大模型是否具有交際意圖的能力。這涉及到傳統(tǒng)中兩種意義的區(qū)別:一種是與語言表達(dá)相關(guān)的、固定的、與上下文無關(guān)的意義(通常稱為語言意義),另一種是說話者通過話語傳達(dá)的意圖(通常稱為說話者意義)。大模型的輸出包含按照實(shí)際語言使用的統(tǒng)計(jì)模式組織和組合的單詞,因此具有語言意義。然而,為了實(shí)現(xiàn)有效的交流,大模型需要具有相應(yīng)的交際意圖。批評(píng)的觀點(diǎn)認(rèn)為,大模型缺乏交際意圖的基本構(gòu)建塊,如內(nèi)在目標(biāo)和心智理論。11.1.3語言理解與基礎(chǔ)語義能力通常指的是人們使用和理解一種語言中所表達(dá)的含義的能力和知識(shí)。有人提出大模型可能展現(xiàn)出一定程度的語義能力。皮安塔多西和希爾認(rèn)為,大模型中詞匯項(xiàng)的含義與人類一樣,不取決于外部引用,而取決于相應(yīng)表示之間的內(nèi)部關(guān)系,這些表示可以在高維語義空間中,以向量形式進(jìn)行描述。這個(gè)向量空間的“內(nèi)在幾何”指的是不同向量之間的空間關(guān)系,例如向量間的距離、向量組之間形成的角度,以及向量在響應(yīng)上下文內(nèi)容時(shí)的變化方式。11.1.3語言理解與基礎(chǔ)皮安塔多西和希爾認(rèn)為,大模型展示的令人印象深刻的語言能力表明,它們的內(nèi)部表示空間具有大致反映人類概念空間的基本特性的幾何結(jié)構(gòu)。因此,評(píng)估大模型的語義能力不能僅通過檢查它們的架構(gòu)、學(xué)習(xí)目標(biāo)或訓(xùn)練數(shù)據(jù)來確定;相反,至少應(yīng)該部分地基于系統(tǒng)向量空間的內(nèi)在幾何結(jié)構(gòu)。雖然關(guān)于大模型是否獲得指稱語義能力存在爭(zhēng)議,但一些觀點(diǎn)認(rèn)為,通過在語料庫上進(jìn)行訓(xùn)練,大模型可能在一定程度上實(shí)現(xiàn)真正的語言指稱。11.1.3語言理解與基礎(chǔ)雖然大模型通過它們的訓(xùn)練數(shù)據(jù)與世界之間存在間接的因果關(guān)系,但這并不能保證它們的輸出是基于真實(shí)世界的實(shí)際指代。莫洛和米利埃認(rèn)為,僅在文本上進(jìn)行訓(xùn)練的大模型實(shí)際上可能通過依據(jù)人類反饋優(yōu)化語言模型的微調(diào),獲得涉及世界的功能。雖然經(jīng)過精細(xì)調(diào)整的大模型仍然無法直接訪問世界,但反饋信號(hào)可以將它們的輸出與實(shí)際情況聯(lián)系起來。11.1.3語言理解與基礎(chǔ)還有重要的一點(diǎn)是大模型不具有溝通意圖。大模型輸出的句子可能沒有明確的含義,句子的含義是由外部解答產(chǎn)生的。當(dāng)人類給定一個(gè)外部目標(biāo)時(shí),大模型可能表現(xiàn)出類似溝通意圖的東西,但這個(gè)“意圖”完全是由人類設(shè)定的目標(biāo)確定的,大模型本質(zhì)上無法形成溝通意圖。11.1.3語言理解與基礎(chǔ)在機(jī)器學(xué)習(xí)中,世界模型通常指的是模擬外部世界某些方面的內(nèi)部表征,使系統(tǒng)能夠以反映現(xiàn)實(shí)世界動(dòng)態(tài)的方式理解、解釋和預(yù)測(cè)現(xiàn)象,包括因果關(guān)系和直觀的物理現(xiàn)象。于是,一個(gè)核心問題是,設(shè)計(jì)用于預(yù)測(cè)下一個(gè)詞元的大模型是否能構(gòu)建出一個(gè)“世界模型”。11.1.4世界模型與通過和環(huán)境互動(dòng)并接收反饋來學(xué)習(xí)的強(qiáng)化學(xué)習(xí)代理不同,大模型并不是通過這種方式進(jìn)行學(xué)習(xí)的。它們能否構(gòu)建出世界模型,實(shí)際上是探討它們是否能夠內(nèi)部構(gòu)建出對(duì)世界的理解,并生成與現(xiàn)實(shí)世界知識(shí)和動(dòng)態(tài)相一致的語言。評(píng)估大模型是否具有世界模型并沒有統(tǒng)一的方法,部分原因在于這個(gè)概念通常定義模糊,部分原因在于難以設(shè)計(jì)實(shí)驗(yàn)來區(qū)分大模型是依賴淺層啟發(fā)式回答問題,還是使用了環(huán)境核心動(dòng)態(tài)的內(nèi)部表征這一假設(shè)。11.1.4世界模型有理論支持大模型可能學(xué)會(huì)了模擬世界的一部分,而不僅僅是進(jìn)行序列概率估計(jì)。更具體地說,互聯(lián)網(wǎng)規(guī)模的訓(xùn)練數(shù)據(jù)集由大量單獨(dú)的文檔組成。對(duì)這些文本的最有效壓縮可能涉及對(duì)生成它們的隱藏變量值進(jìn)行編碼:即文本的人類作者的句法知識(shí)、語義信念和交際意圖。11.1.4世界模型一些理論家提出,人類智能的一個(gè)關(guān)鍵特征在于其獨(dú)特的文化學(xué)習(xí)能力。盡管其他靈長(zhǎng)類動(dòng)物也有類似的能力,但人類在這方面顯得更為突出。人類能夠相互合作,將知識(shí)從上一代傳到下一代,人類能夠從上一代結(jié)束的地方繼續(xù),并在語言學(xué)、科學(xué)和社會(huì)學(xué)知識(shí)方面取得新的進(jìn)展。這種方式使人類的知識(shí)積累和發(fā)現(xiàn)保持穩(wěn)步發(fā)展,與黑猩猩等其他動(dòng)物相對(duì)停滯的文化演變形成鮮明對(duì)比。這里,產(chǎn)生一個(gè)有趣的問題,大模型是否可能參與文化習(xí)得并在知識(shí)傳遞中發(fā)揮作用。11.1.5知識(shí)傳遞和語言支持鑒于深度學(xué)習(xí)系統(tǒng)已經(jīng)在多個(gè)任務(wù)領(lǐng)域超過了人類表現(xiàn)。那么問題就變成了,大模型是否能夠模擬文化學(xué)習(xí)的許多組成部分,將它們的發(fā)現(xiàn)傳遞給人類理論家。研究發(fā)現(xiàn),現(xiàn)在主要是人類通過解釋模型來得到可傳播的知識(shí)。也有證據(jù)表明,大模型似乎能夠在已知任務(wù)范圍內(nèi)處理新數(shù)據(jù),實(shí)現(xiàn)局部任務(wù)泛化。11.1.5知識(shí)傳遞和語言支持此外,文化的持續(xù)進(jìn)步不僅涉及創(chuàng)新,還包括穩(wěn)定的文化傳播。大模型是否能夠像人類一樣,不僅生成新穎的解決方案,還能夠通過認(rèn)識(shí)和表達(dá)它們?nèi)绾纬较惹暗慕鉀Q方案,從而“鎖定”這些創(chuàng)新?這種能力不僅涉及生成新穎的響應(yīng),還需要對(duì)解決方案的新穎性及其影響有深刻理解,類似于人類科學(xué)家不僅發(fā)現(xiàn)新事物,還能理論化、情境化和傳達(dá)他們的發(fā)現(xiàn)。因此,對(duì)大模型的挑戰(zhàn)不僅僅在于生成問題的新穎解決方案,還在于培養(yǎng)一種能夠反思和傳達(dá)其創(chuàng)新性質(zhì)的能力,從而促進(jìn)文化學(xué)習(xí)的累積過程。這種能力可能需要更先進(jìn)的交際意圖理解和世界模型構(gòu)建。11.1.5知識(shí)傳遞和語言支持PART02大模型的構(gòu)建流程大模型正在重塑產(chǎn)業(yè)。但是,企業(yè)想要真正擁抱大模型,實(shí)現(xiàn)自建大模型,仍然面臨著很多現(xiàn)實(shí)問題:怎樣才能擁有企業(yè)專屬的領(lǐng)域大模型?如何高效率、低成本地處理數(shù)據(jù)?模型數(shù)據(jù)如何動(dòng)態(tài)更新?私有數(shù)據(jù)如何安全地接入大模型?等等。
圖11-1構(gòu)建大模型的分布指南11.2大模型的構(gòu)建流程在構(gòu)建大模型前期準(zhǔn)備中,基礎(chǔ)設(shè)施最重要,GPU的型號(hào)以及數(shù)據(jù)直接關(guān)系到模型的訓(xùn)練質(zhì)量和訓(xùn)練時(shí)間。例如:使用單個(gè)V100GPU訓(xùn)練具有1750億個(gè)參數(shù)的GPT-3將需要約288年,更不用說現(xiàn)在的大模型動(dòng)輒萬億參數(shù)。隨著更強(qiáng)算力資源的推出,大模型的訓(xùn)練速度被大大加快。但即便是提升了單個(gè)GPU的算力,訓(xùn)練超級(jí)規(guī)模的大模型也不是一件容易的事情,這是因?yàn)椋海?)GPU內(nèi)存容量是有限的,使得即使在多GPU服務(wù)器上也無法適合大模型。(2)所需的計(jì)算操作的數(shù)量可能導(dǎo)致不切實(shí)際的長(zhǎng)訓(xùn)練時(shí)間。11.2.1確定需求大小各種模型并行性技術(shù)以及多機(jī)多卡的分布式訓(xùn)練部分解決了這兩個(gè)挑戰(zhàn)。圖11-2單機(jī)多卡的訓(xùn)練模式11.2.1確定需求大小使用數(shù)據(jù)并行性,每個(gè)工作人員都有一個(gè)完整模型的副本,輸入數(shù)據(jù)集被分割,工作人員定期聚合他們的梯度,以確保所有工作人員都看到權(quán)重的一致版本(見圖11-3)。對(duì)于不適合單個(gè)GPU的大模型,數(shù)據(jù)并行性可以在較小的模型碎片上使用。
圖11-3數(shù)據(jù)并行的訓(xùn)練模式通過模型并行性,在多個(gè)設(shè)備之間共享模型的圖層11.2.1確定需求大小當(dāng)使用相同轉(zhuǎn)換塊的模型時(shí),每個(gè)設(shè)備可以分配相同數(shù)量的轉(zhuǎn)換層。一個(gè)批次被分割成更小的微批次;然后在微批次之間通過流水線執(zhí)行。為了精確地保留嚴(yán)格的優(yōu)化器語義,技術(shù)人員引入了周期性的管道刷新,以便優(yōu)化器步驟能夠跨設(shè)備同步。在大模型開始訓(xùn)練之前,需要考慮吞吐量,估計(jì)出進(jìn)行端到端訓(xùn)練所需的總時(shí)間。對(duì)于搭建自有的大模型來說,訓(xùn)練多大的規(guī)模參數(shù)就需要有多大規(guī)模的算力。11.2.1確定需求大小對(duì)于初代大模型來說,數(shù)據(jù)收集以及后續(xù)處理是一件非常繁瑣且棘手的事情,這一過程中需要面臨諸多問題,比如數(shù)據(jù)許可,數(shù)據(jù)集特征和覆蓋率,數(shù)據(jù)預(yù)處理的充分性,如何解決數(shù)據(jù)集偏差,如何解決數(shù)據(jù)集公平性,不同數(shù)據(jù)集的差異,數(shù)據(jù)隱私,數(shù)據(jù)安全等。11.2.2數(shù)據(jù)收集初代大模型的推出具有跨時(shí)代的意義,這不僅僅是讓人們能夠充分利用大模型的便利性,也為更多大模型的推出鋪平了道路,例如:ChatGPT訓(xùn)練了幾乎所有能在公開渠道找到的數(shù)據(jù),包括全部的推特?cái)?shù)據(jù)(事實(shí)上,推特API已經(jīng)限制了采集數(shù)量,所以后續(xù)大模型再想利用全部的推特?cái)?shù)據(jù)來完成訓(xùn)練幾乎不可能了)。這個(gè)對(duì)于后續(xù)大模型開發(fā)提供了便利,一方面后續(xù)的大模型可以借助ChatGPT更好的完成數(shù)據(jù)集收集任務(wù),另一方面ChatGPT的成功也為后續(xù)其他大模型的數(shù)據(jù)收集提供了經(jīng)驗(yàn)。11.2.2數(shù)據(jù)收集按類別劃分的數(shù)據(jù)集分布在數(shù)據(jù)收集完成之后,需要按照一定的比例對(duì)數(shù)據(jù)集進(jìn)行混合,數(shù)據(jù)混合旨在增強(qiáng)模型的泛化能力和抵抗對(duì)抗性攻擊。這個(gè)過程通常與數(shù)據(jù)增強(qiáng)結(jié)合使用,有助于減輕過度擬合,提高模型的魯棒性。在進(jìn)行混合時(shí),需要為每個(gè)樣本或特征分配一個(gè)權(quán)重,這些權(quán)重可以是固定的,也可以是隨機(jī)的,權(quán)重的選擇方式取決于混合策略和具體任務(wù)。例如,對(duì)于某些圖像分類任務(wù),更高的混合比例可能有助于提高模型的泛化能力,而對(duì)于其他任務(wù),適度的混合比例可能就足夠了。11.2.2數(shù)據(jù)收集混合時(shí)也要考慮數(shù)據(jù)的大小和多樣性,如果數(shù)據(jù)集非常龐大,多樣性強(qiáng),那么可以考慮使用較低的混合比例,因?yàn)橐呀?jīng)有足夠的數(shù)據(jù)來訓(xùn)練模型。但是如果數(shù)據(jù)集相對(duì)較小,多樣性低,增加混合比例可能有助于增加樣本數(shù)量,減輕過擬合。11.2.2數(shù)據(jù)收集大模型具有采樣效率高的特點(diǎn),但這意味著如果輸入模型的數(shù)據(jù)充滿拼寫錯(cuò)誤的單詞、性質(zhì)粗俗、包含大量目標(biāo)語言之外的其他語言,或者具有不受歡迎的惡作劇特征,那么大模型最終的效果會(huì)存在問題?;诖?,在對(duì)大模型進(jìn)行訓(xùn)練之前,需要對(duì)收集到的數(shù)據(jù)進(jìn)行預(yù)處理操作。(1)數(shù)據(jù)清洗、過濾、語句邊界檢測(cè)、標(biāo)準(zhǔn)化。11.2.3數(shù)據(jù)集預(yù)處理(2)針對(duì)訓(xùn)練性能的數(shù)據(jù)轉(zhuǎn)換。在訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),需要對(duì)原始數(shù)據(jù)進(jìn)行各種處理和轉(zhuǎn)換,以提高模型的性能和泛化能力。數(shù)據(jù)轉(zhuǎn)換的目標(biāo)是使訓(xùn)練數(shù)據(jù)更適合于模型的學(xué)習(xí)和泛化,以及減少模型的過擬合風(fēng)險(xiǎn)。例如特征縮放、特征工程、數(shù)據(jù)清洗、特征選擇、數(shù)據(jù)增強(qiáng)、標(biāo)簽平滑、數(shù)據(jù)分割等。(3)分詞器訓(xùn)練。這是自然語言處理中的重要工具,用于將連續(xù)的文本序列分解成單個(gè)詞匯或標(biāo)記。分詞器訓(xùn)練是為了使其能夠理解不同語言和領(lǐng)域中的文本,并準(zhǔn)確地劃分詞匯。11.2.3數(shù)據(jù)集預(yù)處理通過模型并行性,模型的圖層將在多個(gè)設(shè)備之間共享。當(dāng)使用相同轉(zhuǎn)換器的模型時(shí),每個(gè)設(shè)備可以分配相同數(shù)量的轉(zhuǎn)換器層。一個(gè)批被分割成更小的微批;然后在微批次之間通過流水線執(zhí)行(見圖11-4)。為了精確地保留嚴(yán)格的優(yōu)化器語義,技術(shù)人員引入了周期性的管道刷新,以便優(yōu)化器步驟能夠跨設(shè)備同步。圖11-4默認(rèn)的和交錯(cuò)的管道計(jì)劃11.2.4大模型預(yù)訓(xùn)練實(shí)際上,大模型預(yù)訓(xùn)練的過程中需要注意的問題遠(yuǎn)不止這么簡(jiǎn)單。分布式訓(xùn)練能夠解決小模型的訓(xùn)練問題,但是隨著模型的增大,訓(xùn)練數(shù)據(jù)集規(guī)模的增長(zhǎng),數(shù)據(jù)并行就會(huì)出現(xiàn)局限性。當(dāng)訓(xùn)練資源擴(kuò)大到一定規(guī)模時(shí),就會(huì)出現(xiàn)通信瓶頸,計(jì)算資源的邊際效應(yīng)顯現(xiàn),增加資源也沒辦法進(jìn)行加速,這就是常說的“通信墻”。11.2.4大模型預(yù)訓(xùn)練除此之外,大模型訓(xùn)練可能還會(huì)遇到性能墻的困擾,這是指在某個(gè)特定任務(wù)或計(jì)算資源上,模型的性能無法繼續(xù)有效提升的情況。當(dāng)模型接近性能墻時(shí),增加更多的計(jì)算資源或數(shù)據(jù)量可能不會(huì)顯著改善模型的性能,因?yàn)槟P鸵呀?jīng)達(dá)到了某種極限或瓶頸。11.2.4大模型預(yù)訓(xùn)練性能墻通常表現(xiàn)為以下幾種情況:(1)訓(xùn)練時(shí)間增長(zhǎng):隨著模型規(guī)模的增大,訓(xùn)練時(shí)間也顯示出顯著增長(zhǎng)的趨勢(shì)。這是因?yàn)楦蟮哪P托枰嗟挠?jì)算資源和時(shí)間來收斂,但性能提升可能會(huì)遞減,最終趨于停滯。(2)資源利用不高:增加更多的計(jì)算資源(例如,GPU或TPU)可能會(huì)減少訓(xùn)練時(shí)間,但利用率不高,因?yàn)槟P涂赡軣o法有效地利用所有資源來提升性能。11.2.4大模型預(yù)訓(xùn)練那么,什么是大模型訓(xùn)練成功的標(biāo)準(zhǔn)呢?一般會(huì)通過定量分析和定性分析來回答這個(gè)問題。首先是定量分析。觀察大模型的訓(xùn)練損失,訓(xùn)練損失的減少表明模型正在學(xué)習(xí)并擬合訓(xùn)練數(shù)據(jù);檢查大模型的性能指標(biāo),對(duì)于分類任務(wù),常用的指標(biāo)包括準(zhǔn)確率、精確度、召回率等。對(duì)于回歸任務(wù),常用的指標(biāo)包括均方誤差、平均絕對(duì)誤差等。11.2.4大模型預(yù)訓(xùn)練其次是定性分析。通過合并檢查點(diǎn),將多個(gè)模型檢查點(diǎn)合并為統(tǒng)一的檢查點(diǎn)文件。一旦合并了檢查點(diǎn),就可以從該檢查點(diǎn)加載模型,然后,使用加載的模型來生成文本。這時(shí)候就需要檢查生成句子的連貫性、語法、相關(guān)性、多樣性等,評(píng)估句子的生成質(zhì)量。另外,也通過對(duì)驗(yàn)證集和測(cè)試集的評(píng)估來觀察大模型的表現(xiàn),一來觀察大模型在處理驗(yàn)證集和測(cè)試集時(shí)的各項(xiàng)指標(biāo),二來觀察大模型是否有過擬合的現(xiàn)象出現(xiàn)。11.2.4大模型預(yù)訓(xùn)練進(jìn)行預(yù)訓(xùn)練之后,往往需要對(duì)大模型進(jìn)行實(shí)驗(yàn)和微調(diào)處理,實(shí)驗(yàn)的作用是檢驗(yàn)大模型是否訓(xùn)練成功。如果實(shí)驗(yàn)結(jié)果證明訓(xùn)練是成功的,那么接下來就需要進(jìn)行微調(diào)處理。微調(diào)處理的好處是可以對(duì)大模型有針對(duì)性的做出訓(xùn)練,例如大模型的側(cè)重點(diǎn)是在情感分析還是在機(jī)器翻譯?又或者是文本分類?通過微調(diào)之后,大模型在垂直領(lǐng)域的適應(yīng)性會(huì)更強(qiáng),準(zhǔn)確率更高。這一過程通常稱為價(jià)值觀對(duì)齊,目的就是提高模型的性能、適應(yīng)性和效率,充分利用大模型的通用知識(shí),使其更好地適應(yīng)不同的任務(wù)和領(lǐng)域。11.2.5任務(wù)微調(diào)訓(xùn)練過程中需要大量的GPU資源,在模型部署過程中也同樣需要。以175B的模型為例,不壓縮模型的情況下部署需要650GB的內(nèi)存,這個(gè)時(shí)候可以通過模型縮減和壓縮或者采用分布式部署方式來減輕部署壓力。11.2.6部署PART03大模型的應(yīng)用場(chǎng)景以ChatGPT為代表的大語言模型在問題回答、文稿撰寫、代碼生成、數(shù)學(xué)解題等任務(wù)上展現(xiàn)出了強(qiáng)大的能力,引發(fā)研究人員廣泛思考如何利用這些模型來開發(fā)各種類型的應(yīng)用,并修正它們?cè)谕评砟芰Α@取外部知識(shí)、使用工具及執(zhí)行復(fù)雜任務(wù)等方面的不足。此外,研究人員還致力于將文本、圖像、視頻、音頻等多種信息結(jié)合起來,實(shí)現(xiàn)多模態(tài)大模型,這也是一個(gè)熱門研究領(lǐng)域。鑒于大模型的參數(shù)量龐大,以及針對(duì)每個(gè)輸入的計(jì)算時(shí)間較長(zhǎng),優(yōu)化模型在推理階段的執(zhí)行速度和用戶響應(yīng)時(shí)長(zhǎng)也變得至關(guān)重要。11.3大模型的應(yīng)用場(chǎng)景其實(shí),“GPT們”背后的技術(shù)本質(zhì)上是大模型應(yīng)用。大模型利用深度學(xué)習(xí)技術(shù),根據(jù)大量的文本數(shù)據(jù),學(xué)習(xí)語言的規(guī)律和知識(shí),從而生成自然和流暢的文本模型。大模型具有強(qiáng)大的表達(dá)能力和泛化能力,可以應(yīng)用于各種自然語言處理任務(wù),如機(jī)器翻譯、文本摘要、對(duì)話系統(tǒng)、問答系統(tǒng)等。11.3大模型的應(yīng)用場(chǎng)景大模型最簡(jiǎn)單的應(yīng)用之一就是翻譯書面文本,實(shí)現(xiàn)跨語言的高質(zhì)量實(shí)時(shí)翻譯服務(wù)。例如,用戶可以向人工智能助手輸入文本,并要求它翻譯成另一種語言,然后應(yīng)用就會(huì)自動(dòng)開始翻譯成自然流暢的文本。一些研究表明,與市面上的一些商業(yè)翻譯產(chǎn)品相比,GPT-4等大模型的表現(xiàn)具有更強(qiáng)的競(jìng)爭(zhēng)力。大模型可以根據(jù)不同的語境和文本內(nèi)容進(jìn)行自適應(yīng),從而更好地處理復(fù)雜的語言表達(dá)。同時(shí),大模型還可以應(yīng)用于語音翻譯、實(shí)時(shí)翻譯等更多的應(yīng)用場(chǎng)景。大模型技術(shù)需要大量的訓(xùn)練數(shù)據(jù)來進(jìn)行模型訓(xùn)練,因此需要投入更多的資源和時(shí)間來構(gòu)建和優(yōu)化模型。11.3.1機(jī)器翻譯、文本理解與分析此外,這方面的應(yīng)用還包括:·輿情分析:挖掘用戶意見傾向和社會(huì)情緒變化?!の谋痉诸悾鹤詣?dòng)對(duì)文檔進(jìn)行主題歸類或情感標(biāo)注。11.3.1機(jī)器翻譯、文本理解與分析大數(shù)據(jù)模型可以利用大量數(shù)據(jù)來建立模型,通過機(jī)器學(xué)習(xí)算法和數(shù)據(jù)挖掘技術(shù),從中發(fā)現(xiàn)惡意軟件的特征和行為模式,從而更好地對(duì)惡意軟件進(jìn)行檢測(cè)、分類和分析。2023年4月,谷歌推出網(wǎng)絡(luò)安全SecPaLM的大模型,展示了在惡意軟件分析中的一些用途。例如,谷歌的人工智能惡意軟件分析工具VirusTotalCodeInsight就使用了SecPaLM大模型掃描并解釋腳本的執(zhí)行邏輯,使用戶清楚了解這些腳本是否具有惡意。11.3.2惡意軟件分析文本內(nèi)容的創(chuàng)造性生成是大模型越來越常見的用途。各種大模型都可以按照用戶想法生成博客、長(zhǎng)篇文章、短篇故事、新聞報(bào)道、摘要、腳本、問卷、調(diào)查和社交媒體帖子、商業(yè)報(bào)告等書面內(nèi)容。用戶提供的想法(提示)越詳細(xì),模型輸出內(nèi)容的質(zhì)量就越高。
圖11-5文生文示例11.3.3自然語言生成另外,可以借助大模型來幫助構(gòu)思。研究顯示,很多營銷人員使用人工智能為營銷內(nèi)容生成創(chuàng)意或靈感,而其中的主要價(jià)值在于,人工智能可以加快內(nèi)容生成過程。此外,大模型還可以生成對(duì)話內(nèi)容,例如智能客服、虛擬助手對(duì)話響應(yīng)的生成等。11.3.3自然語言生成除了生成文本內(nèi)容外,還有一些工具如DALL-E、MidJourney和StableDiffusion,可以讓用戶輸入文本提示來生成圖像(文生圖)甚至短視頻(Sora)。
圖11-6文生圖示例11.3.3自然語言生成許多大模型用戶嘗試將生成式人工智能作為一種替代搜索的工具。用戶只需要使用自然語言向大模型提問,程序會(huì)立即回復(fù),并提供關(guān)于相關(guān)話題的見解和“事實(shí)”。已經(jīng)有不少搜索引擎引入大模型,帶給用戶更好的體驗(yàn)。雖然使用Bard或ChatGPT等大模型作為搜索工具可以快捷獲取到大量信息,但必須注意,所響應(yīng)內(nèi)容并非一直都準(zhǔn)確無誤。在特定情況下,大模型可被惡意調(diào)教,引導(dǎo)捏造事實(shí)和數(shù)字。因此,使用的時(shí)候最好仔細(xì)核對(duì)大模型提供的事實(shí)信息,以免被錯(cuò)誤信息誤導(dǎo)。11.3.4搜索與知識(shí)提取大模型還可以構(gòu)建對(duì)話系統(tǒng):開發(fā)具備上下文記憶、情感識(shí)別等功能的智能聊天機(jī)器人;進(jìn)行知識(shí)抽取與推理:提取文本中的實(shí)體和關(guān)系,構(gòu)建和更新知識(shí)圖譜。11.3.4搜索與知識(shí)提取生成式人工智能工具不僅能生成自然語言,還能生成例如JavaScript、Python、PHP、Java和C#等編程語言的代碼。大模型的代碼生成能力使得非技術(shù)用戶也能生成一些基本的程序代碼。此外,它們還可用于幫助調(diào)試現(xiàn)有代碼,甚至生成注釋文檔。不過,目前編程人員可以讓生成式人工智能工具為一些基本的、重復(fù)性邏輯編寫代碼,但在范圍和規(guī)模更大的復(fù)雜任務(wù)中,還是有些力不從心。因此,編程人員如果在開發(fā)過程中運(yùn)用了生成式人工智能工具,需要反復(fù)檢查代碼的功能和安全問題,以避免部署后出現(xiàn)問題。11.3.5代碼開發(fā)大語言模型在網(wǎng)絡(luò)安全方面的另一個(gè)用途是檢測(cè)網(wǎng)絡(luò)攻擊。這是因?yàn)榇竽P陀心芰μ幚碓谡麄€(gè)企業(yè)網(wǎng)絡(luò)中收集的大量數(shù)據(jù)并深度分析,判斷存在惡意網(wǎng)絡(luò)攻擊的模式,從而發(fā)出警報(bào)。一些網(wǎng)絡(luò)安全廠商已經(jīng)開始嘗試使用該技術(shù)進(jìn)行威脅檢測(cè)。例如,SentinelOne公司發(fā)布了一個(gè)大模型驅(qū)動(dòng)的解決方案,可以自動(dòng)搜索威脅,并對(duì)惡意活動(dòng)啟動(dòng)自動(dòng)響應(yīng)。微軟的SecurityCopilot則演示了另一種允許用戶掃描其環(huán)境中的已知漏洞和漏洞利用情況的解決方案,能在幾分鐘內(nèi)生成潛在安全事件報(bào)告,以便用戶做好提前預(yù)防手段。11.3.6檢測(cè)和預(yù)防網(wǎng)絡(luò)攻擊作為虛擬助理,生成式人工智能在客戶支持領(lǐng)域也大有可為。麥肯錫的研究發(fā)現(xiàn),在一家擁有5000名客服人員的公司應(yīng)用了生成式人工智能之后,問題解決率每小時(shí)提高了14%,處理問題的時(shí)間減少了9%。人工智能虛擬助理允許客戶即時(shí)詢問有關(guān)服務(wù)和產(chǎn)品的問題、申請(qǐng)退款和報(bào)告投訴。對(duì)公司的用戶來說,它縮小了獲取人工支持以及問題解決的時(shí)間,對(duì)企業(yè)來說,它使重復(fù)性的支持變成了自動(dòng)化任務(wù),減小成本。11.3.7虛擬助理和客戶支持大模型能夠?qū)⒁纛l或視頻文件高精度地轉(zhuǎn)錄為書面文本。Sonix等公司已經(jīng)開始使用生成式人工智能從音頻和視頻文件中轉(zhuǎn)錄文本。與傳統(tǒng)的轉(zhuǎn)錄軟件相比,大模型的優(yōu)勢(shì)之一就是自然語言處理,從而能夠精準(zhǔn)推斷出音視頻中語句的上下文和及其隱藏含義。11.3.8轉(zhuǎn)錄生成式人工智能能夠?qū)Υ笮蛿?shù)據(jù)進(jìn)行總結(jié)和推理,因此也是企業(yè)進(jìn)行市場(chǎng)調(diào)研分析,深入了解產(chǎn)品、服務(wù)、市場(chǎng)、競(jìng)爭(zhēng)對(duì)手和客戶的有用工具。語言模型通過處理用戶的文本輸入或數(shù)據(jù)集,對(duì)趨勢(shì)進(jìn)行書面總結(jié),提供對(duì)買家角色、差異化競(jìng)爭(zhēng)、市場(chǎng)差距的見解,以及其他可用于長(zhǎng)期業(yè)務(wù)增長(zhǎng)的信息。11.3.9市場(chǎng)調(diào)研所謂SEO(搜索引擎優(yōu)化),是指按照搜索引擎的算法,提升你的文章在搜索引擎中的自然排名。人工智能助手在SEO關(guān)鍵詞優(yōu)化過程方面能發(fā)揮重要作用。通過工具分析,充分滿足用戶的需求特征、清晰的網(wǎng)站導(dǎo)航、完善的在線幫助等,在此基礎(chǔ)上使得網(wǎng)站功能和信息發(fā)揮最好的效果。例如,用戶可以讓生成式人工智能分析自己的網(wǎng)站博客,然后提供一些有利于搜索引擎優(yōu)化的標(biāo)題列表。為了獲得最佳效果,使用ChatGPT等大模型來確定潛在關(guān)鍵詞,然后使用一些第三方SEO提供商的工具進(jìn)行交叉檢查,以確保流量最大化。11.3.10SEO關(guān)鍵詞優(yōu)化雖然生成式人工智能的發(fā)展仍在早期,但也讓我們看到了未來的無限可能。依托于各類大模型的生成式人工智能將深深融入我們的工作、創(chuàng)作和娛樂方式。這些工具不僅可以幫助我們提高創(chuàng)造力和效率,也可以給我們帶來樂趣和驚喜,值得期待。11.3.10SEO關(guān)鍵詞優(yōu)化PART04案例:Magic突破Q算法據(jù)2024年2月21日媒體報(bào)道,Magic公司宣稱其能夠?qū)崿F(xiàn)類似于OpenAI在2023年開發(fā)的“Q算法”的主動(dòng)推理能力。隨著編程和軟件開發(fā)的需求持續(xù)增長(zhǎng),創(chuàng)新和高效的編碼工具可能會(huì)帶來巨大的市場(chǎng)需求。11.4案例:Magic突破Q算法Q算法又稱Q-Learning,是強(qiáng)化學(xué)習(xí)算法家族中最具代表性的基礎(chǔ)算法之一。經(jīng)典的Q算法相對(duì)簡(jiǎn)單、學(xué)習(xí)快速,具有以下特點(diǎn):(1)不需要理解環(huán)境,簡(jiǎn)單方便;當(dāng)然,代價(jià)是莽撞、缺乏想象力
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 畢業(yè)學(xué)生實(shí)習(xí)工作總結(jié)8篇
- 畢業(yè)實(shí)習(xí)心得體會(huì)15篇
- 崗前培訓(xùn)心得體會(huì)15篇
- 節(jié)能宣傳周活動(dòng)總結(jié)(12篇)
- 高二語文教師個(gè)人教學(xué)工作總結(jié)
- 環(huán)保建議書(15篇)
- -工商銀行年終工作總結(jié)
- 金融網(wǎng)格化培訓(xùn)
- 新加坡的金融業(yè)
- 昆明理工大學(xué)《自然語言處理》2023-2024學(xué)年第一學(xué)期期末試卷
- 中國高血壓防治指南(2024年修訂版)解讀課件
- 病房護(hù)理組長(zhǎng)年終述職
- 仲愷農(nóng)業(yè)工程學(xué)院《C程序設(shè)計(jì)》2021-2022學(xué)年期末試卷
- 2024年世界職業(yè)院校技能大賽高職組“護(hù)理技能組”賽項(xiàng)參考試題庫(含答案)
- DB22T 397-2014 保健用品功能學(xué)評(píng)價(jià)程序與檢驗(yàn)方法
- GB/T 44815-2024激光器和激光相關(guān)設(shè)備激光束偏振特性測(cè)量方法
- 浙教版2023小學(xué)信息技術(shù)三年級(jí)上冊(cè)《進(jìn)入在線平臺(tái)》說課稿及反思
- 《房顫抗凝新進(jìn)展》課件
- 論文寫作講座模板
- 執(zhí)著與變通二元思辨作文-2023年高考語文作文考前素材與押題范文
評(píng)論
0/150
提交評(píng)論