版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
圖與基礎(chǔ)模型:多模態(tài)基礎(chǔ)模型關(guān)系推理能力概述近年來,采用深度學習對圖結(jié)構(gòu)數(shù)據(jù)建模的方法取得了巨大進展,并改變了模型理解關(guān)系結(jié)構(gòu)的能導語力。在集智俱樂部「圖神經(jīng)網(wǎng)絡(luò)與組合優(yōu)化」讀書會中,耶魯大學計算機科學系助理教授應(yīng)智韜(RexYing)介紹了利用圖結(jié)構(gòu)在多種機器學習場景中實現(xiàn)復雜推理的探索,尤其是聚焦在基礎(chǔ)模型中的應(yīng)用,包括在對比學習中用鄰近圖捕捉相似關(guān)系,稀疏Transformer通過圖擴散來擴散注意力、降低模型復雜度,GNN學習分子圖表征,思維傳播利用關(guān)系推理增強大模型的復雜推理能力。本文由社區(qū)成員劉佳瑋整理成文。研究領(lǐng)域:基礎(chǔ)模型,多模態(tài),關(guān)系推理,圖神經(jīng)網(wǎng)絡(luò),對比學習0.基礎(chǔ)模型概述1.模型架構(gòu)中的關(guān)系結(jié)構(gòu)-鄰近圖捕捉相似關(guān)系-稀疏Transformer2.任務(wù)中的關(guān)系結(jié)構(gòu)-GNN學習分子圖表征3.推理中的關(guān)系結(jié)構(gòu)-思維傳播4.總結(jié)0.基礎(chǔ)模型概述“基礎(chǔ)模型”(foundationmodel)一詞最初由斯坦福大學的Bommasani等人提出,定義為“在廣泛的數(shù)據(jù)上訓練且可以被應(yīng)用于廣泛的下游任務(wù)的模型”。人工智能向基礎(chǔ)模型的范式轉(zhuǎn)變意義重大,允許用更廣泛的通用模型替換幾個狹窄的任務(wù)特定模型,這些模型一旦經(jīng)過訓練就可以快速適應(yīng)多個應(yīng)用程序,并且隨著模型參數(shù)增大,有可能展現(xiàn)出“涌現(xiàn)”能力。當談及基礎(chǔ)模型時,我們的定義可能會更加廣泛,不僅僅包括大語言模型(LLM),還涵蓋了基于自監(jiān)督學習框架的各種基礎(chǔ)模型。這些模型通常會在最終任務(wù)上進行微調(diào)。這種范式在機器學習領(lǐng)域的作用日益增大。以ImageNet為例,它之所以取得成功,主要是因為當時人們普遍崇尚監(jiān)督學習。ImageNet手動標記了1400萬張圖像,這為監(jiān)督學習提供了數(shù)據(jù)基礎(chǔ),從而推動了視覺領(lǐng)域的巨大進展。然而,在大多數(shù)情況下,這種方法并不可行。例如,自然語言處理涉及眾多任務(wù)和大量翻譯工作,不可能讓人逐一完成。此外,我們獲取的數(shù)據(jù)往往是無監(jiān)督的。因此,基礎(chǔ)模型的最大優(yōu)勢在于,即使在沒有監(jiān)督的情況下,我們?nèi)匀豢梢岳么罅繑?shù)據(jù)來開發(fā)通用模型,適用于各種不同的下游任務(wù)。下面是一個傳統(tǒng)的基礎(chǔ)模型框架:圖1預(yù)訓練和微調(diào)這個過程主要分為預(yù)訓練(pre-training)和微調(diào)(finetuning)兩個步驟。在預(yù)訓練階段,我們采用自監(jiān)督學習方法,例如使用語言模型。首先,我們使用一個編碼器,例如transformer,對輸入數(shù)據(jù)進行編碼,然后得到一些嵌入(embedding)。接著,我們再從這個嵌入進行解碼。在解碼后,我們會采用一種自監(jiān)督損失函數(shù),例如掩碼語言模型(masklanguagemodel)。完成預(yù)訓練后,在微調(diào)階段,我們將編碼器固定下來,不再需要對該部分進行優(yōu)化或僅優(yōu)化很小一部分。然后,我們將輸入數(shù)據(jù)直接通過這個編碼器得到一個embedding,再從這個embedding進行各種下游任務(wù)的處理,包括文本分類、摘要和翻譯等。在此過程中,我們會采用各種損失函數(shù)來微調(diào)下游任務(wù)。需要注意的是,如果是GPT模型,需要遷移的部分不再是編碼器,而是解碼器(decoder)。然而,整體框架基本保持不變。對于圖像基礎(chǔ)模型的訓練,同樣可以采用這個框架。只需將輸入數(shù)據(jù)從文字轉(zhuǎn)換為圖片,并采用編碼器-解碼器架構(gòu)來獲得自監(jiān)督損失。在微調(diào)階段,同樣可以將編碼器遷移過來,訓練各種下游任務(wù)。這個框架在不同類型的數(shù)據(jù)(圖、圖像、文字等)中具有很高的通用性。接下來,我們要考慮不同數(shù)據(jù)的模態(tài)。在自然語言處理(NLP)領(lǐng)域,文本通常以句子的形式呈現(xiàn)。在每個句子中,我們能看到不同的單詞,它們組成了不同的詞組。類似地,在計算機視覺(CV)領(lǐng)域,數(shù)據(jù)則以圖片的形式出現(xiàn),而圖片的基本單元可能是像素。在圖(Graph)中,圖的構(gòu)成單元是節(jié)點,許多節(jié)點組成一個子圖。圖2.NLP、CV和Graph的對比本次分享的內(nèi)容內(nèi)容涉及這三個不同的方面,同時也會探討不同數(shù)據(jù)模態(tài)的適用性。希望所介紹的方法能夠廣泛應(yīng)用于不同的基礎(chǔ)模型上,這些方法的一個共同點就是利用關(guān)系推理或圖的方式來實現(xiàn)。將從三個方面展開,首先是預(yù)訓練,其次是微調(diào),最后是模型推理。這三個步驟都可以利用圖關(guān)系推理的方法來實現(xiàn)。1.預(yù)訓練中的關(guān)系結(jié)構(gòu)我們從預(yù)訓練開始談起,也就是自監(jiān)督學習。自監(jiān)督學習通常分為兩大類:生成式和對比式。生成式的任務(wù)主要是掩碼語言模型,即將數(shù)據(jù)的一部分進行掩碼,然后讓模型進行恢復。而對比式則不是生成被掩碼掉的內(nèi)容,而是去區(qū)分相似的和不相似的數(shù)據(jù)。對比式自監(jiān)督算法通常具有較高的有效性,因此我們今天分享的第一項工作是關(guān)于對比學習(contrastivelearning)的形式。對比學習是一個非常簡單的原則。在許多數(shù)據(jù)中,有些數(shù)據(jù)點是相似的,有些則相距甚遠。如果模型能夠區(qū)分出哪些東西相似和哪些東西相距甚遠,我們就達到了自監(jiān)督學習的目的。如果這個嵌入空間能夠捕捉到這樣的屬性,那它就是一個很好的嵌入方式。因此,在訓練時,我們會使用這樣的目標:輸入一些相似的數(shù)據(jù)點和一些不相似的數(shù)據(jù)點,將這些數(shù)據(jù)全部編碼到嵌入空間,然后在嵌入空間上進行對比學習。這樣做的結(jié)果是,我們需要把相似數(shù)據(jù)的嵌入變得盡可能接近,不相似的數(shù)據(jù)的嵌入盡可能遠離。這是一個大致的原則,比較容易理解。一般來說,對于每個需要進行對比學習的數(shù)據(jù)點,我們定義一個錨點(author)。錨點的意思是,我們可以創(chuàng)造一些正例(positiveexample就是一些跟自己很相似的東西,還有一些負例(negativeexample一些跟自己很不相似的東西。我們可以通過把嵌入空間里面相似的拉近、不相似的拉遠來做自監(jiān)督學習。如果沒有標簽監(jiān)督的情況下我們怎么樣去找哪些是正例哪些是負例呢?一般來說,做這種對比的方式,就是我可以對自己的錨點做一些變換。比如圖片不管怎么旋轉(zhuǎn)、位移,進行各種各樣的變換,這個圖片的語義不會有什么區(qū)別,變換以后我們依然能夠認出來它是同一個物體。所以經(jīng)過變換可以創(chuàng)造一些正例,這樣的準則在圖里面也經(jīng)常會用。比如一些圖對比學習的方法,會把一個節(jié)點的鄰居進行隨機游走來進行采樣。然后把它作為對鄰居的擾動,可以得到一些類似的鄰居,那這些就是我們的正例。有了這個以后,我們就可以定義各種對比學習的損失函數(shù)(例如InfoNCE然后在這個InfoNCE的框架下,我們不光是要找正例,還得找負例,怎么找負例是一個問題。我們想象什么樣的負例會更有用,看一下可能會出現(xiàn)什么樣的負例。我們可以有簡單負例(easynegative),例如圖3中最左邊的負例跟一開始的圖像完全不同。即便這個模型非常笨它也能夠區(qū)分出它們不同。然后中間是稍微難一些的負例,這些負例就比較有趣,比如說它們可能都是貓科動物,但是它們可能是不同的動物,那這些就是一些困難負例(hardnegative因為模型需要有更多的知識才能發(fā)現(xiàn)它們是不同的東西。然后最右邊叫做偽負例(falsenegative因為它們其實是同一個物種,所以模型沒有必要把它們當做負例。如果是負例的話,通過InfoNCE這些負例之間的距離在嵌入空間上很遠,這沒必要,因為它們都是同一種?;蛘哒f即便我們需要區(qū)分,但是它們不應(yīng)該被拉得非常遠。然后在這三種里面什么對增加模型的表現(xiàn)能力更有效?很顯然大家都會覺得是困難負例,因為它可能比較像,但是并不完全一樣。所以這更能夠考驗?zāi)P偷谋孀R能力。所以困難負例是我們比較關(guān)心的,然后它可以是有不同的表現(xiàn)形式。比如說它們可以是背景、花紋比較相似,但其實是不同的動物。圖3簡單負例、困難負例和偽負例BatchSampler:用鄰近圖捕捉相似關(guān)系這個工作是講者的學生還有唐杰老師的學生一起合作的一個項目,研究的動機是用鄰近圖(proximitygraph)去捕捉相似的關(guān)系。就是說,有各種各樣的數(shù)據(jù)點,它們可以是圖也可以是圖像、文字或者各種想要做對比學習的數(shù)據(jù),我們把它轉(zhuǎn)換成圖的形式,每個節(jié)點代表一個數(shù)據(jù)點,這些數(shù)據(jù)點之間的連線就代表他們的相似度,只有當這兩個節(jié)點非常相近的時候,我們才會把他們連起來。然后我們通過這個圖來討論怎樣采樣好的困難負例,就是那些看上去很像但其實是不一樣的負例。這個圖的構(gòu)造其實非常簡單,首先我們有一個正在做對比學習的編碼器,然后我們把節(jié)點編碼到這個嵌入空間,然后做最近鄰等操作構(gòu)建鄰近圖,基于這個圖做一些操作尋找負例。我們的方法通過有重啟的隨機游走(randomwalkwithrestart)來探索局部鄰域,它的好處在于靈活性。我們可以想象困難負例一般在哪兒,他肯定不是最近的幾個,因為最近的可能是同類,即偽負例。肯定也不是很遠的,因為這些點肯定是完全不相關(guān)的簡單負例。我們的方法可以通過超參數(shù)控制重啟概率,論文發(fā)表在KDD2023上,感興趣的讀者可以看一下。YangZ,HuangT,DingM,etal.BatchSampler:SamplingMini-BatchesforContrastiveLearninginVision,Language,andGraphs[J].arXivpreprintarXiv:2306.03355,2023.圖4BatchSampler的基本想法我們把這個方法叫做BatchSampler,它的想法就是通過在鄰近圖上做隨機游走來控制采樣到一些很高質(zhì)量的負例。我們有一些超參數(shù),首先就是最近鄰的數(shù)量,還有就是隨機游走的重啟概率??梢韵胂?,當重啟概率是1的時候,也就是每走一步就會回到原點,那其實就是找一階鄰居,得到的樣例很難。另一個極端是重啟概率為0,那就是純粹的隨機游走,很容易走到很遠的地方,獲得很簡單的樣例。通過調(diào)重啟概率,我們就可以找到想要難度的樣例,這種方法可以用在各種模態(tài)的數(shù)據(jù)上面。稀疏Transformer:通過圖擴散來擴散注意力,降低模型復雜度接下來我們用圖的角度解釋Transformer架構(gòu)。由于Transformer架構(gòu)的復雜度主要來自注意力機制,它的復雜度是O(token*token),這給Transformer應(yīng)用于長序列帶來了挑戰(zhàn)。稀疏Transformer可以顯著降低復雜度,我們可以將其想象成圖的形式,這種注意力矩陣很像圖的鄰接矩陣。稀疏Transformer的核心思想是用局部注意力和隨機注意力取代全局注意力,局部注意力是指設(shè)置一個很小的窗口,而隨機注意力是指隨機找一些連接來計算。圖5稀疏Transformer的注意力機制這樣做可以節(jié)省時間和空間,但也有一些挑戰(zhàn)。如果我用局部窗口的話,感受野就會降低,也就是我沒法直接在每一層通過算自注意力機制來增加模型的表達能力。還有一個問題是它可能會對序列的擾動敏感,不夠魯棒。為此,我們希望模型能夠具有全局注意力,并且降低模型復雜度。在AAAI的工作中,我們把稀疏Transformer當成一個稀疏圖,然后通過圖擴散的方式來擴散注意力的值,從而在Transformer模型上探索結(jié)構(gòu)。這樣做的好處是很多格子是通過擴散算出來的,不需要反向傳播,從而能夠節(jié)省很多計算和存儲開銷。FengA,LiI,JiangY,etal.Diffuser:efficienttransformerswithmulti-hopattentiondiffusionforlongsequences[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.2023,37(11):12772-12780.圖6diffuser的擴散方式2.微調(diào)中的關(guān)系結(jié)構(gòu)GNN學習分子圖表征在做微調(diào)的時候也有一些有意思的技巧,這里關(guān)注分子結(jié)構(gòu)的基礎(chǔ)模型,怎樣通過不同的任務(wù)和任務(wù)之間的相似度來增加模型微調(diào)的表現(xiàn)。這里介紹一篇最近發(fā)表在NeurIPS上面的論文。在分子結(jié)構(gòu)上,我們可以有各種下游任務(wù),例如可溶性、毒性或活性預(yù)測等,這是一個非常適合基礎(chǔ)模型的場景?;炯軜?gòu)就是用GNN去編碼一個分子輸入,得到每個節(jié)點(原子)的嵌入,然后通過聚合或者池化操作得到分子的嵌入,然后預(yù)測各種分子級別的下游任務(wù)。HuangT,HuZ,YingR.LearningtoGroupAuxiliaryDatasetsforMolecule[J].arXivpreprintarXiv:2307.04052,2023.圖7分子圖神經(jīng)網(wǎng)絡(luò)的訓練步驟圖上的預(yù)訓練任務(wù)通常可以是生成式任務(wù)也可以是對比式任務(wù),但對于分子結(jié)構(gòu)來說仍然是一個非常有挑戰(zhàn)性的話題。首先,有標注的數(shù)據(jù)集很少,往往需要昂貴的領(lǐng)域知識來建立。然后往往它們用的分子也都是不一樣的。一個比較自然的想法是說,因為這些下游任務(wù)都非常小,所以我們能不能結(jié)合多個下游任務(wù),比如把幾個毒性相關(guān)的下游任務(wù)和數(shù)據(jù)放在一起來做微調(diào)。通過從基礎(chǔ)模型微調(diào)的形式去改進可能會是一個更加有效的策略。但這樣做有一個問題就是很容易出現(xiàn)負遷移。我們觀察一個數(shù)據(jù)集是否能幫助另一個數(shù)據(jù)集,紅色表示提升很明顯。我們可以看到有些規(guī)律,例如幾乎所有數(shù)據(jù)集都可以幫助FreeSolv數(shù)據(jù)集。圖8兩個數(shù)據(jù)集能否互相幫助的實驗?zāi)敲茨芊裾业綄δ硞€數(shù)據(jù)集有幫助的數(shù)據(jù)集呢?我們覺得兩個數(shù)據(jù)集之間的關(guān)系分為兩種,一種是結(jié)構(gòu)的相關(guān)性,另一種是任務(wù)的相關(guān)性。描述這兩種相關(guān)性的方式很多,這里不展開討論?;谶@些相關(guān)性,我們就可以把單個任務(wù)轉(zhuǎn)化成一組任務(wù)。在訓練的時候,我們就可以把這些數(shù)據(jù)放到一起算損失。假設(shè)這兩個數(shù)據(jù)集關(guān)系非常緊密,輔助數(shù)據(jù)集是非常有用的,那就可以用同一套編碼器,只用不同的解碼器做不同的任務(wù)。另一個極端是,如果兩個數(shù)據(jù)集或者下游任務(wù)完全無關(guān),就應(yīng)該使用兩套編碼器來訓練,才能得到最好的效果。很多情況可能介于兩種極端情況之間,他們的任務(wù)可能在分布上相似又有一定的區(qū)別,這就應(yīng)該采用中間的混合形式,部分參數(shù)共享。圖9三種融合不同數(shù)據(jù)的方式我們建議使用路由機制來動態(tài)分配每個輔助數(shù)據(jù)集對網(wǎng)絡(luò)子層目標數(shù)據(jù)集的影響。路由機制的學習取決于輔助數(shù)據(jù)集的梯度如何影響目標數(shù)據(jù)集的性能。然而,以目標數(shù)據(jù)集感知的方式優(yōu)化這種路由機制具有挑戰(zhàn)性,因為它僅在輔助數(shù)據(jù)集的前向傳遞期間使用。為了解決這個問題,我們建議使用雙層優(yōu)化框架,并使用元梯度(metagradients)來自動學習任務(wù)的相似度。雙層優(yōu)化框架分為兩個步驟:首先,利用輔助任務(wù)的梯度更新除路由函數(shù)外的模型參數(shù);其次,我們重用這個計算圖并計算路由機制的元梯度。3.推理中的關(guān)系結(jié)構(gòu)思維傳播:用大模型進行復雜推理關(guān)系推理能否在大語言模型的推理階段有所幫助呢?目前比較流行的方式是通過設(shè)計各種各樣的提示(prompt)來使大語言模型更好地解決一些復雜問題,例如思維鏈(chain-of-thought)、思維樹(tree-of-thought)和思維圖(graph-of-thought)等,但這些方法還不夠高效。鑒于目前的prompt是獨立的,所以能否通過探索問題之間、解之間的關(guān)系來幫助模型有更強的推理能力,這種方式我們叫做思維傳播(thoughtpropagation)。思維傳播包含如下幾個步驟。首先,LLMSolve使用基礎(chǔ)的提示方法解決輸入的問題。然后,LLMPropose是指提示LLM去提出一些相似的問題,這些問題都可以用LLM來解決。然后我們會分別得到一些解,這些解就是模型對于之前問題的回答。然后根據(jù)這些回答,我們進行聚合或者投票來得到當前問題的回答,這就叫LLMAggregate。最后的LLMReadout就是判斷新的解和舊的解哪個更好,或者二者能否結(jié)合得到更好
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣播電視傳輸網(wǎng)絡(luò)在歷史文化傳承中的作用考核試卷
- 教育培訓機構(gòu)合作開發(fā)合同
- 金融投資領(lǐng)域資產(chǎn)配置與風險控制方案
- 豬肉銷售合同
- 擺攤涼粉課程設(shè)計
- 學校網(wǎng)頁 課程設(shè)計
- 怎么說美術(shù)課程設(shè)計
- 屠宰動物營養(yǎng)與飼養(yǎng)管理考核試卷
- 醫(yī)用塑料材料的材料選擇與應(yīng)用考核試卷
- 2024年版設(shè)備個性化訂制協(xié)議實例版
- 高速公路改擴建工程路基拼接技術(shù)
- 七人學生小品《如此課堂》劇本臺詞手稿
- 出境竹木草制品公司不合格產(chǎn)品召回制度
- POWERPOINT教學案例優(yōu)秀6篇
- RFJ05-2009-DQ人民防空工程電氣大樣圖集
- 建筑物理課后習題參考
- 部編版道德與法治三年級下冊第一單元《我和我的同伴》大單元作業(yè)設(shè)計案例
- 2023屆四省聯(lián)考“諺語看似矛盾”的作文講評+課件
- 研一考試文件內(nèi)科學進展習題
- 12YJ9-1 室外工程標準圖集
- GB/T 14491-2015工業(yè)用環(huán)氧丙烷
評論
0/150
提交評論