SynergyX:用于可解釋藥物協(xié)同預(yù)測的多模態(tài)互注網(wǎng)絡(luò)_第1頁
SynergyX:用于可解釋藥物協(xié)同預(yù)測的多模態(tài)互注網(wǎng)絡(luò)_第2頁
SynergyX:用于可解釋藥物協(xié)同預(yù)測的多模態(tài)互注網(wǎng)絡(luò)_第3頁
SynergyX:用于可解釋藥物協(xié)同預(yù)測的多模態(tài)互注網(wǎng)絡(luò)_第4頁
SynergyX:用于可解釋藥物協(xié)同預(yù)測的多模態(tài)互注網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

發(fā)現(xiàn)有效的抗腫瘤藥物組合對(duì)于推進(jìn)癌癥治療至關(guān)重要。充分考慮復(fù)雜的生物相互作用對(duì)于準(zhǔn)確預(yù)測藥物協(xié)同作用非常重要。然而,極其有限的先驗(yàn)知識(shí)給當(dāng)前計(jì)算方法為了解決這個(gè)問題,本文提出了一個(gè)多模態(tài)的相互關(guān)注網(wǎng)絡(luò)SynergyX,它動(dòng)態(tài)捕獲跨模態(tài)相互作用,允許對(duì)復(fù)雜的生物網(wǎng)絡(luò)和藥物相互作用進(jìn)行建模。采用卷積增強(qiáng)注意結(jié)構(gòu)對(duì)該框架中的多組數(shù)據(jù)進(jìn)行有效集成。與其sota模型相比,SynergyX在通用測試和盲測試以及跨數(shù)據(jù)集驗(yàn)證中都表現(xiàn)出卓越的預(yù)測準(zhǔn)確性;SynergyX的另一個(gè)顯著優(yōu)勢在于它的多維可解釋性。綜上所述,SynergyX提供了一個(gè)具有啟發(fā)性和可解釋性的框架,圖1SynergyX模型架構(gòu)對(duì)于每種藥物,從ChEMBL數(shù)據(jù)庫中獲取其SMILES,然后使用RDKit庫將其轉(zhuǎn)換為規(guī)范的SMILES。我們進(jìn)一步將藥物的SMILES格式轉(zhuǎn)換為可解釋的子結(jié)構(gòu)分區(qū)指紋圖譜(ESPF),使后續(xù)注意模塊能夠捕獲可解釋的藥效團(tuán)信息。ESPF通過將藥物分解成一組離散的、中等大小的亞結(jié)構(gòu),形成藥物的順序編碼。Huang等人確定了大約2700個(gè)有價(jià)值的子結(jié)構(gòu),形成了一個(gè)子結(jié)構(gòu)詞典。最后,將藥物表示為大小為165的定長向量,這里與細(xì)胞的后續(xù)輸入特征的尺寸相匹配。如果藥物中的子結(jié)構(gòu)數(shù)少于165個(gè),則剩余的位置將用按照上述步驟,將每種藥物表示為one-hot向量,表示藥物序列第i個(gè)子結(jié)構(gòu)的子結(jié)構(gòu)索引(該索引是指上述約2700個(gè)子結(jié)構(gòu)構(gòu)成的結(jié)構(gòu)詞典中每個(gè)子結(jié)構(gòu)對(duì)應(yīng)的index)。圖2基因集根據(jù)前人的研究方法,我們進(jìn)一步對(duì)這些特征進(jìn)行了轉(zhuǎn)化。首先,我們使用一個(gè)可學(xué)習(xí)的字典查找矩陣,其中表示子結(jié)構(gòu)的最大數(shù)量,表示向量維數(shù)。這樣我們就可以將每種藥物的子結(jié)構(gòu)索引轉(zhuǎn)換成一個(gè)長度為的向量(其中1=128),從而得到每種藥物的初始特征。隨后,為了獲取藥物子結(jié)構(gòu)的位置信息,使用查找字典計(jì)算位置表示:pi=wposl1表示相加,生成最終的藥物子結(jié)構(gòu)編碼:xa=Di+P12.2統(tǒng)一基因集為了確定一個(gè)潛在的有助于藥物協(xié)同作用的重要基因子集,我們從不同的集合中選擇標(biāo)記基因并整合它們。LINCS項(xiàng)目發(fā)布了一個(gè)包含978個(gè)基因的里程碑式基因集,已知該基因集捕獲了整個(gè)轉(zhuǎn)錄組81%的信息。這些基因包含在我們最終的基因集中。此外,我們選擇了CCLE項(xiàng)目中癌細(xì)胞株基因表達(dá)變異最大的前1000個(gè)基因和TCGA中腫瘤樣本中變異最大的1500個(gè)基因。這些基因可以有效地捕捉不同樣本此外,基于STRING數(shù)據(jù)庫中包含的PPI網(wǎng)絡(luò),我們過濾了綜合得分高于0.7的相互作用,然后確定了與其他蛋白質(zhì)相互作用最多的前1000個(gè)蛋白質(zhì)。編碼這些蛋白質(zhì)的基因通常被認(rèn)為在生物網(wǎng)絡(luò)中更為關(guān)鍵和功能重要。此外,從STITCH數(shù)據(jù)庫選擇了1000個(gè)與最多藥物相關(guān)的藥物靶向基因。最后,我們將上述所選擇的5組基因(L1000_gene、ccle_gene、tcga_gene、ppi_gene和dti_gene)進(jìn)行組合,去掉缺失特征的基因后,得2.3細(xì)胞系的多基因組整合SynergyX利用了從DepMap數(shù)據(jù)庫下載的6種組學(xué)數(shù)據(jù)[39,40]:基因表達(dá)(exp)、基因突變(mut)、基因拷貝數(shù)(cn)、基因甲基化(met)、基因效應(yīng)(e?)和基因依賴概率(dep)?;蛲蛔償?shù)據(jù)被處理為二進(jìn)制變量,其中0代表正?;颍?代表突變基因。對(duì)于每個(gè)細(xì)胞系,我們的目標(biāo)是保留上述4079個(gè)基因的組學(xué)特征。雖然我們收集了所有167個(gè)細(xì)胞系中細(xì)胞系中收集了3456個(gè)基因,met在143個(gè)細(xì)胞系中收集了2279個(gè)基因。如果缺少任何組學(xué)特征,則用該基因在其余細(xì)胞系中的平均值進(jìn)行計(jì)算。我們應(yīng)用tanh歸一化,類似于DeepSynergy,對(duì)不同組型的原始數(shù)據(jù)進(jìn)行預(yù)處理。對(duì)于一個(gè)特定的細(xì)胞系,6個(gè)組學(xué)特征按照固定的基因順序整合,得到一個(gè)輸入特征。受卷積增強(qiáng)Transformer結(jié)構(gòu)(Conformer)的啟發(fā),我們采用一維卷積神經(jīng)網(wǎng)絡(luò)(CNN)在注意模塊之前對(duì)細(xì)胞系的原始多組數(shù)據(jù)進(jìn)行初步整合,考慮到細(xì)胞系特征序列相對(duì)較長,我們在卷積層之間引入了maxpooling的子采樣。CNN擅長提取局部特征,當(dāng)與擅長建模長期全局上下文的級(jí)聯(lián)注意力模塊結(jié)合時(shí),它們可以更充分地表示細(xì)胞系特2.4跨模態(tài)融合編碼器Synergy的核心模塊是跨模態(tài)融合編碼器,該模塊采用多種注意力模塊實(shí)現(xiàn)特征更新和融合,同時(shí)提取潛在的藥物-細(xì)胞和藥物-藥物相互作用。我們嘗試了相互關(guān)注和自我關(guān)注模塊的不同組合,并最終在我們的SynergyX中確定了一個(gè)三層“三明治”結(jié)構(gòu)。外層是相2.4.1跨模態(tài)互注意力跨模態(tài)融合編碼器從藥物-細(xì)胞相互注意(DCMA)模塊開始,用于跨模態(tài)相關(guān)特征提取。如圖3所示,DCMA模塊由多頭互注意網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)組成。核心步驟包括計(jì)算藥物與細(xì)胞和細(xì)胞與藥物相互作用的權(quán)重。藥物-細(xì)胞注意矩陣用于獲得藥物反應(yīng)性細(xì)胞潛圖3DCMA模塊2.4.2特定特征的自注意力更新跨模態(tài)融合編碼器的第二層由兩個(gè)特定的自注意模塊組成,即藥物特異性自注意模塊(DSSA)和細(xì)胞特異性自注意模塊(CSSA),旨在捕捉不同實(shí)體的內(nèi)部上下文,如圖4、5所示。DSSA模塊將細(xì)胞反應(yīng)性藥物A和細(xì)胞反應(yīng)性藥物B的主要特征作為輸入,利用這些特征進(jìn)一步更新這兩種藥物的隱藏特征。該模塊采用經(jīng)典的TransformerEncoder來學(xué)習(xí)每種藥物中各個(gè)子結(jié)構(gòu)之間的相互依賴關(guān)系。具體來說,DSSA模塊首先從藥物的潛在特征生成查詢、鍵和值矩陣。然后將這些矩陣輸入到一個(gè)多頭自我注意層中,以計(jì)算每種藥物中的自我注意。在多頭自注意層之后,我們采用了具有兩層線性變換和ReLU激活函數(shù)的前饋神經(jīng)網(wǎng)絡(luò)。隨后,結(jié)果經(jīng)過殘差連接層和層歸一化,得到更新后的藥物隱藏特征。CSSA模塊捕獲細(xì)胞中不同基因之間的相關(guān)性,并更新細(xì)胞系特征。CSSA的輸入是藥物A響應(yīng)細(xì)胞的主要特征,是藥物B響應(yīng)細(xì)胞的主要特征。采用了一種類似于VisionTransformer(ViT)的架構(gòu)。與DSSA模塊的關(guān)鍵區(qū)別在于不同層之間的連接順序。具體來說,層歸一化放置在多頭自關(guān)注層之前和前饋神經(jīng)網(wǎng)絡(luò)之前,以更好地穩(wěn)定通過CNN后的前向輸入分圖4藥物特異性自注意力(DSSA)模塊圖5細(xì)胞特異性自注意力(CSSA)模塊2.4.3單向互注意力在第三層,我們使用兩個(gè)單峰互注意模塊來提取粗粒度的融合信息。其中,藥物-藥物相互關(guān)注模塊DDMA整合了藥物A和藥物B的潛在特征。細(xì)胞-細(xì)胞互注意模塊(CCMA)分別用于結(jié)合對(duì)藥物A和藥物B有反應(yīng)的細(xì)胞潛伏特征。DDMA和CCMA都由多頭互注意層和前與跨模態(tài)相互關(guān)注部分中描述的過程類似,DDMA最初使用藥物A和藥物B來生成各自的鍵、查詢和值矩陣。然后計(jì)算藥物A到藥物B和藥物B到藥物A的注意力權(quán)重,利用這些權(quán)重分別更新藥物B和藥物A的特征。這一過程捕捉到了藥物之間復(fù)雜的相互作用和潛在自關(guān)注。相比之下,CCMA模塊采用VisionTransformer(ViT)架構(gòu)作為其骨干,遵循CSSA模塊的設(shè)計(jì)原則。CCMA模塊遵循與DDMA類似的計(jì)算過程。這一關(guān)鍵步驟有效融合了對(duì)藥物A和藥物B有反應(yīng)的細(xì)胞潛在特征,使該模塊能夠反映兩種藥物對(duì)細(xì)胞基因網(wǎng)絡(luò)的聯(lián)合經(jīng)過上述交叉模態(tài)融合編碼器,我們得到了四個(gè)最終特征:藥物A的最終特征、藥物B的最終特征、藥物A響應(yīng)細(xì)胞的最終特征和藥物B響應(yīng)細(xì)胞的最終特征。這些特征被扁平化并連接起來,然后傳遞到Predic?on模塊以輸出預(yù)測的協(xié)同得分。預(yù)測模塊由三個(gè)完全連接的層組成,層之間應(yīng)用ReLU激活函數(shù)。此外,我們還引入了Dropout層來防止過擬藥物組合數(shù)據(jù)來自綜合數(shù)據(jù)庫DrugComb(v1.5),該數(shù)據(jù)庫包含739964個(gè)組合實(shí)驗(yàn)。它提供了一種新的藥物協(xié)同作用測量方法稱為S評(píng)分,它通過測量藥物組合與單一藥物的劑量反應(yīng)曲線之間的差異來定義藥物協(xié)同作用的水平。研究表明,與現(xiàn)有的四種協(xié)同作用評(píng)分(HSA、Bliss、Loewe和ZIP)相比,S評(píng)分在預(yù)測最具協(xié)同作用和拮抗作用的藥物組合方面具有較高的準(zhǔn)確性(AUC>0.99)。我們選擇S評(píng)分作為藥物對(duì)在特定細(xì)胞系我們從DrugComb數(shù)據(jù)庫中選擇了所有可用的數(shù)據(jù)進(jìn)行進(jìn)一步的數(shù)據(jù)清理。首先,我們刪除了關(guān)于藥物和細(xì)胞系信息不清楚或缺失的條目。接下來,我們在數(shù)據(jù)集中發(fā)現(xiàn)了一個(gè)明顯的數(shù)據(jù)不平衡問題,其中2157種藥物(85.9%)出現(xiàn)的次數(shù)少于10次,僅占數(shù)據(jù)集的1.37%(4587項(xiàng))。為了解決這種數(shù)據(jù)不平衡并提高數(shù)據(jù)集的質(zhì)量,我們消除了出現(xiàn)次數(shù)少于10次的藥物。此外,我們采用3σ原理來識(shí)別數(shù)據(jù)集中的異常值,然后使用平均值±3個(gè)標(biāo)準(zhǔn)差作為閾值,并為該范圍之外的分?jǐn)?shù)分配邊界值。最終,我們獲得了330917種藥物組合的數(shù)據(jù)集,涉及354種藥物和167個(gè)細(xì)胞系。值得注意的是,盡管DrugComb是現(xiàn)有最大的藥物組合數(shù)據(jù)庫之一,但與預(yù)測空間相比,標(biāo)記的數(shù)據(jù)仍然顯著較小。在我們的案例中,167個(gè)細(xì)胞系中354種藥物的組合空間相當(dāng)于大約2100萬種可能性,而現(xiàn)有數(shù)據(jù)僅覆蓋了總可能性的1.56%。為了評(píng)估SynergyX的性能,我們將其與六種具有代表性的最先進(jìn)的深度學(xué)習(xí)方法和兩種杰出的機(jī)器學(xué)習(xí)方法RandomForest(RF)和XGBoost進(jìn)行了比較。所有方法都在用于SynergyX的相同數(shù)據(jù)集上進(jìn)行了訓(xùn)練和評(píng)估。提到的六種深度學(xué)習(xí)方法分別是DeepSynergy、MatchMaker、DeepDDS、DTSyn、MGAE-DC和DFFNDDS。對(duì)于每種方法,我們都試圖保持各自研究中提到的一致的輸入特征、模型架構(gòu)和最優(yōu)訓(xùn)練參數(shù)。具體來說,DeepDDS使用GCN或GAT進(jìn)行藥物特征提取,我們將這兩種模型分別命名為DeepDDS-GCN和DeepDDS-GAT。此外,對(duì)于最初為分類任務(wù)設(shè)計(jì)的模型,如DeepDDS和DFFNDDS,我們對(duì)它們的預(yù)測模塊和損失函數(shù)進(jìn)行了輕微的調(diào)整。我們還在合理的范圍內(nèi)優(yōu)化了它們的訓(xùn)練參數(shù),使其更適合于回歸任務(wù)。針對(duì)RF和XGBoost,采用類似網(wǎng)格搜索的方法尋找最優(yōu)訓(xùn)練參數(shù)。值得注意的是,cuML包被用來利用GPU加速來訓(xùn)練RF模型在兩種實(shí)驗(yàn)設(shè)置中對(duì)SynergyX和所有比較方法進(jìn)行評(píng)估:(1)重新發(fā)現(xiàn)已知藥物協(xié)同作用的一般測試,(2)發(fā)現(xiàn)未知藥物對(duì)的遺漏藥物組合測試。在General測試中,將整個(gè)數(shù)據(jù)集按8:1:1的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集。對(duì)于遺漏藥物組合測試,我們采用了基于藥物對(duì)的分層抽樣方法,確保測試集不包括訓(xùn)練集中存在的任何藥物對(duì)。最終的訓(xùn)練集、驗(yàn)證集和測試集分別約占所有藥物對(duì)的80%、10%和10%。所有實(shí)驗(yàn)用不同的隨機(jī)種子重復(fù)5次。我們使用均方誤差(MSE)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、r平方(R2)和Spearman相關(guān)性(Spearman)作為回歸預(yù)測任務(wù)的評(píng)價(jià)指標(biāo)。此外,我們在四個(gè)獨(dú)立的數(shù)據(jù)集上進(jìn)一步評(píng)估了SynergyX,以證明其在不同數(shù)表1通用測試性能比較表2留出藥物組合測試性能比較SynergyX包含6個(gè)子模塊:CNN(多組學(xué)集成模塊)、DCMA、DSSA、CSSA、DDMA和CCMA。移除SynergyX的不同組件,以評(píng)估它們對(duì)整體性能的貢獻(xiàn)。變體模型被標(biāo)記為行了五次隨機(jī)實(shí)驗(yàn),以研究某些模塊的缺失是否會(huì)顯著影響模型的性能。如表3所示,完表4消融實(shí)驗(yàn)結(jié)果考慮到SynergyX、SynergyX-B、SynergyX-E、SynergyX-F和SynergyX-G,我們可以觀察到,無論是否存在相互關(guān)注模塊,卷積增強(qiáng)的注意力架構(gòu)將CNN和注意力結(jié)合起來往往比單獨(dú)使用其中任何一個(gè)都能產(chǎn)生更好的結(jié)果。這與我們的假設(shè)一致,即CNN特征捕獲局部感知特征,而注意力機(jī)制可以有效捕獲遠(yuǎn)程語義信息。結(jié)合兩者可以獲得更好3.4多組數(shù)據(jù)研究因此,我們探索了不同組合組學(xué)數(shù)據(jù)的影響。一共有六種類型的基因組最初應(yīng)用于SynergyX。為了簡化實(shí)驗(yàn),我們隨機(jī)選取了涉及2、3、4和5種基因組數(shù)據(jù)的6種組合。圖6不同組合組學(xué)數(shù)據(jù)對(duì)結(jié)果的影響在單組學(xué)實(shí)驗(yàn)中,不同組學(xué)類型的模型性能不同。cn數(shù)據(jù)的MSE值最低,為82.17,而exp、mut和met表現(xiàn)相對(duì)較好。然而,使用eff或dep會(huì)導(dǎo)致明顯較差的結(jié)果。這是因?yàn)槲覀內(nèi)狈ψ銐虻膃ff和dep特征,這些特征可以作為補(bǔ)充特征

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論