深度學習賦能表型藥物發(fā)現(xiàn)_第1頁
深度學習賦能表型藥物發(fā)現(xiàn)_第2頁
深度學習賦能表型藥物發(fā)現(xiàn)_第3頁
深度學習賦能表型藥物發(fā)現(xiàn)_第4頁
深度學習賦能表型藥物發(fā)現(xiàn)_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

文獻概要形態(tài)學分析(Morphologicalprofiling)是表型藥物發(fā)現(xiàn)中的重要工具。高通量自動成像技術(shù)的出現(xiàn),使得在單細胞分辨率下捕捉細胞在給藥后產(chǎn)生的形態(tài)特征成為可能。同時,深度學習,特別是計算機視覺技術(shù)的顯著進展,大大提升了對高通量高內(nèi)涵圖像(HighContentImaging)的分析能力。這些技術(shù)對于理解藥物的作用機制,新型治療藥物的發(fā)現(xiàn)和發(fā)展都起到了關(guān)鍵的作用。本綜述全面總結(jié)了形態(tài)學分析領(lǐng)域的最新進展。我們介紹了高內(nèi)涵細胞圖像分析流程,調(diào)研了基于特征工程和深度學習方法的不同分析策略,并介紹了有關(guān)公開數(shù)據(jù)集。我們著重介紹了深度學習在此流程中的應(yīng)用,包括細胞圖像分割、圖像表征學習和多模態(tài)學習等。此外,我們總結(jié)了形態(tài)學分析在表型藥物發(fā)現(xiàn)中的應(yīng)用,并指出了該領(lǐng)域綜述背景表型藥物發(fā)現(xiàn)(PhenotypicDrugDiscovery,PDD)是一種重要的藥物發(fā)現(xiàn)方式。與基于靶點的藥物發(fā)現(xiàn)(Target-basedDrugDiscovery,TDD)不同,PDD采用與靶標無關(guān)的方法,專注于化合物在疾病相關(guān)生物系統(tǒng)中的表型效應(yīng)。這一策略利用已標注作用機制的參考化合物,來揭示測試化合物的作用機制(MechanismofAction,MOA)。迄今為止,PDD在首創(chuàng)新藥(first-in-class)的發(fā)現(xiàn)方面已做出重要貢獻。例如,PDD是天然產(chǎn)物發(fā)現(xiàn)的主要方法,也是其識別新靶點和/或作用機制的基礎(chǔ)。天然產(chǎn)物一般都具有生物活性,表型篩選,特別是通過分析高內(nèi)涵圖像中相關(guān)的有偏和無偏差異,是發(fā)現(xiàn)其未知作自動顯微鏡和圖像分析技術(shù)的發(fā)展,已經(jīng)使得基于圖像的高通量表型藥物篩選(PDD)成為現(xiàn)實。在這一領(lǐng)域中,高內(nèi)涵篩選(High-ContentScreening,HCS)和形態(tài)學分析(Morphologicalprofiling)是兩種基于大規(guī)模成像實驗的方法,但是它們在策略上存在明顯差異。HCS是一種針對已知特定表型的測量方法,它專注于與擾動相關(guān)的特性。這種方法通常限定于測量那些已經(jīng)明確與特定生物學擾動相關(guān)聯(lián)的特征。與此相對,形態(tài)學分析,是一種無偏的分析方法。它通過捕捉由成百上千個細胞特征組成的高維圖像數(shù)據(jù),來全面地反映細胞的形態(tài)特性。這種方法不受限于已知表型,能夠揭示細胞形態(tài)的細微差別或未知的表型特征(見圖1)。傳統(tǒng)上,生物圖像信息學工具能夠測量這些特征,并用于聚類分析以及預(yù)測擾動的生物活性相似性。這不僅提供了一種全面的形態(tài)學分析,而且能夠以無偏的方式發(fā)現(xiàn)那些不易察覺或尚未被認識的表型變化。通過這種方式,形態(tài)學分析為藥物發(fā)現(xiàn)提供了一種更為深入和全面圖1:早期藥物發(fā)現(xiàn)方法作為人工智能(AI)領(lǐng)域的核心技術(shù),深度學習通過深度神經(jīng)網(wǎng)絡(luò)以數(shù)據(jù)驅(qū)動的方式,從原始數(shù)據(jù)中自動提取特征,這一過程通常無需進行傳統(tǒng)的特征工程(見圖2)。在藥物發(fā)現(xiàn)領(lǐng)域,深度學習技術(shù)已被廣泛應(yīng)用于多個關(guān)鍵環(huán)節(jié),包括表型藥物發(fā)現(xiàn)(PDD)中的生物圖像分析,這些應(yīng)用極大地推動了新藥研發(fā)的效率和創(chuàng)新性。近年來,計算機視覺技術(shù)的飛速發(fā)展,不僅在效率上帶來了顯著提升,更在性能上實現(xiàn)了質(zhì)的飛躍,這在基于圖像的分析領(lǐng)域尤為明顯。計算機視覺的進步,為藥物發(fā)現(xiàn)領(lǐng)域帶來了成本效益更高的計算方法,加速了藥物研發(fā)的進程。在本綜述中,我們將全面梳理并介紹當前用于形態(tài)學分析的計算方法,特別強調(diào)深度學習技術(shù)在其中的關(guān)鍵作用和應(yīng)用潛力。圖2:形態(tài)學分析流程示意CellPainting(細胞全景繪制)公開數(shù)據(jù)集及模型評價指標CellPainting,亦稱為細胞全景繪制,是一種廣泛應(yīng)用于細胞形態(tài)學分析的技術(shù)。它通過六種熒光染料對細胞器進行標記,并在高通量顯微鏡下,通過五個不同的通道對固定和染色的細胞進行成像。在過去十年中,學術(shù)界和制藥行業(yè)的研究者們已經(jīng)創(chuàng)建并公開了多個CellPainting數(shù)據(jù)集,包括:),),·Recursion公司發(fā)布的RxRx數(shù)據(jù)集,包含了化合物、遺傳和病毒轉(zhuǎn)導擾動的數(shù)據(jù);·CytoImageNet數(shù)據(jù)集,它整合了來自40個公開可用的、具有弱標簽的顯微圖像。特別值得一提的是,形態(tài)學分析CellPainting(JUMP-CP)聯(lián)盟最近建立了迄今為止最大的公共CellPainting數(shù)據(jù)集。該數(shù)據(jù)集包含了來自超過116,000個化學擾動和超過15,000個遺傳擾動的人類骨肉瘤細胞(U2OS)的圖像,這些圖像資料來自12個不同的研究機構(gòu)。這些公共數(shù)據(jù)集已經(jīng)成為訓練機器學習和深度學習模型的重要資源,用于化合物生物活性和作用機制的預(yù)測和圖像表征學習。在這些數(shù)據(jù)集中,BBBC021數(shù)據(jù)集已成為評估深度學習方法性能的常用基準。這一公開數(shù)據(jù)集可從BroadBioimageBenchmarkCollection獲取,包含了113種化合物在八種不同濃度下處理的人MCF-7乳腺癌細胞的CellPainting圖像。大多數(shù)表征學習方法是在38種化合物的數(shù)據(jù)集上進行比較的,這些化合物已被人工標注為12種作用機制(MOAs)之一。當評估不同MOA預(yù)測方法的有效性時,常使用以下評估指標:·NSC(Not-Same-Compound匹配精度在NSC設(shè)置下,測試化合物在訓練階段被排除。模型的任務(wù)是預(yù)測測試化合物的MOA類別。在預(yù)測階段,通常使用1-最近鄰(1-NN)分類器處理生成的測試化合物表征,測試化合物的MOA取決于其在訓練化合物特征空間中的最近鄰居。此指標用于評估模型在MOA未知的情況下,預(yù)測新化合物類別的能力。·NSCB(Not-Same-Compound-and-Batch匹配精度):NSCB比NSC更為嚴格,除了NSC的限制外,同一實驗批次的特征在訓練中也被排除。此指標用于評估模型在不同實驗條件和批次設(shè)置下的泛化能力,反映批處理效應(yīng)和其他混雜因素的影響?!rop:Drop是通過從NSC中減去NSCB來計算的。理想情況下,不應(yīng)觀察到性能下降。Drop值越圖3:形態(tài)學分析中的關(guān)鍵方法和最新技術(shù)形態(tài)學分析過程概述精確、高效且通用的成像數(shù)據(jù)分析流程對于形態(tài)學分析至關(guān)重要。在過去幾年中,深度學習方法的應(yīng)用取得了顯著進展(見圖3)。在本節(jié)中,我們概述了形態(tài)學分析數(shù)據(jù)分析的幾個關(guān)鍵階段,并特別強調(diào)階段1:特征表征細胞形態(tài)變化的測量始于為細胞圖像創(chuàng)建有效的特征表征。傳統(tǒng)上,這一任務(wù)通過特征工程技術(shù)來實現(xiàn),如CellProfiler等軟件,它們能夠從熒光顯微鏡圖像中提取如形狀、大小和紋理等預(yù)定義特征。盡管這些方法能夠提供有生物學意義的結(jié)果,但它們需要針對每次新的實驗設(shè)置進行圖像預(yù)處理和參數(shù)調(diào)階段2:形態(tài)學特征生成特征提取后,單細胞或視野圖像的測量值將被整合成一個特征向量,形成細胞板孔級的特征表征,這些階段3:作用機制(MOA)標注利用匯總的孔級形態(tài)學特征,可以執(zhí)行機器學習任務(wù),如基于已知形態(tài)學特征的參考庫預(yù)測查詢擾動劑的MOA或毒性。這通常涉及在形態(tài)學特征基礎(chǔ)上構(gòu)建機器學習模型,例如使用最近鄰分類器、隨機森林或貝葉斯矩陣分解等算法。這些監(jiān)督學習算法能夠?qū)⒉樵償_動劑分類到預(yù)定義的、有標注的類別中。此外,形態(tài)學特征也可用于推斷化合物功能的關(guān)聯(lián)性,通常通過層次聚類算法實現(xiàn),基于形態(tài)學特征相深度學習技術(shù)的發(fā)展,為形態(tài)學分析帶來了端到端的解決方案,將上述階段整合到一個連貫的過程中。在這個框架下,表型分類和聚類任務(wù)可以直接利用原始的高內(nèi)涵圖像,無需顯式的圖像特征表征和中間步驟,從而簡化了整個分析流程(圖3)。表征學習用于形態(tài)學分析特征表征在形態(tài)學分析中扮演著至關(guān)重要的角色。傳統(tǒng)上,形態(tài)學特征的提取依賴于特征工程方法,這不僅需要針對每個實驗設(shè)置手動調(diào)整軟件參數(shù),還必須依賴于專家知識來確定哪些表型特征是關(guān)鍵的。顯然,這種方法受限于人為的主觀判斷和專業(yè)知識的局限。與此相對,深度神經(jīng)網(wǎng)絡(luò)提供了一種更為客觀和自動化的解決方案。它們能夠直接從圖像的原始像素中學習特征,從而編碼出更為豐富和有意義的數(shù)據(jù)表征。這種端到端的訓練方式,不僅簡化了分析流程,而且通過減少人為干預(yù),提高了模型的性能。更進一步,深度神經(jīng)網(wǎng)絡(luò)在處理不同類型的擾動(如化學和遺傳擾動)時,展現(xiàn)出了卓越的泛化能力。這意味著,即使是在面對新的或未知的擾動類型時,這些網(wǎng)絡(luò)也能夠快速適應(yīng)并提供準確的預(yù)測。此外,在分類任務(wù)中,深度學習模型的處理速度也顯著優(yōu)于傳統(tǒng)的基于特征工程的模型,這為高通量藥物篩選和表型分析提供了強有力的支持。在預(yù)訓練階段,我們能夠運用多種學習策略來優(yōu)化深度學習模型的表現(xiàn)(如圖4所示):1.監(jiān)督表征學習:當擁有大量標注數(shù)據(jù)時,監(jiān)督表征學習例如,Kraus等人利用BBBC021數(shù)據(jù)集上的標注圖像,訓練了結(jié)合多示例學習的卷積神經(jīng)網(wǎng)絡(luò),在分類任務(wù)中取得了比傳統(tǒng)特征工程方法更高的準確性。同樣,Godinez等人開發(fā)的基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的分類器,在BBBC數(shù)據(jù)集的基準測試中,也2.遷移學習:盡管如此,獲取充足的標注圖像數(shù)據(jù)可能成本高昂且耗時。在這種情況下,遷移學習提供了一種有效的解決方案。Pawlowski等人首次提出利用在ImageNet上預(yù)訓練的CNN進行形態(tài)學分析,這種方法在準確性和處理速度上都優(yōu)于基于特征工程的方法。Ando等人提出的DeepMetricNetwork,也是在大量RGB圖像上預(yù)訓練的模型,用于為BBBC0213.弱監(jiān)督表征學習:除了遷移學習,弱監(jiān)督學習(WSL)方法也被提出來訓練深度神經(jīng)網(wǎng)絡(luò)學習在這種學習方案中,化合物類別標簽被視為“弱”或“噪聲”標簽,因為:為了利用這些弱標簽,此類方法將單個細胞圖像分類到相應(yīng)的類別標簽成為用來訓練網(wǎng)絡(luò)的輔助從輔助任務(wù)中學習到的特征嵌入隨后用于推斷化合物之間的類別關(guān)聯(lián)。4.無監(jiān)督表征學習:最后,無監(jiān)督學習方法通過識別數(shù)據(jù)中的潛在模式或?qū)⑾嗨茢?shù)據(jù)聚類,提供了例如,該類方法可以利用未標注信息,如圖像是否屬于同一擾動,或通過聚類在嵌入上分配的偽此外,生成模型如GAN或VAE,通過學習數(shù)據(jù)的分布來學習其內(nèi)在結(jié)構(gòu)。圖4:細胞形態(tài)學分析的特征表征學習策略這些策略均在BBBC021數(shù)據(jù)集上的基準測試中得到了驗證,其中Cross-Zamirski等人提出的WS-DINO方法表現(xiàn)最佳。Ando等人的遷移學習方法和Perakis等人的自監(jiān)督對比學習方法也展現(xiàn)了出色的性能。為了確保深度學習方法在形態(tài)學特征分析中取得良好性能,需要綜合考慮圖像數(shù)據(jù)集的特性、模型的復雜性以及可用的計算資源。增加訓練集的規(guī)模和多樣性,例如通過整合不同實驗室的圖像集,可以更有效地提高性能。此外,適當?shù)膱D像增強技術(shù),如隨機亮度變化和強度偏移,對SSL方法的性能有顯著的正面影響。在計算資源方面,使用GPU加速的DINO方法在處理速度上具有優(yōu)勢,且盡管需要GPU支持,但其單細胞板的平均分析成本卻相對較低。細胞形態(tài)學與跨模態(tài)數(shù)據(jù)融合隨著生物技術(shù)的發(fā)展,藥物發(fā)現(xiàn)領(lǐng)域迎來了多樣化的數(shù)據(jù)模態(tài)。化學信息學利用化學結(jié)構(gòu)數(shù)據(jù)和相似性原則,為預(yù)測化合物的生物活性和作用機制提供了有效工具。盡管化學結(jié)構(gòu)與生物功能間的關(guān)系復雜,但化學數(shù)據(jù)的易獲取性為虛擬篩選奠定了基礎(chǔ)。與此同時,“組學”數(shù)據(jù),如轉(zhuǎn)錄組學和代謝組學,從多角度揭示了藥物作用的復雜性,盡管其檢測成本和可擴展性仍是挑戰(zhàn)。每種數(shù)據(jù)模態(tài)都有其優(yōu)勢和局限,而整合這些模態(tài)能夠發(fā)揮協(xié)同效應(yīng),提供更全面的藥效理解。最新研究顯示,化學結(jié)構(gòu)、形態(tài)學和基因表達等數(shù)據(jù)模態(tài)在預(yù)測藥效方面互為補充。結(jié)合機器學習和深度學習技術(shù),整合這些形態(tài)數(shù)據(jù)已成為藥物發(fā)現(xiàn)領(lǐng)域的一個新興研究方向(圖5)。圖5:整合細胞形態(tài)學與其他數(shù)據(jù)模態(tài)整合化學結(jié)構(gòu)與細胞形態(tài)學研究表明,將結(jié)構(gòu)模型與細胞形態(tài)學模型相結(jié)合,能夠顯著提高生物檢測結(jié)果的預(yù)測準確性。Seal等人提出了一種基于相似性的合并模型,該模型融合了在CellPainting圖像和化學結(jié)構(gòu)上獨立訓練的模型的預(yù)測概率,同時考慮了測試化合物與訓練化合物在形態(tài)和結(jié)構(gòu)上的相似性。具體來說,這些獨立模型的預(yù)測結(jié)果和相似性度量被綜合應(yīng)用于邏輯回歸模型,用以預(yù)測測試化合物的生物活性。研究結(jié)果表明,這種基于相似性的融合模型在性能上超越了傳統(tǒng)的軟投票集成方法、分層模型,以及任何僅基于單一模整合轉(zhuǎn)錄組學與細胞形態(tài)學除了化學結(jié)構(gòu)數(shù)據(jù),將轉(zhuǎn)錄組學數(shù)據(jù)與細胞形態(tài)學數(shù)據(jù)的整合也是一種有效的跨模態(tài)組合策略。L1000檢測是一種常用的獲取基因表達譜的方法。CellPainting和L1000檢測都具備良好的可擴展性,并能提供互補的信息。盡管CellPainting的形態(tài)學特征在可重復性上表現(xiàn)更佳,但可能受到批次和孔位效應(yīng)的影響;而L1000檢測則能夠捕捉到更多樣化的生物學特征。研究顯示,基于轉(zhuǎn)錄組和形態(tài)學的模型在MOA預(yù)測方面,能夠展現(xiàn)出與基于化學結(jié)構(gòu)的模型相媲美甚至更優(yōu)的性能。這些發(fā)現(xiàn)為將轉(zhuǎn)錄組學和形態(tài)學特征融合用于藥物發(fā)現(xiàn)提供了實驗證明和支持。整合代謝組學與細胞形態(tài)學盡管整合形態(tài)學和轉(zhuǎn)錄組學(L1000)特征在MOA預(yù)測中顯示出優(yōu)勢,但這一正交平臺在實際應(yīng)用中仍面臨挑戰(zhàn)。這些挑戰(zhàn)包括在識別具有廣泛細胞效應(yīng)的生物活性化合物時分辨率有限,以及在研究那些未引起顯著形態(tài)學變化的生物活性化合物時靈敏度不足。為了克服這些局限性,研究人員探索了基于代謝組學的方法,將形態(tài)學特征與之結(jié)合,以揭示細胞在不同條件下的代謝變化。代謝組學分析能夠提供關(guān)于細胞狀態(tài)的全面信息,并定義細胞在擾動下的表型。例如,非靶向質(zhì)譜(Massspectrometry)的代謝組學可以與形態(tài)學分析整合,以促進在高通量環(huán)境中快速識別和功能注釋天然產(chǎn)物。綜上所述,將深度學習方法應(yīng)用于整合形態(tài)學數(shù)據(jù)與其他模態(tài)數(shù)據(jù),如化學結(jié)構(gòu)、轉(zhuǎn)錄組學和代謝組學,在藥物發(fā)現(xiàn)中的重要性日益凸顯。對比學習和數(shù)據(jù)融合技術(shù)的發(fā)展,為對齊多模態(tài)數(shù)據(jù)提供了新的工具。隨著多模態(tài)數(shù)據(jù)集的不斷整理和完善,這一新興領(lǐng)域的發(fā)展將得到進一步推動。形態(tài)學分析在藥物發(fā)現(xiàn)中的創(chuàng)新應(yīng)用機器學習和深度學習技術(shù)在形態(tài)學分析中的應(yīng)用,極大地豐富了表型藥物發(fā)現(xiàn),包括識別小分子的作用機制(MOA)、優(yōu)化先導化合物到預(yù)測毒理學效果等。在本文中,我們將重點討論一些新興應(yīng)用的最構(gòu)建基因型-表型關(guān)系和基因功能網(wǎng)絡(luò)將基因型與疾病相關(guān)的表型聯(lián)系起來,是基因組學中的核心問題。CRISPR篩選技術(shù)已被用于在基因組規(guī)模上提示基因功能。然而,由于傳統(tǒng)篩選方法的維度較低,它們在揭示疾病相關(guān)表型方面存在局限性。為了克服這一障礙,基于圖像的分析方法為CRISPR篩選提供了高內(nèi)涵的形態(tài)學標注,這不僅增加了數(shù)據(jù)的維度,還提高了對疾病相關(guān)表型的理解。例如,Ramezani等人開發(fā)的PERISCOPE方法,通過結(jié)合光學聚合CRISPR篩選和基于圖像的分析,成功構(gòu)建了基因功能網(wǎng)絡(luò)。Sivanandan等人提出的CellPaint-POSH技術(shù),進一步展示了深度學習模型在構(gòu)建基因功能網(wǎng)絡(luò)方面的潛力。表征動態(tài)擾動影響形態(tài)學分析的另一個新興領(lǐng)域是活細胞表型分析,這可以通過時間序列成像來實現(xiàn)。這種方法增加了時間維度,從而提高了對化學物作用機制的預(yù)測能力。例如,通過活細胞成像分析FDA批準的藥物庫,可以準確推斷出多種MOA。此外,活細胞成像還能揭示細胞狀態(tài)轉(zhuǎn)換的動態(tài)過程,這對于發(fā)育生物學

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論