2022科學智能(AI4S)全球發(fā)展觀察與展望_第1頁
2022科學智能(AI4S)全球發(fā)展觀察與展望_第2頁
2022科學智能(AI4S)全球發(fā)展觀察與展望_第3頁
2022科學智能(AI4S)全球發(fā)展觀察與展望_第4頁
2022科學智能(AI4S)全球發(fā)展觀察與展望_第5頁
已閱讀5頁,還剩323頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

科學智能(AI4S)2022版ArtificialIntelligenceforSciences(AI4S)22AI4Sglobaloutlook2022Edition3AI4Sglobaloutlook2022Edition一部分。于是,一群人先上算法對高維函數處理能力的大系統(tǒng)性危機的關鍵;云的法寶,AIforScience(AI4S)會是AI的下一個和技術創(chuàng)新之間的最后一公現事物背后作用著的關鍵規(guī)律??茖W智能研究院(AISI)與深勢科技作為全世界最大地實踐的先行者,與高瓴創(chuàng)投一起,整理了領先企業(yè)和科研機構的經驗方法,編寫成當下的科技革命,從花開花落走向累。年以來,海量的科學人才涌入互聯回科學本身,以及它們所映射的實體是第一生產力??萍几锩臍v史波瀾壯危機的解決才帶來了科學的突破,新工具的應用和普及,進而帶來生產力的隨著數字化時代的到來,科直接生產力的速度越來越快。與此同新c一性原理了然于胸卻仍然面臨數學量太多不知如何有效求解時也越來越難以解決實際問題……4RSCIENCES11AIS14AIS19AIS28AI4Sglobaloutlook2022Edition前言:站在科學的分水嶺上3第一章:AIFORSCIENCE發(fā)展歷史與技術現狀1.2科學理論與產業(yè)實踐間的鴻溝——維度災難I.處理海量數據的維度災難II.求解復雜物理系統(tǒng)的維度災難AISI.AI4S高效處理海量數據II.AI4S高效高精度求解復雜物理系統(tǒng)1.2AI4S的組成要素:數據、模型、算法、算力、跨學科人才協(xié)作I.高質量實驗觀測與模擬數據II.機理驅動與數據驅動模型III.人工智能算法IV.高性能算力V.跨學科人才和開源協(xié)作模式表1.2016-2021AI4S代表性成果(摘選) 5462.2AI4S驅動的藥物研發(fā)AI4Sglobaloutlook2022Edition 第二章:AIFORLIFESCIENCE原理與實踐452.1.2AI4S推動生物機理的探索表2:AI4S在多組學中的應用2.1.3基因+AI4S在靶標發(fā)現和精準醫(yī)療中的利用I.基因組學數據驅動的靶標發(fā)現II療和核酸藥物2.2.1藥物研發(fā)的現狀與挑戰(zhàn)AI4S藥物研發(fā)新范式AISI.物理模型驅動的藥物研發(fā)II.數據驅動的藥物研發(fā)III.物理模型和數據驅動的融合2.2.3AI4S在藥物研發(fā)中的實踐蛋白結構解析I.蛋白質結構的解析曾困擾人類50年II.AI4S使得蛋白質結構預測成為現實IIIAISIV.強化動力學用于蛋白質結構精修VDNARNA蛋白質功能機理探索和理性設計I.基于結構和動力學的蛋白質功能機理探索II.強化動力學助力蛋白動力學的發(fā)展,開發(fā)更多藥物靶點IV.生物大分子藥物的定向優(yōu)化 6ssAISDeNovoDesign2.3合成生物學與現代農業(yè)829091表4:材料研發(fā)領域的多尺度問題和AI4S示例SNatureCommunications3.2金屬材料中的AI4S應用9898AISAISAI4Sglobaloutlook2022Edition .1AI4S在合成生物學中的應用實踐I.AI4S與酶改造II.生物基化學品的生成III.生物燃料開發(fā)助力能源問題IV.AI4S與人造食品2.3.2AI4S在現代農業(yè)的應用I.科學育種II.化肥研發(fā)III.植保研究第三章:AIFORMATERIALSCIENCE原理與實踐 7AI4Sglobaloutlook2022Edition s 6 S 8能技術與AI4S145能技術與AI4S145149oore160161AI163AI4Sglobaloutlook2022Edition I.化學儲能II.熱儲能GINEERINGCOMPUTERSCIENCE表7:半導體設計與工藝中的AI4SAI4S為硅半導體先進制程開發(fā)提供新工具AI4S實踐(17):湖南大學利用AI4S方法將半導體摻雜工藝仿真速度提高數萬倍半導體工藝仿真的數字孿生I.碳化硅(SiC)II.氮化鎵(GaN)III.氧化鎵(Ga2O3)AISAISFRAM“AI專用芯片”MaterialsAI第六章:AIFOREARTH&ENVIRONMENTALSCIENCE原理與實踐 165 9AI4Sglobaloutlook2022Edition AI4S實踐(22):《Science》收錄加州伯克利大學團隊成果:揭示并模擬影響空氣質量和氣候的關鍵原 AI4Sglobaloutlook2022Edition有待開發(fā)的高素質復合學科人才;以及相對應平臺到應用各個層面均有巨大的商平臺到應用各個層面均有巨大的商制定者。我們認為AI4S制定者。我們認為AI4S會長期持續(xù)為中國AI4Sglobaloutlook2022Edition主編孫偉杰張林峰王小佛隊凡王瀛緋王一博朱正誕李鑫宇王冬冬溫瀚鄧杰深勢科技高瓴創(chuàng)投北京市科學技術委員會北京大學*編輯及顧問排名不分先后TAI4Sglobaloutlook2022EditionAI4Sglobaloutlook2022Edition社會進步的重要推動力。過去幾十年中,隨著計算機技術的快速發(fā)展,以的發(fā)展,并大規(guī)模應用到人類的生產生活實踐中。智能技術應用到科學研究,利用人工智能算法解決當前科學的未解問題已經成為產學研界關注的重 復雜科學問題轉換為數學推演(紙筆)AIS)性步探索、成果的大規(guī)模單的計算問題實現粗此基礎上進行、段[1]:Mahoney,PrincetonUniversity,/~hos/Mahoney/articles/mathnat/mathnatfr.htmlAI4Sglobaloutlook2022Edition過AI4Sglobaloutlook2022Editionto PaulDirac PaulDirac,Picturecredit:AIPEmilioSergèVisualArchives推開“ 2.物理模型在復雜場景中求解所面對的維度災難AI4Sglobaloutlook2022EditionI.處理海量數據的維度災難方法主要是針對小規(guī)模數據,以統(tǒng)計模型為基礎尋找數據中的規(guī)律。然而基于小規(guī)模數據所建能力受限于數據規(guī)模,只能進行粗粒度的模擬與預測,在精度要求比較高的情況就不再適步提升模型精度就需要利用海量數據生成相關模型??色@取數據種類和數量都有顯著提升,為這個問題的解決提供了數據基礎。然而隨著數據量的效在可控時間內利用海量數據建立高精度的模型。這就意味著我們需要全新的數據處理方法來應對維PTechnologyAI4Sglobaloutlook2022EditionII.求解復雜物理系統(tǒng)的維度災難科學所面對的問題已經在理論上有完備的物理模型進行求解。然感興趣的宏觀尺度過程提出更為有而不同微觀尺度模型本身也并不總是可靠,同時雖然多尺度方法能夠大幅減少微觀模擬所需時PTechnologyllAI4Sglobaloutlook2022Edition的數學問題。監(jiān)督學習(監(jiān)督學習(supervisedlearning)問題,本質是基于一個訓練集S,給出目標函數的一個高效逼近。例如在圖像分類問題中,人們假設存在一個真實函數能夠將圖像數據準確映射到圖像的類別信息(比如將圖像無監(jiān)督學習(unsupervisedlearning)問題,本質是利用有限樣本逼近并采樣一個未知的概率分布。例如理性拋物方程問題等。將機器學習方法應用到科學研究中,將有機會系統(tǒng)性解決傳統(tǒng)科學研AI4Sglobaloutlook2022Edition (處理數據的新方法);模型驅動(處理物理模型的新方法);模型驅動與數據融合方法的深度融合PTechnologyI.AI4S高效處理海量數據AlphaFold2模型訓練過程示意圖[Source:DeepMind]AI4Sglobaloutlook2022EditionII.AI4S高效高精度求解復雜物理系統(tǒng)AIforScience的第二條實現途徑是發(fā)現處理物理模型(基本原理)的新方法。這里最成功的例子是深度學習]。如下圖所示:學在計算勢函數的時候依賴經驗力場,導致結果不準確;第一性原理的方法通過量子力學模型度神經網絡對高維勢函數進行擬合,就可以同時保證算法的準確性和高效性。這種將物理模大的想象空間。深度深度勢能訓練過程示意圖[Source:DeepModeling]AIAI4Sglobaloutlook2022EditionAI4Sglobaloutlook2022Edition,數據的數量和質量都有非常大的提域的數據集實現了幾個數量,數據的數量和質量都有非常大的提域的數據集實現了幾個數量取代了原來粗粒度的數據。低常顯著的特征。過去數據的獲取在一方面專業(yè)的商用數據庫憑借商業(yè)相關從業(yè)者可以用非常低的成本(甚至免費)獲取規(guī)為算法問題。這種轉換的有效性取決于算法去的成功;而在數據缺乏而過去幾十年相關驅動要素的發(fā)展逐漸融合,使AI4S成為可能(見上頁圖)。I.高質量實驗觀測與模擬數據年前有年前有型訓練所需要的數據量仍然這時候就要思考如何進一步降低數據獲該如何使用?開源數據庫該如何建測獲得的數據;實驗數據是通過實驗所據;記錄數據主要是計算機自動記錄實際社會調查等方式獲得的數據;通過計算機計算模擬所產生的數據。人。而近年來隨著數據的重要性AI4Sglobaloutlook2022EditionII.機理驅動與數據驅動模型驅動的模型和數據與機理相融合的模律,建立相關模型。II.機理驅動與數據驅動模型驅動的模型和數據與機理相融合的模律,建立相關模型。代表。蛋白折疊問題是一個典型的高維。然而純粹數據驅動的模型可用性受到訓練數據的局限,很難形成雜的問題,則模型必然要考慮結合度的模型構建仍然存在天氣預報等)如何建立數據與機理相融合的模型仍。到現在,人們根據所研究問題的時模型,從最微觀尺度尺度的模型的優(yōu)勢來提升整體模型的框架,而勢函數部分使用密度泛中[9]。動和機理驅動的方法進行深度的融合。深度個典型的例子。從頭算分子動AI4Sglobaloutlook2022EditionIII智能算法注:ωj是歐幾里得空間維數上概率分布的獨立同分布樣本,等式注:ωj是歐幾里得空間維數上概率分布的獨立同分布樣本,等式右側是具有一個隱藏層的神經網絡函數的示例,Activationfunctionσandindependentvariablezaredefinedbyσ(z)=eiz。模型可以融合在更宏觀的模型之中,通的精度和宏觀模型的效率。同時這種基的直接處理,為探索科學問題提出更多低,如何將不同來尺度、不同頻率甚至不同類型的數據更好的挑戰(zhàn)。如在天預測中,不同觀測指標所對應的時空尺度很實際的算法挑戰(zhàn)。這要求我們改進經典的數據融合算法以適應算和物理模型相連接,進而指導理高維函數的有效工具,能夠比等算法的不斷發(fā)展,進一步提升了AI4S模型的適方差和樣本有關,但與輸入的維數不因此是一個維數不依賴的算法。注:使用基于網格的求積法則,如梯形規(guī)則(Trapezoidal評估函數的數量。量的需求與函數更內蘊的方差相關AI4Sglobaloutlook2022EditionIV.高性能算力硬件的發(fā)展。在同一IV.高性能算力硬件的發(fā)展。在同一來提供比傳統(tǒng)計算機和服務多個節(jié)點(計算機)以集群(互聯組)的形式協(xié)同極其復雜的負載挑戰(zhàn)。周期推出單核性能更高,能耗更低存儲(storage):與計算類似,存儲領域也有類似cloudcomputing算期科研場景對計算的需求有波峰波谷,已將科學計算任務遷移至云功能直接集成在硬件上,實現具體場景中效絡速度經常成為計算效率的瓶頸。以率算法和算力的強耦合,是AI4S的必要條件。算法用與算力本身的理論性能同樣重分布式計算將計算任務拆解成無需高頻的單節(jié)點任AI4Sglobaloutlook2022EditionV.跨學科人才和開源協(xié)作模式求相關從業(yè)者既要懂人工智能相關不開的問題。以化研究催化中核心的相面等挑戰(zhàn),很難聚合多領域的人才進行科研協(xié)作:通過開源,開源者有機會吸引優(yōu)秀的協(xié)作者超自身投入的成果。其他協(xié)作者的貢獻,而享受理念的踐行。標準:通過開源,開源者有機會有效的建立標準,技術的發(fā)展路徑。優(yōu)秀的開源能規(guī)模的協(xié)助者對其兼容開發(fā)。這樣統(tǒng)一的自場景的問題和具體的解決方案,進而使目更加普適,并使得開源核心開發(fā)者可以心能力的開發(fā),而將具體場景的落地和適區(qū)成員。這樣的模式打破了傳統(tǒng)模式下跨庫的專業(yè)度和適用場景。功也佐證了這一點。AIAI4Sglobaloutlook2022Edition??????AI4Sglobaloutlook2022Edition建設期;函僅是輔助的手段,整體流程依然圍繞實驗展開。因此該階段依然需要耗費大量的時間與成本進行實驗等)自主置信區(qū)間。這樣的算法實際上已經有了在科研實踐與工業(yè)研發(fā)中的使用價值。在這個階段,人們已預測結果基礎上進行有針對性的實驗驗證,極大降低實驗的時間與資源消耗。AI4Sglobaloutlook2022EditionS以科學家為主導的階段。由于算法的突破更像是散點狀的格局,還沒有產生系統(tǒng)性的工程化沒有深度參與,來自下游工業(yè)界用戶的聲音和力量也相對較少。AI4Sglobaloutlook2022Edition表1.2016-2021AI4S代表性成果(摘選)解生命機的基礎真是理解物理世復雜的四蛋白質的過雜的變化過的方式獲取驗成本較高 (如風洞)昂貴;流體的運動手段極度依賴長,且雜問題模擬微觀粒子的用依賴勢函數的求解:力場計算結果不理論計算雖然準算效率低,難以應用復雜體系中式使得蛋白質結構預登上球轟動,是各界公認的比傳統(tǒng)仿真快克利勞倫斯國理工團隊實現對復雜氣象的實時仿真(0.25s7日預測數據);源在內的科研團,實現高]世界第一超子的物理體系進行了分統(tǒng)的入了全新時擬尺度的記錄個數量級,其速度也AI4Sglobaloutlook2022Edition1.3.2大規(guī)?;A設施建設期(2021-2026)此面向應用場景進行更良好的問應用領域單獨設計的,以及新的階段除了持續(xù)面向下游場景域人才的深度融合,算法開發(fā)、密切互動。S則是定義關鍵問題,在平臺打造層面AI,科學研究也不再是科學家們的專許多關鍵問題的理解將更加理性AI4Sglobaloutlook2022Edition1.3.3成熟應用期(2026年及以后)成后,由于行業(yè)的主要問題已經被較好定義,通用層面的工具也趨于成段。在在這個階段,有兩個機會極其值得我們關注,一是新計算工具定義新研發(fā)流程,二是軟件定義硬件。,a險。促成市場格局的改變,并逐漸形成新的行業(yè)標準(bestpractice)。AIS研發(fā)所需的濕實驗AIS模擬仿真間??????AI4Sglobaloutlook2022Edition效應起源,并稱贊該工作驗證了AI4S發(fā)現新科學原理的可行性:skiki圖.納米晶硅結構圖AI4Sglobaloutlook2022Editionurce1.WeinanE.Thedawningofanewerainappliedmathematics[J].NoticesoftheAmericanMathematicalSociety,2021,68(4):2.RichardBellman,Dynamicprogramming,PrincetonUniversityPress,Princeton,N.J.,1957.MR00904773.HohenbergP,KohnW.Inhomogeneouselectrongas[J].Physicalreview,1964,136(3B):B864.4.LeCunY,BengioY,HintonG.Deeplearning[J].nature,2015,521(7553):436-444.5.JumperJ,EvansR,PritzelA,etal.HighlyaccurateproteinstructurepredictionwithAlphaFold[J].Nature,2021,596(7873):583-589.6.WangH,ZhangL,HanJ,etal.DeePMD-kit:Adeeplearningpackageformany-bodypotentialenergyrepresentationandmoleculardynamics[J].ComputerPhysicsCommunications,2018,228:178-184.7.NVIDIADEVELOPER官網8.DeepMind官網9.CarR,ParrinelloM.Unifiedapproachformoleculardynamicsanddensity-functionaltheory[J].Physicalreviewletters,1985,55(22):2471.10.ZhangY,WangH,ChenW,etal.DP-GEN:Aconcurrentlearningplatformforthegenerationofreliabledeeplearningbasedpotentialenergymodels[J].ComputerPhysicsCommunications,2020,253:107206.LAMMPSMolecularDynamicsSimulatorSandiaNationalLaboratories010-10-03].12.Georg,Kresse.VASPGroup,TheoreticalPhysicsDepartments,Vienna.March31,2010[February21,2011].13.MuellerT,JohlinE,GrossmanJC.OriginsofholetrapsinhydrogenatednanocrystallineandamorphoussiliconrevealedthroughmachinelearningJPhysicalReviewB2014,89(11):115202.14.李志.氫化非晶硅薄膜的晶化處理研究[D].電子科技大學,2010.ecomresourcesstateofcomputationalengineeringreportogleWhyOpensourcehttpsopensourcegoogledocumentationreferencewhyAI4Sglobaloutlook2022EditionI趣并預期相關資源和人才的投入在未來持續(xù)增加I.生命科學從業(yè)者調研能計算的部署。結構的方法4.做靶標確定和結合位點識別及驗證的方法AI4Sglobaloutlook2022Edition.苗頭化合物發(fā)現您用過什么手段進行研究6.藥物優(yōu)化方面使用的方法物制劑方面使用過什么方法AI4Sglobaloutlook2022Edition研發(fā)的投入AI4Sglobaloutlook2022EditionII.材料科學從業(yè)者調研等問題。這些問題限制了AI打開材料研發(fā)的應用場景。算里?計算資源將會以什么方式為AI4Sglobaloutlook2022EditionAI4Sglobaloutlook2022EditionUSDepartmentofEnergyUSDepartmentofEnergyRoaldHoffmanRoaldHoffmanRobertoCar,DemisHassabis,RobertoCar,DemisHassabis,nYannLeCun,JensenHuang,toYannLeCun,JensenHuang,AartdeGeus,AartdeGeus,AI4Sglobaloutlook2022EditionKevinScott,EVP,,rIyaKhalil,GlobalCathieWood,JorisPoort,CEOAI4Sglobaloutlook2022Edition院士姚期智院士姚期智能研究院院授這兩條出路,都需要人工智能與其他學院院影響是巨大的,因為我們在很多場景下都會遇到高維函數……傳統(tǒng)科學領域是]長(原)樣規(guī)劃疏散方案?這時,我們就可以通過深度學習和AI4Sglobaloutlook2022EditionCAE發(fā)部重點方面的代價也越來越昂貴,無論在空間尺度還是在時間尺度上已克服的瓶頸。如何解決這些瓶頸問題,是目前計算物質科學面臨產業(yè)研究院(AIR)們的物新范式[20]大學計算機科AI4Sglobaloutlook2022EditionSource:[1]Stevens,Rick,Taylor,Valerie,Nichols,Jeff,Maccabe,ArthurBarney,Yelick,Katherine,andBrown,David.AIforScience:ReportontheDepartmentofEnergy(DOE)TownHallsonArtificialIntelligence(AI)forScience.UnitedStates:N.p.,2020.Web.[2]R.Hoffmann,J.-P.Malrieu,Angew.Chem.Int.Ed.2020,59,12590.[3]RobertoCar,PresentationatSupercomputingFrontiersEurope2021,retrievedat/watch?v=LZAdD-kv6aY[4]DemisHassabis,Themindinthemachine:DemisHassabisonartificialintelligence,FinancialTimes,retrievedon7.28.22/content/048f418c-2487-11e7-a34a-538b4cb30025[5]YannLeCun,LinkedIn,retrievedon7.28.22,/posts/yann-lecun_ai-activity-6932436820454502400-[6]PearlsOfWisdomFromJensenHuang,Forbes,retrievedon7.28.22/sites/karlfreund/2022/03/24/pearls-of-wisdom-from-jensen-huang/?sh=4a904edb4bab[7]AIDesignInnovationIsTransformingtheWorldAroundUs,Synopsys,retrievedon7.28.22mimplementationandsignoffmlaidesignhtml[8]ChristopherBishop,AI4Sciencetoempowerthefifthparadigmofscientificdiscovery,retrievedon7.28.22oempowerthefifthparadigmofscientificdiscovery[9]CathieWood,BIS2020,retrievedat/watch?v=cKeZBWYVcDk低碳技術與人工智能是關鍵,新浪財經(每日經濟新聞),檢索于低碳技術與人工智能是關鍵,新浪財經(每日經濟新聞),檢索于[12]AI離不開數學,但AI面臨的問題不全是數學問題,文匯報,檢索于/2020-08-12/7/detail-695226.html[13]張鈸院士:加快發(fā)展第三代人工智能,推動應用更加安全和公平,戰(zhàn)略前沿技術,檢索于[14]施一公與南開師生交流科研心得,中國科學報,檢索于/htmlnews/2022/4/477823.shtmAI的深度把脈(上),AI科技評論,檢索于AI的深度把脈(上),AI科技評論,檢索于/s/mLYBrlP7ilpo8z5j1nxWBQ|鄂維南院士提出應用數學“新的曙光”:AIforScience將人工智能與基礎科學深度融合,DeepTech深科技,檢索于https///s/glB3tBGxsZmnQCSGmySmBg[17]自主工業(yè)軟件的創(chuàng)新與發(fā)展,ChinaDaily,檢索于/a/202207/04/WS62c283a4a3101c3ee7addadc.htmlretrievedathttpsretrievedat/physical-device-15[19]張平文,北京智源大會,retrievedat/pzhang/zh/post/20200625_rgzn/[20]張亞勤,智能科學:無盡的前沿,retrievedat/info/1007/1385.htm[21]計算所技術發(fā)展處整理,孫凝暉所長在計算所2017年度技術創(chuàng)新工作會議上的講話,retrievedat/zjgd/202007/t20200723_5644801.htmlAI4Sglobaloutlook2022Edition踐AI4Sglobaloutlook2022Edition述遺傳學的A雙螺旋結構模型(下圖),梅瑟生-史達實驗確認學的中心法則。隨著人類對生命之謎的對遺傳密碼的突破發(fā)現,生命科學迎來雖然人類全基因組測序完成,但測序技術的發(fā)展帶來的范式革命才剛剛開始。組等高通量數據的產生,大量基于e據基礎,了解不同種族之間遺傳作用的區(qū)別。解癌癥的分子生物學機制提供充分增長,生物學正在以前所未基因組時代打下基礎。石。AI4Sglobaloutlook2022Edition景正在展開[3]。伴隨著組學時代的來臨和生命科學數據爆炸而日益設計的感知機(perceptron)(下圖),為神經網現代深度學習算法打下基礎,生物學仿佛凸顯的凸顯的,是傳統(tǒng)研究方法的不足。法最大化挖掘跨尺度、多模態(tài)的信小規(guī)律的認知。分子生物學數據息中挖掘出有意義的規(guī)律,并提出想,成為新時代生物學研究的一個物神經細胞啟發(fā)而人工智能正在生物學機制研究、疾病的篩查、檢測和治療中發(fā)揮著越來越重要的作用圖:神經元細胞啟發(fā)的感知機[5]AI4Sglobaloutlook2022Edition不同生物演化階段的物種測序可幫因結構與功能,對人類在基因上的的事件。但僅僅知道DNA序列是不夠的,我們對于基因到表型的生物機制了解還不夠清晰。為探索從基因到表型中關鍵過程與人類生存的密碼,基因組計劃為人類的定量研究,使遺傳的研究深入性的蛋白質分子,這一過程被稱為基因的表達水平,指的是基因表達量性的蛋白質分子,這一過程被稱為基因的表達水平,指的是基因表達量而卻體現出完全不同的性狀和功與基因的表達水平有關。性排列順序,這一排列順序對生命過程十何傳遞進而指導蛋白質的合成。程。了解基因表達的調控機制,是解答的問題能幫助我們更好了解疾病圖:中心法則[7]圖:中心法則[7]位形成一組密碼子,每個密碼子對應一終止信號。通過密碼子,蛋白編碼區(qū)域基因地圖,測定了組成人類染色體(單倍體)所包AI4Sglobaloutlook2022Edition基因的表達水平與基因中的序列同樣重要?;虻恼1磉_維系著人體的健康。斷發(fā)現越來越多的重大疾病是由于某些基同的基因組,決定了它們的差異的,是中,不被表達,基因表達的水平也有所差異?;虻谋磉_水平與基因中的序列同樣重要?;虻恼1磉_維系著人體的健康。斷發(fā)現越來越多的重大疾病是由于某些基同的基因組,決定了它們的差異的,是中,不被表達,基因表達的水平也有所差異。的調控機制仍是科學家們研究的重s]。比如這些序列可以作為順需推斷和注釋。然而許多重要調控元全面地整合及解釋包含在如此長區(qū)段A圖:非編碼DNA序列的功能[10]AI4Sglobaloutlook2022Edition基因表達和染色質狀態(tài)預測的深度學習NADNA疊狀態(tài)也影響著基因的表達。息,極大的提高了從序列到基因表讀取。序排列形成染色質,染色質進一步折疊圖:染色體構建的多級折疊模型圖:Enformer模型結合長距離DNA序列,對基因表達水平進行準確預測[11]為特定的折疊方式,有些基因不可讀可以被其他蛋白機制結合,從而進AI4Sglobaloutlook2022EditionC圖:計算模擬所得哺乳動物單個細胞基因組的物理結構[12]y。象AI4象AI4S實踐序?變異位點檢測(如DeepVariant[15])DNA列功能注釋(如Basset[16])?從DNA序列預測特定性狀(如學?表觀遺傳標記預測及染色質狀態(tài)判斷(如?數據降噪因組三維空間結構預測(如Akita[13])?編碼蛋白及非編碼蛋白轉錄本分類?基因表達量分析等?蛋白質結構預測(如AlphaFold2)白功能預測(如DeepFunc[19])蛋白-蛋白相互作用?蛋白藥物相互作用?代謝產物分析AI4Sglobaloutlook2022EditionAIS究的方方面面。隨著生命AI4Sglobaloutlook2022EditionI.基因組學數據驅動的靶標發(fā)現I.基因組學數據驅動的靶標發(fā)現組學驅動的靶標的發(fā)現過程提供助的新分子通路,應答機制。2.通過將病人和健康人的多組學數據進行對比,的差異表達或異常調節(jié)通路,探的相關性。床報告等文檔,挖掘疾病與靶點的相互據,基因研究,生化實驗數據,科研文獻然語言處理的文獻挖點。獻提取數據以及結構化數據源(基因組學、轉錄譜和路徑數據庫)相結合,構建知識圖譜,將靶點和匹配。并且還有人工智能預測模型可對藥還可對人體活體組織識別預測患者臨床有況。疾病與個環(huán)節(jié)中。據患者個體的基因組學信息,結合遺式等因素,定制針對性的精確診斷、測序成本平民化使多組學數據在用到了基因篩查來進行疾病早篩,就檢測出疾病進行介入治療;或者防,最大可能性地降低此遺傳病的發(fā)生率。最著名的事件是好萊塢影星安吉麗娜Wyss一的輔助分析算法可自動識別可疑色素擇,上海交通大學附屬胸科醫(yī)院腫瘤科陸隊開發(fā)了一種深度學習算法,可用于預測23]AI4Sglobaloutlook2022Edition密相關的醫(yī)學突破是基因治療?;煼ǖ幕驹硎菍⑼庠椿驅氚兄委?,如利用質粒和病毒等載體進寡核苷酸(ASO)、RNA干擾(使用小核苷酸如 (下圖)中識別抗原的單鏈抗體片段(scFv)十分重人源化性質進行預測和推薦。化和改造,這個我們在第二章也會再次詳述。是在基因藥物設計中的重要環(huán)期達到對不同序列的預測對應的參數期望達到根據參數來理性設計衣殼序選中,減少這個過程中濕實驗的時間A大學團隊基于蛋白表面結構與局部特征進A素。enomeResearchInstituteNHGRIhttpswwwflickrcompeopleN3.光明日報,賀福初:大發(fā)現時代的“生命組學”4.NationalHumanGenomeResearchInstitute(NHGRI),DNASequencingCosts:Data5.Deepneuralnetworks,orPerceptronvsdogsandcats6.IsomorphicLabsannouncesfirstphaseofmanagementteam秦丹,AI4Sglobaloutlook2022Editionrce中中心法則圖片引用Slamon,D.J.,Clark,G.M.,Wong,S.G.,Levin,W.J.,Ullrich,A.,&McGuire,W.L.(1987).Humanbreastcancer:correlationofrelapseandsurvivalwithamplificationoftheHER-2/neuoncogene.Science(NewYork,N.Y.),235(4785),177–182.Luo,Y.,Hitz,B.C.,Gabdank,I.,Hilton,J.A.,Kagda,M.S.,Lam,B.,Myers,Z.,Sud,P.,Jou,J.,Lin,K.,Baymuradov,U.K.,Graham,K.,Litton,C.,Miyasato,S.R.,Strattan,J.S.,Jolanki,O.,Lee,J.W.,Tanaka,F.Y.,Adenekan,P.,O'Neill,E.,…Cherry,J.M.(2020).NewdevelopmentsontheEncyclopediaofDNAElements(ENCODE)dataportal.Nucleicacidsresearch,48(D1),D882–D889.徐存拴(2013年)非編碼DNA序列的功能及其鑒定,遺傳HEREDITAS,DOI:10.3724/SP.J.1005.2013.01253Avsec,?.,Agarwal,V.,Visentin,D.,Ledsam,J.R.,Grabska-Barwinska,A.,Taylor,K.R.,Assael,Y.,Jumper,J.,Kohli,P.,&Kelley,D.R.(2021).Effectivegeneexpressionpredictionfromsequencebyintegratinglong-rangeinteractions.Naturemethods,Stevens,T.J.,Lando,D.,Basu,S.,Atkinson,L.P.,Cao,Y.,Lee,S.F.,Leeb,M.,Wohlfahrt,K.J.,Boucher,W.,O'Shaughnessy-Kirwan,A.,Cramard,J.,Faure,A.J.,Ralser,M.,Blanco,E.,Morey,L.,Sansó,M.,Palayret,M.,Lehner,B.,DiCroce,L.,Wutz,A.,…Laue,E.D.(2017).3Dstructuresofindividualmammaliangenomesstudiedbysingle-cellHi-C.Nature,544(7648),59–64.Fudenberg,G.,Kelley,D.R.,&Pollard,K.S.(2020).Predicting3DgenomefoldingfromDNAsequencewithAkita.NatureCaudai,C.,Galizia,A.,Geraci,F.,LePera,L.,Morea,V.,Salerno,E.,Via,A.,&Colombo,T.(2021).AIapplicationsinfunctionalgenomicsComputationalandstructuralbiotechnologyjournal5762–5790.Poplin,R.,Chang,P.C.,Alexander,D.,(2018).AuniversalSNPandsmall-indelvariantcallerusingdeepneuralnetworks.NatureKelley,D.R.,Snoek,J.,&Rinn,J.L.(2016).Basset:learningtheregulatorycodeoftheaccessiblegenomewithdeepAlipanahi,B.,Delong,A.,Weirauch,M.T.,&Frey,B.J.(2015).PredictingthesequencespecificitiesofDNA-andRNA-bindingproteinsbydeeplearningNaturebiotechnologyErnst,J.,&Kellis,M.(2015).Large-scaleimputationofepigenomicdatasetsforsystematicannotationofdiversehumanpsdoiorgnbt19.Zhang,F.,Song,H.,Zeng,M.,Li,Y.,Kurgan,L.,&Li,M.(2019).DeepFunc:ADeepLearningFrameworkforAccuratePredictionofProteinFunctionsfromProteinSequencesandInteractionsProteomicse1900019.20.在線TCGA數據庫挖掘網站匯總21.醫(yī)藥魔方,準確率近90%,更早捕獲皮膚癌哈佛新型AI系統(tǒng)成功輔助診斷22.ChiuYC,ZhengS,WangLJ,etal.Predictingandcharacterizingacancerdependencymapoftumorswithdeeplearning[J].ScienceAdvances,2021,7(34):eabh1275.AI4Sglobaloutlook2022Edition23.Yang,Y.,Yang,J.,Shen,L.,etal.Amulti-omics-basedserialdeeplearningapproachtopredictclinicaloutcomesofsingle-agentantiPDPDLimmunotherapyinadvancedstagenonsmallcelllungcancerAmJTranslRes3–756.24.webofscience,中銀證券,新藥研發(fā)(AIDD)行業(yè)系列報告—洞鑒行業(yè)發(fā)展,把握投資先機:(一)AIDD概覽篇25.CartellieriM,BachmannM,FeldmannA,etal.Chimericantigenreceptor-engineeredTcellsforimmunotherapyofcancer[J].JournalofBiomedicineandBiotechnology10.26.高中生物必修2知識點總結:基因突變及其他變異。27.AI第一視角,藥物遞送,人工智能(AI)布局藥物研發(fā)的新賽道_Dyno28.金融界,頂級機構重押金融界,頂級機構重押,AI破局藥物遞送的新嘗試GCG,ZhouP,YuenCTL.,CombinatorialmutagenesisenmasseoptimizesthegenomeeditingactivitiesofSpCas9.NatMethods019Aug;16(8):722-730.30.知乎專欄:揭因解遺:揭基因神秘面紗,解遺傳繁雜密碼。焦老師講遺傳2:染色體組成與命名。mp31.[Townshend,R.,Eismann,S.,Watkins,A.M.,Rangan,R.,Karelina,M.,Das,R.,&Dror,R.O.(2021).GeometricdeeplearningofRNAstructureScienceNewYorkNY./10.1126/science.abe5650],32.Wei,J.,Chen,S.,Zong,L.,Gao,X.,&Li,Y.(2022).Protein-RNAinteractionpredictionwithdeeplearning:structurematters.ngsinbioinformaticsbbabhttpsdoiorgbibbbabAI4Sglobaloutlook2022Edition口徑,潛在有望成為藥物靶標的蛋難成藥靶標,在研發(fā)手段和藥物形態(tài)等方面難成藥靶標,但每個特定藥物形態(tài)的藥物分 入產出比近年來呈現出越來越低的趨圖:藥物研發(fā)回報率越來越低[2],主要來自于靶標與疾病的關,靶標成藥難度高,和藥物分子的開度大等幾個方面。圖:AI圖:AI在藥物研發(fā)中受到資本追捧[3]重要靶標,依靠過去的藥物研發(fā)認知靶標哪怕僅僅只是獲得初步驗證或突AI4Sglobaloutlook2022Editione都有巨大的商業(yè)價值。程從前至后大致會涉及到早期生臨?早期生物學研究的階段,主要目標是通過對疾路的研究,建立疾病與靶標的相標志物,作為后續(xù)藥學驗證的基?蛋白質結構解析和微觀機理研究環(huán)節(jié),主要目微觀性質,以及微觀性質跟序列-圖:圖:AI制藥行業(yè)的技術發(fā)展周期,AI4S可能帶來新的突破當前藥物研發(fā)的流程和挑站?藥物作用位點探索,主要目標是找到能影響靶關的信號轉導通路中發(fā)揮功能?苗頭化合物發(fā)現的階段,核心目標是在前期建中,找到能靶標蛋白生物活性基礎上通過系列的評估與優(yōu)推進的先導化合物;?先導化合物優(yōu)化階段,核心目標是對化合物從圖:藥物研發(fā)的主要環(huán)節(jié)AI4Sglobaloutlook2022EditionC?臨床前驗證階段,核心目標是獲得符合監(jiān)管和不同動物種屬的藥效歸三該如何設置。個方面之間的最主要問題是要評估藥物靶點圖:藥物發(fā)現的主要環(huán)節(jié)與關鍵問題(credit,DPTechnology)AI4Sglobaloutlook2022Edition表3:藥物研發(fā)流程中的各步驟的挑戰(zhàn)和AI4S范式節(jié)點價立疾病與靶標的相關標志物有知識對生物基本識,尋找靶標和生度依賴運氣;I初步篩選出標和生物標志證行為AI折疊、電鏡圖分度圖的分白在與的信號轉導通子結合的關鍵構生物學手面對蛋白純化和結晶等問AI知蛋白結合位點白的潛進行預測;I樣效率(尋找蛋白質結合化蛋白生列的評估進一步推物略:打分函數不準,算效率無法滿足超大規(guī)的策略:分子表示不I力,改進搜現力法具備一定的盲目性且過為經驗;精度不足,無法普適優(yōu)化精度;I?第一性原理晶型預測?第一性原理晶型預測AI4Sglobaloutlook2022Edition研發(fā)環(huán)節(jié)研發(fā)目標科學難點AI4S實踐化子的藥效、理化性性質中找到平大量數據,整體預佳;I能力和基于小能力,實現更情況下成藥性得依賴豐富的人為經驗質含量以滿足監(jiān)管和注冊的要求;型以滿足成人經驗實驗成本高,耗時長型以滿足成人經驗實驗成本高,耗時證AI物在人體可能的AI物在人體可能的藥代動力學和毒種屬驗證評價獲實驗數據的價同動物種屬上做藥管和價據和方案設AI4Sglobaloutlook2022EditionI.物理模型驅動的藥物研發(fā)薛定諤方程等清晰定義的物理律和外在的表現。以期算精度的結果。計算方基于對蛋白質運動過程的充分采圖:傳統(tǒng)采樣難以跨越局部能量最低點白質運動的過程及其與蛋白質功能的關策略是直接進行量子化學就算,這類方快、計算成本過高;第二種策略是擬合算和相關實驗數據的結果獲得經驗性力法通??斓粔驕?。神經網絡勢方法的快和準的內在矛盾。深度勢能等方法依模型提供訓練數據,用深度神經網絡對進行擬合,實現了以分子力學的計算代期的未來,類似技術的結合和發(fā)展或許也將為分子和蛋白質行為的模擬帶來準確度的提升和和新的視角。在化合物活性優(yōu)化環(huán)節(jié),計測環(huán)層邏輯是準確描述不同分子間的用,及不同分子組合方式的穩(wěn)定性。這些場計算得到較好的解決。在這些場函數的準確性。能同時描述的反應坐標數量較,在模擬過程中跳出勢能面局實現對多個反應坐標的同時描述和態(tài)的系統(tǒng)探索。AI4Sglobaloutlook2022EditionII.數據驅動的藥物研發(fā)II.數據驅動的藥物研發(fā)用物理模型良好定義,卻有大量數據,可以依托已有數據的積累,通過對行整合提煉分析,從而得到規(guī)律來預測相關據缺乏的時候,可利用高精度物理模型生成的動和物理驅動相互促進的發(fā)展。的場景。的列比的結果,人們得以學習蛋的列比的結果,人們得以學習蛋術,而如果基于物理模型計篩選,最后再通過真實實驗證和篩選,減少真實實驗帶來的時成同樣的效果則需要付出成百上展望未來,或許隨著生命科學的探索和發(fā)展,更多千甚至更大的計算成本;在成藥性優(yōu)化環(huán)節(jié),受限底層的科學原理和規(guī)則可能產生重大突破,細胞、于人類對生命科學領域運行原理的認知,大量的不動物、人體的作用變化對人類來說可能不再純是黑確定因素導致ADMET性質預測等問題無法抽象為箱問題。很多現在只能通過數據驅動去解決的問題物理模型并進行計算,而對歷史探索積累的大量數可能會變得不那么神秘。據的總結和推演則成了這一環(huán)節(jié)的有效驅動力;在預測環(huán)節(jié),對于既有反應規(guī)則的學習和推預測環(huán)節(jié),對于既有反應規(guī)則的學習和推發(fā)展。屆時很多疾病的通路和影響因素也將不再神但如前文所提,數據模型驅動計算往往受限于數據秘,有可能做到早期識別和阻斷疾病。甚至基于對的質量和數量。同樣的實驗,在不同的機構、研究底層原理的理解,對生態(tài)系統(tǒng)、海洋系統(tǒng)進行建模組和儀器下會產生不同的系統(tǒng)誤差,更不用說有相計算,模擬類似“蝴蝶效應”的發(fā)生過程,從而介導當一部分公開文獻的數據不可重復,足夠規(guī)模的高人類健康乃至整個生命科學領域的系統(tǒng)進步和重大質量數據成為了數據模型驅動計算的瓶頸。數據進行學習后,再利用小樣本的數來實現將有限的數據價值最大化的采果。圖:多序列比對(MSA)度學習首次解決了蛋白結構氨基酸之預測問題。同樣是基于多序列比對 氨基酸距離預測,許錦波通過對空間基酸距離的同步預測,基于深度卷積地圖(distancemap),同時預測蛋白質中的二面折疊情況,最終輸出的是蛋白的二維圖AI4Sglobaloutlook2022Edition析I.蛋白質結構的解析曾困擾人類50年我們已知的蛋白質有數十億條序列, 構的特征統(tǒng)計信息。前者通過采樣方法根據成蛋白質構象,再基于分子模擬來獲得構象;后者則預設序列相近的蛋白質具模建蛋白的結構;這種策略通常在模板預測結果,在序列等同度較預測[5]。II.AI4S使得蛋白質結構預測成為現實成不同的區(qū)域,對局部氨基酸采樣序列庫中尋找與原序列接近的序列,找到AI4Sglobaloutlook2022EditionIV.強化動力學用于蛋白質結構精修IV.強化動力學用于蛋白質結構精修PAlphaFold結果打分小于75。這是由于通過MSA多序列比對所預測的蛋白結構的某些區(qū)域而優(yōu)化的方法中,與圖神經網絡方法相比,借助分子動力學模擬從初始結構出發(fā)對局域相空間采樣,大難題就是力場精度和采樣效率。力場精度的解決幾十個集合變量以上的采樣數據。樣提供了解決方案[11],它借助神經網絡的高維表RMSD至結果。得復雜需要高質量的蛋白質原子尺度結構模型(RMSD<2始數據獲得原子尺度的蛋白質三維端地獲得相應的原子三維結構模。子結構。原本需要通過同源所發(fā)表的基于領域專家經驗搭建的結構原來的數周降低至一小時。,降低對電鏡圖分辨率的精度要精準度(見下一節(jié))。AI4Sglobaloutlook2022EditionV.DNA/RNA折疊結構探索,助力藥物靶點息表達不僅和堿基序列相關,遺傳物影響基因的表達,所A使用物理建模計算的方法解釋實驗觀察結果并的動態(tài)空間模型,在此基礎上再對功能s學領步。AI4Sglobaloutlook2022Edition蛋白質功能機理探索和理性設計I.基于結構和動力學的蛋白質功能機理探索是藥物開發(fā)的第一步,傳統(tǒng)對于靶蛋白質功能機理探索和理性設計I.基于結構和動力學的蛋白質功能機理探索是藥物開發(fā)的第一步,傳統(tǒng)對于靶研究,是基于生物學實驗手段進行驗靶點的敲除或增強來驗證是否作用靶點蛋白上,再借助其他實驗手段來檢測下游蛋白助力:對分子通路和應答機制進行規(guī);探尋病人的異常的基因表達和調節(jié)通路;索,此處不再贅述?;须[藏口袋和別構口袋的探索。比如固有P構的蛋白,無得傳統(tǒng)的分子動力學模擬難以探索其構象空能夠開發(fā)難成藥靶點,還可發(fā)現更多生物機II.強化動力學助力蛋白動力學的發(fā)展,開發(fā)多藥物靶點蛋白序列與功能對應關系背后的原理規(guī)圖:開發(fā)難成藥靶點,開發(fā)更多的蛋白質靶點之間的對應關系。III.III.AI4S助力蛋白-蛋白的相互作用(PPI)預測,推動生物大分子藥物研發(fā)進程 的研究過程中還需考慮到蛋白的動態(tài)4]。采IS觸面積較大,對采樣要求較高;二是蛋白合過程中會產生動態(tài)構象變化,難以用傳力學方法進行描述;再一個是結合過程中的相互作用變化受限于算力而難以AI4Sglobaloutlook2022Edition的困難,計算方法難以對抗原抗體階的困難,計算方法難以對抗原抗體階較高,一旦實驗結

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論