高分子材料大數(shù)據(jù)研究:共性基礎(chǔ)、進(jìn)展及挑戰(zhàn)_第1頁
高分子材料大數(shù)據(jù)研究:共性基礎(chǔ)、進(jìn)展及挑戰(zhàn)_第2頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、PAGE 34 -高分子材料大數(shù)據(jù)研究:共性基礎(chǔ)、進(jìn)展及挑戰(zhàn)高分子材料成就了我們生活的方方面面,在提升人類生活的便易性,健康舒適,助力人類探索未知世界的同時,也成為全球人類可持續(xù)發(fā)展和環(huán)境保護(hù)的主要挑戰(zhàn)之一.高分子材料的機(jī)械熱、光電聲磁、分離、降解和加工性質(zhì)是設(shè)計、生產(chǎn)和應(yīng)用的聚焦內(nèi)容,其柔性可設(shè)計的特征,有力地支撐著社會的多樣化發(fā)展,對密切相關(guān)的組成、加工、結(jié)構(gòu)及其性質(zhì)關(guān)系的認(rèn)識也在不斷完善中.在對高分子材料個性化、智能化生產(chǎn)和應(yīng)用的驅(qū)動下,傳統(tǒng)經(jīng)驗(yàn)理論提供的定性指導(dǎo)模型漸不能滿足,而對支撐給定性質(zhì)實(shí)現(xiàn)材料逆設(shè)計的定量決策模型產(chǎn)生大量需求.特別是人們對于給定目標(biāo)性質(zhì)實(shí)現(xiàn)對材料組成工藝精準(zhǔn)定位

2、“逆設(shè)計”的渴求,迫切需要對高分子材料多因素及其聯(lián)系的定量化研究,即大數(shù)據(jù)研究,取得進(jìn)展.基于我們4年前對材料基因組學(xué)研究的梳理1,本文將介紹對高分子材料大數(shù)據(jù)研究共性基礎(chǔ)的進(jìn)一步思考,綜述近幾年高分子材料大數(shù)據(jù)研究的代表性進(jìn)展,探討高分子材料大數(shù)據(jù)研究這一急速升溫領(lǐng)域的前沿方向和當(dāng)前面臨的主要挑戰(zhàn).1材料大數(shù)據(jù)研究的共性基礎(chǔ)眾所周知,人類探索未知世界存在4種認(rèn)知范式,即以實(shí)驗(yàn)試錯法為主的第一范式,以理論推理演繹為主的第二范式,以基于模型的計算模擬仿真為主的第三范式,和以數(shù)據(jù)驅(qū)動創(chuàng)新為主的第四范式.這4種范式都可以產(chǎn)生基礎(chǔ)可用的數(shù)據(jù),在數(shù)據(jù)基礎(chǔ)上建立聯(lián)系形成可流通的信息,從信息流中梳理出一定條

3、件下存在的模式形成知識,進(jìn)一步凝練出法則(principle)從而獲得智慧,即科學(xué)認(rèn)知的DIKW(Data,Information,Knowledge,Wisdom)框架.在該框架中,人類生活生產(chǎn)和研究長期匯集的基礎(chǔ)科學(xué)數(shù)據(jù)逐步成為一種資源并可以較為廣泛地公開共享,機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)和大數(shù)據(jù)(注:這4個專業(yè)名詞的內(nèi)涵具有高度重疊的共同知識,但有不同的側(cè)重,相互間聯(lián)系仍在變化中)為代表的新興理念和技術(shù)手段,正快速地發(fā)展并重塑著生產(chǎn)力和生活模式.統(tǒng)計力學(xué)和貝葉斯統(tǒng)計學(xué)與多個學(xué)科交叉,先后形成了生物信息學(xué)、化學(xué)信息學(xué)和材料信息學(xué)3個前沿學(xué)科.目前生物信息學(xué)發(fā)展的典型代表是AlphaFold

4、22的產(chǎn)生,在預(yù)測蛋白質(zhì)序列到三維折疊結(jié)構(gòu)的經(jīng)典難題中已經(jīng)部分超過人類專家.化學(xué)信息學(xué)仍在快速發(fā)展中,對短程關(guān)聯(lián)體系,小分子、力場和作用、化學(xué)語言的符號化和定量表達(dá)等的進(jìn)展強(qiáng)有力地推動著對眾多物理、化學(xué)、生物現(xiàn)象和過程的定量認(rèn)識,其中近幾年以人工智能驅(qū)動新藥開發(fā)(即AI制藥)而廣為人知.而材料信息學(xué)正處于急速膨脹階段,個性化和智能制造正滲透到社會的方方面面,有力地支撐著全人類的可持續(xù)發(fā)展和未來美好生活愿景.高分子材料的大數(shù)據(jù)研究是材料信息學(xué)的前沿核心內(nèi)容,而材料信息學(xué)的研究存在如圖1所示的共性框架,即組成-工藝-結(jié)構(gòu)-性質(zhì)-性能關(guān)系(CPSPPr),其中包含組成工藝決定結(jié)構(gòu),結(jié)構(gòu)性質(zhì)關(guān)系(QS

5、AR/QSPR)以及性質(zhì)性能關(guān)聯(lián)三方面主要內(nèi)容.要實(shí)現(xiàn)精準(zhǔn)可靠的“逆設(shè)計”,需要明確CPSPPr中的因果關(guān)系,部分或者能可靠外推的充分必要關(guān)系,而這幾個要素及其內(nèi)在可控因素實(shí)現(xiàn)定量可計算是首要任務(wù).下面將圍繞這些因素展開:材料的組成量化了物質(zhì)的種類即電子、原子、結(jié)構(gòu)或功能基團(tuán)、結(jié)構(gòu)片段、分子、聚集體、相界面和部件種類及其配比分?jǐn)?shù),決定了體系的相互作用,相貌形態(tài)和成本.相互作用用于定量描述材料體系的勢能和動能,也包括表征、生產(chǎn)和應(yīng)用中對外場的響應(yīng).在25(298.15K),1.01105Pa的參考態(tài)下,1個熱力學(xué)漲落能量單位與多種性質(zhì)和響應(yīng)能量存在如下等價關(guān)系,1kBT=1RT/NA,4.111

6、0-21J,4.11pNnm,9.8310-22Cal,0.0256eV,9.40810-4Hartree,6.21012Hz,48.4104nm,2.479kJmol-1,0.593kCalmol-1,200cm-1,該等價關(guān)系包含kB是Boltzmann因子,T是絕對溫度(K),R是氣體常數(shù),NA是阿伏伽德羅常數(shù),h是普朗克常數(shù),C為真空光速.其中,除常見能量單位焦耳J,卡路里Cal外,pNnm用于如單分子力譜測量鍵長變化或構(gòu)象變化,電子伏特eV測量光電能量,Hartree是量子化學(xué)計算中的能量單位,赫茲Hz、nm和cm-1則從不同角度衡量探測波的能量.該關(guān)系表明了從微觀到宏觀,相互作用在

7、能量層面上對力、光電聲磁、波和譜學(xué)的可探測信號可以實(shí)現(xiàn)統(tǒng)一.對于高分子材料類的軟物質(zhì),在高于25的環(huán)境中,低于1kBT(T=298.15K)的能量擾動不會引起相態(tài)變化,或誘發(fā)臨界現(xiàn)象.材料不同尺度相互作用的定量計算可以基于量子化學(xué)、全原子和粗?;觥⒔橛^碰撞和耗散力、宏觀連續(xù)介質(zhì)固體和流體力學(xué).這些定量信息則來自不同時空尺度的實(shí)驗(yàn)、理論模型和計算方法的相互佐證和層級關(guān)聯(lián).但在大數(shù)據(jù)研究中,不同尺度的相互作用則可被視為平等信息,從而可不受已有模型約束用于建立經(jīng)驗(yàn)理論模型之外的關(guān)聯(lián)關(guān)系.材料的相態(tài)包含相圖,相變或相轉(zhuǎn)變,性質(zhì)和結(jié)構(gòu)特征等數(shù)據(jù)信息,是區(qū)分和刻畫材料組分的本征屬性.成本是材料產(chǎn)業(yè)化的

8、要素,包括原子經(jīng)濟(jì)、生產(chǎn)和應(yīng)用的能源成本、生態(tài)成本和經(jīng)濟(jì)成本等.Fig.1Thecommonframeforthecomposition-process-structure-property-performancerelationship(CPSPPr)andtheirkeysubterms(a).ThegeneralpatternforanattributewithdistributionA,evolutestoasignificantlydifferentstatewithdistributionD,throughtaileddistributionsBandC(b).在工藝方面,主要包含

9、對配方組分的反應(yīng)、分散和融合3類操作.反應(yīng)是化學(xué)鍵的變化,涉及物質(zhì)本征屬性改變,包括物質(zhì)的合成、修飾改性、化學(xué)交聯(lián)、降解等,常見的因素包括手性、異構(gòu)、鍵生成斷裂平衡、活性、選擇性以及與反應(yīng)關(guān)聯(lián)的小分子產(chǎn)物,反應(yīng)過程伴隨的物質(zhì)和能量擴(kuò)散和傳遞的調(diào)節(jié)控制等.分散是通過對體系助劑或能量輸入,提升物相接觸交換界面,使材料快速達(dá)到熱力學(xué)平衡狀態(tài)(一般是熵增過程),或者使物質(zhì)分布達(dá)到具有特定分布結(jié)構(gòu)的穩(wěn)態(tài)狀態(tài).融合主要是破壞或黏合熱力學(xué)不相容表界面使體系成為整體,如表面活性劑、膠黏劑或者“鎖-鑰原理”實(shí)現(xiàn)結(jié)構(gòu)錨定(藥物篩選的原則之一)等.這些工藝涉及較多人為經(jīng)驗(yàn)性因素,易造成精細(xì)層面的可重復(fù)性低,對復(fù)雜、

10、精密、長期或在極端條件服役的材料體系,在生產(chǎn)和應(yīng)用之前一般會引入宏觀尺度的計算機(jī)輔助設(shè)計/制造(CAD/CAM).在實(shí)際CAD建模計算模擬仿真中,常常需要引入材料中組分的體相宏觀性質(zhì),如密度、模量、泊松比以及可以描述物質(zhì)相態(tài)的本構(gòu)方程等35,已有一些商業(yè)軟件如Abaqus,Ansys,Comsol等.性質(zhì)分為組分、材料和器件性質(zhì),組分性質(zhì)一般接近其本征性質(zhì),但在材料的多組分作用下,其性質(zhì)可能發(fā)生大幅變化.在高分子材料體系里,無論是從單體到聚合物,還是聚合物鏈的交聯(lián)、共混等,材料性質(zhì)都很難用組分性質(zhì)直接或者加權(quán)平均近似6.在器件性質(zhì)層面,材料構(gòu)成的本體結(jié)構(gòu)和表面形貌都具有重要貢獻(xiàn).小分子的流失、

11、材料降解、表面形貌退化等化學(xué)或結(jié)構(gòu)性變化都可能導(dǎo)致器件性質(zhì)失效.而材料在模擬或?qū)嶋H應(yīng)用中的機(jī)械、熱、光電聲磁、分離、加工性能等則可以解析為多種性質(zhì)在實(shí)際應(yīng)用場景中給定閾值范圍內(nèi)的疊加,即材料性能通過一系列標(biāo)準(zhǔn)組合或依據(jù)第一、二和三范式的專家經(jīng)驗(yàn)實(shí)現(xiàn)性質(zhì)拆分.不同于小分子、金屬、無機(jī)非金屬材料,利用大數(shù)據(jù)研究實(shí)現(xiàn)從性質(zhì)到分子結(jié)構(gòu)的“逆設(shè)計”已有不少成功報道712,高分子材料則少有類似成功,主要障礙在于其結(jié)構(gòu)的定量化,將在下一節(jié)單獨(dú)介紹.在材料大數(shù)據(jù)研究的這些共性因素中,通過一系列變量調(diào)控,可以使材料的性質(zhì)發(fā)生顯著變化.由于高分子多分散性的特點(diǎn),高分子材料在CPSPPr中各要素都存在分布,而調(diào)控這

12、些分布往往通過圖1的示意模式1.即從某屬性或性質(zhì)的當(dāng)前分布A,逐步產(chǎn)生小概率事件偏倚或分布外的離散事件形成拖尾分布B,進(jìn)而通過持續(xù)條件演化對小概率事件和離散事件的富集產(chǎn)生拖尾分布C,進(jìn)一步演化為平衡態(tài)或穩(wěn)態(tài)分布D.典型的例子是Ising模型中磁疇的變化,雖然單個磁子(spin)的取向是瞬時變化的,但在時間或磁場強(qiáng)度的連續(xù)變化中,總能觀察到不同磁子取向的拖尾分布.高分子材料常見的性質(zhì)調(diào)控、結(jié)構(gòu)控制、相變過程等的序參量分布演化都滿足這個模式.該模式用統(tǒng)計力學(xué)可表述為狀態(tài)密度i=exp(-Ei)/exp(-Ei),某個性質(zhì)Z可以通過加權(quán)平均得到Z=(zi*i)/i,其中=1/kBT.該模式也可通過大

13、數(shù)據(jù)方法核心的Bayes原理表達(dá)為Z=C,P|S,M=S,Sx|M,S=D+Dx|M(1)2高分子材料結(jié)構(gòu)定量數(shù)據(jù)其中,C,P,S,M,D分別代表組成、工藝、結(jié)構(gòu)、表征生產(chǎn)應(yīng)用條件和分布函數(shù),x則代表組成工藝中的某一可控變量,代表集合.分布函數(shù)D=i可以是熱力學(xué)平衡分布(高斯分布、玻爾茲曼分布等),也可以是偏倚分布(對數(shù)正態(tài)分布、帕累托分布、雙指數(shù)分布、泊松分布等),或者是描述材料內(nèi)部組成基元在正、倒空間(傅里葉變換)的分布.性質(zhì)Z可表述為在具有一定結(jié)構(gòu)S和測試應(yīng)用條件M下可由材料的組成C和加工成型工藝P改變,或者表述為材料在特定條件M下結(jié)構(gòu)及其變化對外場響應(yīng)而表達(dá)出性質(zhì)Z.結(jié)構(gòu)S則可以表述為

14、參考態(tài)的穩(wěn)定分布D與該分布在演化條件中擾動量x的作用下變化的疊加.在基于這種表達(dá)通式的大數(shù)據(jù)研究中,可以通過對實(shí)驗(yàn)、理論和計算模擬產(chǎn)生的特征進(jìn)行組合或數(shù)學(xué)變換,將前3種范式認(rèn)為無關(guān)的特征聯(lián)合起來構(gòu)建出新的特征維度,新的特征可能成為性質(zhì)描述更好的代理量或強(qiáng)關(guān)聯(lián)量,或更有效的演化條件,進(jìn)而利于深入剖析高分子材料CPSPPr中的過程和機(jī)理.一般地,材料結(jié)構(gòu)的定義為組成基元的時空間分布,組成基元可以是電子、原子、離子、基團(tuán)、分子片段、分子、聚集體、相區(qū)和器件單元,分布可以表達(dá)為笛卡爾坐標(biāo)、極坐標(biāo)、內(nèi)坐標(biāo)或傅里葉倒空間的基元豐度,或者場模型中的概率密度.基元的屬性和分布可以隨時間發(fā)生變化,存在內(nèi)部的熱漲

15、落或?qū)ν獠康拇碳ろ憫?yīng),從而通過表征手段獲得信號或表達(dá)出材料的不同性質(zhì).結(jié)構(gòu)是一系列探測手段與材料作用的譜學(xué)信號,而性質(zhì)也是材料對外部的刺激響應(yīng)結(jié)果.因此,材料的定量結(jié)構(gòu)活性/性質(zhì)關(guān)系(QSAR/QSPR)在本質(zhì)上是不同譜學(xué)信號的相互關(guān)聯(lián),當(dāng)某些表征信號可以比較完備地描述性質(zhì)時,該表征手段常被作為性質(zhì)的代理量(surrogate).如利用某種試劑盒的UV特征吸收表達(dá)物質(zhì)的生物活性,用楊氏模量刻畫材料的彈性,特定條件下的熔融指數(shù)衡量高分子材料的加工性,以及溶脹率表征材料的體積穩(wěn)定性等.因?yàn)榻Y(jié)構(gòu)可由組成和工藝共同決定,并通過物理、化學(xué)的知識闡明機(jī)理,因而結(jié)構(gòu)性質(zhì)關(guān)系常用結(jié)構(gòu)特征建立性質(zhì)的代理模型或代

16、理量,從而用于理解、設(shè)計和調(diào)節(jié)控制材料的宏觀性質(zhì).從理論和計算模擬仿真角度來看,高分子材料的結(jié)構(gòu)僅包括化學(xué)結(jié)構(gòu)和聚集結(jié)構(gòu)兩方面.化學(xué)結(jié)構(gòu)用于區(qū)分組成物質(zhì)的屬性,其定量化是化學(xué)信息學(xué)研究的核心內(nèi)容.主要包含化學(xué)語言的定量描述,包括編碼與解碼,比較成熟的有SMILES(simplifiedmolecular-inputline-entrysystem)和InChI(internationalchemicalidentifier)2套系統(tǒng).化學(xué)結(jié)構(gòu)的圖論和圖特征表達(dá)這類有長久歷史的方法也存在一定程度應(yīng)用和發(fā)展13,14.在此基礎(chǔ)上,進(jìn)一步通過分子指紋算法如Avalon、Daylight和開源RDKi

17、t庫15等計算出組成基元的數(shù)量、鍵連接、鍵角、二面角、共軛面、拓?fù)浜碗姾?、極性、排斥體積、氫鍵等加權(quán)平均的拓?fù)鋷缀?、物理、化學(xué)性質(zhì)參數(shù).化學(xué)信息學(xué)的這些計算方法的目的是從不同角度得到化合物的唯一編碼和性質(zhì)數(shù)據(jù),但對于具有多層次結(jié)構(gòu)的高分子來說這并不簡單16,需要在整體覆蓋尺度和細(xì)節(jié)分辨率之間權(quán)衡17.由于高分子存在手性、異構(gòu)、構(gòu)象、拓?fù)浣Y(jié)構(gòu)和多聚體,多個單體化學(xué)鍵連接存在強(qiáng)協(xié)同效應(yīng)等,使得高分子既不能像蛋白質(zhì)中的二十余種保守氨基酸進(jìn)行可以枚舉成序列描述,又不能像小分子的SMILES可直接轉(zhuǎn)換為數(shù)值向量.因此,高分子化學(xué)結(jié)構(gòu)的定量描述仍需要取得突破.另一方面是精確力場的發(fā)展,受高通量藥物和精準(zhǔn)催

18、化劑設(shè)計的驅(qū)動,經(jīng)典的通用力場如CHARMM18,AMBER,UFF19,OPLS20,MMFF21等已不能滿足需求,大量的研究工作在通用力場基礎(chǔ)上,針對特定一類分子體系,建立了力場修正,如ReaxFF系列22,可遷移力場TAFFI23等.對于高分子材料聚集結(jié)構(gòu)的計算可分為粒子模型和場模型,前者將每個結(jié)構(gòu)基元看作具有一定質(zhì)量、性質(zhì)和時空間排它占有的實(shí)體粒子,后者則描述結(jié)構(gòu)基元在特定時空間的出現(xiàn)概率密度.而計算模擬方法常見的有量子力學(xué)(quantummechanics,QM),分子力學(xué)(molecularmechanism,MM),分子動力學(xué)(moleculardynamics,MD),蒙特卡洛

19、(MonteCarlo,MC),耗散粒子動力學(xué)(dissipativeparticledynamics,DPD),格子波爾茲曼(latticeBoltzmann,LB),密度泛函(densityfunctionaltheory,DFT),自洽場(self-consistentfieldmethod,SCFT),相場模型(phase-fieldmodel,PFM)和有限元分析(finiteelementanalysis,F(xiàn)EA)等.這些計算方法涵蓋了電子、原子、分子、聚集體、相區(qū)、表界面和宏觀組件的多個尺度.但是目前宏觀尺度和場論的計算方法還無法定量分辨材料的精確化學(xué)結(jié)構(gòu)差異,微觀和介觀的計算模

20、擬數(shù)據(jù)難以和宏觀性質(zhì)形成充要關(guān)聯(lián),使“逆設(shè)計”陷入困境,這也是高分子材料多尺度計算長期未解決的難題.該計算難題同樣也存在高分子材料多尺度結(jié)構(gòu)的實(shí)驗(yàn)表征中,特別是聚集結(jié)構(gòu)的定量解析實(shí)現(xiàn)還需要長時間的努力.化學(xué)結(jié)構(gòu)、晶體結(jié)構(gòu)或單分散結(jié)構(gòu)通過X光衍射、NMR、冷凍電鏡、小角散射等可以較準(zhǔn)確解析,而在計算方面,除共聚或共混兩相組裝相圖有較系統(tǒng)的定量數(shù)據(jù)外,實(shí)際材料至多有半定量數(shù)據(jù).常見的材料結(jié)構(gòu)實(shí)驗(yàn)表征和計算方法的共性認(rèn)識如圖2所示.結(jié)構(gòu)的實(shí)驗(yàn)表征可分為組分、物相和微觀結(jié)構(gòu)三大類,包括化學(xué)、色譜、能譜、質(zhì)譜和光譜分析等手段.結(jié)構(gòu)信息的獲取包含材料樣品、探測源、作用原理與信號3部分.探測源的能量可以從伽

21、瑪射線、電子、中子、X射線、紫外可見紅外/偏振、微波、剪切或周期力等,而這些探測源在與樣品發(fā)生諸如透射、反射、折射、散射/衍射、吸收、熒光、共振和形變等作用后,結(jié)構(gòu)表征信號可以探測到直接的強(qiáng)度或強(qiáng)度差、相位或相位差、微分或積分面積、水平或角度分辨等,從而產(chǎn)生了不同角度、不同原理的結(jié)構(gòu)定量數(shù)據(jù),即譜學(xué)信號.在統(tǒng)計力學(xué)的框架中,理論上所有的譜學(xué)信號都可以通過量子化學(xué)計算獲得,但由于高分子多尺度、多分散和長程關(guān)聯(lián)的特性,量化計算的時空尺度和計算成本受限導(dǎo)致可用數(shù)據(jù)非常稀少.目前機(jī)器學(xué)習(xí)對于小分子化合物的光譜預(yù)測已取得一定進(jìn)展24,IR25,MS26,NMR27等在已知條件下能夠較為準(zhǔn)確預(yù)測和譜圖模式

22、識別.即使是對于較為復(fù)雜的X光吸收光譜(XAFS),通過神經(jīng)網(wǎng)絡(luò)算法結(jié)合圖論已能達(dá)到高于90%可靠度的準(zhǔn)確預(yù)測,對峰位的預(yù)測誤差小于1eV28.可以預(yù)見,從國家大科學(xué)裝置、儀器開發(fā)商到終端科研和檢測人員,對高分子材料結(jié)構(gòu)的定量數(shù)據(jù)一直都十分關(guān)注,大數(shù)據(jù)輔助結(jié)構(gòu)定量數(shù)據(jù)的收集、分析和綜合利用的進(jìn)展報道將越來越多.大數(shù)據(jù)與結(jié)構(gòu)譜學(xué)分析深度結(jié)合,未來將繼續(xù)向精細(xì)分辨、高通量快速分析,以及多尺度多角度結(jié)構(gòu)數(shù)據(jù)的整合等方向發(fā)展.Fig.2Thegeneralframetoacquirethestructureinformationforpolymermaterialsatdifferenttempora

23、landspatialscales,thedetectorsandinteractions,popularexperimentaltechniquesandcomputationalmethods.3大數(shù)據(jù)研究的數(shù)據(jù)和算法進(jìn)展材料大數(shù)據(jù)研究的主要流程可參考綜述文獻(xiàn)1,近4年來該研究領(lǐng)域蓬勃發(fā)展,算法和數(shù)據(jù)兩方面都形成了一些新的趨勢.大數(shù)據(jù)研究的算法主要包括數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)兩部分,前者側(cè)重從文獻(xiàn)報道、專利、書籍、標(biāo)準(zhǔn)等文本或圖表中的信息批量提取,構(gòu)建可機(jī)讀、可批量計算的數(shù)據(jù)庫或數(shù)據(jù)集,利用統(tǒng)計學(xué)呈現(xiàn)數(shù)據(jù)的完備性和代表性,當(dāng)前的顯著進(jìn)展與自然語言處理(naturallanguageprocess

24、ing,NLP)以及化學(xué)信息學(xué)對化學(xué)物質(zhì)的編碼和解碼算法的研究前沿密切關(guān)聯(lián).而機(jī)器學(xué)習(xí)側(cè)重于對給定單一或多目標(biāo)算法的優(yōu)化,自擴(kuò)展搜索空間和給定函數(shù)的快速收斂.與之緊密相關(guān)的是人們對數(shù)據(jù)資源的認(rèn)識加深,涌現(xiàn)了一大批長期積累的、由專家參與的數(shù)據(jù)整理建設(shè),目前與高分子材料相關(guān)的一些代表性數(shù)據(jù)庫或數(shù)據(jù)集列于表1中.相比于4年前的綜述調(diào)研1,傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)量,以及材料對應(yīng)的物化性質(zhì)等獲得了大量擴(kuò)充,數(shù)據(jù)的完備性進(jìn)一步提升,如PoLyInfo(polymer.nims.go.jp/en/).同時也看到,基于量化和力場準(zhǔn)確計算的物化參數(shù)也急劇增加,填補(bǔ)過去大量材料物化性質(zhì)缺失,如clogP,HOMO,LU

25、MO等.值得一提的是PubChem(),Reaxys(),SciFinder(),QM7/929等數(shù)據(jù)庫支撐了深度學(xué)習(xí)在小分子設(shè)計3033,反應(yīng)合成3436等領(lǐng)域的應(yīng)用,同時也對高分子的合成和性質(zhì)預(yù)測提供了應(yīng)用基礎(chǔ).Table1Listofrepresentativedataresourcesforthebigdatastudyofpolymermaterials.SourcesNameTypeBookPolymers:apropertydatabase37ExperimentalHandbookofpolymers38ExperimentalPropertiesofpo

26、lymers6ExperimentalPredictionofpolymerproperties39ExperimentalPolymersynthesis:theoryandpractice40ExperimentalPolymerhandbook41ExperimentalPhaseequilibriaandthermodynamicdataofaqueouspolymersolutions42ExperimentalOnlinePoLyInfo(polymer.nims.go.jp/en)ExperimentalCROW:polymerpropertiesdatabase()Experi

27、mentalPolymers:apropertydatabase()ExperimentalCAMPUSplastics()ExperimentalLandolt-Brnstein()ExperimentalPolymerpropertypredictoranddatabase(NIST)()MixedKhazanadatabase()SimulationIdentifydatabase(./identify)Experimental在機(jī)器學(xué)習(xí)的算法方面,如圖3所示,增強(qiáng)學(xué)習(xí)43,44、主動學(xué)習(xí)45、深度神經(jīng)網(wǎng)絡(luò)等在近幾年取得長足發(fā)展.在傳統(tǒng)的監(jiān)督式和無監(jiān)督式學(xué)習(xí)方法中,用于回歸分析、分類算法

28、、聚類和降維分析除了經(jīng)典算法如隨機(jī)森林(randomforest,RF)46、邏輯回歸(logisticregression)47、樸素貝葉斯(naiveBayes)48、支持向量機(jī)(supportvectormachine,SVM)49、K-means聚類50、層次聚類(hierarchicalclustering)51和主成分分析(principalcomponentanalysis,PCA)52等得到進(jìn)一步的廣泛應(yīng)用外,一些新的算法也從提出快速地得到應(yīng)用,多學(xué)科交叉促進(jìn)材料研究模式變化的節(jié)奏隨著信息高度流通明顯加快.對于缺少大量專家標(biāo)記數(shù)據(jù)的應(yīng)用場景,半監(jiān)督式學(xué)習(xí)算法得到快速發(fā)展,包含自

29、我訓(xùn)練53、協(xié)同訓(xùn)練54、直推式支持向量機(jī)55和圖網(wǎng)絡(luò)方法56等.Fig.3Listofrepresentativemachinelearninganddeeplearningalgorithms.在強(qiáng)化學(xué)習(xí)算法方面,其原理類似于給定模型的計算模擬仿真,通過打分和懲罰函數(shù)在迭代反饋中優(yōu)化,建立代理模型.典型的強(qiáng)化學(xué)習(xí)算法有Q-learning方法(如深度Q-網(wǎng)絡(luò)57,Q值函數(shù)反向傳播算法5759、策略梯度方法60和信任區(qū)域策略優(yōu)化61)等.這些算法與前述經(jīng)典學(xué)習(xí)算法復(fù)合或定制用于特定場景,出現(xiàn)了主動學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)等一系列新的方法分支.這些算法可以對已知人工數(shù)據(jù)點(diǎn)進(jìn)行生成擴(kuò)

30、充6266,進(jìn)而提升模型性能,同時也可助力高分子材料實(shí)現(xiàn)高通量實(shí)驗(yàn)和高通量表征67,為高效構(gòu)建高分子實(shí)驗(yàn)數(shù)據(jù)庫提供了新思路68.這方面感興趣的讀者可參考文獻(xiàn)69,70等書籍了解更多原理和應(yīng)用細(xì)節(jié).特別值得一提的是近幾年深度學(xué)習(xí)對整個機(jī)器學(xué)習(xí)算法、人工智能和大數(shù)據(jù)從基礎(chǔ)研究到生產(chǎn)應(yīng)用都帶來了極大的沖擊.人工智能自動編程,機(jī)器學(xué)習(xí)數(shù)據(jù)自動生成等的急速發(fā)展與深度學(xué)習(xí)算法的高速發(fā)展密切相關(guān),在廣泛應(yīng)用的機(jī)器學(xué)習(xí)編程語言Python,R,Matlab的基礎(chǔ)上,新產(chǎn)生了一些建??蚣?,如Pytorch,TensorFlow,MxNet等.一些新的數(shù)據(jù)和工具包也形成了一定的流行度,如Hyperopt71和GP

31、Tune72,COMBO73等.也有一些經(jīng)典的數(shù)據(jù)和算法項(xiàng)目得到持續(xù)發(fā)展,如早期DeepChem開源項(xiàng)目,包括MoleculeNet74有機(jī)分子的基準(zhǔn)和訓(xùn)練數(shù)據(jù)集,面向化學(xué)和材料數(shù)據(jù)的建模軟件ChemML75,以及面向QSPR/QSAR的自動化工具TPOT76,auto-sklearn等7780.但這些數(shù)據(jù)和工具包很少考慮高分子的應(yīng)用場景,主要原因是數(shù)據(jù)集較小,缺少基準(zhǔn)數(shù)據(jù),數(shù)據(jù)不確定性高或歧義較多等.在算法方面,迄今得到廣泛使用的深度學(xué)習(xí)算法包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)81,變分自動編碼器(VAE)82,生成對抗網(wǎng)絡(luò)(GAN)83等.這些算法在高分子材料領(lǐng)域已得到一定的應(yīng)用并表現(xiàn)出巨大潛力.如

32、Chen等利用RNN對基于SMILES準(zhǔn)確預(yù)測了高分子的玻璃化轉(zhuǎn)變溫度(Tg)84.Batra等85利用VAE結(jié)合高斯過程回歸(GPR)模型發(fā)現(xiàn)了預(yù)期在高溫、高電場極端條件下具有潛在使用價值的新聚合物.Hiraide等開發(fā)了一個逆向設(shè)計框架GAN算法,對一類具有共性結(jié)構(gòu)的高分子材料實(shí)現(xiàn)了從楊氏模量到化學(xué)結(jié)構(gòu)的“逆設(shè)計”86.4高分子材料大數(shù)據(jù)研究的代表性進(jìn)展4.1進(jìn)展分類高分子材料大數(shù)據(jù)研究是材料基因組學(xué)或材料信息學(xué)中極具挑戰(zhàn)的重要課題,當(dāng)前階段材料基因組學(xué)強(qiáng)調(diào)高通量計算、高通量表征和高通量制備及數(shù)據(jù)共享,但高通量對于高分子材料實(shí)現(xiàn)起來存在諸多困難,源于高分子材料多分散和多尺度關(guān)聯(lián)等特性.另一

33、方面,以核酸、蛋白、多糖、多酚和小分子為主要研究對象的生物信息學(xué)最先發(fā)展成型,這類體系的組成單元收斂可枚舉,多分散性效應(yīng)不明顯.近年來仍在高速發(fā)展的化學(xué)信息學(xué),聚焦化學(xué)語言數(shù)值化、微觀結(jié)構(gòu)多角度精確計量等極大地促進(jìn)了材料信息學(xué)的發(fā)展,特別是在小尺寸強(qiáng)關(guān)聯(lián)體系用化學(xué)信息學(xué)方法可直接指導(dǎo)材料的“逆設(shè)計”.為了系統(tǒng)地介紹近幾年高分子材料大數(shù)據(jù)研究的代表性進(jìn)展,在CPSPPr中,主要按材料應(yīng)用性質(zhì)分類,包含新型高分子合成與自組裝、機(jī)械熱性質(zhì)、光電聲磁性質(zhì)、分離性質(zhì)等材料分類.在大數(shù)據(jù)計算方法、數(shù)據(jù)集,以及計算預(yù)測與實(shí)驗(yàn)驗(yàn)證迭代的方法和思路的進(jìn)展也將融合到這些具體材料分類中.整體來說,得益于化學(xué)信息學(xué)對

34、物質(zhì)化學(xué)屬性和近程作用的精確刻畫,光電聲磁功能高分子材料的大數(shù)據(jù)研究已取得可媲美金屬合金、無機(jī)非金屬材料方面的成功應(yīng)用,但其他性質(zhì)的高分子材料大數(shù)據(jù)研究還缺乏能夠推動行業(yè)研究和生產(chǎn)模式發(fā)生改變的顯著成果.在組成工藝決定結(jié)構(gòu)、結(jié)構(gòu)性質(zhì)關(guān)系(QSPR/QSAR)以及性質(zhì)性能3類主要關(guān)系中,結(jié)構(gòu)性質(zhì)關(guān)系研究較多,而結(jié)構(gòu)多數(shù)限于化學(xué)結(jié)構(gòu),對高分子材料聚集結(jié)構(gòu)的關(guān)聯(lián)關(guān)系研究報道非常少見.高分子材料大數(shù)據(jù)研究的實(shí)際應(yīng)用如配方工藝優(yōu)化、材料新性質(zhì)發(fā)現(xiàn),以及材料組成工藝決定結(jié)構(gòu)的基礎(chǔ)研究這些方面的報道也較少.下面我們將圍繞材料性質(zhì)分類對近幾年的代表性進(jìn)展進(jìn)行簡要回顧介紹.4.2高分子合成與自組裝高分子合成的大

35、數(shù)據(jù)研究主要集中在催化劑設(shè)計、聚合反應(yīng)中的物料配比投料、小分子和熱量管理,產(chǎn)物的自動分離表征和實(shí)驗(yàn)方案協(xié)同調(diào)整等方面.Cooper小組開發(fā)出一種合成機(jī)器人,能夠使用機(jī)器學(xué)習(xí)算法對實(shí)驗(yàn)迭代改進(jìn),實(shí)現(xiàn)目標(biāo)光催化劑的精準(zhǔn)合成87.但對高分子合成而言,聚合反應(yīng)及后續(xù)產(chǎn)物表征比小分子或無機(jī)非金屬材料要復(fù)雜得多,Chen等88開發(fā)了依賴機(jī)器學(xué)習(xí)的聚合規(guī)劃平臺來應(yīng)對這一挑戰(zhàn),從化學(xué)組成、分子量和分子量分布3個維度優(yōu)化了通過自由基聚合反應(yīng)得到的高分子產(chǎn)物.在機(jī)器學(xué)習(xí)與化學(xué)合成數(shù)值計算結(jié)合方面,Yaron等89使用深度強(qiáng)化學(xué)習(xí)技術(shù)來預(yù)測原子轉(zhuǎn)移自由基聚合(ATRP)中聚合物的分子量分布形狀,通過實(shí)時預(yù)測與反應(yīng)物

36、料添加控制實(shí)現(xiàn)閉環(huán)反饋,從而可以得到具有精準(zhǔn)目標(biāo)分子量分布,如具有高斯分布或雙峰分布的高分子產(chǎn)物.在高分子的自組裝相圖預(yù)測方面,F(xiàn)redrickson等將SCFT解析中的Hamiltonian函數(shù)引入神經(jīng)網(wǎng)絡(luò)的打分函數(shù),極大地促進(jìn)了函數(shù)解析的收斂速度,通過深度學(xué)習(xí)建立了密度分布函數(shù)鞍點(diǎn)對高分子結(jié)構(gòu)和組成參數(shù)的依賴性,實(shí)現(xiàn)了自組裝相圖的快速計算90.林嘉平等通過組成和作用空間的網(wǎng)格細(xì)化,結(jié)合主動學(xué)習(xí)對SCFT計算相區(qū)邊界的快速定位,提升了自組裝相區(qū)的識別精度91.Shen等則借助機(jī)器學(xué)習(xí)與相場模型計算的結(jié)合,對聚偏氟依稀PVDF復(fù)合物的介電、導(dǎo)電和楊氏模量進(jìn)行了預(yù)測92,豐富了對CPSPPr中微

37、觀結(jié)構(gòu)和相界面的認(rèn)識,提升了具有特定微結(jié)構(gòu)高分子新材料的設(shè)計能力.4.3機(jī)械熱性質(zhì)由于高分子材料一般隨溫度升高經(jīng)歷玻璃化轉(zhuǎn)變溫度(Tg)和熔點(diǎn)(Tm)區(qū)間可表現(xiàn)為玻璃態(tài)塑料、高彈態(tài)橡膠和黏流態(tài)熔體,其機(jī)械性質(zhì)發(fā)生明顯改變.因此,無論是高分子均聚物、共聚物、共混體系還是復(fù)合材料,其機(jī)械和熱性質(zhì)是密不可分的.在熱性質(zhì)方面,常被看作高分子本征性質(zhì)的Tg,Tm以及結(jié)晶、玻璃化轉(zhuǎn)變熱焓等與高分子的化學(xué)、立構(gòu)和拓?fù)浣Y(jié)構(gòu)密切相關(guān),也是機(jī)器學(xué)習(xí)長期關(guān)注的預(yù)測目標(biāo).在機(jī)械性質(zhì)方面,主要包括楊氏模量、拉伸模量、損耗角(tan)等源于高分子材料形變中的應(yīng)力-應(yīng)變關(guān)系既是理論計算方法,即本構(gòu)模型關(guān)注的重點(diǎn),也因其非線

38、性、非單調(diào)性等特點(diǎn)成為機(jī)器學(xué)習(xí)挑戰(zhàn)的難題.對高分子的Tg和Tm的機(jī)器學(xué)習(xí)預(yù)測已經(jīng)有較長的研究歷史.早期的流行方法是通過vanKervelen提出的基于基團(tuán)加和性方法來預(yù)測37,該方法的預(yù)測值只能提供定性參考.之后Bicerano39引入了一系列物理描述符,包括原子或鍵連接指數(shù),原子間相互作用等構(gòu)建了高分子Tg相關(guān)因素和關(guān)聯(lián)關(guān)系的物理模型.近年來,Liu和Cao93從DFT計算獲得的4個物理量(極化率、軌道能、熱能和熵)作為特征,進(jìn)而利用機(jī)器學(xué)習(xí)算法構(gòu)建了Tg的較為準(zhǔn)確預(yù)測模型.Joyce等94提出了一種基于單體SMILES本征性質(zhì)通過層級神經(jīng)網(wǎng)絡(luò)算法來預(yù)測Tg,Ramprasad等利用主動學(xué)習(xí)

39、結(jié)合GPR95對已知聚合物的Tg進(jìn)行了準(zhǔn)確預(yù)測.毫不夸張地說,從早期的自由體積概念解釋Tg96,到現(xiàn)在利用多因素的機(jī)器學(xué)習(xí)定量預(yù)測,玻璃化轉(zhuǎn)變溫度Tg的預(yù)測已然成為高分子材料建立大數(shù)據(jù)研究方法的“試金石”.通過拉伸曲線和動態(tài)力學(xué)曲線(DMTA)可以得到材料楊氏模量、屈服模量、韌度、斷裂伸長率和能量耗散等重要力學(xué)性質(zhì)參數(shù),由于這些量與材料多尺度多因素相關(guān),可用機(jī)器學(xué)習(xí)來建立定量的組成與性質(zhì)聯(lián)系.Jin等97利用機(jī)器學(xué)習(xí)優(yōu)化環(huán)氧樹脂的組成,針對楊氏模量、拉伸強(qiáng)度、斷裂伸長率和Tg4個性質(zhì)同時優(yōu)化得到高性能樹脂.在復(fù)合材料方面,Kopal等98使用神經(jīng)網(wǎng)絡(luò)準(zhǔn)確預(yù)測了炭黑含量對橡膠應(yīng)力-應(yīng)變曲線的影響

40、規(guī)律,Le等99,100應(yīng)用高斯過程回歸預(yù)測拉伸強(qiáng)度,應(yīng)用神經(jīng)網(wǎng)絡(luò)預(yù)測了復(fù)合材料楊氏模量對碳納米管量的依賴關(guān)系.對于DMTA曲線,Kopal等101采用神經(jīng)網(wǎng)絡(luò)算法對熱塑性聚氨酯建立了指導(dǎo)性定量模型,Jordan等102使用神經(jīng)網(wǎng)絡(luò)模型定量描述了聚丙烯的溫度依賴性和應(yīng)變速率的依賴性.這些研究雖然實(shí)現(xiàn)了給定機(jī)械熱性質(zhì)的準(zhǔn)確預(yù)測,但“黑盒子”神經(jīng)網(wǎng)絡(luò)模型的低可解釋性,無法給出目標(biāo)性質(zhì)的可實(shí)施調(diào)控方案而一直飽受詬病.一種變通的路線是將機(jī)器學(xué)習(xí)與計算模擬或本構(gòu)方程結(jié)合起來.例如:錢虎軍等103利用SVM結(jié)合MD模擬研究了高分子材料在Tg附近的形變過程,揭示了應(yīng)變局域化(strainlocalizati

41、on)對斷裂失效的重要貢獻(xiàn).Menon等104利用層次機(jī)器學(xué)習(xí)結(jié)合MonteCarlo模擬鏈構(gòu)象及統(tǒng)計力學(xué)性質(zhì),對聚氨酯彈性體的斷裂強(qiáng)度,斷裂應(yīng)變和tan進(jìn)行了準(zhǔn)確預(yù)測.Zhang等105利用隨機(jī)森林(RF)與MD模擬結(jié)合,構(gòu)建了聚脲化學(xué)結(jié)構(gòu)與有限元分析FEA的定量關(guān)聯(lián),從而為拓展聚酯類軟-硬嵌段共聚物材料的力學(xué)性質(zhì)提供參考.Ghaderi等106將三維應(yīng)力-應(yīng)變張量映射約化到一維并建立了可靠代理模型,相較于傳統(tǒng)本構(gòu)模型在計算速度和精度體現(xiàn)出顯著優(yōu)勢.Chung等107通過構(gòu)建神經(jīng)網(wǎng)絡(luò)本構(gòu)模型普適性地描述了聚苯乙烯(PS)在不同加載條件下(包括單向、雙軸和三軸的拉伸,壓縮和剪切)的應(yīng)力-應(yīng)變關(guān)

42、系.張立群等借助大數(shù)據(jù)分析了85種本構(gòu)模型對無填充橡膠和高填充橡膠拉伸曲線的準(zhǔn)確度108.我們在對聚氨酯彈性體力學(xué)性能大數(shù)據(jù)研究中,對本構(gòu)模型的描述曲線的定量特征、相互等價性及其對聚氨酯彈性體大量拉伸曲線的定量解釋度進(jìn)行了嚴(yán)格論證109,110,同時也對ABS樹脂的模量、強(qiáng)度和斷裂伸長率的可加和性進(jìn)行了驗(yàn)證,發(fā)現(xiàn)斷裂伸長率在不同組合下部分不滿足加和性111.雖然經(jīng)歷長期的研究和眾多努力,由于機(jī)械熱性質(zhì)的耦合與多尺度結(jié)構(gòu)變化密切相關(guān),無先驗(yàn)?zāi)P椭苯宇A(yù)測高分子材料的機(jī)械熱性質(zhì)仍然極具挑戰(zhàn).4.4光電聲磁性質(zhì)由于光電聲磁性質(zhì)往往是通過幾個納米尺度以內(nèi)官能團(tuán)的相互作用體現(xiàn),即使是包含聚集熒光猝滅(AC

43、Q)、聚集誘導(dǎo)發(fā)光(AIE)等前沿究熱點(diǎn),近程相互作用保障了其性質(zhì)的信號或代理量可以利用化學(xué)信息學(xué)方法較為準(zhǔn)確地計算和預(yù)測.這類性質(zhì)預(yù)測的核心是將機(jī)器學(xué)習(xí)與高通量第一性原理計算相結(jié)合,據(jù)此來設(shè)計具有特定光電聲磁性質(zhì)的高分子材料已有不少報道.部分代表性工作包括Lu等112立足于第一性原理數(shù)據(jù)庫,構(gòu)建了共軛聚電解質(zhì)的HOMO/LUMO及其帶隙(Eg)的準(zhǔn)確預(yù)測模型.Ramprasad等113在高分子基因組項(xiàng)目(polymergenome)的支持下,對聚合物及其復(fù)合材料的介電性質(zhì)、絕緣性質(zhì)、超級電容和靜電儲能等性質(zhì)進(jìn)行了準(zhǔn)確預(yù)測,并推進(jìn)了新材料的生產(chǎn)應(yīng)用.南策文等114開發(fā)了反向傳播神經(jīng)網(wǎng)絡(luò)增強(qiáng)的相

44、場模型來模擬聚合物納米復(fù)合材料的介電響應(yīng)、電荷傳輸和擊穿過程,對電容等儲能材料性能進(jìn)行可靠的虛擬評估,減少材料研發(fā)中的試錯.一系列的聚合物特性包含帶隙、介電常數(shù)、原子化能和溶解度參數(shù)、濁點(diǎn)等,也可使用機(jī)器學(xué)習(xí)實(shí)現(xiàn)準(zhǔn)確預(yù)測.例如:高分子折射率QSPR的多元線性模型揭示了sp2雜化碳原子的重要貢獻(xiàn)115,該思路啟發(fā)了高導(dǎo)熱新型聚合物的設(shè)計116.在高分子光伏材料方面,Saeki等117基于RF預(yù)測模型,對聚合物和非富勒烯小分子受體有機(jī)光伏性質(zhì)預(yù)測達(dá)到85%置信度,進(jìn)而對二十余萬個虛擬共軛聚合物進(jìn)行了高通量篩選,篩選出候選的苯并二噻吩和噻唑并噻唑的系列共軛聚合物,進(jìn)而得到實(shí)驗(yàn)驗(yàn)證.Min等118基于

45、565個供體/非富勒烯受體(D/A)組合,發(fā)現(xiàn)隨機(jī)森林模型在LR、MLR、BRT、RF、ANN5種常用機(jī)器學(xué)習(xí)算法表現(xiàn)最好,為共軛聚合物光伏性能預(yù)測算法和指導(dǎo)有機(jī)光伏材料設(shè)計制備提供了可靠參考.Ohuchi等119應(yīng)用自組織映射的無監(jiān)督機(jī)器學(xué)習(xí)結(jié)合分子描述符成功建立了分子化學(xué)結(jié)構(gòu)與有機(jī)光伏材料的功率轉(zhuǎn)換效率(PCE)的代理模型.Sun等120引入圖論、字符串、描述符和指紋來表示高分子的化學(xué)結(jié)構(gòu),發(fā)現(xiàn)長度超過1000位的特征可以應(yīng)用多種機(jī)器學(xué)習(xí)算法對PCE實(shí)現(xiàn)高準(zhǔn)確度穩(wěn)定預(yù)測.在與模擬仿真的結(jié)合中,Pablo等121通過將監(jiān)督式機(jī)器學(xué)習(xí)算法聚焦光電效率的哈密頓量,通過聚合物的構(gòu)象集合對非晶和多分

46、散共軛材料中電子結(jié)構(gòu)的計算提供了可靠預(yù)測,其計算效率和準(zhǔn)確性明顯優(yōu)于已報道方法,為拓展柔性非共軛聚合物光伏材料的高通量設(shè)計提供了成功范例.4.5分離性質(zhì)預(yù)測高分子材料在物質(zhì)分離領(lǐng)域具有廣泛而重要的應(yīng)用.物質(zhì)分離主要有相變(如蒸餾、升華、沉淀、結(jié)晶等)、色譜(氣相色譜、液相色譜等)、分配吸附(萃取、層析)、尺寸或密度差(過濾、離心等)、離子交換和膜分離等方法.在此聚焦聚合物分離膜方面,按應(yīng)用場景可分為氣體、水處理、離子膜、能源膜和有機(jī)分離膜等,按分離物質(zhì)尺寸可分為微濾、超濾、納濾、滲透膜、膜蒸餾、膜萃取等,膜的組成、微結(jié)構(gòu)和表面是性能調(diào)控的核心因素.而分離膜的性能指標(biāo)包含驅(qū)動力種類和能耗、通量、

47、選擇性、抗污能力、穩(wěn)定性、循環(huán)穩(wěn)定性等因素,分離物質(zhì)需要考慮分配比、尺寸比、極性、靜電力、氫鍵、條件響應(yīng)性等,聚合物膜的組成、制備工藝和使用條件都會對膜性能產(chǎn)生重要影響.因此,利用大數(shù)據(jù)研究聚合物分離膜的CPSPPr具有獨(dú)特的優(yōu)勢.我們通過對聚合物質(zhì)子交換膜(PEM)的CPSPPr的開展了一系列大數(shù)據(jù)研究,包括溫度、水含量、復(fù)合材料對全氟磺酸(PFSA)膜122126,以及碳?xì)浠撬崮さ慕Y(jié)構(gòu)、性質(zhì)以及膜電極性能的極化曲線127,128,為設(shè)計和制備質(zhì)子交換膜燃料電池(PEMFC)的核心膜材料提供了可靠參考和虛擬實(shí)驗(yàn)設(shè)計工具.與此同時,對包括聚砜(PSF)、聚醚砜(PES)和聚偏氟乙烯(PVDF)

48、基材的超濾、微濾和納濾膜的性能進(jìn)行了可靠預(yù)測和等級分類,并開發(fā)了相應(yīng)的軟件包PolySML(發(fā)布在polysml.github.io)來實(shí)現(xiàn)計算機(jī)輔助材料設(shè)計129.基于這些研究,提出了Lsig值方法的特征信息量、信息冗余和預(yù)測模型可靠性的一致性判據(jù),該方法對于各類高分子材料的大數(shù)據(jù)研究具有通用性.在全世界可持續(xù)發(fā)展,我國的“碳達(dá)峰,碳中和”等的政策趨勢引導(dǎo)下,氣體分離膜材料的大數(shù)據(jù)研究呈現(xiàn)出爆發(fā)式增長.模型氣體分離對包含CH4/CO2,CO2/N2,O2/N2等也過渡到較難的分離如多組分混合氣體、C1C4混合氣和烯烴烷烴混合氣等,經(jīng)典的材料體系分子篩、多酸和MOF等仍占主流,高分子材料則聚焦

49、在聚酰亞胺、芳綸、聚硅烷等對氣體具有不同滲透系數(shù)的致密膜材料.利用剛性聚合物或自具微孔聚合物(PIM)制備氣體分離膜成為前沿?zé)狳c(diǎn),Kumar等130基于聚合物單體的拓?fù)浣Y(jié)構(gòu),利用基于路徑的特征法訓(xùn)練了高斯過程回歸算法,高通量篩選了萬余種均聚物的氣體分離行為,并合成了兩種最具潛力的聚合物,發(fā)現(xiàn)它們超越了CO2/CH4分離性能的Robeson上限.Lively等131利用分子指紋將聚合物結(jié)構(gòu)表征作為機(jī)器學(xué)習(xí)算法的輸入,建立了高精度的聚合物膜透氣性預(yù)測模型,該模型對不同官能團(tuán)的聚合物基材的膜氣體分離性質(zhì)進(jìn)行了可靠預(yù)測.在能源膜領(lǐng)域,伴隨著鋰離子電池快速增長的巨大市場,聚合物鋰離子隔膜的研究也大量地豐

50、富起來.Oyaizu等132構(gòu)建了迄今最大的鋰導(dǎo)電固體聚合物電解質(zhì)數(shù)據(jù)庫(含約104個樣本),利用遷移學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)準(zhǔn)確預(yù)測這些電解質(zhì)的電導(dǎo)率,平均絕對誤差小于1S/cm.Ganesan等133將粗?;肿觿恿W(xué)模擬和貝葉斯優(yōu)化結(jié)合同時預(yù)測了離子電導(dǎo)率和粘度兩個目標(biāo),給出了鋰離子電池中離子傳輸和機(jī)械性質(zhì)的權(quán)衡關(guān)系.Grossman等134利用類似的粗?;肿觿恿W(xué)模擬與機(jī)器學(xué)習(xí)結(jié)合,在物理描述符的高維空間剖析了鋰電導(dǎo)率與材料本征性質(zhì)的關(guān)系,為改進(jìn)電解質(zhì)配方提供了參考.Seshadri等135則為鋰離子電池的電解質(zhì)創(chuàng)建了圖形化的交互式數(shù)據(jù)平臺,支持材料篩選和性質(zhì)設(shè)計,為計算輔助設(shè)計提供了虛擬實(shí)

51、驗(yàn)平臺.聚合物分離膜的大數(shù)據(jù)研究在近幾年被密集報道,值得一提的還有Razmjou等136利用神經(jīng)網(wǎng)絡(luò)和貝葉斯正則化算法對超濾納米復(fù)合膜的性能預(yù)測,He等137利用深度學(xué)習(xí)對陰離子交換膜的OH-電導(dǎo)率預(yù)測等.而MOF方面繼續(xù)取得顯著進(jìn)展,Snurr等138利用機(jī)器學(xué)習(xí)和分子指紋設(shè)計了新的MOF材料,使手性小分子的分離效率提升到85%.契合2022年諾貝爾化學(xué)獎對手性反應(yīng)的支持,手性物質(zhì)分離迅速成為當(dāng)前的研究熱點(diǎn),但相應(yīng)的高分子分離膜設(shè)計和制備充滿挑戰(zhàn),大數(shù)據(jù)研究正助力該難題的解決.5難題與挑戰(zhàn)如前所述,建立高分子材料的定量CPSPPr是大數(shù)據(jù)研究的核心,在數(shù)學(xué)本質(zhì)上是譜學(xué)數(shù)據(jù)的預(yù)測.目前基于量化

52、計算對小分子的多尺度譜學(xué)數(shù)據(jù)已能較為準(zhǔn)確的計算和預(yù)測,對于多分散系數(shù)趨近于1的體系如蛋白、核酸等其結(jié)構(gòu)和生物活性利用生物信息學(xué)的一體化建模(information-drivenintegrativemodeling)已經(jīng)能夠提供可與人類專家媲美的準(zhǔn)確預(yù)測.蛋白與核酸結(jié)構(gòu)定量化的成功與PDB的長期建設(shè)密不可分,但對于高分子,由于其二面角旋轉(zhuǎn)位壘與熱漲落能量1kBT相當(dāng),并缺少蛋白和核酸分子中的密集氫鍵約束,高分子材料的結(jié)構(gòu)數(shù)據(jù)不能夠用原子坐標(biāo)的辦法直接描述,需要更復(fù)雜的構(gòu)象集合來表示,但目前還缺少公認(rèn)可靠高效的概念和框架.在實(shí)際的高分子材料體系,往往還包括一定量的復(fù)合成分、添加劑或助劑,這些物質(zhì)

53、分布廣泛,小分子可用的比如SMILES定量描述系統(tǒng)失效,而高分子自帶的手性、支化、成環(huán)、長程作用的芳環(huán)堆砌、靜電作用等對構(gòu)象、聚集和性質(zhì)的影響規(guī)律往往還依賴計算模擬近似分析,缺少可遷移利用的基礎(chǔ)定量數(shù)據(jù).總的來說,對于具有典型的多分散、局域精度高和大尺度準(zhǔn)確、存在非線性、非單調(diào)性累積協(xié)同效應(yīng)的高分子材料體系,從近程作用化學(xué)異構(gòu)和拓?fù)浣Y(jié)構(gòu)的化學(xué)信息學(xué)定量描述到跨尺度關(guān)聯(lián),大數(shù)據(jù)研究仍面臨權(quán)衡.這些問題在傳統(tǒng)研究中長期存在,常見表述為臨界現(xiàn)象、相變和相轉(zhuǎn)變、標(biāo)度行為、多級弛豫等概念模型.理論模型中會采用了多種近似,如假定結(jié)構(gòu)分布在平均場背景中、或假定高分子鏈長或拓?fù)浣Y(jié)構(gòu)滿足高斯分布、或假定物質(zhì)聚集

54、可用隨機(jī)相近似(randomphaseapproximation,RPA),或假定結(jié)構(gòu)和性質(zhì)關(guān)系在多層次具有自相似性(selfsimilarity),或在臨界點(diǎn)附近如圖1所示拖尾分布存在標(biāo)度關(guān)系指數(shù)分布等.在實(shí)際應(yīng)用的材料中,這些假設(shè)可能失效但某些模型在一定條件下可能仍舊適用,而理論模型的不可靠性需要嚴(yán)格評估.因此,當(dāng)前高分子材料大數(shù)據(jù)研究的首要難題和挑戰(zhàn)是系統(tǒng)客觀地評估已有的理論模型、經(jīng)驗(yàn)公式的可靠性,以及模型定量描述的準(zhǔn)確度和適用性邊界.其次,隨著研究論文報告數(shù)量快速增長,高分子材料多方面的一手?jǐn)?shù)據(jù)已相當(dāng)豐富但某些關(guān)注性質(zhì)仍趨于在較窄的分布區(qū)間,在利用大數(shù)據(jù)構(gòu)建CPSPPr過程中極有可能出

55、現(xiàn)多重簡并,在機(jī)器學(xué)習(xí)的“黑盒子”算法中出現(xiàn)非唯一解.在沒有高分子專家深入?yún)⑴c的情況下,有相當(dāng)一部分研究報道過分追求定量模型的高可靠性或者在給定數(shù)據(jù)集中的低泛化誤差(generalizationerror),再加上機(jī)器學(xué)習(xí)黑盒子的特點(diǎn),需要在精度與覆蓋度、完備性與“小數(shù)據(jù)”精準(zhǔn)性、偏差-方差權(quán)衡等方面,合理控制預(yù)測性能和可解釋性.然而近幾年報道的相當(dāng)一部分機(jī)器學(xué)習(xí)模型的解釋性非常差,甚至某些參量因素可能與目標(biāo)預(yù)測量形成與常規(guī)共識相悖的關(guān)系,這些預(yù)測模型可能對后續(xù)研究產(chǎn)生誤導(dǎo).這類現(xiàn)象正是高分子材料局域弱效應(yīng),長程作用累積強(qiáng)響應(yīng)的典型特征寫照.另外,在高分子材料大數(shù)據(jù)研究的更多場景,由于研究或應(yīng)

56、用的關(guān)注點(diǎn)不同,每種高分子材料各方面的性質(zhì)屬性往往存在缺失.目前通用的一些數(shù)據(jù)缺失值處理方法,如最可幾、均值法、近鄰插值等在高分子材料中極可能引入不確定性,特別是當(dāng)材料體系在相轉(zhuǎn)變臨界點(diǎn)附近等.因此,大數(shù)據(jù)定量決策模型的唯一性和可解釋性是普遍亟需解決的難題之一.目前已有一些科學(xué)家注意到這類問題,如基于博弈理論的Shapley值法139,或者在有限數(shù)據(jù)集中的SHAP技術(shù)等45在材料領(lǐng)域已得到初步應(yīng)用.歸功于量化計算和化學(xué)信息學(xué)的進(jìn)展,目前針對小分子、金屬材料和無機(jī)非金屬材料的“逆設(shè)計”已能實(shí)現(xiàn)高通量計算和高通量篩選.但對于高分子材料,由于其多分散、多尺度響應(yīng)的特點(diǎn),高效可靠的計算方法仍未實(shí)現(xiàn).筆

57、者看來,高分子材料要實(shí)現(xiàn)“逆設(shè)計”,首先需要建立一系列可靠的基準(zhǔn)數(shù)據(jù)集(benchmarkdataset),這些數(shù)據(jù)集源于廣泛使用的、可靠的成分結(jié)構(gòu)和性質(zhì)表征方法,對CPSPPr中各要素有準(zhǔn)確描述,且對某類聚焦性質(zhì)、聚合物種類、加工方法等具有完備性和代表性.這些數(shù)據(jù)集的建設(shè)一方面需要支持科研人員對商品或?qū)嶒?yàn)樣品開展批量的測試表征獲得一致性數(shù)據(jù),另一方面需要支持理論計算人員將已有的大量分散數(shù)據(jù)匯集起來,建立不同源數(shù)據(jù)之間的關(guān)聯(lián)和定量轉(zhuǎn)換關(guān)系.特別是要改變工業(yè)和工程材料數(shù)據(jù)與實(shí)驗(yàn)室測試數(shù)據(jù)脫節(jié),通用報告標(biāo)準(zhǔn)缺乏,相互不能參考,數(shù)據(jù)陷入不同標(biāo)準(zhǔn)中離散不可用的現(xiàn)狀.即使是同領(lǐng)域的學(xué)術(shù)論文中,由于缺乏對

58、數(shù)據(jù)、特征和實(shí)驗(yàn)細(xì)節(jié)的充分表述,對后續(xù)研究和重復(fù)性驗(yàn)證造成障礙.如在高分子材料制備、加工過程數(shù)據(jù)的收集和預(yù)測,類似不飽和聚酯溶液黏度140,材料成形過程多尺度結(jié)構(gòu)和特征141等方面僅有少量報道.更普遍地,工業(yè)的拉彎沖測試眾多標(biāo)準(zhǔn)不一,與實(shí)驗(yàn)室測試無法點(diǎn)對點(diǎn)轉(zhuǎn)換,合成加工工藝缺乏通用制式流程,實(shí)驗(yàn)室個性化,工業(yè)穩(wěn)定性不能一統(tǒng)江湖,也是學(xué)術(shù)界和工業(yè)界數(shù)據(jù)斷層的重要原因.在高分子材料從實(shí)驗(yàn)室走向生產(chǎn)線的過程中,還涉及批量生產(chǎn)中的良品率、穩(wěn)定性、樣品/產(chǎn)品性質(zhì)對調(diào)控參數(shù)依賴的一致性等重要的調(diào)控數(shù)據(jù).其中針對大宗材料的特定應(yīng)用(如聚丙烯樹脂可用于拉絲成纖、吹膜、發(fā)泡、注塑、壓模等制備服裝、醫(yī)療器械、包裝、汽車、家電、自行車、管

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論