對新型環境污染物(POPs/PBTs)的識别對危險化學品管控、治理環境污染、以及保護人體健康具有極為重要的意義。但對工業化學品庫中潛在的新型環境污染物進行快速準确的篩查鑒定一直是一個難題。由于新型環境污染物在工業化學品庫中的比例相對較小,采用傳統實驗室鑒定方法周期長、價格昂貴、并且效率低下。運用定量-構效原理對已知化學品結構特征進行量化描述,通過建立理論預測模型,對未知化合物進行快速評估,是突破化學品快速識别難題的一個出路。但傳統定量-構效模型需要對海量分子特征描述符進行人為篩選,并且訓練樣本數量有限,極大的限制了該類模型的泛用性及預測準确度。
環境學院孫翔飛博士、曾永平教授及其合作者等基于深度神經網絡原理,開發出全新的環境有機污染物快速識别模型。将2424個分子描述符組成的二維平面構象作為輸入,使用11296個化合物組成的訓練數據集對模型進行監督學習訓練。使該模型在測試數據集上的整體預測精度達到了95.3%,對陽性樣本的預測精度超過了80%。由于不需要預先對分子描述符進行人為篩選,該方法最大程度的保留了化學品的原始結構特征,使得新模型在泛用性上有顯著改善。使用交叉驗證對模型的泛用性進行測試,可以觀察到模型在不同類型化學品中的表現都非常穩定,甚至對有機金屬鹽和離子型化合物都具有廣泛的适用性。在歐盟REACH PBT評估清單測試中。新模型成功識别出了清單上全部12種已具有實驗室鑒定結論的POPs/PBTs(共計52種化合物),整體識别精度達到了90.4%預測。
新模型對各國現有的工業化學品數據庫共計58079種化合物進行了測試,共檢測出了4011種高度疑似的有機環境污染物,其中包含大量的芳香族化合物(2601種)、含鹵有機物(3115)、以及843種多氟或全氟有機物。除此之外,模型還檢測出了94種矽氧類化合物、96種磺酸類化合物、74種羟酸類化合物、以及少量的脂肪族類有機物。鑒于新模型在預測新型POPs/PBTs類化合物的有效性,這些新發現的化合物值得進一步的鑒定和研究,為擴充已有的POPs/PBTs清單,完善危險化學品管控名錄,具有及其重要的環境學意義。
相關成果近期發表在Environmental Science and Technology上,本研究受到國家自然科學基金項目(No.21637001)資助。
Sun, X.; Zhang, X.; Muir, D. C. G.; Zeng, E. Y., Identification of Potential PBT/POP-Like Chemicals by a Deep Learning Approach Based on 2D Structural Features. Environ. Sci. Technol. 2020, 54 (13), 8221-8231.
論文鍊接:https://pubs.acs.org/doi/10.1021/acs.est.0c01437