瑞士和德國的學者在ECHA的REACH注冊物質數據庫中分析了8,590種物質,發現其中4.3%的物質,基于分子結構的化學身份信息存在不一致的情況。這樣的信息可能會導致對化學風險得出錯誤的結論,特別是當風險評估依賴于群組或QSAR結果時,因此,正確的化學結構至關重要。
研究人員對以下三個數據庫進行了對比分析:
1. ECHA數據庫,涵蓋了23,000多種物質;
2. 由美國國家衛生研究院運營的開放式化學數據庫PubChem,包含1.1億個獨立的化學結構;
3. 由美國環境保護局運營的CompTox化學品指示板,包含900,000多種化學物質。
他們重點關注了ECHA數據庫中37%的有機單組分物質,不包括中間體和卷宗中沒有來源或成分信息的物質,研究人員在其他數據庫中查詢相同的物質進行了比較。在這三個數據庫中,共有736個不一致的條目,還有48個條目的物質身份不明確。根據簡化分子線性輸入規范(SMILES)字符串,這些條目是不一致的,該字符串通過一行文本描述了化合物的完整分子結構。
在ECHA數據庫中,不一致的條目數量占4.3%,在CompTox化學品指示板中占3%,在PubChem中占2.8%。如果SMILES字符串中的單個原子、分子的部分或整個物質是不正確的,可能會導致QSAR建模的預測出現“重大錯誤”,將會導致風險評估結果出現極大的不確定性。因此,不一致的條目數量表明數據庫中的數據篩選工作進行得仍然不夠充分,還需要進行更多的工作。
相關推薦: