未来用于小分子药物发现的机器学习将由数据驱动
全文速览本文讨论了机器学习(ML)在小分子药物发现领域的未来前景,强调了数据在训练和基准测试这些模型中的重要性。尽管ML算法和架构不断创新,但在药物发现领域的成果并不总是显著。文章提出,通过更关注训练数据和解决数据挑战,可以推动未来的改进。文章还探讨了未来研究的途径和策略,以应对这些数据挑战。
背景介绍小分子*疗药物占全球批准药物的90%,是制药行业的主要模式。它们是低分子量的化合物,能够调节生物过程以*疗或预防疾病。尽管小分子药物的开发充满挑战,但ML和AI在其他领域的成功让业界对它们在药物开发中的潜力抱有**希望。ML通过算法直接从数据中识别和建模模式,这需要大量、低噪声的数据来有效学习有意义的模式。然而,ML在小分子药物发现中的应用并没有像在计算机视觉、自然语言处理和蛋白质结构预测等领域那样取得显著成功。
图文解析
图1展示了三个小分子ML方法的流行基准测试集(CASF-2016、USPTO-50k和HIV MoleculeNet)的准确性与发布日期的关系。这些图表显示了不同ML架构(如GNN、Transformer、CNN、Tree NN和非ML方法)在不同时间点的性能。结果表明,使用这些基准测试集对于泛化和特定小分子ML方法几乎没有或没有改进。例如,CASF-2016和HIV MoleculeNet显示没有趋势,而USPTO-50k显示了逐渐的改进,但没有出现“AlphaFold2时刻”。在这篇文章中,作者们深入探讨了机器学习(ML)在小分子药物发现领域的应用前景,并对如何通过改进数据质量和数量来推动这一领域的发展提出了见解。文章首先强调了数据在ML模型训练和基准测试中的核心作用。尽管ML算法和架构不断进步,但在小分子药物发现领域的应用成果并不总是与这些技术在其他领域(如计算机视觉和自然语言处理)所取得的显著成功相匹配。作者提出,未来的改进更可能来自于对训练数据的更多关注,以及探索解决数据挑战的新途径。
文献来源:
https://www.nature.com/articles/s43588-024-00699-0#data-availability