La síntesis química es esencial en el explicación de nuevas moléculas para aplicaciones médicas, ciencia de materiales y química fina. Este proceso, que implica planificar reacciones químicas para crear las moléculas objetivo deseadas, ha dependido tradicionalmente de la experiencia humana. Los avances recientes han recurrido a métodos computacionales para mejorar la eficiencia de la retrosíntesis: trabajar cerca de a espaldas desde una molécula objetivo para determinar la serie de reacciones necesarias para sintetizarla. Aprovechando las técnicas computacionales modernas, los investigadores pretenden resolver cuellos de botella de larga data en la química sintética, haciendo que estos procesos sean más rápidos y precisos.
Uno de los desafíos críticos en la retrosíntesis es predecir con precisión reacciones químicas que son raras o que se encuentran con menos frecuencia. Estas reacciones, aunque poco comunes, son vitales para diseñar nuevas vías químicas. Los modelos tradicionales de educación inconsciente a menudo no logran predecir estas reacciones correcto a una representación insuficiente en los datos de entrenamiento. Encima, los errores de planificación de la retrosíntesis de varios pasos pueden producirse en cascada, lo que da puesto a rutas sintéticas no válidas. Esta término dificulta la capacidad de explorar vías innovadoras y diversas para la síntesis química, particularmente en casos que requieren reacciones poco comunes.
Los métodos computacionales existentes para la retrosíntesis se han centrado principalmente en modelos de un solo paso o sistemas expertos basados en reglas. Estos métodos se basan en reglas predefinidas o conjuntos de datos de entrenamiento extensos, lo que limita su adaptabilidad a tipos de reacciones nuevos y únicos. Por ejemplo, algunos enfoques utilizan modelos basados en gráficos o secuencias para predecir las transformaciones más probables. Si proporcionadamente estos métodos han mejorado la precisión de las reacciones comunes, a menudo necesitan más flexibilidad para tener en cuenta las complejidades y matices de transformaciones químicas raras, lo que genera una brecha en la planificación retrosintética integral.
Investigadores de Microsoft Research, Novartis Biomedical Research y la Universidad Jagiellonian desarrollaron Chimera, un entorno conjunto para la predicción de retrosíntesis. Chimera integra resultados de múltiples modelos de educación inconsciente con diversos sesgos inductivos, combinando sus fortalezas a través de un mecanismo de clasificación aprendido. Este enfoque aprovecha dos modelos de última procreación desarrollados recientemente: NeuralLoc, que se centra en la estampación de moléculas utilizando redes neuronales gráficas, y R-SMILES 2, un maniquí de novo que emplea una inmueble Transformer de secuencia a secuencia. Al combinar estos modelos, Chimera mejoría tanto la precisión como la escalabilidad de las predicciones retrosintéticas.
La metodología detrás de Chimera se sostén en combinar los resultados de sus modelos constituyentes a través de un sistema de clasificación que asigna puntuaciones según la concordancia del maniquí y la confianza predictiva. NeuralLoc codifica estructuras moleculares como gráficos, lo que permite una predicción precisa de sitios y plantillas de reacción. Este método garantiza que las transformaciones predichas se alineen estrechamente con las reglas químicas conocidas y, al mismo tiempo, mantenga la eficiencia computacional. Mientras tanto, R-SMILES 2 utiliza mecanismos de atención avanzados, incluida la atención de consulta grupal, para predecir vías de reacción. La inmueble de este maniquí igualmente incorpora mejoras en las funciones de normalización y activación, lo que garantiza un flujo de gradiente y una velocidad de inferencia superiores. Chimera combina estas predicciones, utilizando puntuaciones basadas en superposiciones para clasificar las vías potenciales. Esta integración garantiza que el entorno equilibre los puntos fuertes de los enfoques basados en estampación y de novo, lo que permite predicciones sólidas incluso para reacciones complejas y raras.
El rendimiento de Chimera se ha validado rigurosamente con conjuntos de datos disponibles públicamente, como USPTO-50K y USPTO-FULL, así como con el conjunto de datos patentado Pistachio. En USPTO-50K, Chimera logró una mejoría del 1,7% en la precisión de las 10 predicciones principales con respecto a los métodos de última procreación anteriores, lo que demuestra su capacidad para predecir con precisión reacciones tanto comunes como raras. En USPTO-FULL, mejoró aún más la precisión del top 10 en un 1,6%. La ampliación del maniquí al conjunto de datos de Pistachio, que contiene más de tres veces los datos de USPTO-FULL, mostró que Chimera mantuvo una entrada precisión en una viso más amplia de reacciones. Las comparaciones de expertos con químicos orgánicos revelaron que las predicciones de Chimera fueron consistentemente preferidas a los modelos individuales, lo que confirma su poder en aplicaciones prácticas.
El entorno igualmente se probó en un conjunto de datos interno de Novartis de más de 10.000 reacciones para evaluar su solidez frente a cambios de distribución. En esta configuración de disparo cero, donde no se realizaron ajustes adicionales, Chimera demostró una precisión superior en comparación con sus modelos constituyentes. Esto destaca su capacidad para extender entre conjuntos de datos y predecir rutas sintéticas viables incluso en escenarios del mundo auténtico. Encima, Chimera se destacó en tareas de retrosíntesis de varios pasos, logrando tasas de éxito cercanas al 100 % en puntos de narración como SimpRetro, superando significativamente a los modelos individuales. La capacidad del entorno para encontrar vías para moléculas en extremo desafiantes subraya aún más su potencial para mudar la retrosíntesis computacional.
Chimera representa un avance reformador en la predicción de retrosíntesis al invadir los desafíos de la predicción de reacciones raras y la planificación de varios pasos. El entorno demuestra una precisión y escalabilidad superiores al integrar diversos modelos y gastar un mecanismo de clasificación sólido. Con su capacidad para extender conjuntos de datos y sobresalir en tareas retrosintéticas complejas, Chimera está preparada para acelerar el progreso en la síntesis química, allanando el camino para enfoques innovadores del diseño molecular.
Revisar el Papel. Todo el crédito por esta investigación va a los investigadores de este esquema. Encima, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
Nikhil es asesor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida experiencia en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.