Se han hecho muchos intentos para usar el poder de la nueva inteligencia sintético y los modelos de estilo excelso (LLM) para tratar de predecir los resultados de las nuevas reacciones químicas. Estos han tenido un éxito acotado, en parte porque hasta ahora no se han basado en la comprensión de los principios físicos fundamentales, como las leyes de conservación de la masa. Ahora, un equipo de investigadores del MIT ha presentado una forma de incorporar estas limitaciones físicas en un maniquí de predicción de reacción y, por lo tanto, mejorar en gran medida la precisión y confiabilidad de sus resultados.
El nuevo trabajo fue reportado el 20 de agosto en el diario Naturalezaen un artículo de Postdoc JoyOong Joung (ahora profesor asistente en la Universidad de Kookmin, Corea del Sur); ex ingeniero de software Mun Hong Fong (ahora en la Universidad de Duke); Estudiante titulado de ingeniería química Nicholas Casetti; Postdoc Jordan Liles; Estudiante de pregrado de física NE Dassanayake; y el autor senior Connor Coley, quien es profesor de ampliación profesional de 1957 en los Departamentos de Ingeniería Química e Ingeniería Eléctrica e Informática.
«La predicción de los resultados de reacción es una tarea muy importante», explica Joung. Por ejemplo, si desea hacer un nuevo medicamento, «necesita conocer cómo hacerlo. Por lo tanto, esto requiere que sepamos qué producto es probable» que resulte de un conjunto legado de entradas químicas a una reacción. Pero la mayoría de los esfuerzos anteriores para resistir a punta tales predicciones solo miran un conjunto de entradas y un conjunto de expectativas, sin mirar los pasos intermedios o considerar las limitaciones de respaldar que no se gane o se pierda masa en el proceso, lo que no es posible en las reacciones reales.
Joung señala que, si correctamente los modelos de idiomas grandes como ChatGPT han tenido mucho éxito en muchas áreas de investigación, estos modelos no proporcionan una forma de condicionar sus resultados a posibilidades físicamente realistas, como exigirles que se adhieran a la conservación de la masa. Estos modelos usan «tokens» computacionales, que en este caso representan átomos individuales, pero «si no conserva los tokens, el maniquí LLM comienza a hacer átomos nuevos o elimina los átomos en la reacción». En superficie de estar basado en una verdadera comprensión científica, «esto es como una alquimia», dice. Si correctamente muchos intentos de predicción de reacción solo miran los productos finales, «queremos rastrear todos los productos químicos y cómo se transforman los productos químicos» a lo dilatado del proceso de reacción de principio a fin, dice.
Para acometer el problema, el equipo hizo uso de un método desarrollado en la división de 1970 por el químico Ivar Ugi, que utiliza una matriz de electrones de enlace para representar los electrones en una reacción. Utilizaron este sistema como almohadilla para su nuevo software, llamado Flower (coincidencia de flujo para la redistribución de electrones), lo que les permite realizar un seguimiento claro de todos los electrones en la reacción para respaldar que nadie se agregue o elimine espuriosamente en el proceso.
El sistema utiliza una matriz para representar los electrones en una reacción y utiliza títulos distintos de cero para representar enlaces o pares de electrones solitarios y ceros para representar una yerro de ellos. «Eso nos ayuda a conservar átomos y electrones al mismo tiempo», dice Fong. Esta representación, dice, fue uno de los instrumentos esencia para incluir la conservación de masas en su sistema de predicción.
El sistema que desarrollaron todavía está en una etapa temprana, dice Coley. «El sistema tal como está es una demostración: una prueba de concepto de que este enfoque generativo de la coincidencia de flujo es muy adecuado para la tarea de predicción de reacción química». Si correctamente el equipo está entusiasmado con este enfoque prometedor, dice: «Somos conscientes de que tiene limitaciones específicas en cuanto a la amplitud de diferentes químicas que se ve». Aunque el maniquí fue entrenado utilizando datos sobre más de un millón de reacciones químicas, obtenidas de una almohadilla de datos de la oficina de patentes de EE. UU., Esos datos no incluyen ciertos metales y algunos tipos de reacciones catalíticas, dice.
«Estamos increíblemente entusiasmados con el hecho de que podemos obtener predicciones tan confiables de los mecanismos químicos» del sistema existente, dice. «Conserva la masa, conserva electrones, pero ciertamente reconocemos que todavía hay mucha más expansión y robustez en los próximos abriles».
Pero incluso en su forma contemporáneo, que se está haciendo gratis a través de la plataforma en crencha GitHub, «creemos que hará predicciones precisas y será útil como una utensilio para evaluar la reactividad y mapear las vías de reacción», dice Coley. «Si estamos mirando con destino a el futuro de avanzar positivamente en el estado del arte de la comprensión mecanicista y ayudar a inventar nuevas reacciones, no estamos del todo allí. Pero esperamos que sea un trampolín con destino a eso».
«Todo es código amplio», dice Fong. «Los modelos, los datos, todos ellos están allí», incluido un conjunto de datos inicial desarrollado por Joung que enumera exhaustivamente los pasos mecanicistas de reacciones conocidas. «Creo que somos uno de los grupos pioneros que hacen este conjunto de datos, y lo ponemos a disposición de la fuente abierta, y lo hacemos aprovechable para todos», dice.
El maniquí de flores coincide o supera a los enfoques existentes para encontrar vías mecanicistas standard, dice el equipo, y hace posible difundir a los tipos de reacción previamente invisibles. Dicen que el maniquí podría ser potencialmente relevante para predecir reacciones para la química medicinal, el descubrimiento de materiales, la combustión, la química atmosférica y los sistemas electroquímicos.
En sus comparaciones con los sistemas de predicción de reacción existentes, Coley dice: «Utilizando las opciones de cimentación que hemos hecho, obtenemos este aumento masivo en validez y conservación, y obtenemos una precisión coincidente o un poco mejor en términos de rendimiento».
Agrega que «lo único de nuestro enfoque es que, si correctamente estamos utilizando estas entendimientos de libros de texto de los mecanismos para originar este conjunto de datos, estamos anclando los reactivos y productos de la reacción normal en datos validados experimentalmente de la humanidades de patentes». Inferían los mecanismos subyacentes, dice, en superficie de simplemente inventarlos. «Los estamos imputando de datos experimentales, y eso no es poco que se haya hecho y compartido a este tipo de escalera antiguamente».
El posterior paso, dice, es «estamos conveniente interesados en expandir la comprensión del maniquí de metales y ciclos catalíticos. Acabamos de raspar la superficie en este primer artículo», y la mayoría de las reacciones incluidas hasta ahora no incluyen metales o catalizadores, «así que esa es una dirección que estamos conveniente interesados».
A dilatado plazo, dice: «Gran parte de la emoción está en el uso de este tipo de sistema para ayudar a descubrir nuevas reacciones complejas y ayudar a dilucidar nuevos mecanismos. Creo que el impacto potencial a dilatado plazo es excelso, pero esto es, por supuesto, un primer paso».
El trabajo fue apoyado por el formación necesario para el consorcio de descubrimiento farmacéutico y síntesis y la National Science Foundation.