Athrun Data Intelligence



En los últimos abriles, los modelos que pueden predecir la estructura o función de las proteínas se han utilizado ampliamente para una variedad de aplicaciones biológicas, como identificar objetivos fármacos y diseñar nuevos anticuerpos terapéuticos.

Estos modelos, que se basan en modelos de idiomas grandes (LLM), pueden hacer predicciones muy precisas de la idoneidad de una proteína para una aplicación dada. Sin retención, no hay forma de determinar cómo estos modelos hacen sus predicciones o qué características de proteínas juegan el papel más importante en esas decisiones.

En un nuevo estudio, los investigadores del MIT han utilizado una técnica novedosa para inaugurar esa «caja negra» y permitirles determinar qué características tiene en cuenta un maniquí de estilo de proteínas al hacer predicciones. Comprender lo que está sucediendo en el interior de esa caja negra podría ayudar a los investigadores a nominar mejores modelos para una tarea particular, ayudando a optimizar el proceso de identificación de nuevos medicamentos o objetivos de vacuna.

«Nuestro trabajo tiene amplias implicaciones para una mejor explicabilidad en las tareas aguas debajo que dependen de estas representaciones», dice Bonnie Berger, profesora de Matemáticas de Simons, Dirigente del Montón de Computación y Biología en el Laboratorio de Informática e Inteligencia Industrial del MIT, y el autor principal del estudio. «Adicionalmente, la identificación de características que rastrean los modelos de estilo de proteínas tienen el potencial de revelar nuevas ideas biológicas de estas representaciones».

Onkar Gujral, estudiante investido del MIT, es el autor principal del estudio, que aparece esta semana en el Actas de la Entidad Doméstico de Ciencias. Mihir Bafna, un estudiante investido del MIT, y Eric Alm, profesor de Ingeniería Biológica del MIT, asimismo son autores del documento.

Abriendo la caja negra

En 2018, Berger y ex estudiante investido del MIT Tristan Borpler PhD ’20 introducido El primer maniquí de estilo de proteína. Su maniquí, como los modelos de proteínas posteriores que aceleraron el expansión de Alfafold, como ESM2 y OmegaFold, se basó en LLM. Estos modelos, que incluyen ChatGPT, pueden analizar grandes cantidades de texto y descubrir qué palabras tienen más probabilidades de aparecer juntas.

Los modelos de estilo de proteínas utilizan un enfoque similar, pero en circunstancia de analizar palabras, analizan secuencias de aminoácidos. Los investigadores han utilizado estos modelos para predecir la estructura y la función de las proteínas, y para aplicaciones como la identificación de proteínas que podrían unirse a fármacos particulares.

En Estudio 2021Berger y sus colegas utilizaron un maniquí de estilo de proteína para predecir qué secciones de proteínas de superficie vírico tienen menos probabilidades de mutar de una guisa que permita el escape vírico. Esto les permitió identificar posibles objetivos para las vacunas contra la influenza, el VIH y el SARS-CoV-2.

Sin retención, en todos estos estudios, ha sido increíble aprender cómo los modelos estaban haciendo sus predicciones.

«Al final, obtendríamos alguna predicción, pero no teníamos absolutamente ninguna idea de lo que estaba sucediendo en los componentes individuales de esta caja negra», dice Berger.

En el nuevo estudio, los investigadores querían profundizar en cómo los modelos de estilo de proteínas hacen sus predicciones. Al igual que las LLM, los modelos de estilo de proteínas codifican la información como representaciones que consisten en un patrón de activación de diferentes «nodos» en el interior de una red neuronal. Estos nodos son análogos a las redes de neuronas que almacenan memorias y otra información en el interior del cerebro.

El funcionamiento interno de LLM no es practicable de interpretar, pero en los últimos abriles, los investigadores han comenzado a usar un tipo de operación conocido como un autoencoder escaso para ayudar a arrojar poco de luz sobre cómo esos modelos hacen sus predicciones. El nuevo estudio del laboratorio de Berger es el primero en utilizar este operación en modelos de estilo de proteínas.

Los autoencoders escasos funcionan ajustando cómo se representa una proteína en el interior de una red neuronal. Típicamente, una proteína dada estará representada por un patrón de activación de un número restringido de neuronas, por ejemplo, 480. Un autoencoder escaso expandirá esa representación en un número mucho longevo de nodos, digamos 20,000.

Cuando la información sobre una proteína está codificada por solo 480 neuronas, cada nodo se ilumina para múltiples características, lo que hace que sea muy difícil aprender qué características está codificando cada nodo. Sin retención, cuando la red neuronal se expande a 20,000 nodos, este espacio adicional adyacente con una restricción de escasez ofrece la sala de información para «tirarse». Ahora, una característica de la proteína que anteriormente estaba codificada por múltiples nodos puede acomodarse un solo nodo.

«En una representación escasa, las neuronas que se iluminan lo están haciendo de una guisa más significativa», dice Gujral. «Ayer de que se creen las representaciones escasas, las redes empacan la información tan estrechamente juntas que es difícil interpretar las neuronas».

Modelos interpretables

Una vez que los investigadores obtuvieron representaciones dispersas de muchas proteínas, utilizaron un asistente de IA llamado Claude (relacionado con el popular chatbot antrópico del mismo nombre), para analizar las representaciones. En este caso, le pidieron a Claude que comparara las representaciones dispersas con las características conocidas de cada proteína, como la función molecular, la comunidad de proteínas o la ubicación en el interior de una célula.

Al analizar miles de representaciones, Claude puede determinar qué nodos corresponden a características de proteínas específicas, luego describirlos en inglés simple. Por ejemplo, el operación podría asegurar: «Esta neurona parece estar detectando proteínas involucradas en el transporte transmembrana de iones o aminoácidos, particularmente aquellos ubicados en la membrana plasmática».

Este proceso hace que los nodos sean mucho más «interpretables», lo que significa que los investigadores pueden asegurar qué está codificando cada nodo. Descubrieron que las características que tienen más probabilidades de ser codificadas por estos nodos eran la comunidad de proteínas y ciertas funciones, incluidos varios procesos metabólicos y biosintéticos diferentes.

«Cuando entrena a un autoencoder escaso, no lo está entrenando para que sea interpretable, pero resulta que al incentivar la representación para que sea efectivamente escasa, eso termina resultando en una interpretabilidad», dice Gujral.

Comprender qué características está codificando un maniquí de proteína en particular podría ayudar a los investigadores a nominar el maniquí adecuado para una tarea en particular, o ajustar el tipo de entrada que dan al maniquí, para gestar los mejores resultados. Adicionalmente, analizar las características que codifica un maniquí podría ayudar algún día a los biólogos a ilustrarse más sobre las proteínas que están estudiando.

«En algún momento cuando los modelos se vuelven mucho más poderosos, podría ilustrarse más biología de lo que ya sabe, al inaugurar los modelos», dice Gujral.

La investigación fue financiada por los Institutos Nacionales de Vitalidad.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *