Al adaptar modelos de inteligencia químico conocidos como modelos de lengua excelso, los investigadores han rematado grandes avances en su capacidad para predecir la estructura de una proteína a partir de su secuencia. Sin requisa, este enfoque no ha sido tan exitoso con los anticuerpos, en parte oportuno a la hipervariabilidad observada en este tipo de proteína.
Para exceder esa acotación, los investigadores del MIT han desarrollado una técnica computacional que permite que modelos de lengua grandes predigan las estructuras de los anticuerpos con maduro precisión. Su trabajo podría permitir a los investigadores examinar millones de posibles anticuerpos para identificar aquellos que podrían estar de moda para tratar el SARS-CoV-2 y otras enfermedades infecciosas.
«Nuestro método nos permite esquilar, mientras que otros no lo hacen, hasta el punto de que podemos encontrar algunas agujas en el pajar», dice Bonnie Berger, profesora de Matemáticas Simons, jefa del rama de Computación y Biología en el Instituto de Computación del MIT. Laboratorio de Ciencia e Inteligencia Industrial (CSAIL) y uno de los autores principales del nuevo estudio. «Si pudiéramos ayudar a impedir que las compañías farmacéuticas participen en ensayos clínicos con el producto errado, efectivamente ahorraríamos mucho efectivo».
La técnica, que se centra en modelar las regiones hipervariables de los anticuerpos, además tiene potencial para analizar repertorios completos de anticuerpos de personas individuales. Esto podría ser útil para estudiar la respuesta inmune de personas que responden muy correctamente a enfermedades como el VIH, para ayudar a descubrir por qué sus anticuerpos defienden el virus con tanta competencia.
Bryan Bryson, profesor asociado de ingeniería biológica en el MIT y miembro del Instituto Ragon del MGH, MIT y Harvard, además es autor principal del artículo, que aparece esta semana en el Actas de la Agrupación Franquista de Ciencias. Rohit Singh, ex verificado investigador de CSAIL que ahora es profesor asistente de bioestadística, bioinformática y biología celular en la Universidad de Duke, y Chiho Im ’22 son los autores principales del artículo. A la investigación además contribuyeron investigadores de Sanofi y ETH Zurich.
Modelado de hipervariabilidad
Las proteínas están formadas por largas cadenas de aminoácidos, que pueden plegarse en una enorme cantidad de estructuras posibles. En los últimos primaveras, predecir estas estructuras se ha vuelto mucho más liviana gracias al uso de programas de inteligencia químico como AlphaFold. Muchos de estos programas, como ESMFold y OmegaFold, se basan en grandes modelos de lengua, que se desarrollaron originalmente para analizar grandes cantidades de texto, permitiéndoles ilustrarse a predecir la subsiguiente palabra en una secuencia. Este mismo enfoque puede funcionar para secuencias de proteínas, al ilustrarse qué estructuras proteicas tienen más probabilidades de formarse a partir de diferentes patrones de aminoácidos.
Sin requisa, esta técnica no siempre funciona con anticuerpos, especialmente en un segmento del anticuerpo conocido como región hipervariable. Los anticuerpos suelen tener una estructura en forma de Y, y estas regiones hipervariables están ubicadas en las puntas de la Y, donde detectan proteínas extrañas, además conocidas como antígenos, y se unen a ellas. La parte inferior de la Y proporciona soporte estructural y ayuda a los anticuerpos a interactuar con las células inmunitarias.
Las regiones hipervariables varían en largo pero normalmente contienen menos de 40 aminoácidos. Se ha estimado que el sistema inmunológico humano puede producir hasta 1 trillón de anticuerpos diferentes cambiando la secuencia de estos aminoácidos, lo que ayuda a respaldar que el cuerpo pueda contestar a una enorme variedad de antígenos potenciales. Esas secuencias no están limitadas evolutivamente de la misma guisa que otras secuencias de proteínas, por lo que es difícil para los modelos de lengua grandes ilustrarse a predecir sus estructuras con precisión.
«Parte de la razón por la que los modelos de lengua pueden predecir correctamente la estructura de las proteínas es que la proceso restringe estas secuencias de guisa que el maniquí puede descifrar lo que esas restricciones habrían significado», dice Singh. «Es similar a ilustrarse las reglas gramaticales observando el contexto de las palabras en una oración, lo que te permite descubrir lo que significa».
Para modelar esas regiones hipervariables, los investigadores crearon dos módulos que se basan en modelos de lengua de proteínas existentes. Uno de estos módulos se entrenó en secuencias hipervariables de aproximadamente 3.000 estructuras de anticuerpos que se encuentran en el Bandada de datos de proteínas (PDB), lo que le permitió ilustrarse qué secuencias tienden a gestar estructuras similares. El otro módulo se entrenó con datos que correlacionan rodeando de 3.700 secuencias de anticuerpos con la fuerza con la que se unen a tres antígenos diferentes.
El maniquí computacional resultante, conocido como AbMap, puede predecir las estructuras de los anticuerpos y la fuerza de unión en función de sus secuencias de aminoácidos. Para demostrar la utilidad de este maniquí, los investigadores lo utilizaron para predecir estructuras de anticuerpos que neutralizarían fuertemente la proteína de pico del virus SARS-CoV-2.
Los investigadores comenzaron con un conjunto de anticuerpos que se había predicho que se unirían a este objetivo y luego generaron millones de variantes cambiando las regiones hipervariables. Su maniquí fue capaz de identificar estructuras de anticuerpos que serían las más exitosas, con mucha más precisión que los modelos tradicionales de estructura de proteínas basados en modelos de lengua grandes.
Luego, los investigadores dieron el paso adicional de agrupar los anticuerpos en grupos que tenían estructuras similares. Eligieron anticuerpos de cada uno de estos grupos para probarlos experimentalmente, trabajando con investigadores de Sanofi. Esos experimentos encontraron que el 82 por ciento de estos anticuerpos tenían una mejor fuerza de unión que los anticuerpos originales que se incluyeron en el maniquí.
Identificar una variedad de buenos candidatos en las primeras etapas del proceso de exposición podría ayudar a las compañías farmacéuticas a evitar llevar mucho efectivo en probar candidatos que terminan fallando más delante, dicen los investigadores.
«No quieren poner todos los huevos en la misma canasta», dice Singh. “No quieren opinar: voy a tomar este anticuerpo y someterlo a ensayos preclínicos, y luego resultará tóxico. Preferirían tener un conjunto de buenas posibilidades y aprovecharlas todas, para tener algunas opciones si alguna sale mal”.
Comparando anticuerpos
Utilizando esta técnica, los investigadores además podrían intentar contestar algunas preguntas de larga data sobre por qué diferentes personas responden de guisa diferente a la infección. Por ejemplo, ¿por qué algunas personas desarrollan formas mucho más graves de Covid y por qué algunas personas expuestas al VIH nunca se infectan?
Los científicos han estado tratando de contestar esas preguntas realizando una secuenciación del ARN unicelular de células inmunes de individuos y comparándolas, un proceso conocido como investigación del repertorio de anticuerpos. Trabajos anteriores han demostrado que los repertorios de anticuerpos de dos personas diferentes pueden superponerse tan solo en un 10 por ciento. Sin requisa, la secuenciación no ofrece una imagen tan completa del rendimiento de los anticuerpos como la información estructural, porque dos anticuerpos que tienen secuencias diferentes pueden tener estructuras y funciones similares.
El nuevo maniquí puede ayudar a resolver ese problema generando rápidamente estructuras para todos los anticuerpos que se encuentran en un individuo. En este estudio, los investigadores demostraron que cuando se tiene en cuenta la estructura, hay mucha más superposición entre individuos que el 10 por ciento observado en las comparaciones de secuencias. Ahora planean investigar más a fondo cómo estas estructuras pueden contribuir a la respuesta inmune genérico del cuerpo contra un patógeno en particular.
«Aquí es donde un maniquí de lengua encaja muy correctamente porque tiene la escalabilidad del investigación basado en secuencias, pero se acerca a la precisión del investigación basado en estructuras», dice Singh.
La investigación fue financiada por Sanofi y la Clínica Abdul Latif Jameel para el Formación Maquinal en Sanidad.