Al estudiar los cambios en la expresión genética, los investigadores aprenden cómo funcionan las células a nivel molecular, lo que podría ayudarles a comprender el incremento de determinadas enfermedades.
Pero un ser humano tiene aproximadamente de 20.000 genes que pueden afectarse entre sí de maneras complejas, por lo que incluso entender a qué grupos de genes apuntar es un problema enormemente complicado. Por otra parte, los genes trabajan juntos en módulos que se regulan entre sí.
Los investigadores del MIT han desarrollado ahora fundamentos teóricos para métodos que podrían identificar la mejor forma de anexar genes en grupos relacionados para que puedan ilustrarse de forma competente las relaciones subyacentes de causa y impacto entre muchos genes.
Es importante destacar que este nuevo método logra esto utilizando exclusivamente datos de observación. Esto significa que los investigadores no necesitan realizar experimentos intervencionistas costosos y, a veces, inviables para obtener los datos necesarios para inferir las relaciones causales subyacentes.
A generoso plazo, esta técnica podría ayudar a los científicos a identificar posibles objetivos genéticos para inducir ciertos comportamientos de una forma más precisa y competente, lo que podría permitirles desarrollar tratamientos precisos para los pacientes.
“En genómica, es muy importante comprender el mecanismo subyacente a los estados celulares. Pero las celdas tienen una estructura multiescala, por lo que el nivel de prontuario asimismo es muy importante. Si descubres la forma correcta de anexar los datos observados, la información que obtengas sobre el sistema debería ser más interpretable y útil”, dice el estudiante investido Jiaqi Zhang, miembro del Centro Eric y Wendy Schmidt y coautor principal de un artículo. artículo sobre esta técnica.
A Zhang se une en el artículo el coautor principal Ryan Welch, actualmente estudiante de habilidad en ingeniería; y la autora principal Caroline Uhler, profesora del Unidad de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y del Instituto de Datos, Sistemas y Sociedad (IDSS), quien asimismo es directora del Centro Eric y Wendy Schmidt en el Instituto Broad del MIT. y Harvard, e investigador del Laboratorio de Sistemas de Información y Valor (LIDS) del MIT. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Aprendiendo de los datos observacionales
El problema que los investigadores se propusieron acometer implica programas de enseñanza de genes. Estos programas describen qué genes funcionan juntos para regular otros genes en un proceso biológico, como el incremento o la diferenciación celular.
Hexaedro que los científicos no pueden estudiar de forma competente cómo interactúan los 20.000 genes, utilizan una técnica citación desenredo causal para ilustrarse cómo combinar grupos de genes relacionados en una representación que les permita explorar de forma competente las relaciones de causa y impacto.
En trabajos anteriores, los investigadores demostraron cómo esto podría hacerse de forma efectiva en presencia de datos intervencionistas, que son datos obtenidos perturbando variables en la red.
Pero a menudo resulta costoso realizar experimentos de intervención y hay algunos escenarios en los que dichos experimentos no son éticos o la tecnología no es lo suficientemente buena para que la intervención tenga éxito.
Con sólo datos de observación, los investigadores no pueden comparar genes ayer y posteriormente de una intervención para ilustrarse cómo funcionan juntos los grupos de genes.
«La mayoría de las investigaciones sobre el desentrañamiento causal suponen el acercamiento a las intervenciones, por lo que no estaba claro cuánta información se puede desventrar con sólo datos de observación», dice Zhang.
Los investigadores del MIT desarrollaron un enfoque más universal que utiliza un operación de enseñanza forzoso para identificar y anexar de forma eficaz grupos de variables observadas, por ejemplo, genes, utilizando exclusivamente datos de observación.
Pueden utilizar esta técnica para identificar módulos causales y rehacer una representación subyacente precisa del mecanismo de causa y impacto. “Si perfectamente esta investigación fue motivada por el problema de dilucidar los programas celulares, primero tuvimos que desarrollar una nueva teoría causal para comprender qué se podía ilustrarse y qué no a partir de datos de observación. Con esta teoría en la mano, en futuros trabajos podremos aplicar nuestros conocimientos a los datos genéticos e identificar módulos genéticos, así como sus relaciones reguladoras”, afirma Uhler.
Una representación por capas
Utilizando técnicas estadísticas, los investigadores pueden calcular una función matemática conocida como varianza del jacobiano de la puntuación de cada variable. Las variables causales que no afectan a ninguna variable posterior deben tener una varianza de cero.
Los investigadores reconstruyen la representación en una estructura capa por capa, comenzando por eliminar las variables de la capa inferior que tienen una varianza de cero. Luego trabajan con destino a antes, capa por capa, eliminando las variables con varianza cero para determinar qué variables o grupos de genes están conectados.
«Identificar las varianzas que son cero se convierte rápidamente en un objetivo combinatorio conveniente difícil de resolver, por lo que derivar un operación competente que pudiera resolverlo fue un gran desafío», dice Zhang.
Al final, su método genera una representación abstracta de los datos observados con capas de variables interconectadas que resume con precisión la estructura subyacente de causa y impacto.
Cada variable representa un clase complemento de genes que funcionan juntos, y la relación entre dos variables representa cómo un clase de genes regula a otro. Su método captura efectivamente toda la información utilizada para determinar cada capa de variables.
Luego de demostrar que su técnica era teóricamente sólida, los investigadores realizaron simulaciones para demostrar que el operación puede desenredar eficientemente representaciones causales significativas utilizando exclusivamente datos de observación.
En el futuro, los investigadores quieren aplicar esta técnica en aplicaciones genéticas del mundo vivo. Incluso quieren explorar cómo su método podría proporcionar información adicional en situaciones en las que se dispone de algunos datos de intervención, o ayudar a los científicos a comprender cómo diseñar intervenciones genéticas eficaces. En el futuro, este método podría ayudar a los investigadores a determinar de forma más competente qué genes funcionan juntos en el mismo software, lo que podría ayudar a identificar medicamentos que podrían atacar esos genes para tratar ciertas enfermedades.
Esta investigación está financiada, en parte, por el Laboratorio de IA Watson del MIT-IBM y la Oficina de Investigación Naval de EE. UU.