Athrun Data Intelligence



Caroline Uhler es Andrew (1956) y profesora de ingeniería de Erna Viterbi en el MIT; profesor de ingeniería eléctrica e informática en el Instituto de Datos, Ciencia y Sociedad (IDSS); y directora del Centro Eric y Wendy Schmidt en el Broad Institute of MIT y Harvard, donde asimismo es miembro del Instituto Core y del Equipo de Liderazgo Irrefutable.

Uhler está interesado en todos los métodos por los cuales los científicos pueden descubrir la causalidad en los sistemas biológicos, desde el descubrimiento causal en las variables observadas hasta el formación causal de características y el formación de representación. En esta entrevista, analiza el formación espontáneo en biología, áreas maduras para la resolución de problemas e investigación de vanguardia que sale del Centro Schmidt.

P: El Centro Eric y Wendy Schmidt tiene cuatro áreas distintas de enfoque estructuradas en torno a cuatro niveles naturales de ordenamiento biológica: proteínas, células, tejidos y organismos. ¿Qué, internamente del panorama presente del formación espontáneo, hace ahora el momento adecuado para trabajar en estas clases de problemas específicas?

A: La biología y la medicina están actualmente experimentando una «revolución de datos». La disponibilidad de conjuntos de datos a gran escalera y diversos, que van desde la genómica y la múltiples múltiples hasta la imagen de inscripción resolución y los registros de vitalidad electrónicos, lo convierte en un momento oportuno. La secuenciación de ADN económica y precisa es una ingenuidad, las imágenes moleculares avanzadas se han convertido en rutina, y la genómica de células individuales está permitiendo el perfil de millones de células. Estas innovaciones, y los conjuntos de datos masivos que producen, nos han llevado al principio de una nueva era en biología, una en la que podremos ir más allá de caracterizar las unidades de la vida (como todas las proteínas, genes y los tipos de células) para comprender el «programas de la vida», como la método de los circuitos genéticos y la comunicación de células que subyacen a los patrones de los géneros y el apartado de los géneros.

Al mismo tiempo, en la última lapso, el formación espontáneo ha trillado un progreso trascendente con modelos como Bert, GPT-3 y ChatGPT que demuestran capacidades avanzadas en la comprensión y vivientes de texto, mientras que los transformadores de visión y los modelos multimodales como Clip han conseguido el rendimiento a nivel humano en tareas relacionadas con la imagen. Estos avances proporcionan poderosos planos arquitectónicos y estrategias de capacitación que pueden adaptarse a los datos biológicos. Por ejemplo, los transformadores pueden modelar secuencias genómicas similares al verbo, y los modelos de visión pueden analizar imágenes médicas y de microscopía.

Es importante destacar que la biología está a punto de ser no solo un beneficiario del formación espontáneo, sino asimismo una fuente significativa de inspiración para la nueva investigación de ML. Al igual que la agricultura y la reproducción estimularon las estadísticas modernas, la biología tiene el potencial de inspirar nuevas y quizás aún más profundas vías de investigación de ML. A diferencia de los campos como los sistemas de recomendación y la publicidad en Internet, donde no hay leyes naturales para descubrir y la precisión predictiva es la medida final de valencia, en biología, los fenómenos son físicamente interpretables, y los mecanismos causales son el objetivo final. Adicionalmente, la biología cuenta con herramientas genéticas y químicas que permiten pantallas perturbacionales en una escalera incomparable en comparación con otros campos. Estas características combinadas hacen que la biología sea única adecuada para beneficiarse enormemente de ML y sirven como una profunda inspiración para ella.

P: Tomando una táctica poco diferente, ¿qué problemas en biología aún son en realidad resistentes a nuestro conjunto de herramientas actuales? ¿Hay áreas, quizás desafíos específicos en la enfermedad o en el bienestar, que siente que están maduras para la resolución de problemas?

A: El formación espontáneo ha demostrado un éxito trascendente en tareas predictivas en dominios como la clasificación de imágenes, el procesamiento del verbo natural y el modelado de riesgos clínicos. Sin retención, en las ciencias biológicas, la precisión predictiva a menudo es insuficiente. Las preguntas fundamentales en estos campos son inherentemente causales: ¿cómo una perturbación para un gen o vía específica afecta los procesos celulares posteriores? ¿Cuál es el mecanismo por el cual una intervención conduce a un cambio fenotípico? Los modelos tradicionales de formación espontáneo, que se optimizan principalmente para capturar asociaciones estadísticas en los datos de observación, a menudo no responden tales consultas intervencionistas. Hay una válido escazes de biología y medicina para inspirar asimismo nuevos desarrollos fundamentales en el formación espontáneo.

El campo ahora está equipado con tecnologías de perturbación de detención rendimiento, como pantallas CRISPR agrupadas, transcriptómica de células individuales y perfiles espaciales, que generan conjuntos de datos ricos bajo intervenciones sistemáticas. Estas modalidades de datos requieren lógicamente el crecimiento de modelos que van más allá del examen de patrones para respaldar la inferencia causal, el diseño empírico activo y el formación de representación en entornos con variables latentes complejas y estructuradas. Desde una perspectiva matemática, esto requiere encarar cuestiones centrales de identificabilidad, eficiencia de la muestra y la integración de herramientas combinatorias, geométricas y probabilísticas. Creo que encarar estos desafíos no solo desbloqueará nuevas ideas sobre los mecanismos de los sistemas celulares, sino que asimismo empujará los límites teóricos del formación espontáneo.

Con respecto a los modelos de pulvínulo, un consenso en el campo es que todavía estamos remotamente de crear un maniquí de pulvínulo holística para la biología a través de escalas, similar a lo que ChatGPT representa en el dominio del verbo, una especie de organismo digital capaz de disimular todos los fenómenos biológicos. Si proporcionadamente los nuevos modelos de pulvínulo emergen casi semanalmente, estos modelos hasta ahora se han especializado para una escalera y pregunta específica, y se centran en una o algunas modalidades.

Se han realizado un progreso significativo en la predicción de estructuras de proteínas a partir de sus secuencias. Este éxito ha resaltado la importancia de los desafíos iterativos de formación espontáneo, como CASP (evaluación crítica de la predicción de la estructura), que han sido fundamentales para la evaluación comparativa de algoritmos de última vivientes para la predicción de la estructura de proteínas y la perfeccionamiento.

El Centro Schmidt está organizando desafíos para aumentar la conciencia en el campo ML y avanzar en el crecimiento de métodos para resolver problemas de predicción causales que son tan críticos para las ciencias biomédicas. Con la creciente disponibilidad de datos de perturbación de un solo gen a nivel de células individuales, creo que predecir el sorpresa de las perturbaciones individuales o combinatorias, y qué perturbaciones podrían impulsar un fenotipo deseado, son problemas solucionables. Con nuestro desafío de predicción de perturbación celular (CPPC), nuestro objetivo es proporcionar los medios para probar y relato objetivamente algoritmos para predecir el sorpresa de las nuevas perturbaciones.

Otra radio donde el campo ha hecho avances notables es el diagnosis de la enfermedad y el triaje del paciente. Los algoritmos de formación espontáneo pueden integrar diferentes fuentes de información del paciente (modalidades de datos), producir modalidades faltantes, identificar patrones que nos pueden ser difíciles de detectar y ayudar a estratificar a los pacientes en función del aventura de enfermedad. Si proporcionadamente debemos seguir siendo cautelosos con los posibles sesgos en las predicciones del maniquí, el peligro de modelos de formación de atajos en puesto de correlaciones verdaderas y el aventura de sesgo de automatización en la toma de decisiones clínicas, creo que esta es un radio donde el formación espontáneo ya está teniendo un impacto significativo.

P: Hablemos de algunos de los Titulares que salen del Centro Schmidt recientemente. ¿Qué investigación presente crees que la concurrencia debería estar particularmente entusiasmada y por qué?

A: En colaboración con el Dr. Fei Chen en el Broad Institute, recientemente hemos desarrollado un método para la predicción de la ubicación subcelular de las proteínas invisibles, llamado cachorros. Muchos métodos existentes solo pueden hacer predicciones basadas en los datos específicos de proteínas y células sobre los que fueron entrenados. Sin retención, los cachorros combinan un maniquí de verbo de proteína con un maniquí de imagen en pintura para utilizar secuencias de proteínas e imágenes celulares. Demostramos que la entrada de la secuencia de proteínas permite que la divulgación de las proteínas invisibles, y la entrada de imagen celular captura la variabilidad de una sola célula, permitiendo predicciones específicas de tipo celular. El maniquí aprende cuán relevante es cada residuo de aminoácidos para la emplazamiento subcelular predicha, y puede predecir cambios en la emplazamiento oportuno a las mutaciones en las secuencias de proteínas. Transmitido que la función de las proteínas está estrictamente relacionada con su emplazamiento subcelular, nuestras predicciones podrían proporcionar información sobre posibles mecanismos de enfermedad. En el futuro, nuestro objetivo es extender este método para predecir la emplazamiento de múltiples proteínas en una célula y posiblemente comprender las interacciones proteína-proteína.

Conexo con el profesor GV Shivashankar, un colaborador de mucho tiempo en ETH Zürich, hemos mostrado previamente cómo las imágenes simples de las células se tiñen con colorantes fluorescentes que interesan el ADN para etiquetar la cromatina pueden producir mucha información sobre el estado y el destino de una célula en la vitalidad y la enfermedad, cuando se combinan con algoritmos de formación espontáneo. Recientemente, hemos promovido esta observación y probamos el vínculo profundo entre la ordenamiento de la cromatina y la regulación génica mediante el crecimiento de Image2reg, un método que permite la predicción de genes perturbados genética o químicamente de las imágenes de la cromatina. Image2reg utiliza redes neuronales convolucionales para educarse una representación informativa de las imágenes de cromatina de células perturbadas. Igualmente emplea una red convolucional gráfica para crear una incrustación de genes que captura los artículos regulatorios de los genes basados ​​en datos de interacción proteína-proteína, integrados con datos transcriptómicos específicos de tipo celular. Finalmente, aprende un plano entre la representación física y bioquímica resultante de las células, lo que nos permite predecir los módulos de genes perturbados basados ​​en imágenes de cromatina.

Adicionalmente, recientemente finalizamos el crecimiento de un método para predecir los resultados de perturbaciones genéticas combinatorias invisibles e identificar los tipos de interacciones que ocurren entre los genes perturbados. Morph puede conducir el diseño de las perturbaciones más informativas para los experimentos de onda de laboratorio. Adicionalmente, el entorno basado en la atención probablemente permite nuestro método identificar relaciones causales entre los genes, proporcionando información sobre los programas regulatorios de genes subyacentes. Finalmente, gracias a su estructura modular, podemos aplicar la transcripción de los datos de perturbación medidos en diversas modalidades, incluidas no solo transcriptómica, sino asimismo imágenes. Estamos muy entusiasmados con el potencial de este método para permitir la exploración eficaz del espacio de perturbación para avanzar en nuestra comprensión de los programas celulares uniendo la teoría causal a aplicaciones importantes, con implicaciones tanto para la investigación básica como para las aplicaciones terapéuticas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *