Athrun Data Intelligence



La capacidad de gestar imágenes de inscripción calidad rápidamente es crucial para producir entornos simulados realistas que se pueden usar para entrenar autos autónomos para evitar riesgos impredecibles, haciéndolos más seguros en las calles reales.

Pero las técnicas generativas de inteligencia fabricado que se utilizan cada vez más para producir tales imágenes tienen inconvenientes. Un tipo de maniquí popular, llamado maniquí de difusión, puede crear imágenes increíblemente realistas, pero es demasiado sosegado y computacionalmente intensivo para muchas aplicaciones. Por otro banda, los modelos autorregresivos que encienden LLM como ChatGPT son mucho más rápidos, pero producen imágenes de calidad más insuficiente que a menudo están plagadas de errores.

Investigadores del MIT y Nvidia desarrollaron un nuevo enfoque que reúne lo mejor de los dos métodos. Su aparejo de concepción de imágenes híbridas utiliza un maniquí autorregresivo para capturar rápidamente el panorama genérico y luego un pequeño maniquí de difusión para refinar los detalles de la imagen.

Su aparejo, conocida como HART (sigla de transformador autorregresivo híbrido), puede gestar imágenes que coinciden o excedan la calidad de los modelos de difusión de vanguardia, pero lo hagan aproximadamente nueve veces más rápido.

El proceso de concepción consume menos bienes computacionales que los modelos de difusión típicos, lo que permite a HART ejecutarse localmente en una computadora portátil o teléfono inteligente comercial. Un afortunado solo necesita ingresar una solicitud de verbo natural en la interfaz HART para gestar una imagen.

Hart podría tener una amplia abanico de aplicaciones, como ayudar a los investigadores a capacitar a los robots para completar tareas complejas del mundo verdadero y ayudar a los diseñadores a producir escenas sorprendentes para videojuegos.

“If you are painting a landscape, and you just paint the entire canvas merienda, it might not look very good. But if you paint the big picture and then refine the image with smaller brush strokes, your painting could look a lot better. That is the basic idea with HART,” says Haotian Tang SM ’22, PhD ’25, co-lead author of a Nuevo documento sobre Hart.

Se le une el co-autor Yecheng Wu, un estudiante universitario en la Universidad de Tsinghua; El autor senior Song Han, profesor asociado en el Sección de Ingeniería Eléctrica e Informática del MIT (EECS), miembro del Laboratorio MIT-IBM Watson AI y un distinguido investigador de Nvidia; así como otros en el MIT, la Universidad de Tsinghua y Nvidia. La investigación se presentará en la Conferencia Internacional sobre Representaciones de Estudios.

Lo mejor de los dos mundos

Se sabe que los modelos de difusión populares, como la difusión estable y el Dall-E, producen imágenes en extremo detalladas. Estos modelos generan imágenes a través de un proceso iterativo en el que predicen cierta cantidad de ruido accidental en cada píxel, restan el ruido y luego repiten el proceso de predicción y «eliminando» varias veces hasta que generan una nueva imagen que está completamente desenvuelto de ruido.

Correcto a que el maniquí de difusión elimina todos los píxeles en una imagen en cada paso, y puede suceder 30 o más pasos, el proceso es sosegado y computacionalmente costoso. Pero adecuado a que el maniquí tiene múltiples posibilidades de corregir los detalles que se equivocó, las imágenes son de inscripción calidad.

Los modelos autorregresivos, comúnmente utilizados para predecir el texto, pueden gestar imágenes prediciendo parches de una imagen secuencialmente, unos pocos píxeles a la vez. No pueden regresar y corregir sus errores, pero el proceso de predicción secuencial es mucho más rápido que la difusión.

Estos modelos utilizan representaciones conocidas como tokens para hacer predicciones. Un maniquí autorregresivo utiliza un autoencoder para comprimir los píxeles de imagen sin procesar en tokens discretos, así como restaurar la imagen de los tokens predichos. Si correctamente esto aumenta la velocidad del maniquí, la pérdida de información que ocurre durante la compresión causa errores cuando el maniquí genera una nueva imagen.

Con Hart, los investigadores desarrollaron un enfoque híbrido que utiliza un maniquí autorregresivo para predecir tokens de imagen discretos y comprimidos, luego un pequeño maniquí de difusión para predecir tokens residuales. Los tokens residuales compensan la pérdida de información del maniquí al capturar detalles que dejan los tokens discretos.

«Podemos conseguir un gran impulso en términos de calidad de reconstrucción. Nuestros tokens residuales aprenden detalles de inscripción frecuencia, como los bordes de un objeto, o el madeja, los luceros o la boca de una persona. Estos son lugares donde las fichas discretas pueden cometer errores», dice Tang.

Correcto a que el maniquí de difusión solo predice los detalles restantes a posteriori de que el maniquí autorregresivo haya hecho su trabajo, puede conseguir la tarea en ocho pasos, en superficie de los 30 o más un maniquí de difusión normalizado que requiere gestar una imagen completa. Esta sobrecarga mínima del maniquí de difusión adicional permite a HART retener la preeminencia de velocidad del maniquí autorregresivo al tiempo que prosperidad significativamente su capacidad para gestar detalles de imagen intrincados.

«El maniquí de difusión tiene un trabajo más obediente, lo que conduce a una decano eficiencia», agrega.

Pasar modelos más grandes

Durante el incremento de HART, los investigadores encontraron desafíos para integrar efectivamente el maniquí de difusión para mejorar el maniquí autorregresivo. Descubrieron que la incorporación del maniquí de difusión en las primeras etapas del proceso autorregresivo resultó en una acumulación de errores. En cambio, su diseño final de aplicar el maniquí de difusión para predecir solo tokens residuales a medida que el paso final mejoró significativamente la calidad de la concepción.

Su método, que utiliza una combinación de un maniquí de transformador autorregresivo con 700 millones de parámetros y un maniquí de difusión somero con 37 millones de parámetros, puede gestar imágenes de la misma calidad que las creadas por un maniquí de difusión con 2 mil millones de parámetros, pero lo hace aproximadamente nueve veces más rápido. Utiliza aproximadamente un 31 por ciento menos de cálculo que los modelos de última concepción.

Adicionalmente, adecuado a que HART utiliza un maniquí autorregresivo para hacer la decano parte del trabajo, el mismo tipo de maniquí que alimenta LLMS, es más compatible para la integración con la nueva clase de modelos generativos de verbo de visión unificado. En el futuro, uno podría interactuar con un maniquí generativo de verbo de visión unificado, tal vez pidiéndole que muestre los pasos intermedios necesarios para ensamblar un mueble.

«Los LLM son una buena interfaz para todo tipo de modelos, como modelos y modelos multimodales que pueden razonar. Esta es una forma de padecer la inteligencia a una nueva frontera. Un maniquí valioso de concepción de imágenes desbloquearía muchas posibilidades», dice.

En el futuro, los investigadores quieren seguir este camino y construir modelos en idioma de visión en la parte superior de la bloque Hart. Regalado que Hart es escalable y generalizable a múltiples modalidades, además quieren aplicarlo para tareas de concepción de videos y predicción de audio.

Esta investigación fue financiada, en parte, por el MIT-IBM Watson AI Lab, el MIT y Amazon Science Hub, el software de hardware MIT AI y la Fundación Franquista de Ciencias de los Estados Unidos. La infraestructura de GPU para capacitar a este maniquí fue donada por NVIDIA.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *