Athrun Data Intelligence


La concepción de imágenes autorregresivas ha sido formada por los avances en el modelado secuencial, manido originalmente en el procesamiento del verbo natural. Este campo se centra en originar imágenes un token a la vez, similar a cómo se construyen las oraciones en los modelos de idiomas. El atractivo de este enfoque radica en su capacidad para abastecer la coherencia estructural a través de la imagen al tiempo que permite altos niveles de control durante el proceso de concepción. A medida que los investigadores comenzaron a aplicar estas técnicas a los datos visuales, encontraron que la predicción estructurada no solo conservaba la integridad espacial sino que asimismo respaldaba tareas como la manipulación de imágenes y la traducción multimodal de modo efectiva.

A pesar de estos beneficios, originar imágenes de reincorporación resolución sigue siendo computacionalmente costosa y lenta. Un problema principal es el número de tokens necesarios para representar imágenes complejas. Los métodos de escaneo de trama que aplanan las imágenes 2D en secuencias lineales requieren miles de tokens para imágenes detalladas, lo que resulta en largos tiempos de inferencia y un parada consumo de memoria. Los modelos como Infinity necesitan más de 10,000 tokens para una imagen de 1024 × 1024. Esto se vuelve insostenible para aplicaciones en tiempo verdadero o al prosperar a conjuntos de datos más extensos. Achicar la carga del token mientras preserva o alivio la calidad de la producción se ha convertido en un desafío apremiante.

Los esfuerzos para mitigar la inflación del token han llevado a innovaciones como la predicción de la próxima escalera paisaje en Var y FlexVar. Estos modelos crean imágenes prediciendo escalas progresivamente más finas, lo que imita la tendencia humana a esbozar contornos aproximados antaño de juntar detalles. Sin retención, aún confían en cientos de tokens: 680 en el caso de VAR y FlexVar para 256 × 256 imágenes. Adicionalmente, los enfoques como Titok y Fyxtek usan tokenización 1D para comprimir la exceso espacial, pero a menudo no pueden prosperar de modo competente. Por ejemplo, el GFID de Flexxtok aumenta de 1.9 a 32 tokens a 2.5 a 256 tokens, destacando una degradación en la calidad de la salida a medida que crece el recuento de tokens.

Los investigadores de Bytedance introdujeron DetellFlow, un situación de concepción de imágenes autorregresivo 1D. Este método organiza secuencias de token de detalles globales a finos utilizando un proceso llamado predicción de Next-Detail. A diferencia de las técnicas tradicionales de escalera de ráster 2D o basadas en escalera, Dellflow emplea un tokenizador 1D entrenado en imágenes degradadas progresivamente. Este diseño permite que el maniquí priorice las estructuras de imágenes fundamentales antaño de refinar los detalles visuales. Al mapear los tokens directamente a los niveles de resolución, Detailflow reduce significativamente los requisitos de token, lo que permite que las imágenes se generen de modo semánticamente ordenada y gruesa.

El mecanismo en detalle se centra en un espacio subyacente 1D donde cada token contribuye incrementalmente más detalles. Los tokens anteriores codifican características globales, mientras que los tokens posteriores refinan aspectos visuales específicos. Para capacitar esto, los investigadores crearon una función de mapeo de resolución que vincula el recuento de tokens para la resolución objetivo. Durante el entrenamiento, el maniquí está expuesto a imágenes de niveles de calidad diferentes y aprende a predecir los resultados de resolución progresivamente más parada a medida que se introducen más tokens. Asimismo implementa la predicción del token paralelo al agrupar secuencias y predecir conjuntos completos a la vez. Hexaedro que la predicción paralela puede introducir errores de muestreo, se integró un mecanismo de autocorrección. Este sistema pertenece a ciertos tokens durante la capacitación y enseña tokens posteriores para compensar, asegurando que las imágenes finales mantengan la integridad estructural y visual.

Los resultados de los experimentos en el punto de relato ImageNet 256 × 256 fueron notables. Detellflow logró una puntuación GFID de 2.96 usando solo 128 tokens, superando VAR a 3.3 y FlexVar a 3.05, los cuales usaron 680 tokens. Aún más impresionante, Detellflow-64 alcanzó un GFID de 2.62 usando 512 tokens. En términos de velocidad, entregó casi el doble de la tasa de inferencia de VAR y FlexVar. Un estudio de separación adicional confirmó que el entrenamiento de autocorrección y el orden semántico de los tokens mejoraron sustancialmente la calidad de la producción. Por ejemplo, habilitar la autocorrección redujo el GFID de 4.11 a 3.68 en una configuración. Estas métricas demuestran una concepción de longevo calidad y más rápida en comparación con los modelos establecidos.

Al centrarse en la estructura semántica y la reducción de la exceso, Dellflow presenta una posibilidad viable a problemas de larga data en la concepción de imágenes autorregresivas. El enfoque craso a fino del método, la decodificación paralela competente y la capacidad de autocorrección de la autocorción resaltan cómo las innovaciones arquitectónicas pueden atracar las limitaciones de rendimiento y escalabilidad. A través de su uso estructurado de tokens 1D, los investigadores de Bytedance han demostrado un maniquí que mantiene una reincorporación fidelidad de la imagen al tiempo que reduce la carga computacional significativamente, lo que lo convierte en una valiosa añadido a la investigación de síntesis de imágenes.


Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este plan. Adicionalmente, siéntete libertado de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Nikhil es consejero interno en MarktechPost. Está buscando un doble nivel integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *