Los Vision Transformers (ViT) se han convertido en la piedra angular de la visión por computadora y ofrecen un gran rendimiento y adaptabilidad. Sin secuestro, su gran tamaño y sus demandas computacionales crean desafíos, particularmente para la implementación en dispositivos con posibles limitados. Modelos como FLUX Vision Transformers, con miles de millones de parámetros, requieren almacenamiento y memoria sustanciales, lo que los hace poco prácticos para muchos casos de uso. Estas limitaciones restringen la aplicación en el mundo vivo de modelos generativos avanzados. Tocar estos desafíos requiere métodos innovadores para achicar la carga computacional sin comprometer el rendimiento.
Investigadores de ByteDance presentan FLUX de 1,58 bits
Los investigadores de ByteDance han presentado el maniquí FLUX de 1,58 bits, una lectura cuantificada del FLUX Vision Transformer. Este maniquí reduce el 99,5% de sus parámetros (11,9 mil millones en total) a 1,58 bits, reduciendo significativamente los requisitos computacionales y de almacenamiento. El proceso es único porque no se apoyo en datos de imágenes, sino que utiliza un enfoque autosupervisado basado en el maniquí FLUX.1-dev. Al incorporar un kernel personalizado optimizado para operaciones de 1,58 bits, los investigadores lograron una reducción de 7,7 veces en el almacenamiento y una reducción de 5,1 veces en el uso de memoria de inferencia, lo que hace más factible la implementación en entornos con posibles limitados.
Detalles técnicos y beneficios
El núcleo del FLUX de 1,58 bits reside en su técnica de cuantificación, que restringe los pesos del maniquí a tres títulos: +1, -1 o 0. Este enfoque comprime los parámetros desde una precisión de 16 bits hasta 1,58 bits. A diferencia de los métodos tradicionales, esta cuantificación sin datos se apoyo exclusivamente en un conjunto de datos de calibración de indicaciones de texto, lo que elimina la obligación de datos de imágenes. Para manejar las complejidades de las operaciones de bits bajos, se desarrolló un kernel personalizado para optimizar los cálculos. Estos avances conducen a reducciones sustanciales en los requisitos de almacenamiento y memoria, al tiempo que mantienen la capacidad de producir imágenes de adhesión resolución de 1024 × 1024 píxeles.

Resultados y conocimientos
Amplias evaluaciones del maniquí FLUX de 1,58 bits en puntos de narración como GenEval y T2I CompBench demostraron su efectividad. El maniquí entregó un rendimiento a la par de su contraparte de precisión total, con desviaciones menores observadas en tareas específicas. En términos de eficiencia, el maniquí logró una reducción de 7,7 veces en el almacenamiento y una reducción de 5,1 veces en el uso de memoria en varias GPU. Las GPU fáciles de implementar, como la L20 y la A10, resaltaron aún más la practicidad del maniquí con notables mejoras de latencia. Estos resultados indican que FLUX de 1,58 bits equilibra eficazmente la eficiencia y el rendimiento, lo que lo hace adecuado para una variedad de aplicaciones.

Conclusión
El avance de FLUX de 1,58 bits aborda desafíos críticos en la implementación de Vision Transformers a gran escalera. Su capacidad para achicar significativamente los requisitos de almacenamiento y memoria sin martirizar el rendimiento representa un paso delante en el diseño eficaz de modelos de IA. Si adecuadamente hay beneficio de mejoría, como mejorar la cuantificación de activación y la representación con detalles finos, este trabajo sienta una cojín sólida para futuros avances. A medida que continúa la investigación, la perspectiva de implementar modelos generativos de adhesión calidad en dispositivos cotidianos se vuelve cada vez más realista, ampliando el entrada a potentes capacidades de IA.
Compulsar el Papel. Todo el crédito por esta investigación va a los investigadores de este plan. Por otra parte, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia fabricado para enfrentarse los desafíos del mundo vivo. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida vivo.