Los modelos generativos han revolucionado campos como el idioma, la visión y la biología gracias a su capacidad para ilustrarse y tomar muestras de distribuciones de datos complejas. Si aceptablemente estos modelos se benefician de la ampliación durante el entrenamiento a través de mayores datos, bienes computacionales y tamaños de maniquí, sus capacidades de ampliación del tiempo de inferencia enfrentan desafíos importantes. Específicamente, los modelos de difusión, que destacan en la gestación de datos continuos como imágenes, audio y videos a través de un proceso de exterminio de ruido, encuentran limitaciones en la mejoramiento del rendimiento cuando simplemente aumentan el número de evaluaciones de funciones (NFE) durante la inferencia. El enfoque tradicional de juntar más pasos de exterminio de ruido impide que estos modelos logren mejores resultados a pesar de una inversión computacional adicional.
Se han explorado varios enfoques para mejorar el rendimiento de los modelos generativos durante la inferencia. La ampliación de la computación en el momento de la prueba ha demostrado ser eficaz para los LLM a través de algoritmos de búsqueda, métodos de comprobación y estrategias de asignación de computación mejorados. Los investigadores han seguido múltiples direcciones en los modelos de difusión, incluidos enfoques de ajuste, técnicas de enseñanza por refuerzo e implementación de optimización de preferencias directas. Encima, se han desarrollado métodos de optimización y selección de muestras utilizando algoritmos de búsqueda aleatoria, modelos VQA y modelos de preferencia humana. Sin retención, estos métodos se centran en mejoras del tiempo de entrenamiento o en optimizaciones limitadas del tiempo de prueba, lo que deja espacio para soluciones de escalamiento del tiempo de inferencia más detalladas.
Investigadores de NYU, MIT y Google han propuesto un situación fundamental para avanzar modelos de difusión durante el tiempo de inferencia. Su enfoque va más allá del simple aumento de los pasos de exterminio de ruido e introduce una novedosa metodología basada en búsquedas para mejorar el rendimiento de la gestación mediante una mejor identificación del ruido. El situación opera en dos dimensiones esencia: utilizar verificadores para obtener feedback e implementar algoritmos para descubrir candidatos de ruido superior. Este enfoque aborda las limitaciones de los métodos de escalamiento convencionales al introducir una forma estructurada de utilizar bienes computacionales adicionales durante la inferencia. La flexibilidad del situación permite que las combinaciones de componentes se adapten a escenarios de aplicación específicos.
La implementación del situación se centra en la gestación de ImageNet condicional de clase utilizando un maniquí SiT-XL previamente entrenado con una resolución de 256 × 256 y un muestreador Heun de segundo orden. La edificación mantiene 250 pasos fijos de exterminio de ruido mientras explora NFE adicionales dedicadas a operaciones de búsqueda. El mecanismo de búsqueda principal emplea un cálculo de búsqueda aleatoria, que implementa una táctica Best-of-N para separar candidatos de ruido óptimos. El sistema utiliza dos verificadores de Oracle para la comprobación: puntuación auténtico (IS) y distancia auténtico de Fréchet (FID). La selección de IS se plinto en la probabilidad de clasificación más reincorporación de un maniquí InceptionV3 previamente entrenado, mientras que la selección FID minimiza la discrepancia con respecto a las estadísticas de características de ImageNet Inception precalculadas.
La eficiencia del situación se ha demostrado mediante pruebas exhaustivas en diferentes puntos de narración. En DrawBench, que presenta diversas indicaciones de texto, la evaluación de LLM Grader muestra que la búsqueda con varios verificadores mejoramiento constantemente la calidad de la muestra, aunque con diferentes patrones en las configuraciones. ImageReward y Verifier Ensemble funcionan aceptablemente y muestran mejoras en todas las métricas correcto a sus capacidades de evaluación matizadas y su línea con las preferencias humanas. Los resultados revelan diferentes configuraciones óptimas en T2I-CompBench, centrándose en la precisión de las indicaciones de texto en ocasión de la calidad visual. ImageReward emerge como el de mejor desempeño, mientras que las puntuaciones estéticas muestran un impacto reducido o película y CLIP proporciona mejoras modestas.
En conclusión, los investigadores establecen un avance significativo en los modelos de difusión al introducir un situación para el escalamiento del tiempo de inferencia a través de mecanismos de búsqueda estratégica. El estudio muestra que el escalamiento computacional a través de métodos de búsqueda puede ganar mejoras sustanciales en el rendimiento en diferentes tamaños de modelos y tareas de gestación, con diferentes presupuestos computacionales que producen distintos comportamientos de escalado. La investigación concluye que, si aceptablemente el enfoque resulta exitoso, incluso revela los sesgos inherentes en los diferentes verificadores y enfatiza la importancia de desarrollar métodos de comprobación específicos para cada tarea. Esta información abre nuevas vías para futuras investigaciones en el ampliación de sistemas de comprobación más específicos y eficientes para diversas tareas de gestación de visión.
Revisar el Papel y Página del tesina. Todo el crédito por esta investigación va a los investigadores de este tesina. Encima, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. No olvides unirte a nuestro SubReddit de más de 65.000 ml.
🚨 (Ojeada recomendada) Nebius AI Studio se expande con modelos de visión, nuevos modelos de idioma, incrustaciones y LoRA (Promovido)
Sajjad Ansari es un estudiante de extremo año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo existente. Su objetivo es articular conceptos complejos de IA de una modo clara y accesible.
