Tormenta (reducción de tokens espacio -temporal para LLM multimodales): una nueva construcción de IA que incorpora un codificador temporal dedicado entre el codificador de imagen y el LLM

Comprensión Videos con AI requiere manejo de secuencias de imágenes de forma valioso. Un desafío importante en los modelos de IA basados en video actuales es su incapacidad para procesar videos como un flujo continuo, agraviar importantes detalles de movimiento e interrumpir la continuidad. Esta equivocación de modelado temporal evita los cambios en el rastreo; […]