La nueva sino del video de IA de China: Step-Video-T2V

China avanza rápidamente en IA generativa, basándose en éxitos como Fogueado modelos y Kimi K1.5 en modelos de idiomas. Ahora, está liderando el dominio de la visión con Omnihumano y Goku sobresaliendo en modelado 3D y síntesis de video. Con el paso-video-T2V, China desafía directamente a los mejores modelos de texto a video como Sora, […]
Este artículo de IA presenta DyCoke: compresión dinámica de tokens para modelos de verbo egregio de video eficientes y de parada rendimiento

Los modelos de verbo egregio de vídeo (VLLM) han surgido como herramientas transformadoras para analizar el contenido de vídeo. Estos modelos destacan en el razonamiento multimodal, integrando datos visuales y textuales para interpretar y replicar a escenarios de vídeo complejos. Sus aplicaciones van desde preguntas y respuestas sobre vídeos hasta resúmenes y descripciones de vídeos. […]