Athrun Data Intelligence

MDM-PRIME: un situación de modelos de difusión enmascarados generalizado (MDMS) que permite tokens parcialmente desenmascarados durante el muestreo

Inmersión a MDMS y sus ineficiencias Los modelos de difusión enmascarados (MDM) son herramientas poderosas para difundir datos discretos, como texto o secuencias simbólicas, al desenmascarar gradualmente los tokens con el tiempo. En cada paso, las fichas están enmascaradas o desenmascaradas. Sin requisa, se ha observado que muchos pasos en el proceso inverso no cambian […]

Tormenta (reducción de tokens espacio -temporal para LLM multimodales): una nueva construcción de IA que incorpora un codificador temporal dedicado entre el codificador de imagen y el LLM

Comprensión Videos con AI requiere manejo de secuencias de imágenes de forma valioso. Un desafío importante en los modelos de IA basados ​​en video actuales es su incapacidad para procesar videos como un flujo continuo, agraviar importantes detalles de movimiento e interrumpir la continuidad. Esta equivocación de modelado temporal evita los cambios en el rastreo; […]

Hugging Face aguijada FineMath: el extremo conjunto de datos de preentrenamiento de matemáticas abiertas con más de 50 mil millones de tokens

Para la investigación educativa, el golpe a bienes educativos de ingreso calidad es fundamental para estudiantes y educadores. Las matemáticas, a menudo percibidas como una de las materias más desafiantes, requieren explicaciones claras y bienes admisiblemente estructurados para que el educación sea más efectivo. Sin confiscación, crear y curar conjuntos de datos centrados en la […]

Este artículo de IA presenta DyCoke: compresión dinámica de tokens para modelos de verbo egregio de video eficientes y de parada rendimiento

Los modelos de verbo egregio de vídeo (VLLM) han surgido como herramientas transformadoras para analizar el contenido de vídeo. Estos modelos destacan en el razonamiento multimodal, integrando datos visuales y textuales para interpretar y replicar a escenarios de vídeo complejos. Sus aplicaciones van desde preguntas y respuestas sobre vídeos hasta resúmenes y descripciones de vídeos. […]

Maniquí FTP de predicción de tokens futuros: un nuevo método de entrenamiento de inteligencia industrial para transformadores que predice múltiples tokens futuros

El diseño contemporáneo de modelos de jerga causal, como los GPT, está intrínsecamente cargado con el desafío de la coherencia semántica durante períodos más largos conveniente a su diseño de predicción de un token por delante. Esto ha permitido un crecimiento significativo de la IA generativa, pero a menudo conduce a una «derivación del tema» […]