2025 como año ha sido el hogar de varios avances cuando se manejo de grandes modelos de idiomas (LLM). La tecnología ha enfrentado un hogar en casi todos los dominios imaginables y se está integrando cada vez más en los flujos de trabajo convencionales. Con tanto sucedido, es una tarea difícil para realizar un seguimiento de hallazgos significativos. Este artículo lo ayudaría a familiarizarlo con los trabajos de investigación de LLM más populares que han nacido este año. Esto lo ayudaría a mantenerse actualizado con los últimos avances en la IA.
Documentos de investigación de los 10 LLM principales
Los trabajos de investigación se han obtenido de Hugging Face, una plataforma en cuerda para contenido relacionado con la IA. La métrica utilizada para la selección es el parámetro de votos en la cara abrazada. Los siguientes son 10 de los documentos de estudio de investigación mejor recibidos de 2025:
1. Mutarjim: avance de traducción bidireccional en árabe-inglés

Categoría: Procesamiento del jerigonza natural
Mutarjim es un maniquí de jerigonza de parámetros 1.5B compacto pero potente para la traducción bidireccional en inglés-inglés, basado en Kuwain-1.5b, que logra
Objetivos: El objetivo principal es desarrollar un maniquí de jerigonza competente y preciso optimizado para la traducción bidireccional en árabe-inglés. Aborda las limitaciones de los LLM actuales en este dominio e introduce un punto de narración robusto para la evaluación.
Resultado:
- Mutarjim (parámetros 1.5B) logró un rendimiento de vanguardia en el punto de narración Tarjama-25 para la traducción árabe a inglés.
- Las variantes unidireccionales, como Mutarjim-Ar2en, superaron el maniquí bidireccional.
- La período continua previa al entrenamiento mejoró significativamente la calidad de la traducción.
Papel completo: https://arxiv.org/abs/2505.17894
2. Documentación técnico QWEN3

Categoría: Procesamiento del jerigonza natural
Este crónica técnico presenta QWEN3, una nueva serie de LLMS Con modos de pensamiento integrado y no pensamiento, diversos tamaños de modelos, capacidades multilingües mejoradas y rendimiento de última vivientes en varios puntos de narración.
Objetivo: El objetivo principal del documento es introducir la serie QWEN3 LLM, diseñada para mejorar el rendimiento, la eficiencia y las capacidades multilingües, en particular mediante la integración del pensamiento flexible y los modos no pensados y optimizando el uso de bienes para diversas tareas.
Resultado:
- Las evaluaciones empíricas demuestran que QWEN3 logra resultados de última vivientes en diversos puntos de narración.
- El maniquí insignia QWEN3-235B-A22B logró 85.7 en AIME’24 y 70.7 en LivecodeBench V5.
- QWEN3-235B-A22B-Pulvínulo superó a Deepseek-V3-Pulvínulo en 14 de 15 puntos de narración de evaluación.
- La destilación musculoso a fulma resultó mucho competente, lo que requiere aproximadamente 1/10 de las horas de GPU en comparación con el enseñanza de refuerzo directo.
- Qwen3 Soporte multilingüe ampliado de 29 a 119 idiomas y dialectos, mejorando la accesibilidad integral y la comprensión interlingüística.
Papel completo: https://arxiv.org/abs/2505.09388
3. Percepción, razón, pensamiento y planificación: una averiguación sobre grandes modelos de razonamiento multimodal

Categoría: Multimodal
Este documento proporciona una averiguación integral de grandes modelos de razonamiento multimodal (LMRMS), que describe una hoja de ruta de progreso de cuatro etapas para la investigación de razonamiento multimodal.
Objetivo: El objetivo principal es aclarar el panorama contemporáneo del razonamiento multimodal e informar el diseño de sistemas de razonamiento multimodal de próxima vivientes capaces de percepción integral, comprensión precisa y razonamiento profundo en diversos entornos.
Resultado: Los hallazgos experimentales de la averiguación destacan las limitaciones actuales de LMRM en la tarea de respuesta a las preguntas de audio-video (AVQA). Adicionalmente, GPT-4O puntúa el 0.6% en el punto de narración de BROWSECOMP, mejorando al 1.9% con las herramientas de navegación, lo que demuestra una planificación débil interactiva de herramientas.
Papel completo: https://arxiv.org/abs/2505.04921
4. Incondicional cero: razonamiento de autoestima reforzado con datos cero

Categoría: Educación de refuerzo
Este artículo presenta Absolute Zero, un nuevo enseñanza de refuerzo con modelo de recompensas verificables (RLVR). Permite que los modelos de jerigonza generen y resuelvan de forma autónoma las tareas de razonamiento, logrando la superación personal sin someterse de datos externos curados por los humanos.
Objetivo: El objetivo principal es desarrollar un sistema de razonamiento de autoevolución que supera las limitaciones de escalabilidad de los datos curados por los humanos. Al instruirse a proponer tareas que maximicen su progreso de enseñanza y mejoren sus capacidades de razonamiento.
Resultado:
- AZR logra el rendimiento normal de vanguardia (SOTA) en tareas de codificación y razonamiento matemático.
- Específicamente, AZR-Coder-7B logra un puntaje promedio normal de 50.4, superando los mejores modelos anteriores en 1.8 puntos porcentuales absolutos en tareas combinadas de matemáticas y codificación sin datos curados.
- La escalera de mejoras de rendimiento con el tamaño del maniquí: los modelos de codificadores 3B, 7B y 14B logran ganancias de +5.7, +10.2 y +13.2 puntos, respectivamente.
Papel completo: https://arxiv.org/abs/2505.03335
5. Documentación técnico de SEED1.5-VL

Categoría: Multimodal
Este crónica presenta Seed1.5-VL, un maniquí de saco compacto en idioma de visión diseñado para la comprensión y el razonamiento multimodal de uso normal.
Objetivo: El objetivo principal es avanzar en la comprensión y el razonamiento multimodal de uso normal abordando la escasez de anotaciones en idioma de visión de ingreso calidad y entrenando eficientemente modelos multimodales a gran escalera con arquitecturas asimétricas.
Resultado:
- Seed1.5-VL logra el desempeño de última vivientes (SOTA) en 38 de 60 puntos de narración públicos evaluados.
- Excelente en la comprensión de los documentos, la saco y las tareas de agente.
- El maniquí logra una puntuación MMMU de 77.9 (modo de pensamiento), que es un indicador esencia de la capacidad de razonamiento multimodal.
Papel completo: https://arxiv.org/abs/2505.07062
6. Cambiando la eficiencia de la IA de la compresión centrada en los datos a los datos

Categoría: Educación necesario
Este documento de posición aboga por un cambio de modelo en la eficiencia de IA de la compresión centrada en el maniquí a los datos, centrándose en la compresión del token para acometer el creciente cuello de botella computacional de secuencias de token largas en modelos de IA grandes.
Objetivo: El documento tiene como objetivo reposicionar la investigación de eficiencia de IA al argumentar que el cuello de botella computacional dominante ha cambiado del tamaño del maniquí al costo cuadrático de la autoatición en secuencias de token largas, lo que requiere un enfoque en la compresión de token centrada en datos.
Resultado:
- La compresión del token se muestra cuantitativamente para sujetar la complejidad computacional cuadráticamente y el uso de memoria linealmente con la reducción de la largura de la secuencia.
- Las comparaciones empíricas revelan que la caída de token aleatoria simple a menudo supera sorprendentemente superiores a los métodos de compresión de tokens de ingeniería meticulosamente diseñadas.
Papel completo: https://arxiv.org/abs/2505.19147
7. Propiedades emergentes en pretruación multimodal unificada

Categoría: Multimodal
Bagel es un maniquí fundamental de código libre para la comprensión y vivientes multimodal unificada, que exhibe capacidades emergentes en un razonamiento multimodal enredado.
Objetivo: El objetivo principal es cerrar la brecha entre los modelos académicos y los sistemas patentados en la comprensión multimodal.
Resultado:
- Bagel supera significativamente los modelos unificados existentes de código libre tanto en la vivientes multimodal como en la comprensión en los puntos de narración unificado.
- En los puntos de narración de comprensión de la imagen, Bagel logró un puntaje de 85.0 en MMBench y 69.3 en MMVP.
- Para la vivientes de texto a imagen, Bagel alcanzó una puntuación normal de 0.88 en el punto de narración de Gineval.
- El maniquí exhibe capacidades emergentes avanzadas en un razonamiento multimodal enredado.
- La integración del razonamiento de la dependencia de pensamiento (COT) mejoró el puntaje de Bagel’s IntelligentBench de 44.9 a 55.3.
Papel completo: https://arxiv.org/abs/2505.14683
8.-Diseño intrascendente: texto intrínseco de texto cero a voz con un codificador de altavoces aprendiendo

Categoría: Procesamiento del jerigonza natural
Minimax-speech es un maniquí autorregresivo basado en transformador (TTS) basado en transformador (TTS) que emplea un codificador de altavoces aprendible y VAE de flujo para conquistar una clonación de voz de ingreso calidad, shot cero y un solo disparo en 32 idiomas.
Objetivo: El objetivo principal es desarrollar un maniquí TTS capaz de clonarse de voz de ingreso fidelidad de disparo cero expresivo a partir de audio de narración no asociado.
Resultado:
- Minimax-speech logró resultados de vanguardia en la métrica de clonación de voz objetiva.
- El maniquí aseguró la posición superior en la tabla de clasificación industrial de la arena con una puntuación elo de 1153.
- En las evaluaciones multilingües, el discurso de Minimax superó significativamente a ElevenLabs V2 multilingüe en idiomas con estructuras tonales complejas.
- La integración de VAE de flujo mejoró la síntesis de TTS, como lo demuestra un shot cero de prueba-ZH de 0.748.
Papel completo: https://arxiv.org/abs/2505.07916
9. Más allá de ‘¡Ajá!’: En torno a la alineamiento sistemática de metailabilidades

Categoría: Procesamiento del jerigonza natural
Este documento introduce un método sistemático para alinear grandes modelos de razonamiento (LRM) con metailabilidades fundamentales. Lo hace utilizando tareas sintéticas autoverificables y una tubería de enseñanza de refuerzo de tres etapas.
Objetivo: Para exceder la error de fiabilidad y la imprevisibilidad de los «momentos de AHA» emergentes en LRM al alinearlos explícitamente con las meta-habilidades de razonamiento de dominio normal (deducción, inducción y apartamiento).
Resultado:
- La alineamiento de meta-capacidad (Etapa A + B) se transfirió a puntos de narración invisibles, con el maniquí 32B combinado que muestra una provecho del 3.5%en la precisión promedio normal (48.1%) en comparación con la cuerda de saco ajustada a la instrucción (44.6%) entre matemáticas, codificación y puntos de narración de ciencias.
- RL específica del dominio del punto de control adscrito por meta-capacidad (etapa C) aumentó aún más el rendimiento; El maniquí 32B de dominio-RL-Meta alcanzó un promedio normal del 48.8%, que representa una provecho absoluta del 4.2% sobre la cuerda de saco de instrucciones 32B (44.6%) y una provecho del 1.4% sobre RL directa de los modelos de instrucciones (47.4%).
- El maniquí adscrito por meta-capacidad demostró una longevo frecuencia de comportamientos cognitivos específicos.
Papel completo: https://arxiv.org/abs/2505.10554
10. Educación de la dependencia del maniquí para el maniquí de idioma

Categoría: Procesamiento del jerigonza natural
Este artículo presenta «dependencia de maniquí» (COM), un nuevo modelo de enseñanza para los modelos de idiomas (LLM) que integra las relaciones causales en los estados ocultos como una dependencia, lo que permite una mejor eficiencia de escalera y flexibilidad de inferencia.
Objetivo: El objetivo principal es acometer las limitaciones de las estrategias de escalera LLM existentes, que a menudo requieren capacitación desde cero y activar una escalera fija de parámetros, desarrollando un ámbito que permite esquilar el maniquí progresivo, inferencia elástica y capacitación y ajuste más competente para LLM.
Resultado:
- Colm Family logra un rendimiento comparable a los modelos de transformadores unificado.
- La expansión de la dependencia demuestra mejoras de rendimiento (por ejemplo, Tinyllama-V1.1 con expansión mostró una alivio del 0.92% en la precisión promedio).
- Colm-Air acelera significativamente el previo replanteamiento (por ejemplo, Colm-Air logró casi 1.6x a 3.0x más rápido de pre-relleno, y hasta 27x rapidez cuando se combinó con minferencia).
- El ajuste de la dependencia aumenta el rendimiento del pegamento al ajustar solo un subconjunto de parámetros.
Papel completo: https://arxiv.org/abs/2505.11820
Conclusión
Lo que se puede concluir de todos estos trabajos de investigación de LLM es que los modelos de idiomas ahora se están utilizando ampliamente para una variedad de propósitos. Su caso de uso ha gravitado enormemente de la vivientes de texto (la carga de trabajo innovador para la que fue diseñada). Las investigaciones se basan en la gran cantidad de marcos y protocolos que se han desarrollado cerca de de LLM. Fuego la atención sobre el hecho de que la longevo parte de la investigación se está haciendo en IA, enseñanza necesario y disciplinas similares, lo que hace que sea aún más necesario que uno permanezca actualizado sobre ellas.
Con los trabajos de investigación de LLM más populares ahora a su disposición, puede integrar sus hallazgos para crear desarrollos de última vivientes. Si acertadamente la mayoría de ellos mejoran las técnicas preexistentes, los resultados logrados proporcionan transformaciones radicales. Esto ofrece una perspectiva prometedora para futuras investigaciones y desarrollos en el campo ya en auge de los modelos de idiomas.
Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.