Benchmark ilustra las capacidades de los modelos como la codificación y el razonamiento. El resultado del maniquí refleja el rendimiento del maniquí sobre varios dominios disponibles en datos sobre codificación de agente, matemáticas, razonamiento y uso de herramientas.
Punto de relato | Claude 4 Opus | Soneto de Claude 4 | GPT-4O | Géminis 2.5 Pro |
Humaneval (Gen Code) | No acondicionado | No acondicionado | 74.8% | 75.6% |
GPQA (razonamiento de posgrado) | 83.3% | 83.8% | 83.3% | 83.0% |
Mmlu (conocimiento mundial) | 88.8% | 86.5% | 88.7% | 88.6% |
AIME 2025 (matemáticas) | 90.0% | 85.0% | 88.9% | 83.0% |
Swe-Bench (codificación de agente) | 72.5% | 72.7% | 69.1% | 63.2% |
Tau-Bench (uso de la aparejo) | 81.4% | 80.5% | 70.4% | No acondicionado |
Terminal-Bench (codificación) | 43.2% | 35.5% | 30.2% | 25.3% |
Mmmu (razonamiento visual) | 76.5% | 74.4% | 82.9% | 79.6% |
En esto, Claude 4 generalmente se destaca en la codificación, GPT-4O en razonamiento y Gemini 2.5 Pro ofrece un rendimiento esforzado y mesurado en diferentes modalidades. Para más información, visite aquí.
Examen universal
Esto es lo que hemos aprendido sobre estos modelos de clausura avanzados, basados en los puntos de comparación anteriores:
- Descubrimos que Claude 4 se destaca en la codificación, las matemáticas y el uso de herramientas, pero además es el más caro.
- GPT-4O se destaca en razonamiento y soporte multimodal, manejando diferentes formatos de entrada, lo que lo convierte en una opción ideal para asistentes más avanzados y complejos.
- Mientras tanto, Gemini 2.5 Pro ofrece un rendimiento esforzado y mesurado con la ventana de contexto más ancho y el precio más rentable.
Claude 4 vs GPT-4O vs Gemini 2.5 Pro: Capacidades de codificación
Ahora compararemos las capacidades de escritura de código de Claude 4, GPT-4O y Gemini 2.5 Pro. Para eso, vamos a dar el mismo aviso a los tres modelos y evaluar sus respuestas sobre las siguientes métricas:
- Eficiencia
- Legibilidad
- Comentario y documentación
- Manejo de errores
Tarea 1: Diseñe a las cartas con HTML, CSS y JS
Inmediato: «Cree una página web interactiva que muestre una colección de tarjetas de WWE Superstar con HTML, CSS y JavaScript. Cada maleable debe representar un gladiador de la WWE y debe incluir una parte delantera y trasera. En la parte delantera, muestre el nombre y la imagen del gladiador. En la parte posterior, muestre estadísticas adicionales como su movimiento final, marca y títulos de campeonato. Las tarjetas de flash deben tener una animación FLIP cuando se rondan o hacen clic.
Por otra parte, agregue controles interactivos para hacer la dinámica de la página: un capullo que baraja las cartas y otra que muestra una carta aleatoria desde el mazo. El diseño debe ser visualmente atractivo y reponer para diferentes tamaños de pantalla. Puntos de beneficio Si incluye artículos de sonido como música de entrada cuando se voltea una maleable.
Características secreto para implementar:
- Frente a la maleable: nombre del gladiador + imagen
- Detención de la maleable: estadísticas (por ejemplo, finalista, marca, títulos)
- Flip Animation usando CSS o JS
- Cogollo «Shuffle» para reordenar al azar tarjetas
- Cogollo «Mostrar superestrella al azar»
- Diseño receptivo.«
Respuesta de Claude 4:
Respuesta de GPT-4O:
Respuesta de Gemini 2.5 Pro:
Examen comparativo
En la primera tarea, Claude 4 dio la experiencia más interactiva con las imágenes más dinámicas. Todavía agregó un objetivo de sonido al hacer clic en la maleable. GPT-4O dio un diseño de tema irritado con transiciones suaves y recadero completamente funcionales, pero carecía de la funcionalidad de audio. Mientras tanto, Gemini 2.5 Pro dio el diseño secuencial más simple y nuclear sin animación ni sonido. Por otra parte, la función de maleable aleatoria en este no pudo mostrar la cara de la maleable correctamente. En universal, Claude toma la delantera aquí, seguido de GPT-4O, y luego Géminis.
Tarea 2: construir un surtido
Inmediato: «El surtido de táctica de hechizos es un surtido de batalla basado en turnos construido con Pygame, donde dos magos compiten al editar hechizos de sus libros de hechizos. Cada atleta comienza con 100 hp y 100 maná y se turnan para distinguir hechizos que infligen daño, sanan o aplican artículos especiales como escudos y aturdimientos. Los hechizos consumen maná y tienen períodos de refrigeramiento, lo que requiere que los jugadores gestionen los medios y se establezcan cuidadosamente. El surtido presenta una interfaz de legatario atractiva con la sanidad y las barras de maná, y los indicadores de refrigeramiento del hechizo. Los jugadores pueden enfrentarse a otro oponente humano o de IA, con el objetivo de ceñir el HP de su rival a cero a través de decisiones tácticas.
Características secreto:
- Solaz por turnos con dos magos (PVP o PVAI)
- 100 hp y 100 maná por atleta
- Tomo de hechizos con diversos hechizos: daño, curación, escudos, aturdimientos, recarga de maná
- Costos de maná e enfriamientos para cada hechizo para alentar el surtido clave
- Instrumentos visuales de la interfaz de legatario: barras de sanidad/maná, indicadores de refrigeramiento, íconos de hechizos
- Oponente de AI con toma de decisiones tácticas simples
- Controles impulsados por el mouse con atajos de teclado opcionales
- Mensajes claros en el surtido que muestra acciones y artículos«
Respuesta de Claude 4:
Respuesta de GPT-4O:
Respuesta de Gemini 2.5 Pro:
Examen comparativo
En la segunda tarea, en universal, ningún de los modelos proporcionó gráficos adecuados. Cada uno mostró una pantalla negra con una interfaz mínima. Sin confiscación, Claude 4 ofreció el control más cómodo y suave sobre el surtido, con una amplia escala de ataque, defensa y otro surtido clave. GPT-4O, por otro banda, sufrió problemas de rendimiento, como rezagamiento y un tamaño de ventana pequeño y conciso. Incluso Gemini 2.5 Pro se quedó corto aquí, ya que su código no pudo funcionar y dio algunos errores. En universal, una vez más, Claude toma la delantera aquí, seguido de GPT-4O, y luego Gemini 2.5 Pro.
Tarea 3: El mejor momento para comprar y traicionar acciones
Inmediato: «Se le otorgan un precio de matriz donde los precios (i) son el precio de una influencia determinada en el día ésimo.
Encuentre el mayor beneficio que puede obtener. Puede completar como mayor dos transacciones.
Nota: No puede participar en múltiples transacciones simultáneamente (es afirmar, debe traicionar las acciones ayer de comprar nuevamente).
Ejemplo:
Entrada: Precios = (3,3,5,0,0,3,1,4)
Salida: 6
Explicación: Compre el día 4 (precio = 0) y venda el día 6 (precio = 3), ganancias = 3-0 = 3. Luego compre el día 7 (precio = 1) y venda el día 8 (precio = 4), ganancias = 4-1 = 3.«
Respuesta de Claude 4:

Respuesta de GPT-4O:

Respuesta de Gemini 2.5 Pro:

Examen comparativo
En la tercera y última tarea, tél Los modelos tuvieron que resolver el problema utilizando la programación dinámica. AMong el tres, Propuesta GPT-4Otiraje La opción más destreza y perfectamente enfurecida, utilizando una programación dinámica 2D limpia con inicialización segura, y además incluyed Casos de prueba. Mientras que Claude 4 proporcionad Un enfoque más detallado y educativo, es más detallado. Mientras tanto, Gemini 2.5 Pro dio un método conciso, pero usad Inicialización int_min, que es un enfoque arriesgado. Entonces, en esta tarea, GPT-4O toma la iniciativa, seguido de Claude 4 y luego Gemini 2.5 Pro.
Veredicto final: observación universal
Aquí hay un esquema comparativo de qué tan perfectamente se ha realizado cada maniquí en las tareas anteriores.
Tarea | Claude 4 | GPT-4O | Géminis 2.5 Pro | Triunfador |
Tarea 1 (Ui de la maleable) | Más interactivo con animaciones y artículos de sonido | Tema umbrío suave con recadero funcionales, sin audio | Diseño secuencial nuclear, problema de cara de maleable, sin animación/sonido | Claude 4 |
Tarea 2 (Control del surtido) | Controles suaves, opciones de táctica amplias, el surtido más cómodo | Usable pero paulatino, ventana pequeña | No se pudo ejecutar, errores de interfaz | Claude 4 |
Tarea 3 (Programación dinámica) | Detenidamente pero educativo, bueno para educarse | Alternativa DP limpia y segura con casos de prueba, la más destreza | Conciso pero inseguro (usa int_min), carece de robustez | GPT-4O |
Para probar la traducción completa de todos los archivos de código, visite aquí.
Conclusión
Ahora, a través de esta comparación completa de tres tareas diversas, hemos observado que Claude 4 se destaca con sus capacidades interactivas de diseño de UI y deducción estable en programación modular, lo que lo convierte en el mejor desempeño en universal. Mientras que GPT-4O sigue de cerca con su codificación limpia y destreza, y sobresale en la resolución de problemas algorítmicos. Mientras tanto, Gemini 2.5 Pro carece de diseño de interfaz de legatario y estabilidad en la ejecución en todas las tareas. Pero estas observaciones se basan completamente en la comparación preliminar, mientras que cada maniquí tiene fortalezas únicas, y la dilema del maniquí depende completamente del problema que estamos tratando de resolver.
Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.