La rivalidad entre Anthropic y OpenAI se ha intensificado, desde competir Anuncios del Super Bowl hasta divulgar nuevos modelos de codificación el mismo día. Claude Opus 4.6 de Anthropic y Codex 5.3 de OpenAI ya están disponibles. Uno y otro muestran puntos de remisión sólidos, pero ¿cuál se destaca verdaderamente? Los pondré a prueba y compararé su desempeño en la misma tarea. A ver cuál sale ganando.
OpenAI Codex 5.3 frente a Claude Opus 4.6: puntos de remisión
Las puntuaciones de Claude 4.6 Opus para SWE-Bench y Cybersecurity se describen como “líderes en la industria” o “en la parte superior de la tabla” en sus notas de lectura, con un rendimiento específico de stop nivel indicado en sus tarjetas de sistema.
| Punto de remisión | Claudio 4.6 Opus | GPT-5.3-Códice | Notas |
|---|---|---|---|
| Terminal-Tira 2.0 | 81,4% | 77,3% | Habilidades de terminal agente y tareas del sistema. |
| SWE-Bench Pro | ~57%* | 56,8% | Ingeniería de software del mundo vivo (multilenguaje). |
| PIBval-AA | Liderando (+144 Elo) | 70,9% (stop) | Valencia del trabajo del conocimiento profesional. |
| OSWorld-Verified | 72,7% | 64,7% | Uso del entorno de escritorio visual. |
| El extremo examen de la humanidad | Primer oficio | N / A | Razonamiento multidisciplinario arduo. |
| Ventana de contexto | 1 millón de fichas | 128k (salida) | Claude admite un confín de entrada de 1 M/salida de 128 k. |
| Ciberseguridad (CTF) | ~78%* | 77,6% | Identificar y parchear vulnerabilidades. |
Claude 4.6 Opus (Antrópico):
- Alumbrar: Magnífico en razonamiento profundo y recuperación de contexto prolongado (1 millón de tokens). Sobresale en Terminal-Bench 2.0, lo que sugiere que actualmente es el maniquí más sólido para la planificación de agentes y tareas complejas a nivel de sistema.
- Nuevas características: Presenta «Pensamiento adaptativo» y «Compactación de contexto» para mandar tareas de larga duración sin perder la concentración.
Aquí está nuestra revisión detallada sobre Claude Opus 4.6.
GPT-5.3-Códice (OpenAI):
- Alumbrar: Especializado para el ciclo de vida completo del software y el uso visual de la computadora. Muestra un gran brinco en OSWorld-Verified, lo que lo hace en gran medida efectivo en la navegación UI/UX para completar tareas.
- Nuevas características: Optimizado para velocidad (25 % más rápido que 5.2) y «colaboración interactiva», lo que permite a los usuarios dirigir el maniquí en tiempo vivo mientras se ejecuta.
Aquí está nuestro blog detallado sobre Códice 5.3.
¿Cómo conseguir?
- Para la obra 4.6: He utilizado mi cuenta Claude Pro por valía de 17 dólares al mes.
- Para el Códice 5.3: He utilizado la aplicación macOS de Codex y mi cuenta ChatGPT plus (R$ 1999 al mes) para iniciar sesión.
Tareas de Claude Opus 4.6 frente a OpenAI Codex 5.3
Ahora que hemos terminado con toda la pulvínulo, comparemos el rendimiento de estos modelos. Puede encontrar mis sugerencias, respuestas maniquí y mi opinión sobre las mismas:
Tarea 1: Clonar al estilo de Twitter (aplicación web)
Inmediato:
Eres un habituado ingeniero completo y diseñador de productos. Su tarea es crear un clon simple al estilo de Twitter (aplicación web) utilizando datos de interfaz ficticios.
Uso: Next.js (enrutador de aplicaciones) + React + TypeScript + Tailwind CSS. Sin autenticación, sin backend vivo; simplemente se burló de los datos en memoria en la interfaz.
Requisitos básicos:
- Mostrador pegado izquierda: Logotipo, navegación principal (Inicio, Explorar, Notificaciones, Mensajes, Marcadores, Listas, Perfil, Más), llamador principal «Divulgar».
- Nutriente central: Itinerario de tiempo con tweets, compositor en la parte superior (vicisitud de perfil + entrada «¿Qué está pasando?»), cada tweet con vicisitud, nombre, identificador, hora, texto, imagen opcional y acciones (Objetar, Retweet, Me gusta, Ver/Compartir).
- Mostrador pegado derecha: Mostrador de búsqueda, cuadro «Tendencias para usted» (temas con recuento de tweets), maleable «A quién seguir» (3 perfiles ficticios).
- Mostrador de navegación superior: Se corrigió con “Inicio” y 2 pestañas: “Para ti” y “Siguiendo”.
- Comportamiento móvil: En pantallas pequeñas, muestra una mostrador de navegación inferior con íconos en oficio de la mostrador pegado izquierda.
Datos ficticios:
- Cree tipos de TypeScript para Tweet, Heredero, Tendencia.
- Aplicación de semillas con:
- 15 tweets ficticios (texto corto/desprendido, algunos con imágenes, con recuentos variables de me gusta/retweets/respuestas).
- 5 tendencias ficticias (nombre, categoría, recuento de tweets).
- 5 usuarios ficticios para «A quién seguir».
Comportamiento:
- Compositor de la publicación: Escribe un tweet y agrégalo instantáneamente en la parte superior del feed «Para ti».
- Botonadura Me gusta: Relevarse estado gustado/no gustado y renovar el recuento de me gusta.
- Cortina a la italiana: «Para ti» muestra todos los tweets, «Siguiendo» muestra tweets de 2 a 3 usuarios específicos.
- Mostrador de búsqueda: Filtre las tendencias por nombre a medida que el heredero escribe.
Estructura de archivos y componentes:
- aplicación/diseño.tsx: Diseño integral.
- aplicación/página.tsx: Página principal de víveres.
- componentes/mostrador pegado.tsx: Mostrador pegado izquierda.
- componentes/Feed.tsx: Nutriente central.
- componentes/Tweet.tsx: Tarjetas de tweets individuales.
- componentes/TweetComposer.tsx: Compositor.
- componentes/RightSidebar.tsx: Tendencias + a quién seguir.
- componentes/BottomNav.tsx: Navegación inferior móvil.
- datos/datos.ts: Datos ficticios y tipos de TypeScript.
Utilice Tailwind CSS para combinar con el diseño de Twitter: texto negro sobre fondo claro, tarjetas redondeadas, divisores sutiles.
Producción:
- Proporcione una breve descripción genérico (5 a 7 viñetas) de la bloque y el flujo de datos.
- Genere todos los archivos con comentarios en la parte superior para las rutas de los archivos y el código completo pronto para copiar y pegar.
- Haga coincidir las importaciones con las rutas de archivo utilizadas.
Restricciones:
- Sin backend, pulvínulo de datos ni API externa: todo debe ejecutarse con
npm run dev.- Utilice un tipificado crear-siguiente-aplicación + Tailwind configuración.
- Mantenga todo el contenido ficticio (sin nombres de heredero reales ni contenido protegido por derechos de autor).
Cómo ejecutar:
A posteriori de crear un esquema Next.js + Tailwind, ejecute la aplicación con los comandos exactos proporcionados.
Producción:
Mi opinión:
El clon de Twitter creado por Claude fue notablemente mejor. Codex logró crear un panel de mostrador pegado, pero le faltaban imágenes y se sentía incompleto, mientras que la lectura de Claude parecía mucho más pulida y cinta para producción.
Tarea 2: crear un engranaje de blackjack
Inmediato:
Descripción genérico del engranaje:
Cree un engranaje de Blackjack 1 contra 1 sencillo y ajustado en el que un ludópata humano compita contra un crupier informático, siguiendo las reglas tipificado del casino. La computadora debe seguir reglas fijas del distribuidor y no hacer trampa ni mirar información oculta.
Tecnología y estructura:
- Usar HTML, CSSy javascript solo.
- Aplicación de una sola página con tres archivos:
index.html,style.css,script.js.- Sin bibliotecas externas.
Reglas del engranaje (Blackjack tipificado):
- Cubierta: 52 cartas, 4 palos, títulos:
- Tarjetas numéricas: valía nominativo.
- J, Q, K: valía 10.
- Ases: valía 1 u 11, el que sea más benévolo sin pasarse.
- Propuesta auténtico:
- Deportista: 2 cartas boca en lo alto.
- Distribuidor: 2 cartas, una boca en lo alto y otra boca debajo.
- Turno de ludópata:
- Opciones: “Hit” (tomar carta) o “Stand” (finalizar turno).
- Si el ludópata supera los 21, se pasa y pierde inmediatamente.
- Turno del crupier (razonamiento fija):
- Revela la carta oculta.
- El crupier debe pedir hasta 17 o más, y debe plantarse en 17 o más (elija «pedir con 17 suaves» o «plantarse con todos los 17» e indíquelo claramente en la interfaz de heredero).
- El crupier no ve cartas futuras ni anula reglas.
- Resultado:
- Si el crupier se pasa y el ludópata no, el ludópata apetito.
- Si ningún de los dos fracasa, apetito el total más stop.
- Totales iguales = “Empujar” (igualada).
Requisitos de equidad/sin sesgos:
- Utilice un mazo correctamente barajado al manifestación de cada ronda (por ejemplo, barajado Fisher-Yates).
- El comerciante no debe cambiar su comportamiento basándose en información oculta.
- No reorganices la plataforma a fracción de camino.
- Mantenga toda la razonamiento del engranaje en
script.jspara la audibilidad.- Muestre un mensaje como: «El crupier sigue reglas fijas (pide hasta 17, se queda en 17+). Sin manipulación».
Requisitos de la interfaz de heredero:
- Disposición:
- Hacia lo alto: Sección del crupier: muestra las cartas del crupier y el total.
- Medio: Texto de estado (p. ej., “Tu turno: ¿pedir o plantarte?”, “el crupier está robando…”, “¡tú ganas!”, “el crupier apetito”, “empujar”).
- Debajo: Sección de ludópata: muestra las cartas de los jugadores, el total y los chico para pedir, plantarse y nueva ronda.
- Muestre las cartas como rectángulos simples con rango y palo (solo texto, sin imágenes).
- Muestra contadores de victorias, derrotas y empates.
Interacciones y flujo:
- Cuando se cargue la página, muestra el llamador «Iniciar engranaje» y luego reparte las cartas iniciales.
- Habilite los chico Hit/Stand solo durante el turno del ludópata.
- A posteriori de que el ludópata se planta o se pasa, ejecuta el turno mecánico del crupier paso a paso (con pequeños tiempos de aplazamiento).
- Al final de la ronda, muestra el mensaje de resultado y actualiza los contadores.
- El llamador «Nueva ronda» reinicia las manos y reorganiza el mazo.
Ordenamiento del código:
- Funciones en
script.js:
createDeck(): Devuelve una baraja nueva de 52 cartas.shuffleDeck(deck): Baraja el mazo (Fisher-Yates).dealInitialHands(): Reparte 2 cartas cada uno.calculateHandTotal(hand): Maneja los Ases como 1 u 11 de guisa óptima.playerHit(),playerStand(),dealerTurn(),checkOutcome().- Seguimiento de variables para
playerHand,dealerHand,decky contadores de victorias, derrotas y empates.Formato de salida:
- Explique brevemente en 5 a 7 viñetas cómo se garantiza la equidad y la desaparición de prejuicios.
- Genere el contenido completo de:
index.htmlstyle.cssscript.js- Asegúrese de que el código esté pronto para copiar y pegar y sea coherente (no faltan funciones ni variables).
- Agregue una sección «Cómo ejecutar»: indique que coloque los tres archivos en una carpeta y bahía
index.htmlen un navegador.
Producción:
Mi opinión:
La brecha se hizo aún más evidente en el engranaje de Blackjack. El Codex 5.3 produjo un resultado inmutable y muy tedioso. Por el contrario, Claude Opus 4.6 estaba muy por delante. Ofreció un tapete de casino ecológico adecuado, una interfaz de heredero mucho más atractiva y una experiencia web atractiva en genérico.
Claude Opus 4.6 vs OpenAI Codex 5.3: veredicto final
Las opiniones sobre si es mejor Codex 5.3 u Opus 4.6 siguen divididas en la comunidad tecnológica. Codex 5.3 se ve favorecido por su velocidad, confiabilidad en la producción de código desocupado de errores y efectividad en tareas de ingeniería complejas, particularmente para correcciones de backend y ejecución autónoma. Por otro banda, Opus 4.6 sobresale en razonamiento más profundo, capacidades de agencia y manejo de problemas de contexto desprendido, ofreciendo diseños de interfaz de heredero más atractivos. Sin retención, puede confrontar desafíos con las iteraciones y la eficiencia de los tokens.
A posteriori de mi experiencia habilidad con entreambos modelos, para esta batalla, Codex 5.3 vs Claude Opus 4.6, me en voz baja con Claude Opus 4.6 🏆.
El rendimiento genérico, la facilidad de uso y la interfaz de heredero pulida lo hicieron destacar en las tareas que probé, a pesar de que Codex 5.3 tenía sus ventajas en velocidad y funcionalidad.
No confíes sólo en mi palabra. ¡Pon a prueba entreambos modelos y comprueba cuál funciona mejor para ti! Déjame memorizar tus pensamientos.
Inicie sesión para continuar leyendo y disfrutar de contenido seleccionado por expertos.