Athrun Data Intelligence


La rivalidad entre Anthropic y OpenAI se ha intensificado, desde competir Anuncios del Super Bowl hasta divulgar nuevos modelos de codificación el mismo día. Claude Opus 4.6 de Anthropic y Codex 5.3 de OpenAI ya están disponibles. Uno y otro muestran puntos de remisión sólidos, pero ¿cuál se destaca verdaderamente? Los pondré a prueba y compararé su desempeño en la misma tarea. A ver cuál sale ganando.

OpenAI Codex 5.3 frente a Claude Opus 4.6: puntos de remisión

Las puntuaciones de Claude 4.6 Opus para SWE-Bench y Cybersecurity se describen como “líderes en la industria” o “en la parte superior de la tabla” en sus notas de lectura, con un rendimiento específico de stop nivel indicado en sus tarjetas de sistema.

Punto de remisión Claudio 4.6 Opus GPT-5.3-Códice Notas
Terminal-Tira 2.0 81,4% 77,3% Habilidades de terminal agente y tareas del sistema.
SWE-Bench Pro ~57%* 56,8% Ingeniería de software del mundo vivo (multilenguaje).
PIBval-AA Liderando (+144 Elo) 70,9% (stop) Valencia del trabajo del conocimiento profesional.
OSWorld-Verified 72,7% 64,7% Uso del entorno de escritorio visual.
El extremo examen de la humanidad Primer oficio N / A Razonamiento multidisciplinario arduo.
Ventana de contexto 1 millón de fichas 128k (salida) Claude admite un confín de entrada de 1 M/salida de 128 k.
Ciberseguridad (CTF) ~78%* 77,6% Identificar y parchear vulnerabilidades.

Claude 4.6 Opus (Antrópico):

  • Alumbrar: Magnífico en razonamiento profundo y recuperación de contexto prolongado (1 millón de tokens). Sobresale en Terminal-Bench 2.0, lo que sugiere que actualmente es el maniquí más sólido para la planificación de agentes y tareas complejas a nivel de sistema.
  • Nuevas características: Presenta «Pensamiento adaptativo» y «Compactación de contexto» para mandar tareas de larga duración sin perder la concentración.

Aquí está nuestra revisión detallada sobre Claude Opus 4.6.

GPT-5.3-Códice (OpenAI):

  • Alumbrar: Especializado para el ciclo de vida completo del software y el uso visual de la computadora. Muestra un gran brinco en OSWorld-Verified, lo que lo hace en gran medida efectivo en la navegación UI/UX para completar tareas.
  • Nuevas características: Optimizado para velocidad (25 % más rápido que 5.2) y «colaboración interactiva», lo que permite a los usuarios dirigir el maniquí en tiempo vivo mientras se ejecuta.

Aquí está nuestro blog detallado sobre Códice 5.3.

¿Cómo conseguir?

  • Para la obra 4.6: He utilizado mi cuenta Claude Pro por valía de 17 dólares al mes.
  • Para el Códice 5.3: He utilizado la aplicación macOS de Codex y mi cuenta ChatGPT plus (R$ 1999 al mes) para iniciar sesión.

Tareas de Claude Opus 4.6 frente a OpenAI Codex 5.3

Ahora que hemos terminado con toda la pulvínulo, comparemos el rendimiento de estos modelos. Puede encontrar mis sugerencias, respuestas maniquí y mi opinión sobre las mismas:

Tarea 1: Clonar al estilo de Twitter (aplicación web)

Inmediato:

Eres un habituado ingeniero completo y diseñador de productos. Su tarea es crear un clon simple al estilo de Twitter (aplicación web) utilizando datos de interfaz ficticios.

Uso: Next.js (enrutador de aplicaciones) + React + TypeScript + Tailwind CSS. Sin autenticación, sin backend vivo; simplemente se burló de los datos en memoria en la interfaz.

Requisitos básicos:

  • Mostrador pegado izquierda: Logotipo, navegación principal (Inicio, Explorar, Notificaciones, Mensajes, Marcadores, Listas, Perfil, Más), llamador principal «Divulgar».
  • Nutriente central: Itinerario de tiempo con tweets, compositor en la parte superior (vicisitud de perfil + entrada «¿Qué está pasando?»), cada tweet con vicisitud, nombre, identificador, hora, texto, imagen opcional y acciones (Objetar, Retweet, Me gusta, Ver/Compartir).
  • Mostrador pegado derecha: Mostrador de búsqueda, cuadro «Tendencias para usted» (temas con recuento de tweets), maleable «A quién seguir» (3 perfiles ficticios).
  • Mostrador de navegación superior: Se corrigió con “Inicio” y 2 pestañas: “Para ti” y “Siguiendo”.
  • Comportamiento móvil: En pantallas pequeñas, muestra una mostrador de navegación inferior con íconos en oficio de la mostrador pegado izquierda.

Datos ficticios:

  • Cree tipos de TypeScript para Tweet, Heredero, Tendencia.
  • Aplicación de semillas con:
    • 15 tweets ficticios (texto corto/desprendido, algunos con imágenes, con recuentos variables de me gusta/retweets/respuestas).
    • 5 tendencias ficticias (nombre, categoría, recuento de tweets).
    • 5 usuarios ficticios para «A quién seguir».

Comportamiento:

  • Compositor de la publicación: Escribe un tweet y agrégalo instantáneamente en la parte superior del feed «Para ti».
  • Botonadura Me gusta: Relevarse estado gustado/no gustado y renovar el recuento de me gusta.
  • Cortina a la italiana: «Para ti» muestra todos los tweets, «Siguiendo» muestra tweets de 2 a 3 usuarios específicos.
  • Mostrador de búsqueda: Filtre las tendencias por nombre a medida que el heredero escribe.

Estructura de archivos y componentes:

  • aplicación/diseño.tsx: Diseño integral.
  • aplicación/página.tsx: Página principal de víveres.
  • componentes/mostrador pegado.tsx: Mostrador pegado izquierda.
  • componentes/Feed.tsx: Nutriente central.
  • componentes/Tweet.tsx: Tarjetas de tweets individuales.
  • componentes/TweetComposer.tsx: Compositor.
  • componentes/RightSidebar.tsx: Tendencias + a quién seguir.
  • componentes/BottomNav.tsx: Navegación inferior móvil.
  • datos/datos.ts: Datos ficticios y tipos de TypeScript.

Utilice Tailwind CSS para combinar con el diseño de Twitter: texto negro sobre fondo claro, tarjetas redondeadas, divisores sutiles.

Producción:

  • Proporcione una breve descripción genérico (5 a 7 viñetas) de la bloque y el flujo de datos.
  • Genere todos los archivos con comentarios en la parte superior para las rutas de los archivos y el código completo pronto para copiar y pegar.
  • Haga coincidir las importaciones con las rutas de archivo utilizadas.

Restricciones:

  • Sin backend, pulvínulo de datos ni API externa: todo debe ejecutarse con npm run dev.
  • Utilice un tipificado crear-siguiente-aplicación + Tailwind configuración.
  • Mantenga todo el contenido ficticio (sin nombres de heredero reales ni contenido protegido por derechos de autor).

Cómo ejecutar:

A posteriori de crear un esquema Next.js + Tailwind, ejecute la aplicación con los comandos exactos proporcionados.

Producción:

Mi opinión:

El clon de Twitter creado por Claude fue notablemente mejor. Codex logró crear un panel de mostrador pegado, pero le faltaban imágenes y se sentía incompleto, mientras que la lectura de Claude parecía mucho más pulida y cinta para producción.

Tarea 2: crear un engranaje de blackjack

Inmediato:

Descripción genérico del engranaje:

Cree un engranaje de Blackjack 1 contra 1 sencillo y ajustado en el que un ludópata humano compita contra un crupier informático, siguiendo las reglas tipificado del casino. La computadora debe seguir reglas fijas del distribuidor y no hacer trampa ni mirar información oculta.

Tecnología y estructura:

  • Usar HTML, CSSy javascript solo.
  • Aplicación de una sola página con tres archivos: index.html, style.css, script.js.
  • Sin bibliotecas externas.

Reglas del engranaje (Blackjack tipificado):

  • Cubierta: 52 cartas, 4 palos, títulos:
    • Tarjetas numéricas: valía nominativo.
    • J, Q, K: valía 10.
    • Ases: valía 1 u 11, el que sea más benévolo sin pasarse.
  • Propuesta auténtico:
    • Deportista: 2 cartas boca en lo alto.
    • Distribuidor: 2 cartas, una boca en lo alto y otra boca debajo.
  • Turno de ludópata:
    • Opciones: “Hit” (tomar carta) o “Stand” (finalizar turno).
    • Si el ludópata supera los 21, se pasa y pierde inmediatamente.
  • Turno del crupier (razonamiento fija):
    • Revela la carta oculta.
    • El crupier debe pedir hasta 17 o más, y debe plantarse en 17 o más (elija «pedir con 17 suaves» o «plantarse con todos los 17» e indíquelo claramente en la interfaz de heredero).
    • El crupier no ve cartas futuras ni anula reglas.
  • Resultado:
    • Si el crupier se pasa y el ludópata no, el ludópata apetito.
    • Si ningún de los dos fracasa, apetito el total más stop.
    • Totales iguales = “Empujar” (igualada).

Requisitos de equidad/sin sesgos:

  • Utilice un mazo correctamente barajado al manifestación de cada ronda (por ejemplo, barajado Fisher-Yates).
  • El comerciante no debe cambiar su comportamiento basándose en información oculta.
  • No reorganices la plataforma a fracción de camino.
  • Mantenga toda la razonamiento del engranaje en script.js para la audibilidad.
  • Muestre un mensaje como: «El crupier sigue reglas fijas (pide hasta 17, se queda en 17+). Sin manipulación».

Requisitos de la interfaz de heredero:

  • Disposición:
    • Hacia lo alto: Sección del crupier: muestra las cartas del crupier y el total.
    • Medio: Texto de estado (p. ej., “Tu turno: ¿pedir o plantarte?”, “el crupier está robando…”, “¡tú ganas!”, “el crupier apetito”, “empujar”).
    • Debajo: Sección de ludópata: muestra las cartas de los jugadores, el total y los chico para pedir, plantarse y nueva ronda.
    • Muestre las cartas como rectángulos simples con rango y palo (solo texto, sin imágenes).
    • Muestra contadores de victorias, derrotas y empates.

Interacciones y flujo:

  • Cuando se cargue la página, muestra el llamador «Iniciar engranaje» y luego reparte las cartas iniciales.
  • Habilite los chico Hit/Stand solo durante el turno del ludópata.
  • A posteriori de que el ludópata se planta o se pasa, ejecuta el turno mecánico del crupier paso a paso (con pequeños tiempos de aplazamiento).
  • Al final de la ronda, muestra el mensaje de resultado y actualiza los contadores.
  • El llamador «Nueva ronda» reinicia las manos y reorganiza el mazo.

Ordenamiento del código:

  • Funciones en script.js:
    • createDeck(): Devuelve una baraja nueva de 52 cartas.
    • shuffleDeck(deck): Baraja el mazo (Fisher-Yates).
    • dealInitialHands(): Reparte 2 cartas cada uno.
    • calculateHandTotal(hand): Maneja los Ases como 1 u 11 de guisa óptima.
    • playerHit(), playerStand(), dealerTurn(), checkOutcome().
  • Seguimiento de variables para playerHand, dealerHand, decky contadores de victorias, derrotas y empates.

Formato de salida:

  • Explique brevemente en 5 a 7 viñetas cómo se garantiza la equidad y la desaparición de prejuicios.
  • Genere el contenido completo de:
    • index.html
    • style.css
    • script.js
  • Asegúrese de que el código esté pronto para copiar y pegar y sea coherente (no faltan funciones ni variables).
  • Agregue una sección «Cómo ejecutar»: indique que coloque los tres archivos en una carpeta y bahía index.html en un navegador.

Producción:

Mi opinión:

La brecha se hizo aún más evidente en el engranaje de Blackjack. El Codex 5.3 produjo un resultado inmutable y muy tedioso. Por el contrario, Claude Opus 4.6 estaba muy por delante. Ofreció un tapete de casino ecológico adecuado, una interfaz de heredero mucho más atractiva y una experiencia web atractiva en genérico.

Claude Opus 4.6 vs OpenAI Codex 5.3: veredicto final

Las opiniones sobre si es mejor Codex 5.3 u Opus 4.6 siguen divididas en la comunidad tecnológica. Codex 5.3 se ve favorecido por su velocidad, confiabilidad en la producción de código desocupado de errores y efectividad en tareas de ingeniería complejas, particularmente para correcciones de backend y ejecución autónoma. Por otro banda, Opus 4.6 sobresale en razonamiento más profundo, capacidades de agencia y manejo de problemas de contexto desprendido, ofreciendo diseños de interfaz de heredero más atractivos. Sin retención, puede confrontar desafíos con las iteraciones y la eficiencia de los tokens.

A posteriori de mi experiencia habilidad con entreambos modelos, para esta batalla, Codex 5.3 vs Claude Opus 4.6, me en voz baja con Claude Opus 4.6 🏆.

El rendimiento genérico, la facilidad de uso y la interfaz de heredero pulida lo hicieron destacar en las tareas que probé, a pesar de que Codex 5.3 tenía sus ventajas en velocidad y funcionalidad.

No confíes sólo en mi palabra. ¡Pon a prueba entreambos modelos y comprueba cuál funciona mejor para ti! Déjame memorizar tus pensamientos.

Soy aprendiz de ciencia de datos en Analytics Vidhya y trabajo apasionadamente en el explicación de soluciones avanzadas de IA, como aplicaciones de IA generativa, modelos de verbo grandes y herramientas de IA de vanguardia que traspasan los límites de la tecnología. Mi función todavía implica crear contenido educativo atractivo para los canales de YouTube de Analytics Vidhya, desarrollar cursos integrales que cubran todo el espectro desde el enseñanza mecánico hasta la IA generativa y la creación de blogs técnicos que conecten conceptos fundamentales con las últimas innovaciones en IA. A través de esto, mi objetivo es contribuir a la construcción de sistemas inteligentes y compartir conocimientos que inspiren y empoderen a la comunidad de IA.

Inicie sesión para continuar leyendo y disfrutar de contenido seleccionado por expertos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *