Athrun Data Intelligence


Concluyendo “12 días de OpenAI”, OpenAI presentó la serie o3, destacando su rendimiento superior en tareas de razonamiento, codificación y matemáticas manteniendo la rentabilidad. Los modelos o3 lograron una puntuación vanguardia del 75,7% en el punto de remisión ARC-AGI, una desafiante prueba de inteligencia normal que se mantuvo invicta durante CINCO primaveras. Echemos un vistazo más de cerca a estos modelos.

¿Cuáles son los nuevos modelos o3 y o3-mini?

Los modelos o3 representan la ulterior período en el explicación de la IA, capaces de manejar tareas cada vez más complejas que requieren un razonamiento progresista. Tras el éxito del maniquí de razonamiento o1, OpenAI ha perfeccionado su enfoque y ofrece dos nuevos modelos diseñados para acometer diversas deyección de los usuarios:

  • o3: Un maniquí de razonamiento enormemente capaz, que sobresale en puntos de remisión técnicos y resuelve problemas complejos en todos los dominios.
  • o3-mini: Una alternativa rentable que mantiene un rendimiento impresionante y al mismo tiempo ofrece capacidades de razonamiento flexibles para diversas aplicaciones.

Rendimiento magnífico en puntos de remisión esencia

OpenAI mostró las notables capacidades de o3 a través de varios puntos de remisión:

Codificación

En CodeForces, una plataforma de programación competitiva, o3 logró una puntuación ELO de 2727, un brinco significativo con respecto a la puntuación de o1 de 1891. Esto coloca al maniquí entre los programadores humanos de primer nivel.

Matemáticas

En la prueba de la Competencia Estadounidense de Matemáticas (AMC), o3 logró una precisión del 96,7%, en comparación con el 83,3% de o1. o3 obtuvo una puntuación del 87,7 % en este punto de remisión, superando el rendimiento medio de los expertos del 70 %.

En el punto de remisión Frontier Math de EpochAI, diseñado para problemas extremadamente desafiantes, o3 obtuvo una puntuación superior al 25 %, una mejoría extraordinario con respecto a las soluciones existentes.

ARC-AGI: Avanzando alrededor de la inteligencia normal

El benchmark ARC-AGI, una desafiante prueba de inteligencia normal, fue otro hito importante para el maniquí o3. Diseñado para evaluar la capacidad de un maniquí para memorizar nuevas tareas sin someterse de la memorización, se había mantenido invicto durante cinco primaveras.

El maniquí o3 logró una puntuación de última gestación del 75,7 % en el conjunto de retención semiprivada y una puntuación aún más adhesión del 87,5 % en entornos de adhesión computación. En particular, esto supera el punto de remisión humano del 85%, lo que muestra la capacidad del maniquí para pasar la inteligencia normal a nivel humano en contextos específicos. Este logro destaca el progreso de o3 alrededor de capacidades de enseñanza dinámicas y adaptativas.

o3 y o3-mini Asequibilidad

o3-mini complementa a o3 y ofrece una opción más rentable sin comprometer demasiado el rendimiento. Con características como el «tiempo de pensamiento» ajustable, los usuarios pueden optimizar el esfuerzo de razonamiento del maniquí para satisfacer sus requisitos específicos. Esto hace que o3-mini sea ideal para casos de uso donde el costo y la velocidad son críticos.

o3-mini admite tres niveles de esfuerzo de razonamiento: bajo, medio y stop. Para tareas más simples, un esfuerzo de razonamiento bajo ofrece resultados más rápidos, mientras que un esfuerzo de razonamiento elevado proporciona la profundidad necesaria para problemas complejos. Esta flexibilidad garantiza que los usuarios puedan equilibrar costos y rendimiento de modo capaz.

Seguridad y pruebas públicas

Al inspeccionar las crecientes capacidades de estos modelos, OpenAI ha enfatizado las pruebas de seguridad. A partir de hoy, los investigadores pueden solicitar golpe temprano a o3 y o3-mini para pruebas de seguridad pública. Este enfoque colaborativo tiene como objetivo descubrir vulnerabilidades potenciales y mejorar los modelos ayer de su tirada normal.

Alineamiento deliberativo: un nuevo pauta de seguridad

Para mejorar la seguridad, OpenAI introdujo la «Formación deliberativa», una técnica que aprovecha las capacidades de razonamiento de los modelos para detectar indicaciones inseguras de modo más efectiva. Este enfoque permite a o3 identificar intenciones ocultas en las consultas de los usuarios, fortaleciendo su capacidad para rehusar indicaciones dañinas o engañosas.

Cronograma para la publicación pública

OpenAI planea divulgar o3-mini a finales de enero de 2025, y el tirada completo de o3 poco posteriormente. La compañía alienta a los investigadores y desarrolladores a participar en pruebas de seguridad para acelerar estos cronogramas y al mismo tiempo avalar salvaguardias sólidas.

Haga clic aquí para aplicar.

Nota final

Los modelos o3 suponen un hito importante en el explicación de la IA, ya que combinan un rendimiento de última gestación con mecanismos de seguridad innovadores. Con o3 y o3-mini, OpenAI está allanando el camino para soluciones de IA más avanzadas y accesibles, estableciendo nuevos estándares sobre lo que los sistemas inteligentes pueden obtener. A medida que estos modelos estén ampliamente disponibles, prometen capacitar a investigadores, desarrolladores y organizaciones para acometer desafíos complejos con una eficiencia sin precedentes.

Estén atentos a Blog de descomposición de Vidhya para seguir más actualizaciones de este tipo.

Hola, soy Nitika, una creadora de contenido y comercializadora experta en tecnología. La creatividad y el enseñanza de cosas nuevas son poco natural para mí. Tengo experiencia en la creación de estrategias de contenido basadas en resultados. Estoy admisiblemente versado en diligencia de SEO, operaciones de palabras esencia, redacción de contenido web, comunicación, logística de contenido, tirada y redacción.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *