¡Los modelos de razonamiento con AI están tomando el mundo por asalto en 2025! Con el impulso de Deepseek-R1 y O3-Minihemos conocido niveles sin precedentes de capacidades lógicas de razonamiento en chatbots de IA. En este artículo, accederemos a estos modelos a través de sus API y evaluaremos sus habilidades de razonamiento metódico para investigar si O3-Mini puede reemplazar Deepseek-r1. ¡Compararemos su rendimiento en puntos de relato típico, así como aplicaciones del mundo efectivo como resolver rompecabezas lógicos e incluso construir un repertorio de Tetris! Así que abrochate y únete al delirio.
Deepseek-r1 vs O3-Mini: puntos de relato de razonamiento metódico
Deepseek-R1 y O3-Mini ofrecen enfoques únicos para el pensamiento y la deducción estructurados, haciéndolos aptos para varios tipos de tareas complejas de resolución de problemas. Antiguamente de dialogar de su representación de relato, primero echemos un vistazo a la edificación de estos modelos.
O3-Mini es el maniquí de razonamiento más liberal de OpenAI. Utiliza una edificación de transformador denso, procesando cada token con todos los parámetros del maniquí para un rendimiento resistente pero un parada consumo de capital. En contraste, el maniquí más metódico de Deepseek, R1, emplea un situación de mezcla de expertos (MOE), activando solo un subconjunto de parámetros por entrada para una anciano eficiencia. Esto hace que Deepseek-R1 sea más escalable y computacionalmente optimizado mientras mantiene un rendimiento sólido.
Aprenda más: ¿Es el O3-Mini de OpenAI mejor que Deepseek-R1?
Ahora lo que necesitamos ver es qué tan proporcionadamente funcionan estos modelos en las tareas de razonamiento metódico. Primero, echemos un vistazo a su representación en las pruebas de relato LiveBench.

Fuentes: LiveBench.ai
Los resultados de relato muestran que el O3-Mini de OpenAI supera a Deepseek-R1 en casi todos los aspectos, excepto las matemáticas. Con un puntaje promedio total de 73.94 en comparación con los 71.38 de Deepseek, el O3-Mini demuestra un rendimiento militar levemente más resistente. Particularmente sobresale en el razonamiento, logrando 89.58 frente a 83.17 de Deepseek, lo que refleja capacidades analíticas y de resolución de problemas superiores.
Lea asimismo: Google Gemini 2.0 Pro vs Deepseek-R1: ¿Quién está codificando mejor?
Deepseek-r1 vs O3-Mini: comparación de precios de API
Cubo que estamos probando estos modelos a través de sus API, veamos cuánto cuestan estos modelos.
Maniquí | Largo de contexto | Precio de entrada | Precio de entrada en gusto | Precio de salida |
O3-Mini | 200K | Tokens de $ 1.10/m | Tokens de $ 0.55/m | Tokens de $ 4.40/m |
profundo-chat | 64k | Tokens de $ 0.27/m | Tokens de $ 0.07/m | Tokens de $ 1.10/m |
Deepseek-Razerer | 64k | Tokens de $ 0.55/m | Tokens de $ 0.14/m | Tokens de $ 2.19/m |
Como se ve en la mesa, el O3-Mini de OpenAI es casi el doble de caro que Deepseek R1 en términos de costos de API. Cobra $ 1.10 por millón de tokens por entrada y $ 4.40 por la producción, mientras que Deepseek R1 ofrece una tasa más rentable de $ 0.55 por millón de tokens por entrada y $ 2.19 para la producción, lo que lo convierte en una opción más económica para aplicaciones a gran escalera.
Fuentes: Deepseek-r1 | O3-Mini
Cómo entrar a Deepseek-R1 y O3-Mini a través de API
Antiguamente de entrar en la comparación de rendimiento práctico, aprendamos a entrar a Deepseek-R1 y O3-Mini usando API.
Todo lo que tiene que hacer para esto es importar las bibliotecas y claves API necesarias:
from openai import OpenAI
from IPython.display import display, Markdown
import time
with open("path_of_api_key") as file:
openai_api_key = file.read().strip()
with open("path_of_api_key") as file:
deepseek_api = file.read().strip()
Deepseek-r1 vs O3-Mini: comparación de razonamiento metódico
Ahora que hemos obtenido el paso a la API, comparemos Deepseek-R1 y O3-Mini en función de sus capacidades lógicas de razonamiento. Para esto, daremos el mismo aviso tanto a los modelos como a evaluar sus respuestas basadas en estas métricas:
- Tiempo que el maniquí tomó la respuesta,
- Calidad de la respuesta generada y
- Costo incurrido para difundir la respuesta.
Luego anotaremos los modelos 0 o 1 para cada tarea, dependiendo de su rendimiento. ¡Así que probemos las tareas y veamos quién emerge como el campeón en la batalla de razonamiento Deepseek-R1 vs O3-Mini!
Tarea 1: Construir un repertorio de Tetris
Esta tarea requiere que el maniquí implemente un repertorio de Tetris completamente pragmático usando Python, que administra eficientemente la método del repertorio, el movimiento de las piezas, la detección de colisiones y la representación sin reconocer de motores de juegos externos.
Inmediato: «Escriba un código de Python para este problema: genere un código de Python para el repertorio Tetris»
Entrada a la API Deepseek-R1
INPUT_COST_CACHE_HIT = 0.14 / 1_000_000 # $0.14 per 1M tokens
INPUT_COST_CACHE_MISS = 0.55 / 1_000_000 # $0.55 per 1M tokens
OUTPUT_COST = 2.19 / 1_000_000 # $2.19 per 1M tokens
# Start timing
task1_start_time = time.time()
# Initialize OpenAI client for DeepSeek API
client = OpenAI(api_key=api_key, base_url="https://api.deepseek.com")
messages = (
{
"role": "system",
"content": """You are a professional Programmer with a large experience."""
},
{
"role": "user",
"content": """write a python code for this problem: generate a python code for Tetris game."""
}
)
# Get token count using tiktoken (adjust model name if necessary)
encoding = tiktoken.get_encoding("cl100k_base") # Use a compatible tokenizer
input_tokens = sum(len(encoding.encode(msg("content"))) for msg in messages)
# Call DeepSeek API
response = client.chat.completions.create(
model="deepseek-reasoner",
messages=messages,
stream=False
)
# Get output token count
output_tokens = len(encoding.encode(response.choices(0).message.content))
task1_end_time = time.time()
total_time_taken = task1_end_time - task1_start_time
# Assume cache miss for worst-case pricing (adjust if cache info is available)
input_cost = (input_tokens / 1_000_000) * INPUT_COST_CACHE_MISS
output_cost = (output_tokens / 1_000_000) * OUTPUT_COST
total_cost = input_cost + output_cost
# Print results
print("Response:", response.choices(0).message.content)
print("------------------ Total Time Taken for Task 1: ------------------", total_time_taken)
print(f"Input Tokens: {input_tokens}, Output Tokens: {output_tokens}")
print(f"Estimated Cost: ${total_cost:.6f}")
# Display result
from IPython.display import Markdown
display(Markdown(response.choices(0).message.content))
Respuesta de Deepseek-R1

Puedes encontrar la respuesta completa de Deepseek-R1 aquí.
Costo de token de salida:
Tokens de entrada: 28 | Tokens de salida: 3323 | Costo estimado: $ 0.0073
Salida del código
Entrada a la API O3-Mini
task1_start_time = time.time()
client = OpenAI(api_key=api_key)
messages = messages=(
{
"role": "system",
"content": """You are a professional Programmer with a large experience ."""
},
{
"role": "user",
"content": """write a python code for this problem: generate a python code for Tetris game.
"""
}
)
# Use a compatible encoding (cl100k_base is the best option for new OpenAI models)
encoding = tiktoken.get_encoding("cl100k_base")
# Calculate token counts
input_tokens = sum(len(encoding.encode(msg("content"))) for msg in messages)
completion = client.chat.completions.create(
model="o3-mini-2025-01-31",
messages=messages
)
output_tokens = len(encoding.encode(completion.choices(0).message.content))
task1_end_time = time.time()
input_cost_per_1k = 0.0011 # Example: $0.005 per 1,000 input tokens
output_cost_per_1k = 0.0044 # Example: $0.015 per 1,000 output tokens
# Calculate cost
input_cost = (input_tokens / 1000) * input_cost_per_1k
output_cost = (output_tokens / 1000) * output_cost_per_1k
total_cost = input_cost + output_cost
print(completion.choices(0).message)
print("----------------=Total Time Taken for task 1:----------------- ", task1_end_time - task1_start_time)
print(f"Input Tokens: {input_tokens}, Output Tokens: {output_tokens}")
print(f"Estimated Cost: ${total_cost:.6f}")
# Display result
from IPython.display import Markdown
display(Markdown(completion.choices(0).message.content))
Respuesta de O3-Mini

Puedes encontrar la respuesta completa de O3-Mini aquí.
Costo de token de salida:
Tokens de entrada: 28 | Tokens de salida: 3235 | Costo estimado: $ 0.014265
Salida del código
Investigación comparativo
En esta tarea, se requería que los modelos generen un código TETRIS pragmático que permita un repertorio efectivo. Deepseek-R1 produjo con éxito una implementación completamente en funcionamiento, como se demuestra en el video de salida del código. En contraste, mientras que el código de O3-Mini parecía proporcionadamente estructurado, encontró errores durante la ejecución. Como resultado, Deepseek-R1 supera a O3-Mini en este escena, ofreciendo una opción más confiable y jugable.
Puntaje: Deepseek-r1: 1 | O3-Mini: 0
Tarea 2: Investigación de desigualdades relacionales
Esta tarea requiere que el maniquí analice eficientemente las desigualdades relacionales en área de reconocer de los métodos de clasificación básicos.
Inmediato: » En la posterior pregunta, suponiendo que las declaraciones dadas sean verdaderas, encuentre cuál de la conclusión entre las conclusiones dadas es/son definitivamente verdaderas y luego dan sus respuestas en consecuencia.
Declaraciones:
H> f ≤ o ≤ l; F ≥ V
Conclusiones: I. L ≥ V II. O> D
Las opciones son:
A. Solo yo es verdad
B. Solo II es efectivo
C. Tanto I como II son ciertos
D. O I o II es cierto
E. ni yo ni II son verdaderos «.
Entrada a la API Deepseek-R1
INPUT_COST_CACHE_HIT = 0.14 / 1_000_000 # $0.14 per 1M tokens
INPUT_COST_CACHE_MISS = 0.55 / 1_000_000 # $0.55 per 1M tokens
OUTPUT_COST = 2.19 / 1_000_000 # $2.19 per 1M tokens
# Start timing
task2_start_time = time.time()
# Initialize OpenAI client for DeepSeek API
client = OpenAI(api_key=api_key, base_url="https://api.deepseek.com")
messages = (
{"role": "system", "content": "You are an expert in solving Reasoning Problems. Please solve the given problem."},
{"role": "user", "content": """ In the following question, assuming the given statements to be true, find which of the conclusions among given conclusions is/are definitely true and then give your answers accordingly.
Statements: H > F ≤ O ≤ L; F ≥ V < D
Conclusions:
I. L ≥ V
II. O > D
The options are:
A. Only I is true
B. Only II is true
C. Both I and II are true
D. Either I or II is true
E. Neither I nor II is true
"""}
)
# Get token count using tiktoken (adjust model name if necessary)
encoding = tiktoken.get_encoding("cl100k_base") # Use a compatible tokenizer
input_tokens = sum(len(encoding.encode(msg("content"))) for msg in messages)
# Call DeepSeek API
response = client.chat.completions.create(
model="deepseek-reasoner",
messages=messages,
stream=False
)
# Get output token count
output_tokens = len(encoding.encode(response.choices(0).message.content))
task2_end_time = time.time()
total_time_taken = task2_end_time - task2_start_time
# Assume cache miss for worst-case pricing (adjust if cache info is available)
input_cost = (input_tokens / 1_000_000) * INPUT_COST_CACHE_MISS
output_cost = (output_tokens / 1_000_000) * OUTPUT_COST
total_cost = input_cost + output_cost
# Print results
print("Response:", response.choices(0).message.content)
print("------------------ Total Time Taken for Task 2: ------------------", total_time_taken)
print(f"Input Tokens: {input_tokens}, Output Tokens: {output_tokens}")
print(f"Estimated Cost: ${total_cost:.6f}")
# Display result
from IPython.display import Markdown
display(Markdown(response.choices(0).message.content))
Costo de token de salida:
Tokens de entrada: 136 | Tokens de salida: 352 | Costo estimado: $ 0.000004
Respuesta de Deepseek-R1

Entrada a la API O3-Mini
task2_start_time = time.time()
client = OpenAI(api_key=api_key)
messages = (
{
"role": "system",
"content": """You are an expert in solving Reasoning Problems. Please solve the given problem"""
},
{
"role": "user",
"content": """In the following question, assuming the given statements to be true, find which of the conclusions among given conclusions is/are definitely true and then give your answers accordingly.
Statements: H > F ≤ O ≤ L; F ≥ V < D
Conclusions:
I. L ≥ V
II. O > D
The options are:
A. Only I is true
B. Only II is true
C. Both I and II are true
D. Either I or II is true
E. Neither I nor II is true
"""
}
)
# Use a compatible encoding (cl100k_base is the best option for new OpenAI models)
encoding = tiktoken.get_encoding("cl100k_base")
# Calculate token counts
input_tokens = sum(len(encoding.encode(msg("content"))) for msg in messages)
completion = client.chat.completions.create(
model="o3-mini-2025-01-31",
messages=messages
)
output_tokens = len(encoding.encode(completion.choices(0).message.content))
task2_end_time = time.time()
input_cost_per_1k = 0.0011 # Example: $0.005 per 1,000 input tokens
output_cost_per_1k = 0.0044 # Example: $0.015 per 1,000 output tokens
# Calculate cost
input_cost = (input_tokens / 1000) * input_cost_per_1k
output_cost = (output_tokens / 1000) * output_cost_per_1k
total_cost = input_cost + output_cost
# Print results
print(completion.choices(0).message)
print("----------------=Total Time Taken for task 2:----------------- ", task2_end_time - task2_start_time)
print(f"Input Tokens: {input_tokens}, Output Tokens: {output_tokens}")
print(f"Estimated Cost: ${total_cost:.6f}")
# Display result
from IPython.display import Markdown
display(Markdown(completion.choices(0).message.content))
Costo de token de salida:
Tokens de entrada: 135 | Tokens de salida: 423 | Costo estimado: $ 0.002010
Respuesta de O3-Mini

Investigación comparativo
O3-Mini ofrece la opción más apto, proporcionando una respuesta concisa pero precisa en un tiempo significativamente último. Mantiene la claridad al tiempo que garantiza la solidez método, lo que la hace ideal para tareas de razonamiento rápido. Deepseek-R1, aunque igualmente correcto, es mucho más sosegado y más detallado. Su desglose detallado de las relaciones lógicas mejoramiento la explicabilidad, pero puede sentirse excesivo para evaluaciones directas. Aunque uno y otro modelos llegan a la misma conclusión, la velocidad y el enfoque directo de O3-Mini lo convierten en la mejor opción para el uso práctico.
Puntaje: Deepseek-r1: 0 | O3-Mini: 1
Tarea 3: razonamiento metódico en matemáticas
Esta tarea desafía al maniquí a aceptar patrones numéricos, que pueden involucrar operaciones aritméticas, multiplicación o una combinación de reglas matemáticas. En área de la búsqueda de fuerza bruta, el maniquí debe adoptar un enfoque estructurado para deducir la método oculta de guisa apto.
Inmediato: «Estudie cuidadosamente la matriz dada y seleccione el número entre las opciones dadas que pueden reemplazar el signo de interrogación () en ella.
____________
| 7 | 13 | 174 |
| 9 | 25 | 104 |
| 11 | 30 | ? |
| _____ | ____ | ___ |
Las opciones son:
Un 335
B 129
C 431
D 100
Por atención, mencione su enfoque que ha tomado en cada paso «.
Entrada a la API Deepseek-R1
INPUT_COST_CACHE_HIT = 0.14 / 1_000_000 # $0.14 per 1M tokens
INPUT_COST_CACHE_MISS = 0.55 / 1_000_000 # $0.55 per 1M tokens
OUTPUT_COST = 2.19 / 1_000_000 # $2.19 per 1M tokens
# Start timing
task3_start_time = time.time()
# Initialize OpenAI client for DeepSeek API
client = OpenAI(api_key=api_key, base_url="https://api.deepseek.com")
messages = (
{
"role": "system",
"content": """You are a Expert in solving Reasoning Problems. Please solve the given problem"""
},
104
)
# Get token count using tiktoken (adjust model name if necessary)
encoding = tiktoken.get_encoding("cl100k_base") # Use a compatible tokenizer
input_tokens = sum(len(encoding.encode(msg("content"))) for msg in messages)
# Call DeepSeek API
response = client.chat.completions.create(
model="deepseek-reasoner",
messages=messages,
stream=False
)
# Get output token count
output_tokens = len(encoding.encode(response.choices(0).message.content))
task3_end_time = time.time()
total_time_taken = task3_end_time - task3_start_time
# Assume cache miss for worst-case pricing (adjust if cache info is available)
input_cost = (input_tokens / 1_000_000) * INPUT_COST_CACHE_MISS
output_cost = (output_tokens / 1_000_000) * OUTPUT_COST
total_cost = input_cost + output_cost
# Print results
print("Response:", response.choices(0).message.content)
print("------------------ Total Time Taken for Task 3: ------------------", total_time_taken)
print(f"Input Tokens: {input_tokens}, Output Tokens: {output_tokens}")
print(f"Estimated Cost: ${total_cost:.6f}")
# Display result
from IPython.display import Markdown
display(Markdown(response.choices(0).message.content))
Costo de token de salida:
Tokens de entrada: 134 | Tokens de salida: 274 | Costo estimado: $ 0.000003
Respuesta de Deepseek-R1

Entrada a la API O3-Mini
task3_start_time = time.time()
client = OpenAI(api_key=api_key)
messages = (
{
"role": "system",
"content": """You are a Expert in solving Reasoning Problems. Please solve the given problem"""
},
104
)
# Use a compatible encoding (cl100k_base is the best option for new OpenAI models)
encoding = tiktoken.get_encoding("cl100k_base")
# Calculate token counts
input_tokens = sum(len(encoding.encode(msg("content"))) for msg in messages)
completion = client.chat.completions.create(
model="o3-mini-2025-01-31",
messages=messages
)
output_tokens = len(encoding.encode(completion.choices(0).message.content))
task3_end_time = time.time()
input_cost_per_1k = 0.0011 # Example: $0.005 per 1,000 input tokens
output_cost_per_1k = 0.0044 # Example: $0.015 per 1,000 output tokens
# Calculate cost
input_cost = (input_tokens / 1000) * input_cost_per_1k
output_cost = (output_tokens / 1000) * output_cost_per_1k
total_cost = input_cost + output_cost
# Print results
print(completion.choices(0).message)
print("----------------=Total Time Taken for task 3:----------------- ", task3_end_time - task3_start_time)
print(f"Input Tokens: {input_tokens}, Output Tokens: {output_tokens}")
print(f"Estimated Cost: ${total_cost:.6f}")
# Display result
from IPython.display import Markdown
display(Markdown(completion.choices(0).message.content))
Costo de token de salida:
Tokens de entrada: 134 | Tokens de salida: 736 | Costo estimado: $ 0.003386
Salida de O3-Mini




Investigación comparativo
Aquí, el patrón seguido en cada fila es:
(Primer número)^3− (2º número)^2 = 3er número
Aplicando este patrón:
- Fila 1: 7^3 – 13^2 = 343 – 169 = 174
- Fila 2: 9^3 – 25^2 = 729 – 625 = 104
- Fila 3: 11^3 – 30^2 = 1331 – 900 = 431
Por lo tanto, la respuesta correcta es 431.
Deepseek-R1 identifica y aplica correctamente este patrón, lo que lleva a la respuesta correcta. Su enfoque estructurado garantiza la precisión, aunque lleva significativamente más tiempo calcular el resultado. O3-Mini, por otro costado, no puede establecer un patrón consistente. Intenta múltiples operaciones, como la multiplicación, la añadidura y la exponenciación, pero no llega a una respuesta definitiva. Esto da como resultado una respuesta poco clara e incorrecta. En militar, Deepseek-R1 supera a O3-Mini en un razonamiento y precisión lógicos, mientras que O3-Mini lucha adecuado a su enfoque inconsistente e ineficaz.
Puntaje: Deepseek-r1: 1 | O3-Mini: 0
Puntuación final: Deepseek-R1: 2 | O3-Mini: 1
Sumario de comparación de razonamiento metódico
Tarea No. | Tipo de tarea | Maniquí | Comportamiento | Tiempo tomado (segundos) | Costo |
1 | Coexistentes de código | Deepseek-r1 | ✅ Código de trabajo | 606.45 | $ 0.0073 |
O3-Mini | ❌ Código no gremial | 99.73 | $ 0.014265 | ||
2 | Razonamiento alfabético | Deepseek-r1 | ✅ Correcto | 74.28 | $ 0.000004 |
O3-Mini | ✅ Correcto | 8.08 | $ 0.002010 | ||
3 | Razonamiento matemático | Deepseek-r1 | ✅ Correcto | 450.53 | $ 0.000003 |
O3-Mini | ❌ Respuesta incorrecta | 12.37 | $ 0.003386 |
Conclusión
Como hemos conocido en esta comparación, tanto Deepseek-R1 como O3-Mini demuestran fortalezas únicas que satisfacen diferentes deyección. Deepseek-R1 sobresale en tareas basadas en la precisión, particularmente en razonamiento matemático y procreación de código complicado, lo que lo convierte en un candidato resistente para las aplicaciones que requieren profundidad método y corrección. Sin confiscación, un inconveniente significativo son sus tiempos de respuesta más lentos, en parte adecuado a los problemas continuos de mantenimiento del servidor que han afectado su accesibilidad. Por otro costado, O3-Mini ofrece tiempos de respuesta significativamente más rápidos, pero su tendencia a producir resultados incorrectos limita su confiabilidad para las tareas de razonamiento de parada aventura.
Este descomposición subraya las compensaciones entre la velocidad y la precisión en los modelos de idiomas. Si proporcionadamente O3-Mini puede ser útil para aplicaciones rápidas y de bajo aventura, Deepseek-R1 se destaca como la opción superior para tareas de razonamiento, siempre que se aborden sus problemas de latencia. A medida que los modelos de IA continúan evolucionando, obtener un compensación entre la eficiencia del rendimiento y la corrección será esencia para optimizar los flujos de trabajo impulsados por la IA en varios dominios.
Lea asimismo: ¿Puede el O3-Mini de Openi vencer a Claude Sonnet 3.5 en la codificación?
Preguntas frecuentes
A. Deepseek-R1 sobresale en razonamiento matemático y procreación de código complicado, lo que lo hace ideal para aplicaciones que requieren profundidad y precisión lógicas. O3-Mini, por otro costado, es significativamente más rápido pero a menudo sacrifica la precisión, lo que lleva a resultados ocasionales incorrectos.
A. Deepseek-R1 es la mejor opción para la codificación y las tareas intensivas en el razonamiento adecuado a su precisión superior y su capacidad para manejar la método compleja. Si proporcionadamente O3-Mini proporciona respuestas más rápidas, puede difundir errores, lo que lo hace menos confiable para las tareas de programación de parada aventura.
A. O3-Mini es el más adecuado para aplicaciones de bajo aventura y dependientes de la velocidad, como chatbots, procreación de texto casual y experiencias interactivas de IA. Sin confiscación, para las tareas que requieren adhesión precisión, Deepseek-R1 es la opción preferida.
A. Deepseek-R1 tiene un razonamiento metódico superior y capacidades de resolución de problemas, lo que lo convierte en una resistente opción para cálculos matemáticos, protección de programación y consultas científicas. O3-Mini proporciona respuestas rápidas pero a veces inconsistentes en escenarios complejos de resolución de problemas.