Athrun Data Intelligence


Operai ha presentado recientemente un conjunto de modelos de audio de próxima vivientes, mejorando las capacidades de las aplicaciones habilitadas por voz. Estos avances incluyen nuevos voz a texto (Stt) y texto a voz (TTS) Modelos, ofreciendo a los desarrolladores más herramientas para crear agentes de voz sofisticados. Estos modelos de voz avanzados, lanzados en API, permiten a los desarrolladores de todo el mundo construir agentes de voz flexibles y confiables mucho más fácilmente. En este artículo, exploraremos las características y aplicaciones de los últimos modelos TTS GPT-4O-TRANSCRETE, GPT-4O-MINI-Mini y GPT-4O-Mini. Todavía aprenderemos cómo ingresar a los modelos de audio de OpenAI y probarlos nosotros mismos. ¡Así que comencemos!

Nuevos modelos de audio de Openai

Operai ha introducido una nueva vivientes de modelos de audio diseñados para mejorar las capacidades de registro de voz y síntesis de voz. Estos modelos ofrecen mejoras en precisión, velocidad y flexibilidad, lo que permite a los desarrolladores construir aplicaciones de voz más potentes impulsadas por la IA. La suite incluye 2 modelos de voz a texto y 1 maniquí de texto a voz, que son:

  1. GPT-4O-Transcribe: El maniquí de voz a texto más renovador de OpenAI, que ofrece precisión de la transcripción líder en la industria. Está diseñado para aplicaciones que requieren transcripciones precisas y confiables, como transcripciones de reuniones y conferencias, registros de llamadas de servicio al cliente y subtitulación de contenido.
  2. GPT-4O-Mini-Transcribe: Una lectura más pequeña, liviana y más eficaz del maniquí de transcripción precedente. Está optimizado para aplicaciones de beocio latencia, como subtítulos en vivo, comandos de voz y agentes de IA interactivos. Proporciona velocidades de transcripción más rápidas, costos computacionales más bajos y un seguridad entre precisión y eficiencia.
  3. GPT-4O-Mini TTS: Este maniquí presenta la capacidad de instruir a la IA para murmurar en estilos o tonos específicos, haciendo que las voces generadas por la IA suenen más humanas. Los desarrolladores ahora pueden adaptar el tono de voz del agente para que coincidan con diferentes contextos como amigables, profesionales o dramáticos. Funciona adecuadamente con los modelos de voz a texto de OpenAi, lo que permite interacciones de voz suaves.

Los modelos de voz a texto vienen con tecnologías avanzadas como la abolición de ruido. Todavía están equipados con un detector de actividad de voz semántica que puede detectar con precisión cuándo el sucesor ha terminado de murmurar. Estas innovaciones ayudan a los desarrolladores a manejar un montón de problemas comunes mientras construyen agentes de voz. Pegado con estos nuevos modelos, Operai además anunció que sus agentes recientemente lanzados SDK ahora admiten audio, lo que hace que sea aún más viable para los desarrolladores construir agentes de voz.

Aprenda más: ¿Cómo usar respuestas de OpenAI API y agente SDK?

Innovaciones técnicas detrás de los modelos de audio de Openai

Los avances en estos modelos de audio se atribuyen a varias innovaciones técnicas esencia:

  • Pretraining con auténticos conjuntos de datos de audio: Usar datos de audio extensos y diversos ha enriquecido la capacidad de los modelos para comprender y ocasionar patrones de palabra humanos.
  • Metodologías de destilación avanzadilla: Estas técnicas se han empleado para optimizar el rendimiento del maniquí, asegurando la eficiencia sin comprometer la calidad.
  • Modelo de estudios de refuerzo: La implementación del estudios de refuerzo ha contribuido a la longevo precisión y adaptabilidad de los modelos en varios escenarios del palabra.

Cómo ingresar a los modelos de audio de Openai

El extremo maniquí, GPT-4O-Mini TTS está habitable en una nueva plataforma puyazo por Open AI señal OpenAI.FM. Así es como puede ingresar a este maniquí:

  1. Ensenada el sitio web

    Primero, dirígete a www.openai.fm.

  2. Elija la voz y el dominio

    En la interfaz que se abre, elija su voz y configure el dominio. Si no puede encontrar el carácter correcto con el dominio correcto, haga clic en el brote Renovar para obtener diferentes opciones.

  3. Tin une la voz

    Puede personalizar aún más la voz elegida con un mensaje detallado. Debajo de las opciones de VIBE, puede escribir detalles como acento, tono, ritmo, etc. para obtener la voz exacta que desea.

  4. Agregue el bandera y reproduce

    Una vez configurado, simplemente escriba su script en el cuadro de entrada de texto a la derecha y haga clic en el brote ‘Reproducir’. Si le gusta lo que audición, puede descargar el audio o compartirlo externamente. Si no, puede seguir probando más iteraciones hasta que lo haga adecuadamente.

Cómo acceder a GPT-4O-Mini TTS en OpenAI.FM

La página no requiere registro y puedes entretenerse con el maniquí como quieras. Por otra parte, en la punta superior derecha, incluso hay una palanca que le dará el código para el maniquí, concorde a sus elecciones.

Pruebas prácticas de los modelos de audio de Openai

Ahora que sabemos cómo usar el maniquí, ¡lo intentemos! Primero, probemos el sitio web de OpenAI.FM.

1. Uso de GPT-4O-Mini-Transcribe en Operai.fm

Supongamos que deseo construir un agente de soporte de voz de «servicios de emergencia».

Para este agente, selecciono:

  • Voz – Nova
  • Onda – Simpático

Use las siguientes instrucciones:

Tono: Tranquilo, seguro y déspota. Tranquilizador para suministrar a la persona que fogata a elegancia mientras maneja la situación. Profesional pero empático, reflejando una preocupación genuina por el bienestar de la persona que fogata.

Piting: Estable, claro y deliberado. No es demasiado rápido para evitar el pánico, pero no demasiado paulatino para retrasar la respuesta. Ligeras pausas para darle tiempo a la persona que fogata para contestar y procesar información.

Claridad: Acento claro y neutro con una voz adecuadamente enunciada. Evite la argot o los términos complicados, utilizando un habla simple y viable de entender.

Empatía: Reconozca el estado emocional de la persona que fogata (miedo, pánico, etc.) sin agregarlo.

Ofrezca tranquilidad tranquilidad y apoyo a lo grande de la conversación.

Use el sucesivo script:

«Hola, estos son servicios de emergencia. Estoy aquí para ayudarlo. Por patrocinio, mantén la calma y audición respetuosamente mientras te guío a través de esta situación».

«La ayuda está en camino, pero necesito un poco de información para asegurarme de que respondamos de modo rápida y adecuada».

«Proporcione su ubicación. La dirección exacta o los puntos de relato cercanos nos ayudarán a alcanzarlo más rápido».

«Gracias; si cierto está herido, necesito que te quedes con ellos y evite moverlos a menos que sea necesario».

«Si hay sangría, aplique presión a la herida para controlarla. Si la persona no respira, lo guiaré a través de la RCP. Por patrocinio, manténgase con ellos y mantén la calma».

«Si no hay lesiones, encuentre un empleo seguro y quédese allí. Evite el peligro y espere a que lleguen los respondedores de emergencia».

«Lo estás haciendo muy adecuadamente. Mantente en la hilera conmigo, y me aseguraré de que la ayuda esté en camino y lo mantenga actualizado hasta que lleguen los respondedores».

Aplicación del modelo de audio GPT-4O-Mini TTS de Openai

Producción:

¿No fue espléndido? Los últimos modelos de audio de OpenAI ahora además se pueden ingresar a través de la API de OpenAI, lo que permite a los desarrolladores integrarlos en varias aplicaciones.

Ahora probemos eso.

2. Uso de GPT-4O-Audio-Preview a través de API

Accederemos al maniquí GPT-4O-Audio-Preview a través de la API de OpenAI y probando 2 tareas: una para texto a voz, y el otro para voz a texto.

Tarea 1: texto a voz

Para esta tarea, le pediré al maniquí que me cuente una broma.

Entrada de código:

import base64
from openai import OpenAI


client = OpenAI(api_key = "OPENAI_API_KEY")
completion = client.chat.completions.create(
   model="gpt-4o-audio-preview",
   modalities=("text", "audio"),
   audio={"voice": "alloy", "format": "wav"},
   messages=(
       {
           "role": "user",
           "content": "Can you tell me a joke about an AI trying to tell a joke?"
       }
   )
)
print(completion.choices(0))
wav_bytes = base64.b64decode(completion.choices(0).message.audio.data)
with open("output.wav", "wb") as f:
   f.write(wav_bytes)

Respuesta:

Tarea 2: palabra a texto

Para nuestra segunda tarea, damos al maniquí Este archivo de audio Y vea si puede contarnos sobre la impresión.

Entrada de código:

import base64
import requests
from openai import OpenAI
client = OpenAI(api_key = "OPENAI_API_KEY")


# Fetch the audio file and convert it to a base64 encoded string
url = "https://cdn.openai.com/API/docs/audio/alloy.wav"
response = requests.get(url)
response.raise_for_status()
wav_data = response.content
encoded_string = base64.b64encode(wav_data).decode('utf-8')


completion = client.chat.completions.create(
   model="gpt-4o-audio-preview",
   modalities=("text", "audio"),
   audio={"voice": "alloy", "format": "wav"},
   messages=(
       {
           "role": "user",
           "content": (
               {
                   "type": "text",
                   "text": "What is in this recording?"
               },
               {
                   "type": "input_audio",
                   "input_audio": {
                       "data": encoded_string,
                       "format": "wav"
                   }
               }
           )
       },
   )
)
print(completion.choices(0).message)

Respuesta:

GPT-4O-ADIO-preview Salida

Resultados de relato de los modelos de audio de Openai

Para evaluar el rendimiento de sus últimos modelos de voz a texto, OpenAI realizó pruebas de relato utilizando la tasa de error de palabras (WER), una métrica standard en el registro de voz. WER mide la precisión de la transcripción calculando el porcentaje de palabras incorrectas en comparación con una transcripción de relato. Un WER más bajo indica un mejor rendimiento con menos errores.

GPT-4O-transcribe de OpenAI y GPT-4O-Mini-Transcribe, puntos de referencia

Como muestran los resultados, los nuevos modelos de voz a texto, GPT-4O-Transcribe y GPT-4O-Mini-Transcribe, ofrecen tasas de error de palabras mejoradas y un registro de habla mejorado en comparación con modelos anteriores como Whisper.

Rendimiento en Benchmark de Fleurs

Uno de los puntos de relato esencia utilizados es Fleurs (evaluación de estudios de pocos disparos de representaciones universales del palabra), que es un conjunto de datos de discurso multilingüe que cubre más de 100 idiomas con muestras de audio transcritas manualmente.

GPT-4O-transcribe de OpenAI y GPT-4O-Mini-Transcribe, puntos de referencia

Los resultados indican que los nuevos modelos de Openai:

  • Ganar un WER más bajo en múltiples idiomas, lo que demuestra una mejor precisión de la transcripción.
  • Muestre una cobertura multilingüe más esforzado, haciéndolos más confiables para diversas aplicaciones lingüísticas.
  • Outperform Whisper V2 y Whisper V3, los modelos de vivientes previa de OpenAI, en todos los idiomas evaluados.

Costo de los modelos de audio de Openai

Costo de modelos de audio de Operai

Conclusión

Los últimos modelos de audio de OpenAI marcan un cambio significativo de agentes puramente basados ​​en texto a agentes de voz sofisticados, cerrando la brecha entre la IA y la interacción humana. Estos modelos no solo entienden qué asegurar: comprenden cómo decirlo, capturando el tono, el ritmo y la emoción con importante precisión. Al ofrecer capacidades de voz a texto y texto a voz, OpenAI permite a los desarrolladores crear experiencias de voz impulsadas por la IA que se sientan más naturales y atractivas.

La disponibilidad de estos modelos a través de API significa que los desarrolladores ahora tienen un longevo control sobre el contenido y la entrega del palabra generada por la IA. Por otra parte, los agentes de OpenAI SDK facilitan la transformación de agentes tradicionales basados ​​en texto en agentes de voz completamente funcionales, abriendo nuevas posibilidades para el servicio al cliente, las herramientas de accesibilidad y las aplicaciones de comunicación en tiempo vivo. A medida que Operai continúa refinando su tecnología de voz, estos avances establecen un nuevo standard para las interacciones con IA.

Preguntas frecuentes

Q1. ¿Cuáles son los nuevos modelos de audio de Openai?

A. OpenAi ha introducido tres nuevos modelos de audio: GPT-4O-TRANSCRIE, GPT-4O-Mini-Transcribe y GPT-4O-Mini TTS. Estos modelos están diseñados para mejorar las capacidades de voz a texto y de texto a voz, lo que permite transcripciones más precisas y un palabra generada por la IA que suena natural.

Q2. ¿En qué se diferencian los nuevos modelos de audio de Openai de Whisper?

R. En comparación con los modelos Whisper de OpenAI, los nuevos modelos de audio GPT-4O ofrecen una precisión de transcripción mejorada y tasas de error de palabras más bajas. Todavía ofrece soporte multilingüe mejorado y una mejor capacidad de respuesta en tiempo vivo. Por otra parte, el maniquí de texto a voz proporciona una modulación de voz más natural, lo que permite a los usuarios ajustar el tono, el estilo y el ritmo para un discurso generado por IA más realista.

Q3. ¿Cuáles son las características esencia del nuevo maniquí de texto a voz (TTS) de Openai?

R. El nuevo maniquí TTS permite a los usuarios ocasionar discurso con estilos personalizables, tonos y ritmo. Progreso la modulación de voz de tipo humano y apoya diversos casos de uso, desde asistentes de voz de IA hasta narración de audiolibros. El maniquí además proporciona una mejor expresión emocional y claridad que las iteraciones anteriores.

Q4. ¿En qué se diferencian GPT-4O-TRANSCRIET y GPT-4O-Mini-TRANSCRANCES?

A. GPT-4O-Transcribe ofrece precisión de la transcripción líder en la industria, lo que lo hace ideal para casos de uso profesional como las transcripciones y los registros de servicio al cliente. GPT-4O-Mini-Transcribe está optimizado para la eficiencia y la velocidad, que atiende a aplicaciones en tiempo vivo como subtítulos en vivo y agentes interactivos de IA.

Q5. ¿Qué es OpenAi.fm?

A. OpenAI.FM es una plataforma web donde los usuarios pueden probar el maniquí de texto a voz de Openai sin registrarse. Los usuarios pueden separar una voz, ajustar el tono, ingresar un script y ocasionar audio al instante. La plataforma además proporciona el código API subyacente para una longevo personalización.

Q6. ¿Pueden los agentes de OpenAI SDK ayudar a los desarrolladores a construir agentes de voz?

R. Sí, los agentes de OpenAI SDK ahora admiten audio, lo que permite a los desarrolladores convertir agentes basados ​​en texto en agentes de voz interactivos. Esto hace que sea más viable crear bots de atención al cliente con IA, herramientas de accesibilidad y asistentes de IA personalizados con capacidades de voz avanzadas.

Sabreena es una entusiasta de Genai y editora tecnológica apasionada por documentar los últimos avances que dan forma al mundo. Actualmente está explorando el mundo de la IA y la ciencia de datos como directivo de contenido y crecimiento en Analytics Vidhya.

Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *