Athrun Data Intelligence


Estamos encantados de anunciar la pinta previa pública de GPT-4o-Realtime-Preview para audio y voz, una importante prosperidad del servicio Microsoft Azure OpenAI que agrega capacidades de voz avanzadas y amplía las ofertas multimodales de GPT-4o.

Estamos encantados de anunciar la pinta previa pública de GPT-4o-Realtime-Preview para audio y voz, una prosperidad importante para Servicio Microsoft Azure OpenAI que agrega capacidades de voz avanzadas y amplía las ofertas multimodales de GPT-4o. Este hito consolida aún más el liderazgo de Azure en IA, especialmente en el ámbito de la tecnología del palabra. El enviado de Azure en este espacio se ha establecido desde hace mucho tiempo a través de su servicio de voz, que históricamente integraba voz a texto, texto a voz, voces neuronales y traducción en tiempo efectivo en productos principales de Microsoft como Teams, Office 365 y Edge. .

Ahora, GPT-4o-Realtime-Preview traspasa los límites aún más al integrar la engendramiento de lengua con una interacción de voz fluida, brindando a los desarrolladores las herramientas que necesitan para crear experiencias de IA más naturales y conversacionales. Desde la creación de asistentes virtuales hasta la potenciación de la atención al cliente en tiempo efectivo, este nuevo maniquí abre una amplia tonalidad de posibilidades para aplicaciones basadas en voz. El nuevo maniquí además está integrado con Copilot, como parte del nuevo producto Copilot Voice anunciado.

Aprovechando los anuncios recientes de Azure OpenAI

Este anuncio continúa un serie de actualizaciones importantes internamente del servicio Azure OpenAI, que incluye:

  • Serie O1: Una nueva radio de modelos diseñados para el razonamiento reformista sobre datos complejos. Nos complace poner la API a disposición de nuestros desarrolladores en Azure hoy a posteriori de una pinta previa de dos semanas en Azure AI Studio Playground.
  • Zonas de datos: Permitir la residencia de datos regionales para respaldar la privacidad y el cumplimiento del cliente.
  • IA confiable: Nuevas herramientas, incluidas evaluaciones en Azure AI Studio para respaldar evaluaciones de riesgos proactivas y marcas de agua en imágenes generadas por DALL*E.
  • Solicitud de personalidad (próximamente): Inferencia más económica y rápida mediante almacenamiento en personalidad en los modelos GPT-4o y o1.

Esta transformación continua demuestra el compromiso de Azure de proporcionar las herramientas de IA más completas, seguras y versátiles a clientes de todo el mundo. Añade nuestro suministro de noticiario a tus favoritos para realizar un seguimiento de todos los anuncios futuros.

¿Qué hay de nuevo en GPT-4o-Realtime-Preview?

GPT-4o-API en tiempo efectivo: Con esta lectura, GPT-4o evoluciona para tolerar entrada y salida de audio, lo que permite interacciones naturales basadas en voz en tiempo efectivo que van más allá de las conversaciones tradicionales de IA basadas en texto. Esta capacidad multimodal permite a los desarrolladores crear aplicaciones de voz innovadoras con facilidad.

Zona de juegos de comunicación anticipado a Azure AI Studio: Para los desarrolladores deseosos de explorar, este espacio dedicado permite la experimentación temprana con las capacidades de API GPT-4o-Realtime para audio. El estudio proporciona un entorno para probar, ajustar y optimizar las interacciones de voz ayer de lanzarlas a entornos de producción.

Rendimiento que palabra por sí solo

Los primeros clientes que utilizaron GPT-4o-Realtime API for Audio compartieron resultados notables, confirmando su rendimiento e impacto:

  • Respuestas más rápidas: GPT-4o-Realtime API for Audio proporciona respuestas de voz significativamente más rápidas que muchos motores tradicionales de conversión de texto a voz, lo que genera una latencia escasa e interacciones más fluidas.
  • Conversaciones naturales: El maniquí minimiza el tono robótico que a menudo se asocia con el palabra generada por IA, lo que hace que las conversaciones suenen más interesantes.
  • Soporte multilingüe: La API admite una amplia tonalidad de idiomas, lo que permite conversaciones naturales y multilingües que se pueden aplicar a aplicaciones globales.

Aplicaciones de GPT-4o-Realtime-Preview en el servicio Azure OpenAI

El potencial de GPT-4o-Realtime-Preview zapatilla varias industrias y transforma la forma en que operan las empresas y la forma en que los usuarios interactúan con la tecnología:

  • Servicio al cliente: Los chatbots y asistentes virtuales basados ​​en voz ahora pueden manejar las consultas de los clientes de forma más natural y competente, reduciendo los tiempos de prórroga y mejorando la satisfacción universal.
  • Creación de contenido: Los productores de medios pueden revolucionar sus flujos de trabajo aprovechando la engendramiento de voz para su uso en videojuegos, podcasts y estudios cinematográficos.
  • Traducción en tiempo efectivo: Industrias como la atención médica y los servicios legales pueden beneficiarse de la traducción de audio en tiempo efectivo, rompiendo las barreras del idioma y fomentando una mejor comunicación en contextos críticos.

Casos de uso que impulsan la innovación

La versatilidad de GPT-4o-Realtime-Preview ya está transformando las operaciones en una variedad de sectores. A continuación se muestran algunos de los primeros usuarios y cómo se benefician de esta tecnología:

  • Bosco (Alemania): Integración de GPT-4o-Realtime API for Audio para capacitación en sinceridad supuesto en entornos automotrices, lo que permite a los consumidores y técnicos percibir instrucciones guiadas por voz.

“AOAI es una interfaz ideal para nuestra HeyBosch – Opción ejecutiva de ventas supuesto, ya que es una alternativa que prioriza la conversación. Podemos integrar fácilmente AOAI a nuestra alternativa existente. Gracias por los ejemplos de narración. El tiempo de respuesta del agente supuesto ha mejorado sustancialmente ya que ahora contamos con una única interfaz que acopla uno y otro (voz y LLM). Esto ayuda a perseverar la latencia al imperceptible. Esta integración muestra el arte de la posibilidad de crear experiencias de favorecido convincentes combinando GenAI, tecnología 3D y capacidades de procesamiento de voz en tiempo efectivo”.Vamsidhar Sunkari Avezado sénior Bosch Entero Software Technologies Pvt Ltd.

  • Vitalidad del pájaro lira (Australia): Uso de GPT-4o-Realtime-Preview como copiloto médico, resumiendo la información del paciente y automatizando las tareas de seguimiento en tiempo efectivo.

Lyrebird Health se complace en aplaudir capacidades de audio a la relación proveedor/paciente. El nuevo maniquí de pinta previa en tiempo efectivo GPT-4o nos permitirá comprobar y exhalar nuevas experiencias para nuestros clientes y usuarios finales. Esto nos ayudará en nuestra encomienda de proporcionar la mejor tecnología para personas del planeta”.—Kai Van Lieshout, cofundador y director ejecutor de Lyrebird Health

  • Búsqueda de IA en Azure: VoiceRAG aprovecha el maniquí de audio en tiempo efectivo GPT-4o de Azure OpenAI y Azure AI Search para crear una aplicación descubierta de IA generativa basada en voz con engendramiento aumentada de recuperación (RAG). El sistema integra transmisión de audio en tiempo efectivo y llamadas de funciones para realizar búsquedas en la saco de conocimientos, lo que garantiza que las respuestas estén acertadamente fundamentadas sin comprometer la latencia. Al manejar de forma segura las configuraciones del maniquí y los procesos de recuperación en el backend, VoiceRAG proporciona una interfaz conversacional natural que incluye citas que se muestran perfectamente en la experiencia del favorecido. Sumérgete en la experiencia VoiceRAG en un blog dedicado a la comunidad tecnológica de Microsoft.

Nuestro compromiso con una IA confiable

Azure sigue firme en su compromiso con la IA responsablecon la seguridad y la privacidad como prioridades predeterminadas. La API en tiempo efectivo utiliza múltiples capas de medidas de seguridad, incluido el monitoreo automatizado y la revisión humana, para evitar el uso indebido.

La API en tiempo efectivo ha sido sometida a evaluaciones rigurosas guiadas por nuestros compromisos con la IA responsable. Mira el Crónica de transparencia de la IA responsable de 2024.

Azure OpenAI Service proporciona funciones de seguridad de contenido integradas sin costo adicional, y Azure AI Studio ofrece herramientas para evaluar la seguridad de sus aplicaciones de IA, lo que garantiza una experiencia de IA segura y responsable.

¿Qué sigue con GPT-4o-Realtime API para audio?

A medida que continuamos innovando y ampliando las capacidades de GPT-4o-Realtime API for Audio, nos entusiasma ver cómo los desarrolladores y las empresas aprovecharán esta tecnología de vanguardia para crear aplicaciones impulsadas por voz que traspasen los límites de lo posible.

Ya sea que esté buscando integrar capacidades de voz en sus operaciones de servicio al cliente o explorar las posibilidades de interacciones multilingües, GPT-4o-Realtime API for Audio brinda la flexibilidad y el poder para variar sus soluciones de IA. A partir de hoy, puedes explorar estas nuevas capacidades en el Estudio Azure OpenAIexperimente con ellos en Early Access Playground o integre directamente la API en tiempo efectivo en pinta previa pública en sus aplicaciones.

Asegúrese de revisar nuestra documentación para conocer las últimas actualizaciones, profundizar en los casos de uso disponibles y comenzar a crear con GPT-4o-Realtime API for Audio para transigir su negocio al posterior nivel de innovación en IA.

¡Estén atentos a las próximas historias de clientes, demostraciones detalladas de casos de uso y más a medida que continuamos implementando actualizaciones en las próximas semanas!



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *