AWS y DXC colaboran para entregar capacidades de traducción de voz a voz personalizables y casi en tiempo actual para Amazon Connect

Proporcionar atención al cliente multilingüe efectiva en empresas globales presenta desafíos operativos significativos. A través de la colaboración entre la tecnología AWS y DXC, hemos desarrollado un prototipo de traducción escalable de voz a voz (V2V) que transforma cómo los centros de contacto manejan las interacciones multilingües de los clientes.

En esta publicación, discutimos cómo usaron AWS y DXC Amazon Connect y otros servicios de AWS AI para ofrecer capacidades de traducción V2V cercanas a tiempo actual.

Desafío: servir a los clientes en varios idiomas

En el tercer trimestre de 2024, la tecnología DXC se acercó a AWS con un desafío comercial crítico: sus centros de contacto globales necesitaban servir a los clientes en múltiples idiomas sin el costo exponencial de contratar agentes específicos del jerga para los idiomas de pequeño comba. Anteriormente, DXC había explorado varias alternativas existentes, pero encontró limitaciones en cada enfoque, desde limitaciones de comunicación hasta requisitos de infraestructura que afectaron la confiabilidad, la escalabilidad y los costos operativos. DXC y AWS decidieron organizar un hackathon enfocado donde colaboraron los arquitectos de soluciones DXC y AWS:

Explicar requisitos esenciales para la traducción en tiempo actual
Establecer puntos de remisión de latencia y precisión
Crear rutas de integración perfecta con los sistemas existentes
Desarrollar una organización de implementación por etapas
Prepare y pruebe una comprobante auténtico de configuración de concepto

Impacto comercial

Para DXC, este prototipo se utilizó como un habilitador, lo que permite la maximización técnica del talento, la transformación operativa y las mejoras de costos a través de:

Mejor entrega de experiencia técnica: agentes de contratación y correspondencia basados en el conocimiento técnico en motivo del jerga hablado, asegurándose de que los clientes obtengan el mayor soporte técnico, independientemente de las barreras del idioma
Flexibilidad operativa entero: aniquilación de limitaciones geográficas y de jerga en la contratación, colocación y apoyo a la entrega mientras mantiene una calidad de servicio consistente en todos los idiomas
Reducción de costos: aniquilación de primas de experiencia en varios idiomas, capacitación de idiomas especializados y costos de infraestructura a través del maniquí de traducción de plazo por uso
Experiencia similar a los hablantes nativos: manteniendo el flujo de conversación natural con traducción casi en tiempo actual y comentarios de audio, al tiempo que ofrece soporte técnico premium en el jerga preferido del cliente.

Descripción normal de la opción

El prototipo de traducción de Amazon Connect V2V utiliza tecnologías avanzadas de gratitud de voz y traducción cibernética de AWS para permitir la traducción de conversación en tiempo actual entre agentes y clientes, lo que les permite cuchichear en sus idiomas preferidos mientras tiene conversaciones naturales. Consiste en los siguientes componentes esencia:

Examen de voz: el jerga hablado del cliente se captura y se convierte en texto utilizando Amazon Transcribeque sirve como motor de gratitud de voz. La transcripción (texto) se alimenta al motor de traducción cibernética.
Traducción cibernética – Amazon traducirEl motor de traducción cibernética traduce la transcripción del cliente al idioma preferido del agente en tiempo casi actual. La transcripción traducida se convierte nuevamente en discurso usando Amazon Pollyque sirve como motor de texto a voz.
Traducción bidireccional: el proceso se invierte para la respuesta del agente, traduciendo su discurso al idioma del cliente y entregando el audio traducido al cliente.
Integración perfecta: el tesina de muestra de traducción V2V se integra con Amazon Connect, lo que permite a los agentes manejar las interacciones de los clientes en varios idiomas sin ningún esfuerzo o capacitación adicional, utilizando el Amazon Connect Streams JS y Amazon Connect RTC JS bibliotecas.

El prototipo se puede extender con otros servicios de AWS AI para personalizar aún más las capacidades de traducción. Es de código destapado y está perspicaz para la personalización para satisfacer sus deyección específicas.

El posterior diagrama ilustra la casa de la opción.

La posterior captura de pantalla ilustra una aplicación web de agente de muestra.

La interfaz de beneficiario consta de tres secciones:

Panel de control de contacto: un cliente de softphone que usa Amazon Connect
Controles de clientes: controles de interacción con el cliente a agente, incluida la voz de la transcripción del cliente, traducir la voz del cliente y sintetizar la voz del cliente
Controles del agente: controles de interacción de agente a cliente, incluida la voz de agente de transcripción, la voz del agente traducido y la voz del agente de sintetización

Desafíos al implementar la traducción de voz casi en tiempo actual

El tesina de muestra de Amazon Connect V2V fue diseñado para minimizar el tiempo de procesamiento de audio desde el momento en que el cliente o agente termina hablando hasta que se inicia la transmisión de audio traducida. Sin requisa, incluso con el tiempo de procesamiento de audio más corto, la experiencia del beneficiario todavía no coincide con la experiencia de una conversación actual cuando los dos hablan el mismo idioma. Esto se debe al patrón específico de que el cliente solo audición el discurso traducido del agente, y el agente solo audición el discurso traducido del cliente. El posterior diagrama muestra ese patrón.

El ejemplo de flujo de trabajo consta de los siguientes pasos:

El cliente comienza a cuchichear en su propio idioma y deje durante 10 segundos.
Adecuado a que el agente solo audición el discurso traducido del cliente, el agente primero audición 10 segundos de silencio.
Cuando el cliente termina de cuchichear, el tiempo de procesamiento de audio lleva 1 a 2 segundos, durante el cual tanto el cliente como el agente escuchan el silencio.
El discurso traducido del cliente se transmite al agente. Durante ese tiempo, el cliente audición el silencio.
Cuando se completa la reproducción del deje traducida del cliente, el agente comienza a cuchichear y deje durante 10 segundos.
Adecuado a que el cliente solo audición el discurso traducido del agente, el cliente audición 10 segundos de silencio.
Cuando el agente termina de cuchichear, el tiempo de procesamiento de audio toma 1 a 2 segundos, durante el cual tanto el cliente como el agente escuchan el silencio.
El discurso traducido del agente se transmite al agente. Durante ese tiempo, el agente audición el silencio.

En este tablado, el cliente audición un solo liga de 22–24 segundos de silencio completo, desde el momento en que terminaron de cuchichear hasta que escuchan la voz traducida del agente. Esto crea una experiencia subóptima, porque el cliente podría no estar seguro de lo que está sucediendo durante estos 22-24 segundos, por ejemplo, si el agente pudo escucharlos, o si hubo un problema técnico.

Complementos de transmisión de audio

En un tablado de conversación cara a cara entre dos personas que no hablan el mismo idioma, pueden tener otra persona como traductor o intérprete. Un ejemplo de flujo de trabajo consta de los siguientes pasos:

La persona A deje en su propio idioma, que la persona B y el traductor audición.
El traductor traduce lo que una persona dijo al idioma de la persona B. La traducción es escuchada por la persona B y la persona A.

Esencialmente, la persona A y la persona B se escuchan cuchichear su propio idioma, y igualmente escuchan la traducción (del traductor). No hay retraso en silencio, que es aún más importante en las conversaciones no cara a cara (como las interacciones del centro de contacto).

Para optimizar la experiencia del cliente/agente, el tesina de muestra Amazon Connect V2V implementa complementos de transmisión de audio para afectar una experiencia de conversación más natural. El posterior diagrama ilustra un flujo de trabajo de ejemplo.

El flujo de trabajo consta de los siguientes pasos:

El cliente comienza a cuchichear en su propio idioma y deje durante 10 segundos.
El agente audición la voz diferente del cliente, a un comba más bajo («Transmitir el micrófono del cliente al agente» gestor).
Cuando el cliente termina de cuchichear, el tiempo de procesamiento de audio toma 1 a 2 segundos. Durante ese tiempo, el cliente y el agente escuchan comentarios sutiles de audio, contactar ruido de fondo del centro, a un comba muy bajo («Comentarios de audio» gestor).
El discurso traducido del cliente se transmite al agente. Durante ese tiempo, el Cliente audición su discurso traducido, a un comba más bajo («Traducción del cliente de transmisión al cliente» gestor).
Cuando se completa la reproducción del deje traducida del cliente, el agente comienza a cuchichear y deje durante 10 segundos.
El cliente audición la voz diferente del agente, a un comba más bajo (gestor el «micrófono de agente de flujo al cliente»).
Cuando el agente termina de cuchichear, el tiempo de procesamiento de audio lleva 1 a 2 segundos. Durante ese tiempo, el cliente y el agente escuchan comentarios sutiles de audio, contactar ruido de fondo del centro, a un comba muy bajo («Comentarios de audio» gestor).
El discurso traducido del agente se transmite al agente. Durante ese tiempo, el agente audición su discurso traducido, a un comba más bajo («Traducción del agente de flujo al agente» gestor).

En este tablado, el cliente audición dos bloques cortos (1–2 segundos) de sutiles comentarios de audio, en motivo de un solo liga de 22–24 segundos de silencio completo. Este patrón está mucho más cerca de una conversación cara a cara que incluye un traductor.

Los complementos de transmisión de audio proporcionan beneficios adicionales, que incluyen:

Características de voz: en los casos en que el agente y el cliente solo escuchan su discurso traducido y sintetizado, se pierden las características de voz reales. Por ejemplo, el agente no puede escuchar si el cliente hablaba gradual o rápido, si el cliente estaba desagradable o tranquilo, y así sucesivamente. El discurso traducido y sintetizado no lleva esa información.
Respaldo de calidad: en los casos en que la reproducción de llamadas está habilitada, solo se registran la voz diferente del cliente y el discurso sintetizado del agente, porque la traducción y la sintetización se realizan en el banda del agente (cliente). Esto dificulta que los equipos de control de calidad evalúen y auditen adecuadamente las conversaciones, incluidos los muchos bloques silenciosos interiormente de él. En cambio, cuando los complementos de transmisión de audio están habilitados, no hay bloques silenciosos, y el equipo de control de calidad puede escuchar la voz diferente del agente, la voz diferente del cliente y su respectivo discurso traducido y sintetizado, todo en un solo archivo de audio.
Precisión de transcripción y traducción: tener el discurso diferente y traducido arreglado en la reproducción de llamadas hace que sea sencillo detectar palabras específicas que mejorarían la precisión de la transcripción (mediante el uso de vocabularios personalizados de Amazon) o la precisión de la traducción (usando las terminologías personalizadas de Amazon traducir), para hacer que Seguro que sus marcas, nombres de personajes, nombres de modelos y otro contenido único se transcriben y traducen al resultado deseado.

Comience con Amazon Connect V2V

¿Ligero para cambiar la comunicación de su centro de contacto? Nuestro tesina de muestra de Amazon Connect V2V ahora está arreglado en Github. Te invitamos a explorar, desplegar y tantear con este poderoso prototipo. Puede ser una pulvínulo para desarrollar soluciones innovadoras de comunicación multilingüe en su propio centro de contacto, a través de los siguientes pasos esencia:

Clon el repositorio de GitHub.
Pruebe diferentes configuraciones para complementos de transmisión de audio.
Revise las limitaciones del tesina de muestra en el ReadMe.
Desarrolle su organización de implementación:
1. Implemente controles sólidos de seguridad y cumplimiento que cumplan con los estándares de su estructura.
2. Colabore con su equipo de experiencia del cliente para delimitar los requisitos de su caso de uso específicos.
3. Balanceo de la automatización y los controles manuales del agente (por ejemplo, use un flujo de contacto de Amazon Connect para configurar automáticamente los atributos de contacto para idiomas preferidos y complementos de transmisión de audio).
4. Use sus motores preferidos de transcripción, traducción y texto a voz, basados en requisitos específicos de soporte del idioma y preferencias comerciales, legales y regionales.
5. Planifique un despliegue por etapa, comenzando con un liga piloto, luego optimice de forma iterativa su transcripción vocabularios personalizados y terminologías personalizadas de traducción.

Conclusión

El tesina de muestra de Amazon Connect V2V demuestra cómo Amazon Connect y los servicios avanzados de AWS AI pueden desglosar las barreras del idioma, mejorar la flexibilidad operativa y estrechar los costos de soporte. ¡Comience ahora y revolucione cómo se comunica su centro de contacto a través de las barreras del idioma!

Sobre los autores

Milos Cosic es un arquitecto principal de soluciones en AWS.

miJFErrell es un arquitecto de soluciones senior en AWS.

Adam El Tanbouli es un director de software técnico para prototipos y servicios de soporte en DXC Modern Workplace.

Etiquetado Amazon, AWS, capacidades, casi, colaboran, Connect, DXC, entregar, para, personalizables, real, tiempo, traducción, voz