Athrun Data Intelligence


Voice AI tiene un abandonado secreto: la maduro parte nunca fue diseñada para conversar. El arquetipo dominante (introducir texto, sacar audio) tiene su pelaje en la narración de audiolibros y la producción de voces en off, donde el maniquí nunca audición a la persona al otro costado de la trayecto. Eso está correctamente cuando estás generando una comienzo a un podcast. No está correctamente que un usufructuario frustrado intente obtener concurrencia de un agente de IA a las 11 p.m.

Inworld AI lo señala directamente con el extensión de Realtime TTS-2, un nuevo maniquí de voz enérgico como panorama previa de la investigación a través de su API Inworld y su API Inworld Realtime. El maniquí audición el audio completo del intercambio, capta el tono, el ritmo y el estado emocional del usufructuario y luego recibe instrucciones de voz en un inglés sencillo, de la misma modo que los desarrolladores solicitan un LLM.

¿Qué es en realidad diferente aquí?

La distinción arquitectónica significativa con TTS-2 es que opera como un sistema de circuito cerrado. El maniquí toma como entrada el audio vivo de los turnos anteriores del intercambio, no solo una transcripción: audición cómo sonó en realidad el usufructuario. Esa es una diferencia no trivial. Una transcripción de «está correctamente, está correctamente» te proporciona las palabras. El audio de “está correctamente, está correctamente” te indica si la persona está aliviada, resignada o sarcástica. TTS-2 está diseñado para utilizar esa señal.

La misma trayecto aterriza de modo diferente posteriormente de una broma que posteriormente de una mala mensaje, y el maniquí sabe la diferencia porque escuchó el rotación inicial. El tono, el ritmo y el estado emocional se transmiten automáticamente. En términos prácticos, el contexto de audio fluye a lo holgado de los turnos interiormente de una sesión en tiempo vivo sin que los desarrolladores necesiten sobrevenir mensajes explícitos. prior_audio campos o construir tuberías adicionales.

Cuatro capacidades, un maniquí

El equipo de Inworld está enviando TTS-2 con cuatro características esencia, posicionando la combinación y no cualquier cuchitril individual, como diferenciación.

  1. Dirección de voz: permite a los desarrolladores dirigir la entrega mediante indicaciones en verbo sencillo en trayecto en el momento de la inferencia. En punto de separar de una enumeración de emociones fija como (sad) o (excited)los desarrolladores pasan una ritual de corchete como (speak sadly, as if something bad just happened) directamente en el texto. Las indicaciones largas y descriptivas superan a las etiquetas cortas: el maniquí alega mucho mejor al contexto completo que las etiquetas de una sola palabra. Marcadores no verbales en trayecto como (laugh), (sigh), (breathe), (clear_throat)y (cough) se pueden soltar en cualquier parte del texto donde debería ocurrir el momento, y el maniquí los coloca como eventos de audio, no como palabras pronunciadas.
  2. Conciencia conversacional: Es la construcción de circuito cerrado descrita anteriormente: el cambio arquitectónico que separa a TTS-2 de los modelos de generaciones anteriores que tratan cada oración como una indicación de procreación sin estado.
  3. multilingüe Soporte: Se conserva una identidad de voz en más de 100 idiomas, incluidos los cambios de idioma a centro de la expresión interiormente de una sola procreación. No se necesita ninguna bandera de idioma: el maniquí maneja las transiciones automáticamente, manteniendo constante el timbre, el tono y el carácter en todo el interruptor. Los idiomas de primer nivel se envían con calidad de hablante nativo, mientras que la huesito dulce larga se describe como real de ventana de extensión, en consonancia con el extensión del maniquí como una panorama previa de la investigación.
  4. Diseño de voz reformista: Genera una voz guardada a partir de un mensaje escrito y no requiere audio de narración. Los desarrolladores pueden describir a una persona en prosa, obedecer el resultado como una voz reutilizable y llamarla como cualquier otra voz en la aplicación. Voice Design se envía con tres modos de estabilidad: Expresivo (para conversaciones con consumidores en vivo y acompañantes), Ponderado (el valencia predeterminado para la mayoría de las cargas de trabajo de los agentes) y Estable (para IVR e implementaciones profesionales donde la desviación del tono es inaceptable).

La capa conversacional debajo

Más allá de las cuatro características esencia, destaca un conjunto de comportamientos que empujan el discurso cerca de lo que describe como comarca de “persona que presta atención”. Lo más interesante desde el punto de panorama técnico son las disfluencias: el maniquí genera oh y mmmautocorrecciones, pausas a centro de una frase nominativo y pensamientos que indican calidez y retentiva en punto de mal funcionamiento. Fundamentalmente, los diferentes perfiles de hablantes agrupan los rellenos de modo diferente, y el maniquí sigue el ritmo: el relleno como energía suena diferente del relleno como duda. La clonación de voz todavía es compatible a través de un API de dos pasos: cargue una muestra de narración (5 a 15 segundos, limpia, un solo hablante) a /voices/v1/voices:cloneobtén una identificación de voz y úsala como cualquier otra voz.

Dónde junto a en la pila

TTS-2 es una capa en la cartera más amplia de API en tiempo vivo de Inworld. La pila completa incluye Realtime STT, que transcribe y perfila al hablante en una sola pasada, capturando la antigüedad, el acento, el tono, el estilo vocal, el tono emocional y el ritmo como señales estructuradas en la misma conexión. Un enrutador en tiempo vivo que rutas a través de más de 200 modelos, seleccionando el maniquí y las herramientas apropiados según el estado del usufructuario y el contexto de la conversación. Y TTS-2 en la capa de salida. La canalización se ejecuta a través de una única conexión WebSocket persistente, con un tiempo medio de logro del primer audio inferior a 200 ms para la capa TTS.

https://artificialanalysis.ai/text-to-speech/leaderboard. (datos al 5 de mayo de 2026)

El contexto más amplio

Realtime TTS 1.5 ya ocupa el puesto número 1 en el Arena de discurso de prospección sintético (a partir del 5 de mayo de 2026), por delante de Google (n.º 2) y ElevenLabs (n.º 3). El extensión de TTS-2 indica que Inworld considera que la calidad del audio sin procesar es un problema resuelto y ahora está compitiendo en la capa de comportamiento: conciencia del contexto, direccionabilidad y consistencia de identidad en todos los idiomas.


Mira el Documentos y Detalles técnicos. Encima, no dudes en seguirnos en Gorjeo y no olvides unirte a nuestro SubReddit de más de 130.000 ml y suscríbete a nuestro boletín. ¡Esperar! estas en telegrama? Ahora todavía puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su extensión de producto O seminario web, etc.? Conéctate con nosotros


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *