India es un país diverso con un rico tapiz de idiomas, lo que hace que la comunicación perfecta en las regiones sea un desafío persistente. Sin confiscación, Bulbul-V2 de Sarvam está ayudando a cerrar esta brecha con su texto liberal a voz (TTS) tecnología. Al ofrecer voces naturales y regionalmente auténticas, el maniquí aporta sabor regional a las plataformas digitales y hace que la IA sea más inclusiva y accesible para personas desi como usted y yo. A medida que el contenido digital continúa expandiéndose, herramientas como Bulbul-V2 se están volviendo cada vez más vitales para los desarrolladores y creadores de contenido. En este artículo, cubriré la exploración Bulbul-V2 de Sarvam Ai para TTS.
¿Qué es Saravm?
Sarvam es una startup india de IA con sede en Bangalore, fundada por un equipo de ingenieros de estudios obligatorio. Recientemente agradecido por el gobierno indio por su trabajo en modelos indios de idiomas grandes (LLM), Sarvam se centra en el mejora de modelos de IA basados en el acento adaptados a los idiomas indios. Su objetivo es crear voces sintéticas de sonido natural que capturen los matices del acento humana. A diferencia de los sistemas TTS convencionales que a menudo suenan robóticos y sin emociones, los modelos de Sarvam enfatizan la entrega expresiva, incluidas las pausas naturales y el contexto emocional.
Explorando los modelos de Sarvam
Sarvam ofrece servicios de acento de stop rendimiento con un enfoque en voces sintetizadas naturales y expresivas, optimizadas para la IA conversacional. Su maniquí insignia, Bulbul-V2, es un sistema de texto a voz (TTS) de última concepción construido específicamente para lenguajes IND. Se adapta a varios idiomas regionales y estilos de acento, comprende las señales contextuales del texto circundante y ofrece el acento con un tono emocional apropiado y una prosodia natural. Sarvam ofrece 4 modelos de IA diseñados para atender diversas deposición de idioma indio:
- Mayura: Un maniquí de traducción multilingüe que admite inglés y 11 idiomas indios con detección de idiomas automáticos, preservando el significado y el contexto.
- Saras: Un maniquí de voz a texto que transcribe audio y se traduce entre idiomas indios en una sola tubería.
- Saarika: Un maniquí de texto a voz de reincorporación precisión para múltiples idiomas indios, que ofrece una salida clara e inteligible.
- Bulbul: La columna vertebral TTS de Sarvam, Bulbul ofrece una prosodia humana, personalidades de voz múltiple y síntesis en tiempo auténtico adaptada para acentos e idiomas indios.
Lea asimismo: 9 mejores motores de texto a voz de código libre (TTS)
¿Qué tiene de específico Bulbul-V2?
Bulbul-V2 es el maniquí TTS más liberal de Sarvam hasta la momento, basándose en el éxito de su predecesor con varias mejoras innovadoras. Admite 11 idiomas indios, que ofrece voces que suenan nativas con auténticos acentos regionales. Bulbul-V2 está diseñado para la velocidad y la eficiencia de rentabilidad. Es adecuado para una amplia abanico de casos de uso. Estos van desde aplicaciones a gran escalera hasta implementaciones más pequeñas. El maniquí ofrece múltiples personalidades de voz, como Meera y Arvind. Admite la creación de voz personalizada que permite a las empresas construir una marca de audio distintiva.
Características secreto de Bulbul-V2
- Control de voz: Control de cereal fino sobre el tono (-1 a 1), ritmo (0.3 a 3) y comba (0.1 a 3)
- Opciones de frecuencia de muestreo: Tasas de muestreo múltiples: 8kHz, 16kHz, 22.05kHz, 24kHz.
- Preprocesamiento de texto: Normalización inteligente de números, fechas y texto en idioma mezclado
- Soporte del idioma: Apoyo para 11 idiomas indios con códigos BCP-47.
¿Cómo ceder a Bulbul-V2 a través de API?
Para comenzar, vaya al sitio web de Sarvam y haga clic en Firmar con Google:

Ahora, una vez que haya firmado, lo redirigirá al tablero, donde obtendrá créditos gratuitos por valencia de INR 1000.

Verifique la sección ‘Secreto de suscripción’ para copiar la secreto API de su sarvam.
Haciendo la primera citación de API
1. Instalación de bibliotecas requeridas
!pip install sarvamai
from sarvamai import SarvamAI
from sarvamai.play import play
import base64
- Sarvamai: La clase SDK principal solía interactuar con la API de Sarvam.
- Paay: Una función de ayudante que reproduce audio en su sistema.
- base64: El módulo incorporado de Python para decodificar el audio de Base64 (API devuelve audio de esta forma).
2. Inicializando al cliente API
client = SarvamAI(
api_subscription_key="your_api_key"
)
- Crea un objeto cliente sarvamai.
3. Convertir texto a voz
response = client.text_to_speech.convert(
inputs=("Welcome to Sarvam AI!"),
model="bulbul:v2",
target_language_code="en-IN",
speaker="anushka",
pitch=0.5, # Range: -1 to 1
pace=1.0, # Range: 0.3 to 3
loudness=1.2, # Range: 0.1 to 3
speech_sample_rate=8000, # Options: 8000, 16000, 22050, 24000
enable_preprocessing=True # Handles numbers, dates, and mixed text
)
play(response)
- maniquí: Utiliza el maniquí Bulbul: V2 TTS.
- Target_language_code: Especifica el inglés (India) con acento (en-in).
- Pitch, ritmo, comba: Controla el tono, la velocidad y el comba.
- Speech_sample_Rate: Elige la calidad de la muestra de audio. 8000 Hz es sustancial (nivel de telefonía).
- habilitar_procesos: Cuando es efectivo, normaliza automáticamente la entrada (por ejemplo, fechas/números)
- vocero: Utiliza la voz predefinida «Anushka». Otras opciones disponibles son:

4. Respetar la salida
audio_base64 = response.audios(0) # This is a str, base64-encoded
audio_bytes = base64.b64decode(audio_base64) # Decode to bytes
with open("output.wav", "wb") as f:
f.write(audio_bytes)
- Toma el audio codificado Base64 como entrada y decodifica a los bytes.
- Lo observancia como el archivo output.wav.
Lea asimismo: Modelos multilingües de texto a voz para idiomas indic
Bulbul-V2 en acto: voces de diferentes idiomas
En esta sección, probaremos el rendimiento de Bulbul-V2 en tres tareas principales. Como Sarvam Ai dice que Bulbul-V2 ofrece voces naturales de forma humana con acentos regionales en 11 idiomas. Entonces, para probar esto lo comprobaremos:
- Conversión de texto a voz (en el mismo idioma (es opinar, punjabi a punjabi o hindi a hindi)
- Las siguientes 2 tareas son efectuar si admite la conversión interactual o no (es opinar, hindi a tamil o malayalam a bengalí)
Tarea 1: Prueba de TTS humorística
Esta demostración ejercicio ayudará a analizar qué tan acertadamente Bulbul-V2 captura el sonido y la sensación de la heterogeneidad gramática india. En esta tarea, pasaré un texto humorístico al maniquí TTS y analizaré su respuesta en función de su respuesta.
Inmediato: «कल मेरा कंप्यूटर छींक रहok था-हाँ, छींक! ह sigue! मैंने पूछा, ‘तुम ठीक हो हो हो हो हो हो हो हो हो हो हो हो हो हो हो हो हो हो हो हो हो तो उसने जवाब दिया, ‘मुझे लगता है मुझे वायरस हो गया है!’ हेहे ¡! मैंने उसे टिश्यू दिया, लेकिन उसे तो बस एक सॉफ्टवेयर अपडेट और गर्म कॉफी चाहिए थी। ह sigue! फिर मेरा प्रिंटर हँसने लगा, और माउस चिल्लाते हुए बोला, ‘फिर से नहीं!’ हेहेहे ¡! सच में, लगता है मेरे गैजेट्स को मुझसे ज्यादा छुट्टी चाहिए। हाहा, ओह टेक्नोलॉजी! «
client = SarvamAI(
api_subscription_key="api_key" # Put your API key here
)
response = client.text_to_speech.convert(
inputs=( prompt),
model="bulbul:v2",
target_language_code="gu-IN",
speaker="karun", # natural and conversational
pitch=0.3,
pace=1.0,
loudness=1.0,
speech_sample_rate=16000,
enable_preprocessing=True
)
play(response)
audio_base64 = response.audios(0)
audio_bytes = base64.b64decode(audio_base64)
with open("output_hindi.wav", "wb") as f:
f.write(audio_bytes)
Producción:
Observación
En esta tarea, hemos utilizado un aviso divertido y humorístico para probar Bulbul-V2. La maniquí hablaba con fluidez y manejaba acertadamente el jerga, sin confiscación, no capturó el tono divertido o juguetón. Los chistes y la risa sonaban planos y carecían de la parte expresiva. En común, la claridad fue buena, pero la entrega emocional aún necesita alguna restablecimiento.
Tarea 2: traducción de Punjabi to tamil
En esta tarea, le daremos un mensaje de Punjabi y le pediremos al maniquí que lo cambie a Tamil.
Inmediato: «ਉਹ ਕਹਿੰਦੇ ਹਨ ਕਿ ਕਮਰਾ ਸਾਫ ਰੱਖੋ ਤਾਂ ਤਾਂ ਉੱਥੇ ਸੱਚ ਮੁਚ ਮੁਚ ਆਰਾਮ ਮਿਲਦਾ, ਪਰ ਜਦੋਂ ਤੱਕ ਮੈਂ ਖੁਦ ਕੰਮ ਕਰ ਰਿਹਾ ਹਾਂ, ਕਮਰੇ ਦਾ ਹਾਲ ਵਧੀਅਾ ਨਹੀਂ ਸਕਦਾ। ਸਕਦਾ। ਸਕਦਾ। ਮੈਂ ਤਾਂ ਸੋਚਿਆ ਸੀ ਕਿ ਮੋਬਾਈਲ ‘ਤੇ ਚਾਰ ਘੰਟੇ ਕੁਝ ਕਰ ਕੇ ਕਮਰੇ ਕਮਰੇ ਹਾਲ ਸੁਧਾਰ ਲਵਾਂਗਾ, ਪਰ ਅਸਲ ਵਿੱਚ ਇੰਟਰਨੈਟ’ ਤੇ ਕੁਝ ਮਜ਼ੇਦਾਰ ਵੀਡੀਓਸ ਨੇ ਮੇਰੀ ਮਿਸ਼ਨ ਨੂੰ ਕਰ ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ। ਦਿੱਤਾ।«
from sarvamai import SarvamAI
from sarvamai.play import play
import base64
client = SarvamAI(
api_subscription_key="api_key" # Put your API key here
)
response = client.text_to_speech.convert(
inputs=(prompt),
model="bulbul:v2",
target_language_code="ta-IN",
speaker="manisha",
pitch=0.3,
pace=1.0,
loudness=1.0,
speech_sample_rate=16000,
enable_preprocessing=True
)
play(response)
audio_base64 = response.audios(0)
audio_bytes = base64.b64decode(audio_base64)
with open("output_tamil.wav", "wb") as f:
f.write(audio_bytes)
Producción:
Observación
Para esta tarea, proporcioné un mensaje de Punjabi y le pedí a Bulbul-V2 que genere un discurso tamil. Sin confiscación, la salida comienza con Punjabi y luego de repente comienza tamil, en superficie de dar una respuesta tamil suave. Esto muestra que el maniquí aún no ha realizado la traducción. Solo lee la entrada y, como resultado, carece de la capacidad de traducirse correctamente en tamil.
Tarea 3: traducción de Malayalam a Gujarati
En esta tarea, daremos un mensaje de malayalam y le pediremos al maniquí que lo cambie a Gujarati.
Inmediato:»എന്താണ് ഇവർ ചിന്തിക്കുന്നത്? ഞാനൊരു മണിക്കൂർ കാത്തിരുന്നത് കാത്തിരുന്നത്! ഇത് എല്ലാം സപ്പോർട്ട് ഇല്ലാത്തതാണ് ഇല്ലാത്തതാണ് ഇല്ലാത്തതാണ്! എന്താ സങ്കടം സങ്കടം സങ്കടം! അവർക്ക് അറിയാമോ എത്ര വണ്ണം ചെലവാക്കേണ്ടി വന്നിരിക്കുന്നു വന്നിരിക്കുന്നു! ഇങ്ങനെ പോകുന്നത് എങ്ങിനെയാണ്? ഈ ലോകത്ത് ആരും എത്രയും നിശ്ചയിച്ച് തങ്ങളുടെയായി നടക്കുന്നു നടക്കുന്നു!«
from sarvamai import SarvamAI
from sarvamai.play import play
import base64
client = SarvamAI(
api_subscription_key="your_api_key" # Put your API key here
)
response = client.text_to_speech.convert(
inputs=(prompt),
model="bulbul:v2",
target_language_code="gu-IN",
speaker="abhilash",
pitch=0.3,
pace=1.0,
loudness=1.0,
speech_sample_rate=16000,
enable_preprocessing=True
)
play(response)
audio_base64 = response.audios(0)
audio_bytes = base64.b64decode(audio_base64)
with open("output_gujrati.wav", "wb") as f:
f.write(audio_bytes)
Producción:
Observación
Para esta tarea, proporcioné un mensaje de Malayalam y solicité al maniquí que genere el discurso de Gujarati. Sin confiscación, el maniquí no puede traducir el aviso a Gujarati. En superficie de esto, da un malayalam suave como respuesta. Esto muestra que el maniquí aún no ha realizado la traducción. Para una conversión de idioma precisa, se debe incluir un paso de traducción forastero ayer de tener lugar el texto a los modos TTS.
Rendimiento común
Tarea | Habla de entrada | Jerga de venida | Que acertadamente funcionó | Qué pasó | Que hacer a continuación |
1 | Información divertida (inglés) | Inglés | Aceptablemente | Habló de forma clara y suave, pero carecía de humor o vivacidad. | Mejorar la voz para expresar mejor emociones como la risa. |
2 | punjabi | Tamil | No es bueno | Comenzó en Punjabi, luego de repente cambió a la orientación tamil. | Use un servicio de traducción adecuado ayer de TTS. |
3 | Malayalam | Gujarati | Fallido | La salida todavía estaba en malayalam; No se produjo traducción. | Traducir el texto manualmente ayer de usar TTS. |
Debe interpretar: GPT 4O VS IND LLMS – ¿Quién ganará la pugna del idioma?
Casos de uso
Las capacidades rápidas y naturales de texto a voz de Bulbul-V2 lo convierten en un buen ajuste en muchos casos del mundo auténtico en los que no está involucrada la conversión inter-lenguaje. Aquí hay algunos ejemplos prácticos donde esto se puede usar:
- Tecnología de socorro: TTS transforma el texto en discurso para usuarios con discapacidad visual. Los lectores de pantalla impulsados por este tipo de tecnología pueden proporcionar una experiencia natural y atractiva a los usuarios. Adyacente con esto, TTS asimismo puede ayudar a las personas no verbales a comunicarse.
- E-learning y creación de contenido: Los modelos TTS se pueden usar para hacer audiolibros, otros materiales educativos y voz en off para videos. Esto ayuda a hacer que el estudios sea más atractivo, ya que las personas pueden usarlo en su idioma nativo, y asimismo lo hace más inclusivo.
- Traducción y posición del idioma: La tecnología TTS admite la creación de contenido localizado. Habilita la traducción en tiempo auténtico para aplicaciones. Bulbul-V2 tiene desaparecido latencia, lo que lo hace adecuado para aplicaciones en tiempo auténtico. Estos incluyen socorro de interpretación de conferencias e interacción en vivo del servicio al cliente. Las plataformas educativas asimismo pueden usarlo para ayudar a las personas a escuchar adecuadamente.
Bulbul-V2 vs otros modelos TTS populares
Bulbul-V2 está causando una esforzado impresión en el dominio de los modelos TTS, especialmente para el mercado indio. Su delantera principal sobre otros es que admite 11 idiomas indios nativos, que cubren la mayoría del subcontinente indio.
Al comparar Bulbul-V2 con rivales globales como Elevenlabs. Bulbul-V2 se destaca con su rendimiento rápido, con la latencia de entrega P90 en 0.398 segundos, que es aproximadamente el doble de rápido que merienda.
Bulbul-V2 asimismo ofrece un parámetro como el control sobre el tono, el ritmo, el comba y la frecuencia de muestreo, adjunto con el procesamiento inteligente para números y fechas. No solo se mantiene al día con los líderes internacionales de TTS, sino que asimismo establece nuevos puntos de remisión en velocidad, eficiencia y asequibilidad.
Repasar: Otros indiclms populares
Conclusión
Bulbul-V2 da un brinco significativo en el alucinación de la India para desarrollar su propia LLM, especialmente en el dominio de los modelos de prueba a voz al entregar voces auténticas rápidas, naturales y regionales. Su velocidad y asequibilidad excepcionales lo hacen accesible para una amplia abanico de aplicaciones, que varían desde dispositivos de socorro hasta la creación de contenido. Si acertadamente actualmente no tiene soporte para la traducción cibernética entre idiomas, esto se puede exagerar combinando Bulbul-V2 con herramientas externas como Google Translate. Con mejoras continuas en vehemencia y características ampliadas para construir experiencias de voz más atractivas. Con esto, Bulbul-V2 jugará un papel secreto en el futuro de la IA india.
Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.