Microsoft bichero VibeVoice-ASR: un maniquí unificado de voz a texto diseñado para manejar audio de formato abundante de 60 minutos en una sola pasada

Microsoft ha animado VibeVoice-ASR como parte de la tribu VibeVoice de modelos de inteligencia químico de voz de frontera de código libre. VibeVoice-ASR se describe como un maniquí unificado de voz a texto que puede manejar audio de formato abundante de 60 minutos en una sola pasada y producir transcripciones estructuradas que codifican quién, cuándo […]