El equipo magenta de Google ha introducido Magenta en tiempo vivo (Magenta RT), un maniquí de vivientes musical de peso despejado y en tiempo vivo que aporta interactividad sin precedentes al audio generativo. Con deshonestidad bajo Apache 2.0 y apto en Github y Cara abrazadaMagenta RT es el primer maniquí de vivientes de música a gran escalera que admite la inferencia en tiempo vivo con indicaciones dinámicas de estilo controlable por el afortunado.
Referencias: vivientes de música en tiempo vivo
El control en tiempo vivo y la interactividad en vivo son fundamentales para la creatividad musical. Mientras que los proyectos magenta anteriores como Piano Genie y DDSP enfatizaron el control expresivo y el modelado de señales, Magenta RT extiende estas ambiciones a la síntesis de audio de espectro completo. Cierra la brecha entre los modelos generativos y humano Composición al habilitar la feedback instantánea y la proceso musical dinámica.
Magenta RT se base en las técnicas de modelado subyacentes de MusicLM y Musicfx. Sin confiscación, a diferencia de sus modos de vivientes de API o lotes, Magenta RT admite síntesis de transmisión Con el cifra en tiempo vivo punta (RTF)> 1, lo que significa que puede producir más rápido que en tiempo vivo, incluso en TPU de nivel vaco.
Descripción técnica
Magenta RT es un maniquí de estilo basado en transformadores entrenado en tokens de audio discretos. Estos tokens se producen a través de un códec de audio neural, que opera a 48 kHz de fidelidad estereofónico. El maniquí aprovecha una obra de transformador de parámetros de 800 millones que se ha optimizado para:
- Engendramiento de transmisión En segmentos de audio de 2 segundos
- Acondicionamiento temporal con una ventana de historial de audio de 10 segundos
- Control de estilo multimodalusando indicaciones de texto o audio de relato
Para apoyar esto, la obra maniquí adapta la tubería de entrenamiento escenificada de MusicLM, integrando un Nuevo módulo de incrustación de texto de música conjunta conocido como Musiccoca (un híbrido de Mulan y Coca). Esto permite un control semánticamente significativo sobre el apartado, la instrumentación y la progresión estilística en tiempo vivo.
Datos y capacitación
Magenta RT está entrenado en ~ 190,000 horas de música instrumental. Este gran y diverso conjunto de datos garantiza una amplia propagación de apartado y una adecuación suave en los contextos musicales. Los datos de capacitación se tokenizaron utilizando un códec jerárquico, que permite representaciones compactas sin perder fidelidad. Cada fragmento de 2 segundos está condicionado no solo en una solicitud especificada por el afortunado sino incluso en un contexto rodante de 10 segundos de audio previo, lo que permite una progresión suave y coherente.
El maniquí admite dos modalidades de entrada para indicaciones de estilo:
- Indicaciones textualesque se convierten en insertos utilizando MusicCoca
- Indicaciones de audiocodificado en el mismo espacio de incrustación a través de un codificador erudito
Esta fusión de modalidades permite transformación de apartado en tiempo vivo y mezcla de instrumentos dinámicos: capacidad esencial para la composición en vivo y escenarios de rendimiento similares a DJ.
Rendimiento e inferencia
A pesar de la escalera del maniquí (parámetros de 800 m), Magenta RT logra una velocidad de vivientes de 1.25 segundos por cada 2 segundos de audio. Esto es suficiente para el uso en tiempo vivo (RTF ~ 0.625), y la inferencia se puede ejecutar en TPU de nivel vaco en Google Colab.
El proceso de vivientes se detiene para permitir la transmisión continua: cada segmento 2S se sintetiza en una tubería con destino a delante, con ventanas superpuestas para certificar la continuidad y la coherencia. La latencia se minimiza aún más mediante optimizaciones en la compilación de modelos (XLA), almacenamiento en personalidad y programación de hardware.
Aplicaciones y casos de uso
Magenta RT está diseñado para la integración en:
- Actuaciones en vivodonde los músicos o los DJ pueden dirigir la vivientes sobre la marcha
- Herramientas creativas de prototiposofreciendo una recital rápida de estilos musicales
- Herramientas educativasayudar a los estudiantes a comprender la estructura, la avenencia y la fusión de apartado
- Instalaciones interactivashabilitando entornos de audio generativos receptivos
Google ha insinuado el próximo soporte para inferencia en el dispositivo y ajuste personallo que permitiría a los creadores adaptar el maniquí a sus firmas estilísticas únicas.
Comparación con modelos relacionados
Magenta RT complementa MusicFX (modo DJ) de Google Deepmind y la API vivo de Lyria, pero difiere críticamente en ser de código despejado y autohostable. Asimismo se distingue de los modelos de difusión disfrazado (por ejemplo, riffusion) y decodificadores autorregresivos (por ejemplo, jukebox) al enfocarse en la predicción de token de códec con una latencia mínima.
En comparación con modelos como MusicGen o MusicLM, Magenta RT ofrece una pequeño latencia y habilita vivientes interactivaque a menudo equivocación en las tuberías actuales de audiencia rápida a audio que requieren la vivientes de vía completa por avanzado.
Conclusión
Magenta Realtime empuja los límites del audio generativo en tiempo vivo. Al combinar la síntesis de reincorporación fidelidad con el control dinámico del afortunado, abre nuevas posibilidades para la creación de música asistida por AI-AI. Su obra equilibra la escalera y la velocidad, mientras que su deshonestidad abierta garantiza la accesibilidad y la contribución de la comunidad. Para los investigadores, desarrolladores y músicos, Magenta RT representa un paso fundamental con destino a los sistemas musicales de IA colaborativos y receptivos.
Mira el Maniquí en la cara abrazada, Página de Github, Detalle técnico y Cuaderno de colab. Todo el crédito por esta investigación va a los investigadores de este tesina. Por otra parte, siéntete vaco de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Registro de balde: Infraestructura de Minicon AI 2025 (2 de agosto de 2025) (Speakers: Jessica Liu, VP Product Management @ Cerebras, Andreas Schick, Director AI @ US FDA, Volkmar Uhlig, VP AI Infrastructure @ IBM, Daniele Stroppa, WW Sr. Partner Solutions Architect @ Amazon, Aditya Gautam, Machine Learning Lead @ Meta, Sercan Arik, Research Manager @ Google Cloud AI, Valentina Pedoia, Senior Director AI/ML @ The Altos Labs, Sandeep Kaipu, apoderado de ingeniería de software @ broadcom)
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero soñador, ASIF se compromete a usar el potencial de la inteligencia químico para el admisiblemente social. Su esfuerzo más flamante es el impulso de una plataforma de medios de inteligencia químico, MarktechPost, que se destaca por su cobertura profunda de informativo de educación necesario y de educación profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el divulgado.