Google AI presenta Gemini Embedding 2: un maniquí de incrustación multimodal que le permite incorporar texto, imágenes, videos, audio y documentos al espacio de incrustación

Google amplió su comunidad de modelos Gemini con el impulso de Incrustación de Géminis 2. Este maniquí de segunda coexistentes sucede al de solo texto. gemini-embedding-001 y está diseñado específicamente para invadir los desafíos de almacenamiento de entrada dimensión y recuperación intermodal que enfrentan los desarrolladores de IA que construyen dispositivos de división de producción. […]
Microsoft bichero VibeVoice-ASR: un maniquí unificado de voz a texto diseñado para manejar audio de formato abundante de 60 minutos en una sola pasada

Microsoft ha animado VibeVoice-ASR como parte de la tribu VibeVoice de modelos de inteligencia químico de voz de frontera de código libre. VibeVoice-ASR se describe como un maniquí unificado de voz a texto que puede manejar audio de formato abundante de 60 minutos en una sola pasada y producir transcripciones estructuradas que codifican quién, cuándo […]
StepFun AI alabarda Step-Audio-R1: un nuevo LLM de audio que finalmente se beneficia del escalado informático del tiempo de prueba

¿Por qué los modelos actuales de IA de audio suelen funcionar peor cuando generan razonamientos más largos en motivo de cimentar sus decisiones en el sonido existente? El equipo de investigación de StepFun alabarda Step-Audio-R1, un nuevo LLM de audio diseñado para medrar el tiempo de prueba, aborda este modo de defecto mostrando que la […]
Construya una decisión de breviario de audio sin servidor con el rock de Amazon y Whisper

Las grabaciones de reuniones de negocios, entrevistas e interacciones con los clientes se han vuelto esenciales para preservar información importante. Sin incautación, transcribir y resumir estas grabaciones manualmente a menudo requiere mucho tiempo y requiere mucho trabajo. Con el progreso en IA generativa Y el inspección forzoso de voz (ASR), han surgido soluciones automatizadas para […]
Nuevas capacidades de automatización de datos de rock de Amazon optimizar el examen de video y audio

Las organizaciones en una amplia viso de industrias están luchando por procesar cantidades masivas de contenido de video y audio no estructurado para respaldar sus aplicaciones comerciales centrales y sus prioridades organizativas. Amazon Bedrock Data Automation Los ayuda a cumplir con este desafío racionalizando el expansión de aplicaciones y automatizando los flujos de trabajo que […]
Anuncio de nuevos productos y características para el servicio Azure OpenAI, incluido GPT-4o-Realtime-Preview con capacidades de audio y voz.

Estamos encantados de anunciar la pinta previa pública de GPT-4o-Realtime-Preview para audio y voz, una importante prosperidad del servicio Microsoft Azure OpenAI que agrega capacidades de voz avanzadas y amplía las ofertas multimodales de GPT-4o. Estamos encantados de anunciar la pinta previa pública de GPT-4o-Realtime-Preview para audio y voz, una prosperidad importante para Servicio Microsoft […]