Athrun Data Intelligence

Google AI presenta Gemini Embedding 2: un maniquí de incrustación multimodal que le permite incorporar texto, imágenes, videos, audio y documentos al espacio de incrustación

Google amplió su comunidad de modelos Gemini con el impulso de Incrustación de Géminis 2. Este maniquí de segunda coexistentes sucede al de solo texto. gemini-embedding-001 y está diseñado específicamente para invadir los desafíos de almacenamiento de entrada dimensión y recuperación intermodal que enfrentan los desarrolladores de IA que construyen dispositivos de división de producción. […]

Microsoft bichero VibeVoice-ASR: un maniquí unificado de voz a texto diseñado para manejar audio de formato abundante de 60 minutos en una sola pasada

Microsoft ha animado VibeVoice-ASR como parte de la tribu VibeVoice de modelos de inteligencia químico de voz de frontera de código libre. VibeVoice-ASR se describe como un maniquí unificado de voz a texto que puede manejar audio de formato abundante de 60 minutos en una sola pasada y producir transcripciones estructuradas que codifican quién, cuándo […]

Construya una decisión de breviario de audio sin servidor con el rock de Amazon y Whisper

Las grabaciones de reuniones de negocios, entrevistas e interacciones con los clientes se han vuelto esenciales para preservar información importante. Sin incautación, transcribir y resumir estas grabaciones manualmente a menudo requiere mucho tiempo y requiere mucho trabajo. Con el progreso en IA generativa Y el inspección forzoso de voz (ASR), han surgido soluciones automatizadas para […]

Anuncio de nuevos productos y características para el servicio Azure OpenAI, incluido GPT-4o-Realtime-Preview con capacidades de audio y voz.

Estamos encantados de anunciar la pinta previa pública de GPT-4o-Realtime-Preview para audio y voz, una importante prosperidad del servicio Microsoft Azure OpenAI que agrega capacidades de voz avanzadas y amplía las ofertas multimodales de GPT-4o. Estamos encantados de anunciar la pinta previa pública de GPT-4o-Realtime-Preview para audio y voz, una prosperidad importante para Servicio Microsoft […]