Salesforce AI presenta TACO: una nueva comunidad de modelos de movimiento multimodal que combinan el razonamiento con acciones del mundo existente para resolver tareas visuales complejas

El incremento de sistemas de IA multimodales eficaces para aplicaciones del mundo existente requiere manejar diversas tareas, como el registro detallado, la cojín visual, el razonamiento y la resolución de problemas de varios pasos. Los modelos de jerga multimodal de código hendido existentes son deficientes en estas áreas, especialmente para tareas que involucran herramientas externas […]
Los investigadores de Microsoft combinan modelos de habla pequeños y grandes para una detección de alucinaciones más rápida y precisa

Los modelos de habla de gran tamaño (LLM, por sus siglas en inglés) han demostrado capacidades notables en diversas tareas de procesamiento del habla natural. Sin secuestro, enfrentan un desafío importante: las alucinaciones, donde los modelos generan respuestas que no se basan en el material de origen. Este problema socava la confiabilidad de los LLM […]