Athrun Data Intelligence

Una hoja de ruta técnica para la ingeniería de contexto en LLM: mecanismos, puntos de relato y desafíos abiertos

Tiempo de leída estimado: 4 minutos El papel «Una indagación de ingeniería contextual para modelos de idiomas grandes«Establece Ingeniería de contexto Como una disciplina formal que va mucho más allá de la ingeniería rápida, proporcionando un ámbito sistemático unificado para diseñar, optimizar y establecer la información que itinerario a los modelos de idiomas grandes (LLM). […]

Los investigadores de Tiktok introducen SWE-Perf: el primer punto de relato para la optimización del rendimiento del código de nivel de repositorio

Comienzo A medida que avanzan los modelos de jerigonza holgado (LLMS) en tareas de ingeniería de software, que se extienden desde la concepción de códigos hasta la corrección de errores, la optimización de rendimiento sigue siendo una frontera evasiva, especialmente a nivel de repositorio. Para cerrar esta brecha, los investigadores de Tiktok y las instituciones […]

¿Está su agente de LLM preparado para empresas? Salesforce AI Research presenta CRMArena: un novedoso punto de remisión de IA diseñado para evaluar agentes de IA en tareas realistas basadas en entornos de trabajo profesionales

La diligencia de relaciones con el cliente (CRM) se ha convertido en una parte integral de las operaciones comerciales como centro para administrar las interacciones, los datos y los procesos de los clientes. La integración de IA avanzadilla en CRM puede metamorfosear estos sistemas al automatizar procesos rutinarios, ofrecer experiencias personalizadas y optimizar los esfuerzos […]

OpenAI lanceta SimpleQA: un nuevo punto de remisión de IA que mide la factualidad de los modelos de verbo

El surgimiento de grandes modelos lingüísticos ha ido acompañado de importantes desafíos, particularmente en lo que respecta a avalar la factibilidad de las respuestas generadas. Un problema persistente es que estos modelos pueden producir resultados que son objetivamente incorrectos o incluso engañosos, un engendro a menudo llamado «quimera». Estas alucinaciones ocurren cuando los modelos generan […]

Genere confianza en su espacio Genie con puntos de relato y solicite una revisión

Carácter de IA/BI es una experiencia conversacional para que los equipos de negocios puedan obtener información valiosa de sus datos a través del idioma natural. Genie aprovecha la IA generativa adaptada a los datos, los patrones de uso y los conceptos comerciales de una estructura y aprende continuamente de los comentarios de los usuarios. Esto […]

MEGA-Bench: un punto de narración integral de IA que escalera la evaluación multimodal a más de 500 tareas del mundo efectivo a un costo de inferencia manejable

Un desafío importante en la evaluación de modelos de visión y jerga (VLM) radica en comprender sus diversas capacidades en una amplia matiz de tareas del mundo efectivo. Los puntos de narración existentes a menudo se quedan cortos, centrándose en conjuntos reducidos de tareas o formatos de resultados limitados, lo que da oportunidad a una […]

Exponiendo vulnerabilidades en los puntos de narración automáticos de LLM: la obligación de mecanismos antitrampas más sólidos

Los puntos de narración automáticos como AlpacaEval 2.0, Arena-Hard-Coche y MTBench han reses popularidad para evaluar LLM adecuado a su asequibilidad y escalabilidad en comparación con la evaluación humana. Estos puntos de narración utilizan anotadores automáticos basados ​​en LLM, que se alinean perfectamente con las preferencias humanas, para proporcionar evaluaciones oportunas de nuevos modelos. Sin […]

Avance de CodeMaker AI en el ampliación de software: logra una precisión del 91 % al deleitar 90 000 líneas de código, lo que establece un nuevo punto de narración para la coexistentes de código impulsada por IA y el maniquí perfeccionado

En una era en la que la IA transforma las industrias, Inteligencia químico CodeMaker ha rematado un avance histórico al deleitar de forma autónoma una biblioteca de software de 90.000 líneas con una asombrosa similitud del 91 % con el código saco diferente. Este logro marca un cambio significativo en la forma en que se […]