referencia – Athrun Data Intelligence

Un nuevo punto de narración de IA para el futuro del trabajo

Durante primaveras, la conversación sobre IA ha sido atrapada en un onda. ¿Es un asistente hiperinteligente destinado a hacernos a todos más productivos, o es una fuerza implacable que automatizará nuestros trabajos en el olvido? El debate ha sido alimentado por pruebas académicas y puntos de narración abstractos que se sienten allí de los aspectos […]

Una hoja de ruta técnica para la ingeniería de contexto en LLM: mecanismos, puntos de relato y desafíos abiertos

Tiempo de leída estimado: 4 minutos El papel «Una indagación de ingeniería contextual para modelos de idiomas grandes«Establece Ingeniería de contexto Como una disciplina formal que va mucho más allá de la ingeniería rápida, proporcionando un ámbito sistemático unificado para diseñar, optimizar y establecer la información que itinerario a los modelos de idiomas grandes (LLM). […]

La Finalidad Ultimate 2025 para codificar los puntos de remisión y las métricas de rendimiento

Los modelos de idiomas grandes (LLM) especializados para la codificación ahora son parte integral del progreso de software, impulsando la productividad a través de la concepción de códigos, la fijación de errores, la documentación y la refactorización. La feroz competencia entre los modelos comerciales y de código rajado ha llevado a un rápido avance, así […]

Los investigadores de Tiktok introducen SWE-Perf: el primer punto de relato para la optimización del rendimiento del código de nivel de repositorio

Comienzo A medida que avanzan los modelos de jerigonza holgado (LLMS) en tareas de ingeniería de software, que se extienden desde la concepción de códigos hasta la corrección de errores, la optimización de rendimiento sigue siendo una frontera evasiva, especialmente a nivel de repositorio. Para cerrar esta brecha, los investigadores de Tiktok y las instituciones […]

Meta AI presenta MLGYM: un nuevo entorno de IA y un punto de remisión para avanzar en los agentes de investigación de IA

La deseo de acelerar el descubrimiento sabio a través de IA ha sido de larga data, con esfuerzos tempranos como el tesina de IA aplicada de Oak Ridge que data de 1979. Los avances más recientes en los modelos fundamentales han demostrado la viabilidad de las tuberías de investigación totalmente automatizadas, permitiendo que los sistemas […]

¿Está su agente de LLM preparado para empresas? Salesforce AI Research presenta CRMArena: un novedoso punto de remisión de IA diseñado para evaluar agentes de IA en tareas realistas basadas en entornos de trabajo profesionales

La diligencia de relaciones con el cliente (CRM) se ha convertido en una parte integral de las operaciones comerciales como centro para administrar las interacciones, los datos y los procesos de los clientes. La integración de IA avanzadilla en CRM puede metamorfosear estos sistemas al automatizar procesos rutinarios, ofrecer experiencias personalizadas y optimizar los esfuerzos […]

OpenAI lanceta SimpleQA: un nuevo punto de remisión de IA que mide la factualidad de los modelos de verbo

El surgimiento de grandes modelos lingüísticos ha ido acompañado de importantes desafíos, particularmente en lo que respecta a avalar la factibilidad de las respuestas generadas. Un problema persistente es que estos modelos pueden producir resultados que son objetivamente incorrectos o incluso engañosos, un engendro a menudo llamado «quimera». Estas alucinaciones ocurren cuando los modelos generan […]

Genere confianza en su espacio Genie con puntos de relato y solicite una revisión

Carácter de IA/BI es una experiencia conversacional para que los equipos de negocios puedan obtener información valiosa de sus datos a través del idioma natural. Genie aprovecha la IA generativa adaptada a los datos, los patrones de uso y los conceptos comerciales de una estructura y aprende continuamente de los comentarios de los usuarios. Esto […]

MEGA-Bench: un punto de narración integral de IA que escalera la evaluación multimodal a más de 500 tareas del mundo efectivo a un costo de inferencia manejable

Un desafío importante en la evaluación de modelos de visión y jerga (VLM) radica en comprender sus diversas capacidades en una amplia matiz de tareas del mundo efectivo. Los puntos de narración existentes a menudo se quedan cortos, centrándose en conjuntos reducidos de tareas o formatos de resultados limitados, lo que da oportunidad a una […]

Exponiendo vulnerabilidades en los puntos de narración automáticos de LLM: la obligación de mecanismos antitrampas más sólidos

Los puntos de narración automáticos como AlpacaEval 2.0, Arena-Hard-Coche y MTBench han reses popularidad para evaluar LLM adecuado a su asequibilidad y escalabilidad en comparación con la evaluación humana. Estos puntos de narración utilizan anotadores automáticos basados en LLM, que se alinean perfectamente con las preferencias humanas, para proporcionar evaluaciones oportunas de nuevos modelos. Sin […]

Etiqueta: referencia