Investigadores de OpenAI entrenan transformadores de poco peso para exponer circuitos interpretables

Si las redes neuronales ahora toman decisiones en todas partes, desde editores de código hasta sistemas de seguridad, ¿cómo podemos ver los circuitos específicos internos que impulsan cada comportamiento? OpenAI ha introducido una nueva interpretabilidad mecanística estudio de investigación que entrena modelos de jerga para que utilicen cableado interno escaso, de modo que el comportamiento […]
Los transformadores ahora pueden predecir las células de hoja de cálculo sin ajustar: los investigadores introducen TABPFN capacitado en 100 millones de conjuntos de datos sintéticos

Los datos tabulares se utilizan ampliamente en varios campos, incluidas la investigación científica, las finanzas y la atención médica. Tradicionalmente, estudios forzoso Se han preferido modelos como los árboles de intrepidez aumentados de gradiente para analizar datos tabulares correcto a su efectividad en el manejo de conjuntos de datos heterogéneos y estructurados. A pesar de […]
Tencent alabarda el maniquí Hunyuan-Large (Hunyuan-MoE-A52B): un nuevo maniquí MoE de código extenso basado en transformadores con un total de 389 mil millones de parámetros y 52 mil millones de parámetros activos

Los modelos de jerga excelso (LLM) se han convertido en la columna vertebral de muchos sistemas de inteligencia sintético y han contribuido significativamente a los avances en el procesamiento del jerga natural (PLN), la visión por computadora e incluso la investigación científica. Sin bloqueo, estos modelos presentan sus propios desafíos. A medida que aumenta la […]
Maniquí FTP de predicción de tokens futuros: un nuevo método de entrenamiento de inteligencia industrial para transformadores que predice múltiples tokens futuros

El diseño contemporáneo de modelos de jerga causal, como los GPT, está intrínsecamente cargado con el desafío de la coherencia semántica durante períodos más largos conveniente a su diseño de predicción de un token por delante. Esto ha permitido un crecimiento significativo de la IA generativa, pero a menudo conduce a una «derivación del tema» […]
Este artículo sobre IA de Google presenta la atención selectiva: un nuevo enfoque de IA para mejorar la eficiencia de los modelos de transformadores

Los transformadores han hato una atención significativa correcto a sus poderosas capacidades para comprender y gestar texto similar a un humano, lo que los hace adecuados para diversas aplicaciones como traducción de idiomas, resúmenes y engendramiento de contenido creativo. Operan en saco a un mecanismo de atención, que determina cuánto enfoque debe tener cada token […]