Investigadores de OpenAI entrenan transformadores de poco peso para exponer circuitos interpretables

Si las redes neuronales ahora toman decisiones en todas partes, desde editores de código hasta sistemas de seguridad, ¿cómo podemos ver los circuitos específicos internos que impulsan cada comportamiento? OpenAI ha introducido una nueva interpretabilidad mecanística estudio de investigación que entrena modelos de jerga para que utilicen cableado interno escaso, de modo que el comportamiento […]