Athrun Data Intelligence

La ‘experiencia temprana’ de Meta AI entrena a agentes lingüísticos sin recompensas y supera el formación por imitación

¿Cómo cambiaría su pila de agentes si una política pudiera entrenarse exclusivamente a partir de sus propios lanzamientos basados ​​en resultados (sin recompensas ni demostraciones) y aún así pasar el formación por imitación en ocho puntos de narración? Meta Superintelligence Labs propone ‘Experiencia temprana‘, un enfoque de capacitación sin recompensas que mejoramiento el formación de […]