
Incluso las redes que durante mucho tiempo se consideraron “incapaces de entrenar” pueden instruirse eficazmente con un poco de ayuda. Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Industrial (CSAIL) del MIT han demostrado que un breve período de formación entre redes neuronales, un método que llaman orientación, puede mejorar drásticamente el rendimiento de arquitecturas que antiguamente se consideraban inadecuadas para las tareas modernas.
Sus hallazgos sugieren que muchas de las llamadas redes “ineficaces” pueden simplemente comenzar desde puntos de partida no ideales, y que la orientación a corto plazo puede ubicarlas en un área que facilite el estudios para la red.
El método de orientación del equipo funciona alentando a una red objetivo a coincidir con las representaciones internas de una red timonel durante el entrenamiento. A diferencia de los métodos tradicionales como la destilación de conocimientos, que se centran en imitar los resultados de un docente, la orientación transfiere conocimientos estructurales directamente de una red a otra. Esto significa que el objetivo aprende cómo la timonel organiza la información internamente de cada capa, en área de simplemente copiar su comportamiento. Sorprendentemente, incluso las redes no capacitadas contienen sesgos arquitectónicos que pueden transferirse, mientras que los guías capacitados además transmiten patrones aprendidos.
«Encontramos estos resultados suficiente sorprendentes», dice Vighnesh Subramaniam ’23, MEng ’24, estudiante de doctorado del Unidad de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT e investigador de CSAIL, autor principal de un papel presentando estos hallazgos. «Es impresionante que podamos utilizar la similitud representacional para hacer que estas redes tradicionalmente ‘basura’ verdaderamente funcionen».
Encanto timonel
Una pregunta central fue si la orientación debe continuar durante toda la capacitación o si su intención principal es proporcionar una mejor inicialización. Para explorar esto, los investigadores realizaron un indagación con redes profundas totalmente conectadas (FCN). Antiguamente de entrenar sobre el problema verdadero, la red pasó algunos pasos practicando con otra red usando ruido accidental, como estirarse antiguamente del entrenamiento. Los resultados fueron sorprendentes: las redes que normalmente se sobreajustaban permanecían estables inmediatamente, lograban una último pérdida de entrenamiento y evitaban la clásica degradación del rendimiento que se observa en poco llamado FCN típico. Esta formación actuó como un útil calentamiento para la red, demostrando que incluso una breve sesión de destreza puede tener beneficios duraderos sin carestia de orientación constante.
El estudio además comparó la orientación con la destilación de conocimientos, un enfoque popular en el que una red de estudiantes intenta imitar los resultados de un profesor. Cuando la red de profesores no estaba capacitada, la destilación falló por completo, ya que los resultados no contenían ninguna señal significativa. La orientación, por el contrario, aún produjo importantes mejoras porque aprovecha las representaciones internas en área de las predicciones finales. Este resultado subraya una idea esencia: las redes no capacitadas ya codifican valiosos sesgos arquitectónicos que pueden dirigir a otras redes con destino a un estudios efectivo.
Más allá de los resultados experimentales, los hallazgos tienen amplias implicaciones para comprender la inmueble de las redes neuronales. Los investigadores sugieren que el éxito (o el fracaso) a menudo depende menos de datos específicos de la tarea y más de la posición de la red en el espacio de parámetros. Al alinearse con una red de guías, es posible separar las contribuciones de los prejuicios arquitectónicos de las del conocimiento aprendido. Esto permite a los científicos identificar qué características del diseño de una red apoyan el estudios efectivo y qué desafíos surgen simplemente de una inicialización deficiente.
La orientación además abre nuevas vías para estudiar las relaciones entre arquitecturas. Al contar la facilidad con la que una red puede dirigir a otra, los investigadores pueden sondear las distancias entre diseños funcionales y reexaminar las teorías de optimización de redes neuronales. Donado que el método se fundamento en la similitud representacional, puede revelar estructuras previamente ocultas en el diseño de la red, ayudando a identificar qué componentes contribuyen más al estudios y cuáles no.
Salvando a los desesperados
En última instancia, el trabajo muestra que las llamadas redes “no entrenables” no están inherentemente condenadas al fracaso. Con orientación, se pueden eliminar los modos de equivocación, evitar el sobreajuste y alinear arquitecturas que antiguamente eran ineficaces con los estándares de rendimiento modernos. El equipo de CSAIL planea explorar qué medios arquitectónicos son los más responsables de estas mejoras y cómo estos conocimientos pueden influir en el diseño de la red futura. Al revelar el potencial oculto incluso de las redes más obstinadas, la orientación proporciona una nueva y poderosa aparejo para comprender (y, con suerte, dar forma) a los fundamentos del estudios involuntario.
«En genérico, se supone que las diferentes arquitecturas de redes neuronales tienen fortalezas y debilidades particulares», dice Leyla Isik, profesora asistente de ciencia cognitiva de la Universidad Johns Hopkins, que no participó en la investigación. «Esta interesante investigación muestra que un tipo de red puede heredar las ventajas de otra inmueble, sin perder sus capacidades originales. Sorprendentemente, los autores muestran que esto se puede hacer utilizando redes ‘timonel’ pequeñas y no entrenadas. Este artículo presenta una forma novedosa y concreta de unir diferentes sesgos inductivos en las redes neuronales, lo cual es fundamental para desarrollar una IA más capaz y alineada con los humanos».
Subramaniam escribió el artículo con colegas de CSAIL: el investigador estudiado Brian Cheung; Estudiante de doctorado David Mayo ’18, MEng ’19; El investigador asociado Colin Conwell; los investigadores principales Boris Katz, estudiado investigador principal de CSAIL, y Tomaso Poggio, profesor de ciencias cognitivas y del cerebro del MIT; y el ex investigador estudiado del CSAIL Andrei Barbu. Su trabajo fue apoyado, en parte, por el Centro para Cerebros, Mentes y Máquinas, la Fundación Doméstico de Ciencias, la Iniciativa de Aplicaciones de Estudios Obligatorio CSAIL del MIT, el Laboratorio de IA Watson del MIT-IBM, la Agencia de Proyectos de Investigación Vanguardia de Defensa de EE. UU. (DARPA), el Acelerador de Inteligencia Industrial del Unidad de la Fuerza Aérea de EE. UU. y la Oficina de Investigación Científica de la Fuerza Aérea de EE. UU.
Su trabajo fue presentado recientemente en la Conferencia y Taller sobre Sistemas de Procesamiento de Información Neural (NeurIPS).