La coordinación de sistemas interactivos complicados, ya sea los diferentes modos de transporte en una ciudad o los diversos componentes que deben trabajar juntos para hacer un androide efectivo y válido, es un tema cada vez más importante para que los diseñadores de software las aborden. Ahora, los investigadores del MIT han desarrollado una forma completamente nueva de invadir estos problemas complejos, utilizando diagramas simples como una útil para revelar mejores enfoques para la optimización de software en modelos de formación profundo.
Dicen que el nuevo método hace que invadir estas tareas complejas sea tan simple que se puede ceñir a un dibujo que junto a en la parte posterior de una servilleta.
El nuevo enfoque se describe en la revista Transacciones de investigación de formación inevitableen un artículo del estudiante doctoral entrante, Vincent Abbott y el profesor Gioele Zardini del Laboratorio del MIT para Sistemas de Información y Valentía (LIDS).
«Diseñamos un nuevo idioma para balbucir sobre estos nuevos sistemas», dice Zardini. Este nuevo «habla» basado en el diagrama se sostén en gran medida en poco llamado teoría de la categoría, explica.
Todo tiene que ver con el diseño de la obra subyacente de los algoritmos informáticos, los programas que en existencia terminarán detectando y controlando las diferentes partes del sistema que se optimizan. «Los componentes son diferentes piezas de un cálculo, y tienen que balbucir entre sí, trocar información, pero todavía representan el uso de energía, el consumo de memoria, etc.». Dichas optimizaciones son notoriamente difíciles porque cada cambio en una parte del sistema puede causar cambios en otras partes, lo que puede afectar aún más otras partes, etc.
Los investigadores decidieron centrarse en la clase particular de algoritmos de formación profundo, que actualmente son un tema candente de investigación. El formación profundo es la colchoneta de los grandes modelos de inteligencia sintético, incluidos modelos de idiomas grandes como ChatGPT y modelos de gestación de imágenes como MidJourney. Estos modelos manipulan datos mediante una serie «profunda» de multiplicaciones de matriz intercaladas con otras operaciones. Los números internamente de las matrices son parámetros y se actualizan durante largas ejecuciones de entrenamiento, lo que permite encontrar patrones complejos. Los modelos consisten en miles de millones de parámetros, lo que hace que el cálculo sea costoso y, por lo tanto, el uso mejorado de los capital y la optimización son invaluables.
Los diagramas pueden representar detalles de las operaciones paralelizadas en las que consisten los modelos de formación profundo, revelando las relaciones entre los algoritmos y el hardware de la Mecanismo de Procesamiento de Gráficos (GPU) paralelo en el que se ejecutan, suministradas por empresas como Nvidia. «Estoy muy entusiasmado con esto», dice Zardini, porque «parece que hemos antagónico un habla que describe muy adecuadamente los algoritmos de formación profundo, que representa explícitamente todas las cosas importantes, que son los operadores que usa», por ejemplo, el consumo de energía, la asignación de memoria y cualquier otro parámetro que esté tratando de optimizar.
Gran parte del progreso internamente del formación profundo ha surgido de las optimizaciones de eficiencia de capital. El final maniquí Deepseek mostró que un equipo pequeño puede competir con los mejores modelos de OpenAI y otros laboratorios importantes al centrarse en la eficiencia de los capital y la relación entre el software y el hardware. Por lo normal, al derivar estas optimizaciones, dice, «la concurrencia necesita mucha prueba y error para descubrir nuevas arquitecturas». Por ejemplo, un software de optimización ampliamente utilizado llamado FlashAttion tardó más de cuatro primaveras en desarrollarse, dice. Pero con el nuevo situación que desarrollaron: «En realidad podemos invadir este problema de una guisa más formal». Y todo esto se representa visualmente en un habla descriptivo definido con precisión.
Pero los métodos que se han utilizado para encontrar estas mejoras «son muy limitadas», dice. «Creo que esto muestra que hay una brecha importante, ya que no tenemos un método sistemático formal para relacionar un cálculo con su ejecución óptima o incluso comprender positivamente cuántos capital se necesitarán para ejecutar». Pero ahora, con el nuevo método basado en el diagrama que idearon, tal sistema existe.
La teoría de la categoría, que subyace en este enfoque, es una forma de describir matemáticamente los diferentes componentes de un sistema y cómo interactúan de guisa generalizada y abstracta. Se pueden relacionar diferentes perspectivas. Por ejemplo, las fórmulas matemáticas pueden estar relacionadas con algoritmos que los implementan y usan capital, o las descripciones de los sistemas pueden estar relacionadas con los sólidos «diagramas de cadenas monoidales». Estas visualizaciones le permiten arriesgar y examinar directamente con cómo las diferentes partes se conectan e interactúan. Lo que desarrollaron, dice, equivale a «diagramas de cuerdas sobre esteroides», que incorporan muchas más convenciones gráficas y muchas más propiedades.
«La teoría de la categoría puede considerarse como las matemáticas de la conceptualización y la composición», dice Abbott. «Cualquier sistema de composición se puede describir utilizando la teoría de la categoría, y la relación entre los sistemas de composición todavía se puede estudiar». Las reglas algebraicas que generalmente están asociadas con funciones todavía pueden representarse como diagramas, dice. «Entonces, muchos de los trucos visuales que podemos hacer con los diagramas, podemos relacionarnos con los trucos y funciones algebraicas. Entonces, crea esta correspondencia entre estos diferentes sistemas».
Como resultado, dice: «Esto resuelve un problema muy importante, que es que tenemos estos algoritmos de formación profundo, pero no se entienden claramente como modelos matemáticos». Pero al representarlos como diagramas, es posible acercarse a ellos formal y sistemáticamente, dice.
Una cosa que esto permite es una comprensión visual clara de la forma en que los procesos paralelos del mundo positivo pueden representarse mediante el procesamiento paralelo en GPU de computadoras multinúcleo. «De esta guisa», dice Abbott, «los diagramas pueden representar una función y luego revelar cómo ejecutarla de guisa óptima en una GPU».
El cálculo de «atención» es utilizado por algoritmos de formación profundo que requieren información normal y contextual, y es una escalón secreto de los bloques serializados que constituyen modelos de idiomas grandes como ChatGPT. El flashatent es una optimización que tardó primaveras en desarrollarse, pero resultó en una mejoría de seis veces en los algoritmos de velocidad de atención.
Aplicando su método al cálculo de flashatención adecuadamente establecido, Zardini dice que «aquí podemos derivarlo, fielmente, en una servilleta». Luego agrega: «Ok, tal vez sea una servilleta prócer». Pero para tolerar a casa el punto sobre cuánto puede simplificar su nuevo enfoque para tratar con estos algoritmos complejos, titularon su trabajo de investigación formal sobre el trabajo «Flashatent en una servilleta».
Este método, dice Abbott, «permite que la optimización se deriva positivamente rápidamente, en contraste con los métodos prevalecientes». Si adecuadamente inicialmente aplicaron este enfoque al cálculo de flashatención ya existente, verificando así su efectividad, «esperamos usar este idioma para automatizar la detección de mejoras», dice Zardini, quien por otra parte de ser un investigador principal en los tapas, es el Rudge y Nancy Allen Subdentador de Ingeniería Civil y Ambiental, y una arte afiliada con el Instituto para Datos, Sistemas y Sociedad.
El plan es que, en última instancia, dice, desarrollarán el software hasta el punto de que «el investigador carga su código, y con el nuevo cálculo que detecta automáticamente lo que se puede mejorar, lo que se puede optimizar y devuelve una traducción optimizada del cálculo al favorecido».
Adicionalmente de automatizar la optimización del cálculo, Zardini señala que un prospección sólido de cómo los algoritmos de formación profundo se relacionan con el uso de capital de hardware permiten un codiseño sistemático de hardware y software. Esta secante de trabajo se integra con el enfoque de Zardini en el codiseño categórico, que utiliza las herramientas de la teoría de la categoría para optimizar simultáneamente varios componentes de los sistemas de ingeniería.
Abbott dice que «todo este campo de modelos de formación profundo optimizados, creo, es asaz críticamente sin invadir, y es por eso que estos diagramas son tan emocionantes. Abren las puertas a un enfoque sistemático de este problema».
«Estoy muy impresionado por la calidad de esta investigación … El nuevo enfoque para diagramarse de algoritmos de formación profundo utilizados por este documento podría ser un paso muy significativo», dice Jeremy Howard, fundador y CEO de Respuestas. AI, que no estaba asociado con este trabajo. «Este artículo es la primera vez que he manido una notación utilizada para analizar profundamente el rendimiento de un cálculo de formación profundo en el hardware del mundo positivo … el próximo paso será ver si se pueden conseguir ganancias de rendimiento del mundo positivo».
«Esta es una cámara de investigación teórica bellamente ejecutada, que todavía apunta a una entrada accesibilidad a lectores no iniciados, un atributo raramente manido en documentos de este tipo», dice Petar Velickovic, un sabio de investigación senior de Google Deepmind y profesor de la Universidad de Cambridge, que no estaba asociado con este trabajo. Estos investigadores, dice, «son claramente excelentes comunicadores, ¡y no puedo esperar para ver qué se les ocurre a continuación!»
El nuevo habla basado en diagramas, que se publicó en secante, ya ha atraído una gran atención e interés de los desarrolladores de software. Un revisor del artículo aludido de Abbott que presenta los diagramas señaló que «los diagramas de circuito neuronal propuestos se ven muy adecuadamente desde un punto de paisaje primoroso (por lo que puedo decretar esto)». «Es una investigación técnica, ¡pero todavía es sugerente!» Zardini dice.