
La mayoría de los idiomas utilizan la posición de las palabras y la estructura de las oraciones para extraer el significado. Por ejemplo, “El sagaz se sentó sobre la caja” no es lo mismo que “La caja estaba sobre el sagaz”. A lo extenso de un texto extenso, como un documento financiero o una novelística, es probable que la sintaxis de estas palabras evolucione.
De guisa similar, una persona podría estar rastreando variables en un fragmento de código o siguiendo instrucciones que tienen acciones condicionales. Estos son ejemplos de cambios de estado y razonamiento secuencial en los que esperamos que los sistemas de inteligencia sintético de última gestación destaquen; sin retención, el mecanismo de atención de vanguardia existente adentro de los transformadores (la edificio utilizada principalmente en los modelos de habla amplio (LLM) para determinar la importancia de las palabras) tiene limitaciones teóricas y empíricas cuando se prostitución de tales capacidades.
Un mecanismo de atención permite a un LLM revisar partes anteriores de una consulta o documento y, según su capacitación, determinar qué detalles y palabras son más importantes; sin retención, este mecanismo por sí solo no comprende el orden de las palabras. «Ve» todas las palabras de entrada, además conocidas como tokens, al mismo tiempo y las maneja en el orden en que se presentan, por lo que los investigadores han desarrollado técnicas para codificar la información de posición. Esto es secreto para dominios muy estructurados, como el habla. Pero el método de codificación de posición predominante, llamado codificación de posición rotativa (RoPE), solo tiene en cuenta la distancia relativa entre tokens en una secuencia y es independiente de los datos de entrada. Esto significa que, por ejemplo, las palabras que están separadas por cuatro posiciones, como «sagaz» y «caja» en el ejemplo aludido, recibirán la misma rotación matemática fija específica para esa distancia relativa.
Ahora, una investigación dirigida por el MIT y el MIT-IBM Watson AI Lab ha producido una técnica de codificación conocida como «PaTH Attention» que hace que la información posicional sea adaptativa y consciente del contexto en superficie de estática, como ocurre con RoPE.
«Los transformadores permiten un modelado preciso y escalable de muchos dominios, pero tienen estas limitaciones con respecto al seguimiento de estado, una clase de fenómenos que se cree que subyacen a capacidades importantes que queremos en nuestros sistemas de IA. Entonces, la pregunta importante es: ¿Cómo podemos persistir la escalabilidad y eficiencia de los transformadores, al tiempo que permitimos el seguimiento de estado?» dice el autor principal del artículo, Yoon Kim, profesor asociado en el Sección de Ingeniería Eléctrica y Ciencias de la Computación (EECS), miembro del Laboratorio de Ciencias de la Computación e Inteligencia Fabricado (CSAIL) e investigador del Laboratorio de IA Watson del MIT-IBM.
A principios de este mes se presentó un nuevo artículo sobre este trabajo en la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS). Los coautores de Kim incluyen al autor principal Songlin Yang, estudiante licenciado de EECS y ex pasante del Software de Verano Watson AI Lab del MIT-IBM; Kaiyue Wen de la Universidad de Stanford; Liliang Ren de Microsoft; y Yikang Shen, Shawn Tan, Mayank Mishra y Rameswar Panda de IBM Research y el MIT-IBM Watson AI Lab.
Camino en dirección a la comprensión
En superficie de asignar a cada palabra una rotación fija basada en la distancia relativa entre tokens, como lo hace RoPE, PaTH Attention es flexible y prostitución las palabras intermedias como una ruta compuesta de pequeñas transformaciones dependientes de los datos. Cada transformación, basada en una operación matemática emplazamiento consejo de Householder, actúa como un pequeño espejo que se ajusta según el contenido de cada ficha por la que pasa. Cada paso de una secuencia puede influir en cómo el maniquí interpreta la información más delante. El objeto acumulativo permite al sistema modelar cómo cambia el significado a lo extenso del camino entre las palabras, no solo qué tan separadas están. Este enfoque permite a los transformadores realizar un seguimiento de cómo las entidades y relaciones cambian con el tiempo, dándole una sensación de «memoria posicional». Piense en esto como caminar un camino mientras experimenta su entorno y cómo le afecta. Adicionalmente, el equipo además desarrolló un operación capaz en hardware para calcular de guisa más capaz las puntuaciones de atención entre cada par de tokens, de modo que la transformación matemática acumulativa de PaTH Attention se comprima y se divida en cálculos más pequeños para que sea compatible con el procesamiento rápido en GPU.
Luego, los investigadores del MIT-IBM exploraron el desempeño de PaTH Attention en tareas sintéticas y del mundo efectivo, incluido el razonamiento, puntos de narración de contexto prolongado y capacitación LLM completa para ver si mejoraba la capacidad de un maniquí para rastrear información a lo extenso del tiempo. El equipo probó su capacidad para seguir el comando de «escritura» más flamante a pesar de muchos pasos que distraen y pruebas de recuperación de varios pasos, tareas que son difíciles para los métodos de codificación posicional unificado como RoPE. Los investigadores además capacitaron a LLM de tamaño mediano y los compararon con otros métodos. PaTH Attention mejoró la perplejidad y superó a otros métodos en puntos de narración de razonamiento en los que no estaba entrenado. Además evaluaron la recuperación, el razonamiento y la estabilidad con entradas de decenas de miles de tokens. PaTH Attention demostró consistentemente ser capaz de tener conciencia del contenido.
«Descubrimos que tanto en tareas de dictamen diseñadas para probar las limitaciones de los transformadores como en tareas de modelado de lenguajes del mundo efectivo, nuestro nuevo enfoque pudo pasar los mecanismos de atención existentes, manteniendo su eficiencia», dice Kim. Adicionalmente, «me encantaría ver si estos tipos de codificaciones de posición dependientes de datos, como PATH, mejoran el rendimiento de los transformadores en dominios estructurados como la biología, en (el examen) de proteínas o ADN».
Pensar en amplio y más eficientemente
Luego, los investigadores investigaron cómo funcionaría el mecanismo de atención PaTH si imitara de guisa más similar la cognición humana, donde ignoramos información antigua o menos relevante al tomar decisiones. Para hacer esto, combinaron PaTH Attention con otro esquema de codificación de posición conocido como Forgetting Transformer (FoX), que permite a los modelos «olvidar» selectivamente. El sistema PaTH-FoX resultante agrega una forma de sujetar el peso de la información de una guisa dependiente de los datos, logrando resultados sólidos en el razonamiento, la comprensión de contextos prolongados y los puntos de narración del modelado del habla. De esta guisa, PaTH Attention amplía el poder expresivo de las arquitecturas transformadoras.
Kim dice que una investigación como ésta es parte de un esfuerzo más amplio para desarrollar el “próximo gran avance” en IA. Explica que un importante impulsor de las revoluciones del formación profundo y de la IA generativa ha sido la creación de “bloques de construcción de propósito genérico que se pueden aplicar a dominios amplios”, como “capas de convolución, capas RNN (red neuronal recurrente)” y, más recientemente, transformadores. De cara al futuro, Kim señala que consideraciones como la precisión, la vehemencia, la flexibilidad y la escalabilidad del hardware han sido y serán esenciales. Como él dice, «la empresa central de la investigación en edificio moderna es tratar de encontrar estos nuevos primitivos que mantengan o mejoren la vehemencia, y al mismo tiempo sean escalables».
Este trabajo fue apoyado, en parte, por el MIT-IBM Watson AI Lab y el software AI2050 de Schmidt Sciences.