Athrun Data Intelligence


Los modelos de estilo espacioso (LLM) basados ​​en arquitecturas Transformer han revolucionado el modelado de secuencias a través de sus notables capacidades de educación en contexto y su capacidad de progresar de forma efectiva. Estos modelos dependen de módulos de atención que funcionan como bloques de memoria asociativa, almacenando y recuperando asociaciones clave-valor. Sin confiscación, este mecanismo tiene una obstáculo importante: los requisitos computacionales crecen cuadráticamente con la largo de la entrada. Esta complejidad cuadrática tanto en el tiempo como en la memoria plantea desafíos sustanciales cuando se comercio de aplicaciones del mundo existente, como el modelado de lenguajes, la comprensión de videos y el pronóstico de series de tiempo a generoso plazo, donde las ventanas de contexto pueden volverse extremadamente grandes, lo que limita la aplicabilidad praxis de Transformers en estos dominios cruciales.

Los investigadores han explorado múltiples enfoques para enfrentarse los desafíos computacionales de los transformadores, surgiendo tres categorías principales. En primer espacio, los modelos lineales recurrentes han llamado la atención por su entrenamiento e inferencia eficientes, evolucionando desde modelos de primera engendramiento como RetNet y RWKV con matrices de transición independientes de los datos hasta arquitecturas de segunda engendramiento que incorporan mecanismos de activación como Griffin y RWKV6. A continuación, las arquitecturas basadas en Transformer han intentado optimizar el mecanismo de atención a través de implementaciones con inspección de E/S, matrices de atención dispersas y enfoques basados ​​en kernel. Por zaguero, los modelos de memoria aumentada se centran en diseños de memoria contextual y persistente. Sin confiscación, estas soluciones a menudo enfrentan limitaciones como desbordamiento de memoria, restricciones de tamaño fijo, etc.

Los investigadores de Google han propuesto un novedoso módulo neuronal de memoria a generoso plazo diseñado para mejorar los mecanismos de atención al permitir el entrada al contexto histórico manteniendo al mismo tiempo un entrenamiento y una inferencia eficientes. La innovación radica en la creación de un sistema complementario en el que la atención sirve como memoria a corto plazo para un modelado preciso de la dependencia adentro de contextos limitados, aunque el componente de la memoria neuronal funciona como almacenamiento a generoso plazo para información persistente. Este enfoque de memoria dual forma la almohadilla de una nueva clan arquitectónica emplazamiento Titans, que viene en tres variantes, cada una de las cuales ofrece diferentes estrategias para la integración de la memoria. El sistema se muestra particularmente prometedor en el manejo de contextos extremadamente largos, procesando con éxito secuencias de más de 2 millones de tokens.

La edificación Titans presenta un diseño enredado de tres partes para integrar las capacidades de memoria de forma efectiva. El sistema consta de tres hipercabezales distintos: un módulo central que utiliza atención con un tamaño de ventana prohibido para la memoria a corto plazo y el procesamiento de datos primarios, una rama de memoria a generoso plazo que implementa el módulo de memoria neuronal para acumular información histórica y un componente de memoria persistente. que contiene parámetros que se pueden instruirse e independientes de los datos. La edificación se implementa con varias optimizaciones técnicas, incluidas conexiones residuales, funciones de activación SiLU y normalización de norma ℓ2 para consultas y claves. Por otra parte, utiliza capas de convolución 1D separables en profundidad posteriormente de las proyecciones de consultas, claves y títulos, cercano con mecanismos de normalización y activación.

Los resultados experimentales demuestran el rendimiento superior de los Titans en múltiples configuraciones. Las tres variantes (MAC, MAG y MAL) superan a los modelos híbridos como Samba y Gated DeltaNet-H2, y el módulo de memoria neuronal demuestra ser el diferenciador esencia. Entre las variantes, MAC y MAG muestran un sólido rendimiento, especialmente en el manejo de dependencias más largas, superando las combinaciones de estilo MAL comúnmente utilizadas en los modelos híbridos existentes. En tareas de alfiler en un pajar (NIAH), Titans supera las líneas de almohadilla en secuencias que van desde 2K hasta 16K tokens. Este rendimiento superior se debe a tres ventajas esencia: gobierno eficaz de la memoria, capacidades profundas de memoria no listado y funcionalidad eficaz de borrado de memoria.

En conclusión, investigadores de Google Research introdujeron un renovador sistema neuronal de memoria a generoso plazo que funciona como un metaaprendizaje en contexto, capaz de memorizar de forma adaptativa durante el tiempo de prueba. Este maniquí recurrente es más eficaz a la hora de identificar y acumular patrones sorprendentes en el flujo de datos y ofrece una gobierno de la memoria más compleja que los métodos tradicionales. El sistema ha demostrado su superioridad en el manejo de contextos extensos mediante la implementación de tres variantes distintas en la clan de edificación Titans. La capacidad de procesar eficazmente secuencias que superan los 2 millones de tokens manteniendo una precisión superior marca un avance significativo en el campo del modelado de secuencias y abre nuevas posibilidades para manejar tareas cada vez más complejas.


Probar el Papel. Todo el crédito por esta investigación va a los investigadores de este esquema. Por otra parte, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Gren lo alto. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 Asesorar plataforma de código hendido: Parlant es un ámbito que transforma la forma en que los agentes de IA toman decisiones en escenarios de cara al cliente. (Promovido)


Sajjad Ansari es un estudiante de zaguero año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo existente. Su objetivo es articular conceptos complejos de IA de una forma clara y accesible.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *