Athrun Data Intelligence


Los LLM están impulsando importantes avances en investigación y explicación en la ahora. Se ha observado un cambio significativo en los objetivos y metodologías de investigación en dirección a un enfoque centrado en el LLM. Sin requisa, están asociados con altos gastos, lo que hace que los LLM para su utilización a gran escalera sean inaccesibles para muchos. Por lo tanto, es un desafío importante dominar la latencia de las operaciones, especialmente en aplicaciones dinámicas que exigen capacidad de respuesta.

La elegancia KV se utiliza para la decodificación autorregresiva en LLM. Almacena pares clave-valor en atención de múltiples cabezas durante la escalón de inferencia previa al llenado. Durante la etapa de decodificación, se agregan nuevos pares de KV a la memoria. La elegancia KV almacena las activaciones de títulos y claves intermedias en el mecanismo de atención, lo que reduce la complejidad del orden cuadrático al directo. La elegancia KV permite mejorar la eficiencia, pero crece linealmente con el tamaño del parte, la distancia de la secuencia y el tamaño del maniquí. El creciente tamaño de la memoria de la elegancia KV excede la capacidad de manejo de las GPU y transferirla a la CPU introduce varios cuellos de botella, lo que aumenta la latencia y reduce el rendimiento.

Las interfaces PCIe se convierten en un coeficiente limitante, especialmente cuando se transfiere el elegancia de la CPU a la GPU para realizar cálculos. Las interfaces PCIe lentas pueden provocar que la latencia exceda los niveles normales en un orden de magnitud, lo que genera un tiempo de inactividad sustancial de la GPU.

Trabajos anteriores intentaron mitigar el problema del rendimiento paulatino de PCIe. Aún así, estos enfoques a menudo fallan oportuno a que la transferencia de datos y los tiempos de cálculo de la GPU no coinciden, particularmente con lotes y contextos de gran tamaño. Otros dependían de los fortuna de la CPU, lo que nuevamente se convirtió en un coeficiente limitante. Este artículo analiza un enfoque novedoso para la optimización de PCIe y GPU.

Investigadores de la Universidad del Sur de California proponen un método valioso de inferencia LLM con agradecimiento de E/S de CPU-GPU para una utilización optimizada de PCIe. Aprovecha el recálculo parcial de la elegancia KV y la superposición asincrónica para asaltar el cuello de botella del sistema al cargar grandes cachés KV. Su proceso implica transferir segmentos de activación más pequeños del elegancia a la GPU en circunstancia de transferir todo el elegancia KV. Luego, la GPU reconstruye toda la memoria elegancia a partir de estos bits de activación más pequeños. La esencia está en calcular puntuaciones de atención que garanticen una pérdida mínima de información.

Los autores proponen un método totalmente automatizado para determinar las divisiones de recálculo y comunicación. Este trabajo consta de tres módulos para minimizar la latencia de GPU:

  1. Módulo de perfilador: recopila información del hardware del sistema, como el pancho de manada PCIe y la velocidad de procesamiento de la GPU.
  2. Módulo Programador: Formula el problema como una tarea de programación directo para determinar el punto de división KV perfecto utilizando información del hardware y la configuración del becario. El objetivo es maximizar la superposición entre los procesos de computación y comunicación.
  3. Módulo de tiempo de ejecución: coordina la transferencia de datos entre los dos dispositivos y gestiona las asignaciones de memoria.

El Módulo Programadorque es responsable de encontrar la división KV óptima, funciona de dos maneras:

Programación fila por fila: Reduce la latencia con un plan de ejecución fila por fila. Aquí, la GPU comienza a recobrar la elegancia KV mientras las activaciones restantes se cargan de forma asincrónica. Programación columna por columna: Maximiza el rendimiento y admite inferencias significativas sobre el tamaño de los lotes al reutilizar los pesos del maniquí en todos los lotes. Superpone la transmisión de elegancia KV y activaciones con el cálculo de MHA (atención de múltiples cabezas) en múltiples lotes en circunstancia de procesar cada capa secuencialmente en un parte. Por otra parte, utilizando una logística de paralelismo de comunicación de seis procesos, el Módulo de tiempo de ejecución permite el cálculo simultáneo de GPU y la comunicación CPU-GPU.

Los autores probaron el ámbito propuesto para una inferencia LLM valioso utilizando una GPU NVIDIA A100 conectada a una CPU a través de una interfaz PCIe 4.0 x16. Se realizaron experimentos con dos objetivos para evaluar el rendimiento del ámbito:

  • Carga de trabajo orientada a la latencia: El método propuesto superó las líneas de saco y redujo la latencia en un 35,8 %.
  • Carga de trabajo orientada al rendimiento: El método logró hasta un 29% de mejoría en relación con la dirección de saco.

Conclusión:

El método de inferencia LLM con agradecimiento de E/S de CPU-GPU reduce de modo valioso la latencia al tiempo que aumenta el rendimiento en la inferencia LLM. Aprovecha el recálculo parcial de la elegancia KV y lo superpone con la transmisión de datos para minimizar el tiempo de inactividad de la GPU y mejorar la eficiencia.


Probar el Papel. Todo el crédito por esta investigación va a los investigadores de este tesina. Por otra parte, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 (Asóciese con nosotros): ‘Próxima revista/referencia: IA de código rajado en producción’


Adeeba Alam Ansari actualmente está cursando su doble titulación en el Instituto Indio de Tecnología (IIT) Kharagpur, donde obtuvo una carrera en Ingeniería Industrial y una industria en Ingeniería Financiera. Con un gran interés en el formación maquinal y la inteligencia fabricado, es una lectora ávida y una persona curiosa. Adeeba cree firmemente en el poder de la tecnología para empoderar a la sociedad y promover el bienestar a través de soluciones innovadoras impulsadas por la empatía y una profunda comprensión de los desafíos del mundo actual.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *