Los modelos de estilo grandes (LLM) se han convertido en una parte integral de las aplicaciones modernas de inteligencia fabricado, impulsando herramientas como chatbots y generadores de código. Sin requisa, la longevo dependencia de estos modelos ha revelado ineficiencias críticas en los procesos de inferencia. Los mecanismos de atención, como FlashAttention y SparseAttention, a menudo tienen problemas con diversas cargas de trabajo, patrones de entrada dinámicos y limitaciones de medios de GPU. Estos desafíos, yuxtapuesto con la ingreso latencia y los cuellos de botella de la memoria, subrayan la privación de una decisión más apto y flexible para recibir la inferencia LLM escalable y receptiva.
Investigadores de la Universidad de Washington, NVIDIA, Perplexity AI y la Universidad Carnegie Mellon han desarrollado FlashInfer, una biblioteca de IA y un dinamo de kernel diseñado para la inferencia LLM. FlashInfer proporciona implementaciones de kernel de GPU de parada rendimiento para varios mecanismos de atención, incluidos FlashAttention, SparseAttention, PageAttention y muestreo. Su diseño prioriza la flexibilidad y la eficiencia, abordando desafíos esencia en el servicio de inferencia LLM.
FlashInfer incorpora un formato de bloques dispersos para manejar el almacenamiento de personalidad KV heterogéneo de modo apto y emplea una programación dinámica con seguridad de carga para optimizar el uso de la GPU. Con la integración en marcos de servicio LLM populares como SGLang, vLLM y MLC-Engine, FlashInfer ofrece un enfoque práctico y adaptable para mejorar el rendimiento de la inferencia.

Características técnicas y beneficios
FlashInfer introduce varias innovaciones técnicas:
- Núcleos de atención integral: FlashInfer admite una variedad de mecanismos de atención, que incluyen precompletar, decodificar y pegar atención, lo que garantiza la compatibilidad con varios formatos de personalidad KV. Esta adaptabilidad progreso el rendimiento tanto en escenarios de solicitud única como de servicio por lotes.
- Decodificación optimizada de prefijo compartido: A través de atención de consultas agrupadas (GQA) y atención de cuerda fusionada (incrustación de posición giratoria), FlashInfer logra aceleraciones significativas, como una progreso de 31 veces con respecto a la implementación de atención de página de vLLM para una decodificación rápida y prolongada.
- Programación dinámica con seguridad de carga: El programador de FlashInfer se adapta dinámicamente a los cambios de entrada, lo que reduce el tiempo de inactividad de la GPU y garantiza una utilización apto. Su compatibilidad con CUDA Graphs progreso aún más su aplicabilidad en entornos de producción.
- Compilación JIT personalizable: FlashInfer permite a los usuarios determinar y coleccionar variantes de atención personalizadas en núcleos de parada rendimiento. Esta característica se adapta a casos de uso especializados, como atención de ventanas corredizas o transformaciones de RoPE.

Información sobre el rendimiento
FlashInfer demuestra mejoras de rendimiento notables en varios puntos de relato:
- Reducción de latencia: La biblioteca reduce la latencia entre tokens entre un 29% y un 69% en comparación con soluciones existentes como Triton. Estos beneficios son particularmente evidentes en escenarios que implican inferencia de contexto prolongado y reproducción paralela.
- Mejoras de rendimiento: En las GPU NVIDIA H100, FlashInfer logra una celeridad del 13 al 17 % para tareas de reproducción paralela, lo que destaca su capacidad para aplicaciones de ingreso demanda.
- Utilización mejorada de GPU: El programador dinámico de FlashInfer y los núcleos optimizados mejoran el encantado de partida y la utilización de FLOP, particularmente en escenarios con longitudes de secuencia sesgadas o uniformes.
FlashInfer asimismo destaca en tareas de decodificación paralela, con formatos componibles que permiten reducciones significativas en el tiempo hasta el primer token (TTFT). Por ejemplo, las pruebas en el maniquí Lumbre 3.1 (parámetros 70B) muestran una disminución de hasta un 22,86% en TTFT en configuraciones específicas.

Conclusión
FlashInfer ofrece una decisión habilidad y apto a los desafíos de la inferencia LLM, proporcionando mejoras significativas en el rendimiento y la utilización de medios. Su diseño flexible y sus capacidades de integración lo convierten en una utensilio valiosa para avanzar en los marcos de servicio de LLM. Al atracar ineficiencias esencia y ofrecer soluciones técnicas sólidas, FlashInfer allana el camino para aplicaciones de IA más accesibles y escalables. Como tesina de código descubierto, invita a una longevo colaboración e innovación por parte de la comunidad de investigación, garantizando la progreso continua y la amoldamiento a los desafíos emergentes en la infraestructura de IA.
Confirmar el Papel y GitHub Página. Todo el crédito por esta investigación va a los investigadores de este tesina. Por otra parte, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluación–Únase a este seminario web para obtener información habilidad para mejorar el rendimiento y la precisión del maniquí LLM y, al mismo tiempo, proteger la privacidad de los datos..
Asif Razzaq es el director ejecutor de Marktechpost Media Inc.. Como patrón e ingeniero soñador, Asif está comprometido a exprimir el potencial de la inteligencia fabricado para el admisiblemente social. Su esfuerzo más fresco es el extensión de una plataforma de medios de inteligencia fabricado, Marktechpost, que se destaca por su cobertura en profundidad del educación automotriz y las noticiero sobre educación profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el notorio.