Athrun Data Intelligence

Investigadores de NVIDIA, CMU y la Universidad de Washington lanzaron ‘FlashInfer’: una biblioteca de kernel que proporciona implementaciones de kernel de última reproducción para inferencia y servicio de LLM

Los modelos de estilo grandes (LLM) se han convertido en una parte integral de las aplicaciones modernas de inteligencia fabricado, impulsando herramientas como chatbots y generadores de código. Sin requisa, la longevo dependencia de estos modelos ha revelado ineficiencias críticas en los procesos de inferencia. Los mecanismos de atención, como FlashAttention y SparseAttention, a menudo […]

Este documento de inteligencia industrial de Amazon presenta DF-GNN: un ámbito dinámico de fusión de kernel para acelerar redes neuronales de gráficos de atención en GPU

Las redes neuronales gráficas (GNN) son un campo que avanza rápidamente en el formación maquinal, diseñado específicamente para analizar datos estructurados gráficamente que representan entidades y sus relaciones. Estas redes se han utilizado ampliamente en observación de redes sociales, sistemas de recomendación y aplicaciones de interpretación de datos moleculares. Un subconjunto de GNN, las redes […]