Los modelos de lenguajes grandes (LLM) están en el centro de las transformaciones de la IA generativa, impulsando soluciones en todas las industrias, desde una atención al cliente valioso hasta un investigación de datos simplificado. Las empresas necesitan una inferencia eficaz, rentable y de desestimación latencia para progresar sus soluciones de IA de concepción. Sin confiscación, la complejidad y las demandas computacionales de la inferencia LLM presentan un desafío. Los costos de inferencia siguen siendo prohibitivos para muchas cargas de trabajo. Ahí es donde SwiftKV y entra Snowflake Cortex AI.
Optimizaciones SwiftKV desarrolladas y integrado en vLLM por el Investigación de IA de copo de cocaína El equipo prosperidad significativamente el rendimiento de inferencia de LLM para acortar el costo. Los modelos Flama 3.3 70B y Flama 3.1 405B optimizados para SwiftKV, denominados Snowflake-LLama-3.3-70B y Snowflake-Flama-3.1-405B, ahora están disponibles para inferencia sin servidor en Cortex AI con una reducción del costo de inferencia de hasta un 75 %. en comparación con los modelos básicos de Meta Flama en Cortex AI que no están optimizados para SwiftKV. Los clientes pueden alcanzar a estos en Cortex AI a través de función completa. Para continuar permitiendo que las organizaciones lleven a producción sus aplicaciones de IA de forma valioso y rentable, estamos considerando sobrellevar las mismas optimizaciones a otras familias de modelos disponibles en Snowflake Cortex AI.
Descripción militar de SwiftKV
Repasemos cómo SwiftKV logra este rendimiento. Los casos de uso empresarial a menudo implican solicitudes de entrada largas con resultados mínimos (casi 10:1). Esto implica que la mayoría de los medios computacionales se consumen durante la entrada (o etapa de prellenado) de la concepción de elegancia de títulos secreto (KV). SwiftKV reutiliza los estados ocultos de capas de transformadores anteriores para ocasionar un elegancia KV para capas posteriores. Esto elimina cálculos redundantes en la etapa de prellenado, lo que reduce significativamente la sobrecarga computacional. Como resultado, SwiftKV logra una reducción de hasta un 50 % en el cálculo previo al llenado y, al mismo tiempo, mantiene los niveles de precisión que exigen las aplicaciones empresariales. Esta optimización ayuda a mejorar el rendimiento y ofrecer una pila de inferencia más rentable.
SwiftKV logra un viejo rendimiento con una pérdida de precisión mínima (consulte las Tablas 1 y 2). Esto se hace combinando el recableado del maniquí que preserva los parámetros con un ajuste superficial para minimizar la probabilidad de que se pierda conocimiento en el proceso. Utilizando la autodestilación, el maniquí recableado replica el comportamiento innovador, logrando un rendimiento casi idéntico. La pérdida de precisión se limita a aproximadamente un punto en el promedio de múltiples puntos de narración (ver Tablas 1 y 2). Este enfoque quirúrgico de la optimización garantiza que las empresas puedan beneficiarse de las eficiencias computacionales de SwiftKV sin comprometer la calidad de los resultados de su concepción de IA.
Según nuestra evaluación comparativa, SwiftKV supera consistentemente las implementaciones de elegancia KV tipificado y los métodos tradicionales de compresión de elegancia KV en casos de uso de producción del mundo auténtico. Por ejemplo, en entornos de producción que utilizan GPU de suscripción escala como NVIDIA H100, SwiftKV logra un rendimiento hasta dos veces viejo (consulte la Figura 1) para modelos como Flama-3.3-70B. Estas mejoras se traducen en una finalización más rápida del trabajo, una beocio latencia para las aplicaciones interactivas (consulte la Tabla 3) y ahorros sustanciales de costos para las empresas que operan a escalera.
Rendimiento por caso de uso
SwiftKV permite optimizar el rendimiento en una variedad de casos de uso. Para tareas de inferencia a gran escalera, como el procesamiento de texto no estructurado (por ejemplo, sumario, traducción o investigación de sentimientos), SwiftKV prosperidad el rendimiento combinado (consulte la Figura 1), lo que permite a las empresas procesar más datos en menos tiempo. En escenarios sensibles a la latencia, como chatbots o copilotos de IA, SwiftKV reduce el tiempo hasta el primer token hasta en un 50 % (consulte la Tabla 4), lo que genera experiencias de becario más rápidas y con viejo capacidad de respuesta. Encima, SwiftKV se integra perfectamente con vLLM sin cambios importantes para permitir una amplia escala de técnicas de optimización complementarias, incluida la optimización de la atención y la decodificación especulativa. Esta integración convierte a SwiftKV en una decisión versátil y experiencia para cargas de trabajo empresariales.
SwiftKV en Snowflake Cortex AI
La inmersión de SwiftKV llega en un momento crítico para las empresas que adoptan tecnologías LLM. Con el crecimiento de los casos de uso, las organizaciones necesitan soluciones que brinden ganancias de rendimiento inmediatas y escalabilidad a abundante plazo. Al encarar directamente los cuellos de botella computacionales de la inferencia, SwiftKV ofrece un nuevo camino a seguir, permitiendo a las empresas desbloquear todo el potencial de sus implementaciones de producción de LLM. Estamos entusiasmados de ofrecer la innovación SwiftKV en los modelos Flama con el dispersión de Snowflake-Flama-3.3-70B y Snowflake-Flama-3.1-405B con inferencia a una fracción del costo (75% y 68% menos de costo, respectivamente). . Los modelos Flama derivados de Snowflake son un punto de inflexión para las empresas que enfrentan los desafíos de progresar la innovación en IA en sus organizaciones de una forma sencillo y rentable.
Código campechano SwiftKV
Primeros pasos: ejecute su propio entrenamiento SwiftKV siguiendo estoinicio rápido.
Conveniente a que SwiftKV es completamente de código campechano, asimismo puedes implementarlo por tu cuenta con puntos de control del maniquí en Hugging Face y inferencia optimizada en vLLM. Puedes ilustrarse más en nuestro Publicación del blog de investigación de SwiftKV.
Además estamos construyendo tuberías de destilación de conocimientos a través de Entorno de formación en el Ártico código campechano para que pueda crear sus propios modelos SwiftKV para sus micción empresariales o académicas. ArcticTraining Framework es una poderosa biblioteca posterior a la capacitación para optimizar la investigación y el expansión. Está diseñado para simplificar la investigación y crear prototipos de nuevas ideas para la posformación sin hallarse abrumado por complejas capas de inducción o generalizaciones. Ofrece un proceso de concepción de datos sintéticos de suscripción calidad y sencillo de usar y un entorno de capacitación adaptable y escalable para la innovación algorítmica, así como una fórmula serie para usar para entrenar sus propios modelos SwiftKV.
A medida que la innovación en la concepción de IA continúa expandiéndose en todas las industrias y casos de uso, las optimizaciones como SwiftKV son fundamentales para sobrellevar la IA a los usuarios finales de una forma rentable y eficaz. Ahora arreglado como código campechano, SwiftKV hace que la IA de concepción empresarial sea más rápida y menos costosa de ejecutar. Yendo un paso más allá, asimismo estamos lanzando modelos Flama optimizados con SwiftKV en Snowflake Cortex AI. Con los modelos Snowflake-Flama-3.3-70B y Snowflake-Flama-3.1-405B, los clientes ven costos de inferencia hasta un 75% más bajos. Les estamos ayudando a crear soluciones de IA de concepción que sean rentables y de stop rendimiento.