Athrun Data Intelligence


Los dispositivos de borde como los teléfonos inteligentes, los dispositivos IoT y los sistemas integrados procesan datos localmente, mejorando la privacidad, la reducción de la latencia y la progreso de la capacidad de respuesta, y la IA se está integrando rápidamente en estos dispositivos. Pero, implementar modelos de idiomas grandes (LLM) en estos dispositivos es difícil y enrevesado correcto a sus altas demandas computacionales y de memoria.

Los LLM son enormes en tamaño y requisitos de potencia. Con miles de millones de parámetros, exigen una capacidad significativa de memoria y procesamiento que exceda las capacidades de la mayoría de los dispositivos de borde. Mientras que las técnicas de cuantización reducen el tamaño del maniquí y el consumo de energía, el hardware convencional está optimizado para cálculos simétricos, lo que limita el soporte para la aritmética de precisión mixta. Esta descuido de soporte de hardware nativo para cálculos de bajo bits restringe la implementación en plataformas móviles e integradas.

Los métodos anteriores para ejecutar los dispositivos LLM en borde utilizan formatos de precisión de ingreso bits como FP32 y FP16, que mejoran la estabilidad numérica pero requieren una memoria y energía significativas. Algunos enfoques utilizan cuantización de bits más bajos (p. Ej., INT8 o INT4) para aminorar las demandas de posibles, pero los problemas de compatibilidad surgen con el hardware existente. Otra técnica, la desquantización, vuelve a expandir los modelos comprimidos antaño del cálculo, pero introduce latencia y niega las ganancias de eficiencia. Encima, la multiplicación de matriz tradicional (GEMM) requiere niveles de precisión uniformes, lo que hace que la optimización del rendimiento en diferentes arquitecturas de hardware compleja.

Los investigadores de Microsoft introdujeron una serie de avances para permitir una cuantización efectivo de bajo bits para dispositivos LLM en los dispositivos de borde. Su enfoque incluye tres innovaciones principales:

  1. Compilador de tipo de datos de escalera
  2. Biblioteca T-MAC MPGEMM
  3. Edificación de hardware de Lut Tensor Tensor Core

Estas técnicas tienen como objetivo aventajar las limitaciones de hardware facilitando la multiplicación de matriz genérico de precisión mixta (MPGEMM) y reduciendo la sobrecarga computacional. Con estas soluciones, los investigadores proponen un situación práctico que respalde una inferencia de LLM efectivo sin requerir GPU especializadas o aceleradores de ingreso potencia.

El primer componente del compilador de datos de escalera une la brecha entre las representaciones del maniquí de bajo bit y las restricciones de hardware. Convierte los formatos de datos no respaldados en representaciones compatibles con hardware mientras se mantiene la eficiencia. Este enfoque asegura modernos estudios profundo Las arquitecturas pueden utilizar tipos de datos personalizados sin martirizar el rendimiento.

La biblioteca MPGEMM T-MAC optimiza los cálculos de precisión mixta utilizando un método basado en la tabla de búsqueda (LUT) en división de operaciones de multiplicación tradicionales. Esta innovación elimina la requisito de desquantización y progreso significativamente la eficiencia computacional de la CPU.

Encima, la inmueble de hardware del núcleo de tensor LUT presenta un acelerador especializado diseñado para cuantización de bajo bits. Aprovecha un conjunto de instrucciones optimizadas para mejorar el rendimiento al tiempo que reduce el consumo de energía.

En las evaluaciones, el compilador de tipo de datos de escalera supera red neuronal profunda (DNN) compiladores por hasta 14.6 veces para cálculos específicos de bajo bits. Cuando se analizan en dispositivos de borde como la computadora portátil Surface 7 con el chipset Qualcomm Snapdragon X Elite, la biblioteca T-MAC logró 48 tokens por segundo para el maniquí 3B BITNET-B1.58, superando las bibliotecas de inferencias existentes. En dispositivos de variedad quebranto, como la Raspberry Pi 5, logró 11 tokens por segundo, lo que demuestra mejoras de eficiencia significativas. Mientras tanto, el hardware del núcleo del tensor LUT logró un aumento de 11.2 veces en la eficiencia energética y un aumento de 20.9 veces en la densidad computacional.

Varias conclusiones secreto de la investigación de Microsoft incluyen:

  1. La cuantización de bajo bits reduce el tamaño del maniquí, lo que permite la ejecución efectivo en dispositivos de borde.
  2. La biblioteca T-MAC progreso la velocidad de inferencia al eliminar las operaciones de multiplicación tradicionales.
  3. El compilador de escalera garantiza una integración perfecta de los formatos de datos de bajo bits personalizados con hardware existente.
  4. Las técnicas optimizadas reducen el uso de energía, lo que hace que los LLM sean factibles para dispositivos de quebranto energía.
  5. Estos métodos permiten que los LLM funcionen de forma efectiva en una amplia variedad de hardware, desde computadoras portátiles de ingreso variedad hasta dispositivos IoT de quebranto potencia.
  6. Estas innovaciones alcanzan 48 tokens por segundo en Snapdragon X Elite, 30 tokens por segundo en LLAMA 7B de 2 bits y 20 tokens por segundo en 4 bits 7b LLAMA.
  7. Asimismo habilitan aplicaciones impulsadas por la IA en sistemas de IA móviles, robóticos e integrados al hacer que los LLM sean más accesibles.

En conclusión, el estudio resalta la importancia de las técnicas de cuantificación conscientes de hardware para implementar LLMS en dispositivos de borde. Las soluciones propuestas abordan efectivamente los desafíos de larga data del consumo de memoria, la eficiencia computacional y la compatibilidad del hardware. Al implementar el núcleo de Tensor Ladder, T-Mac y Lut Tensor, los investigadores han allanado el camino para aplicaciones de IA de próxima procreación que son más rápidas, más eficientes en energía y más escalables en varias plataformas.


Efectuar el Detalles y Papel. Todo el crédito por esta investigación va a los investigadores de este esquema. Encima, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GResparcir. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código destapado recomendada: «Intellagent es un situación de agente múltiple de código destapado para evaluar el enrevesado sistema de IA conversacional» (promovido)


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble extremo en IIT Madras, le apasiona aplicar tecnología e IA para topar los desafíos del mundo auténtico. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida auténtico.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *