Athrun Data Intelligence


Google ha resuelto oficialmente TensorFlow 2.21. La puesta al día más importante de esta lectura es la medición de LiteRT de su etapa de paisaje previa a una pila completamente directorio para producción. En el futuro, LiteRT sirve como ámbito de inferencia universal en el dispositivo, reemplazando oficialmente a TensorFlow Lite (TFLite).

Esta puesta al día agiliza la implementación de modelos de educación forzoso en dispositivos móviles y de vanguardia al tiempo que amplía la compatibilidad del hardware y el ámbito.

LiteRT: rendimiento y precipitación de hardware

Al implementar modelos en dispositivos periféricos (como teléfonos inteligentes o hardware de IoT), la velocidad de inferencia y la eficiencia de la condensador son las principales limitaciones. LiteRT soluciona esto con precipitación de hardware actualizada:

  • Mejoras de la GPU: LiteRT ofrece Rendimiento de GPU 1,4 veces más rápido en comparación con el ámbito TFLite precedente.
  • Integración de la dispositivo nuclear: El dispersión presenta precipitación de NPU de última coexistentes con un flujo de trabajo unificado y optimizado tanto para GPU como para NPU en plataformas perimetrales.

Esta infraestructura está diseñada específicamente para convenir la implementación de GenAI multiplataforma para modelos abiertos como Gemma.

Operaciones de último precisión (cuantización)

Para ejecutar modelos complejos en dispositivos con memoria limitada, los desarrolladores utilizan una técnica llamamiento cuantificación. Esto implica someter la precisión (el número de bits) utilizada para juntar los pesos y activaciones de una red neuronal.

TensorFlow 2.21 amplía significativamente la tf.lite soporte de los operadores para tipos de datos de último precisión para mejorar la eficiencia:

  • El SQRT El cámara ahora admite int8 y int16x8.
  • Operadores de comparación ahora apoyo int16x8.
  • tfl.cast ahora admite conversiones que involucran INT2 y INT4.
  • tfl.slice ha añadido soporte para INT4.
  • tfl.fully_connected ahora incluye soporte para INT2.

Soporte de ámbito ampliado

Históricamente, convertir modelos de diferentes marcos de capacitación a un formato compatible con dispositivos móviles podía resultar complicado. LiteRT simplifica esto al ofrecer Compatibilidad de primera clase con PyTorch y JAX mediante una perfecta conversión de modelos.

Los desarrolladores ahora pueden entrenar sus modelos en PyTorch o JAX y convertirlos directamente para su implementación en el dispositivo sin requisito de reescribir primero la bloque en TensorFlow.

Mantenimiento, seguridad y enfoque en el ecosistema

Google está cambiando sus fortuna de TensorFlow Core para centrarse en gran medida en la estabilidad a dilatado plazo. El equipo de progreso ahora se centrará exclusivamente en:

  1. Seguridad y corrección de errores: Asaltar rápidamente las vulnerabilidades de seguridad y los errores críticos mediante el dispersión de versiones menores y de parches según sea necesario.
  2. Actualizaciones de dependencia: Difundir versiones menores para convenir actualizaciones de dependencias subyacentes, incluidas nuevas versiones de Python.
  3. Aportes de la comunidad: Continuar revisando y aceptando correcciones de errores críticos de la comunidad de código rajado.

Estos compromisos se aplican al ecosistema empresarial más amplio, que incluye: TF.data, TensorFlow Serving, TFX, TensorFlow Data Validation, TensorFlow Transform, TensorFlow Model Analysis, TensorFlow Recommenders, TensorFlow Text, TensorBoard y TensorFlow Quantum.

Conclusiones secreto

  • LiteRT reemplaza oficialmente a TFLite: LiteRT ha pasado de la paisaje previa a la producción completa, convirtiéndose oficialmente en el principal ámbito de inferencia en el dispositivo de Google para implementar modelos de educación forzoso en entornos móviles y perimetrales.
  • Longevo precipitación de GPU y NPU: El tiempo de ejecución actualizado ofrece un rendimiento de GPU 1,4 veces más rápido en comparación con TFLite e introduce un flujo de trabajo unificado para la precipitación de NPU (Mecanismo de procesamiento neuronal), lo que facilita la ejecución de cargas de trabajo pesadas de GenAI (como Gemma) en hardware de vanguardia especializado.
  • Cuantización de maniquí agresivo (INT4/INT2): Para maximizar la eficiencia de la memoria en dispositivos perimetrales, tf.lite Los operadores han ampliado el soporte para tipos de datos de precisión extremadamente descenso. Esto incluye int8/int16 para SQRT y operaciones de comparación, inmediato con INT4 y INT2 apoyo para cast, slicey fully_connected operadores.
  • Interoperabilidad perfecta entre PyTorch y JAX: Los desarrolladores ya no están limitados a capacitarse con TensorFlow para la implementación de borde. LiteRT ahora proporciona conversión de modelos nativos de primera clase para PyTorch y JAX, agilizando el proceso desde la investigación hasta la producción.

Mira el Detalles técnicos y repositorio. Por otra parte, no dudes en seguirnos en Gorjeo y no olvides unirte a nuestro SubReddit de más de 120.000 ml y suscríbete a nuestro boletín. ¡Esperar! estas en telegrama? Ahora además puedes unirte a nosotros en Telegram.


Michal Sutter es un profesional de la ciencia de datos con una Industria en Ciencias de Datos de la Universidad de Padua. Con una cojín sólida en descomposición estadístico, educación forzoso e ingeniería de datos, Michal se destaca en transfigurar conjuntos de datos complejos en conocimientos prácticos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *