Google ha resuelto oficialmente TensorFlow 2.21. La puesta al día más importante de esta lectura es la medición de LiteRT de su etapa de paisaje previa a una pila completamente directorio para producción. En el futuro, LiteRT sirve como ámbito de inferencia universal en el dispositivo, reemplazando oficialmente a TensorFlow Lite (TFLite).
Esta puesta al día agiliza la implementación de modelos de educación forzoso en dispositivos móviles y de vanguardia al tiempo que amplía la compatibilidad del hardware y el ámbito.
LiteRT: rendimiento y precipitación de hardware
Al implementar modelos en dispositivos periféricos (como teléfonos inteligentes o hardware de IoT), la velocidad de inferencia y la eficiencia de la condensador son las principales limitaciones. LiteRT soluciona esto con precipitación de hardware actualizada:
- Mejoras de la GPU: LiteRT ofrece Rendimiento de GPU 1,4 veces más rápido en comparación con el ámbito TFLite precedente.
- Integración de la dispositivo nuclear: El dispersión presenta precipitación de NPU de última coexistentes con un flujo de trabajo unificado y optimizado tanto para GPU como para NPU en plataformas perimetrales.
Esta infraestructura está diseñada específicamente para convenir la implementación de GenAI multiplataforma para modelos abiertos como Gemma.
Operaciones de último precisión (cuantización)
Para ejecutar modelos complejos en dispositivos con memoria limitada, los desarrolladores utilizan una técnica llamamiento cuantificación. Esto implica someter la precisión (el número de bits) utilizada para juntar los pesos y activaciones de una red neuronal.
TensorFlow 2.21 amplía significativamente la tf.lite soporte de los operadores para tipos de datos de último precisión para mejorar la eficiencia:
- El
SQRTEl cámara ahora admiteint8yint16x8. - Operadores de comparación ahora apoyo
int16x8. tfl.castahora admite conversiones que involucranINT2yINT4.tfl.sliceha añadido soporte paraINT4.tfl.fully_connectedahora incluye soporte paraINT2.
Soporte de ámbito ampliado
Históricamente, convertir modelos de diferentes marcos de capacitación a un formato compatible con dispositivos móviles podía resultar complicado. LiteRT simplifica esto al ofrecer Compatibilidad de primera clase con PyTorch y JAX mediante una perfecta conversión de modelos.
Los desarrolladores ahora pueden entrenar sus modelos en PyTorch o JAX y convertirlos directamente para su implementación en el dispositivo sin requisito de reescribir primero la bloque en TensorFlow.
Mantenimiento, seguridad y enfoque en el ecosistema
Google está cambiando sus fortuna de TensorFlow Core para centrarse en gran medida en la estabilidad a dilatado plazo. El equipo de progreso ahora se centrará exclusivamente en:
- Seguridad y corrección de errores: Asaltar rápidamente las vulnerabilidades de seguridad y los errores críticos mediante el dispersión de versiones menores y de parches según sea necesario.
- Actualizaciones de dependencia: Difundir versiones menores para convenir actualizaciones de dependencias subyacentes, incluidas nuevas versiones de Python.
- Aportes de la comunidad: Continuar revisando y aceptando correcciones de errores críticos de la comunidad de código rajado.
Estos compromisos se aplican al ecosistema empresarial más amplio, que incluye: TF.data, TensorFlow Serving, TFX, TensorFlow Data Validation, TensorFlow Transform, TensorFlow Model Analysis, TensorFlow Recommenders, TensorFlow Text, TensorBoard y TensorFlow Quantum.
Conclusiones secreto
- LiteRT reemplaza oficialmente a TFLite: LiteRT ha pasado de la paisaje previa a la producción completa, convirtiéndose oficialmente en el principal ámbito de inferencia en el dispositivo de Google para implementar modelos de educación forzoso en entornos móviles y perimetrales.
- Longevo precipitación de GPU y NPU: El tiempo de ejecución actualizado ofrece un rendimiento de GPU 1,4 veces más rápido en comparación con TFLite e introduce un flujo de trabajo unificado para la precipitación de NPU (Mecanismo de procesamiento neuronal), lo que facilita la ejecución de cargas de trabajo pesadas de GenAI (como Gemma) en hardware de vanguardia especializado.
- Cuantización de maniquí agresivo (INT4/INT2): Para maximizar la eficiencia de la memoria en dispositivos perimetrales,
tf.liteLos operadores han ampliado el soporte para tipos de datos de precisión extremadamente descenso. Esto incluyeint8/int16paraSQRTy operaciones de comparación, inmediato conINT4yINT2apoyo paracast,sliceyfully_connectedoperadores. - Interoperabilidad perfecta entre PyTorch y JAX: Los desarrolladores ya no están limitados a capacitarse con TensorFlow para la implementación de borde. LiteRT ahora proporciona conversión de modelos nativos de primera clase para PyTorch y JAX, agilizando el proceso desde la investigación hasta la producción.
Mira el Detalles técnicos y repositorio. Por otra parte, no dudes en seguirnos en Gorjeo y no olvides unirte a nuestro SubReddit de más de 120.000 ml y suscríbete a nuestro boletín. ¡Esperar! estas en telegrama? Ahora además puedes unirte a nosotros en Telegram.
Michal Sutter es un profesional de la ciencia de datos con una Industria en Ciencias de Datos de la Universidad de Padua. Con una cojín sólida en descomposición estadístico, educación forzoso e ingeniería de datos, Michal se destaca en transfigurar conjuntos de datos complejos en conocimientos prácticos.
