Athrun Data Intelligence


Google acaba de exhalar T5Gemma-2 y es un punto de inflexión para alguno que trabaja con él Modelos de IA en hardware común. Construido sobre la comunidad Gemma 3, este potente codificador-decodificador comprime la inteligencia multimodal y un contexto masivo en paquetes diminutos. Imagine ejecutar parámetros de 270M sin problemas en su computadora portátil. Si está buscando una IA competente que maneje texto, imágenes y documentos extensos sin desgastar mucho mosca, este es su próximo prueba. He estado jugando y los resultados me dejaron admirado, especialmente considerando que es un maniquí tan tenue.

En este artículo, profundicemos en la nueva útil llamamiento y veamos sus capacidades.

¿Qué es T5Gemma-2?

T5Gemma-2 es la próxima progreso de la comunidad de codificadores-decodificadores, que presenta los primeros modelos de codificadores-decodificadores multimodales y de contexto espacioso. Evoluciona la linde de codificadores y decodificadores de Google a partir de una traducción previamente entrenada alhaja 3 Modelos solo decodificadores, adaptados mediante un entrenamiento previo inteligente y continuo. Introduce incrustaciones vinculadas entre codificador y decodificador, recortando parámetros mientras mantiene la energía intacta, los tamaños alcanzan 270M-270M (370M en total), 1B-1B (1.7B en total) y 4B-4B (7B en total).

A diferencia de los decodificadores puros, los codificadores separados destacan por el procesamiento bidireccional para tareas como síntesis o control de calidad. Capacitado con 2 billones de tokens hasta agosto de 2024, cubre documentos web, códigos, matemáticas e imágenes en más de 140 idiomas.

¿Qué hace que T5Gemma-2 sea diferente?

A continuación se muestran algunas formas en las que T5Gemma-2 se distingue de otras soluciones de este tipo.

Innovaciones arquitectónicas

T5Gemma-2 incorpora importantes cambios arquitectónicos, al tiempo que hereda muchas de las potentes características de la comunidad Gemma 3.

1. Incrustaciones atadas: Las incrustaciones entre el codificador y el decodificador están vinculadas. Esto reduce el recuento caudillo de parámetros, lo que le permite incluir capacidades más activas en el mismo espacio de memoria, lo que explica los modelos compactos 270M-270M.

2. Atención fusionada: En el decodificador, fusionó un mecanismo de atención, combinando la atención propia y cruzada en una única capa de atención unificada. Esto reduce los parámetros del maniquí y la complejidad arquitectónica, mejorando la paralelización del maniquí y beneficiando la inferencia.

Actualizaciones en las capacidades del maniquí

1. Multimodalidad: Los modelos anteriores a menudo parecían ciegos porque sólo podían trabajar con texto, pero el T5Gemma 2 puede ver y repasar al mismo tiempo. Con un codificador de visión competente conectado a la pila, puede tomar una imagen más un mensaje y replicar con respuestas o explicaciones detalladas.

Esto significa que puedes:

  • Puede hacer preguntas sobre gráficos, documentos o capturas de pantalla de la interfaz de heredero.
  • Cree herramientas visuales de respuesta a preguntas para soporte, educación o disección.
  • Cree flujos de trabajo en los que un único maniquí lea tanto el texto como las imágenes en espacio de utilizar varios sistemas.

2. Contexto espacioso extendido: Uno de los mayores problemas en el trabajo diario de la IA son los límites del contexto. Puede truncar las entradas o modificarlas. T5Gemma-2 aborda esto ampliando la ventana de contexto hasta 128.000 tokens utilizando un mecanismo de atención alternante local-global heredado de Gemma 3.

Esto te permite:

  • Introduzca artículos de investigación completos, documentos de políticas o bases de código extensas sin fragmentaciones agresivas.
  • Corre más fiel Tuberías RAG donde el maniquí puede ver grandes porciones del material innovador a la vez.

3. Masivamente multilingüe: T5Gemma-2 está entrenado en un conjunto de datos más amplio y diverso que cubre más de 140 idiomas listos para usar. Esto lo convierte en una excelente opción para productos globales, herramientas regionales y casos de uso donde el inglés no es el idioma predeterminado.

Puede:

  • Atienda a usuarios en múltiples mercados con un solo maniquí.
  • Cree flujos de traducción, resúmenes o control de calidad que funcionen en muchos idiomas.

Destreza con T5Gemma-2

Supongamos que es un analista de datos que analiza los paneles de ventas de su empresa. Tienes que trabajar con gráficos de múltiples fuentes, incluidas capturas de pantalla e informes. Los modelos de visión actuales no brindan información a partir de imágenes o requieren el uso de diferentes modelos de visión, lo que crea pleonasmo en su flujo de trabajo. T5Gemma-2 le brinda una mejor experiencia al permitirle usar imágenes e indicaciones textuales al mismo tiempo, lo que le permite obtener información más precisa de sus imágenes visuales, como gráficos de barras o gráficos de líneas, directamente desde su computadora portátil.

Esta demostración utiliza el maniquí 270M-270M (~370M de parámetros totales) en colaboración de google para analizar una captura de pantalla de un representación de ventas trimestral. Contesta a la pregunta: «¿Qué mes tuvo los ingresos más altos y cómo esos ingresos estuvieron por encima del ingreso promedio?» En este ejemplo, el maniquí pudo identificar fácilmente el mes pico, calcular el delta y proporcionar una respuesta precisa, lo que lo hace ideal para su uso en disección, ya sea como parte de un proceso de Reporting Automation Gap (RAG) o para automatizar los informes.

Aquí está el código que usamos en él:

# Load model and processor (use 270M-270M for laptop-friendly inference) 

from transformers import T5Gemma2Processor, T5Gemma2ForConditionalGeneration 

import torch 

from PIL import Image 

import requests 

from io import BytesIO 

 

model_id = "google/t5gemma-2-270m-270m" # Compact multimodal variant 

processor = T5Gemma2Processor.from_pretrained(model_id) 

model = T5Gemma2ForConditionalGeneration.from_pretrained( 

model_id, torch_dtype=torch.bfloat16, device_map="coche" 

) 

 

# Load chart image (replace with your screenshot upload) 

image_url = "https://example.com/sales-chart.png" # Or: Image.open("chart.png") 

image = Image.open(BytesIO(requests.get(image_url).content)) 

 

# Multimodal prompt: image + text question 

prompt = "Analyze this sales chart. What was the highest revenue month and by how much did it exceed the promedio?" 

inputs = processor(text=prompt, images=image, return_tensors="pt") 

 

# Generate response (128K context ready for long reports too) 

with torch.no_grad(): 

generated_ids = model.generate( 

**inputs, max_new_tokens=128, do_sample=False, temperature=0.0 

) 

response = processor.batch_decode(generated_ids, skip_special_tokens=True)(0) 

print(response) 

Aquí está el resultado que T5Gemma-2 pudo entregar

Julio tuvo los ingresos más altos con $450 mil, superando el promedio trimestral de $320 mil por $130 mil”. No es necesario fragmentar: a continuación, proporcione documentos completos o bases de código. Prueba multilingüe: cambie el mensaje al hindi para equipos globales. Cuantifique a 4 bits con bits y bytes para implementación móvil.

Comparación de rendimiento

Comparando los puntos de remisión previos al entrenamiento, T5Gemma-2 es una traducción más pequeña y más flexible de Gemma 3, pero tiene capacidades mucho más sólidas en cinco áreas: multilingüe, multimodal, STEM y codificación, razonamiento y factualidad, y contexto extenso. Específicamente para el rendimiento multimodal, T5Gemma-2 funciona tan proporcionadamente o supera a Gemma 3 en un tamaño de maniquí equivalente, aunque Gemma 3 270M y Gemma 3 1B son sólo modelos de texto que han pasado a codificador-decodificador. sistemas visión-lenguaje.

T5Gemma-2 asimismo contiene un contexto espacioso superior que supera tanto a Gemma 3 como a T5Gemma porque tiene un codificador separado que modela secuencias más largas de una guisa más precisa. Encima, este contexto espacioso mejorado, así como un aumento en el rendimiento en las pruebas de codificación, razonamiento y pruebas multilingües, significa que las versiones 270M y 1B son particularmente adecuadas para desarrolladores que trabajan en sistemas informáticos típicos.

Conclusión

T5Gemma-2 es la primera vez que lo hemos conocido en realidad práctico IA multimodal en un dispositivo portátil. Combina las fortalezas de Gemma-3 con diseños eficientes de codificador/decodificador, soporte de razonamiento de contexto espacioso y una sólida cobertura multilingüe, todo en tamaños de paquetes aptos para computadoras portátiles.

Para los desarrolladores, analistas y constructores, la capacidad de ofrecer comprensión de visión/texto con funciones más ricas y flujos de trabajo de documentos largos sin la privación de obedecer de pilas de servidores pesados ​​es enorme.

Si ha estado esperando un maniquí verdaderamente compacto que le permita realizar toda su experimentación lugar y al mismo tiempo crear productos confiables y reales, definitivamente debería unir T5Gemma-2 a su caja de herramientas.

Soy aprendiz de ciencia de datos en Analytics Vidhya y trabajo apasionadamente en el expansión de soluciones avanzadas de IA, como aplicaciones de IA generativa, modelos de idioma grandes y herramientas de IA de vanguardia que traspasan los límites de la tecnología. Mi función asimismo implica crear contenido educativo atractivo para los canales de YouTube de Analytics Vidhya, desarrollar cursos integrales que cubran todo el espectro desde el enseñanza necesario hasta la IA generativa y la creación de blogs técnicos que conecten conceptos fundamentales con las últimas innovaciones en IA. A través de esto, mi objetivo es contribuir a la construcción de sistemas inteligentes y compartir conocimientos que inspiren y empoderen a la comunidad de IA.

Inicie sesión para continuar leyendo y disfrutar de contenido seleccionado por expertos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *