¡Géminis 2.5 Imagen (Nano Banano) supera a todos los editores de imágenes!
No he sido demasiado activo en el uso de IA para originar imágenes. Principalmente porque ninguna de las herramientas de IA hasta la aniversario puede entregar el nivel de calidad que busco en mis imágenes. Y así, la responsabilidad de originar imágenes para mis blogs cae principalmente en mi compañero de equipo y un diseñador boceto admirable Armaan. Aunque para este blog en particular, le di un alivio a Armaan. Todo gracias a la nueva imagen flash «Nano-Banano», igualmente conocida como Gemini 2.5 Flash.
Ese es el postrer maniquí de procreación de imágenes del Casa de Géminis se fogata. Más que una procreación de imágenes, la imagen Flash Gemini 2.5 o Nano-Banano viene como un maniquí de tiraje de imágenes. ¿Por qué? La modernización ahora le permite combinar varias imágenes en una sola imagen. Al menos eso es lo que dice hacer, como se menciona en un blog de Google que presenta el nuevo maniquí Gemini Image-Gen.
Si hace lo que dice y lo hace adecuadamente, personalmente conozco a una docena de entusiastas de la IA que estarán más que emocionados de intentarlo. En caso de que sea uno de esos aficionados a la procreación de imágenes de IA, aquí hay todo lo que necesita entender sobre la nueva imagen Flash Gemini 2.5, cercano con un examen práctico que probé.
¿Qué es la imagen flash Gemini 2.5?
En pocas palabras, Gemini 2.5 Flash Image es un nuevo maniquí de procreación de imágenes y tiraje de Google. Viene como una modernización del maniquí de procreación de imágenes de imagen Flash Gemini 2.0 de Gemini 2.0, lo que lo hace más rápido y mejor, con funciones de tiraje de imágenes agregadas.
Para el contexto, la nueva imagen Flash Gemini 2.5 puede combinar varias imágenes en una, prolongar la consistencia de los caracteres y hacer transformaciones específicas en una imagen. Como dice Google, el maniquí utiliza el «conocimiento mundial de Gemini para originar y editar imágenes».
Exploremos estas características con un poco más de detalle.
Características de la imagen flash Gemini 2.5
Ayudar la consistencia del personaje
Casi cualquiera que haya usado IA para originar imágenes se relacionará con esto. Las indicaciones de imagen individuales generalmente te sirven adecuadamente. Pero tan pronto como desee un sujeto particular que se muestra como lo es en un conjunto de imágenes, casi todos los modelos de IA conocidos faltan.
Google afirma suceder trabajado en eso, con la nueva imagen Flash Gemini 2.5. Esto es lo que dice para la capacidad de Nano-Banano a este respecto:
«Ahora puede colocar el mismo carácter en diferentes entornos, mostrar un solo producto desde múltiples ángulos en nuevos entornos o originar activos de marca consistentes, todo mientras preserva el sujeto».
¿Lo ha clavado? Descubra en breve en mi examen práctico con el maniquí.
Estampación de imagen basada en el aviso
Esto es muy parecido a «Photoshopping» un sujeto particular internamente/ fuera de una imagen, pero a través de simples indicaciones. La imagen flash Gemini 2.5 puede «difuminar el fondo de una imagen, eliminar una mancha en una camiseta, eliminar a una persona completa de una foto», y mucho más, como dice Google.
Las ediciones locales precisas con indicadores de estilo natural lo convierten en un maniquí de IA poderoso, siempre que lo haga adecuadamente. No te preocupes. Lo probaremos en nuestra actos pronto.
Fusión de múltiples imágenes
Esta parece ser la nueva modernización nueva para la imagen flash Gemini 2.5. El Nano-Banano puede «comprender y fusionar múltiples imágenes de entrada» según Google, lo que básicamente significa que puede fusionar imágenes con un solo mensaje ahora. Ponga a una persona que se perdió el evento en una foto grupal, coloque un objeto en una estampa o cualquier otro uso que se le ocurra. Todo con un simple mensaje.
Carga actos. ¡Manténganse al tanto!
Conocimiento del mundo nativo
Como señalé en mi artículo – Por qué la IA carece de sentido globalLos modelos de IA carecen de una comprensión profunda y semántica del mundo verdadero. Casi todas las imágenes estéticas que producen son el resultado de sus datos de entrenamiento. Google afirma suceder pasado por stop esto, como el nuevo maniquí de Nano-Banano «se beneficia del conocimiento mundial de Géminis».
Sin compartir más información sobre cómo se hizo posible, Google dice que esta astucia desbloquea nuevos casos de uso para el maniquí de imagen Flash Gemini 2.5. No se preocupe, lo probaremos pronto.
Pero antiguamente de eso, así es como puedes obtener a la nueva imagen Gemini Flash 2.5
Gemini Flash 2.5 Accesibilidad de imagen
La nueva imagen de Google Nano-Banano o Gemini Flash 2.5 está arreglado en este momento a través de la aplicación o sitio web de Gemini para usuarios individuales.
Para usuarios individuales
Simplemente puede descargar la aplicación en su teléfono o saludar gemini.google.com y obtener al maniquí seleccionando 2.5 flash en la parte superior y haciendo clic en «Crear imágenes» en la sección Herramientas.
Para desarrolladores
Los desarrolladores pueden obtener a lo mismo a través de Gemini API y Google AI Studio, mientras que los clientes empresariales pueden obtener a la utensilio a través de Vertex AI.
Para el paso a través de API, siga estos pasos:
1. Instale bibliotecas requeridas
Instale la última lectura del SDK AI Generativo de Google con PIP y asegúrese de tener PIL (almohada) instalado para el procesamiento de imágenes:
pip install google-generativeai pillow
Este comando importará todas las bibliotecas requeridas al aparición de su script para una ejecución sin problemas.
2. Autentique su paso de API
Configure la autenticación exportando su esencia API (si es necesario) como una variable de entorno o autenticando a través de proveedores de identidad en la aglomeración, por lo que el SDK de Genai puede obtener a los puntos finales de IA generativos de Google:
import os
os.environ("GOOGLE_API_KEY") = ""
Asegúrese de que su cuenta de API esté activa y tenga suficiente cuota para las solicitudes.
3. Configurar y designar al maniquí
Inicialice el cliente, configure el maniquí en «Gemini-2.5-Flash-Image-Preview» y pase un aviso relevante utilizando el método de procreación de contenido del SDK:
from google import genai
client = genai.Client()
prompt = "Create a picture of a nano cambur dish in a fancy restaurant with a Gemini theme"
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=(prompt),
)
4. Pase y guarde la imagen generada
Iterar a través de la respuesta para corroborar si hay panorama de texto e imagen, luego guarde la imagen generada usando PIL:
from PIL import Image
from io import BytesIO
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
Para el paso a través de Google AI Studio, simplemente use el «Modo de compilación» en Google AI Studio aquí. Una vez en la plataforma, simplemente puede ingresar un mensaje para diseñar el tipo de aplicación de procreación/ tiraje de imágenes basada en la imagen flash Gemini 2.5 que desea. Piense en el intercambio de la cara o el intercambio de ropa.
Géminis Flash 2.5 Imagen actos
Cedido que la procreación de imágenes de IA que usa indicaciones es proporcionado sencilla, decidí probar la nueva imagen Gemini Flash 2.5 en su USPS, a excepción de de, por supuesto, la procreación básica de imágenes. Mira los resultados por ti mismo:
1. Procreación de nuevas imágenes
Aquí hay dos imágenes que generé usando Gemini 2.5 Pro Flash. Uno de un peque de 25 primaveras de las colinas de Himachal Pradesh, y otro de un perro Gaddi. Aquí están las indicaciones:
Aviso 1: Dame una imagen de retrato de un peque indio, en torno a de los 25 primaveras, proveniente de Himachal Pradesh. El peque tiene flequillo denso y desventurado y luceros verdes claros, y lleva una camisa blanca sólida súper fresca
Aviso 2: Dame una imagen de retrato de un perro Gaddi Pahadi, de color desventurado con un pelaje espeso y un tamaño más espacioso en comparación con un perro callejero habitual
Producción:
Si adecuadamente los resultados claramente parecen generados por IA, le daría 10/10 a Nano-Banano para los resultados. Esto se debe simplemente a la súper suscripción calidad de las imágenes, las representaciones precisas del aviso y el hecho de que nunca mencioné en el aviso para hacer que las imágenes sean demasiado realistas.
2. Fusionar imágenes
Para consistencia, jugué con estas dos imágenes para el resto de las pruebas. Entonces le pedí al maniquí que fusionara las dos imágenes del peque y el perro en un fondo teatral. Aquí está el aviso:
Inmediato: Muestre al peque y al perro tocando en un enorme campo descubierto en el contexto de un río que fluye en un valle y montañas nevadas al otro flanco del río.
Producción:
El maniquí AI tardó un tiempo en encontrar su camino en torno a la salida correcta. Con los resultados iniciales que tenían un poco de proporciones, hubo un momento de indicaciones y resultados antiguamente de que encontrara lo que estaba buscando. Pero una vez que lo hice, ¡me impresionó! Todo hasta el postrer detalle fue tan preciso como había mencionado y tan estético como pude suceder pedido.
3. Estampación de imágenes
A posteriori de la procreación de imágenes y la fusión, viene la parte de tiraje. Para probarlos, primero le pedí a Gemini Flash 2.5 Imagen para juntar una pequeña cabaña en la pintoresca estampa. Aquí está el aviso:
Inmediato: En esta imagen, muestre un pequeño cobertizo cerca del río a distancia
Producción:
Ejecución impecable en el primer intento. Parece evidente que Google ha trabajado enormemente en la nano-banana, especialmente en las áreas donde lo destaca para sobresalir.
4. Ayudar la consistencia del carácter
En la parte más difícil para la mayoría de los modelos de IA. Honestamente, era proporcionado escéptico sobre este USP. Así que, lógicamente, igualmente estaba muy emocionado de probarlo. Le pedí al maniquí que cambiara toda la configuración en la imagen a la de una playa. Aquí está el aviso:
Inmediato: Muestre al peque y al perro corriendo como están en una playa en circunscripción del entorno flagrante. El peque ahora lleva pantalones cortos y un chaleco, y tiene un tatuaje en el ayuda izquierdo
Producción:
Ausencia menos impresionante, Gemini 2.5 Flash Image logró hacer un trabajo proporcionado curioso. Aunque tomó repetidos intentos de aparecer a un resultado estético, el nuevo maniquí de imagen pudo replicar los detalles del peque y el perro con una precisión casi completa. Si miras de cerca, la ligera diferencia que notarás será que en el peinado del peque. REST TODO se ve casi exactamente similar a mí como en la configuración susodicho. Incluso probé la idea de «tatuaje en un solo ayuda» para ver cómo Gemini la ejecuta. ¡Todo lo que puedo sostener son felicitaciones al maniquí para un trabajo adecuadamente hecho!
5. Construyendo la aplicación Gemini 2.5 Flash Image alimentada
Para probar la imagen flash Gemini 2.5 en una aplicación para la procreación y tiraje de imágenes repetidas, utilizamos el venidero mensaje en el «Modo de compilación» de Google AI Studio
Inmediato: Cree una aplicación de prueba, donde los usuarios pueden subir sus fotos y probar varias ropa para ver cómo se ven en ellas.
Con una sola serie de procreación de imágenes y tiraje en la nueva imagen Flash Gemini 2.5, las actualizaciones y las capacidades mejoradas son proporcionado evidentes para mí. Lo que estoy especialmente emocionado es la nueva capacidad de fusión de imágenes del maniquí. Puedo prever los números n de escenarios donde eso puede ser útil para mí personalmente. En cuanto a la mayoría de los otros creadores de contenido, la tiraje de imágenes y la consistencia de los personajes en la nueva imagen Flash Gemini 2.5 demostrarán ser un cambio de grupo.
Con frecuencia intentamos en nuestras manos en tales nuevos modelos de IA para probar los límites de sus capacidades. Por lo tanto, asegúrese de estar atento a este espacio para actualizarse con lo postrer en el mundo de la IA.
Estrategista y comunicador de contenido técnico con una división de experiencia en creación y distribución de contenido en los medios nacionales, el gobierno de la India y las plataformas privadas
Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.