Stability.ai ha presentado Stable Diffusion 3.5, con múltiples variantes: Stable Diffusion 3.5 Large, Large Turbo y Medium. Estos modelos son personalizables y pueden ejecutarse en hardware de consumo. Exploremos estos modelos, aprendamos cómo entrar a ellos y usémoslos como inferencia para ver qué aporta la difusión estable esta vez.

Descripción común
- Disponibilidad: Los modelos se pueden descargar desde Hugging Face. Accesible a través de varias plataformas, como la API de Stability AI, Replicate y otras.
- Seguridad y protección: Estabilidad AI ha implementado protocolos de seguridad diseñados para minimizar el posible uso indebido. Estas medidas garantizan un uso responsable y la seguridad del beneficiario.
- Mejoras futuras: Los planes incluyen soporte ControlNet, lo que permite un control más liberal y preciso sobre el proceso de engendramiento de imágenes.
- Flexibilidad de plataforma: Los usuarios pueden entrar e integrar estos modelos en sus flujos de trabajo a través de diferentes plataformas, lo que brinda flexibilidad de uso.
Modelos de difusión estable 3.5
Stable Diffusion 3.5 ofrece una tono de modelos:
- Difusión estable 3.5 Alto: Con 8,1 mil millones de parámetros, este maniquí insignia ofrece calidad de primer nivel y complemento rápida, lo que lo convierte en el más potente de la cadeneta de difusión estable. Está optimizado para aplicaciones profesionales con una resolución de 1 megapíxel.
- Difusión estable 3.5 Turbo prócer: Este maniquí, una traducción optimizada de Stable Diffusion 3.5 Large, produce imágenes de suscripción calidad con una excelente complemento rápida en solo 4 pasos, ofreciendo un rendimiento significativamente más rápido que el maniquí prócer típico.
- Difusión estable 3.5 Medio: Con 2.500 millones de parámetros y la inmueble MMDiT-X mejorada, este maniquí está diseñado para un uso valentísimo en hardware de consumo. Equilibra la calidad con la flexibilidad de personalización y admite la engendramiento de imágenes con resolución de 0,25 a 2 megapíxeles.
Los modelos se pueden ajustar fácilmente para satisfacer las deposición y están optimizados para el hardware de consumo, incluidos los modelos Stable Diffusion 3.5 Medium y Large Turbo, que ofrecen resultados de suscripción calidad con demandas mínimas de medios. El maniquí 3.5 Medium requiere 9,9 GB de VRAM (sin incluir codificadores de texto), lo que garantiza una amplia compatibilidad con la mayoría de las GPU.
Comparación con otros modelos
Stable Diffusion 3.5 Large lidera la complemento rápida y rivaliza con los modelos más grandes en calidad de imagen. La reforma Large Turbo ofrece inferencias rápidas y resultados de calidad, mientras que el 3.5 Medium ofrece una opción efectivo y de suspensión rendimiento entre los modelos de tamaño mediano.
Accediendo a Difusión Estable 3.5
En la plataforma Stability.ai
Ir al página de la plataforma y obtenga su esencia API. (Se le ofrecen 25 créditos luego de registrarse)
Ejecute este código Python en un entorno jupyter (reemplace su esencia API en el código) para ocasionar una imagen y cambiar el mensaje si lo desea.
import requests
response = requests.post(
f"https://api.stability.ai/v2beta/stable-image/generate/sd3",
headers={
"authorization": f"Bearer sk-{API-key}",
"accept": "image/*"
},
files={"none": ''},
data={
"prompt": "A middle-aged man wearing formal clothes",
"output_format": "jpeg",
},
)
if response.status_code == 200:
with open("./man.jpeg", 'wb') as file:
file.write(response.content)
else:
raise Exception(str(response.json()))

Le pedí a la maniquí que generara una imagen de “Un hombre de mediana vida vestido con ropa formal”, y la maniquí parece tener un buen desempeño en la engendramiento de imágenes fotorrealistas.
En la cara abrazada
Puedes usar el maniquí en Hugging Face.
Primerohaga clic en el enlacey luego podrá comenzar a inferir directamente desde el maniquí medio Stable Diffusion 3.5.
Esta es la interfaz con la que serás recibido:

Le pedí al maniquí que generara una imagen de «Un bosque con árboles rojos» e hizo un trabajo maravilloso al ocasionar esta imagen de 1024 x 1024.
Siéntete soberano de pugnar con la configuración descubierta para ver cómo cambia el resultado.
Usando la API de inferencia en Huggingface:
Paso 1: Reconocimiento la página del maniquí de Difusión estable 3,5 prócer en la cara abrazada
Nota: Puedes nominar un maniquí diferente y ver las opciones aquí: abrazando la cara.
Paso 2: Complete los detalles necesarios para obtener ataque al maniquí, ya que es un maniquí cerrado, y espere un momento. Una vez que se le haya otorgado ataque, podrá utilizar el maniquí.
Paso 3: Ahora puede ejecutar este código Python en un entorno jupyter para cursar mensajes al maniquí. (asegúrate de reemplazar tu ficha de Hugging Face en el encabezado)
import requests
API_URL = "https://api-inference.huggingface.co/models/stabilityai/stable-diffusion-3.5-large"
headers = {"Authorization": "Bearer hf_token"}
def query(payload):
response = requests.post(API_URL, headers=headers, json=payload)
return response.content
image_bytes = query({
"inputs": "A ninja sitting on top of a tall building, 8k",
})
# You can access the image with PIL
import io
from PIL import Image
image = Image.open(io.BytesIO(image_bytes))
image

Puede cambiar el mensaje e intentar ocasionar diferentes tipos de imágenes.
Conclusión
En conclusión, el maniquí ofrece una sólida tono de modelos de engendramiento de imágenes con varios niveles de rendimiento adaptados tanto para uso profesional como para el consumidor. La cadeneta, que incluye los modelos Alto, Turbo Alto y Mediano, brinda flexibilidad en calidad y velocidad, lo que la convierte en una excelente opción para diversas aplicaciones. Con opciones de ataque sencillas a través de IA de estabilidad Integraciones de plataforma, Hugging Face y API, Stable Diffusion 3.5 facilita la engendramiento de imágenes de suscripción calidad impulsadas por IA.
Adicionalmente, si está buscando un curso de IA generativa, explore: Software Pinnacle de GenAI
Preguntas frecuentes
Respuesta. Las solicitudes API requieren una esencia API para la autenticación, que debe incluirse en el encabezado para entrar a diversas funcionalidades.
Respuesta. Los errores comunes incluyen ataque no acreditado, parámetros no válidos o exceder los límites de uso, cada uno con códigos de respuesta específicos para la resolución de problemas.
Respuesta. El maniquí es sin cargo bajo la Abuso comunitaria de estabilidad para investigación, uso no comercial y organizaciones con ingresos inferiores a 1 millón de dólares. Las entidades más grandes necesitan una inmoralidad empresarial.
Respuesta. Utiliza un transformador de difusión multimodal (MMDiT-X) con técnicas de entrenamiento mejoradas, como normalización QK y atención dual, para una engendramiento mejorada de imágenes en múltiples resoluciones.