Athrun Data Intelligence


En los últimos abriles, el rápido avance de las tecnologías de inteligencia fabricado y estudios mecánico (AI/ML) ha revolucionado varios aspectos de la creación de contenido digital. Un exposición particularmente emocionante es el surgimiento de capacidades de procreación de videos, que ofrecen oportunidades sin precedentes para empresas en diversas industrias. Esta tecnología permite la creación de videoclips cortos que pueden combinarse sin problemas para producir videos más largos y complejos. Las aplicaciones potenciales de esta innovación son enormes y de gran repercusión, prometiendo variar cómo las empresas se comunican, comercializan e interactúan con sus audiencias. La tecnología de procreación de videos presenta una miríada de casos de uso para empresas que buscan mejorar sus estrategias de contenido visual. Por ejemplo, las empresas de comercio electrónico pueden usar esta tecnología para crear demostraciones dinámicas de productos, mostrando principios desde múltiples ángulos y en varios contextos sin la menester de sesiones de fotos físicas extensas. En el ámbito de la educación y la capacitación, las organizaciones pueden suscitar videos instructivos adaptados a objetivos de estudios específicos, actualizando rápidamente el contenido según sea necesario sin retornar a filmar secuencias completas. Los equipos de marketing pueden crear anuncios de video personalizados a escalera, dirigidos a diferentes datos demográficos con mensajes y imágenes personalizadas. Adicionalmente, la industria del entretenimiento se beneficiará enormemente, con la capacidad de prototipos rápidamente de escenas, visualizar conceptos e incluso ayudar en la creación de contenido animado. La flexibilidad ofrecida al combinar estos clips generados en videos más largos abre aún más posibilidades. Las empresas pueden crear contenido modular que pueda reorganizarse rápidamente y reutilizarse para diferentes pantallas, audiencias o campañas. Esta adaptabilidad no solo ahorra tiempo y capital, sino que incluso permite estrategias de contenido más ágiles y receptivas. A medida que profundizamos en el potencial de la tecnología de procreación de videos, queda claro que su valía se extiende mucho más allá de la mera conveniencia, ofreciendo una útil transformadora que puede impulsar la innovación, la eficiencia y el compromiso en todo el panorama corporativo.

En esta publicación, exploramos cómo implementar una opción sólida basada en AWS para la procreación de videos que utiliza el maniquí COGVIDEOX y Amazon Sagemaker AI.

Descripción universal de la opción

Nuestra casa ofrece una opción de procreación de videos enormemente escalable y segura utilizando los servicios administrados de AWS. La capa de gobierno de datos implementa tres específicos de propósito Servicio de almacenamiento simple de Amazon (Amazon S3) cubos, para videos de entrada, expectativas procesadas y registro de ataque, cada uno configurado con políticas apropiadas de secreto y ciclo de vida para consentir la seguridad de los datos a lo liberal de su ciclo de vida.

Para los capital de cálculo, utilizamos AWS Fargate para Servicio de contenedores elásticos de Amazon (Amazon ECS) para organizar el Racionalizar Aplicación web, que proporciona gobierno de contenedores sin servidor con capacidades de escalera cibernética. El tráfico se distribuye de guisa capaz a través de un Balancador de carga de la aplicación. La tubería de procesamiento de IA utiliza trabajos de procesamiento de IA Sagemaker para manejar tareas de procreación de videos, desacoplando el cálculo intensivo de la interfaz web para la optimización de costos y la mantenibilidad mejorada. Las indicaciones del becario se refinan a través de Roca hermana de Amazonque alimenta el Cogvideox-5b Maniquí para la procreación de videos de incorporación calidad, creando una opción de extremo a extremo que equilibra el rendimiento, la seguridad y la rentabilidad.

El ulterior diagrama ilustra la casa de la opción.

Arquitectura de soluciones

Maniquí COGVIDEOX

Cogvideox es un maniquí de procreación de texto a video de código destapado capaz de producir videos continuos de 10 segundos a 16 cuadros por segundo con una resolución de 768 × 1360 píxeles. El maniquí traduce efectivamente las indicaciones de texto en narraciones de video coherentes, abordando limitaciones comunes en sistemas de procreación de videos anteriores.

El maniquí utiliza tres innovaciones secreto:

  • Un autoencoder variacional 3D (VAE) que comprime videos a lo liberal de las dimensiones espaciales y temporales, mejorando la eficiencia de la compresión y la calidad del video
  • Un transformador de expertos con tormenta de disposición adaptativa que progreso la vinculación de texto a video a través de una fusión más profunda entre las modalidades
  • Entrenamiento progresivo y técnicas de paquete de ámbito de resolución múltiple que permiten la creación de videos más largos y coherentes con principios de movimiento significativos

Cogvideox incluso se beneficia de una tubería efectiva de procesamiento de datos de texto a video con diversas estrategias de preprocesamiento y un método especializado de subtítulos de video, contribuyendo a una calidad de procreación más incorporación y una mejor vinculación semántica. Los pesos del maniquí están disponibles públicamente, lo que lo hace accesible para la implementación en diversas aplicaciones comerciales, como demostraciones de productos y contenido de marketing. El ulterior diagrama muestra la casa del maniquí.

Arquitectura modelo

Prosperidad rápida

Para mejorar la calidad de la procreación de videos, la opción proporciona una opción para mejorar las indicaciones proporcionadas por el becario. Esto se hace instruyendo un maniquí de habla noble (LLM), en este caso Claude de Anthropepara tomar la auténtico de un becario inmediato y expandirlo con detalles adicionales, creando una descripción más completa para la creación de video. El aviso consta de tres partes:

  • Sección de roles: define el propósito de la IA para mejorar las indicaciones para la procreación de videos
  • Sección de tareas: especifica las instrucciones que deben realizarse con el aviso diferente
  • Sección de solicitud: donde se inserta la entrada diferente del becario

Al adicionar más principios descriptivos a la solicitud diferente, este sistema tiene como objetivo proporcionar instrucciones más ricas y detalladas a los modelos de procreación de videos, lo que puede dar como resultado expectativas de video más precisas y visualmente atractivas. Usamos la ulterior plantilla de solicitud para esta opción:

"""

Your role is to enhance the user prompt that is given to you by 
providing additional details to the prompt. The end goal is to
covert the user prompt into a short video clip, so it is necessary 
to provide as much information you can.


You must add details to the user prompt in order to enhance it for
 video generation. You must provide a 1 paragraph response. No 
more and no less. Only include the enhanced prompt in your response. 
Do not include anything else.


{prompt}

"""

Requisitos previos

Ayer de implementar la opción, asegúrese de tener los siguientes requisitos previos:

  • El kit de herramientas AWS CDK – Instale el Kit de herramientas de AWS CDK conjuntamente usando npm:
    npm install -g aws-cdk
    Esto proporciona la funcionalidad central para implementar la infraestructura como código a AWS.
  • Escritorio de Docker – Esto se requiere para el exposición y las pruebas locales. Se asegura de que las imágenes del contenedor se puedan construir y probar localmente ayer de la implementación.
  • El AWS cli – El Interfaz de estría de comandos de AWS (AWS CLI) debe instalarse y configurarse con las credenciales apropiadas. Esto requiere una cuenta de AWS con los permisos necesarios. Configurar la AWS CLI usando aws configure con su secreto de ataque y secreto.
  • Dominio de pitón – Debe tener instalado Python 3.11+ en su sistema. Recomendamos usar un entorno aparente para aislamiento. Esto se requiere tanto para la infraestructura de AWS CDK como para la aplicación de transmisión.
  • Cuenta de AWS activo – Deberá cobrar una solicitud de cuota de servicio para Sagemaker a ML.G5.4xLarge para procesar trabajos.

Implementar la opción

Esta opción ha sido probada en el us-east-1 Región de AWS. Complete los siguientes pasos para implementar:

  1. Crear y activar un entorno aparente:
python -m venv .
venv source .venv/bin/activate
  1. Instalar dependencias de infraestructura:
cd infrastructure
pip install -r requirements.txt
  1. Bootstrap el AWS CDK (si aún no se hace en su cuenta de AWS):
cdk bootstrap
  1. Implementar la infraestructura:
cdk deploy -c allowed_ips="(""$(curl -s ifconfig.me)'/32")'

Para lograr a la interfaz de becario de Streamlit, elija el enlace para StreamlitUrl en los registros de salida de CDK de AWS a posteriori de que la implementación sea exitosa. La ulterior captura de pantalla muestra la interfaz de becario de transmisión accesible a través de la URL.

Captura de pantalla de la interfaz de usuario

Vivientes de videos básicos

Complete los siguientes pasos para suscitar un video:

  1. Ingrese su indicador de habla natural en el cuadro de texto en la parte superior de la página.
  2. Copie este indicador al cuadro de texto en la parte inferior.
  3. Designar Difundir video Para crear un video usando este aviso esencial.

La ulterior es la salida del mensaje simple “A bee on a flower.”

Vivientes de videos mejorados

Para obtener resultados de veterano calidad, complete los siguientes pasos:

  1. Ingrese su solicitud auténtico en el cuadro de texto superior.
  2. Designar Mejorar un aviso Para expedir su aviso a Amazon Bedrock.
  3. Espere a que Amazon Bedrock expanda su aviso a una traducción más descriptiva.
  4. Revise el mensaje mejorado que aparece en el cuadro de texto inferior.
  5. Edite el indicador aún más si lo desea.
  6. Designar Difundir video Para iniciar el trabajo de procesamiento con COGVIDEOX.

Cuando se complete el procesamiento, su video aparecerá en la página con una opción de descarga. El ulterior es un ejemplo de una solicitud y salida mejorada:

"""
A vibrant yellow and black honeybee gracefully lands on a large, 
blooming sunflower in a lush garden on a warm summer day. The 
bee's fuzzy body and delicate wings are clearly visible as it 
moves methodically across the flower's golden petals, collecting 
pollen. Sunlight filters through the petals, creating a soft, 
warm glow around the scene. The bee's legs are coated in pollen 
as it works diligently, its antennae twitching occasionally. In 
the background, other colorful flowers sway gently in a light 
breeze, while the soft buzzing of nearby bees can be heard
"""

Agregue una imagen a su aviso

Si desea incluir una imagen con su mensaje de texto, complete los siguientes pasos:

  1. Complete la solicitud de texto y los pasos de progreso opcionales.
  2. Designar Incluir una imagen.
  3. Sube la foto que quieres usar.
  4. Con el texto y la imagen ahora preparados, elija Difundir video Para comenzar el trabajo de procesamiento.

El ulterior es un ejemplo de la solicitud mejorada mencionado con una imagen incluida.

Para ver más muestras, consulte el Pasadizo Cogvideox.

Hurtar

Para evitar incurrir en cargos en curso, limpie los capital que creó como parte de esta publicación:

cdk destroy

Consideraciones

Aunque nuestra casa flagrante sirve como una prueba de concepto efectiva, se recomiendan varias mejoras para un entorno de producción. Las consideraciones incluyen la implementación de una puerta de enlace API con AWS Lambda puntos finales de alivio respaldados para una interfaz mejorada y autenticación, introduciendo una casa basada en la huesito dulce utilizando Servicio de huesito dulce simple de Amazon (Amazon SQS) para una mejor gobierno y confiabilidad de trabajo, y mejorar las capacidades de manejo y monitoreo de errores.

Conclusión

La tecnología de procreación de videos se ha convertido en una fuerza transformadora en la creación de contenido digital, como lo demuestra nuestra opción integral basada en AWS utilizando el maniquí COGVIDEOX. Al combinar poderosos servicios de AWS como Fargate, Sagemaker y Amazon Bedrock con un progresista sistema de progreso de inmediato, hemos creado una tubería escalable y segura capaz de producir videoclips de incorporación calidad. La capacidad de la casa para manejar la procreación de texto a video a video y imagen a video, próximo con su interfaz de racionalización claro de usar, lo convierte en una útil invaluable para las empresas en sectores, desde demostraciones de productos de comercio electrónico hasta campañas de marketing personalizadas. Como se muestra en nuestros videos de muestra, la tecnología ofrece resultados impresionantes que abren nuevas vías para la expresión creativa y la producción capaz de contenido a escalera. Esta opción representa no solo un avance tecnológico, sino un vistazo al futuro de la narración visual y la comunicación digital.

Para obtener más información sobre COGVideox, consulte Cogvideox en la cara abrazada. Pruebe la opción por sí mismo y comparta sus comentarios en los comentarios.


Sobre los autores

Nick Biso es ingeniero de estudios mecánico en AWS Professional Services. Resuelve desafíos organizacionales y técnicos complejos utilizando ciencia de datos e ingeniería. Adicionalmente, construye e implementa modelos AI/ML en la aglomeración de AWS. Su pasión se extiende a su propensión a correr y diversas experiencias culturales.

Natasha tchir es un asesor en la aglomeración en el Generative AI Innovation Center, especializado en estudios mecánico. Con una sólida experiencia en ML, ahora se centra en el exposición de soluciones generativas de prueba de concepto de IA, impulsando la innovación e investigación aplicada interiormente del genaiic.

KatheRine Feng es un asesor en la aglomeración en AWS Professional Services interiormente del equipo de datos y ML. Tiene una amplia experiencia en la construcción de aplicaciones de pila completa para casos de uso de IA/ML y soluciones impulsadas por LLM.

Jinzhao Feng es ingeniero de estudios mecánico en AWS Professional Services. Se enfoca en la casa e implementación de AI generativas a gran escalera y soluciones de tuberías ML clásicas. Está especializado en FMOPS, LLMOPS y capacitación distribuida.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *