Homogeneizar la transmisión y los datos analíticos con Amazon Data FireHose y Amazon Sagemaker Lakehouse

Las organizaciones están cada vez más requeridas para obtener información en tiempo positivo de sus datos mientras mantienen la capacidad de realizar descomposición. Este requisito dual presenta un desafío significativo: cómo cerrar la brecha entre los datos de transmisión y las cargas de trabajo analíticas sin crear tuberías de datos complejas y difíciles de prolongar. En esta publicación, demostramos cómo simplificar este proceso utilizando Amazon Data Firehose (Firehose) para entregar datos de transmisión directamente a Apache iceberg mesas en Amazon Sagemaker Lakehousecreando una tubería simplificada que reduce la complejidad y la sobrecarga de mantenimiento.

La transmisión de datos capacita a los modelos AI y Machine Learning (ML) para ilustrarse y adaptarse en tiempo positivo, lo cual es crucial para aplicaciones que requieren información inmediata o respuestas dinámicas a las condiciones cambiantes. Esto crea nuevas oportunidades para la agilidad e innovación empresarial. Los casos de uso secreto incluyen predecir fallas en el equipo basadas en datos del sensor, monitorear los procesos de la esclavitud de suministro en tiempo positivo y permitir que las aplicaciones de IA responda dinámicamente a las condiciones cambiantes. Los datos de transmisión en tiempo positivo ayudan a los clientes a tomar decisiones rápidas, cambiando fundamentalmente la forma en que las empresas compiten en los mercados en tiempo positivo.

Amazon Data FireHose adquiere, transforma y ofrece flujos de datos a los lagos en los lagos, lagos de datos, los almacenes de datos y los servicios de descomposición, con escalera cibernética y entrega en segundos. Para las cargas de trabajo analíticas, una edificio Lakehouse ha surgido como una decisión efectiva, combinando los mejores utensilios de lagos de datos y almacenes de datos. Apache Iceberg, un formato de tabla hendido, permite esta transformación al proporcionar garantías transaccionales, desarrollo del esquema y manejo de metadatos eficientes que anteriormente solo estaban disponibles en los almacenes de datos tradicionales. Sagemaker Lakehouse unifica sus datos Servicio de almacenamiento simple de Amazon (Amazon S3) Lagos de datos, Amazon Redshift almacenes de datos y otras fuentes, y le brindan la flexibilidad de aceptar a sus datos en el circunscripción con herramientas y motores compatibles con iceberg. Mediante el uso de Sagemaker Lakehouse, las organizaciones pueden servirse el poder del iceberg mientras se benefician de la escalabilidad y la flexibilidad de una decisión basada en la aglomeración. Esta integración elimina las barreras tradicionales entre el almacenamiento de datos y los procesos de ML, por lo que los trabajadores de datos pueden trabajar directamente con las tablas de iceberg en sus herramientas y cuadernos preferidos.

En esta publicación, le mostramos cómo crear mesas de iceberg en Estudio unificado de Amazon Sagemaker y transmitir datos a estas tablas utilizando FireHose. Con esta integración, los ingenieros de datos, los analistas y los científicos de datos pueden colaborar sin problemas y construir descomposición de trabajo de extremo a extremo y flujos de trabajo ML utilizando Sagemaker Unified Studio, eliminando los silos tradicionales y acelerando el delirio de la ingestión de datos a los modelos ML de producción.

Descripción genérico de la decisión

El próximo diagrama ilustra la edificio de cómo FireHose puede entregar datos en tiempo positivo a Sagemaker Lakehouse.

Esta publicación incluye un AWS CloudFormation plantilla para configurar posibles de soporte para que FireHose pueda entregar datos de transmisión a las tablas de iceberg. Puede revisarlo y personalizarlo para satisfacer sus deyección. La plantilla realiza las siguientes operaciones:

Requisitos previos

Para este tutorial, debe tener los siguientes requisitos previos:

Luego de crear los requisitos previos, verifique que pueda iniciar sesión en Sagemaker Unified Studio y el plan se crea con éxito. Cada plan creado en Sagemaker Unified Studio obtiene una ubicación del plan y un rol de plan IAM, como se destaca en la próximo captura de pantalla.

Crear una mesa de iceberg

Para esta decisión, usamos Amazon Athena Como motor de nuestro editor de consultas. Complete los siguientes pasos para crear su mesa de iceberg:

En Sagemaker Unified Studio, en el Construir Menú, elija Editor de consultas.

Elija Athena como el editor del motor para consultas y elija la almohadilla de datos AWS Glue creada para el plan.

Use la próximo instrucción SQL para crear la tabla Iceberg. Asegúrese de proporcionar la almohadilla de datos de Glue AWS de su plan y la ubicación del Tesina Amazon S3 (se puede encontrar en la página Descripción genérico del plan):

CREATE TABLE firehose_events (
type struct,
customer_id string,
event_timestamp timestamp,
region string)
LOCATION '/iceberg/events'
TBLPROPERTIES (
'table_type'='iceberg',
'write_compression'='zstd'
);

Implementar los posibles de apoyo

El próximo paso es implementar los posibles requeridos en su entorno AWS utilizando una plantilla de CloudFormation. Complete los siguientes pasos:

Designar Pila de emanación.
Designar Próximo.
Deja el nombre de la pila como firehose-lakehouse.
Proporcione el nombre de usufructuario y la contraseña que desea utilizar para aceptar a la aplicación del padre de datos de Amazon Kinesis.
Para Nombre de datosingrese el nombre de la almohadilla de datos de pegamento AWS.
Para ProjectBucketNameingrese el nombre del cubo del plan (sito en la página de detalles del plan Sagemaker Unified Studio).
Para Nombre de tableingrese el nombre de la tabla creado en Sagemaker Unified Studio.
Designar Próximo.

Preferir Reconozco que AWS CloudFormation podría crear posibles de IAM y nominar Próximo.

Completa la pila.

Crea una corriente de filo

Complete los siguientes pasos para crear una transmisión de FireHose para entregar datos a Amazon S3:

En el Consola de fogatasnominar Crea Firehose Stream.

Para Fuentenominar Poner directamente.
Para Destinonominar Mesas de iceberg apache.

Este ejemplo elige Poner directamente Como fuente, pero puede aplicar los mismos pasos para otras fuentes de manga de fuego, como FRUJES DE DATOS DE AMAZON KINESIS y Transmisión administrada de Amazon para Apache Kafka (Amazon MSK).

Para Nombre de la corrienteingresar firehose-iceberg-events.

Recopile el nombre de la almohadilla de datos y el nombre de la tabla del plan Sagemaker Unified Studio para usar en el próximo paso.

En el Configuración de destino sección, habilitar Analización en renglón para la información de enrutamiento y proporcione el nombre de la almohadilla de datos y el nombre de la tabla del paso previo.

Asegúrese de adjuntar la almohadilla de datos y los nombres de las tablas en cotizaciones dobles si desea entregar datos a una sola almohadilla de datos y tabla. Amazon Data FireHose además puede enrutar registros a diferentes tablas en función del contenido del registro. Para obtener más información, consulte Enrutar registros entrantes a diferentes mesas de iceberg.

Bajo Sugerencias de búferreduzca el tamaño del búfer a 1 MIB y el intervalo del tampón a 60 segundos. Puede ajustar estas configuraciones en función de las deyección de latencia de su caso de uso.

En el Configuración de copia de seguridad Sección, ingrese el cubo S3 creado por la plantilla de CloudFormation (s3://firehose-demo-iceberg--) y el prefijo de salida de error (error/events-1/).

En el Configuración vanguardia sección, habilitar Amazon CloudWatch Error de registro para solucionar problemas de cualquier fallas y para Roles IAM existenteselige el papel que comienza con Firehose-Iceberg-Stack-FirehoseIamRole-*creado por la plantilla de CloudFormation.
Designar Crea Firehose Stream.

Gestar datos de transmisión

Utilice el padre de datos de Amazon Kinesis para editar registros de datos en su transmisión de firehose:

En el Console de AWS CloudFormationnominar Pilas En el panel de navegación y bahía su pila.
Seleccione la pila anidada para el padre y vaya al Panorama pestaña.
Elija la URL del padre de datos de Amazon Kinesis.

Ingrese las credenciales que definió al implementar la pila CloudFormation.

Elija la región de AWS donde implementó la pila de CloudFormation y elija su transmisión de Fireshose.
Para la plantilla, reemplace los títulos predeterminados con el próximo código:

{
"type": {
"device": "{{random.arrayElement(("mobile", "desktop", "tablet"))}}",
"event": "{{random.arrayElement(("firehose_events_1", "firehose_events_2"))}}",
"action": "update"
},
"customer_id": "{{random.number({ "min": 1, "max": 1500})}}",
"event_timestamp": "{{date.now("YYYY-MM-DDTHH:mm:ss.SSS")}}",
"region": "{{random.arrayElement(("pdx", "nyc"))}}"
}

Ayer de dirigir datos, elija Plantilla de prueba Para ver un ejemplo de carga útil.
Designar Destinar datos.

Puede monitorear el progreso del flujo de datos.

Consulta la tabla en Sagemaker Unified Studio

Ahora que FireHose está entregando datos a Sagemaker Lakehouse, puede realizar descomposición de esos datos en Sagemaker Unified Studio utilizando diferentes servicios de descomposición de AWS.

Bañar

En genérico, es una buena experiencia duchar los posibles creados como parte de esta publicación para evitar costos adicionales. Complete los siguientes pasos:

En el Console de AWS CloudFormationnominar Pilas En el panel de navegación.
Seleccione el stack firehose-lakehouse* y en el Comportamiento Menú, elija Eliminar la pila.
En Sagemaker Unified Studio, elimine el dominio creado para esta publicación.

Conclusión

Los datos de transmisión permiten a los modelos tomar predicciones o decisiones basadas en la información más fresco, lo cual es crucial para aplicaciones sensibles al tiempo. Al incorporar datos en tiempo positivo, los modelos pueden tomar predicciones y decisiones más precisas. Los datos de transmisión pueden ayudar a las organizaciones a evitar los costos asociados con el almacenamiento y el procesamiento de grandes conjuntos de datos, ya que se centra en la información más relevante. Amazon Data FireHose hace que sea sencillo resistir datos de transmisión en tiempo positivo a los lagos de datos en formato iceberg y unificarlos con otros activos de datos en Sagemaker Lakehouse, haciendo que los datos de transmisión sean accesibles por varios analíticos y servicios de IA en Sagemaker Unified Studio para ofrecer información en tiempo positivo. Pruebe la decisión para su propio caso de uso y comparta sus comentarios y preguntas en los comentarios.

Sobre los autores

Kalyan Janaki Es diestro senior de Big Data & Analytics con Amazon Web Services. Ayuda a los clientes arquitectos y construyendo soluciones en extremo escalables, performadores y basadas en la aglomeración en AWS.

Phaneendra vuliyaragoli es un líder de mandato de productos para Amazon Data FireHose en AWS. En este rol, Phaneendra lidera la táctica del producto y el mercado para la plantilla de fuego de Amazon Data.

María Ho es directivo de marketing de productos para servicios de transmisión y correo en AWS. Trabaja con servicios, incluida la transmisión administrada por Amazon para Apache Kafka (Amazon MSK), el servicio administrado de Amazon para Apache Flink, Amazon Data Firehose, Amazon Kinesis Data Streams, Amazon MQ, Amazon Simple Queue Service (Amazon SQS) y Amazon Simple Notification Services (Amazon SNS).

Etiquetado Amazon, analíticos, con, Data, datos, Firehose, Lakehouse, los, SageMaker, Transmisión, unificar