Athrun Data Intelligence


Recientemente, AWS introdujo más de 50 nuevas capacidades en sus servicios de streaming, mejorando significativamente el rendimiento, la escalera y la rentabilidad. Algunas de estas innovaciones han triplicado el rendimiento, han proporcionado un escalamiento 20 veces más rápido y han escaso los tiempos de recuperación de fallas hasta en un 90 %. Hemos hecho que sea casi sencillo para los clientes dedicar contexto en tiempo efectivo a las aplicaciones de IA y a las casas del estanque.

En esta publicación, analizamos los seis principales cambios que redefinirán los datos de transmisión de AWS.

Corredores de Amazon MSK Express: Kafka reinventado para AWS

AWS ofrece corredores Express para Streaming administrado por Amazon para Apache Kafka (Amazon MSK): un avance transformador para los clientes que necesitan clústeres Kafka de detención rendimiento que escale más rápido y cueste menos. Con los brokers Express, estamos reinventando el desacoplamiento de la computación y el almacenamiento de Kafka para desbloquear los beneficios de rendimiento y elasticidad. Los brokers Express ofrecen hasta tres veces más rendimiento que un broker Apache Kafka standard comparable, almacenamiento prácticamente ilimitado, escalamiento de almacenamiento instantáneo, escalamiento de computación en minutos frente a horas y una recuperación de fallas un 90% más rápida en comparación con los brokers Kafka standard. Los clientes pueden aprovisionar capacidad en minutos sin cálculos complejos, beneficiarse de configuraciones Kafka preestablecidas y prosperar capacidad con unos pocos clics. Los brokers Express brindan el mismo rendimiento de depreciación latencia que Kafka standard, son Kafka 100% nativos y ofrecen características esencia de Amazon MSK. No hay límites de almacenamiento por corredor y solo paga por el almacenamiento que utiliza. Con los brokers Express para Amazon MSK, las empresas pueden ampliar su uso de Kafka para consentir casos de uso aún más críticos, manteniendo bajos tanto los gastos generales operativos como los costos generales de infraestructura.

Amazon Kinesis Data Streams On-Demand: alcanzando nuevas jefatura

Flujos de datos de Amazon Kinesis On-Demand hace que a los desarrolladores les resulte sencillo transmitir gigabytes por segundo de datos sin cuidar la capacidad ni los servidores. Los desarrolladores pueden crear un nuevo flujo de datos bajo demanda o convertir un flujo de datos existente al modo bajo demanda con un solo clic. Kinesis Data Streams On-Demand ahora escalera automáticamente a 10 GBps de rendimiento de escritura y 200 GBps de rendimiento de recitación por flujo, un aumento de cinco veces. Los clientes obtendrán automáticamente este aumento de cinco veces en escalera sin privación de realizar ninguna obra.

Transmisión de datos a tablas Iceberg en casas de estanque

Las empresas están adoptando formatos de tablas abiertas y lagos, como Apache Iceberg, para extraer valía de sus datos. Manguera de datos de Amazon ahora admite una integración perfecta con las tablas Iceberg en Servicio de almacenamiento simple de Amazon (Amazon S3). Los clientes pueden transmitir datos a tablas Iceberg en Amazon S3 sin ningún compra chupatintas. Amazon Data Firehose compacta archivos pequeños, minimizando las ineficiencias del almacenamiento y mejorando el rendimiento de recitación. Amazon Data Firehose todavía maneja cambios de esquema durante el proceso para dedicar coherencia entre los conjuntos de datos en transformación. Correcto a que Amazon Data Firehose está completamente administrado y no tiene servidor, se escalera sin problemas para manejar cargas de trabajo de streaming de detención rendimiento, proporcionando una entrega de datos confiable y rápida. Esta capacidad todavía facilita la transmisión de datos almacenados en temas de MSK y flujos de datos de Kinesis a tablas Iceberg, lo que potencialmente elimina la privación de canalizaciones personalizadas de procedencia, transformación y carga (ETL). Los clientes ahora pueden sobrellevar el poder de los datos en tiempo efectivo a las tablas Iceberg sin ningún esfuerzo adicional: un cambio de canon para las empresas. Adicionalmente, Amazon Data Firehose sirve como un puente versátil para transmitir datos en tiempo efectivo desde clústeres MSK y Kinesis Data Streams al recién enérgico Tablas de Amazon S3 y Casa del estanque Amazon SageMaker. Este enfoque unificado facilita una dirección y un prospección de datos más eficaces, lo que respalda la toma de decisiones basada en datos en toda la empresa.

Liberar el valía de los datos almacenados en bases de datos con replicación de cambios en tablas Iceberg

Entregar cambios de bases de datos en tablas Iceberg se está convirtiendo en un patrón global. Ahora en lectura preliminar pública, Amazon Data Firehose admite la captura de cambios realizados en bases de datos como PostgreSQL y MySQL y la replicación de las actualizaciones en las tablas Iceberg en Amazon S3. La integración utiliza la captura de datos modificados (CDC) para entregar continuamente actualizaciones de la saco de datos, eliminando procesos manuales y reduciendo la sobrecarga operativa. Amazon Data Firehose automatiza tareas como la formación y la partición de esquemas, asegurándose de que las tablas estén optimizadas para el prospección. Con esta nueva capacidad, los clientes pueden optimizar su canalización de datos de extremo a extremo, lo que les permite introducir continuamente datos nuevos en una tabla Iceberg sin privación de crear una canalización de datos personalizada.

Contexto en tiempo efectivo para aplicaciones de IA generativa

Los clientes nos cuentan cómo quieren obtener información de la IA generativa al poder sobrellevar sus datos a grandes modelos de estilo (LLM). Quieren sobrellevar los datos generados a modelos previamente entrenados para obtener respuestas más precisas y actualizadas. Amazon MSK proporciona un maniquí que permite a los clientes combinar el contexto de datos en tiempo efectivo con los potentes LLM en Roca Amazónica para gestar respuestas de IA precisas y actualizadas sin escribir código personalizado. Los desarrolladores pueden configurar el blueprint para gestar incrustaciones de vectores utilizando modelos de incrustación de Amazon Bedrock y luego indexar esas incrustaciones en Servicio de búsqueda abierta de Amazon para datos capturados y almacenados en temas de MSK. Los clientes todavía pueden mejorar la eficiencia de la recuperación de datos utilizando el soporte integrado para técnicas de fragmentación de datos de LangChain, una biblioteca de código hendido que admite entradas de ingreso calidad para la ingesta de modelos.

Procesamiento de flujos más rentable y confiable

AWS ofrece Kinesis Client Library (KCL), una biblioteca de código hendido que simplifica el crecimiento de aplicaciones de procesamiento de transmisiones con Kinesis Data Streams. Con KCL 3.0, los clientes pueden someter los costos informáticos para procesar datos en streaming hasta en un 33 % en comparación con las versiones anteriores de KCL. KCL 3.0 introduce un cálculo de compensación de carga mejorado que monitorea continuamente la utilización de bienes de los trabajadores de procesamiento de flujo y redistribuye automáticamente la carga de los trabajadores sobreutilizados a los trabajadores subutilizados. Estos cambios todavía mejoran la escalabilidad y la eficiencia universal del procesamiento de grandes volúmenes de datos en streaming. Igualmente hemos realizado mejoras en nuestra Servicio administrado de Amazon para Apache Flink. Ofrecemos las últimas versiones de Flink en Amazon Managed Service para Apache Flink para que los clientes se beneficien de las últimas innovaciones. Los clientes todavía pueden refrescar sus aplicaciones existentes para usar nuevas versiones de Flink con una nueva función de puesta al día de lectura regional. Amazon Managed Service para Apache Flink ahora ofrece facturación por segundo, por lo que los clientes pueden ejecutar sus aplicaciones Flink durante un período corto y respaldar solo por lo que usan, hasta el segundo más cercano.

Conclusión

AWS ha realizado nuevas innovaciones en los servicios de transmisión de datos, aportando un valía convincente a los clientes en términos de rendimiento, escalabilidad, elasticidad y facilidad de uso. Estos avances permiten a las empresas utilizar datos en tiempo efectivo de modo más eficaz, lo que moderniza el camino para la próxima procreación de aplicaciones y prospección basados ​​en datos. ¡Todavía es el día 1!


Sobre los autores

Sai Maddali es directivo sénior de dirección de productos en AWS y dirige el equipo de productos de Amazon MSK. Le apasiona comprender las evacuación de los clientes y utilizar la tecnología para dedicar servicios que permitan a los clientes crear aplicaciones innovadoras. Adicionalmente del trabajo, le gusta delirar, cocinar y pasar.

tripulación de bill es directivo senior de marketing de productos. Es el comercializador líder de servicios de transmisión y correo en AWS. Incluye Amazon Managed Streaming para Apache Kafka (Amazon MSK), Amazon Managed Service para Apache Flink, Amazon Data Firehose, Amazon Kinesis Data Streams, Amazon Message Broker (Amazon MQ), Amazon Simple Queue Service (Amazon SQS) y Amazon Simple Notification Services. (Amazon SNS). Adicionalmente del trabajo, le gusta coleccionar discos de vinilo antiguos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *