Esta publicación está coescrita con Vicky Andonova y Jonathan Karon de Anomalo.
La IA generativa ha evolucionado rápidamente de una novedad a un poderoso impulsor de la innovación. Desde resumir documentos legales complejos hasta impulsar asistentes avanzados basados en el chat, las capacidades de IA se están expandiendo a un ritmo cada vez maduro. Mientras modelos de idiomas grandes (LLMS) continúan empujando nuevos límites, los datos de calidad siguen siendo el ejecutor central para obtener el impacto del mundo auténtico.
Hace un año, parecía que el diferenciador principal en aplicaciones de IA generativas sería quién podría permitirse construir o usar el maniquí más ancho. Pero con los avances recientes en los costos de capacitación de modelos almohadilla (como Deepseek-R1) y mejoras continuas de rendimiento de precios, los modelos poderosos se están convirtiendo en una mercancía. El éxito en la IA generativa se está volviendo menos sobre la construcción del maniquí correcto y más sobre encontrar el caso de uso correcto. Como resultado, el borde competitivo está cambiando con destino a el acercamiento a los datos y la calidad de los datos.
En este entorno, las empresas están preparadas para sobresalir. Tienen una mina de oro oculta de décadas de texto no estructurado, todo de las transcripciones de llamadas e informes escaneados para apoyar boletos y registros de redes sociales. El desafío es cómo usar esos datos. Alterar archivos no estructurados, apoyar el cumplimiento y mitigar los problemas de calidad de los datos se convierten en obstáculos críticos cuando una ordenamiento pasa de los pilotos de IA a las implementaciones de producción.
En esta publicación, exploramos cómo puedes usar Anomalo con Servicios web de Amazon (AWS) AI y educación inevitable (Ai/ml) para perfilar, validar y acicalar las colecciones de datos no estructuradas para alterar su pantano de datos en una fuente confiable para las iniciativas de IA listas para la producción, como se muestra en la ulterior figura.
El desafío: analizar documentos empresariales no estructurados a escalera
A pesar de la acogida generalizada de IA, muchos proyectos de IA empresariales fallan oportuno a la mala calidad de los datos y los controles inadecuados. Gartner predice que el 30% de los proyectos de IA generativos serán abandonados en 2025. Incluso las organizaciones más basadas en datos se han centrado principalmente en utilizar datos estructurados, dejando contenido no estructurado subutilizado y sin superponer en lagos de datos o sistemas de archivos. Sin confiscación, más del 80% de los datos empresariales no están estructurados (según Investigación de la escuela MIT Sloan), que albarca todo, desde contratos legales y presentaciones financieras hasta publicaciones en las redes sociales.
Para los principales oficiales de información (CIO), los principales oficiales técnicos (CTO) y los principales oficiales de seguridad de la información (CISO), los datos no estructurados representan riesgos y oportunidades. Ayer de poder usar contenido no estructurado en aplicaciones de IA generativas, debe afrontar los siguientes obstáculos críticos:
- Cuna – El gratitud de caracteres ópticos (OCR), el exploración y la concepción de metadatos pueden ser poco confiables si no se automatizan y validan. Por otra parte, si la linaje es inconsistente o incompleta, puede dar superficie a datos malformados.
- Cumplimiento y seguridad – Manejo de información de identificación personal (PII) o propiedad intelectual (IP) de propiedad exige una gobernanza rigurosa, especialmente con el Ley de AI de la UE, Ley de AI de Colorado, Regulación caudillo de protección de datos (GDPR), Ley de privacidad del consumidor de California (CCPA), y regulaciones similares. La información confidencial puede ser difícil de identificar en el texto no estructurado, lo que lleva al mal manejo inadvertido de esa información.
- Calidad de datos -Los datos incompletos, desagradables, duplicados, fuera de tema o mal escritos pueden contaminar sus modelos de IA generativos y Engendramiento aumentada de recuperación Contexto (trapo), produciendo horizontes alucinadas, desactualizadas, inapropiadas o engañosas. Cerciorarse de que sus datos sean de entrada calidad ayuda a mitigar estos riesgos.
- Escalabilidad y costo -La capacitación o los modelos de ajuste fino en los datos ruidosos aumenta los costos de calculación de calcular al crecer innecesariamente el conjunto de datos de capacitación (los costos de cálculo de capacitación tienden a crecer linealmente con el tamaño del conjunto de datos), y el procesamiento y el almacenamiento de datos de quebranto calidad en una almohadilla de datos vectorial para la capacidad de procesamiento y almacenamiento de desechos de desechos de trapo.
En extracto, las iniciativas de IA generativas a menudo falsifican, no porque el maniquí subyacente es insuficiente, pero oportuno a que la tubería de datos existente no está diseñada para procesar datos no estructurados y aún cumplir con los requisitos de ingestión y cumplimiento de entrada calidad y entrada calidad. Muchas compañías se encuentran en las primeras etapas de afrontar estos obstáculos y enfrentan estos problemas en sus procesos existentes:
- Manual y pausado -El exploración de grandes colecciones de documentos no estructurados se friso en la revisión manual de los empleados, creando procesos que requieren mucho tiempo que retrasen los proyectos.
- Propenso a los errores – La revisión humana es susceptible a errores e inconsistencias, lo que lleva a la reserva inadvertida de datos críticos y la inclusión de datos incorrectos.
- Intensivo -El proceso de revisión del documento manual requiere un tiempo significativo del personal que podría desgastar mejor en actividades comerciales de maduro valencia. Los presupuestos no pueden apoyar el nivel de personal necesario para examinar las colecciones de documentos empresariales.
Aunque los procesos de exploración de documentos existentes proporcionan información valiosa, no son lo suficientemente eficientes o precisos como para satisfacer las deyección comerciales modernas para la toma de decisiones oportunas. Las organizaciones necesitan una posibilidad que pueda procesar grandes volúmenes de datos no estructurados y ayudar a apoyar el cumplimiento de las regulaciones al tiempo que protege la información confidencial.
La posibilidad: un enfoque de fracción empresarial para la calidad de datos no estructurada
Anomalo utiliza una pila en gran medida segura y escalable proporcionada por AWS que puede usar para detectar, aislar y afrontar problemas de calidad de datos en datos no estructurados, en minutos en superficie de semanas. Esto ayuda a sus equipos de datos a ofrecer aplicaciones de IA de parada valencia más rápido y con menos peligro. La inmueble de la posibilidad de Anomalo se muestra en la ulterior figura.
- Ingestión automatizada y linaje de metadatos – Anomalo automatiza el exploración de OCR y texto para archivos PDF, presentaciones de PowerPoint y documentos de Word almacenados en Servicio de almacenamiento simple de Amazon (Amazon S3) usando escalera cibernética Amazon Elastic Cloud Compute (Amazon EC2) instancias, Servicio de Kubernetes de Amazon Elastic (Amazon EKS), y Registro de contenedores elásticos de Amazon (Amazon ECR).
- Observabilidad de datos continuos – Anomalo inspecciona cada juego de datos extraídos, detectando anomalías como texto truncado, campos vacíos y duplicados antiguamente de que los datos lleguen a sus modelos. En el proceso, monitorea la lozanía de su tubería no estructurada, marcando aumentos en documentos defectuosos o deriva de datos inusuales (por ejemplo, formatos de archivo nuevos, un número inesperado de adiciones o deleciones, o cambios en el tamaño del documento). Con esta información revisada e informada por Anomalo, sus ingenieros pueden acaecer menos tiempo revisando manualmente a través de registros y más tiempo optimizando las características de IA, mientras que los CISO obtienen visibilidad en los riesgos relacionados con los datos.
- Gobierno y cumplimiento -La detección de problemas incorporada y la aplicación de políticas ayudan a encubrir o eliminar PII y verbo inmoderado. Si un juego de documentos escaneados incluye direcciones personales o diseños propietarios, se puede marcar para una revisión justo o de seguridad, minimizando el peligro regulatorio y de reputación. Puede usar Anomalo para determinar problemas y metadatos personalizados que se extraerán de documentos para resolver una amplia abanico de deyección de gobierno y comerciales.
- IA escalable en AWS – Anomalo usa Roca de amazon Para dar a las empresas una opción de LLMS flexibles y escalables para analizar la calidad del documento. La inmueble moderna de Anomalo se puede implementar como software como servicio (SaaS) o a través de un Nubarrón privada posible de Amazon (Amazon VPC) Conexión para satisfacer sus deyección operativas y de seguridad.
- Datos confiables para aplicaciones comerciales de IA – La capa de datos validada proporcionada por Anomalo y AWS Glue ayuda a cerciorarse de que solo el contenido noble y permitido fluya a su aplicación.
- Admite su inmueble de IA generativa -Ya sea que use el ajuste fino o continuo de la capacitación en un LLM para crear un versado en la materia, acumular contenido en una almohadilla de datos vectorial para RAG o cotejar con otras arquitecturas generativas de IA, asegurándose de que sus datos estén limpios y validados, mejore la producción de aplicaciones, preserve la confianza de la marca y mitigue los riesgos comerciales.
Impacto
El uso de los servicios de Anomalo y AWS AI/ML para datos no estructurados proporciona estos beneficios:
- Carga operativa estrecha -Las reglas y el motor de evaluación habitual de Anomalo ahorran meses de tiempo de exposición y mantenimiento continuo, liberando el tiempo para diseñar nuevas características en superficie de desarrollar reglas de calidad de datos.
- Costos optimizados -Entrenamiento de modelos LLMS y ML en datos de quebranto calidad desperdicia una preciosa capacidad de GPU, mientras que la vectorización y almacenamiento de esos datos para RAG aumenta los costos operativos generales, y los dos degradan el rendimiento de la aplicación. El filtrado de datos temprano reduce estos gastos ocultos.
- Tiempo más rápido para las ideas -Anomalo clasifica y inscripción automáticamente el texto no estructurado, dando a los científicos de datos ricos datos para rodar nuevos prototipos generativos o paneles sin el trabajo previo del etiquetado que consume mucho tiempo.
- Cumplimiento y seguridad fortalecidos – Identificar PII y solidarizarse a las reglas de retención de datos está integrada en la tubería, admitiendo políticas de seguridad y reduciendo la preparación necesaria para auditorías externas.
- Crear un valencia duradero – El panorama generativo de IA continúa evolucionando rápidamente. Aunque las inversiones de LLM y la inmueble de aplicaciones pueden depreciarse rápidamente, los datos confiables y seleccionados son una envite segura que no se desperdiciará.
Conclusión
La IA generativa tiene el potencial de ofrecer un valencia masivo:Gartner estima el 15-20% de aumento de los ingresos, el 15% de parquedad de costos y el 22% de restablecimiento de la productividad. Para obtener estos resultados, sus aplicaciones deben construirse sobre una almohadilla de datos confiables, completos y oportunos. Al ofrecer una posibilidad de escalera empresarial obvio de usar para monitoreo de calidad de datos estructurado y no estructurado, Anomalo lo ayuda a entregar más proyectos de IA a la producción más rápido mientras cumple con los requisitos de legatario y de gobierno.
¿Interesado en asimilar más? Repasar Posibilidad de calidad de datos no estructurada de Anomalo y solicitar una demostración o Contáctenos Para una discusión en profundidad sobre cómo comenzar o medrar su alucinación generativo de IA.
Sobre los autores
Vicky Andonova es el GM de IA generativa en Anomalo, la compañía reinventa la calidad de los datos empresariales. Como miembro del equipo fundador, Vicky ha pasado los últimos seis primaveras pione en las iniciativas de educación inevitable de Anomalo, transformando modelos AI avanzados en ideas procesables que capacitan a las empresas para esperar en sus datos. Actualmente, lidera un equipo que no solo trae productos de IA generativos innovadores al mercado, sino que además está construyendo una posibilidad de monitoreo de calidad de datos de primera en clase específicamente diseñada para datos no estructurados. Anteriormente, en Instacart, Vicky construyó la plataforma de experimentación de la compañía y dirigió iniciativas de toda la empresa a la calidad de la entrega de comestibles. Ella tiene un Be de la Universidad de Columbia.
Jonathan Karon Leads Partner Innovation en Anomalo. Trabaja en estrecha colaboración con las empresas en todo el ecosistema de datos para integrar el monitoreo de la calidad de los datos en herramientas y flujos de trabajo secreto, ayudando a las empresas a obtener prácticas de datos de parada funcionamiento y disfrutar tecnologías novedosas más rápido. Ayer de Anomalo, Jonathan creó la observabilidad de la aplicación móvil, la inteligencia de datos y los productos DevSecops en New Relic, y fue superior de producto en una inicio generativo de ventas de IA y éxito del cliente. Tiene una diploma en ciencias cognitivas de Hampshire College y ha trabajado con IA y tecnología de exploración de datos a lo holgado de su carrera.
Mahesh Biradar es un arquitecto senior de soluciones en AWS con una historia en la industria de TI y servicios. Ayuda a las PYME en los Estados Unidos a cumplir sus objetivos comerciales con la tecnología en la cirro. Tiene una diploma en ingeniería de VJTI y tiene su sede en la ciudad de Nueva York (EE. UU.)
Emad Tawfik es un arquitecto sazonado de soluciones senior en Amazon Web Services, con más de una período de experiencia. Su especialización se encuentra en el ámbito del almacenamiento y las soluciones en la cirro, donde se destaca en la elaboración de arquitecturas rentables y escalables para los clientes.