Athrun Data Intelligence



Los datos sintéticos se generan artificialmente por algoritmos para imitar las propiedades estadísticas de los datos reales, sin contener ninguna información de fuentes del mundo verdadero. Si adecuadamente los números concretos son difíciles de precisar, algunas estimaciones sugieren que más del 60 por ciento de los datos utilizados para aplicaciones de IA en 2024 era sintética, y se prórroga que esta número crezca en todas las industrias.

Conveniente a que los datos sintéticos no contienen información del mundo verdadero, tienen la promesa de garantizar la privacidad al tiempo que reducen el costo y aumenta la velocidad a la que se desarrollan nuevos modelos de IA. Pero el uso de datos sintéticos requiere una evaluación cuidadosa, planificación y controles y equilibrios para evitar la pérdida de rendimiento cuando se implementan los modelos de IA.

Para desempacar algunos pros y contras del uso de datos sintéticos, MIT News habló con Kalyan Veeramachaneni, un principal verificado de investigación en el Laboratorio de Sistemas de Información y Valentía y Cofundador de Datacebo cuya plataforma de núcleo destapado, la cúpula de datos sintéticos, ayuda Los usuarios generan y prueban datos sintéticos.

P: ¿Cómo se crean los datos sintéticos?

A: Los datos sintéticos se generan algorítmicamente, pero no provienen de una situación verdadero. Su valencia radica en su similitud estadística con datos reales. Si estamos hablando del jerigonza, por ejemplo, los datos sintéticos parecen mucho como si un humano hubiera escrito esas oraciones. Si adecuadamente los investigadores han creado datos sintéticos durante mucho tiempo, lo que ha cambiado en los últimos primaveras es nuestra capacidad de construir modelos generativos a partir de datos y usarlos para crear datos sintéticos realistas. Podemos tomar un poco de datos reales y construir un maniquí generativo a partir de eso, que podemos usar para crear tantos datos sintéticos como queramos. Por otra parte, el maniquí crea datos sintéticos de una modo que captura todas las reglas subyacentes y los patrones infinitos que existen en los datos reales.

Esencialmente hay cuatro modalidades de datos diferentes: jerigonza, video o imágenes, audio y datos tabulares. Los cuatro tienen formas tenuemente diferentes de construir los modelos generativos para crear datos sintéticos. Un LLM, por ejemplo, no es más que un maniquí generativo del que está probando datos sintéticos cuando le hace una pregunta.

Muchos datos de idiomas e imágenes están disponibles públicamente en Internet. Pero los datos tabulares, que son los datos recopilados cuando interactuamos con los sistemas físicos y sociales, a menudo se bloquean detrás de los firewalls empresariales. Gran parte es sensible o privada, como las transacciones de los clientes almacenadas por un asiento. Para este tipo de datos, plataformas como la cúpula de datos sintéticos proporcionan software que puede estar de moda para crear modelos generativos. Esos modelos luego crean datos sintéticos que preservan la privacidad del cliente y se pueden compartir más ampliamente.

Una cosa poderosa de este enfoque de modelado generativo para sintetizar datos es que las empresas ahora pueden construir un maniquí circunscrito personalizado para sus propios datos. La IA generativa automatiza lo que solía ser un proceso manual.

P: ¿Cuáles son algunos beneficios del uso de datos sintéticos y para qué casos de uso y aplicaciones son particularmente adecuados?

A: Una aplicación fundamental que ha crecido enormemente en la última lapso es utilizar datos sintéticos para probar aplicaciones de software. Hay una deducción basada en datos detrás de muchas aplicaciones de software, por lo que necesita datos para probar ese software y su funcionalidad. En el pasado, las personas han recurrido a difundir datos manualmente, pero ahora podemos usar modelos generativos para crear tantos datos como necesitemos.

Los usuarios igualmente pueden crear datos específicos para las pruebas de aplicaciones. Digamos que trabajo para una empresa de comercio electrónico. Puedo difundir datos sintéticos que imitan a los clientes reales que viven en Ohio e hicieron transacciones relacionadas con un producto en particular en febrero o marzo.

Conveniente a que los datos sintéticos no se extraen de situaciones reales, igualmente son preservadores de la privacidad. Uno de los mayores problemas en las pruebas de software ha sido el acercamiento a datos reales confidenciales para probar el software en entornos de no producción, oportuno a problemas de privacidad. Otro beneficio inmediato es en las pruebas de rendimiento. Puede crear mil millones de transacciones a partir de un maniquí generativo y probar qué tan rápido puede procesarlas su sistema.

Otra aplicación donde los datos sintéticos tienen mucha promesa es en los modelos de estudios de máquinas de entrenamiento. A veces, queremos que un maniquí de IA nos ayude a predecir un evento que es menos frecuente. Un asiento puede querer usar un maniquí de IA para predecir transacciones fraudulentas, pero puede favor muy pocos ejemplos reales para capacitar a un maniquí que pueda identificar el fraude con precisión. Los datos sintéticos proporcionan un aumento de datos: ejemplos de datos adicionales que son similares a los datos reales. Estos pueden mejorar significativamente la precisión de los modelos de IA.

Por otra parte, a veces los usuarios no tienen tiempo o los capital financieros para resumir todos los datos. Por ejemplo, la resumen de datos sobre la intención del cliente requeriría realizar muchas encuestas. Si termina con datos limitados y luego intenta entrenar un maniquí, no funcionará adecuadamente. Puede aumentar agregando datos sintéticos para entrenar mejor esos modelos.

. ¿Cuáles son algunos de los riesgos o posibles dificultades del uso de datos sintéticos, y hay pasos que los usuarios pueden tomar para preparar o mitigar esos problemas?

A. Una de las preguntas más importantes que las personas a menudo tienen en mente es, si los datos se crean sintéticamente, ¿por qué debería fiarse en ellos? Determinar si puede fiarse en los datos a menudo se reduce a evaluar el sistema genérico donde los está utilizando.

Hay muchos aspectos de los datos sintéticos que hemos podido evaluar durante mucho tiempo. Por ejemplo, existen métodos existentes para calibrar qué tan cerca están los datos sintéticos a los datos reales, y podemos calibrar su calidad y si conservan la privacidad. Pero hay otras consideraciones importantes si está utilizando esos datos sintéticos para entrenar un maniquí de estudios automotriz para un nuevo caso de uso. ¿Cómo sabría que los datos conducirán a modelos que aún obtienen conclusiones válidas?

Están surgiendo nuevas métricas de validez, y el pedantería está ahora en la validez para una tarea en particular. En realidad debe profundizar en su flujo de trabajo para certificar que los datos sintéticos que agregan al sistema aún le permitan sacar conclusiones válidas. Eso es poco que debe hacerse cuidadosamente sobre una aplicación por aplicación.

El sesgo igualmente puede ser un problema. Transmitido que se crea a partir de una pequeña cantidad de datos reales, el mismo sesgo que existe en los datos reales puede transferirse a los datos sintéticos. Al igual que con los datos reales, deberá cerciorarse deliberadamente de que el sesgo se elimine a través de diferentes técnicas de muestreo, que pueden crear conjuntos de datos equilibrados. Se necesita una planificación cuidadosa, pero puede calibrar la vivientes de datos para evitar la proliferación de sesgo.

Para ayudar con el proceso de evaluación, nuestro reunión creó el Biblioteca de métricas de datos sintéticos. Nos preocupa que las personas usaran datos sintéticos en su entorno y que darían diferentes conclusiones en el mundo verdadero. Creamos una biblioteca de métricas y evaluación para certificar controles y equilibrios. La comunidad de estudios automotriz ha enfrentado muchos desafíos para certificar que los modelos puedan generalizarse a nuevas situaciones. El uso de datos sintéticos agrega una dimensión completamente nueva a ese problema.

Espero que los viejos sistemas de trabajo con datos, ya sea para construir aplicaciones de software, objetar preguntas analíticas o modelos de trenes, cambiar drásticamente a medida que nos volvemos más sofisticados al construir estos modelos generativos. Muchas cosas que nunca hemos podido hacer antiguamente serán posibles ahora.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *