La ingeniería de datos está teniendo un momento.
De repente, todo el mundo se preocupa por los canales, el ralea y los “cimientos de la IA”. Todavía me sorprende, sobre todo porque son las mismas cosas de las que nadie quería musitar durante primaveras. Eran las partes poco glamorosas del trabajo con datos, las tuberías detrás de los tableros.
Ahora vuelven a ser temas de titulares. El progreso siempre vuelve a los fundamentos, y eso es bueno, porque cero en la IA funciona si los datos no funcionan.
La IA ha comprimido primaveras de masculinidad tecnológica en meses. Pasamos de “eso es interesante” a “implementarlo en todas partes” sin detenernos a educarse qué se rompe y por qué. Ese es el trabajo ahora. Y esto no sucede en arquitecturas de modelos ni en algoritmos de ajuste. Más perfectamente, está sucediendo en la ingeniería de datos, en los mismos fundamentos que siempre hemos indispensable: tuberías limpias, gobernanza sólida, ralea rastreable y sistemas que fallan sin problemas.
La IA es solo la última tecnología que atraviesa ese mismo ciclo de descubrimiento y desilusión. Lo que lo hace perdurar son los principios que los ingenieros de datos han practicado durante primaveras.
La ingeniería de datos es infraestructura para el mundo digital. No obtienes crédito cuando funciona, pero todo se detiene cuando no funciona. El trabajo no es simplemente mover datos del punto A al punto B. Es convertir la información en bruto en poco que tenga sentido, agregando contexto, dando forma a la estructura y creando el tejido conectivo que convierte los datos en conocimiento. Puntada con mirar los hallazgos de un documentación fresco de Snowflake MIT Tech Review, Redefiniendo la ingeniería de datos en la era de la IA: El 72% de los 400 líderes tecnológicos encuestados consideran que los ingenieros de datos son parte integral de su negocio.
El trabajo es invisible la decano parte del tiempo: afirmar no a atajos que se romperán más tarde, rastrear problemas que nadie más ve y perseverar vivos los sistemas mediante una disciplina silenciosa. Ese es el oficio.
Cómo aprendemos lo que no sabemos
Cada nueva tecnología sigue el mismo patrón: entusiasmo, confusión, fracaso y, finalmente, comprensión. La IA no es diferente; simplemente se está moviendo más rápido.
Todavía estamos aprendiendo qué puede hacer, dónde rotura y cómo hacerlo confiable. Y esa curva de formación no es sólo técnica: es cultural. Se comercio de cómo las personas comparten lo que saben y cómo las organizaciones convierten la incertidumbre en progreso.
La parte difícil no es construir estos sistemas. Es comprender lo que verdaderamente sabemos, lo que sólo creemos entender y lo que ni siquiera hemos cuestionado.
Recientemente, me encontré con un ámbito simple pero revelador que se utiliza a menudo para el examen de riesgos: lo conocido y lo desconocido. Encaja perfectamente con nuestra situación en cuanto a datos e inteligencia industrial. Nos ayuda a ver no sólo lo que sabemos sino asimismo lo que asumimos, ignoramos u olvidamos preguntar. Nos muestra dónde vive el cierto peligro.
El 2×2 de la efectividad
El maniquí de “lo conocido conocido” existe desde hace décadas. Se hizo reconocido cuando el entonces Secretario de Defensa, Donald Rumsfeld, lo utilizó durante una conferencia de prensa en 2002pero la idea se remonta a la investigación en psicología de la término de 1950, cuando Joseph Luft y Harrington Ingham crearon el ventana de johariuna forma de pensar en lo que nosotros sabemos, lo que otros saben y lo que aún está oculto.
Encaja perfectamente en el ámbito de los datos y la IA porque muestra cómo aprenden verdaderamente las personas y los sistemas.
| Conocido | Desconocido | |
|---|---|---|
| Conocido | Conocidos conocidos: Lo que entendemos y en lo que confiamos | Incógnitas conocidas: Lo que sabemos aún no lo hemos descubierto |
|
Desconocido |
Conocidos desconocidos: Lo que alguno más sabe pero nosotros no. | Incógnitas desconocidas: Las cosas que ni siquiera sabíamos que no sabíamos |
Parece simple, pero explica dónde las organizaciones tienen éxito, tropiezan y, a veces, fracasan por completo.
Lo conocido: Las fundaciones bajo asedio
Todos conocemos los fundamentos (canalizaciones, gobernanza, ralea, documentación), pero tendemos a olvidarlos en el momento en que aparece un nuevo ámbito.
La IA no ha cambiado su importancia; simplemente ha hecho evidente cuando faltan. Piense en lo que sucede cuando intenta construir IA en un contorno inestable:
- El maniquí alucina porque nadie validó los datos del entrenamiento.
- La tubería se rompe silenciosamente, alimentando datos obsoletos a la producción.
- Un “prototipo rápido” se convierte en una dependencia crítica para el negocio.
Las salvaguardas silenciosas son las que mantienen los sistemas en pie: el trabajo de ralea que detecta las dependencias rotas; la prueba de esquema que evita que se propaguen datos incorrectos; o el interruptor de seguridad que detiene la ingestión cuando la calidad devaluación.
La IA no hizo que estas cosas fueran opcionales. Los hizo no negociables.
Unas bases sólidas no sólo evitan los apagones; ellos controlan el costo. Cada trabajo no probado, ralea roto o maniquí obsoleto consume computación y tiempo. Los sistemas con mejor rendimiento no siempre son los que funcionan más rápido: son los que funcionan de modo predecible. La eficiencia comienza con la comprensión, y la comprensión proviene de hacer perfectamente los fundamentos.
Incógnitas conocidas: las preguntas se vuelven más difíciles
Cada estructura tiene una índice de cosas que no comprende del todo. En IA, esa índice sigue creciendo:
-
¿Cómo medimos la explicabilidad cuando los modelos toman decisiones que no podemos auditar?
-
¿Cómo rastreamos el ralea entre los datos de entrenamiento y los resultados cuando los modelos se vuelven a entrenar a sí mismos?
-
¿Cómo gobernamos los datos sintéticos?
-
¿Cómo manejamos la deriva cuando las fallas ocurren en milisegundos, no en horas?
Estas son incógnitas conocidas. El antiguo manual de trabajos por lotes y flujos de trabajo predecibles no se aplica. Estamos escribiendo uno nuevo mientras el sistema se está ejecutando.
Si alguno pregunta «¿Confiamos y entendemos nuestros datos en los sistemas de IA de producción?» y dudas, eso es verdadera ingeniería de datos. Indagar lo desconocido conocido es el primer paso para convertirlo en conocido. Así es como reducimos la incertidumbre, una pregunta honesta a la vez.
Lo desconocido: las respuestas ocultas a plena pinta
Este es el cuadrante que silenciosamente acaba con los proyectos: las cosas que no sabemos pero que alguno más sí sí.
Aparecen por todas partes:
-
El sistema del comerciante. "optimiza" hasta que el rendimiento se hunde y, de repente, estás depurando a ciegas mientras ellos sostienen el atlas.
-
El equipo upstream cambió su esquema pero nunca se lo dijo a nadie.
-
El equipo resolvió el mismo problema hace un año pero nunca lo compartió.
-
El maniquí funciona hasta que deja de funcionar, sin que nadie recuerde por qué fue diseñado de esa modo.
Los conocimientos desconocidos son la deuda oculta de la complejidad. Aparecen cuando el conocimiento deja de fluir entre personas y equipos.
La decisión no es más automatización; es comunicación. Hacer las cuestiones. Escuchar. Traiga a la multitud temprano. A veces, la útil de depuración más inteligente es preguntar: «¿Cualquiera ha gastado esto ayer?».
El trabajo debe compartirse entre disciplinas. Los ingenieros ven peligro técnico. El producto ve el impacto en el cliente. La seguridad ve amenazas. Las empresas ven cumplimiento. Lo que es impredecible para uno puede resultar obvio para otro.
Te sorprendería entender cuántos “problemas de IA” resultan ser desconocidos, simplemente respuestas que permanecen silenciosamente en la cabecera de alguno todo el tiempo.
Incógnitas desconocidas: lo que viene y que no podemos ver
Éstas son las sorpresas que no vemos venir, las que parecen obvias sólo en retrospectiva.
Imagine un agente de IA que «optimiza» su canalización eliminando lo que cree que son tablas de bajo valencia. O sistemas de inferencia en tiempo efectivo que fallan más rápido de lo que los humanos pueden reaccionar.
Esto no es nuevo. Cada ola tecnológica comienza de esta modo. Las migraciones a la nimbo asimismo se produjeron de maneras impredecibles, como el escalado obligatorio que parecía valentísimo en las pruebas hasta que quemó la suma de producción. Aprendimos y luego construimos barandillas.
La IA sigue el mismo ciclo, sólo que más rápido. No puedes predecir lo desconocido, pero puedes prepararte para ello. ¿Cómo?
-
Diseño para el fracaso: Supongamos que no es una cuestión de si, sino de cuándo. Construya con reversiones, reintentos e interruptores de seguridad.
-
Contener el radiodifusión de golpe: Un mal maniquí o agente no debería finalizar con su plataforma.
-
Empoderar a las líneas del frente: El ingeniero que detecta poco debería sentirse seguro para comportarse.
-
Aprenda de los incidentes: Una buena necropsia le ayuda a comprender qué sucedió verdaderamente y por qué.
El objetivo no es la perfección, sino la resiliencia. Se comercio de construir sistemas y culturas que puedan absorber sorpresas y adaptarse.
El charnela espléndido
La IA comenzó como poco desconocido, venidero y teórico. Ahora resulta franco, pero aún no se comprende del todo. Nuestro trabajo es acercarlo a lo conocido, no simplificándolo sino haciéndolo explicable, confiable y digno de confianza.
A medida que la IA automatiza más trabajo de ejecución, El oficio de la ingeniería de datos está cambiando.. La próxima concepción aprenderá a través del contexto y la tutoría, convirtiendo las lecciones aprendidas con tanto esfuerzo en poco que pueda enseñarse en espacio de simplemente heredarse.
Los principios siguen siendo importantes. Son ellos los que convierten la reacción en resiliencia y la resiliencia en progreso duradero.
La tecnología seguirá cambiando, pero la cojín sigue siendo la misma, porque la infraestructura efectivo no es la plataforma. Son las personas las que siguen construyendo, aprendiendo y transmitiendo el oficio.
Cada concepción piensa que está construyendo para el futuro. En efectividad, estamos construyendo para el próximo equipo que heredará lo que dejamos detrás. Lo mejor que podemos darles es claridad y los principios para seguir aprendiendo.
Descargo de responsabilidad: estos pensamientos son propios de la autora, están basados en la experiencia y no representan los puntos de pinta de sus empleadores actuales o anteriores.