
El 21 de diciembre de 2022, cabal cuando los viajes en la temporada de recreo se estaban poniendo en marcha, Southwest Airlines pasó por una serie de fallas en cascada en su programación, inicialmente provocada por un clima invernal severo en el campo de acción de Denver. Pero los problemas se extendieron a través de su red, y en el transcurso de los próximos 10 días, la crisis terminó hilando a más de 2 millones de pasajeros y causando pérdidas de $ 750 millones para la aerolínea.
¿Cómo terminó un sistema meteorológico localizado provocando una descompostura tan generalizada? Los investigadores del MIT han examinado esta descompostura ampliamente informada como un ejemplo de casos en los que los sistemas que funcionan sin problemas la maduro parte del tiempo se descomponen repentinamente y causan un huella dominó de las fallas. Ahora han desarrollado un sistema computacional para usar la combinación de datos dispersos sobre un evento de descompostura raro, en combinación con datos mucho más extensos sobre operaciones normales, para trabajar cerca de a espaldas e intentar identificar las causas raíz de la descompostura, y con suerte poder encontrar formas de ajustar los sistemas para advertir tales fallas en el futuro.
Los hallazgos fueron presentados en la Conferencia Internacional sobre Representaciones de Enseñanza (ICLR), que fue celebrada en Singapur del 24 al 28 de abril por el estudiante doctoral del MIT Charles Dawson, profesor de aeronáutica y astronautia Chuchu Chuchu, y colegas de la Universidad de Harvard y la Universidad de Michigan.
«La motivación detrás de este trabajo es que es verdaderamente frustrante cuando tenemos que interactuar con estos sistemas complicados, donde es verdaderamente difícil entender lo que está sucediendo detrás de decorado que está creando estos problemas o fallas que estamos observando», dice Dawson.
El nuevo trabajo se apoyo en investigaciones anteriores del laboratorio de Fan, donde analizaron problemas que involucran problemas de predicción de fallas hipotéticas, dice, como con grupos de robots que trabajan juntos en una tarea o sistemas complejos como la red eléctrica, que buscan formas de predecir cómo pueden marrar tales sistemas. «El objetivo de este plan», dice Fan, «fue verdaderamente convertir eso en una aparejo de diagnosis que podríamos usar en los sistemas del mundo efectivo».
La idea era proporcionar una forma en que cierto pudiera «darnos datos de una época en que este sistema del mundo efectivo tenía un problema o un fracaso», dice Dawson, «y podemos tratar de diagnosticar las causas raíz y proporcionar un poco de examen detrás de la cortina en presencia de esta complejidad».
La intención es que los métodos que desarrollaron «para trabajar para una clase harto común de problemas cibernéticos», dice. Estos son problemas en los que «tienes un componente de toma de decisiones automatizado que interactúa con el desorden del mundo efectivo», explica. Existen herramientas disponibles para probar sistemas de software que operan por su cuenta, pero la complejidad surge cuando ese software tiene que interactuar con las entidades físicas que realizan sus actividades en un entorno físico efectivo, ya sea la programación de aeronaves, los movimientos de los vehículos autónomos, las interacciones de un equipo de robots o el control de las entradas y futuro en una red eléctrica. En tales sistemas, lo que sucede a menudo, dice, es que «el software podría tomar una valentía que se ve perfectamente al principio, pero luego tiene todos estos bienes de dominó, que hacen que las cosas sean más desordenadas y mucho más inciertas».
Sin requisa, una diferencia esencia es que en sistemas como equipos de robots, a diferencia de la programación de aviones, «tenemos paso a un maniquí en el mundo de la robótica», dice Fan, quien es un investigador principal en el laboratorio del MIT para los sistemas de información y valentía (LIDS). «Tenemos una buena comprensión de la física detrás de la robótica, y tenemos formas de crear un maniquí» que representa sus actividades con una precisión legítimo. Pero la programación de las aerolíneas involucra procesos y sistemas que son información comercial propietaria, por lo que los investigadores tuvieron que encontrar formas de inferir lo que estaba detrás de las decisiones, utilizando solo la información relativamente escasa acondicionado públicamente, que esencialmente consistía en los tiempos de arribada y salida reales de cada avión.
«Hemos tomado todos estos datos de planeo, pero está todo este sistema del sistema de programación detrás de él, y no sabemos cómo funciona el sistema», dice Fan. Y la cantidad de datos relacionados con la descompostura efectivo es solo varios días, en comparación con primaveras de datos sobre operaciones de planeo normales.
El impacto de los eventos meteorológicos en Denver durante la semana de la crisis de programación de Southwest apareció claramente en los datos de planeo, solo desde los tiempos de respuesta más largos de lo corriente entre el aterrizaje y el despegue en el aeropuerto de Denver. Pero la forma en que el impacto en cascada aunque el sistema era menos obvio y requería más prospección. La esencia resultó tener que ver con el concepto de aviones de reserva.
Las aerolíneas generalmente mantienen algunos aviones en reserva en varios aeropuertos, de modo que si los problemas se encuentran con un avión que está programado para un planeo, otro avión puede ser sustituido rápidamente. Southwest usa solo un tipo de avión, por lo que todos son intercambiables, lo que facilita las sustituciones. Pero la mayoría de las aerolíneas operan en un sistema de centros y radios, con algunos aeropuertos de centros designados donde se puede amparar la mayoría de esos aviones de reserva, mientras que Southwest no usa centros, por lo que sus aviones de reserva están más dispersos en toda su red. Y la forma en que se desplegaron esos aviones resultó aventurar un papel importante en la crisis de crecimiento.
«El desafío es que no hay datos públicos disponibles en términos de dónde se estacionan los aviones en toda la red del suroeste», dice Dawson. «Lo que podemos encontrar usando nuestro método es, al observar los datos públicos sobre las llegadas, las futuro y los retrasos, podemos usar nuestro método para respaldar cuáles podrían tener sido los parámetros ocultos de esas reservas de aeronaves, para explicar las observaciones que estábamos viendo».
Lo que encontraron fue que la forma en que se desplegaron las reservas fue un «indicador principal» de los problemas que en casco en una crisis franquista. Algunas partes de la red que fueron afectadas directamente por el clima pudieron recuperarse rápidamente y retornar a programar. «Pero cuando miramos otras áreas en la red, vimos que estas reservas simplemente no estaban disponibles, y las cosas seguían empeorando».
Por ejemplo, los datos mostraron que las reservas de Denver disminuían rápidamente conveniente a los retrasos del clima, pero luego «asimismo nos permitió rastrear esta descompostura de Denver a Las Vegas», dice. Si perfectamente no había un clima severo allí, «nuestro método aún nos mostraba una disminución constante en la cantidad de aviones que pudieron servir vuelos de Las Vegas».
Él dice que «lo que encontramos fue que había estas circulaciones de aviones en el interior de la red del suroeste, donde un avión podría comenzar el día en California y luego pirarse a Denver, y luego terminar el día en Las Vegas». Lo que sucedió en el caso de esta tormenta fue que el ciclo se interrumpió. Como resultado, «esta tormenta en Denver rompe el ciclo, y de repente las reservas en Las Vegas, que no se ven afectadas por el clima, comienzan a deteriorarse».
Al final, Southwest se vio obligado a tomar una medida drástica para resolver el problema: tenían que hacer un «reinicio duro» de todo su sistema, suprimir todos los vuelos y pirarse aviones vacíos por todo el país para reequilibrar sus reservas.
Trabajando con expertos en sistemas de transporte tenue, los investigadores desarrollaron un maniquí de cómo se supone que funciona el sistema de programación. Luego, «lo que hace nuestro método es esencialmente estamos tratando de ejecutar el maniquí al revés». Al observar los resultados observados, el maniquí les permite trabajar para ver qué tipos de condiciones iniciales podrían tener producido esos resultados.
Si perfectamente los datos sobre las fallas reales fueron escasos, los datos extensos sobre las operaciones típicas ayudaron a enseñar el maniquí computacional «lo que es factible, qué es posible, cuál es el ámbito de la posibilidad física aquí», dice Dawson. «Eso nos da el conocimiento del dominio para opinar, en este evento extremo, cedido el espacio de lo que es posible, lo que es la explicación más probable» para el fracaso.
Esto podría conducir a un sistema de monitoreo en tiempo efectivo, dice, donde los datos sobre las operaciones normales se comparan constantemente con los datos actuales y determinan cómo se ve la tendencia. «¿Estamos en tendencia cerca de la normalidad o estamos en tendencia cerca de eventos extremos?» Ver signos de problemas inminentes podría permitir medidas preventivas, como la redistribución de aviones de reserva de antemano a áreas de problemas anticipados.
El trabajo en el crecimiento de tales sistemas está en curso en su laboratorio, dice Fan. Mientras tanto, han producido una aparejo de código franco para analizar los sistemas de fallas, llamamiento Calnf, que está acondicionado para que cualquiera lo use. Mientras tanto, Dawson, quien obtuvo su doctorado el año pasado, está trabajando como postdoc para aplicar los métodos desarrollados en este trabajo para comprender las fallas en las redes de energía.
El equipo de investigación asimismo incluyó a Max Li de la Universidad de Michigan y Van Tran de la Universidad de Harvard. El trabajo fue apoyado por la NASA, la Oficina de Investigación Científica de la Fuerza Aérea y el Software MIT-DSTA.