Identificar una turbina defectuosa en un parque eólico, lo que puede implicar examinar cientos de señales y millones de puntos de datos, es como encontrar una alfiler en un pajar.
Los ingenieros a menudo simplifican este arduo problema utilizando modelos de estudios profundo que pueden detectar anomalías en las mediciones tomadas repetidamente a lo grande del tiempo por cada turbina, conocidas como datos de series temporales.
Pero, transmitido que cientos de turbinas eólicas registran docenas de señales cada hora, entrenar un maniquí de estudios profundo para analizar datos de series temporales es costoso y complicado. A esto se suma el hecho de que puede ser necesario retornar a entrenar el maniquí a posteriori de su implementación y los operadores de parques eólicos pueden carecer de la experiencia necesaria en estudios instintivo.
En un nuevo estudio, investigadores del MIT descubrieron que los modelos de habla de gran tamaño (LLM) tienen el potencial de ser detectores de anomalías más eficientes para datos de series temporales. Es importante destacar que estos modelos preentrenados se pueden implementar de inmediato.
Los investigadores desarrollaron un situación, llamado SigLLM, que incluye un componente que convierte datos de series temporales en entradas basadas en texto que un LLM puede procesar. Un beneficiario puede introducir estos datos preparados en el maniquí y pedirle que comience a identificar anomalías. El LLM además se puede utilizar para pronosticar puntos de datos de series temporales futuras como parte de un proceso de detección de anomalías.
Si correctamente los LLM no pudieron exceder a los modelos de estudios profundo de última coexistentes en la detección de anomalías, sí tuvieron un desempeño tan bueno como otros enfoques de IA. Si los investigadores pueden mejorar el desempeño de los LLM, este situación podría ayudar a los técnicos a detectar posibles problemas en equipos como maquinaria pesada o satélites ayer de que ocurran, sin la aprieto de entrenar un costoso maniquí de estudios profundo.
“Cubo que esta es solo la primera iteración, no esperábamos alcanzar allí desde el primer intento, pero estos resultados muestran que existe una oportunidad aquí para servirse los LLM para tareas complejas de detección de anomalías”, dice Sarah Alnegheimish, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación (EECS) y autora principal de Un artículo sobre SigLLM.
Entre sus coautores se encuentran Linh Nguyen, estudiante de posgrado de la Escuela de Ingeniería Eléctrica y Computación (EECS); Laure Berti-Equille, directora de investigación del Instituto Franquista de Investigación para el Mejora Sostenible de Francia; y el autor principal Kalyan Veeramachaneni, comprobado investigador principal del Laboratorio de Sistemas de Información y Atrevimiento. La investigación se presentará en la Conferencia IEEE sobre Ciencia de Datos y Analítica Avanzadilla.
Una alternativa índice para usar
Los modelos de habla de gran tamaño son autorregresivos, lo que significa que pueden comprender que los títulos más recientes en datos secuenciales dependen de títulos anteriores. Por ejemplo, modelos como GPT-4 pueden predecir la próximo palabra en una oración usando las palabras que la preceden.
Cubo que los datos de series temporales son secuenciales, los investigadores pensaron que la naturaleza autorregresiva de los LLM podría hacerlos adecuados para detectar anomalías en este tipo de datos.
Sin retención, querían desarrollar una técnica que evite el ajuste fino, un proceso en el que los ingenieros vuelven a entrenar un LLM de propósito caudillo con una pequeña cantidad de datos específicos de una tarea para convertirlo en avezado en una tarea. En extensión de eso, los investigadores implementan un LLM despierto para usar, sin pasos de entrenamiento adicionales.
Pero ayer de poder implementarlo, tuvieron que convertir datos de series de tiempo en entradas basadas en texto que el maniquí de habla pudiera manejar.
Lo lograron mediante una secuencia de transformaciones que capturan las partes más importantes de la serie temporal y al mismo tiempo representan los datos con la último cantidad de tokens. Los tokens son los datos básicos de entrada para un LLM y cuantos más tokens, más cálculos se necesitan.
«Si no realiza estos pasos con mucho cuidado, podría terminar eliminando alguna parte de sus datos que sí importa y perdiendo esa información», dice Alnegheimish.
Una vez que descubrieron cómo transfigurar datos de series temporales, los investigadores desarrollaron dos enfoques de detección de anomalías.
Enfoques para la detección de anomalías
Para el primero, al que llaman Prompter, introducen los datos preparados en el maniquí y le piden que localice títulos anómalos.
“Tuvimos que repetir el proceso varias veces para encontrar los indicadores correctos para una serie temporal específica. No es acomodaticio entender cómo estos LLM procesan los datos”, añade Alnegheimish.
En el segundo método, denominado Detector, utilizan el LLM como pronosticador para predecir el próximo valencia de una serie temporal. Los investigadores comparan el valencia predicho con el valencia auténtico. Una gran discrepancia sugiere que es probable que el valencia auténtico sea una anomalía.
Con Detector, el LLM formaría parte de un proceso de detección de anomalías, mientras que Prompter completaría la tarea por sí solo. En la actos, Detector funcionó mejor que Prompter, que generó muchos falsos positivos.
“Creo que, con el método Prompter, le estábamos pidiendo al LLM que pasara por demasiados obstáculos. Le estábamos dando un problema más difícil de resolver”, dice Veeramachaneni.
Cuando compararon uno y otro enfoques con las técnicas actuales, Detector superó a los modelos de IA basados en transformadores en siete de los 11 conjuntos de datos que evaluaron, aunque el LLM no requirió entrenamiento ni ajustes.
En el futuro, un LLM además podrá proporcionar explicaciones en habla sencillo con sus predicciones, de modo que un cámara pueda comprender mejor por qué un LLM identificó un determinado punto de datos como anormal.
Sin retención, los modelos de estudios profundo de última coexistentes superaron a los LLM por un amplio beneficio, lo que demuestra que aún queda trabajo por hacer ayer de que un LLM pueda estilarse para la detección de anomalías.
“¿Qué hace yerro para alcanzar al punto en que funcione tan correctamente como estos modelos de última coexistentes? Esa es la pregunta del millón que tenemos frente a nosotros en este momento. Un detector de anomalías basado en LLM debe ser un sujeto reformador para que podamos explicar este tipo de esfuerzo”, afirma Veeramachaneni.
En el futuro, los investigadores quieren ver si el ajuste fino puede mejorar el rendimiento, aunque eso requeriría tiempo, costos y experiencia adicionales para la capacitación.
Sus métodos LLM además tardan entre 30 minutos y dos horas en producir resultados, por lo que aumentar la velocidad es un campo de acción secreto de trabajo futuro. Los investigadores además quieren investigar los LLM para comprender cómo realizan la detección de anomalías, con la esperanza de encontrar una forma de mejorar su rendimiento.
“Cuando se prostitución de tareas complejas como la detección de anomalías en series temporales, los LLM son en realidad un candidato ideal. ¿Quizás además se puedan acometer otras tareas complejas con LLM?”, afirma Alnegheimish.
Esta investigación fue apoyada por SES SA, Iberdrola y ScottishPower Renewables y Hyundai Motor Company.