Los intereses de investigación de Sarah Alnegheimish residen en la intersección del enseñanza mecánico y la ingeniería de sistemas. Su objetivo: hacer que los sistemas de enseñanza mecánico sean más accesibles, transparentes y confiables.
Alnegheimish es un estudiante de doctorado en el principal investigador de investigación del investigador de investigación Kalyan Veeramachaneni en el Laboratorio del MIT para Sistemas de Información y Valor (LIDS). Aquí, ella compromete la veterano parte de su energía para desarrollar Orion, un entorno de enseñanza mecánico de código extenso y de código extenso y una biblioteca de series de tiempo que es capaz de detectar anomalías sin supervisión en entornos industriales y operativos a gran escalera.
Influencia temprana
Hija de una profesora universitaria y educadora docente, aprendió de una años temprana que el conocimiento debía ser compartido autónomamente. «Creo que crecer en un hogar donde la educación fue muy valorada es parte de por qué quiero que las herramientas de enseñanza mecánico sean accesibles». La experiencia personal de Alnegheimish con capital de código extenso solo aumentó su motivación. «Aprendí a ver la accesibilidad como la esencia para la apadrinamiento. Para batallar por el impacto, los que la necesitan es aceptar y evaluar la nueva tecnología. Ese es el propósito de hacer un crecimiento de código extenso».
Alnegheimish obtuvo su carrera en la Universidad King Saud (KSU). «Estaba en la primera cohorte de especialidades en informática. Antiguamente de que se creara este software, la única otra especialización acondicionado en informática era TI (tecnología de la información)». Ser parte de la primera cohorte fue emocionante, pero trajo sus propios desafíos únicos. «Toda la aprobación estaba enseñando material nuevo. Sucediendo requirió una experiencia de enseñanza independiente. Fue entonces cuando me encontré por primera vez con MIT OpenCourseWare: como un petición para enseñarme a mí mismo».
Poco a posteriori de graduarse, Alnegheimish se convirtió en investigador en la Ciudad del Rey Abdulaziz para la Ciencia y la Tecnología (KACST), el laboratorio franquista de Arabia Saudita. A través del Centro de sistemas de ingeniería complejos (CCE) en Kacst y MIT, comenzó a realizar investigaciones con Veeramachaneni. Cuando solicitó al MIT para la escuela de posgrado, su familia de investigación fue su mejor opción.
Creación de Orion
La proposición maestra de Alnegheimish se centró en la detección de anomalías de series de tiempo: la identificación de comportamientos o patrones inesperados en los datos, que pueden proporcionar a los usuarios información crucial. Por ejemplo, los patrones inusuales en los datos de tráfico de red pueden ser un signo de amenazas de ciberseguridad, las lecturas anormales de los sensores en maquinaria pesada pueden predecir posibles fallas futuras y monitorear los signos vitales del paciente puede ayudar a ceñir las complicaciones de vigor. Fue a través de la investigación de su pedagogo que Alnegheimish comenzó a diseñar Orion.
Orion utiliza modelos estadísticos y de enseñanza mecánico basados en el enseñanza que se registran y mantienen continuamente. Los usuarios no necesitan ser expertos en enseñanza mecánico para utilizar el código. Pueden analizar señales, comparar métodos de detección de anomalías e investigar anomalías en un software de extremo a extremo. El entorno, el código y los conjuntos de datos son todos de código extenso.
«Con código extenso, accesibilidad y transparencia se logran directamente. Tiene entrada sin restricciones al código, donde puede investigar cómo funciona el maniquí a través de la comprensión del código. Hemos aumentado la transparencia con Orion: etiquetamos cada paso en el maniquí y lo presentamos al legatario». Alnegheimish dice que esta transparencia ayuda a que los usuarios comiencen a echarse en brazos en el maniquí antiguamente de que finalmente se ven por sí mismos lo confiable que es.
«Estamos tratando de tomar todos estos algoritmos de enseñanza mecánico y ponerlos en un solo lado para que cualquiera pueda usar nuestros modelos listos para usar», dice ella. «No es solo para los patrocinadores con los que trabajamos en el MIT. Está siendo utilizado por muchos usuarios públicos. Vienen a la biblioteca, la instalan y lo ejecutan en sus datos. Está demostrando ser una gran fuente para que las personas encuentren algunos de los últimos métodos para la detección de anomalías».
Reutilización de modelos para la detección de anomalías
En su doctorado, Alnegheimish está explorando aún más formas innovadoras de hacer la detección de anomalías utilizando Orion. «Cuando comencé mi investigación, todos los modelos de enseñanza mecánico debían ser entrenados desde cero en sus datos. Ahora estamos en un momento en el que podemos usar modelos previamente capacitados», dice. Trabajar con modelos previamente capacitados ahorra tiempo y costos computacionales. Sin incautación, el desafío es que la detección de anomalías de series temporales es una tarea nueva para ellos. «En su sentido flamante, estos modelos han sido entrenados para pronosticar, pero no para encontrar anomalías», dice Alnegheimish. «Estamos presionando sus límites a través de la ingeniería rápida, sin ningún entrenamiento adicional».
Adecuado a que estos modelos ya capturan los patrones de los datos de la serie temporal, Alnegheimish cree que ya tienen todo lo que necesitan para permitirles detectar anomalías. Hasta ahora, sus resultados actuales respaldan esta teoría. No superan la tasa de éxito de los modelos que están entrenados de forma independiente en datos específicos, pero ella cree que algún día.
Diseño accesible
Alnegheimish palabra extensamente sobre los esfuerzos por los que ha realizado para hacer que Orion sea más accesible. «Antiguamente de venir al MIT, solía pensar que la parte crucial de la investigación era desarrollar el maniquí de enseñanza mecánico en sí o mejorar su estado contemporáneo. Con el tiempo, me di cuenta de que la única forma en que puede hacer que su investigación sea accesible y adaptable para otros es desarrollar sistemas que los haga accesibles. Durante mis estudios de posgrado, he prohijado el enfoque de desarrollar mis modelos y sistemas en Tandem».
El ambiente esencia para el crecimiento de su sistema fue encontrar las abstracciones correctas para trabajar con sus modelos. Estas abstracciones proporcionan representación universal para todos los modelos con componentes simplificados. «Cualquier maniquí tendrá una secuencia de pasos para acontecer de la entrada sin procesar a la salida deseada. Hemos estandarizado la entrada y la salida, lo que permite que el medio sea flexible y fluido. Hasta ahora, todos los modelos que hemos ejecutado han podido adaptar en nuestras abstracciones». Las abstracciones que usa han sido estables y confiables durante los últimos seis abriles.
El valía de los sistemas y modelos de construcción simultáneos se puede ver en el trabajo de Alnegheimish como mentor. Tuvo la oportunidad de trabajar con dos estudiantes de arte que ganaban sus títulos de ingeniería. «Todo lo que les mostré fue el sistema en sí y la documentación de cómo usarlo. Entreambos estudiantes pudieron desarrollar sus propios modelos con las abstracciones a las que nos estamos ajustando. Reafirmó que estamos tomando el camino correcto».
Alnegheimish además investigó si un maniquí de verbo sobresaliente (LLM) podría estar de moda como mediador entre los usuarios y un sistema. El agente LLM que ha implementado puede conectarse a Orion sin que los usuarios necesiten conocer los pequeños detalles de cómo funciona Orion. «Piense en ChatGPT. No tienes idea de lo que el maniquí está detrás de él, pero es muy accesible para todos». Para su software, los usuarios solo conocen dos comandos: ajustar y detectar. FIT permite a los usuarios entrenar su maniquí, mientras que Detect les permite detectar anomalías.
«El objetivo final de lo que he tratado de hacer es hacer que la IA sea más accesible para todos», dice ella. Hasta ahora, Orion ha cogido más de 120,000 descargas, y más de mil usuarios han traumatizado el repositorio como uno de sus favoritos en GitHub. «Tradicionalmente, solía determinar el impacto de la investigación a través de citas y publicaciones en papel. Ahora obtienes la apadrinamiento en tiempo positivo a través de código extenso».