Athrun Data Intelligence



Para mejorar la eficiencia del centro de datos, a menudo se agrupan varios dispositivos de almacenamiento en una red para que muchas aplicaciones puedan compartirlos. Pero incluso con la agrupación, una capacidad significativa de los dispositivos sigue estando infrautilizada correcto a la variabilidad del rendimiento entre los dispositivos.

Los investigadores del MIT han desarrollado un sistema que aumenta el rendimiento de los dispositivos de almacenamiento al manejar tres fuentes principales de variabilidad simultáneamente. Su enfoque ofrece importantes mejoras de velocidad con respecto a los métodos tradicionales que abordan sólo una fuente de variabilidad a la vez.

El sistema utiliza una edificio de dos niveles, con un compensador central que toma decisiones generales sobre qué tareas realiza cada dispositivo de almacenamiento, y controladores locales para cada máquina que redireccionan rápidamente los datos si ese dispositivo tiene problemas.

El método, que puede adaptarse en tiempo auténtico a cargas de trabajo cambiantes, no requiere hardware especializado. Cuando los investigadores probaron este sistema en tareas realistas como el entrenamiento de modelos de IA y la compresión de imágenes, casi duplicó el rendimiento ofrecido por los enfoques tradicionales. Al equilibrar inteligentemente las cargas de trabajo de múltiples dispositivos de almacenamiento, el sistema puede aumentar la eficiencia normal del centro de datos.

«Existe una tendencia a querer ocuparse más fortuna a un problema para resolverlo, pero eso no es sostenible en muchos sentidos. Queremos ser capaces de maximizar la persistencia de estos fortuna muy costosos y con stop contenido de carbono», dice Gohar Chaudhry, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y autor principal de un artículo. artículo sobre esta técnica. «Con nuestra posibilidad de software adaptable, aún puedes explotar mucho el rendimiento de tus dispositivos existentes antiguamente de tener que desecharlos y comprar otros nuevos».

A Chaudhry se unen en el artículo Ankit Bhardwaj, profesor asistente de la Universidad de Tufts; Doctorado en Zhenyuan Ruan ’24; y el autor principal Adam Belay, profesor asociado de EECS y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Fabricado del MIT. La investigación se presentará en el Simposio USENIX sobre diseño e implementación de sistemas en red.

Usar el rendimiento sin explotar

Las unidades de estado sólido (SSD) son dispositivos de almacenamiento digital de stop rendimiento que permiten que las aplicaciones lean y escriban datos. Por ejemplo, un SSD puede acumular grandes conjuntos de datos y enviarlos rápidamente a un procesador para el entrenamiento de modelos de educación maquinal.

Agrupar varios SSD para que muchas aplicaciones puedan compartirlos progreso la eficiencia, ya que no todas las aplicaciones necesitan utilizar toda la capacidad de un SSD en un momento regalado. Pero no todos los SSD funcionan igual y el dispositivo más premioso puede confinar el rendimiento normal del corro.

Estas ineficiencias surgen de la variabilidad en el hardware SSD y las tareas que realizan.

Para utilizar este rendimiento SSD sin explotar, los investigadores desarrollaron Sandook, un sistema basado en software que aborda simultáneamente tres formas principales de variabilidad que obstaculizan el rendimiento. «Sandook» es una palabra urdu que significa «caja», para significar «almacenamiento».

Un tipo de variabilidad es causado por diferencias en la pasado, la cantidad de desgaste y la capacidad de los SSD que pueden haberse comprado en diferentes momentos a varios proveedores.

El segundo tipo de variabilidad se debe a la desatiendo de coincidencia entre las operaciones de repaso y escritura que ocurren en el mismo SSD. Para escribir datos nuevos en el dispositivo, el SSD debe borrar algunos datos existentes. Este proceso puede parar las lecturas o recuperaciones de datos que ocurren al mismo tiempo.

La tercera fuente de variabilidad es la casa recoleta de basura, un proceso de compilación y exterminio de datos obsoletos para liberar espacio. Este proceso, que ralentiza las operaciones SSD, se activa a intervalos aleatorios que el cirujano del centro de datos no puede controlar.

«No puedo contraer que todos los SSD se comportarán de guisa idéntica durante todo mi ciclo de implementación. Incluso si les doy a todos la misma carga de trabajo, algunos de ellos se quedarán rezagados, lo que perjudica el rendimiento neto que puedo conseguir», explica Chaudhry.

Planificar conjuntamente, reaccionar localmente

Para manejar las tres fuentes de variabilidad, Sandook utiliza una estructura de dos niveles. Un programador completo optimiza la distribución de tareas para el corro normal, mientras que los programadores más rápidos en cada SSD reaccionan a eventos urgentes y alejan las operaciones de los dispositivos congestionados.

El sistema supera los retrasos causados ​​por la interferencia de repaso y escritura al rotar qué SSD puede usar una aplicación para repaso y escritura. Esto reduce la posibilidad de que las lecturas y escrituras ocurran simultáneamente en la misma máquina.

Sandook incluso perfila el rendimiento representativo de cada SSD. Utiliza esta información para detectar cuándo es probable que la casa recoleta de basura ralentice las operaciones. Una vez detectado, Sandook reduce la carga de trabajo en ese SSD desviando algunas tareas hasta que finaliza la casa recoleta de basura.

«Si ese SSD realiza casa recoleta de basura y ya no puede manejar la misma carga de trabajo, quiero darle una carga de trabajo último y aumentar lentamente las cosas. Queremos encontrar el punto inmejorable en el que todavía esté haciendo poco de trabajo y explotar ese rendimiento», dice Chaudhry.

Los perfiles SSD incluso permiten que el compensador completo de Sandook asigne cargas de trabajo de guisa ponderada que considere las características y la capacidad de cada dispositivo.

Conveniente a que el compensador completo ve el panorama normal y los controladores locales reaccionan sobre la marcha, Sandook puede encargar simultáneamente formas de variabilidad que ocurren en diferentes escalas de tiempo. Por ejemplo, los retrasos en la casa recoleta de basura ocurren repentinamente, mientras que la latencia causada por el desgaste se acumula a lo dilatado de muchos meses.

Los investigadores probaron Sandook en un corro de 10 SSD y evaluaron el sistema en cuatro tareas: ejecutar una almohadilla de datos, entrenar un maniquí de educación maquinal, comprimir imágenes y acumular datos del heredero. Sandook aumentó el rendimiento de cada aplicación entre un 12 y un 94 por ciento en comparación con los métodos estáticos y mejoró la utilización normal de la capacidad SSD en un 23 por ciento.

El sistema permitió que los SSD alcanzaran el 95 por ciento de su rendimiento mayor teórico, sin indigencia de hardware especializado o actualizaciones específicas de aplicaciones.

«Nuestra posibilidad dinámica puede desbloquear más rendimiento para todos los SSD y efectivamente llevarlos al techo. Cada bit de capacidad que puedas librarse efectivamente cuenta a esta escalera», afirma Chaudhry.

En el futuro, los investigadores quieren incorporar nuevos protocolos disponibles en los últimos SSD que brinden a los operadores más control sobre la ubicación de los datos. Igualmente quieren explotar la previsibilidad de las cargas de trabajo de IA para aumentar la eficiencia de las operaciones SSD.

«El almacenamiento flash es una poderosa tecnología que sustenta las aplicaciones modernas de los centros de datos, pero compartir este expediente entre cargas de trabajo con demandas de rendimiento muy variables sigue siendo un desafío extraño. Este trabajo avanza significativamente con una posibilidad elegante y praxis cinta para su implementación, acercando el almacenamiento flash a su mayor potencial en las nubes de producción», afirma Josh Fried, ingeniero de software de Google y profesor asistente entrante en la Universidad de Pensilvania, que no participó en este trabajo.

Esta investigación fue financiada, en parte, por la Fundación Franquista de Ciencias, la Agencia de Proyectos de Investigación Avanzadilla de Defensa de EE. UU. y la Corporación de Investigación de Semiconductores.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *