Estudio: A menudo desidia transparencia en los conjuntos de datos utilizados para entrenar modelos lingüísticos de gran tamaño

Para entrenar modelos de jerga grandes y más potentes, los investigadores utilizan grandes colecciones de conjuntos de datos que combinan datos diversos de miles de fuentes web.

Pero a medida que estos conjuntos de datos se combinan y recombinan en múltiples colecciones, a menudo se pierde o se confunde en el proceso información importante sobre sus orígenes y las restricciones sobre cómo pueden estar de moda.

Esto no solo genera problemas legales y éticos, sino que incluso puede perjudicar el rendimiento de un maniquí. Por ejemplo, si un conjunto de datos está mal categorizado, alguno que entrena un maniquí de enseñanza necesario para una determinada tarea puede terminar usando, sin saberlo, datos que no están diseñados para esa tarea.

Adicionalmente, los datos de fuentes desconocidas podrían contener sesgos que hagan que un maniquí haga predicciones injustas al implementarse.

Para mejorar la transparencia de los datos, un equipo de investigadores multidisciplinarios del MIT y de otros centros emprendió una auditoría sistemática de más de 1.800 conjuntos de datos de texto en sitios de alojamiento populares. Descubrieron que más del 70 por ciento de estos conjuntos de datos omitían alguna información sobre licencias, mientras que cerca de del 50 por ciento contenía información que contenía errores.

A partir de estos conocimientos, desarrollaron una aparejo factible de usar emplazamiento Explorador de procedencia de datos que genera automáticamente resúmenes fáciles de percibir de los creadores, fuentes, licencias y usos permitidos de un conjunto de datos.

“Este tipo de herramientas pueden ayudar a los reguladores y profesionales a tomar decisiones informadas sobre la implementación de la IA y promover el incremento responsable de la IA”, dice Alex “Sandy” Pentland, profesor del MIT, líder del Colección de Dinámica Humana en el Media Lab del MIT y coautor de un nuevo documento de llegada libre. Documento sobre el plan.

El explorador de procedencia de datos podría ayudar a los profesionales de la IA a crear modelos más eficaces, permitiéndoles decidir conjuntos de datos de entrenamiento que se ajusten al propósito previsto de su maniquí. A abundante plazo, esto podría mejorar la precisión de los modelos de IA en situaciones del mundo positivo, como las que se utilizan para evaluar solicitudes de préstamos o replicar a consultas de clientes.

“Una de las mejores maneras de entender las capacidades y limitaciones de un maniquí de IA es entender con qué datos fue entrenado. Cuando hay atribución errónea y confusión sobre la procedencia de los datos, se tiene un espinoso problema de transparencia”, afirma Robert Mahari, estudiante de posgrado del Colección de Dinámica Humana del MIT, candidato a doctor en Derecho en la Talento de Derecho de Harvard y coautor principal del artículo.

Mahari y Pentland están acompañados en el artículo por el coautor principal Shayne Longpre, estudiante de posgrado en el Media Lab; Sara Hooker, quien dirige el laboratorio de investigación Cohere for AI; así como otros en el MIT, la Universidad de California en Irvine, la Universidad de Lille en Francia, la Universidad de Colorado en Boulder, Olin College, la Universidad Carnegie Mellon, Contextual AI, ML Commons y Tidelift. La investigación es publicado hoy en Inteligencia de la máquina de la naturaleza.

Centrarse en el ajuste fino

Los investigadores suelen utilizar una técnica denominada «ajuste fino» para mejorar las capacidades de un maniquí de jerga alto que se implementará para una tarea específica, como la de replicar preguntas. Para realizar el ajuste fino, crean conjuntos de datos cuidadosamente seleccionados diseñados para mejorar el rendimiento de un maniquí para esta tarea en particular.

Los investigadores del MIT se centraron en estos conjuntos de datos de ajuste fino, que a menudo son desarrollados por investigadores, organizaciones académicas o empresas y licenciados para usos específicos.

Cuando las plataformas de colaboración colectiva agregan dichos conjuntos de datos en colecciones más grandes para que los profesionales los utilicen para realizar ajustes, parte de esa información de osadía llamativo suele resultar relegada.

“Estas licencias deberían ser importantes y exigibles”, afirma Mahari.

Por ejemplo, si los términos de osadía de un conjunto de datos son incorrectos o faltan, alguno podría utilizarse una gran cantidad de pasta y tiempo en desarrollar un maniquí que podría estar obligado a eliminar más delante porque algunos datos de entrenamiento contienen información privada.

“La gentío puede terminar entrenando modelos sin siquiera comprender las capacidades, preocupaciones o riesgos de esos modelos, que en última instancia surgen de los datos”, agrega Longpre.

Para comenzar este estudio, los investigadores definieron formalmente la procedencia de los datos como la combinación de la procedencia, creación y concesión de licencias de un conjunto de datos, así como sus características. A partir de ahí, desarrollaron un procedimiento de auditoría estructurado para rastrear la procedencia de los datos de más de 1.800 colecciones de conjuntos de datos de texto de repositorios en lista populares.

Tras descubrir que más del 70 por ciento de estos conjuntos de datos contenían licencias “no especificadas” que omitían mucha información, los investigadores trabajaron a la inversa para completar los espacios en blanco. Gracias a sus esfuerzos, lograron ceñir la cantidad de conjuntos de datos con licencias “no especificadas” a cerca de del 30 por ciento.

Su trabajo incluso reveló que las licencias correctas a menudo eran más restrictivas que las asignadas por los repositorios.

Adicionalmente, descubrieron que casi todos los creadores de conjuntos de datos se concentraban en el boreal general, lo que podría condicionar las capacidades de un maniquí si se lo entrena para su implementación en una región diferente. Por ejemplo, un conjunto de datos en idioma turco creado predominantemente por personas de Estados Unidos y China podría no contener ningún aspecto culturalmente significativo, explica Mahari.

“Casi nos engañamos a nosotros mismos al pensar que los conjuntos de datos son más diversos de lo que positivamente son”, afirma.

Curiosamente, los investigadores incluso observaron un aumento dramático en las restricciones impuestas a los conjuntos de datos creados en 2023 y 2024, lo que podría estar impulsado por las preocupaciones de los académicos de que sus conjuntos de datos podrían estar de moda para fines comerciales no deseados.

Una aparejo factible de usar

Para ayudar a otros a obtener esta información sin penuria de una auditoría manual, los investigadores crearon el Data Provenance Explorer. Adicionalmente de ordenar y filtrar conjuntos de datos en función de determinados criterios, la aparejo permite a los usuarios descargar una plástico de procedencia de datos que ofrece una descripción caudillo sucinta y estructurada de las características de los conjuntos de datos.

“Esperamos que este sea un paso, no solo para comprender el panorama, sino incluso para ayudar a las personas a tomar decisiones más informadas sobre los datos con los que se entrenan”, dice Mahari.

En el futuro, los investigadores quieren ampliar su observación para investigar la procedencia de los datos multimodales, incluidos los de vídeo y voz. Todavía quieren estudiar cómo se reflejan en los conjuntos de datos las condiciones de servicio de los sitios web que sirven como fuentes de datos.

A medida que amplían su investigación, incluso se están acercando a los reguladores para discutir sus hallazgos y las implicaciones únicas en materia de derechos de autor que implica el ajuste de los datos.

“Necesitamos la procedencia y la transparencia de los datos desde el principio, cuando las personas crean y publican estos conjuntos de datos, para que a otros les resulte más factible obtener esta información”, afirma Longpre.

“Muchas de las intervenciones políticas propuestas asumen que podemos asignar e identificar correctamente las licencias asociadas con los datos, y este trabajo primero demuestra que esto no es así y luego prosperidad significativamente la información de procedencia apto”, dice Stella Biderman, directora ejecutiva de EleutherAI, que no participó en este trabajo. “Adicionalmente, la sección 3 contiene un debate reglamentario relevante. Esto es muy valioso para los profesionales del enseñanza necesario que no son empresas lo suficientemente grandes como para tener equipos legales dedicados. Muchas personas que quieren construir sistemas de IA para el admisiblemente divulgado actualmente luchan en silencio para descubrir cómo manejar las licencias de datos, porque Internet no está diseñado de una guisa que facilite la determinación de la procedencia de los datos”.

Etiquetado conjuntos, datos, entrenar, Estudio, falta, gran, lingüísticos, los, menudo, MIT, modelos, News, para, tamaño, transparencia, utilizados

Estudio: A menudo desidia transparencia en los conjuntos de datos utilizados para entrenar modelos lingüísticos de gran tamaño | MIT News

Deja una respuesta Cancelar la respuesta

COLOMBIA

ENLACES DE INTERÉS