
Una empresa que quiera utilizar un maniquí de verbo amplio (LLM) para resumir informes de ventas o clasificar las consultas de los clientes puede designar entre cientos de LLM únicos con docenas de variaciones de modelos, cada una con un rendimiento levemente diferente.
Para dominar las opciones, las empresas suelen creer en las plataformas de clasificación de LLM, que recopilan comentarios de los usuarios sobre las interacciones del maniquí para clasificar los LLM más recientes en función de su desempeño en determinadas tareas.
Pero los investigadores del MIT descubrieron que un puñado de interacciones de los usuarios pueden sesgar los resultados, lo que lleva a cierto a creer erróneamente que un LLM es la opción ideal para un caso de uso particular. Su estudio revela que eliminar una pequeña fracción de los datos obtenidos mediante crowdsourcing puede cambiar qué modelos ocupan los primeros puestos.
Desarrollaron un método rápido para probar plataformas de clasificación y determinar si son susceptibles a este problema. La técnica de evaluación identifica los votos individuales más responsables de sesgar los resultados para que los usuarios puedan inspeccionar estos votos influyentes.
Los investigadores dicen que este trabajo subraya la escazes de estrategias más rigurosas para evaluar las clasificaciones de los modelos. Si admisiblemente no se centraron en la mitigación en este estudio, brindan sugerencias que pueden mejorar la solidez de estas plataformas, como compilar comentarios más detallados para crear las clasificaciones.
El estudio incluso ofrece una advertencia a los usuarios que pueden creer en las clasificaciones al tomar decisiones sobre LLM que podrían tener impactos costosos y de gran magnitud en una empresa u ordenamiento.
«Nos sorprendió que estas plataformas de clasificación fueran tan sensibles a este problema. Si resulta que el LLM mejor clasificado depende sólo de dos o tres comentarios de los usuarios entre decenas de miles, entonces no se puede contraer que el LLM mejor clasificado vaya a pasar consistentemente a todos los demás LLM cuando se implemente», dice Tamara Broderick, profesora asociada en el Sección de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT; miembro del Laboratorio de Sistemas de Información y Atrevimiento (LIDS) y del Instituto de Datos, Sistemas y Sociedad; filial del Laboratorio de Ciencias de la Computación e Inteligencia Industrial (CSAIL); y autor principal de este estudio.
Ella está unida en el papel por los autores principales y estudiantes graduados de EECS Jenny Huang y Yunyi Shen, así como por Dennis Wei, investigador sabio senior de IBM Research. El estudio se presentará en la Conferencia Internacional sobre Representaciones del Educación.
Dejar caer datos
Si admisiblemente existen muchos tipos de plataformas de clasificación de LLM, las variaciones más populares piden a los usuarios que envíen una consulta a dos modelos y elijan qué LLM ofrece la mejor respuesta.
Las plataformas agregan los resultados de estos enfrentamientos para producir clasificaciones que muestran qué LLM se desempeñó mejor en determinadas tareas, como codificación o comprensión visual.
Al designar un LLM de detención rendimiento, un sucesor probablemente dilación que la clasificación superior de ese maniquí se generalice, lo que significa que debería pasar a otros modelos en su aplicación similar, pero no idéntica, con un conjunto de datos nuevos.
Los investigadores del MIT estudiaron previamente la universalización en áreas como estadística y crematística. Ese trabajo reveló ciertos casos en los que eliminar un pequeño porcentaje de datos puede cambiar los resultados de un maniquí, lo que indica que las conclusiones de esos estudios podrían no ser válidas más allá de su entorno definido.
Los investigadores querían ver si el mismo prospección podría aplicarse a las plataformas de clasificación LLM.
«Al final del día, un sucesor quiere memorizar si está eligiendo el mejor LLM. Si solo unas pocas indicaciones impulsan esta clasificación, eso sugiere que la clasificación podría no ser la opción definitiva», afirma Broderick.
Pero sería inasequible probar manualmente el engendro de caída de datos. Por ejemplo, una clasificación que evaluaron tenía más de 57.000 votos. Probar una caída de datos del 0,1 por ciento significa eliminar cada subconjunto de 57 votos de los 57.000 (hay más de 10194 subconjuntos), y luego recalcular la clasificación.
En cambio, los investigadores desarrollaron un método de punto de vista eficaz, basado en su trabajo preliminar, y lo adaptaron para adaptarlo a los sistemas de clasificación LLM.
«Si admisiblemente tenemos una teoría para demostrar que la punto de vista funciona bajo ciertas suposiciones, el sucesor no necesita creer en eso. Nuestro método le dice al sucesor los puntos de datos problemáticos al final, por lo que puede simplemente descartar esos puntos de datos, retornar a ejecutar el prospección y probar si obtiene un cambio en las clasificaciones», dice.
Sorprendentemente sensible
Cuando los investigadores aplicaron su técnica a plataformas de clasificación populares, se sorprendieron al ver los pocos puntos de datos que necesitaban eliminar para provocar cambios significativos en los principales LLM. En un caso, eliminar sólo dos votos de más de 57.000, lo que equivale al 0,0035 por ciento, cambió el maniquí que ocupa el primer puesto.
Una plataforma de clasificación diferente, que utiliza anotadores expertos y sugerencias de anciano calidad, fue más sólida. En este caso, eliminar 83 de 2.575 evaluaciones (cerca de del 3 por ciento) dio la revés a los mejores modelos.
Su examen reveló que muchos votos influyentes pueden deber sido el resultado de un error del sucesor. En algunos casos, parecía que había una respuesta clara sobre qué LLM funcionó mejor, pero el sucesor eligió el otro maniquí, dice Broderick.
«Nunca podremos memorizar qué estaba en la mente del sucesor en ese momento, pero tal vez hicieron clic mal o no prestaron atención, o honestamente no sabían cuál era mejor. La gran conclusión aquí es que no queremos ruido, errores del sucesor o algún valía atípico que determine cuál es el LLM mejor clasificado», añade.
Los investigadores sugieren que compilar comentarios adicionales de los usuarios, como los niveles de confianza en cada voto, proporcionaría información más rica que podría ayudar a mitigar este problema. Las plataformas de clasificación incluso podrían utilizar mediadores humanos para evaluar respuestas colaborativas.
Por parte de los investigadores, quieren seguir explorando la universalización en otros contextos y al mismo tiempo desarrollar mejores métodos de punto de vista que puedan capturar más ejemplos de no robustez.
«El trabajo de Broderick y sus estudiantes muestra cómo se pueden obtener estimaciones válidas de la influencia de datos específicos en procesos posteriores, a pesar de la intratabilidad de los cálculos exhaustivos donado el tamaño de los modelos y conjuntos de datos modernos de formación instintivo», dice Jessica Hullman, profesora Ginni Rometty de Ciencias de la Computación en la Universidad Northwestern, que no participó en este trabajo. «El trabajo flamante ofrece una idea de las fuertes dependencias de datos en los métodos aplicados asiduamente, pero incluso muy frágiles, para anexar preferencias humanas y utilizarlas para refrescar un maniquí. Ver cómo pocas preferencias efectivamente podrían cambiar el comportamiento de un maniquí justo podría inspirar métodos más reflexivos para compilar estos datos».
Esta investigación está financiada, en parte, por la Oficina de Investigación Naval, el Laboratorio de IA Watson del MIT-IBM, la Fundación Doméstico de Ciencias, Amazon y un premio original de CSAIL.