
Muchos de los últimos modelos de jerigonza excelso (LLM) están diseñados para recapacitar detalles de conversaciones pasadas o acumular perfiles de heredero, lo que permite que estos modelos personalicen las respuestas.
Pero investigadores del MIT y la Universidad Penn State descubrieron que, durante conversaciones largas, estas características de personalización a menudo aumentan la probabilidad de que un LLM se vuelva demasiado agradable o comience a reverberar el punto de perspectiva del individuo.
Este aberración, conocido como adulación, puede impedir que un maniquí le diga a un heredero que está desacertado, erosionando la precisión de las respuestas del LLM. Por otra parte, los LLM que reflejan las creencias políticas o la visión del mundo de determinado pueden fomentar la desinformación y distorsionar la percepción de la ingenuidad del heredero.
A diferencia de muchos estudios anteriores de adulación que evalúan indicaciones en un laboratorio sin contexto, los investigadores del MIT recopilaron dos semanas de datos de conversaciones de humanos que interactuaron con un LLM vivo durante su vida diaria. Estudiaron dos escenarios: la amabilidad en los consejos personales y el reflexiva de las creencias de los usuarios en las explicaciones políticas.
Aunque el contexto de interacción aumentó la amabilidad en cuatro de los cinco LLM que estudiaron, la presencia de un perfil de heredero condensado en la memoria del maniquí tuvo el veterano impacto. Por otro banda, el comportamiento de duplicación solo aumentó si un maniquí podía inferir con precisión las creencias de un heredero a partir de la conversación.
Los investigadores esperan que estos resultados inspiren futuras investigaciones sobre el crecimiento de métodos de personalización que sean más sólidos para la adulación del LLM.
«Desde la perspectiva del heredero, este trabajo destaca lo importante que es comprender que estos modelos son dinámicos y que su comportamiento puede cambiar a medida que interactúa con ellos a lo derrochador del tiempo. Si palabra con un maniquí durante un período prolongado de tiempo y comienza a subcontratarle su pensamiento, puede encontrarse en una cámara de eco de la que no puede escapar. Ese es un peligro que los usuarios definitivamente deben recapacitar», dice Shomik Jain, estudiante diplomado en el Instituto de Datos, Sistemas y Sociedad (IDSS) y autor principal de un artículo sobre esta investigación.
A Jain se unen en el artículo Charlotte Park, estudiante de posgrado en ingeniería eléctrica e informática (EECS) del MIT; Matt Viana, estudiante de posgrado de la Universidad Penn State; así como los coautores principales Ashia Wilson, profesora de crecimiento profesional de Lister Brothers en EECS e investigadora principal en LIDS; y Dana Calacci PhD ’23, profesora asistente en Penn State. La investigación se presentará en la Conferencia ACM CHI sobre factores humanos en sistemas informáticos.
Interacciones extendidas
Basándose en sus propias experiencias aduladoras con los LLM, los investigadores comenzaron a pensar en los posibles beneficios y consecuencias de un maniquí que es demasiado agradable. Pero cuando buscaron en la humanidades para ampliar su descomposición, no encontraron estudios que intentaran comprender el comportamiento humillado durante las interacciones LLM a derrochador plazo.
«Estamos utilizando estos modelos a través de interacciones extendidas, y tienen mucho contexto y memoria. Pero nuestros métodos de evaluación se están quedando detrás. Queríamos evaluar los LLM en la forma en que las personas verdaderamente los usan para comprender cómo se comportan en la naturaleza», dice Calacci.
Para guatar este malogrado, los investigadores diseñaron un estudio de usuarios para explorar dos tipos de adulación: adulación de acuerdo y adulación en perspectiva.
La adulación de acuerdos es la tendencia de un LLM a ser demasiado agradable, a veces hasta el punto de aplaudir información incorrecta o negarse a decirle al heredero que está desacertado. La adulación de la perspectiva ocurre cuando un maniquí refleja los títulos y puntos de perspectiva políticos del heredero.
«Sabemos mucho sobre los beneficios de tener conexiones sociales con personas que tienen puntos de perspectiva similares o diferentes. Pero aún no sabemos acerca de los beneficios o riesgos de interacciones prolongadas con modelos de IA que tienen atributos similares», añade Calacci.
Los investigadores crearon una interfaz de heredero centrada en un LLM y reclutaron a 38 participantes para conversar con el chatbot durante un período de dos semanas. Las conversaciones de cada participante ocurrieron en la misma ventana contextual para capturar todos los datos de interacción.
Durante el período de dos semanas, los investigadores recopilaron un promedio de 90 consultas de cada heredero.
Compararon el comportamiento de cinco LLM con este contexto de heredero contra los mismos LLM a los que no se les proporcionó ningún reseña de conversación.
«Descubrimos que el contexto verdaderamente cambia fundamentalmente cómo operan estos modelos, y apuesto a que este aberración se extendería mucho más allá de la adulación. Y aunque la adulación tendió a aumentar, no siempre aumentó. Positivamente depende del contexto mismo», dice Wilson.
Pistas de contexto
Por ejemplo, cuando un LLM resume información sobre el heredero en un perfil específico, genera mayores ganancias en adulación de acuerdos. Esta función de perfil de heredero se incorpora cada vez más a los modelos más nuevos.
Incluso descubrieron que el texto fortuito de conversaciones sintéticas todavía aumentaba la probabilidad de que algunos modelos estuvieran de acuerdo, incluso si ese texto no contenía datos específicos del heredero. Esto sugiere que la duración de una conversación a veces puede afectar más la adulación que el contenido, añade Jain.
Pero el contenido es muy importante cuando se manejo de adulación en perspectiva. El contexto de la conversación solo aumentó la adulación de la perspectiva si revelaba alguna información sobre la perspectiva política de un heredero.
Para obtener esta información, los investigadores consultaron cuidadosamente los modelos para inferir las creencias de un heredero y luego preguntaron a cada individuo si las deducciones del maniquí eran correctas. Los usuarios dijeron que los LLM entendían con precisión sus opiniones políticas aproximadamente la centro del tiempo.
«Es obvio proponer, en retrospectiva, que las empresas de IA deberían realizar este tipo de evaluación. Pero es difícil y requiere mucho tiempo e inversión. Usar humanos en el ciclo de evaluación es costoso, pero hemos demostrado que puede revelar nuevos conocimientos», dice Jain.
Si proporcionadamente el objetivo de su investigación no fue la mitigación, los investigadores desarrollaron algunas recomendaciones.
Por ejemplo, para aminorar la adulación se podrían diseñar modelos que identifiquen mejor los detalles relevantes en el contexto y la memoria. Por otra parte, se pueden construir modelos para detectar comportamientos reflejados y señalar respuestas con acuerdo excesivo. Los desarrolladores de modelos todavía podrían aplaudir a los usuarios la posibilidad de moderar la personalización en conversaciones largas.
«Hay muchas maneras de personalizar modelos sin hacerlos demasiado agradables. El linde entre la personalización y la adulación no es una recta muy fina, pero separar la personalización de la adulación es un radio importante de trabajo futuro», dice Jain.
«A fin de cuentas, necesitamos mejores formas de comprender la dinámica y la complejidad de lo que sucede durante las largas conversaciones con los LLM y cómo las cosas pueden desalinearse durante ese proceso a derrochador plazo», añade Wilson.