
Según un estudio del MIT, los modelos de lenguajes grandes (LLM) a veces aprenden las lecciones equivocadas.
En emplazamiento de contestar una consulta basada en el conocimiento del dominio, un LLM podría contestar aprovechando los patrones gramaticales que aprendió durante la capacitación. Esto puede provocar que un maniquí falle inesperadamente cuando se implementa en nuevas tareas.
Los investigadores descubrieron que los modelos pueden vincular erróneamente ciertos patrones de oraciones con temas específicos, por lo que un LLM podría dar una respuesta convincente al escudriñar frases familiares en emplazamiento de comprender la pregunta.
Sus experimentos demostraron que incluso los LLM más poderosos pueden cometer este error.
Esta deficiencia podría compendiar la confiabilidad de los LLM que realizan tareas como atender consultas de clientes, resumir notas clínicas y ocasionar informes financieros.
Además podría tener riesgos de seguridad. Un actor nefasto podría beneficiarse esto para engañar a los LLM para que produzcan contenido dañino, incluso cuando los modelos tienen salvaguardias para evitar tales respuestas.
A posteriori de identificar este engendro y explorar sus implicaciones, los investigadores desarrollaron un procedimiento de evaluación comparativa para evaluar la dependencia de un maniquí de estas correlaciones incorrectas. El procedimiento podría ayudar a los desarrolladores a mitigar el problema ayer de implementar LLM.
«Esto es un subproducto de cómo entrenamos modelos, pero los modelos ahora se utilizan en la habilidad en dominios críticos para la seguridad mucho más allá de las tareas que crearon estos modos de equivocación sintácticos. Si no está familiarizado con el entrenamiento de modelos como adjudicatario final, es probable que esto sea inesperado», dice Marzyeh Ghassemi, profesor asociado en el Sección de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT, miembro del Instituto de Ciencias de Ingeniería Médica y del Laboratorio de Sistemas de Información y Intrepidez del MIT, y autor principal del estudio. estudio.
A Ghassemi se unen los autores coautores Chantal Shaib, estudiante de posgrado de la Universidad Northeastern y estudiante visitante en el MIT; y Vinith Suriyakumar, estudiante de posgrado del MIT; así como Levent Sagun, comprobado investigador del Meta; y Byron Wallace, profesor asociado interdisciplinario Sy y Laurie Sternberg y decano asociado de investigación en la Poder de Ciencias de la Computación Khoury de la Universidad Northeastern. A documento que describe el trabajo se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Atascado en la sintaxis
Los LLM están capacitados en una gran cantidad de texto de Internet. Durante este proceso de capacitación, el maniquí aprende a comprender las relaciones entre palabras y frases, conocimiento que utiliza más delante al contestar consultas.
En trabajos anteriores, los investigadores descubrieron que los LLM detectan patrones en las partes del discurso que frecuentemente aparecen juntas en los datos de entrenamiento. A estos patrones de partes del discurso los llaman «plantillas sintácticas».
Los LLM necesitan esta comprensión de la sintaxis, anejo con el conocimiento semántico, para contestar preguntas en un dominio particular.
«En el ámbito de las noticiario, por ejemplo, hay un estilo particular de escritura. Por lo tanto, el maniquí no sólo aprende la semántica, sino que todavía aprende la estructura subyacente de cómo se deben formar las oraciones para seguir un estilo específico para ese dominio», explica Shaib.
Pero en esta investigación, determinaron que los LLM aprenden a asociar estas plantillas sintácticas con dominios específicos. El maniquí puede fundamentarse incorrectamente sólo en esta asociación aprendida al contestar preguntas, en emplazamiento de en la comprensión de la consulta y el tema.
Por ejemplo, un LLM podría instruirse que una pregunta como «¿Dónde está París?» está estructurado como adverbio/verbo/sustantivo propio/verbo. Si hay muchos ejemplos de construcción de oraciones en los datos de entrenamiento del maniquí, el LLM puede asociar esa plantilla sintáctica con preguntas sobre países.
Entonces, si al maniquí se le da una nueva pregunta con la misma estructura gramatical pero palabras sin sentido, como «¿Siéntate rápidamente en París nublado?» podría contestar “Francia” aunque esa respuesta no tenga sentido.
«Este es un tipo de asociación que el maniquí aprende para contestar preguntas correctamente y que se pasa por detención. Deberíamos prestar más atención no sólo a la semántica sino todavía a la sintaxis de los datos que utilizamos para entrenar nuestros modelos», afirma Shaib.
Descuido el significado
Los investigadores probaron este engendro diseñando experimentos sintéticos en los que solo aparecía una plantilla sintáctica en los datos de entrenamiento del maniquí para cada dominio. Probaron los modelos sustituyendo palabras por sinónimos, antónimos o palabras aleatorias, pero mantuvieron la misma sintaxis subyacente.
En cada caso, descubrieron que los LLM a menudo respondían con la respuesta correcta, incluso cuando la pregunta era una completa tontería.
Cuando reestructuraron la misma pregunta utilizando un nuevo patrón de parte del discurso, los LLM a menudo no dieron la respuesta correcta, a pesar de que el significado subyacente de la pregunta seguía siendo el mismo.
Utilizaron este enfoque para probar LLM previamente capacitados como GPT-4 y Pasión, y descubrieron que este mismo comportamiento aprendido reducía significativamente su desempeño.
Curiosos por las implicaciones más amplias de estos hallazgos, los investigadores estudiaron si cualquiera podría explotar este engendro para provocar respuestas dañinas de un LLM que ha sido entrenado deliberadamente para rebotar tales solicitudes.
Descubrieron que, al formular la pregunta utilizando una plantilla sintáctica que el maniquí asocia con un conjunto de datos «seguro» (uno que no contiene información dañina), podían engañar al maniquí para que anulara su política de rechazo y generara contenido dañino.
«A partir de este trabajo, me queda claro que necesitamos defensas más sólidas para invadir las vulnerabilidades de seguridad en los LLM. En este documento, identificamos una nueva vulnerabilidad que surge correcto a la forma en que aprenden los LLM. Por lo tanto, debemos idear nuevas defensas basadas en cómo los LLM aprenden el idioma, en emplazamiento de simplemente soluciones a propósito para diferentes vulnerabilidades», dice Suriyakumar.
Si aceptablemente los investigadores no exploraron estrategias de mitigación en este trabajo, desarrollaron una técnica de evaluación comparativa cibernética que se podría utilizar para evaluar la dependencia de un LLM de esta correlación incorrecta entre la sintaxis y el dominio. Esta nueva prueba podría ayudar a los desarrolladores a invadir de forma proactiva esta deficiencia en sus modelos, reduciendo los riesgos de seguridad y mejorando el rendimiento.
En el futuro, los investigadores quieren estudiar posibles estrategias de mitigación, que podrían implicar aumentar los datos de entrenamiento para proporcionar una variedad más amplia de plantillas sintácticas. Además están interesados en explorar este engendro en modelos de razonamiento, tipos especiales de LLM diseñados para invadir tareas de varios pasos.
«Creo que este es un ángulo positivamente creativo para estudiar los modos de equivocación de los LLM. Este trabajo resalta la importancia del conocimiento y investigación lingüísticos en la investigación de seguridad de los LLM, un aspecto que no ha estado en el centro del escena pero que claramente debería estarlo», dice Jessy Li, profesora asociada de la Universidad de Texas en Austin, que no participó en este trabajo.
Este trabajo está financiado, en parte, por una subvención de Bridgewater AIA Labs, la Fundación Franquista de Ciencias, la Fundación Gordon y Betty Moore, un premio de investigación de Google y Schmidt Sciences.