Athrun Data Intelligence



A medida que maduramos desde la infancia, nuestro vocabulario, así como las formas en que lo usamos, crece, y nuestras experiencias se vuelven más ricas, lo que nos permite pensar, razonar e interactuar con otros con especificidad e intención. En consecuencia, nuestras elecciones de palabras evolucionan para alinearse con nuestros títulos personales, ética, normas culturales y puntos de audiencia. Con el tiempo, la mayoría de nosotros desarrollamos una «callejero» interna que nos permite ilustrarse contexto detrás de la conversación; Todavía con frecuencia nos dirige a compartir información y sentimientos que son, o podrían ser dañinos o inapropiados. Como resultado, los modelos de idiomas grandes (LLM), que están capacitados en conjuntos de datos públicos extensos y, por lo tanto, a menudo tienen sesgos y habla tóxico horneados, puede vencer una capacidad similar para moderar su propio idioma.

Un nuevo método del MIT, el laboratorio MIT-IBM Watson AI e IBM Research, llamado muestreo autorregresivo autosegalizado (SASA), permite a LLMS desintoxicar sus propios resultados, sin ofrecer la fluidez.

A diferencia de otros métodos de desintoxicación, este cálculo de decodificación aprende un tope entre los subespacios tóxicos/no tóxicos en el interior de la representación interna de la LLM, sin alterar los parámetros del maniquí, la falta de reentrabilizar o un maniquí de premio forastero. Luego, durante la inferencia, el cálculo evalúa el valencia de toxicidad de la frase parcialmente generada: tokens (palabras) ya generados y aceptados, cercano con cada nuevo token potencial que podría ser seleccionado razonablemente para la proximidad al tope del clasificador. A continuación, selecciona una opción de palabra que coloca la frase en el espacio no tóxico, que finalmente ofrece una forma rápida y capaz de producir un habla menos tóxico.

«Queríamos vigilar una guisa con cualquier maniquí de idioma existente (que), durante el proceso de coexistentes, la decodificación puede estar sujeta a algunos títulos humanos; el ejemplo que estamos tomando es toxicidad», dice el autor principal del estudio Ching-Yun «Irene» KO PhD ’24, un ex pasante licenciado del Centro de Investigación Diplomado del MIT-IBM Watson AI y un irrefutable de investigación presente de IBM en IBM J. Watson en el Centro de Investigación de THOMAS J. Watson en New York.

Los coautores de KO incluyen a Luca Daniel, profesora del Sección de Ingeniería Eléctrica e Informática del MIT (EECS), miembro del Laboratorio MIT-IBM Watson AI y el asesor licenciado de KO; y varios miembros del laboratorio MIT-IBM Watson AI y/o la investigación de IBM: Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury y Tejaswini Pedapati. El trabajo se presentará en la Conferencia Internacional sobre Representaciones de Educación.

Encontrar las «barandillas»

Los bienes de capacitación detrás de LLM casi siempre incluyen contenido recopilado de espacios públicos como Internet y otros conjuntos de datos fácilmente disponibles. Como tal, las palabras de maldición y el acoso escolar/habla desagradable son un componente, aunque parte de ellos está en el contexto de obras literarias. Luego se deduce que los LLM pueden producir innatamente, o ser engañados para producir, contenido peligroso y/o sesgado, que a menudo contiene palabras desagradables o habla odioso, incluso de indocuencias. Adicionalmente, se ha enfrentado que pueden ilustrarse y amplificar el habla que no es preferido o incluso perjudicial para muchas aplicaciones y tareas aguas debajo, lo que lleva a la falta de estrategias de mitigación o corrección.

Hay muchas maneras de conquistar una coexistentes de habla robusta que sea lucha y alineada por valencia. Algunos métodos utilizan reentrenamiento LLM con un conjunto de datos desinfectados, que es costoso, lleva tiempo y puede alterar el rendimiento de la LLM; Otros emplean modelos de premio externos de decodificación, como el muestreo o la búsqueda de haz, que tardan más en ejecutarse y requieren más memoria. En el caso de SASA, KO, Daniel y el equipo de investigación de IBM desarrollaron un método que aprovecha la naturaleza autorregresiva de los LLM y el uso de una organización basada en decodificación durante la inferencia de la LLM, dirige gradualmente la coexistentes, una ficha a un momento, allá de los resultados no salvas o no deseados y en dirección a un mejor idioma.

El reunión de investigación logró esto construyendo un clasificador derecho que opera en el subespacio aprendido de la incrustación de la LLM. Cuando los LLM se entrenan, las palabras con significados similares se colocan de cerca en el espacio vectorial y más allá de palabras diferentes; Los investigadores plantearon la hipótesis de que la incrustación de una LLM todavía capturaría información contextual, que podría estar de moda para la desintoxicación. Los investigadores utilizaron conjuntos de datos que contenían conjuntos de un aviso (primera centro de una oración o pensamiento), una respuesta (la finalización de esa oración) y la anotación atribuida por humanos, como tóxica o no tóxica, preferida o no preferida, con etiquetas continuas de 0-1, que denota una toxicidad creciente. Luego se aplicó un clasificador inmejorable de Bayes para ilustrarse y dibujar en sentido figurado una secante entre los subespacios binarios en el interior de los incrustaciones de oraciones, representados por títulos positivos (espacio no tóxico) y números negativos (espacio tóxico).

El sistema SASA luego funciona volviendo a penetrar las probabilidades de muestreo del nuevo token potencial en función del valencia de la misma y la distancia de la frase generada al clasificador, con el objetivo de permanecer cerca de la distribución de muestreo diferente.

Para ilustrar, si un favorecido está generando un token potencial #12 en una oración, el LLM buscará su vocabulario completo una palabra mediano, basada en las 11 palabras que se precedieron, y usando Top-K, Top-P, filtrará y producirá aproximadamente 10 tokens para decidir. SASA luego evalúa cada una de esas tokens en la oración parcialmente completa por su proximidad al clasificador (es afirmar, el valencia de los tokens 1-11, más cada token potencial 12). Se fomentan los tokens que producen oraciones en el espacio positivo, mientras que los del espacio gafe son penalizados. Adicionalmente, cuanto más allá del clasificador, más cachas sea el impacto.

«El objetivo es cambiar el proceso de muestreo autorregresivo al retornar a penetrar la probabilidad de buenas tokens. Si es probable que el próximo token sea tóxico poliedro el contexto, entonces vamos a estrechar la probabilidad de muestreo para que aquellos propensos sean tóxicos», dice Ko. Los investigadores eligieron hacerlo de esta guisa «porque las cosas que decimos, ya sea benignas o no, están sujetas al contexto».

Apretando la toxicidad para la coincidencia de valencia

Los investigadores evaluaron su método contra varias intervenciones de remisión con tres LLM de tamaño creciente; Todos estaban basados ​​en transformadores y autorregresivos: GPT2-Large, Llama2-7B y Pira 3.1-8B-Instructo, con 762 millones, 7 mil millones y 8 mil millones de parámetros respectivamente. Para cada aviso, el LLM tuvo la tarea de completar la oración/frase 25 veces, y PerspectiveApi los anotó de 0 a 1, con poco más de 0.5 tóxico. El equipo analizó dos métricas: la puntuación promedio de toxicidad máxima en las 25 generaciones para todas las indicaciones, y la tasa tóxica, que fue la probabilidad de producir al menos una frase tóxica durante 25 generaciones. Todavía se analizó la fluidez limitada (y, por lo tanto, una viejo perplejidad). SASA se probó para completar los conjuntos de datos RealtoxicityPrompts (RPT), Bold y Attaq, que contenían indicaciones de oración en inglés naturales.

Los investigadores aumentaron la complejidad de sus ensayos para la desintoxicación por SASA, comenzando con indicaciones no tóxicas desde el conjunto de datos RPT, buscando finalizaciones de oraciones dañinas. Luego, lo intensificaron a indicaciones más desafiantes de RPT que tenían más probabilidades de producir resultados con respecto a los resultados, y todavía aplicaron SASA al maniquí conveniente a la instrucción para evaluar si su técnica podría estrechar aún más las ofertas no deseadas. Todavía utilizaron los puntos de remisión Bold y Attaq para examinar la aplicabilidad normal de SASA en la desintoxicación. Con el conjunto de datos en negrita, los investigadores buscaron aún más el sesgo de categoría en las generaciones de idiomas e intentaron conquistar una tasa tóxica equilibrada entre los géneros. Por extremo, el equipo analizó el tiempo de ejecución, el uso de la memoria y cómo se podría combinar SASA con el filtrado de palabras para conquistar una coexistentes de habla saludable y/o útil.

«Si pensamos en cómo los seres humanos piensan y reaccionan en el mundo, sí vemos cosas malas, por lo que no se tráfico de permitir que el maniquí de idioma vea solo las cosas buenas. Se tráfico de comprender el espectro completo, tanto bueno como malo», dice Ko, «y designar nuestros títulos cuando hablamos y actuamos».

En normal, SASA logró reducciones significativas de coexistentes de idiomas tóxicos, que se desempeñan a la par con RAD, una técnica del maniquí de premio externa de última coexistentes. Sin confiscación, se observó mundialmente que la desintoxicación más cachas acompañó una disminución de la fluidez. Antiguamente de la intervención, el LLM produjo más respuestas tóxicas para las indicaciones etiquetadas femeninas que el hombre; Sin confiscación, SASA todavía pudo estrechar significativamente las respuestas dañinas, haciéndolas más igualadas. Del mismo modo, el filtrado de palabras en la parte superior de SASA hizo niveles notablemente más bajos de toxicidad, pero todavía obstaculizó la capacidad de la LLM para replicar coherentemente.

Un gran aspecto de este trabajo es que es un problema de optimización perfectamente definido y restringido, dice KO, lo que significa que el seguridad entre la coexistentes de habla franco que suena natural y la falta de estrechar el habla no deseado se puede conquistar y ajustar.

Adicionalmente, dice Ko, Sasa podría funcionar perfectamente para múltiples atributos en el futuro: «Para los seres humanos, tenemos múltiples títulos humanos. No queremos afirmar cosas tóxicas, pero todavía queremos ser sinceros, efectos y leales … si tuviera que ajustar un maniquí para todos estos títulos, requeriría más bienes computacionales y, por supuesto, entrenamiento adicional». Correcto a la forma liviana de SASA, podría aplicarse fácilmente en estas circunstancias: «Si desea trabajar con múltiples títulos, es simplemente realizar la posición de la coexistentes en múltiples subespacios. Solo agrega sobrecarga insignificante en términos del computar y los parámetros», dice Ko, que conduce a un habla más positivo, preciso y formado principalmente.

Este trabajo fue apoyado, en parte, por el MIT-IBM Watson AI Lab y la National Science Foundation.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *