Athrun Data Intelligence



¿Es esta revisión de la película un rave o una paila? ¿Es esta información sobre negocios o tecnología? ¿Esta conversación de chatbot en carrera se desvía para dar consejos financieros? ¿Este sitio de información médica en carrera está dando información errónea?

Este tipo de conversaciones automatizadas, ya sea que impliquen inquirir una revisión de una película o restaurante o obtener información sobre su cuenta bancaria o registros de sanidad, son cada vez más frecuentes. Más que nunca, tales evaluaciones están siendo realizadas por algoritmos en gran medida sofisticados, conocidos como clasificadores de texto, en circunstancia de seres humanos. Pero, ¿cómo podemos opinar cuán precisas son verdaderamente estas clasificaciones?

Ahora, un equipo del Laboratorio de Información y Sistemas de Osadía (LID) del MIT ha presentado un enfoque progresista no solo para evaluar qué tan proporcionadamente están haciendo estos clasificadores su trabajo, sino que luego vaya un paso más allá y muestre cómo hacerlos más precisos.

El nuevo software de evaluación y remediación fue desarrollado por Kalyan Veeramachaneni, un verificado principal de investigación de Lids, sus alumnos Lei Xu y Sarah Alnegheimish, y otros dos. El paquete de software está haciendo acondicionado gratis para descargar por cualquier persona que quiera usarlo.

Un método típico para probar estos sistemas de clasificación es crear lo que se conocen como ejemplos sintéticos: oraciones que se parecen mucho a las que ya se han clasificado. Por ejemplo, los investigadores pueden tomar una oración que ya ha sido etiquetada por un software de clasificadores como una revisión dispuesto, y ver si cambiar una palabra o algunas palabras mientras retiene el mismo significado podría engañar al clasificador para que considere una paila. O una oración que se determinó que era información errónea podría ser errónea como precisa. Esta capacidad de engañar a los clasificadores hace estos ejemplos adversos.

La masa ha probado varias formas de encontrar las vulnerabilidades en estos clasificadores, dice Veeramachaneni. Pero los métodos existentes para encontrar estas vulnerabilidades tienen dificultades con esta tarea y se pierden muchos ejemplos que deberían atrapar, dice.

Cada vez más, las empresas están tratando de usar tales herramientas de evaluación en tiempo auténtico, monitoreando la producción de chatbots utilizados para varios fines para tratar de cerciorarse de que no estén presentando respuestas incorrectas. Por ejemplo, un sotabanco podría usar un chatbot para objetar a las consultas rutinarias de los clientes, como los saldos de las cuentas corrientes o solicitar una maleable de crédito, pero quiere cerciorarse de que sus respuestas nunca puedan interpretarse como asesoramiento financiero, lo que podría exponer a la empresa a responsabilidad. «Antaño de mostrar la respuesta del chatbot al agraciado final, quieren usar el clasificador de texto para detectar si está dando consejos financieros o no», dice Veeramachaneni. Pero entonces es importante probar ese clasificador para ver cuán confiables son sus evaluaciones.

«Estos chatbots, o motores de sinopsis o otras cosas se están configurando en todos los ámbitos», dice, para tratar con clientes externos y adentro de una estructura, por ejemplo, proporcionar información sobre problemas de fortuna humanos. Es importante poner estos clasificadores de texto en el rizo para detectar cosas que no deben opinar, y filtrarlos ayer de que la salida se transmitiera al agraciado.

Ahí es donde entra en el uso de ejemplos adversos: esas oraciones que ya se han clasificado pero luego producen una respuesta diferente cuando se modifican tenuemente mientras conservan el mismo significado. ¿Cómo pueden las personas confirmar que el significado es el mismo? Mediante el uso de otro maniquí de estilo prócer (LLM) que interpreta y compara significados. Entonces, si el LLM dice que las dos oraciones significan lo mismo, pero el clasificador las marbete de forma diferente: «Esa es una oración que es adversaria, puede engañar al clasificador», dice Veeramachaneni. Y cuando los investigadores examinaron estas oraciones adversas, «descubrimos que la mayoría de las veces, esto fue solo un cambio de una palabra», aunque las personas que usan LLM para producir estas oraciones alternativas a menudo no se dieron cuenta de eso.

Una longevo investigación, utilizando LLM para analizar muchos miles de ejemplos, mostró que ciertas palabras específicas tenían una influencia descomunal en el cambio de clasificaciones y, por lo tanto, la prueba de la precisión de un clasificador podría centrarse en este pequeño subconjunto de palabras que parecen marcar la longevo diferencia. Descubrieron que una décima parte del 1 por ciento de las 30,000 palabras en el vocabulario del sistema podría representar casi la fracción de todas estas reversiones de clasificación, en algunas aplicaciones específicas.

Lei Xu PhD ’23, un recién titulado de tapas que realizaron gran parte del investigación como parte de su trabajo de exposición, «utilizó muchas técnicas de estimación interesantes para descubrir cuáles son las palabras más poderosas que pueden cambiar la clasificación normal, que pueden engañar al clasificador», dice Veeramachaneni. El objetivo es hacer posible realizar búsquedas mucho más estrechamente específicas, en circunstancia de peinar a través de todas las sustituciones de palabras posibles, lo que hace que la tarea computacional de producir ejemplos adversos sea mucho más manejable. «Está utilizando modelos de idiomas grandes, curiosamente, como una forma de comprender el poder de una sola palabra».

Luego, además utilizando LLMS, rastreo otras palabras que estén estrechamente relacionadas con estas poderosas palabras, y así sucesivamente, lo que permite una clasificación normal de palabras de acuerdo con su influencia en los resultados. Una vez que se han enfrentado estas oraciones adversas, se pueden usar a su vez para retornar a entrenar el clasificador para tenerlas en cuenta, aumentando la robustez del clasificador contra esos errores.

Hacer que los clasificadores sean más precisos puede no parecer un gran problema si es solo una cuestión de clasificar los artículos de parte en categorías o lanzarse si las revisiones de cualquier cosa, desde películas hasta restaurantes, son positivas o negativas. Pero cada vez más, los clasificadores se están utilizando en entornos en los que los resultados verdaderamente importan, ya sea evitando la permiso inadvertida de información médica, financiera o de seguridad sensible, o ayudando a gobernar investigaciones importantes, como las propiedades de los compuestos químicos o el plegamiento de proteínas para aplicaciones biomédicas, o para identificar y cortar el discurso de odio o la desinformación conocida.

Como resultado de esta investigación, el equipo introdujo una nueva métrica, que llaman P, que proporciona una medida de cuán robusto es un clasificador poliedro contra ataques de una sola palabra. Y conveniente a la importancia de tales clasificaciones erróneas, el equipo de investigación ha puesto a disposición sus productos como entrada libre para que cualquiera lo use. El paquete consta de dos componentes: SP-Attack, que genera oraciones adversas para probar clasificadores en cualquier aplicación en particular, y en defensa SP, que tiene como objetivo mejorar la robustez del clasificador mediante la coexistentes y el uso de oraciones adversas para retornar a entrenar el maniquí.

En algunas pruebas, donde los métodos competitivos para probar las futuro del clasificador permitieron una tasa de éxito del 66 por ciento mediante ataques adversos, el sistema de este equipo redujo esa tasa de éxito de ataques casi a la fracción, al 33.7 por ciento. En otras aplicaciones, la alivio fue tan pequeña como una diferencia del 2 por ciento, pero incluso eso puede ser proporcionado importante, dice Veeramachaneni, ya que estos sistemas se están utilizando durante tantos miles de millones de interacciones que incluso un pequeño porcentaje puede afectar a millones de transacciones.

Los resultados del equipo se publicaron el 7 de julio en la revista. Sistemas expertos En un artículo de Xu, Veeramachaneni y Alnegheimish of Lids, unido con Laure Berti-Equille en IRD en Marsella, Francia y Alfredo cuesta-Infante en la Universidad Rey Juan Carlos, en España.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *