Ghostbuster: Detecting Text Ghostwritten by Large Language Models

La estructura de Ghostbuster, nuestro nuevo método de última engendramiento para detectar texto generado por IA.

Los modelos de estilo grandes como ChatGPT escriben de forma impresionante, tan proporcionadamente, de hecho, que se han convertido en un problema. Los estudiantes han comenzado a usar estos modelos para escribir trabajos de forma anónima, lo que ha llevado a algunas escuelas a Prohibir ChatGPTPor otra parte, estos modelos incluso son propensos a producir textos con errores factuales, por lo que los lectores cautelosos tal vez quieran aprender si se han utilizado herramientas de IA generativa para redactar artículos de noticiero u otras fuentes antaño de tener fe en ellas.

¿Qué pueden hacer los profesores y los consumidores? Las herramientas existentes para detectar textos generados por IA a veces funcionan mal con datos que difieren de los que se usaron para el entrenamiento. Por otra parte, si estos modelos clasifican erróneamente textos humanos reales como generados por IA, pueden poner en peligro a los estudiantes cuyo trabajo auténtico se pone en tela de querella.

Nuestro artículo fresco presenta Ghostbuster, un método de última engendramiento para detectar texto generado por IA. Ghostbuster funciona encontrando la probabilidad de crear cada token en un documento bajo varios modelos de estilo más débiles, y luego combinando funciones basadas en estas probabilidades como entrada para un clasificador final. Ghostbuster no necesita aprender qué maniquí se utilizó para crear un documento, ni la probabilidad de crear el documento bajo ese maniquí específico. Esta propiedad hace que Ghostbuster sea particularmente útil para detectar texto potencialmente generado por un maniquí desconocido o un maniquí de caja negra, como los populares modelos comerciales ChatGPT y Claude, para los cuales no hay probabilidades disponibles. Estamos particularmente interesados en asegurarnos de que Ghostbuster se generalice proporcionadamente, por lo que evaluamos una variedad de formas en las que se podría crear texto, incluidos diferentes dominios (usando conjuntos de datos recientemente recopilados de ensayos, noticiero e historias), modelos de estilo o indicaciones.

Ejemplos de texto creado por humanos y generado por IA a partir de nuestros conjuntos de datos.

¿Por qué este enfoque?

Muchos sistemas actuales de detección de texto generados por IA son frágiles para clasificar diferentes tipos de texto (por ejemplo, diferentes tipos de escritura). estiloso engendramiento de texto diferente modelos o indicaciones). Modelos más simples que utilizan perplejidad Por lo normal, los clasificadores por sí solos no pueden capturar características más complejas y funcionan especialmente mal en dominios de escritura nuevos. De hecho, descubrimos que una recorrido almohadilla basada nada más en la perplejidad era peor que la aleatoria en algunos dominios, incluidos los datos de hablantes no nativos de inglés. Mientras tanto, los clasificadores basados en modelos lingüísticos grandes como RoBERTa capturan fácilmente características complejas, pero se ajustan en exceso a los datos de entrenamiento y generalizan mal: descubrimos que una recorrido almohadilla de RoBERTa tenía un rendimiento de propagación catastrófico en el peor de los casos, a veces incluso peor que una recorrido almohadilla basada nada más en la perplejidad. Métodos de disparo cero que clasifican texto sin entrenamiento en datos etiquetados, calculando la probabilidad de que el texto haya sido generado por un maniquí específico, incluso tienden a tener un desempeño deficiente cuando en ingenuidad se utilizó un maniquí diferente para crear el texto.

Cómo funciona Ghostbuster

Ghostbuster utiliza un proceso de entrenamiento de tres etapas: cálculo de probabilidades, selección de características y entrenamiento del clasificador.

Calculando probabilidades:Convertimos cada documento en una serie de vectores calculando la probabilidad de crear cada palabra en el documento bajo una serie de modelos de estilo más débiles (un maniquí de unigrama, un maniquí de trigrama y dos modelos GPT-3 no ajustados a instrucciones, ada y davinci).

Inclinarse funciones:Utilizamos un procedimiento de búsqueda estructurado para optar características, que funciona (1) definiendo un conjunto de operaciones vectoriales y escalares que combinan las probabilidades, y (2) buscando combinaciones bártulos de estas operaciones utilizando la selección de características en torno a delante, agregando repetidamente la mejor característica restante.

Entrenamiento de clasificadores:Entrenamos un clasificador listado con las mejores características basadas en probabilidad y algunas características adicionales seleccionadas manualmente.

Resultados

Cuando se entrenó y probó en el mismo dominio, Ghostbuster logró 99,0 F1 en los tres conjuntos de datos, superando a GPTZero por un ganancia de 5,9 F1 y a DetectGPT por 41,6 F1. Fuera del dominio, Ghostbuster logró 97,0 F1 en promedio en todas las condiciones, superando a DetectGPT por 39,6 F1 y a GPTZero por 7,5 F1. Nuestra recorrido almohadilla RoBERTa logró 98,1 F1 cuando se evaluó en el dominio en todos los conjuntos de datos, pero su rendimiento de propagación fue inconsistente. Ghostbuster superó la recorrido almohadilla RoBERTa en todos los dominios, excepto en escritura creativa fuera del dominio, y tuvo un rendimiento fuera del dominio mucho mejor que RoBERTa en promedio (ganancia de 13,8 F1).

Resultados sobre el rendimiento de Ghostbuster internamente y fuera del dominio.

Para asegurarnos de que Ghostbuster sea robusto en presencia de la variedad de formas en que un beneficiario puede solicitar un maniquí, como solicitar diferentes estilos de escritura o niveles de leída, evaluamos la robustez de Ghostbuster en presencia de varias variantes de indicaciones. Ghostbuster superó a todos los demás enfoques probados en estas variantes de indicaciones con 99,5 F1. Para probar la propagación entre modelos, evaluamos el rendimiento en texto generado por Claudiodonde Ghostbuster incluso superó a todos los demás enfoques probados con 92,2 F1.

Los detectores de texto generados por IA han sido engañados al editar levemente el texto generado. Examinamos la solidez de Ghostbuster a las ediciones, como trocar oraciones o párrafos, reordenar caracteres o reemplazar palabras con sinónimos. La mayoría de los cambios a nivel de oración o párrafo no afectaron significativamente el rendimiento, aunque el rendimiento disminuyó suavemente si el texto se editó mediante paráfrasis repetidas, utilizando evasores de detección comerciales como Undetectable AI o realizando numerosos cambios a nivel de palabras o caracteres. El rendimiento incluso fue mejor en documentos más largos.

Desde detectores de texto generados por IA Puede clasificar erróneamente En el caso de los textos de hablantes no nativos de inglés generados por IA, evaluamos el rendimiento de Ghostbuster en la escritura de hablantes no nativos de inglés. Todos los modelos probados tuvieron una precisión superior al 95 % en dos de los tres conjuntos de datos probados, pero obtuvieron peores resultados en el tercer conjunto de ensayos más cortos. Sin secuestro, la largura del documento puede ser el número principal aquí, ya que Ghostbuster se desempeña casi tan proporcionadamente en estos documentos (74,7 F1) como en otros documentos fuera del dominio de largura similar (75,6 a 93,1 F1).

Los usuarios que deseen aplicar Ghostbuster a casos reales de uso potencialmente no permitido de la engendramiento de texto (por ejemplo, ensayos de estudiantes escritos en ChatGPT) deben tener en cuenta que es más probable que se produzcan errores en textos más cortos, dominios alejados de aquellos en los que se entrenó a Ghostbuster (por ejemplo, diferentes variedades de inglés), texto de hablantes no nativos de inglés, generaciones de modelos editadas por humanos o texto generado al solicitarle a un maniquí de IA que modifique una entrada creada por humanos. Para evitar perpetuar los daños algorítmicos, desaconsejamos enfáticamente penalizar automáticamente el supuesto uso de la engendramiento de texto sin supervisión humana. En cambio, recomendamos un uso cauteloso y con billete humana de Ghostbuster si clasificar el texto de algún como generado por IA podría perjudicarlo. Ghostbuster incluso puede ayudar con una variedad de aplicaciones de último aventura, incluido el filtrado de texto generado por IA de los datos de entrenamiento del maniquí de estilo y la comprobación de si las fuentes de información en recorrido están generadas por IA.

Conclusión

Ghostbuster es un maniquí de detección de texto generado por IA de última engendramiento, con un rendimiento de 99,0 F1 en los dominios probados, lo que representa un avance sustancial con respecto a los modelos existentes. Se generaliza proporcionadamente a diferentes dominios, indicaciones y modelos, y es ideal para identificar texto de modelos desconocidos o de caja negra porque no requiere paso a las probabilidades del maniquí específico utilizado para crear el documento.

Las direcciones futuras de Ghostbuster incluyen saludar explicaciones para las decisiones del maniquí y mejorar la solidez en presencia de ataques que intentan específicamente engañar a los detectores. Los enfoques de detección de texto generados por IA incluso se pueden usar unido con alternativas como marca de aguaIncluso esperamos que Ghostbuster pueda ayudar en una variedad de aplicaciones, como filtrar datos de entrenamiento de modelos de estilo o marcar contenido generado por IA en la web.

Prueba Ghostbuster aquí: Cazafantasmas.app

Obtenga más información sobre Ghostbuster aquí: ( papel ) ( código )

Intente adivinar si el texto fue generado por IA aquí: Cazafantasmas.app/tentativa

Etiquetado Artificial, Berkeley, Blog, detección, escritos, gran, inteligencia, investigación, lenguaje, modelos, otros, por, tamaño, textos

Detección de textos escritos por otros modelos de estilo de gran tamaño – El blog de investigación en inteligencia químico de Berkeley

¿Por qué este enfoque?

Cómo funciona Ghostbuster

Resultados

Conclusión

Deja una respuesta Cancelar la respuesta

COLOMBIA

ENLACES DE INTERÉS