Con la cobertura del anonimato y la compañía de extraños, el atractivo del mundo digital está creciendo como sitio para averiguar apoyo para la salubridad mental. Este engendro se ve favorecido por el hecho de que más de 150 millones de personas en los Estados Unidos viven en áreas de escasez de profesionales de salubridad mental designadas por el gobierno federal.
«Efectivamente necesito tu ayuda, ya que tengo demasiado miedo para cuchichear con un terapeuta y de todos modos no puedo delimitar a uno».
“¿Estoy exagerando y me siento herida porque mi marido se desaire de mí con sus amigos?”
“¿Podrían algunos extraños opinar sobre mi vida y lanzarse mi futuro por mí?”
Las citas anteriores son publicaciones reales tomadas de usuarios de Reddit, un foro y sitio web de telediario de redes sociales donde los usuarios pueden compartir contenido o pedir consejo en foros más pequeños basados en intereses conocidos como «subreddits».
Utilizando un conjunto de datos de 12.513 publicaciones con 70.429 respuestas de 26 subreddits relacionados con la salubridad mental, investigadores del MIT, la Universidad de Nueva York (NYU) y la Universidad de California en Los Ángeles (UCLA) idearon un situación para ayudar a evaluar la equidad y la calidad normal de los chatbots de apoyo a la salubridad mental basados en modelos de idioma ancho (LLM) como GPT-4. Su trabajo se publicó recientemente en la Conferencia de 2024 sobre métodos empíricos en el procesamiento del idioma natural (EMNLP).
Para conseguir esto, los investigadores pidieron a dos psicólogos clínicos autorizados que evaluaran 50 publicaciones de Reddit seleccionadas al azar que buscaban apoyo para la salubridad mental, emparejando cada publicación con la respuesta existente de un Redditor o una respuesta generada por GPT-4. Sin enterarse qué respuestas eran reales o cuáles fueron generadas por IA, se pidió a los psicólogos que evaluaran el nivel de empatía en cada respuesta.
Los chatbots de apoyo a la salubridad mental se han explorado durante mucho tiempo como una forma de mejorar el golpe al apoyo a la salubridad mental, pero poderosos LLM como ChatGPT de OpenAI están transformando la interacción entre humanos y IA, y las respuestas generadas por IA se vuelven más difíciles de distinguir de las respuestas de humanos reales.
A pesar de este trascendente progreso, las consecuencias no deseadas del apoyo a la salubridad mental proporcionado por la IA han llamado la atención sobre sus riesgos potencialmente mortales; En marzo del año pasado, un belga se suicidó como resultado de un intercambio con ELIZA, un chatbot desarrollado para imitar a un psicoterapeuta con un LLM llamado GPT-J. Un mes luego, la Asociación Doméstico de Trastornos de la Viandas suspendería su chatbot Tessa, luego de que el chatbot comenzara a ofrecer consejos dietéticos a pacientes con trastornos alimentarios.
Saadia Gabriel, una fresco postdoctorada del MIT que ahora es profesora asistente de UCLA y primera autora del artículo, admitió que inicialmente se mostró muy escéptica sobre cuán efectivos podrían ser los chatbots de apoyo a la salubridad mental. Gabriel llevó a promontorio esta investigación durante su estancia como postdoctorado en el MIT en el Peña de Formación Mecánico Saludable, dirigida por Marzyeh Ghassemi, profesora asociada del MIT en el Área de Ingeniería Eléctrica y Ciencias de la Computación y del Instituto de Ingeniería y Ciencias Médicas del MIT, afiliado al MIT. Clínica Abdul Latif Jameel de Formación Mecánico en Salubridad y Laboratorio de Informática e Inteligencia Químico.
Lo que Gabriel y el equipo de investigadores encontraron fue que las respuestas de GPT-4 no solo eran más empáticas en normal, sino que eran un 48 por ciento mejores a la hora de fomentar cambios de comportamiento positivos que las respuestas humanas.
Sin requisa, en una evaluación de sesgo, los investigadores encontraron que los niveles de empatía de respuesta de GPT-4 se redujeron para los carteles negros (entre un 2 y un 15 por ciento más bajos) y asiáticos (entre un 5 y un 17 por ciento más bajos) en comparación con los carteles blancos o cuya raza se desconocía.
Para evaluar el sesgo en las respuestas de GPT-4 y las respuestas humanas, los investigadores incluyeron diferentes tipos de publicaciones con filtraciones demográficas explícitas (por ejemplo, apartado, raza) y filtraciones demográficas implícitas.
Una filtración demográfica explícita sería poco como: «Soy una mujer negra de 32 primaveras».
Mientras que una fuga demográfica implícita se vería así: «Ser una chica de 32 primaveras que lleva mi flequillo natural», en la que se utilizan palabras esencia para indicar ciertos datos demográficos a GPT-4.
Con la excepción de las mujeres negras que publicaron, se descubrió que las respuestas de GPT-4 se vieron menos afectadas por la filtración demográfica explícita e implícita en comparación con los encuestados humanos, que tendían a ser más empáticos al contestar a publicaciones con sugerencias demográficas implícitas.
“La estructura de la información que brinda (el LLM) y cierta información sobre el contexto, como si desea que (el LLM) actúe al estilo de un médico, el estilo de una publicación en las redes sociales o si desea que utilizar atributos demográficos del paciente tiene un gran impacto en la respuesta que se obtiene”, dice Gabriel.
El artículo sugiere que proporcionar instrucciones explícitas a los LLM para que utilicen atributos demográficos puede aliviar eficazmente el sesgo, ya que este fue el único método en el que los investigadores no observaron una diferencia significativa en la empatía entre los diferentes grupos demográficos.
Gabriel prórroga que este trabajo pueda ayudar a respaldar una evaluación más completa y reflexiva de los LLM que se implementan en entornos clínicos en todos los subgrupos demográficos.
«Los LLM ya se están utilizando para elogiar apoyo de cara al paciente y se han implementado en entornos médicos, en muchos casos para automatizar sistemas humanos ineficientes», dice Ghassemi. “Aquí, demostramos que, si correctamente los LLM de última procreación generalmente se ven menos afectados por la filtración demográfica que los humanos en el apoyo de salubridad mental entre pares, no brindan respuestas de salubridad mental equitativas entre los subgrupos de pacientes inferidos… Tenemos muchas oportunidades de mejorar los modelos para que brinden un mejor soporte cuando se usan”.