En 1994, la diseñadora de joyas de Florida Diana Duyser descubrió lo que creía que era la imagen de la Casto María en un sándwich de pinrel asado, que conservó y luego subastó por 28.000 dólares. Pero, ¿cuánto entendemos en realidad sobre la pareidolia, el aberración de ver caras y patrones en objetos cuando en verdad no existen?
un nuevo estudiar del Laboratorio de Ciencias de la Computación e Inteligencia Industrial (CSAIL) del MIT profundiza en este aberración, presentando un extenso conjunto de datos etiquetados por humanos de 5.000 imágenes pareidólicas, superando con creces las colecciones anteriores. Utilizando este conjunto de datos, el equipo descubrió varios resultados sorprendentes sobre las diferencias entre la percepción humana y la de las máquinas, y cómo la capacidad de ver caras en una tostada podría suceder redimido la vida de sus parientes lejanos.
«La pareidolia facial ha fascinado a los psicólogos durante mucho tiempo, pero ha sido en gran medida inexplorada en la comunidad de visión por computadora», dice Mark Hamilton, estudiante de doctorado en ingeniería eléctrica e informática del MIT, afiliado a CSAIL e investigador principal del trabajo. «Queríamos crear un solicitud que pudiera ayudarnos a comprender cómo tanto los humanos como los sistemas de inteligencia sintético procesan estos rostros ilusorios».
Entonces, ¿qué revelaron todas estas caras falsas? Por un banda, los modelos de IA no parecen registrar rostros pareidólicos como lo hacemos nosotros. Sorprendentemente, el equipo descubrió que no fue hasta que entrenaron algoritmos para registrar rostros de animales que mejoraron significativamente en la detección de rostros pareidólicos. Esta conexión inesperada sugiere un posible vínculo evolutivo entre nuestra capacidad de detectar rostros de animales (crucial para la supervivencia) y nuestra tendencia a ver rostros en objetos inanimados. «Un resultado como este parece sugerir que la pareidolia podría no surgir del comportamiento social humano, sino de poco más profundo: como detectar rápidamente un tigre al acecho, o identificar en qué dirección mira un ciervo para que nuestros ancestros primordiales pudieran cazar», dice Hamilton.
Otro descubrimiento intrigante es lo que los investigadores llaman la «Zona Ricitos de Oro de la Pareidolia», una clase de imágenes en las que es más probable que se produzca la pareidolia. «Existe un rango específico de complejidad visual en el que tanto los humanos como las máquinas tienen más probabilidades de percibir rostros en objetos que no son rostros», dice William T. Freeman, profesor de ingeniería eléctrica e informática del MIT e investigador principal del plan. “Demasiado simple y no hay suficientes detalles para formar una cara. Demasiado complicado y se convierte en ruido visual”.
Para descubrir esto, el equipo desarrolló una ecuación que modela cómo las personas y los algoritmos detectan rostros ilusorios. Al analizar esta ecuación, encontraron un claro «pico pareidólico» donde la probabilidad de ver caras es maduro, correspondiente a imágenes que tienen «la cantidad torneo» de complejidad. Esta “zona Ricitos de Oro” prevista se validó luego en pruebas tanto con sujetos humanos reales como con sistemas de detección de rostros de IA.
Este nuevo conjunto de datos, “Caras en las cosas”, eclipsa los de estudios anteriores que normalmente utilizaban sólo entre 20 y 30 estímulos. Esta escalera permitió a los investigadores explorar cómo se comportaban los algoritmos de detección de rostros de última vivientes posteriormente de realizar ajustes en rostros pareidólicos, lo que demuestra que estos algoritmos no solo podrían editarse para detectar estos rostros, sino que incluso podrían comportarse como un silicio. sustituto de nuestro propio cerebro, lo que permite al equipo hacer y objetar preguntas sobre los orígenes de la detección de rostros pareidólicos que son imposibles de formular en humanos.
Para construir este conjunto de datos, el equipo seleccionó aproximadamente 20.000 imágenes candidatas del conjunto de datos LAION-5B, que luego fueron etiquetadas y juzgadas meticulosamente por anotadores humanos. Este proceso implicó dibujar cuadros delimitadores rodeando de los rostros percibidos y objetar preguntas detalladas sobre cada rostro, como la emoción percibida, la antigüedad y si el rostro fue accidental o intencional. «Resumir y anotar miles de imágenes fue una tarea monumental», dice Hamilton. «Gran parte del conjunto de datos debe su existencia a mi matriz», una banquera jubilada, «que pasó incontables horas etiquetando con cariño imágenes para nuestro exploración».
¿Puede la IA detectar caras en los objetos?
Vídeo: MIT CSAIL
El estudio incluso tiene aplicaciones potenciales para mejorar los sistemas de detección de rostros al resumir los falsos positivos, lo que podría tener implicaciones para campos como los vehículos autónomos, la interacción persona-computadora y la robótica. El conjunto de datos y los modelos incluso podrían ayudar en áreas como el diseño de productos, donde comprender y controlar la pareidolia podría crear mejores productos. «Imagínese poder modificar automáticamente el diseño de un automóvil o un chisme de niño para que parezca más cordial, o avalar que un dispositivo médico no parezca amenazador sin darse cuenta», dice Hamilton.
“Es fascinante cómo los humanos interpretan instintivamente objetos inanimados con rasgos humanos. Por ejemplo, cuando miras un enchufe eléctrico, puedes imaginarlo inmediatamente cantando e incluso puedes imaginar cómo «movería los labios». Sin bloqueo, los algoritmos no reconocen lógicamente estas caras caricaturescas del mismo modo que lo hacemos nosotros”, afirma Hamilton. “Esto plantea preguntas intrigantes: ¿A qué se debe esta diferencia entre la percepción humana y la interpretación algorítmica? ¿La pareidolia es beneficiosa o perjudicial? ¿Por qué los algoritmos no experimentan este intención como nosotros? Estas preguntas impulsaron nuestra investigación, ya que este aberración psicológico clásico en humanos no había sido explorado a fondo en algoritmos”.
Mientras los investigadores se preparan para compartir su conjunto de datos con la comunidad científica, ya miran cerca de el futuro. El trabajo futuro puede implicar el entrenamiento de modelos de visión y verbo para comprender y describir rostros pareidólicos, lo que podría conducir a sistemas de inteligencia sintético que puedan interactuar con estímulos visuales de maneras más parecidas a las humanas.
“¡Éste es un artículo delicioso! Es divertido de estudiar y me hace pensar. Hamilton y cols. Propongamos una pregunta tentadora: ¿Por qué vemos caras en las cosas? dice Pietro Perona, profesor Allen E. Puckett de Ingeniería Eléctrica en Caltech, que no participó en el trabajo. “Como señalan, estudiar de ejemplos, incluidos rostros de animales, sólo explica a medias el aberración. Apuesto a que pensar en esta pregunta nos enseñará poco importante sobre cómo nuestro sistema visual se generaliza más allá del entrenamiento que recibe a lo derrochador de la vida”.
Los coautores de Hamilton y Freeman incluyen a Simon Stent, irrefutable investigador del Instituto de Investigación Toyota; Ruth Rosenholtz, científica investigadora principal del Unidad de Ciencias Cognitivas y del Cerebro, científica investigadora de NVIDIA y ex miembro de CSAIL; y la posdoctorada Vasha DuTell, Anne Harrington MEng ’23 y la investigadora científica Jennifer Corbett, afiliadas a CSAIL. Su trabajo fue apoyado, en parte, por la Fundación Franquista de Ciencias y la subsidio CSAIL MEnTorEd Opportunities in Research (METEOR), mientras que fue patrocinado por el Laboratorio de Investigación de la Fuerza Aérea de los Estados Unidos y el Acelerador de Inteligencia Industrial de la Fuerza Aérea de los Estados Unidos. El MIT SuperCloud y el Lincoln Laboratory Supercomputing Center proporcionaron posibles de HPC para los resultados de los investigadores.
Este trabajo se presentará esta semana en la Conferencia Europea sobre Visión por Computador.