En el siglo XVII, el astrónomo teutónico Johannes Kepler descubrió las leyes de movimiento que permitieron predecir con precisión dónde aparecerían los planetas de nuestro sistema solar en el bóveda celeste mientras orbitan el sol. Pero no fue hasta décadas luego, cuando Isaac Newton formuló las leyes universales de la gravedad, que se entendieron los principios subyacentes. Aunque se inspiraron en las leyes de Kepler, fueron mucho más allá e hicieron posible aplicar las mismas fórmulas a todo, desde la trayectoria de una embuste de cañón hasta la forma en que el crecimiento de la Vitral controla las mareas en la Tierra, o cómo editar un mandado desde la Tierra hasta la superficie de la Vitral o los Planetas.
Los sofisticados sistemas de inteligencia fabricado de hoy se han vuelto muy buenos para hacer el tipo de predicciones específicas que se asemejan a las predicciones de campo de Kepler. ¿Pero saben por qué funcionan estas predicciones, con el tipo de comprensión profunda que proviene de principios básicos como las leyes de Newton? A medida que el mundo crece cada vez más dependiente de este tipo de sistemas de IA, los investigadores están luchando por tratar de determinar cómo hacen lo que hacen y cuán profunda es efectivamente su comprensión del mundo existente.
Ahora, los investigadores del Laboratorio de MIT para Sistemas de Información y Valor (LIDS) y en la Universidad de Harvard han ideado un nuevo enfoque para evaluar cuán profundamente estos sistemas predictivos comprenden su tema y si pueden aplicar el conocimiento de un dominio a uno tenuemente diferente. Y en común la respuesta en este punto, en los ejemplos que estudiaron, no es tanto.
El Se presentaron hallazgos En la Conferencia Internacional sobre Educación Autor, en Vancouver, Columbia Británica, el mes pasado por Harvard Postdoc Keyon Vafa, estudiante reconocido del MIT en Ingeniería Eléctrica e Informática y Ciencias de la Computación y Lids Afiliados Peter G. Chang, Profesor Asistente del MIT e Investigador Principal de Lids Ashesh Rambachan, y Profesor del MIT, Investigator Director de Lídescatos y Senior Sendhil Mullainathan.
«Los humanos todo el tiempo han podido hacer esta transición de buenas predicciones a modelos mundiales», dice Vafa, autor principal del estudio. Entonces, la pregunta que su equipo estaba abordando era: «¿Han podido AI, IA, acaecer podido dar ese brinco de predicciones a modelos mundiales? Y no estamos preguntando si son capaces, o pueden, o lo harán. Es simplemente, ¿lo han hecho hasta ahora?» Él dice.
«Sabemos cómo probar si un operación predice correctamente. Pero lo que necesitamos es una forma de evaluar si ha entendido correctamente», dice Mullainathan, profesor de Peter de Florez con duales citas en los departamentos de MIT de Bienes e Ingeniería Eléctrica y Ciencias de la Computación y el Autor Senior del Estudio. «Incluso explicar lo que significa comprender fue un desafío».
En la igualdad de Kepler frente a Newton, Vafa dice: «Uno y otro tenían modelos que funcionaron muy correctamente en una tarea, y que funcionaban esencialmente de la misma modo en esa tarea. Lo que Newton ofreció eran ideas que podían extender a nuevas tareas». Esa capacidad, cuando se aplica a las predicciones realizadas por varios sistemas de IA, implicaría que desarrolle un maniquí mundial para que pueda «trascender la tarea en la que está trabajando y poder extender a nuevos tipos de problemas y paradigmas».
Otra igualdad que ayuda a ilustrar el punto es la diferencia entre siglos de conocimiento acumulado de cómo criar selectivamente cultivos y animales, frente a la visión de Gregor Mendel sobre las leyes subyacentes de la herencia genética.
«Hay mucha emoción en el campo sobre el uso de modelos de pulvínulo no solo para realizar tareas, sino todavía para formarse poco sobre el mundo», por ejemplo, en las ciencias naturales, dice. «Tendría que adaptarse, tener un maniquí mundial para adaptarse a cualquier posible tarea».
¿Los sistemas de IA están cerca de la capacidad de alcanzar tales generalizaciones? Para probar la pregunta, el equipo analizó diferentes ejemplos de sistemas de IA predictivos, en diferentes niveles de complejidad. En los ejemplos más simples, los sistemas lograron crear un maniquí realista del sistema simulado, pero a medida que los ejemplos se volvieron más complejos, esa capacidad se desvaneció rápidamente.
El equipo desarrolló una nueva métrica, una forma de determinar cuantitativamente qué tan correctamente un sistema se aproxima a las condiciones del mundo existente. Llaman al sesgo inductivo de medición, es asegurar, una tendencia o sesgo con destino a las respuestas que reflejan la verdad, basadas en inferencias desarrolladas a partir de observar grandes cantidades de datos en casos específicos.
El nivel más simple de ejemplos que veían era conocido como maniquí de celosía. En una red unidimensional, poco solo puede moverse a lo derrochador de una crencha. Vafa lo compara con una rana que salta entre lirios seguidos. A medida que la rana salta o se sienta, claridad a lo que está haciendo: derecha, izquierda o estancia. Si llega a la última almohadilla de lirio en la fila, solo puede permanecer o retornar. Si cierto, o un sistema de IA, puede escuchar las llamadas, sin memorizar falta sobre la cantidad de almohadillas de lirios, ¿puede descubrir la configuración? La respuesta es sí: a los modelos predictivos les va correctamente al rehacer el «mundo» en un caso tan simple. Pero incluso con las redes, a medida que aumenta el número de dimensiones, los sistemas ya no pueden dar ese brinco.
«Por ejemplo, en una red de dos estados o tres estados, demostramos que el maniquí tiene un sesgo inductivo suficiente bueno con destino a el estado existente», dice Chang. «Pero a medida que aumentamos el número de estados, comienza a tener una oposición de los modelos del mundo existente».
Un problema más enredado es un sistema que puede poner el bisagra de mesa Othello, que involucra a los jugadores que colocan alternativamente los discos negros o negros en una cuadrícula. Los modelos de IA pueden predecir con precisión qué movimientos se pueden permitir en un punto transmitido, pero resulta que lo hacen mal para inferir cuál es la disposición común de las piezas en el tablero, incluidas las que actualmente están bloqueadas del bisagra.
Luego, el equipo analizó cinco categorías diferentes de modelos predictivos efectivamente en uso, y nuevamente, cuanto más complejos involucraban los sistemas, más pobres se realizan los modos predictivos para hacer coincidir el seguro maniquí mundial subyacente.
Con esta nueva métrica de sesgo inductivo, «nuestra esperanza es proporcionar un tipo de cama de prueba donde pueda evaluar diferentes modelos, diferentes enfoques de capacitación, en problemas en los que sabemos cuál es el seguro maniquí mundial», dice Vafa. Si funciona correctamente en estos casos en los que ya conocemos la verdad subyacente, entonces podemos tener una decano fe de que sus predicciones pueden ser aperos incluso en los casos «donde efectivamente no sabemos cuál es la verdad», dice.
Las personas ya están tratando de usar este tipo de sistemas de IA predictivos para ayudar en el descubrimiento sabio, incluidas cosas como propiedades de compuestos químicos que nunca se han creado, o de compuestos farmacéuticos potenciales, o para predecir el comportamiento de plegamiento y las propiedades de las moléculas de proteínas desconocidas. «Para los problemas más realistas», dice Vafa, «incluso para poco como la mecánica básica, descubrimos que parece acaecer un derrochador camino por recorrer».
Chang dice: «Ha habido muchos modelos de bombas en torno a la pulvínulo, donde las personas están tratando de construir modelos de pulvínulo específicos de dominio: modelos de pulvínulo basados en biología, modelos de pulvínulo basados en física, modelos de Fundación Robotics, modelos básicos para otros tipos de dominios donde las personas han recopilado una tonelada de datos» y capacitando estos modelos para hacer predicciones, «y luego esperamos que sea un conocimiento del dominio en sí mismo para que se utilicen otras tareas del mar de inicio». «.». «.». «.». «.»
Este trabajo muestra que hay un derrochador camino por recorrer, pero todavía ayuda a mostrar un camino a seguir. «Nuestro documento sugiere que podemos aplicar nuestras métricas para evaluar cuánto está aprendiendo la representación, para que podamos encontrar mejores formas de capacitar a los modelos de fundaciones, o al menos evaluar los modelos que estamos capacitando actualmente», dice Chang. «Como campo de ingeniería, una vez que tenemos una métrica para poco, las personas son muy, muy buenas para optimizar esa métrica».