Imagine una compañía de café que intenta optimizar su esclavitud de suministro. La compañía obtiene frijoles de tres proveedores, los asa en dos instalaciones en café umbrío o pronto, y luego envía el café tostado a tres ubicaciones minoristas. Los proveedores tienen una capacidad fija diferente, y los costos de tostado y los costos de giro varían de un circunstancia a otro.
La compañía búsqueda minimizar los costos al tiempo que cumple con un aumento del 23 por ciento en la demanda.
¿No sería más sencillo para la compañía pedirle a ChatGPT que cree un plan magnífico? De hecho, a pesar de todas sus increíbles capacidades, los modelos de idiomas grandes (LLM) a menudo funcionan mal cuando se les asigna resolver directamente problemas de planificación tan complicados por su cuenta.
En circunstancia de tratar de cambiar el maniquí para hacer de un LLM un mejor planificador, los investigadores del MIT adoptaron un enfoque diferente. Introducieron un situación que consejo a un LLM para romper el problema como lo haría un humano, y luego resolverlo automáticamente utilizando una poderosa aparejo de software.
Un usufructuario solo necesita describir el problema en el jerigonza natural: no se necesitan ejemplos específicos de la tarea para entrenar o indicar la LLM. El maniquí codifica el mensaje de texto de un usufructuario en un formato que puede desentrañarse con un solucionador de optimización diseñado para descifrar eficientemente los desafíos de planificación extremadamente difíciles.
Durante el proceso de formulación, el LLM verifica su trabajo en múltiples pasos intermedios para cerciorarse de que el plan se describiera correctamente al solucionador. Si ve un error, en circunstancia de darse por vencido, el LLM intenta corregir la parte rota de la formulación.
Cuando los investigadores probaron su situación en nueve desafíos complejos, como minimizar los robots de almacén de distancia deben alucinar para completar las tareas, logró una tasa de éxito del 85 por ciento, mientras que la mejor bisectriz de pulvínulo solo alcanzó una tasa de éxito del 39 por ciento.
El situación versátil podría aplicarse a una viso de tareas de planificación de varios pasos, como programar equipos de aerolíneas o el tiempo de sucursal de la máquina en una factoría.
«Nuestra investigación presenta un situación que esencialmente actúa como un asistente inteligente para los problemas de planificación. Puede descubrir el mejor plan que satisface todas las deposición que tiene, incluso si las reglas son complicadas o inusuales», dice Yilun Hao, un estudiante titulado en el Laboratorio del MIT para Sistemas de Información y Audacia (LIDS) y autor principal de un autor de un Documento sobre esta investigación.
Se une al documento por Yang Zhang, una científica de investigación en el laboratorio MIT-IBM Watson AI; y el autor senior Chuchu Fan, profesor asociado de Aeronáutica y Investigador Principal de Atronautica y Lids. La investigación se presentará en la Conferencia Internacional sobre Representaciones de Formación.
Optimización 101
El género de fanáticos desarrolla algoritmos que resuelven automáticamente lo que se conoce como problemas de optimización combinatoria. Estos vastos problemas tienen muchas variables de valentía interrelacionadas, cada una con múltiples opciones que suman rápidamente miles de millones de opciones potenciales.
Los humanos resuelven tales problemas al achicar las pocas opciones y luego determinar cuál conduce al mejor plan genérico. Los solucionadores algorítmicos de los investigadores aplican los mismos principios a los problemas de optimización que son demasiado complejos para que un humano se rompa.
Pero los solucionadores que desarrollan tienden a tener curvas de estudios pronunciadas y, por lo genérico, los expertos solo usan.
«Pensamos que los LLM podrían permitir que los no expertivos usen estos algoritmos de resolución. En nuestro laboratorio, tomamos el problema de un perito en dominio y lo formalizamos en un problema que nuestro solucionador puede resolver. ¿Podríamos enseñarle a una LLM a hacer lo mismo?» Fan dice.
Utilizando el situación que desarrollaron los investigadores, llamado programación formal basada en LLM (LLMFP), una persona proporciona una descripción del jerigonza natural del problema, información de fondo sobre la tarea y una consulta que describe su objetivo.
Luego, LLMFP solicita a un LLM que razone sobre el problema y determine las variables de valentía y las restricciones secreto que darán forma a la decisión óptima.
LLMFP solicita al LLM que detalla los requisitos de cada variable ayer de codificar la información en una formulación matemática de un problema de optimización. Escribe código que codifica el problema y fogosidad al solucionador de optimización adjunto, que llega a una decisión ideal.
«Es similar a cómo enseñamos a los estudiantes universitarios sobre los problemas de optimización en el MIT. No les enseñamos solo un dominio. Les enseñamos la metodología», agrega los fanáticos.
Mientras las entradas al solucionador sean correctas, dará la respuesta correcta. Cualquier error en la decisión proviene de errores en el proceso de formulación.
Para cerciorarse de que haya enfrentado un plan de trabajo, LLMFP analiza la decisión y modifica cualquier paso incorrecto en la formulación del problema. Una vez que el plan pasa esta autoevaluación, la decisión se describe al usufructuario en jerigonza natural.
Perfeccionar el plan
Este módulo de autoevaluación igualmente permite que el LLM agregue cualquier restricción implícita que perdiera la primera vez, dice Hao.
Por ejemplo, si el situación está optimizando una esclavitud de suministro para minimizar los costos de una cafetería, un humano sabe que la cafetería no puede remitir una cantidad negativa de frijoles asados, pero un LLM podría no darse cuenta de eso.
El paso de autoevaluación marcaría ese error y le pediría al maniquí que lo arregle.
«Adicionalmente, un LLM puede adaptarse a las preferencias del usufructuario. Si el maniquí se da cuenta de que un usufructuario en particular no le gusta cambiar el tiempo o el presupuesto de sus planes de alucinación, puede sugerir cambiar las cosas que se ajustan a las deposición del usufructuario», dice Fan.
En una serie de pruebas, su situación logró una tasa de éxito promedio entre 83 y 87 por ciento en nueve problemas de planificación diversos utilizando varios LLM. Si correctamente algunos modelos de remisión fueron mejores en ciertos problemas, LLMFP logró una tasa de éxito genérico aproximadamente el doble que las técnicas de remisión.
A diferencia de estos otros enfoques, LLMFP no requiere ejemplos específicos de dominio para el entrenamiento. Puede encontrar la decisión óptima a un problema de planificación desde el primer momento.
Adicionalmente, el usufructuario puede adaptar LLMFP para diferentes solucionadores de optimización ajustando las indicaciones alimentadas a la LLM.
«Con LLMS, tenemos la oportunidad de crear una interfaz que permita a las personas usar herramientas de otros dominios para resolver problemas de guisa que podrían no deber estado pensando ayer», dice Fan.
En el futuro, los investigadores quieren permitir que LLMFP tome imágenes como información para complementar las descripciones de un problema de planificación. Esto ayudaría al situación a resolver tareas que son particularmente difíciles de describir completamente con el jerigonza natural.
Este trabajo fue financiado, en parte, por la Oficina de Investigación Naval y el Laboratorio MIT-IBM Watson AI.