Crear modelos 3D realistas para aplicaciones como la verdad posible, el cine y el diseño de ingeniería pueden ser un proceso engorrosa que requiere mucha prueba y error manual.
Si admisiblemente los modelos generativos de inteligencia sintético para imágenes pueden optimizar los procesos artísticos al permitir a los creadores producir imágenes 2D realistas a partir de indicaciones de texto, estos modelos no están diseñados para difundir formas 3D. Para unir la brecha, una técnica recientemente desarrollada citación Destilación de puntaje Aprovecha los modelos de coexistentes de imágenes 2D para crear formas 3D, pero su salida a menudo termina borrosa o caricaturesco.
Los investigadores del MIT exploraron las relaciones y las diferencias entre los algoritmos utilizados para difundir imágenes 2D y formas 3D, identificando la causa raíz de los modelos 3D de último calidad. A partir de ahí, elaboraron una opción simple para anotar la destilación, lo que permite la coexistentes de formas 3D de ingreso calidad nítidas que tienen una calidad más cercana a las mejores imágenes 2D generadas por el maniquí.
Algunos otros métodos intentan solucionar este problema reentrenando o ajustando el maniquí de IA generativo, que puede ser costoso y sosegado.
Por el contrario, la técnica de los investigadores del MIT logra la calidad de la forma 3D a la par o mejor que estos enfoques sin capacitación adicional o posprocesamiento arduo.
Por otra parte, al identificar la causa del problema, los investigadores han mejorado la comprensión matemática de la destilación de puntaje y las técnicas relacionadas, lo que permite el trabajo futuro para mejorar aún más el rendimiento.
«Ahora sabemos cerca de dónde deberíamos dirigirnos, lo que nos permite encontrar soluciones más eficientes que sean más rápidas y de maduro calidad», dice Artem Lukoianov, un estudiante diplomado de Ingeniería Eléctrica e Informática (CEE) que es autor principal de un documento sobre esta técnica. «A la larga, nuestro trabajo puede ayudar a solucionar que el proceso sea un copiloto para los diseñadores, lo que hace que sea más comprensible crear formas 3D más realistas».
Los coautores de Lukoianov son Haitz Sáez de Ocáriz Borde, un estudiante diplomado en la Universidad de Oxford; Kristjan Greenewald, irrefutable investigador del laboratorio de AI MIT-IBM Watson; Vitor Campagnolo Guizilini, irrefutable del Toyota Research Institute; Timur Bagautdinov, irrefutable investigador de Meta; y los autores principales Vincent Sitzmann, profesor asistente de EEC en el MIT que dirige el reunión de representación de la suceso en el Laboratorio de Informática e Inteligencia Industrial (CSAIL) y Justin Solomon, profesor asociado de EEC y líder del reunión de procesamiento de datos geométricos de CSAIL. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
De imágenes 2D a formas 3D
Los modelos de difusión, como Dall-E, son un tipo de maniquí de IA generativo que puede producir imágenes realistas a partir del ruido casual. Para entrenar estos modelos, los investigadores agregan ruido a las imágenes y luego enseñan al maniquí a revertir el proceso y eliminar el ruido. Los modelos utilizan este proceso de «Denoising» aprendido para crear imágenes basadas en las indicaciones de texto de un afortunado.
Pero los modelos de difusión tienen un rendimiento inferior para difundir directamente formas 3D realistas porque no hay suficientes datos 3D para entrenarlos. Para evitar este problema, los investigadores desarrollaron una técnica citación Muestreo de destilación de puntaje (SDS) en 2022 que utiliza un maniquí de difusión previa a la aparición para combinar imágenes 2D en una representación 3D.
La técnica implica comenzar con una representación 3D aleatoria, hacer una horizonte 2D de un objeto deseado desde un ángulo de cámara casual, añadir ruido a esa imagen, denominarlo con un maniquí de difusión y luego optimizar la representación 3D aleatoria para que coincida con la imagen de Denodeised. Estos pasos se repiten hasta que se genera el objeto 3D deseado.
Sin incautación, las formas 3D producidas de esta modo tienden a encontrarse borrosas o sobresaturadas.
“Esto ha sido un cuello de botella por un tiempo. Sabemos que el maniquí subyacente es capaz de hacerlo mejor, pero la multitud no sabía por qué esto sucede con formas 3D ”, dice Lukoianov.
Los investigadores del MIT exploraron los pasos de SDS e identificaron un desajuste entre una fórmula que forma una parte secreto del proceso y su contraparte en los modelos de difusión 2D. La fórmula le dice al maniquí cómo poner al día la representación aleatoria agregando y eliminando el ruido, un paso a la vez, para que se parezca más a la imagen deseada.
Hexaedro que parte de esta fórmula implica una ecuación que es demasiado compleja para resolverse de modo apto, SDS lo reemplaza con ruido de muestreo casual en cada paso. Los investigadores del MIT encontraron que este ruido conduce a formas 3D borrosas o de dibujos animados.
Una respuesta aproximada
En espacio de tratar de resolver esta fórmula engorrosa con precisión, los investigadores probaron técnicas de enfoque hasta que identificaron la mejor. En espacio de probar aleatoriamente el término de ruido, su técnica de enfoque infiere el término faltante del renderizado de forma 3D flagrante.
«Al hacer esto, como predice el exploración en el documento, genera formas 3D que se ven nítidas y realistas», dice.
Por otra parte, los investigadores aumentaron la resolución de la representación de la imagen y ajustaron algunos parámetros del maniquí para aumentar aún más la calidad de la forma 3D.
Al final, pudieron usar un maniquí de difusión de imagen previa a la configuración y practicante para crear formas 3D suaves y de aspecto realista sin la obligación de un desobediente en reacciones costosas. Los objetos 3D son igualmente nítidos para los producidos utilizando otros métodos que dependen de soluciones ex profeso.
“Tratando de padecer ciegamente con diferentes parámetros, a veces funciona y a veces no lo hace, pero no sabes por qué. Sabemos que esta es la ecuación que necesitamos resolver. Ahora, esto nos permite pensar en formas más eficientes de resolverlo ”, dice.
Adecuado a que su método se sostén en un maniquí de difusión previa a la aparición, hereda los sesgos y las deficiencias de ese maniquí, lo que lo hace propenso a las alucinaciones y otras fallas. Mejorar el maniquí de difusión subyacente mejoraría su proceso.
Por otra parte de estudiar la fórmula para ver cómo podrían resolverla de modo más efectiva, los investigadores están interesados en explorar cómo estas ideas podrían mejorar las técnicas de estampado de imágenes.
El trabajo de Artem Lukoianov está financiado por el Centro de Investigación Conjunta Toyota -Csail. La investigación de Vincent Sitzmann cuenta con el apoyo de la Agencia de Ciencia y Tecnología de la Defensa de la Defensa de Singapur, el Área del Interior/Interior Business Center e IBM. La investigación de Justin Solomon es financiada, en parte, por la Oficina de Investigación del Ejército de los EE. UU., La Fundación Franquista de Ciencias, el Software CSAIL Future of Data, el Laboratorio MIT -IBM Watson AI, Wistron Corporation y el Centro de Investigación Conjunta Toyota -Csail.