Athrun Data Intelligence






Producir ilustraciones listas para transmitir es un cuello de botella que requiere mucha mano de obra en el flujo de trabajo de la investigación. Si aceptablemente los científicos de IA ahora pueden manejar revisiones de humanidades y códigos, tienen dificultades para comunicar visualmente descubrimientos complejos. Un equipo de investigación de Google y la Universidad de Pekín presenta un nuevo ámbito llamado ‘PapelPlátano‘, que está cambiando eso mediante el uso de un sistema multiagente para automatizar diagramas y gráficos académicos de reincorporación calidad.

https://dwzhu-pku.github.io/PaperBanana/

5 agentes especializados: la edificación

PapelPlátano no se podio en un solo mensaje. Orquestina un equipo colaborativo de 5 agentes para transfigurar texto sin formato en imágenes profesionales.

https://dwzhu-pku.github.io/PaperBanana/

Período 1: Planificación rectilíneo

  • Agente recuperador: Identifica el 10 Ejemplos de narración más relevantes de una almohadilla de datos para llevar el estilo y la estructura.
  • Agente planificador: traduce el texto de metodología técnica en una descripción textual detallada de la figura objetivo.
  • Agente estilista: Actúa como consejero de diseño para avalar que el resultado coincida con el «aspecto NeurIPS» utilizando paletas de colores y diseños específicos.

Período 2: Refinamiento iterativo

  • Agente visualizador: transforma la descripción en una salida visual. Para diagramas, utiliza modelos de imágenes como Nano-Cambur-Pro. Para gráficos estadísticos, escribe ejecutable. Matplotlib de Python código.
  • Agente crítico: Inspecciona la imagen generada comparándola con el texto fuente para encontrar errores factuales o fallas visuales. Proporciona feedback para 3 rondas de refinamiento.

Superando el punto de narración NeurIPS 2025

https://dwzhu-pku.github.io/PaperBanana/

El equipo de investigación presentó PapelPlátanoCostadoun conjunto de datos de 292 casos de prueba seleccionados a partir de datos reales NeuroIPS 2025 publicaciones. Usando un VLM-como-juez enfoque, compararon PapelPlátano contra líneas de almohadilla líderes.

Métrico Prosperidad con respecto a la cadena de almohadilla
Puntuación genérico +17,0%
Concisión +37,2%
Legibilidad +12,9%
Estética +6,6%
Fidelidad +2,8%

El sistema destaca en los diagramas de ‘Agente y Razonamiento’, logrando una 69,9% puntuación genérico. Asimismo proporciona una ‘Pauta estética’ automatizada que favorece los ‘pasteles tecnológicos suaves’ sobre los colores primarios duros.

Gráficos estadísticos: código frente a imagen

Los gráficos estadísticos requieren una precisión numérica de la que a menudo carecen los modelos de imágenes estereotipado. PapelPlátano resuelve esto haciendo que el Agente Visualizador escriba código en motivo de dibujar píxeles.

  • Engendramiento de imágenes: Destaca en estética pero a menudo sufre de ‘alucinaciones numéricas’ o nociones repetidos.
  • Engendramiento basada en código: Garantiza 100% fidelidad de datos mediante el uso de la biblioteca Matplotlib para representar el boceto final.

Preferencias estéticas de dominio específico en la investigación de IA

Según el PapelPlátano faro de estilo, las opciones estéticas a menudo cambian según el dominio de investigación para satisfacer las expectativas de diferentes comunidades académicas.

Dominio de investigación Circunstancia visual Utensilios secreto de diseño
Agente y razonamiento Ilustrativo, narrativo, “afable” Robots vectoriales 2D, avatares humanos, emojis y estética de «interfaz de legatario» (burbujas de chat, íconos de documentos)
Visión por computadora y 3D Espacial, Denso, Geométrico Conos de cámara (frustums), líneas de rayos, nubes de puntos y codificación de colores RGB para correspondencia de ejes
Generativo y Educación Modular, orientado al flujo Cuboides 3D para tensores, cuadrículas matriciales y estrategias de «zona» que utilizan rellenos pastel claros para agrupar la método
Teoría y optimización Minimalista, indeterminado, “vademécum de texto” Nodos de gráficos (círculos), variedades (planos) y una paleta de escalera de grises restringida con colores de resaltado únicos

Comparación de paradigmas de visualización

Para los gráficos estadísticos, el ámbito destaca una clara compensación entre el uso de un maniquí de engendramiento de imágenes (IMG) y un código ejecutable (Coding).

Característica Trazados mediante engendramiento de imágenes (IMG) Gráficos mediante codificación (Matplotlib)
Estética Generalmente más suspensión; las tramas parecen más “visualmente atractivas” Aspecto universitario profesional y estereotipado.
Fidelidad Más bajo; propenso a «alucinaciones numéricas» o repetición de nociones 100% exacto; representa estrictamente los datos brutos proporcionados
Legibilidad Parada para datos escasos, pero tiene problemas con conjuntos de datos complejos Constantemente suspensión; maneja datos densos o de series múltiples sin errores

Conclusiones secreto

  • Entorno de colaboración multiagente: PapelPlátano es un sistema basado en referencias que organiza 5 agentes especializados:Recuperador, planificador, estilista, visualizador y crítico—para transfigurar texto técnico sin procesar y leyendas en diagramas metodológicos y gráficos estadísticos con calidad de publicación.
  • Proceso de engendramiento de doble escalón: El flujo de trabajo consta de un Período de planificación rectilíneo recuperar ejemplos de narración y marcar pautas estéticas, seguido de una Rizo de refinamiento iterativo de 3 rondas donde el agente crítico identifica errores y el agente visualizador regenera la imagen para una veterano precisión.
  • Rendimiento superior en PapelPlátanoCostado: Evaluado en 292 casos de prueba de NeurIPS 2025, el ámbito superó las líneas de almohadilla básicas en Puntuación genérico (+17,0%), Concisión (+37,2%), Legibilidad (+12,9%)y Estética (+6,6%).
  • Gráficos estadísticos centrados en la precisión: Para datos estadísticos, el sistema cambia de engendramiento directa de imágenes a código ejecutable Python Matplotlib; Este enfoque híbrido garantiza la precisión numérica y elimina las «alucinaciones» comunes en los generadores de imágenes de IA estereotipado.


Mira el Papel y repositorio. Por otra parte, no dudes en seguirnos en Gorjeo y no olvides unirte a nuestro SubReddit de más de 100.000 ml y suscríbete a nuestro boletín. ¡Esperar! estas en telegrama? Ahora además puedes unirte a nosotros en Telegram.





Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *