La carrera por el “mejor maniquí de IA” continúa, ya que Z.ai es el zaguero en marcar su entrada con un maniquí nuevo y evolucionado. Llamándolo GLM-4.6V, Z.ai se ha centrado en las señales visuales y la representación con este. Y de ahí la “V” al final de su nombre que se asemeja al maniquí insignia existente de la compañía, el GLM-4.6 (lee todo sobre esto aquí).
Entonces, por supuesto, este no es simplemente otro maniquí de chat. Ve imágenes, comprende gráficos, escribe código e incluso razona como un efectivo compañero de equipo que efectivamente presta atención. Y la parte divertida: no se requiere una gran configuración para usarlo. GLM-4.6V ya está habitable en los chats de Z.ai, con una traducción incluso más ligera habitable para implementación específico y aplicaciones de desestimación latencia.
En este blog, exploraremos lo que trae consigo el nuevo GLM-4.6V y si es lo suficientemente exclusivo como para que lo uses o no. Intentaremos encontrar estas respuestas basándonos en una prueba praxis con el nuevo maniquí. Entonces, entremos y exploremos el nuevo GLM-4.6V de Z.ai aquí.
Características secreto de Z.ai GLM-4.6V
Estas son algunas de las características secreto del nuevo GLM-4.6v.
1. Comprende documentos complejos (contenido de texto enriquecido)
Dale un PDF, un trabajo de investigación o una página llena de imágenes, tablas y fórmulas, y GLM-4.6V lo leerá todo como un práctico humano. Esto significa que no se deja confundir por contenido mezclado e incluso puede crear nuevos documentos que combinen texto e imágenes a la perfección.
En breve: Si su documento parece demasiado complicado, este maniquí aún puede leerlo claramente y escribir una traducción más limpia para usted.
2. Crea contenido rico en imágenes automáticamente
Puede originar publicaciones, informes y reseñas visuales que incluyen tanto texto como imágenes. Para ello, el maniquí ha sido entrenado lo suficiente como para identificar automáticamente dónde encajan mejor las imágenes. Esto es excelente para marketing, tutoriales o contenido social.
En breve: Escribe menos > formatea mejor > su salida parece índice para publicarse.
3. Sondeo en la Web mediante imágenes
Muéstrele una foto o una captura de pantalla y podrá averiguar en cuerda información relacionada. Esto ayuda a encontrar los enlaces de productos, competidores, detalles de marca o más imágenes correctos. Combina lo que ve con lo que sabe.
En breve: Tome una captura de pantalla> pregunte cualquier cosa> y encontrará respuestas reales en Internet.
4. Convierte capturas de pantalla de la interfaz de beneficiario en código pragmático
Cargue una captura de pantalla de una página web o interfaz de beneficiario móvil y GLM-4.6V podrá originar HTML/CSS/JS honesto para ella. Puede resaltar piezas individualmente y decirle al maniquí que las modifique, y actualiza el código al instante.
En breve: Diseño > Captura de pantalla > Código. No se necesitan habilidades de front-end en total.
5. Recuerda entradas largas (contexto de token de 128 000)
Puede mandar archivos PDF enormes, diapositivas de varias páginas y notas de investigación extensas al GLM-4.6V, todo de una sola vez. Realiza un seguimiento de todo el documento, recuerda referencias y respalda el razonamiento en profundidad. Para darle una pista, Z.ai afirma en su blog que el GLM-4.6V puede ojear con precisión “~150 páginas de documentos complejos, 200 páginas de diapositivas o un vídeo de una hora de duración en una sola pasada de inferencia”.
En breve: En circunscripción de dividir los archivos en partes, simplemente cárguelos una vez y pregunte cualquier cosa sobre cualquier parte.
6. Funciona muy aceptablemente en los puntos de narración en serie
GLM-4.6V se prueba en muchas tareas como comprensión visual, razonamiento deductivo y lección de documentos extensos. Según los datos compartidos por Z.ai, el rendimiento del GLM 4.6V se encuentra entre los mejores modelos abiertos.
Lo que nos lleva a la futuro sección: ¿qué tan bueno es el nuevo GLM-4.6V en los puntos de narración?
Rendimiento de narración del GLM-4.6V
La futuro tabla destaca los resultados del GLM-4.6V en un amplio conjunto de puntos de narración. Estos incluyen razonamiento visual, OCR, tareas de agencia y comprensión de contextos prolongados.
Rendimiento de narración del GLM-4.6V
En casi todas las categorías principales, el GLM-4.6V obtiene puntuaciones más altas o se mantiene muy cerca del mejores modelos disponibles hoy en día, especialmente cuando se negociación de razonar sobre imágenes, convertir diseños de interfaz de beneficiario en código y ojear documentos de contenido mezclado. Su traducción Flash más pequeña todavía ofrece una precisión impresionante sin dejar de ser liviana, lo que la convierte en una opción praxis para implementaciones más rápidas y asequibles.
En sinopsis, GLM-4.6V ofrece gran precisión, razonamiento sólido y rendimiento confiable incluso en tareas visuales complejas. Exactamente lo que querrías de una IA multimodal de próxima gestación.
Ahora probemos esto en un tablas del mundo efectivo:
GLM-4.6V Praxis
Probamos el GLM-4.6V en 3 tareas principales: gestación de contenido, búsqueda web profunda y codificación, según las fortalezas del maniquí definidas por Z.ai. Consulta la prueba y sus resultados:
1. Concepción de contenido multimodal
Inmediato: Consulte este PDF sobre los planes Elevate de Uber para eVTOL. Produzca un artículo de 500 palabras que explique el concepto completo, donde se sugiere implementarlo, cómo se beneficiará y sus limitaciones, si las hubiera. Complemente el artículo con 1 o 2 diagramas que expliquen el concepto y una representación visual de todas las ciudades marcadas para la prueba en el futuro.
Producción:
Nuestra opinión:
El maniquí pudo extraer la información correcta del extenso PDF y enmarcar un artículo preciso basado en ella, tal como se le indicó. Noté una ligera desviación en el diagrama eVTOL que creó, que no coincidía con nadie de los diseños compartidos por Uber en su documento técnico. El resto de la producción fue proporcionado buena.
2. Búsqueda web profunda
Inmediato: ¿Puedes identificar la comedia en la que se friso este meme?
Producción:
Nuestra opinión:
GLM-4.6V confundió el meme con un software completamente diferente. El meme es una narración famosa de la comedia «Not the Nine O’clock News», y no «Only Fools and Horses» como se menciona aquí. Creo que en circunscripción de averiguar la imagen, entendió el contexto de un hombre y un mono conversando, y buscó ejemplos de lo mismo entre otros programas, lo que llevó a este resultado.
3. Codificación
Inmediato: Basado en este tema, cree un sitio web de viajes que muestre paquetes para lugares turísticos internamente de la India en circunscripción de los modelos de iPhone como se muestra aquí. Utilice imágenes reales de Internet en circunscripción de marcadores de posición. Cambie el color de fondo a azur claro. En el menú, mantenga solo 3 opciones: Vuelos, Trenes, Hoteles.
Producción:
Nuestra opinión:
El sitio web se ve proporcionado aceptablemente y muy similar al sitio web de Apple que compartimos como narración. El maniquí todavía logró diseñar tarjetas para destinos turísticos, con texto preciso detrás de cada imagen. Lo único que se perdió fueron las tres opciones de menú que mencioné específicamente en el mensaje. Entonces, tal vez no todo sea exacto, pero está cerca.
Conclusión
Según los puntos fuertes del nuevo GLM-4.6V y nuestras pruebas prácticas, es seguro opinar que es un maniquí de IA proporcionado potente de Z.ai. Es capaz de descifrar aceptablemente las indicaciones y producir mensajes de adhesión calidad. horizontes multimodales para varias tareas, que incluyen, entre otras, gestación de contenido multimodal, búsqueda web e incluso codificación de interfaces web.
Dicho esto, es posible que desees notar las ligeras desviaciones de las indicaciones en cada caso de uso. Eso me dice que el maniquí puede carecer de precisión en algunas de las tareas que se le presentan. Por lo tanto, en caso de que tenga una tarea muy precisa entre manos, es posible que desee optar por otros modelos de IA. Por todo lo demás, parece hacer un gran trabajo.
Estratega de contenido técnico y comunicador con una término de experiencia en creación y distribución de contenido en medios nacionales, el Gobierno de la India y plataformas privadas.
Inicie sesión para continuar leyendo y disfrutar de contenido seleccionado por expertos.