Los modelos de lenguajes grandes (LLM) han ganadería una atención significativa en la trámite de datos, con aplicaciones que abarcan la integración de datos, el ajuste de bases de datos, la optimización de consultas y la cepillado de datos. Sin secuestro, el descomposición de datos no estructurados, especialmente documentos complejos, sigue siendo un desafío en el procesamiento de datos. Los marcos declarativos recientes diseñados para el procesamiento de datos no estructurados basados en LLM se centran más en sujetar costos que en mejorar la precisión. Esto crea problemas para tareas y datos complejos, donde los resultados de LLM a menudo carecen de precisión en las operaciones definidas por el afortunado, incluso con indicaciones refinadas. Por ejemplo, los LLM pueden tener dificultades para identificar cada aparición de cláusulas específicas, como fuerza maduro o indemnización, en documentos legales extensos, lo que hace necesario descomponer tanto los datos como las tareas.
Para la Identificación de Mala Conducta Policial (PMI), los periodistas del Software de Reportajes de Investigación de Berkeley quieren analizar un gran corpus de registros policiales obtenidos a través de solicitudes de registros para descubrir patrones de mala conducta de los agentes y posibles violaciones procesales. PMI plantea el desafío de analizar conjuntos de documentos complejos, como registros policiales, para identificar patrones de mala conducta de los agentes. Esta tarea implica procesar documentos heterogéneos para extraer y resumir información esencia, clasificar datos en múltiples documentos y crear resúmenes de conducta detallados. Los enfoques actuales manejan estas tareas como operaciones de mapas de un solo paso, con una convocatoria de LLM por documento. Sin secuestro, este método a menudo carece de precisión oportuno a problemas como que la distancia del documento supera los límites del contexto del LLM, faltan detalles críticos o incluye información irrelevante.
Investigadores de UC Berkeley y la Universidad de Columbia han propuesto DocETL, un sistema renovador diseñado para optimizar procesos de procesamiento de documentos complejos y al mismo tiempo invadir las limitaciones de los LLM. Este método proporciona una interfaz declarativa para que los usuarios definan canalizaciones de procesamiento y utiliza un entorno basado en agentes para la optimización cibernética. Las características esencia de DocETL incluyen la reescritura razonamiento de procesos adaptados a tareas basadas en LLM, un mecanismo de evaluación de planes guiado por agentes que crea y gestiona mensajes de nervio específicos de tareas y un cálculo de optimización que identifica de forma competente planes prometedores en el interior de las limitaciones de tiempo basadas en LLM. Por otra parte, DocETL muestra importantes mejoras en la calidad de los resultados en varias tareas de descomposición de documentos no estructurados.
DocETL se evalúa en tareas de PMI utilizando un conjunto de datos de 227 documentos de los departamentos de policía de California. El conjunto de datos presentó desafíos importantes, incluidos documentos extensos con un promedio de 12 500 tokens, y algunos excedieron el contorno de la ventana de contexto de 128 000 tokens. La tarea implica difundir resúmenes detallados de mala conducta para cada oficial, incluidos nombres, tipos de mala conducta y resúmenes completos. El proceso original en DocETL consiste en una operación de plano para extraer a los oficiales que exhiben mala conducta, una operación de desmontaje para aplanar la cinta y una operación corta para resumir la mala conducta en todos los documentos. El sistema evaluó múltiples variantes de canalización utilizando GPT-4o-mini, lo que demuestra la capacidad de DocETL para optimizar tareas complejas de procesamiento de documentos. Los oleoductos son DocETL.SDocETLty DocETLoh.
La evaluación humana se lleva a término en un subconjunto de datos utilizando GPT-4o-mini como magistrado en 1500 resultados para validar los juicios del LLM, lo que revela un detención acuerdo (92-97 %) entre el magistrado del LLM y el evaluador humano. Los resultados muestran que DocETL𝑂 es 1,34 veces más preciso que la ruta almohadilla. DocETLS y DocETLt Los oleoductos se comportaron de forma similar, con DDocETL.S a menudo omitiendo fechas y lugares. La evaluación destaca la complejidad de evaluar los procesos basados en LLM y la importancia de la optimización y evaluación de tareas específicas en el descomposición de documentos impulsado por LLM. Los agentes de nervio personalizados de DocETL son cruciales para encontrar las fortalezas relativas de cada plan y resaltar la efectividad del sistema en el manejo de tareas complejas de procesamiento de documentos.
En conclusión, los investigadores introdujeron DocETL, un sistema declarativo para optimizar tareas complejas de procesamiento de documentos mediante LLM, abordando limitaciones críticas en los marcos de procesamiento de datos existentes basados en LLM. Utiliza directivas de reescritura innovadoras, un entorno basado en agentes para la reescritura y evaluación de planes y una táctica de optimización oportunista para invadir los desafíos específicos del procesamiento de documentos complejos. Por otra parte, DocETL puede producir resultados con una calidad entre 1,34 y 4,6 veces superior a la de las líneas almohadilla diseñadas manualmente. A medida que la tecnología LLM continúa evolucionando y surgen nuevos desafíos en el procesamiento de documentos, la bloque flexible de DocETL ofrece una plataforma sólida para futuras investigaciones y aplicaciones en este campo de rápido crecimiento.
Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este tesina. Por otra parte, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Gren lo alto. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.
(Próximo seminario web en vivo: 29 de octubre de 2024) La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)
Sajjad Ansari es un estudiante de final año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo vivo. Su objetivo es articular conceptos complejos de IA de una forma clara y accesible.
