Los trabajos de investigación y los documentos de ingeniería a menudo contienen una gran cantidad de información en forma de fórmulas matemáticas, gráficos y gráficos. Navegar por estos documentos no estructurados para encontrar información relevante puede ser una tarea tediosa y lenta, especialmente cuando se prostitución de grandes volúmenes de datos. Sin bloqueo, usando Claude de Anthrope en Roca mama de Amazonlos investigadores e ingenieros ahora pueden automatizar la indexación y el etiquetado de estos documentos técnicos. Esto permite el procesamiento competente del contenido, incluidas las fórmulas científicas y las visualizaciones de datos, y la población de Bases de conocimiento de Amazon Bedrock con metadatos apropiados.
Amazon Bedrock es un servicio totalmente administrado que proporciona una API única para consentir y utilizar varios modelos de colchoneta de suspensión rendimiento (FMS) de las principales compañías de inteligencia industrial. Ofrece un amplio conjunto de capacidades para construir aplicaciones de IA generativas con seguridad, privacidad y prácticas responsables de IA. El soneto Claude 3 de Anthrope ofrece las mejores capacidades de visión en su clase en comparación con otros modelos líderes. Puede transcribir con precisión el texto de imágenes imperfectas: una capacidad central para la cesión minorista, provisión y los servicios financieros, donde la IA podría obtener más información de una imagen, boceto o ilustración que solo por texto. El postrero de los modelos Claude de Anthrope demuestra una válido aptitud para comprender una amplia serie de formatos visuales, incluidas fotos, gráficos, gráficos y diagramas técnicos. Con el Claude de Anthrope, puede extraer más información de documentos, web UIS y documentación diversa del producto, gestar metadatos del catálogo de imágenes y más.
En esta publicación, exploramos cómo puede usar estos multimodales IA generativa Modelos para optimizar la dirección de documentos técnicos. Al extraer y organizar la información secreto de los materiales de origen, los modelos pueden crear una colchoneta de conocimiento de búsqueda que le permita ubicar rápidamente los datos, fórmulas y visualizaciones que necesita para apoyar su trabajo. Con el contenido del documento organizado en una colchoneta de conocimiento, los investigadores e ingenieros pueden utilizar las capacidades de búsqueda avanzadas para producir la información más relevante para sus micción específicas. Esto puede acelerar significativamente los flujos de trabajo de investigación y ampliación, porque los profesionales ya no tienen que examinar manualmente grandes volúmenes de datos no estructurados para encontrar las referencias que necesitan.
Descripción universal de la alternativa
Esta alternativa demuestra el potencial transformador de la IA generativa multimodal cuando se aplica a los desafíos que enfrentan las comunidades científicas y de ingeniería. Al automatizar la indexación y el etiquetado de documentos técnicos, estos modelos poderosos pueden permitir una dirección de conocimiento más competente y acelerar la innovación en una variedad de industrias.
Adicionalmente de Claude de Anthrope en Amazon Bedrock, la alternativa utiliza los siguientes servicios:
- Amazon Sagemaker Jupyterlab – El Sagemakerjupyterlab La aplicación es un entorno de ampliación interactivo basado en la web (IDE) para cuadernos, código y datos. La interfaz flexible y extensa de JupyterLab Application se puede utilizar para configurar y organizar flujos de trabajo de formación inevitable (ML). Usamos JupyterLab para ejecutar el código para procesar fórmulas y gráficos.
- Amazon Simple Storage Service (Amazon S3) – Amazon S3 es un servicio de almacenamiento de objetos construido para juntar y proteger cualquier cantidad de datos. Utilizamos Amazon S3 para juntar documentos de muestra que se utilizan en esta alternativa.
- AWS Lambda –AWS Lambda es un servicio de cuenta que ejecuta código en respuesta a desencadenantes, como cambios en los datos, los cambios en el estado de la aplicación o las acciones del afortunado. Porque servicios como Amazon S3 y Servicio de notificación simple de Amazon (Amazon SNS) puede activar directamente una función Lambda, puede construir una variedad de sistemas de procesamiento de datos sin servidor en tiempo vivo.
El flujo de trabajo de la alternativa contiene los siguientes pasos:
- Divida el PDF en páginas individuales y guárdelas como archivos PNG.
- Con cada página:
- Extraiga el texto llamativo.
- Renderiza las fórmulas en goma.
- Genere una descripción semántica de cada fórmula.
- Genere una explicación de cada fórmula.
- Genere una descripción semántica de cada boceto.
- Genere una interpretación para cada boceto.
- Genere metadatos para la página.
- Genere metadatos para el documento completo.
- Cargue el contenido y los metadatos a Amazon S3.
- Crea una colchoneta de conocimiento de Amazon Bedrock.
El posterior diagrama ilustra este flujo de trabajo.
Requisitos previos
- Si eres nuevo en AWS, primero debes crear y configurar un Cuenta de AWS.
- Adicionalmente, en su cuenta con Bedrock de Amazon, Solicitar acercamiento a
anthropic.claude-3-5-sonnet-20241022-v2:0
Si aún no lo tienes.
Implementar la alternativa
Complete los siguientes pasos para configurar la alternativa:
- Propalar el AWS CloudFormation plantilla eligiendo Pila de dispersión (Esto crea la pila en el
us-east-1
Región de AWS):
- Cuando se complete la implementación de la pila, broa el Amazon Sagemaker AI
- Nominar Cuadernos En el panel de navegación.
- Delimitar el cuaderno
claude-scientific-docs-notebook
y nominar Cascar jupyterlab.
- En el cuaderno, navegue a
notebooks/process_scientific_docs.ipynb
.
- Nominar conda_python3 Como el núcleo, luego elige Decantarse.
- Camine a través del código de muestra.
Explicación del código del cuaderno
En esta sección, atravesamos el código del cuaderno.
Cargar datos
Utilizamos documentos de investigación de ejemplo de arxiv Para demostrar la capacidad descrita aquí. ARXIV es un servicio de distribución regalado y un archivo de acercamiento despejado para casi 2,4 millones de artículos académicos en los campos de física, matemáticas, informática, biología cuantitativa, finanzas cuantitativas, estadísticas, ingeniería eléctrica y ciencia de sistemas, y crematística.
Descargamos los documentos y los almacenamos en una carpeta de muestras localmente. Los modelos de IA generativos multimodales funcionan proporcionadamente con la linaje de texto de los archivos de imagen, por lo que comenzamos convirtiendo el PDF en una colección de imágenes, una para cada página.
Obtenga metadatos de fórmulas
Posteriormente de que los documentos de la imagen estén disponibles, puede usar Claude de Anthrope para extraer fórmulas y metadatos con el API Bedrock Converse de Amazon. Adicionalmente, puede usar la API Converse Bedrock Amazon para obtener una explicación de las fórmulas extraídas en estilo sencillo. Al combinar la fórmula y las capacidades de linaje de metadatos de Claude de Anthrope con las habilidades de conversación de la API Converse Bedrock Amazon, puede crear una alternativa integral para procesar y comprender la información contenida en los documentos de imagen.
Comenzamos con el posterior ejemplo de archivo PNG.
Usamos el posterior mensaje de solicitud:
Obtenemos la posterior respuesta, que muestra la fórmula extraída convertida en formato de goma y descrita en estilo sencillo, encerrada en signos de doble dólar.
Obtenga metadatos de los gráficos
Otra capacidad útil de los modelos de IA generativos multimodales es la capacidad de interpretar gráficos y gestar resúmenes y metadatos. El posterior es un ejemplo de cómo puede obtener metadatos de los gráficos y gráficos utilizando una conversación de estilo natural simple con modelos. Usamos el posterior boceto.
Proporcionamos la posterior solicitud:
La respuesta devuelta proporciona su interpretación del boceto que explica las líneas codificadas por colores y sugiere que, en universal, el maniquí DSC está funcionando proporcionadamente en los datos de entrenamiento, logrando un coeficiente de dados suspensión de cerca de de 0.98. Sin bloqueo, el coeficiente de dados de potencia más bajo y fluctuante indica un potencial de sobreajuste y espacio para mejorar el rendimiento de universalización del maniquí.
Crear metadatos
Usando el procesamiento del estilo natural, puede gestar metadatos para que el documento ayude en la capacidad de búsqueda.
Usamos la posterior solicitud:
Obtenemos la posterior respuesta, incluida la Markdown de fórmula y una descripción.
Use sus datos extraídos en una colchoneta de conocimiento
Ahora que hemos preparado nuestros datos con fórmulas, gráficos analizados y metadatos, crearemos una colchoneta de conocimiento de Amazon Bedrock. Esto hará que la información se pueda agenciárselas y habilitará las capacidades de preguntas sobre preguntas.
Prepare su colchoneta de conocimiento de Amazon Bedrock
Para crear una colchoneta de conocimiento, primero cargue los archivos y metadatos procesados a Amazon S3:
Cuando sus archivos hayan terminado de cargar, complete los siguientes pasos:
- Crea una colchoneta de conocimiento de Amazon Bedrock.
- Crear una fuente de datos de Amazon S3 para su colchoneta de conocimiento y especifique fragmentación jerárquica Como la táctica de fragmentación.
La fragmentación jerárquica implica organizar la información en estructuras anidadas de fragmentos de niños y padres.
La estructura jerárquica permite una recuperación más rápida y específica de la información relevante, primero realizando una búsqueda semántica en la fragmentación del peque y luego devolver la fragmentación de los padres durante la recuperación. Al reemplazar los trozos de los niños con la fragmentación de los padres, proporcionamos un contexto espacioso e integral a la FM.
La fragmentación jerárquica es la más adecuada para documentos complejos que tienen una estructura anidada o jerárquica, como manuales técnicos, documentos legales o documentos académicos con complejos formatear y tablas anidadas.
Consulta la colchoneta de conocimiento
Puede consulta la colchoneta de conocimiento Para recuperar información de la fórmula extraída y los metadatos gráficos de los documentos de muestra. Con una consulta, se recuperan fragmentos relevantes de texto de la fuente de datos y se genera una respuesta para la consulta, basada en los fragmentos de fuente recuperados. La respuesta incluso cita fuentes que son relevantes para la consulta.
Usamos el Plantilla de solicitud personalizada característica de las bases de conocimiento para formatear la salida como markdown:
Obtenemos la posterior respuesta, que proporciona información sobre cuándo se usa la pérdida focal de Tversky.
Higienizar
Para bañar y evitar incurrir en cargos, ejecute los pasos de agilidad en el cuaderno para eliminar los archivos que cargó a Amazon S3 conexo con la colchoneta de conocimiento. Luego, en la consola de CloudFormation de AWS, localice la pila claude-scientific-doc
y eliminarlo.
Conclusión
Extraer ideas de documentos científicos complejos puede ser una tarea desalentadora. Sin bloqueo, el arribada de la IA generativa multimodal ha revolucionado este dominio. Al exprimir la comprensión del estilo natural liberal y las capacidades de percepción visual de Claude de Anthrope, ahora puede extraer con precisión fórmulas y datos de los gráficos, lo que permite ideas más rápidas y toma de decisiones informadas.
Ya sea que sea un investigador, investigador de datos o desarrollador que trabaje con letras científica, la integración de Claude de Anthrope en su flujo de trabajo en Amazon Bedrock puede aumentar significativamente su productividad y precisión. Con la capacidad de procesar documentos complejos a escalera, puede centrarse en tareas de nivel superior y descubrir ideas valiosas de sus datos.
Abrace el futuro del procesamiento de documentos impulsado por la IA y desbloquea nuevas posibilidades para su ordenamiento con Claude de Anthrope en Amazon Bedrock. Lleve su descomposición de documentos científicos al posterior nivel y manténgase por delante de la curva en este paisaje en rápida progreso.
Para una decano exploración y formación, recomendamos revisar los siguientes posibles:
Sobre los autores
Erik Cordsen es un arquitecto de soluciones en AWS que sirve a los clientes en Georgia. Le apasiona aplicar tecnologías de nubes y ML para resolver problemas de la vida vivo. Cuando no está diseñando soluciones en la aglomeración, Erik disfruta de correr, cocinar y ciclismo.
Renu Yadav es una arquitecta de soluciones en Amazon Web Services (AWS), donde trabaja con clientes de AWS de nivel empresarial que les proporciona orientación técnica y les ayudan a alcanzar sus objetivos comerciales. Renu tiene una válido pasión por el formación con su ámbito de especialización en DevOps. Ella aprovecha su experiencia en este dominio para ayudar a los clientes de AWS a optimizar su infraestructura en la aglomeración y optimizar sus procesos de ampliación y implementación de software.
Venkata Moparthi es un arquitecto de soluciones senior en AWS que capacita a las organizaciones de servicios financieros y otras industrias para navegar por la transformación de la aglomeración con experiencia especializada en migraciones en la aglomeración, IA generativa y diseño de edificio segura. Su enfoque centrado en el cliente combina la innovación técnica con la implementación praxis, ayudando a las empresas a acelerar las iniciativas digitales y conquistar resultados estratégicos a través de soluciones AWS personalizadas que maximicen el potencial en la aglomeración.