Web Scraping con LLM y ScrapeGraphAI

raspado web se ha convertido en una utensilio importante y esencial para compilar información útil de los sitios web disponibles. De todas las herramientas presentes, ScrapeGraphAI es única ya que puede identificar gráficos y utilizar inteligencia industrial para el web scraping. Este artículo explora las características de ScrapeGraphAI, proporciona una explorador paso a paso para la implementación y aborda desafíos comunes. Ya sea que sea nuevo en el web scraping o un beneficiario experimentado, esta explorador le proporcionará los conocimientos necesarios para utilizar ScrapeGraphAI de forma eficaz.

Objetivos de educación

Comprenda las características y ventajas esencia de utilizar ScrapeGraphAI para el web scraping.
Aprenda a instalar y configurar ScrapeGraphAI para sus proyectos de scraping.
Obtenga experiencia praxis con una explorador de implementación paso a paso para extraer datos web.
Reconozca los desafíos y consideraciones al utilizar ScrapeGraphAI de guisa efectiva.
Descubra cómo exportar datos extraídos a formatos avíos como Excel o CSV.

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

¿Qué es ScrapeGraphAI?

Eliminar listados de productos de Amazon puede ser una tarea desalentadora. Normalmente, podrías deteriorar 200–300 líneas de código configurando solicitudes HTTP, analizando HTML con selectores o expresiones regulares, manejando la paginación, manejando medidas anti-bot y más. pero con ScrapeGraphAIpuedes instruir a un maniquí de IA (respaldado por grandes modelos de lengua) para extraer exactamente lo que necesita, a menudo en solo unas pocas líneas de Pitón.

Descargo de responsabilidad:

Los Términos de servicio de Amazon generalmente prohíben el scraping o la linaje de datos sin un permiso patente.
Este artículo es puramente una demostración de las capacidades de ScrapeGraphAI en una única página de Amazon para uso educativo o personal.
El scraping comercial o a gran escalera de Amazon puede ser procesal y técnicamente riesgoso.

¿Por qué nominar ScrapeGraphAI para Web Scraping?

ScrapeGraphAI revoluciona el web scraping al cambiar el enfoque de la codificación compleja a instrucciones intuitivas en lengua natural, lo que hace que la linaje de datos sea más rápida, simple y apto.

Reducción significativa en el código

Con el scraping tradicional, puede utilizar solicitudes, BeautifulSoup, Selenium u otras bibliotecas. Un script pintoresco podría alcanzar fácilmente entre 200 y 300 líneas una vez que se tenga en cuenta el manejo de errores, los selectores de CSS, la paginación y más. Por el contrario, ScrapeGraphAI utiliza indicaciones en lengua natural para describir lo que desea, lo que significa que la viejo parte del trabajo pesado lo realiza un maniquí de IA en segundo plano.

Creación de prototipos más rápida

Como no es necesario crear selectores manualmente para cada cuarto de HTML ni preocuparse por cambios menores en el DOM, puede crear un prototipo en minutos.

Enfoque de suspensión nivel

Al describir sus deyección de datos en inglés habitual, se concentra en lo que desea en circunscripción de en cómo obtenerlo. Este enfoque puede ser más sólido delante pequeños cambios de diseño que las frágiles consultas CSS o XPath (aunque los rediseños del sitio aún pueden romper cualquier enfoque automatizado).

Facilidad de mantenimiento

Cuando Amazon (o cualquier otro sitio) cambia su diseño, a menudo hay que escudriñar en HTML nuevamente para encontrar los selectores correctos. Con ScrapeGraphAI, generalmente solo actualiza su mensaje si los encabezados o la estructura de la página cambian.

Primeros pasos con ScrapeGraphAI

Embarcarse en su alucinación de web scraping con ScrapeGraphAI es sencillo y sin complicaciones. Al explotar su interfaz intuitiva y sus capacidades impulsadas por IA, puede evitar las complejidades habituales de las configuraciones tradicionales de scraping.

Los pasos a continuación lo guiarán para comprar la esencia API ScrapeGraphAI, instalar las herramientas necesarias y configurar su entorno para extraer datos de guisa apto en solo unos pocos pasos. Ya sea que sea un desarrollador experimentado o un principiante, encontrará que el proceso optimizado de ScrapeGraphAI cambiará las reglas del encaje para invadir las tareas de linaje de datos.

Ir a: ScrapeGraphAI
Haga clic en: Comenzar
Iniciar sesión: puede iniciar sesión con su cuenta de Google.
Copie su esencia API: en la página futuro, se mostrará su esencia API. Simplemente cópialo.

Nota: ScrapeGraphAI proporciona 100 créditos de gorra para asomar!

Faro de implementación paso a paso

A continuación, le mostraremos cómo extraer la página de resultados de búsqueda de la mesita de confusión de Amazon y extraer detalles como título, precio, calificación, número de calificaciones e información de entrega con solo un puñado de líneas de código.

Paso 1: instalar dependencias

Ayer de comenzar, deberá instalar las bibliotecas necesarias. Estos proporcionarán las herramientas necesarias para el web scraping y manejo de datos.

pip install --quiet -U langchain-scrapegraph pandas

langchain-scrapegraph: El paquete oficial para las herramientas Python de ScrapeGraphAI.
pandas: Usaremos esto para juntar los resultados en un archivo DataFrame o Excel.

Paso 2: precio y configure su esencia API

Para interactuar con ScrapeGraphAI, deberá configurar su esencia API. Si la esencia aún no está en su entorno, se le pedirá que la ingrese de forma segura.

import os
import getpass
import pandas as pd
from langchain_scrapegraph.tools import SmartScraperTool

# If you haven't set your API key in your environment, you'll be prompted for it:
if not os.environ.get("SGAI_API_KEY"):
    os.environ("SGAI_API_KEY") = getpass.getpass("ScrapeGraph AI API key:n")

Paso 3: cree la utensilio SmartScraper

Este paso inicializa ScrapeGraphAI SmartScraper, que sirve como corazón del proceso de raspado.

smartscraper = SmartScraperTool()

Esta renglón de código le brinda camino a un raspador web basado en inteligencia industrial que acepta un mensaje simple.

Paso 4: escriba el mensaje

En circunscripción de escribir líneas de selectores CSS o XPath, le indica a la utensilio qué hacer en un lengua sencillo. Por ejemplo:

scraper_prompt = """
1. Go to the Amazon search results page: https://www.amazon.in/s?k=bedside+table
2. For each product listing, extract:
   - Product Title
   - Price
   - Star Rating
   - Number of Ratings
   - Delivery details
3. Return the results as a JSON array of objects, each with keys:
   "title", "price", "rating", "num_ratings", "delivery".
4. Ignore sponsored listings if possible.
"""

Siéntase vacancia de sumar o eliminar instrucciones. Incluso puede incluir «enlace de producto» o «elegibilidad principal».

Paso 5: invocar el raspador

Con el indicador y el raspador listos, ahora puede ejecutar la tarea de raspado.

search_url = "https://www.amazon.in/s?k=bedside+table"

result = smartscraper.invoke({
    "user_prompt": scraper_prompt,
    "website_url": search_url
})

print("Scraped Results:n", result)

Lo que obtendrá normalmente es una letanía (matriz) de diccionarios. Cada diccionario contiene los datos que solicitaste: título, precio, calificación, núm_calificaciones, entrega, etc.

Ejemplo (simplificado):

(
  {
    "title": "XYZ Interiors Wooden Bedside Table...",
    "price": "₹1,499",
    "rating": "4.3 out of 5 stars",
    "num_ratings": "1,234",
    "delivery": "Get it by Monday, January 10"
  },
  ...
)

Producción:

result
{"products": ({"title": "Studio Kook SEZ Sofa Mate Engineered Wood Side Table 
(Junglewood, Matte Finish)",
'rating: 4.5 out of 5 stars',
"num_ratings": "19",
'delivery': 'Get it Monday 6 January Wednesday 8 January",
"product_link":
"3.0.in/dio-oo-oo-Fi/"}, {"title":"ULD CRAFTS Antique Wooden Fold-able Coffee 
Table/Side Table/End Table/Tea Table/Plant Stand/St 'price': '979',
'rating': '4.0 out of 5 stars',
'n ratings" '14,586,
'delivery': "FREE delivery Thu, 2 Jan on top of items fulfilled by Amazon or fastest
delivery Tomorrow, 'product_link":"https://mazon.in/SSD-CRAFTS-Residul-fold-ale-
humáture/de/2692716056"},
('title': 'Firebees Modern Wooden Table, Wooden Bedside Table for Bed Room,
'nun ratings": "292",
'delivery': "Get it by 6-7 Jan",
'product_link":"//amazon.joedside-lansstand-millexten/da/GAMIX"),
('title': 'Delon Wooden Center Table, End Sofa, Bedside Table, Corner Coffee Table 
with Solid Finish Space 'price': '49",
"rating": "3.6 out of 5 stars',
'n ratings": "63",
'delivery' "Get it by 67 Jan",
'product_link': '//zon.in/ein-Bedside-furniture-Storage-Bedroom/da/55"},
{"title":"ETIQUETTE ART Retro Bookcase Nightstand, End Table, Bed Side Table for 
Small Spaces Magazine Star
'price': '99,
'rating': '3.8 out of 5 stars',
num ratings": "15",
'delivery': "Get it by Tuesday, January 7,
'product_link":"/APHYAL"}}}
Output is truncated. View assialer or open in a tots Adjust cell output

Paso 6: Opcional: Exportar a Excel o CSV

Si desea juntar sus resultados, pandas lo hace hacedero:

df = pd.DataFrame(result)
df.to_excel("bedside_tables.xlsx", index=False)
print("Data exported to bedside_tables.xlsx")

Ventajas de utilizar ScrapeGraphAI

A continuación se detallan las ventajas de utilizar ScrapeGraphAI, que lo convierten en una opción destacada para el web scraping apto e inteligente.

Sencillez

El scraping tradicional con solicitudes + BeautifulSoup o Selenium puede aumentar fácilmente a 200-300 líneas una vez que se tiene en cuenta el manejo de errores, la paginación, la carga dinámica y el estudio de datos.
Con ScrapeGraphAI, a menudo puedes obtener el mismo resultado en menos de 20 líneas (a veces incluso menos de 10).

Parquedad de tiempo

No es necesario que descubras cada selector de CSS o XPath. Simplemente diga: «Extraiga el título, el precio, la calificación…»
El LLM realiza el estudio HTML pesado entre bastidores.

Iteración rápida

En circunscripción de reescribir una deducción compleja para cada nuevo punto de datos, simplemente reformule su mensaje para capturar los campos adicionales que necesita.

Evolucionando con la página

Si Amazon cambia los nombres de las clases o modifica sutilmente la estructura HTML, es posible que solo necesite un pequeño ajuste, en circunscripción de reescribir consultas CSS o XPath completas.

Desafíos y consideraciones

A continuación se detallan los desafíos y consideraciones que se deben tener en cuenta al utilizar ScrapeGraphAI para avalar un web scraping fluido y eficaz.

Términos de servicio de Amazon

Amazon generalmente prohíbe la linaje automatizada de datos. El scraping trillado o a gran escalera puede bloquearlo o tener consecuencias legales.
Si planea hacer poco más que pruebas a pequeña escalera, obtenga un permiso patente o considere una fuente de datos oficial.

CAPTCHA / Medidas anti-bot

Amazon puede detectar patrones de tráfico inusuales. Si está bloqueado, es posible que necesite soluciones avanzadas: servidores proxy rotativos, navegadores sin comienzo o solicitudes cuidadosamente programadas.

Volúmenes de datos

Si desea miles de listados de varias páginas, asegúrese de que su enfoque sea sólido para manejar la paginación y grandes conjuntos de datos.
Incluso controle sus créditos ScrapeGraphAI para uso a gran escalera.

Contenido dinámico

Si cierta información (como remesa o insignias principales) se carga dinámicamente a través de JavaScript, un enfoque quieto podría omitirla. Es posible que se necesiten técnicas más avanzadas (como Selenium o Puppeteer) para capturar cada detalle.

Conclusión

ScrapeGraphAI aporta un enfoque revolucionario al web scraping. En circunscripción de codificar minuciosamente la deducción de estudio, usted delega esa complejidad a un maniquí de IA, reduciendo su código pulvínulo de cientos de líneas a un script conciso y hacedero de estudiar.

Para muchos casos de uso, como comparaciones rápidas de productos, linaje de datos únicos o investigaciones a pequeña escalera, esto puede suponer un enorme hucha de tiempo. Sin confiscación, aún es necesario tener en cuenta las políticas de Amazon y, para el scraping a gran escalera, las técnicas avanzadas y las consideraciones de cumplimiento siguen siendo esenciales.

En breve:

Si solo necesita un puñado de puntos de datos de unas pocas páginas, ScrapeGraph AI puede ser su mejor amigo.
Para trabajos más importantes, asegúrese de cumplir con los términos de servicio del sitio y estar preparado para manejar CAPTCHA u otros obstáculos anti-bot.

Conclusiones esencia

ScrapeGraphAI reduce el esfuerzo y la complejidad del web scraping, desde cientos de líneas de código hasta instrucciones concisas y basadas en indicaciones.
Con indicaciones en lengua natural, puede extraer datos rápidamente sin preocuparse por los selectores HTML o los cambios de diseño.
Las actualizaciones menores de las indicaciones pueden manejar cambios en la estructura del sitio, minimizando la carencia de reescrituras extensas del código.
Eliminar Amazon a escalera puede violar sus Términos de servicio y requerir soluciones para CAPTCHA y medidas anti-bot.
Ideal para la linaje rápida de datos a pequeña escalera, pero los proyectos a gran escalera requieren el cumplimiento de las políticas de Amazon y mecanismos de manejo sólidos.

Preguntas frecuentes

P1. ¿Es procesal eliminar Amazon?

R. Por lo genérico, sus Términos de servicio no permiten extraer datos de Amazon a gran escalera. Amazon emplea medidas anti-bot (CAPTCHA, cerco de IP) para evitar el scraping no acreditado. Para un tesina personal a pequeña escalera, como compilar un número definido de listados para investigación, puede que estés aceptablemente, pero siempre debes consultar los Términos de servicio actuales de Amazon y confirmar que tienes permiso. El scraping comercial o a gran escalera podría ser legalmente riesgoso y violar las políticas de Amazon.

P2. ¿Por qué necesitamos ScrapeGraphAI para esta tarea?

R. ScrapeGraphAI simplifica el proceso de raspado mediante el uso de instrucciones basadas en indicaciones con grandes modelos de lengua ocultos. En circunscripción de analizar HTML manualmente con selectores CSS o XPath, puede describir los datos que desee (“títulos de productos, precios, etc.”) en un lengua sencillo. Esto puede evitarle escribir entre 200 y 300 líneas de código de estudio personalizado.

P3. ¿ScrapeGraph AI siempre podrá recuperar los datos que solicito?

R. No siempre. Algunos sitios (incluido Amazon) dependen en gran medida de JavaScript para cargar o refrescar información del producto. Si los datos se inyectan dinámicamente y el HTML no está presente en la fuente original, es posible que ScrapeGraphAI no los vea a través de una simple solicitud HTTP. Adicionalmente, los sitios web pueden consumir captchas o cerrar solicitudes. En tales casos, es posible que necesites técnicas avanzadas (navegadores sin comienzo, servidores proxy, etc.).

P4. ¿Puedo eliminar varias páginas o categorías enteras?

R. Sí, en teoría, puede indicarle a ScrapeGraphAI que siga los enlaces de paginación y obtenga más resultados. Sin confiscación, tenga en cuenta los límites de tarifas, los posibles desafíos de CAPTCHA y los TOS de Amazon. Si espina repetidamente muchas páginas, corre el aventura de ser bloqueado o violar sus políticas de uso.

Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.

¡Hola! Soy Adarsh, un titulado de Business Analytics de ISB, actualmente inmerso en la investigación y la exploración de nuevas fronteras. Me apasiona la ciencia de datos, la inteligencia industrial y todas las formas innovadoras en que pueden variar las industrias. Ya sea creando modelos, trabajando en canales de datos o sumergiéndome en el educación forzoso, me encanta observar con la última tecnología. La IA no es solo mi interés, es cerca de donde veo que se dirige el futuro, ¡y siempre estoy emocionado de ser parte de ese alucinación!

Etiquetado con, LLM, ScrapeGraphAI, Scraping, web