En este tutorial, aprenderemos cómo rendir el poder de un agente de IA impulsado por el navegador por completo en el interior de Google Colab. Utilizaremos el motor Chromium sin cabecera de dramaturgo, próximo con las abstracciones de agente de suspensión nivel de la biblioteca y navegación de la biblioteca de navegación, para navegar programáticamente, extraer datos y automatizar flujos de trabajo complejos. Envolveremos el maniquí Gemini de Google a través del conector Langchain_Google_genai para proporcionar un razonamiento y la toma de decisiones de jerigonza natural, asegurado por el secreto de Pydantic para el manejo seguro de la tecla API. Con GetPass administrando credenciales, asyncio orquestando la ejecución sin corte y el soporte .env opcional a través de Python-Dotenv, esta configuración le dará una plataforma de agente interactiva de extremo a extremo sin dejar su entorno de cuaderno.
!apt-get update -qq
!apt-get install -y -qq chromium-browser chromium-chromedriver fonts-liberation
!pip install -qq playwright python-dotenv langchain-google-generative-ai browser-use
!playwright install
Primero actualizamos las listas de paquetes del sistema e instalamos cromo sin cabecera, su WebDriver y las fuentes de emancipación para habilitar la automatización del navegador. Luego instala a Playwright próximo con Python-Dotenv, el conector Langchain GoogleGenerativeai y el uso del navegador, y finalmente descarga los binarios del navegador necesarios a través de la instalación del dramaturgo.
import os
import asyncio
from getpass import getpass
from pydantic import SecretStr
from langchain_google_genai import ChatGoogleGenerativeAI
from browser_use import Agent, Browser, BrowserContextConfig, BrowserConfig
from browser_use.browser.browser import BrowserContext
Traemos los servicios públicos Core Python, el sistema operante para la mandato del medio ámbito y el Asyncio para la ejecución asíncrona, por otra parte de GetPass y el secretstrtr de Pydantic para la entrada y el almacenamiento seguros de la tecla API. Luego carga el contenedor Gemini de Langchain (chatGoogleGenerativeai) y el BROWSER_USE Toolkit (agente, navegador, browserContextConfig, BrowserConfig y BrowserContext) para configurar y conducir un agente de navegador sin cabecera.
os.environ("ANONYMIZED_TELEMETRY") = "false"
Desactivamos los informes de uso ignorado estableciendo la variable Anonymized_Telemetry en el entorno a «Copiado», asegurando que ni el dramaturgo ni la biblioteca BROWSER_USE devuelvan los datos de telemetría a sus mantenedores.
async def setup_browser(headless: bool = True):
browser = Browser(config=BrowserConfig(headless=headless))
context = BrowserContext(
browser=browser,
config=BrowserContextConfig(
wait_for_network_idle_page_load_time=5.0,
highlight_elements=True,
save_recording_path="./recordings",
)
)
return browser, context
Este ayudante asíncrono inicializa una instancia de navegador sin cabecera (o encabezada) y la envuelve en un texto de navegación configurado para esperar las cargas de la página del I -Icle, resaltar visualmente los principios durante las interacciones y recoger una disco de cada sesión en ./recordings. Luego devuelve tanto el navegador como su contexto pronto para usar para las tareas de su agente.
async def agent_loop(llm, browser_context, query, initial_url=None):
initial_actions = ({"open_tab": {"url": initial_url}}) if initial_url else None
agent = Agent(
task=query,
llm=llm,
browser_context=browser_context,
use_vision=True,
generate_gif=False,
initial_actions=initial_actions,
)
result = await agent.run()
return result.final_result() if result else None
Este ayudante de asíncrono encapsula un ciclo de «pensar y -browse»: excursión a un agente configurado con su LLM, el contexto del navegador y la pestaña URL original opcional, aprovecha la visión cuando está habitable y deshabilita la disco GIF. Una vez que llame a Agent_Lloop, ejecuta el agente a través de sus pasos y devuelve el resultado final del agente (o nadie si no se produce nulo).
async def main():
raw_key = getpass("Enter your GEMINI_API_KEY: ")
os.environ("GEMINI_API_KEY") = raw_key
api_key = SecretStr(raw_key)
model_name = "gemini-2.5-flash-preview-04-17"
llm = ChatGoogleGenerativeAI(model=model_name, api_key=api_key)
browser, context = await setup_browser(headless=True)
try:
while True:
query = input("nEnter prompt (or leave blank to exit): ").strip()
if not query:
break
url = input("Optional URL to open first (or blank to skip): ").strip() or None
print("n🤖 Running agent…")
answer = await agent_loop(llm, context, query, initial_url=url)
print("n📊 Search Resultsn" + "-"*40)
print(answer or "No results found")
print("-"*40)
finally:
print("Closing browser…")
await browser.close()
await main()
Finalmente, esta coroutina principal impulsa toda la sesión de Colab: solicita de forma segura para su secreto de API Gemini (usando GetPass y Secretstr), configura el chatGoogleGenerativeAiAi LLM y un contexto de navegador de dramaturgo sin cabecera, luego ingresa a un onda interactivo donde lee sus indicaciones de jerigonza natural (y opcional Start Url), invoca el agente de agente, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los browser. Imprime los resultados y finalmente asegura que el navegador cierra limpiamente.
En conclusión, siguiendo esta dirección, ahora tiene una plantilla de Colab reproducible que integra la automatización del navegador, el razonamiento LLM y la mandato de credenciales segura en una sola tubería cohesiva. Ya sea que esté raspando los datos del mercado en tiempo auténtico, resumiendo los artículos de telediario o la interfaz Gemini de Langchain, la combinación de dramaturgo, navegador, y la interfaz Gemini de Langchain proporcionan una pulvínulo flexible para su próximo tesina a IA. Siéntase soberano de extender las capacidades del agente, la disco de GIF reenable, ampliar pasos de navegación personalizados o canjear en otros backends de LLM para adaptar el flujo de trabajo con precisión a sus micción de investigación o producción.
Aquí está el Cuaderno de colab. Por otra parte, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GResparcir. No olvides unirte a nuestro 90k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero soñador, ASIF se compromete a rendir el potencial de la inteligencia sintético para el perfectamente social. Su esfuerzo más flamante es el tirada de una plataforma de medios de inteligencia sintético, MarktechPost, que se destaca por su cobertura profunda de telediario de formación mecánico y de formación profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el notorio.
