Athrun Data Intelligence


Antiguamente de iniciar, es necesario que tengas los siguientes insumos listos!

  1. Cautiverio de conexión a tu Servidor SQL
  2. Archivo JAR con el Driver (Aquí se pueden descargar)

Lo primero que vamos a hacer es crear un bucket en Google Cloud en donde almacenaremos los archivos. frasco que vamos a utilizar

En este cubo que yo he llamado prueba-iwco Vamos a crear 2 carpetas que utilizaremos más delante.

  1. acciones
  2. paso

En la carpeta paso debemos subir los archivos que hemos descargado previamente

En la carpeta accionessubiremos un archivo caparazón que contiene lo próximo:

Este archivo lo almacenaremos con el nombre acciones_inicial.sh y lo cargaremos en la carpeta acciones del balde creado previamente.

NOTA: Es posible que el archivo init_actions.sh presente problemas, para esto, en notepad++ cambien el sistema de cambio de líneas de windows a UNIX.

Ahora es momento de crear el cluster!!

  • Inicia el proceso de creación del cluster de Dataproc, selecciona las configuraciones necesarias para tu tesina
  • Haga clic en Personalizar Cluster (Personalizar clúster)
  • Ahora ve a Propiedades del Cluster y agrega 3 propiedades
Prefijo (Prefix)Espita (Key)Valencia (Valencia)
chispachispa.jarras/usr/lib/específico/jars/*
chispaspark.driver.rutaDeClaseExtra/usr/lib/específico/jars/*
proceso de datosdataproc.conscrypt.provider.habilitarFALSO

En las acciones de inicialización del cluster (Initialization Actions), seleccionamos el archivo shell que cargamos previamente

Ya podemos difundir la creación de nuestro cluster y comenzar a utilizarlo, un script de ejemplo en pyspark para comprobar la conectividad:

¡Buen código y buena compilación!


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *