Consumiendo datos de SQL Server con Google Dataproc

Antiguamente de iniciar, es necesario que tengas los siguientes insumos listos!

Cautiverio de conexión a tu Servidor SQL
Archivo JAR con el Driver (Aquí se pueden descargar)

Lo primero que vamos a hacer es crear un bucket en Google Cloud en donde almacenaremos los archivos. frasco que vamos a utilizar

En este cubo que yo he llamado prueba-iwco Vamos a crear 2 carpetas que utilizaremos más delante.

acciones
paso

En la carpeta paso debemos subir los archivos que hemos descargado previamente

En la carpeta accionessubiremos un archivo caparazón que contiene lo próximo:

Este archivo lo almacenaremos con el nombre acciones_inicial.sh y lo cargaremos en la carpeta acciones del balde creado previamente.

NOTA: Es posible que el archivo init_actions.sh presente problemas, para esto, en notepad++ cambien el sistema de cambio de líneas de windows a UNIX.

Ahora es momento de crear el cluster!!

Inicia el proceso de creación del cluster de Dataproc, selecciona las configuraciones necesarias para tu tesina
Haga clic en Personalizar Cluster (Personalizar clúster)

Ahora ve a Propiedades del Cluster y agrega 3 propiedades

Prefijo (Prefix)	Espita (Key)	Valencia (Valencia)
chispa	chispa.jarras	/usr/lib/específico/jars/*
chispa	spark.driver.rutaDeClaseExtra	/usr/lib/específico/jars/*
proceso de datos	dataproc.conscrypt.provider.habilitar	FALSO

En las acciones de inicialización del cluster (Initialization Actions), seleccionamos el archivo shell que cargamos previamente

Ya podemos difundir la creación de nuestro cluster y comenzar a utilizarlo, un script de ejemplo en pyspark para comprobar la conectividad:

¡Buen código y buena compilación!

Etiquetado con, Consumiendo, Dataproc, datos, Google, Server, SQL

Consumiendo datos de SQL Server con Google Dataproc

Deja una respuesta Cancelar la respuesta

COLOMBIA

ENLACES DE INTERÉS