Tutorial: 3 proyectos gratuitos de descomposición de Databricks que puedes realizar en una tarde

¿Quiere un tesina de descomposición vivo que pueda compartir públicamente, platicar en entrevistas o juntar a su currículum o cartera, todo sin menester de una maleable de crédito?

Databricks Free Edition brinda a estudiantes, jóvenes profesionales y curiosos de la IA golpe a los mismos datos y herramientas de IA que se utilizan en las empresas líderes, con la cantidad adecuada de computación para proyectos personales, y el panel de control de IA/BI y las herramientas de descomposición de Databricks son un excelente zona para comenzar. Este blog explicará cómo incorporar algunos conjuntos de datos públicos para dividirlos, crear un panel de control pulido y contar una historia clara sobre las tendencias y los conocimientos ocultos en su interior.

Ya sea que sea un usufructuario liberal de hojas de cálculo que sondeo mejorar con SQL y Python, o un ingeniero de BI experimentado que experimenta con descomposición impulsados por IA, estos proyectos están diseñados para ayudarlo a construir poco tangible y rápido. Si desea profundizar más, puede explorar la interpretación gratuita de Databricks. Capacitación en IA/BI a su propio ritmo, cursos de autor en profundidad sobre IA/BIo únete a un sesión de incorporación gratuita en vivo. Incluso puede penetrar a docenas de otras demostraciones públicas instalables. aquí.

Configuración

Si aún no tiene una cuenta, puede registrarse en Databricks Free Edition aquíno se requiere maleable de crédito ni número de teléfono. Obtiene golpe a Databricks de forma gratuita y perpetua para ensayar y memorizar con Tiraje gratuita de ladrillos de datos. Nota: La publicación gratuita es para uso personal, no para producción o uso comercial. Si está buscando una plataforma de datos totalmente compatible y de nivel de producción para su empresa, comuníquese con Databricks. aquí.

Un zaguero consejo antiguamente de comenzar: si encuentra errores o se queda atascado en algún momento, el Asistente de Databricks (el diamante morado en la ángulo superior derecha) es increíblemente útil para depurar, originar SQL y explicar conceptos a medida que avanza.

Una vez terminada la configuración, ¡vamos a sumergirnos!

1. Analizar una panadería de galletas (simulada)

Empezaremos con un calentamiento dócil. Para una pequeña empresa, apoyar el pulso sobre las operaciones y las tendencias es fundamental para el éxito. El propietario de una pequeña empresa podría estar buscando información como encontrar el producto más vendido, preguntar cuáles son las ubicaciones con mejor rendimiento o pronosticar cómo serán las ventas el próximo año.

Cada radio de trabajo de Databricks viene con un conjunto preinstalado de datos de muestra en el catálogo de «muestras», que es un excelente punto de partida para ensayar con nuevas características. El conjunto de datos simulados de proveedores, reseñas y transacciones es específicamente un buen zona para practicar cómo contar una historia sobre cómo se está desempeñando «nuestra» pequeña empresa. Puede encontrar el conjunto de datos en la parte «catálogo» en la mostrador adjunto del menú izquierdo de Databricks, que es el núcleo de cada espacio de trabajo y le permite explorar conjuntos de datos disponibles para su descomposición.

En este caso, puede expandir el catálogo de «muestras» y el esquema de «panadería» para encontrar los datos.

Para comenzar, cree un panel nuevo haciendo clic en ‘nuevo->Panel’ en la ángulo superior izquierda del espacio de trabajo, luego, en la pestaña ‘datos’ del panel, seleccione una de las tablas usando SQL como se muestra a continuación (o selecciónela del selector de tablas de la interfaz de usufructuario):

En el muro del panel, agregue visualizaciones y texto que le ayuden a contar una historia clara. Por ejemplo, puede utilizar gráficos circulares para la composición (como la combinación de productos), gráficos de líneas para las tendencias (como las ventas a lo dispendioso del tiempo) y contadores para resaltar números secreto, como las transacciones o los ingresos totales.

El conjunto de datos de Bakehouse todavía incluye reseñas de clientes simuladas, lo que lo convierte en un excelente zona para probar el descomposición asistido por IA utilizando el Consulta_AI() función. Esto crea un nuevo conjunto de datos al aplicar un maniquí de IA directamente a sus datos; en este caso, clasifica cada reseña como positiva, negativa o impreciso. Incluso puedes modificar el mensaje para originar una respuesta cibernética para cada reseña (y quizás quieras ensayar pidiendo diferentes tonos de voz).

Desafío del futuro nivel: ¿Puedes encontrar una guisa de aplicar? otra función de IA como ai_classify() o ai_gen()? ¿Puedes modificar el mensaje AI_Query() para que haga comentarios en el panel de control? ¿O respuestas automáticas a las reseñas? ¿Puedes calar hasta el final y crear un agente para originar automáticamente textos de marketing basados en las reseñas más importantes, como Kasey Uhlenhuth? ¿Qué hizo en la Cumbre de Datos e IA 2024?

2. Predice tu arriendo

Los datos sobre vivienda suelen ser un excelente zona para ejercitar su capacidad analítica: hay muchas correlaciones sólidas que encontrar, como el clima y las tasas de interés, y hay una gran cantidad de datos de incorporación calidad publicados por fuentes oficiales (a menudo gubernamentales). Para un par de ejemplos, Conjuntos de datos abiertos de Zillow Research ofrecen excelentes datos sobre vivienda en EE. UU., mientras que la Oficina de Estadísticas Nacionales del gobierno del Reino Unido proporciona datos censales de incorporación calidad. Las preguntas de descomposición comunes son cosas como «¿Qué estado/provincia tiene las tasas de crecimiento más altas?», «¿Dónde hay más construcciones nuevas?» o «¿Cuál es la relación entre los costos de la vivienda y las tasas de interés?»

Mi preferido personal es un ‘precio de saldo de arriendo’ conjunto de datos del portal de Gobierno Franco del Gobierno de Canadá, que contiene un conjunto de alquileres anunciados con atributos como año, radio metropolitana, número de habitaciones, etc. Cruce que la forma en que los datos tienen abriles dispuestos como filas individuales facilita su filtrado y descomposición.

Para obtener los datos en su espacio de trabajo, descargue el conjunto de datos del portal, extraiga el archivo de datos del zip (‘46100092.csv’), luego presione el cogollo ‘cargar datos’ en la página de inicio de su espacio de trabajo para trabajar con un pequeño asistente para analizar el formato CSV en una tabla.

De forma predeterminada, nombrará la tabla resultante igual que el archivo con nombre técnico, así que esté atento a la posibilidad de cambiarle el nombre a poco significativo como ‘Housing_data’. Una vez creado, use la sección «catálogo» del espacio de trabajo para encontrarlo y luego cree un panel usando el cogollo «crear» para obtener uno que esté precargado con un caparazón aproximadamente del conjunto de datos.

Para mejorar el panel original, puede juntar otros sectores y comparaciones que agreguen contexto y color al descomposición. Podría considerar comparar los alquileres promedio o el crecimiento en otras ciudades, o examinar la proporción de unidades de un dormitorio con otros tipos de vivienda. ¿Cuál es la ciudad más cara? Recuerde juntar todavía filtros para que los usuarios puedan centrarse en sus ciudades específicas o tipos de unidades de interés.

En algunos casos, es posible que necesite escribir una consulta SQL diferente o incorporar otros datos; Recuerde que el Asistente de Databricks (diamante morado en la ángulo superior derecha) puede resultar útil. En mi ejemplo, le pedí al Asistente que agregara extensión/largo para las ciudades para poder crear la instinto del planisferio.

Para originar una predicción, comience con un representación de líneas corriente que tenga el eje x como vencimiento de relato y el precio de saldo (valencia) como eje y. Luego busque el cogollo «juntar pronóstico» en la mostrador adjunto. Esto agregará una nueva visualización de pronóstico al muro de su panel, creada en un nuevo conjunto de datos SQL con Databricks. ‘AI_Forecast()’ Función SQL que lumbre a un maniquí de educación inevitable de series temporales y lo aplica a sus datos. Esta función beta aún está evolucionando (¡nos encantaría escuchar comentarios!), pero sigue siendo un punto de partida útil para aplicar ML a un caso de uso del mundo vivo. Recuerde todavía que el Asistente de Databricks siempre puede ayudarle a crear su propio SQL personalizado para nuevos conjuntos de datos.

Desafío del futuro nivel: Si aceptablemente AI_Forecast() es excelente para una predicción de relato rápida, una más precisa implicaría combinar otros puntos de datos y aplicar un cálculo de educación inevitable personalizado; puede ver cómo se vería una opción completa de eso (en este caso, predecir el mantenimiento de la turbina eólica) en nuestro Sitio de demostraciones de Databricks.

3. Encuentre una filmación de película para observar

En las ciudades que se utilizan con frecuencia como telón de fondo de películas, es posible que tengas la suerte de toparte con camiones de filmación, asistentes de producción y pequeñas cabinas de directores aproximadamente de edificios históricos o zonas pintorescas de la ciudad. Antiguamente de que las producciones cinematográficas puedan cortar la propiedad pública para estos rodajes, deben obtener permisos de filmación, que luego las agencias gubernamentales publican en conjuntos de datos abiertos.

Si aceptablemente no tiene permisos para el futuro, uno de los mejores ejemplos de este tipo de conjunto de datos es el lista del Portal de Datos Abiertos de la ciudad de Nueva York para permisos de filmación. Enumera el tipo de rodaje (es asegurar, informativo, largometraje o serie) inmediato con la hora de inicio y finalización del rodaje, la ciudad y el código postal. Al dividir y fragmentar el conjunto de datos, puede identificar las ubicaciones más comunes y, con suerte, echar un vistazo a una hado en energía.

Al igual que en los ejemplos anteriores, debemos comenzar cargando los datos en Databricks. El portal de datos abiertos de Nueva York le permite descargar fácilmente el .csv e importarlo a través de la «carga de datos» en la interfaz de usufructuario, como hicimos en los ejercicios anteriores. Sin bloqueouna característica interesante de este conjunto de datos es que se actualiza diariamente. Tomemos esos datos mediante programación para poder ejecutarlos según una programación. Esto se acerca mucho más a cómo abordarlo en un contexto empresarial.

Databricks hace que sea en realidad dócil ejecutar Python que necesitamos a través de Notebooks. En este caso, cree un cuaderno (nuevo->cuaderno en la ángulo superior izquierda), copie y pegue el código futuro y presione ejecutar para descargar el CSV en su espacio de trabajo y analizarlo en una tabla. Recuerde que si tiene problemas, siempre puede usar el Asistente de Databricks (a través del diamante púrpura) para ayudarlo.

Este primer fragmento de código crea un prominencia (un zona para juntar archivos arbitrarios) y luego descarga el conjunto de datos utilizando la biblioteca URLLib de Python. ¡Siéntete excarcelado de modificar los nombres del catálogo y del esquema para adaptarlos a tu estilo!

Este segundo fragmento de código toma el archivo sin formato y crea una tabla señal ‘film_permits’ que podemos usar en nuestro panel. Intente pedirle al Asistente que lo explique si es necesario.

Si funcionó correctamente, debería poder encontrar la tabla a través de la parte del catálogo del espacio de trabajo o abriendo la mostrador adjunto del explorador de datos (ícono de tres formas) en el cuaderno y luego expandiendo el catálogo databricks_demo y el esquema open_nyc para ver la tabla. Es posible que tengas que presionar el cogollo «modernizar» si ya lo tenías despejado.

Recordatorio: si encuentra algún problema con el código, recuerde que siempre puede ceder el enfoque del código e importar los datos manualmente descargándolos del portal y cargándolos a través del cogollo «Cargar datos» en la página de inicio de su espacio de trabajo.

Una vez que tengas la mesa cargada, ¡es hora de cortar y presentar una historia! Quizás quieras comprobar las tendencias con un representación de líneas: ¿hay más rodajes de series o largometrajes? ¿Eso está cambiando con el tiempo? O podría pensar en la distribución con un representación de barras o circular: ¿las ubicaciones de filmación de informativo o comerciales se superponen mucho con las películas?

Si intenta crear una visualización de planisferio, puede notar que, si aceptablemente la película permite tener un código postal, la visualización del planisferio del panel de AI/BI requiere atributos de extensión y largo. A Dios gracias, los conjuntos de datos cartográficos de coordenadas postales son fáciles de encontrar en cuerda y pueden incorporarse al panel mediante el Asistente. Podrías descargar este conjunto de datos abiertos (con inmoralidad Creative Commons) y luego cree un nuevo conjunto de datos en su panel, pidiéndole al Asistente que genere una consulta combinada. Este es el mensaje que utilicé (ajuste según su catálogo específico y los nombres de las tablas):

¡Y aquí tienes una interpretación de cómo podría hallarse tu panel final!

Desafío: ¿Qué otros datos de OpenNYC podría superponer, tal vez volúmenes de taxis o viajes compartidos? ¿Hitos importantes? Si eres políticamente activo, ¿hay algún descomposición que pueda promover tu causa? Otras ciudades y estados ofrecen conjuntos de datos abiertos similares, como el de Seattle. Punto de relato energético del edificio conjunto de datos de emisiones que podrían estar más cerca de usted.

¿Se puede ampliar el descomposición geoespacial utilizando Databricks nativo?Funciones ST‘, para averiguar otros puntos más cercanos?

Envolver

Mi parte favorita de la analítica son los momentos de iluminación que tienes mientras persigues la curiosidad, y espero que estos ejemplos generen algunas ideas. Si desea obtener más información o decide trabajar para obtener una certificación que pueda incluir en un currículum, puede penetrar al curso de capacitación de descripción universal de AI/BI tirado y a su propio ritmo de Databricks. aquíun curso de formación de autores más profundo aquío únete a un clase de incorporación en vivo gratuita! Los ladrillos de datos sitio de documentos Incluso es un excelente zona para consultar características específicas.

Si desea importar alguno de los paneles de ejemplo de este blog, puede consultar este repositorio para obtener la fuente. Las especificaciones del panel de AI/BI son solo json, así que descargue el archivo e impórtelo a través del menú desplegable «importar» en la página de inicio del panel.

Por zaguero, puede encontrar docenas de demostraciones instalables que van desde ML hasta paneles y IA agente en el Centro de demostración de Databricks. Pruebe poco nuevo o comparta lo que ha creado con la comunidad de Databricks en su plataforma de redes sociales favorita. ¡Atinado pirateo!

Comience a construir con Databricks Free Edition

Excursión tu espacio de trabajo excarcelado(no se requiere maleable de crédito) y convierta estos proyectos en paneles de control listos para la cartera hoy mismo.

Etiquetado análisis, Databricks, gratuitos, proyectos, puedes, realizar, tarde, Tutorial, Una

Tutorial: 3 proyectos gratuitos de descomposición de Databricks que puedes realizar en una tarde

Configuración

1. Analizar una panadería de galletas (simulada)

2. Predice tu arriendo

3. Encuentre una filmación de película para observar

Envolver

Deja una respuesta Cancelar la respuesta

COLOMBIA

ENLACES DE INTERÉS