Athrun Data Intelligence


Hoy nos complace anunciar la disponibilidad común de Autocompletar del Asistente de Databricks en todas las plataformas en la aglomeración. Assistant Autocompletar proporciona sugerencias de código personalizadas basadas en IA a medida que escribe, tanto para Python como para SQL.

gif1

Asistente de autocompletar

Directamente integradas en el cuaderno, el editor SQL y los paneles AI/BI, las sugerencias de Autocompletar del Asistente se combinan perfectamente con su flujo de avance, lo que le permite mantenerse concentrado en su tarea coetáneo.

2

“Aunque en común soy un poco escéptico sobre GenAI, descubrí que la útil Autocompletar del Asistente de Databricks es uno de los pocos casos de uso en realidad excelentes para esta tecnología. Por lo común, es lo suficientemente rápido y preciso como para ahorrarme una cantidad significativa de pulsaciones de teclas, lo que me permite concentrarme más plenamente en la tarea de razonamiento que tengo entre manos en punto de escribir. Por otra parte, ha reemplazado casi por completo mis viajes habituales a Internet en exploración de una sintaxis API similar a un texto standard (por ejemplo, anotaciones en la trama, etc.)”. – Jonas Powell, irrefutable de datos del personal, Rivian

Estamos entusiasmados de aceptar estas mejoras de productividad a todos. En las próximas semanas, habilitaremos la función Autocompletar del Asistente de Databricks en áreas de trabajo elegibles..

Un sistema de IA compuesto

La IA compuesta se refiere a sistemas de IA que combinan múltiples componentes que interactúan para afrontar tareas complejas, en punto de necesitar de un único maniquí monolítico. Estos sistemas integran varios modelos, herramientas y pasos de procesamiento de IA para formar un flujo de trabajo holístico que es más flexible, eficaz y adaptable que los enfoques tradicionales de un solo maniquí.

Autocompletar asistente es un sistema de IA compuesto que aprovecha de forma inteligente el contexto de celdas de código relacionadas, consultas relevantes y cuadernos utilizando tablas similares, metadatos de Unity Catalog y variables de DataFrame para crear sugerencias precisas y contextuales a medida que escribe.

Nuestro equipo de IA aplicada utilizó los marcos de Databricks y Mosaic AI para ajustar, evaluar y servir el maniquí, centrándose en sugerencias precisas específicas del dominio.

Utilización de metadatos de tablas y consultas recientes

Considere un proscenio en el que ha creado una tabla de métricas simple con las siguientes columnas:

  • data (STRING)
  • recuento_clics (INT)
  • mostrar_cuenta (INT)

La función Autocompletar del Asistente facilita el cálculo de la tasa de clics (CTR) sin pobreza de recapacitar manualmente la estructura de la tabla. El sistema utiliza reproducción aumentada de recuperación (RAG) para proporcionar información contextual sobre las tablas con las que está trabajando, como sus definiciones de columnas y patrones de consulta recientes.

Por ejemplo, con metadatos de tablas, se sugeriría una consulta simple como esta:

5

Si anteriormente calculó la tasa de clics utilizando un porcentaje, el maniquí puede sugerir lo próximo:

do

El uso de RAG para contexto adicional mantiene las respuestas fundamentadas y ayuda a avisar alucinaciones maniquí.

Aprovechando las variables de DataFrame en tiempo de ejecución

Analicemos la misma tabla usando PySpark en punto de SQL. Al utilizar variables de tiempo de ejecución, detecta el esquema del DataFrame y sabe qué columnas están disponibles.

Por ejemplo, es posible que desee calcular el recuento promedio de clics por día:

3

En este caso, el sistema utiliza el esquema de tiempo de ejecución para ofrecer sugerencias adaptadas al DataFrame.

Ajuste fino específico del dominio

Si proporcionadamente muchos LLM de finalización de código se destacan en tareas generales de codificación, ajustamos específicamente el maniquí para el ecosistema de Databricks. Esto implicó un entrenamiento previo continuo del maniquí en código SQL/portátil arreglado públicamente para centrarse en patrones comunes en ingeniería de datos, estudio y flujos de trabajo de IA. Al hacerlo, hemos creado un maniquí que comprende los matices de trabajar con big data en un entorno distribuido.

Evaluación de modelos basada en puntos de narración

Para avalar la calidad y relevancia de nuestras sugerencias, evaluamos el maniquí utilizando un conjunto de puntos de narración de codificación de uso popular, como evaluación humana, DS-1000y Araña. Sin secuestro, si proporcionadamente estos puntos de narración son avíos para evaluar las capacidades generales de codificación y algunos conocimientos del dominio, no capturan todas las capacidades y la sintaxis de Databricks. Para solucionar esto, desarrollamos una prueba comparativa personalizada con cientos de casos de prueba que cubren algunos de los paquetes y lenguajes más utilizados en Databricks. Este ámbito de evaluación va más allá de las métricas de codificación generales para evaluar el rendimiento en tareas específicas de Databricks, así como otros problemas de calidad que encontramos al usar el producto.

Si está interesado en obtener más información sobre cómo evaluamos el maniquí, consulte nuestra publicación nuevo sobre la evaluación de LLM para tareas de codificación especializadas.

Para conocer cuándo (no) crear

A menudo hay casos en los que el contexto es suficiente tal cual, por lo que no es necesario proporcionar una sugerencia de código. Como se muestra en los siguientes ejemplos de una traducción aludido de nuestro maniquí de codificación, cuando las consultas ya están completas, cualquier finalización adicional generada por el maniquí podría resultar inútil o distraer.

Código auténtico (con el cursor representado por )

Código completo (código sugerido en negrita, de un maniquí aludido)

– obtenga el porcentaje de clics por día en todos los tiempos

SELECCIONAR data, click_count*100.0/show_count como click_pct

de main.product_metrics.client_side_metrics

– obtenga el porcentaje de clics por día en todos los tiempos

SELECCIONAR data, cuenta_click, muestra_cuenta, cuenta_click*100.0/show_count como click_pct

de main.product_metrics.client_side_metrics

– obtenga el porcentaje de clics por día en todos los tiempos

SELECCIONAR data, número de clics*100.0/show_count como click_pct

de main.product_metrics.client_side_metrics

– obtenga el porcentaje de clics por día en todos los tiempos

SELECCIONAR data, número de clics*100.0/show_count como click_pct

de main.product_metrics.client_side_metrics.0/show_count como click_pct

de main.product_metrics.client_side_metrics

En todos los ejemplos anteriores, la respuesta ideal es en verdad una sujeción vacía. Si proporcionadamente el maniquí a veces generaba una sujeción vacía, casos como los anteriores eran lo suficientemente comunes como para ser una molestia. El problema aquí es que el maniquí debe conocer cuándo inhibirse, es afirmar, no producir ningún resultado y devolver una finalización vacía.

Para conquistar esto, introdujimos un truco de ajuste, donde forzamos que entre el 5 y el 10 % de los casos consistieran en un tramo medio infructifero en una ubicación aleatoria del código. La idea era que esto le enseñaría al maniquí a cachear cuándo el código está completo y no es necesaria una sugerencia. Este enfoque demostró ser muy eficaz. Para los casos de prueba de respuesta vacía de SQL, la tasa de aprobación pasó del 60 % al 97 % sin afectar el rendimiento de otras pruebas comparativas de codificación. Más importante aún, una vez que implementamos el maniquí en producción, hubo un claro aumento en la tasa de éxito de sugerencias de código. Esta restablecimiento de ajuste se tradujo directamente en mejoras de calidad notables para los usuarios.

Servicio de modelos rápido pero rentable

Dada la naturaleza en tiempo existente de la finalización del código, la entrega eficaz del maniquí es crucial. aprovechamos Maniquí optimizado acelerado por GPU de Databricks que presta servicio a puntos finales para conquistar inferencias de devaluación latencia mientras se controla el costo de uso de la GPU. Esta configuración nos permite ofrecer sugerencias rápidamente, lo que garantiza una experiencia de codificación fluida y receptiva.

Assistant Autocompletar está diseñado para las micción de su empresa

Como empresa de datos e IA centrada en ayudar a los clientes empresariales a extraer valía de sus datos para resolver los problemas más difíciles del mundo, creemos firmemente que tanto las empresas que desarrollan la tecnología como las empresas y organizaciones que la utilizan deben realizar de forma responsable en la forma en que se implementa la IA.

Diseñamos Assistant Autocomplete desde el primer día para satisfacer las demandas de las cargas de trabajo empresariales. Assistant Autocomplete respeta la gobernanza de Unity Catalog y cumple con los estándares de cumplimiento para ciertas industrias en gran medida reguladas. Asistente Autocompletar respetos Restricciones geográficas y se puede utilizar en espacios de trabajo que se ocupan del procesamiento de datos de información médica protegida (PHI). Sus datos nunca se comparten entre clientes y nunca se utilizan para entrenar modelos. Para obtener información más detallada, consulte Confianza y seguridad de Databricks.

Comienzo a la función Autocompletar del Asistente de Databricks

La función Autocompletar del Asistente de Databricks está arreglado en todas las nubes sin costo adicional y se habilitará en las áreas de trabajo en las próximas semanas. Los usuarios pueden habilitar o deshabilitar la función en la configuración del desarrollador:

  1. Navegar a Ajustes.
  2. Bajo Revelador, palanca Autocompletar asistente involuntario.
  3. A medida que escribe, aparecen sugerencias automáticamente. Prensa Pestaña para aceptar una sugerencia. Para activar manualmente una sugerencia, presione Opción + Mayús + Espacio (en macOS) o Control + Mayús + Espacio (en Windows). Puede activar manualmente una sugerencia incluso si las sugerencias automáticas están desactivadas.

Para obtener más información sobre cómo comenzar y una inventario de casos de uso, consulte el página de documentación y publicación de blog de perspectiva previa pública.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *