Los transformadores ahora pueden predecir las células de hoja de cálculo sin ajustar: los investigadores introducen TABPFN capacitado en 100 millones de conjuntos de datos sintéticos

Los datos tabulares se utilizan ampliamente en varios campos, incluidas la investigación científica, las finanzas y la atención médica. Tradicionalmente, estudios forzoso Se han preferido modelos como los árboles de intrepidez aumentados de gradiente para analizar datos tabulares correcto a su efectividad en el manejo de conjuntos de datos heterogéneos y estructurados. A pesar de su popularidad, estos métodos tienen limitaciones notables, particularmente en términos de rendimiento de las distribuciones de datos invisibles, transferir el conocimiento aprendido entre conjuntos de datos y desafíos de integración con modelos basados en redes neuronales correcto a su naturaleza no diferenciable.

Investigadores de la Universidad de Friburgo, el Instituto de Lozanía de Berlín, Laboratorios anteriores y Ellis Institute han introducido un enfoque novedoso llamado Network conforme de datos anteriores Tabular (TABPFN). TABPFN aprovecha las arquitecturas del transformador para enfrentarse las limitaciones comunes asociadas con los métodos de datos tabulares tradicionales. El maniquí supera significativamente los árboles de intrepidez impulsados por el gradiente en tareas de clasificación y regresión, especialmente en conjuntos de datos con menos de 10,000 muestras. En particular, TABPFN demuestra una eficiencia extraordinario, logrando mejores resultados en solo unos segundos en comparación con varias horas de ajuste extenso de hiperparameter requerido por los modelos de árboles a cojín de conjunto.

TABPFN utiliza el estudios en contexto (ICL), una técnica inicialmente introducida por modelos de idiomas grandes, donde el maniquí aprende a resolver tareas basadas en ejemplos contextuales proporcionados durante la inferencia. Los investigadores adaptaron este concepto específicamente para los datos tabulares mediante la capacitación previa a la TABPFN en millones de conjuntos de datos generados sintéticamente. Este método de entrenamiento permite que el maniquí aprenda implícitamente un amplio espectro de algoritmos predictivos, reduciendo la menester de una extensa capacitación específica del conjunto de datos. A diferencia de los modelos tradicionales de estudios profundo, TABPFN procesa conjuntos de datos completos simultáneamente durante un solo avance de la red, lo que progreso sustancialmente la eficiencia computacional.

La cimentación de TABPFN está diseñada específicamente para datos tabulares, empleando un mecanismo de atención bidimensional adaptado para utilizar de modo efectiva la estructura inherente de las tablas. Este mecanismo permite que cada celda de datos interactúe con otras a través de filas y columnas, administrando efectivamente diferentes tipos y condiciones de datos, como variables categóricas, datos faltantes y títulos atípicos. Encima, TABPFN optimiza la eficiencia computacional al juntar en personalidad de representaciones intermedias del conjunto de capacitación, acelerando significativamente la inferencia en las muestras de prueba posteriores.

Las evaluaciones empíricas destacan las mejoras sustanciales de TABPFN sobre los modelos establecidos. A través de varios conjuntos de datos de remisión, incluidos AutomL Benchmark y OpenML-CTR23, TABPFN logra constantemente un viejo rendimiento que los modelos ampliamente utilizados como XGBOost, Catboost y LightGBM. Para los problemas de clasificación, TABPFN mostró ganancias notables en las puntuaciones ROC AUC normalizadas en relación con los métodos de remisión ampliamente ajustados. Del mismo modo, en los contextos de regresión, superó estos enfoques establecidos, mostrando mejores puntajes RMSE normalizados.

La robustez de TABPFN todavía se evaluó ampliamente en todos los conjuntos de datos caracterizados por condiciones desafiantes, como numerosas características irrelevantes, títulos atípicos y datos faltantes sustanciales. A diferencia de los modelos de red neuronales típicos, TABPFN mantuvo un rendimiento constante y estable en estos escenarios desafiantes, lo que demuestra su idoneidad para aplicaciones prácticas del mundo actual.

Más allá de sus fortalezas predictivas, TABPFN todavía exhibe capacidades fundamentales típicas de los modelos de cojín. Genera efectivamente los conjuntos de datos tabulares sintéticos realistas y estima con precisión las distribuciones de probabilidad de puntos de datos individuales, lo que lo hace adecuado para tareas como la detección de anomalías y el aumento de datos. Encima, los incrustaciones producidos por TABPFN son significativos y reutilizables, proporcionando un valencia práctico para las tareas aguas debajo, incluida la agrupación e imputación.

En recopilación, el avance de TABPFN significa un avance importante en el modelado de datos tabulares. Al integrar las fortalezas de los modelos basados en transformadores con los requisitos prácticos del descomposición de datos estructurados, TABPFN ofrece una viejo precisión, eficiencia computacional y robustez, lo que puede simplificar mejoras sustanciales en varios dominios científicos y comerciales.

Aquí está el Papel. Encima, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRespolvorear. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 (Regístrese ahora) Conferencia potencial de Minicon sobre AI de Agente: Registro regalado + Certificado de Donación + Evento corto de 4 horas (21 de mayo, 9 am- 1 PM PST) + Hands on Workshop

Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble porción en IIT Madras, le apasiona aplicar tecnología e IA para enfrentarse los desafíos del mundo actual. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida actual.

Etiquetado ahora, ajustar, cálculo, capacitado, células, conjuntos, datos, Hoja, introducen, investigadores, las, los, millones, predecir, pueden, sin, sintéticos, TABPFN, transformadores

Los transformadores ahora pueden predecir las células de hoja de cálculo sin ajustar: los investigadores introducen TABPFN capacitado en 100 millones de conjuntos de datos sintéticos

Deja una respuesta Cancelar la respuesta

COLOMBIA

ENLACES DE INTERÉS