FineWeb-C: un conjunto de datos creado por la comunidad para mejorar los modelos lingüísticos en TODOS los idiomas

FineWeb2 avanza significativamente los conjuntos de datos de preentrenamiento multilingües, cubriendo más de 1000 idiomas con datos de adhesión calidad. El conjunto de datos utiliza aproximadamente 8 terabytes de datos de texto comprimido y contiene casi 3 billones de palabras, obtenidas de 96 instantáneas de CommonCrawl entre 2013 y 2024. Procesado utilizando la biblioteca datatrove, […]
Estudio: A menudo desidia transparencia en los conjuntos de datos utilizados para entrenar modelos lingüísticos de gran tamaño | MIT News

Para entrenar modelos de jerga grandes y más potentes, los investigadores utilizan grandes colecciones de conjuntos de datos que combinan datos diversos de miles de fuentes web. Pero a medida que estos conjuntos de datos se combinan y recombinan en múltiples colecciones, a menudo se pierde o se confunde en el proceso información importante sobre […]