Yandex ha hecho recientemente una contribución significativa a la comunidad de sistemas de recomendación al liberar Yambdael conjunto de datos públicos más holgado del mundo para la investigación y el incremento del sistema de recomendación. Este conjunto de datos está diseñado para cerrar la brecha entre la investigación académica y las aplicaciones a escalera de la industria, ofreciendo casi 5 mil millones de eventos de interacción de afortunado anonimizados de Yandex Music, uno de los servicios de transmisión insignia de la compañía con más de 28 millones de usuarios mensuales.
Por qué es importante Yambda: afrontar una brecha crítica de datos en los sistemas de recomendación
Los sistemas de recomendación respaldan las experiencias personalizadas de muchos servicios digitales en la contemporaneidad, desde el comercio electrónico y las redes sociales hasta las plataformas de transmisión. Estos sistemas dependen en gran medida de volúmenes masivos de datos de comportamiento, como clics, me gusta y escuchan, para inferir las preferencias del afortunado y entregar contenido personalizado.
Sin bloqueo, el campo de los sistemas de recomendación se ha quedado a espaldas de otros dominios de IA, como el procesamiento del idioma natural, en gran parte conveniente a la escasez de conjuntos de datos grandes y accesibles. A diferencia de los modelos de idiomas grandes (LLM), que aprenden de fuentes de texto disponibles públicamente, los sistemas de recomendación necesitan datos de comportamiento confidenciales, que son comercialmente valiosos y difíciles de anonimizar. Como resultado, las empresas han guardado tradicionalmente estos datos de cerca, lo que limita el ataque de los investigadores a conjuntos de datos a escalera del mundo verdadero.
Los conjuntos de datos existentes, como el conjunto de datos de la letanía de reproducción de Spotify, los datos del premio de Netflix y los registros de clics de Criteo son demasiado pequeños, carecen de detalles temporales o están mal documentados para desarrollar modelos de recomendación de valor de producción. El extensión de Yandex de Yambda Aborda estos desafíos proporcionando un conjunto de datos extenso de inscripción calidad con un rico conjunto de características y salvaguardas de anonimización.
Lo que contiene Yambda: escalera, riqueza y privacidad
El Yambda El conjunto de datos comprende 4.79 mil millones de interacciones de afortunado anonimizadas recopiladas durante un período de 10 meses. Estos eventos provienen de aproximadamente 1 millón de usuarios que interactúan con casi 9.4 millones de pistas en la música Yandex. El conjunto de datos incluye:
- Interacciones de afortunado: Tanto la feedback implícita (audición) y la feedback explícita (me gusta, disgustos y sus mudanzas).
- Incrustos de audio anónimos: Representaciones vectoriales de pistas derivadas de redes neuronales convolucionales, lo que permite que los modelos aprovechen la similitud de contenido de audio.
- Banderas de interacción orgánica: Una bandera «IS_organic» indica si los usuarios descubrieron una pista de forma independiente o mediante recomendaciones, facilitando el observación de comportamiento.
- Marcas de tiempo precisas: Cada evento está traumatizado para preservar el pedido temporal, crucial para modelar el comportamiento secuencial del afortunado.
Todos los identificadores de usuarios y de seguimiento se anonimizan utilizando ID numéricos para cumplir con los estándares de privacidad, lo que garantiza que no se expone información de identificación personal.
El conjunto de datos se proporciona en formato Apache Parquet, que está optimizado para marcos de procesamiento de big data como Apache Spark y Hadoop, y asimismo es compatible con bibliotecas analíticas como Pandas y Polares. Esto hace que Yambda sea accesible para investigadores y desarrolladores que trabajan en diversos entornos.
Método de evaluación: división temporal universal
Una innovación esencia en el conjunto de datos de Yandex es la apadrinamiento de un División temporal universal (GTS) Logística de evaluación. En la investigación típica del sistema de recomendación, el método de abuso ampliamente utilizado elimina la última interacción de cada afortunado para las pruebas. Sin bloqueo, este enfoque interrumpe la continuidad temporal de las interacciones del afortunado, creando condiciones de entrenamiento poco realistas.
GTS, por otro flanco, divide los datos en función de las marcas de tiempo, preservando toda la secuencia de eventos. Este enfoque imita los escenarios de recomendación del mundo verdadero más de cerca porque evita que cualquier datos futuros se filtre en el entrenamiento y permite que los modelos se prueben en interacciones verdaderamente invisibles y cronológicamente posteriores.
Esta evaluación de consumo temporal es esencial para los algoritmos de evaluación comparativa bajo limitaciones realistas y comprender su efectividad destreza.
Modelos de relato y métricas incluidos
Para tolerar la evaluación comparativa y acelerar la innovación, Yandex proporciona modelos de recomendación de relato implementados en el conjunto de datos, que incluye:
- MostPop: Un maniquí basado en la popularidad que recomienda los artículos más populares.
- Decaypop: Un maniquí de popularidad de tiempo de tiempo.
- Itemknn: Un método de filtrado colaborativo basado en el vecindario.
- IALS: Factorización de matriz de mínimos cuadrados alternos implícitos.
- BPR: Ranking personalizado bayesiano, un método de clasificación por pares.
- Sansa y Sasrec: Los modelos conscientes de la secuencia aprovechan los mecanismos de autoatensión.
Estas líneas de cojín se evalúan utilizando métricas de recomendación típico como:
- Ndcg@k (rendimiento acumulativa con descuento normalizada): Medidas Calidad de clasificación que enfatiza la posición de los medios relevantes.
- Recuerde@K: Evalúa la fracción de medios relevantes recuperados.
- Cobertura@k: Indica la variedad de recomendaciones en todo el catálogo.
Proporcionar estos puntos de relato ayuda a los investigadores a evaluar rápidamente el rendimiento de los nuevos algoritmos en relación con los métodos establecidos.
Aplicabilidad amplia más allá de la transmisión de música
Mientras que el conjunto de datos se origina en un servicio de transmisión de música, su valencia se extiende mucho más allá de ese dominio. Los tipos de interacción, la dinámica del comportamiento del afortunado y la gran escalera hacen que Yambda sea un punto de relato universal para sistemas de recomendación en sectores como el comercio electrónico, las plataformas de video y las redes sociales. Los algoritmos validados en este conjunto de datos se pueden internacionalizar o adaptarse a varias tareas de recomendación.
Beneficios para diferentes partes interesadas
- Corporación: Permite pruebas rigurosas de teorías y nuevos algoritmos a una escalera relevante de la industria.
- Startups y SMB: Ofrece un solicitud comparable a lo que poseen los gigantes tecnológicos, nivelando el campo de entretenimiento y acelerando el incremento de motores de recomendación avanzados.
- Usuarios finales: Se beneficia indirectamente de los algoritmos de recomendación más inteligentes que mejoran el descubrimiento de contenido, reducen el tiempo de búsqueda y aumentan el compromiso.
My Wave: el sistema de recomendación personalizado de Yandex
Yandex Music aprovecha un sistema de recomendación patentado llamado Mi olaque incorpora redes neuronales profundas e IA para personalizar sugerencias musicales. Mi oleada analiza miles de factores que incluyen:
- Secuencias de interacción de afortunado e historial de recital.
- Preferencias personalizables como el estado de humor y el idioma.
- Descomposición musical en tiempo verdadero de espectrogramas, ritmo, tono vocal, rangos de frecuencia y géneros.
Este sistema se adapta dinámicamente a los gustos individuales al identificar similitudes de audio y predecir las preferencias, lo que demuestra el tipo de tubería de recomendación compleja que se beneficia de conjuntos de datos a gran escalera como Yambda.
Asegurar la privacidad y el uso ético
El extensión de Yambda Subraya la importancia de la privacidad en la investigación del sistema de recomendación. Yandex anonimiza todos los datos con identificaciones numéricas y omite información de identificación personal. El conjunto de datos contiene solo señales de interacción sin revelar identidades exactas del afortunado o atributos confidenciales.
Este invariabilidad entre la transigencia y la privacidad permite una investigación sólida al tiempo que protege los datos individuales del afortunado, una consideración crítica para el avance ético de las tecnologías de IA.
Acercamiento y versiones
Yandex ofrece el conjunto de datos YAMBDA en tres tamaños para acomodar diferentes capacidades de investigación y computación:
- Traducción completa: ~ 5 mil millones de eventos.
- Traducción media: ~ 500 millones de eventos.
- Traducción pequeña: ~ 50 millones de eventos.
Todas las versiones son accesibles a través de Cara abrazadauna plataforma popular para encajar conjuntos de datos y modelos de enseñanza espontáneo, lo que permite una sencillo integración en los flujos de trabajo de investigación.
Conclusión
El extensión de Yandex del Yambda El conjunto de datos marca un momento fundamental en la investigación del sistema de recomendación. Al proporcionar una escalera sin precedentes de datos de interacción anonimizados combinados con evaluación de consumo temporal y líneas de cojín, establece un nuevo típico para la evaluación comparativa y la velocidad de la innovación. Los investigadores, las nuevas empresas y las empresas ahora pueden explorar y desarrollar sistemas de recomendación que reflejen mejor el uso del mundo verdadero y brindan una personalización mejorada.
A medida que los sistemas de recomendación continúan influyendo en innumerables experiencias en tangente, los conjuntos de datos como Yambda juegan un papel fundamental para impulsar los límites de lo que puede conseguir la personalización impulsada por IA.
Mira el Yambda Conjunto de datos en la cara abrazada.
Nota: Gracias al equipo de Yandex por el liderazgo/ fortuna de pensamiento para este artículo. El equipo de Yandex ha apoyado y patrocinado este contenido/artículo.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero iluminado, ASIF se compromete a rendir el potencial de la inteligencia industrial para el perfectamente social. Su esfuerzo más fresco es el extensión de una plataforma de medios de inteligencia industrial, MarktechPost, que se destaca por su cobertura profunda de informativo de enseñanza espontáneo y de enseñanza profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el conocido.