En febrero de 2024, Reddit llegó a un acuerdo de $ 60 millones con Google para permitir que el coloso de la búsqueda use datos en la plataforma para entrenar sus modelos de inteligencia industrial. Notablemente ausentes de las discusiones estaban los usuarios de Reddit, cuyos datos se vendían.
El acuerdo reflejó la verdad de la Internet moderna: las compañías de gran tecnología poseen prácticamente todos nuestros datos en crencha y decidirán qué hacer con esos datos. Como era de esperar, muchas plataformas monetizan sus datos, y la forma de viejo crecimiento de lograrlo hoy es venderlo a compañías de IA, que son compañías tecnológicas masivas que usan los datos para capacitar a modelos cada vez más poderosos.
La plataforma descentralizada Vana, que comenzó como un tesina de clase en el MIT, tiene la ocupación de devolver el poder a los usuarios. La compañía ha creado una red totalmente propiedad del sucesor que permite a las personas cargar sus datos y guiar cómo se usan. Los desarrolladores de IA pueden presentar a los usuarios de ideas para nuevos modelos, y si los usuarios aceptan contribuir con sus datos para la capacitación, obtienen una propiedad proporcional en los modelos.
La idea es dar a todos una billete en los sistemas de inteligencia industrial que dará forma cada vez más a nuestra sociedad y al mismo tiempo desbloquear nuevos grupos de datos para avanzar en la tecnología.
«Estos datos son necesarios para crear mejores sistemas de IA», dice la cofundadora de VANA, Anna Kazlauskas ’19. «Hemos creado un sistema descentralizado para obtener mejores datos, que se encuentran interiormente de las grandes empresas tecnológicas hoy en día, al tiempo que permite a los usuarios retener la máxima propiedad».
De la patrimonio a la condena de bloques
Muchos estudiantes de secundaria tienen fotos de estrellas pop o atletas en las paredes de su habitación. Kazlauskas tenía una foto de la ex secretaria del Hacienda de los Estados Unidos, Janet Yellen.
Kazlauskas llegó a MIT seguramente de convertirse en economista, pero terminó siendo una de las cinco estudiantes para unirse al MIT Bitcoin Club en 2015, y esa experiencia la llevó al mundo de las cadenas de bloques y la criptomoneda.
Desde su dormitorio en MacGregor House, comenzó a extraer el Ethereum de la criptomoneda. Incluso ocasionalmente recorría los contenedores de basura del campus en indagación de chips de computadora desechados.
«Me interesó en todo lo relacionado con la informática y las redes», dice Kazlauskas. «Eso involucró, desde una perspectiva de blockchain, sistemas distribuidos y cómo pueden cambiar el poder crematístico a las personas, así como la inteligencia industrial y la patrimonio».
Kazlauskas conoció a Art Abal, quien luego asistía a la Universidad de Harvard, en las antiguas empresas emergentes de la clase de laboratorio de medios, y la pareja decidió trabajar en nuevas formas de obtener datos para capacitar a los sistemas de IA.
«Nuestra pregunta era: ¿cómo podría tener una gran cantidad de personas que contribuyen a estos sistemas de IA utilizando más una red distribuida?» Kazlauskas recuerda.
Kazlauskas y Abal estaban tratando de atracar el status quo, donde la mayoría de los modelos están capacitados raspando datos públicos en Internet. Las grandes compañías tecnológicas a menudo incluso compran grandes conjuntos de datos de otras compañías.
El enfoque de los fundadores evolucionó a lo amplio de los primaveras y fue informado por la experiencia de Kazlauskas trabajando en la compañía financiera de blockchain Celo luego de la medición. Pero Kazlauskas acredita su tiempo en el MIT por ayudarla a pensar en estos problemas, y el instructor de empresas emergentes, Ramesh Raskar, todavía ayuda a Vana a pensar en las preguntas de investigación de IA hoy.
«Fue ingenioso tener una oportunidad abierta para construir, piratear y explorar», dice Kazlauskas. «Creo que el ethos en el MIT es positivamente importante. Se comercio solo de construir cosas, ver lo que funciona y continuar iterando».
Hoy, VANA aprovecha una ley poco conocida que permite a los usuarios de la mayoría de las grandes plataformas tecnológicas exportar sus datos directamente. Los usuarios pueden cargar esa información en billeteras digitales cifradas en Vana y desembolsarla para entrenar modelos como mejor les parezca.
Los ingenieros de IA pueden sugerir ideas para nuevos modelos de código campechano, y las personas pueden agrupar sus datos para ayudar a capacitar al maniquí. En el mundo de blockchain, los grupos de datos se denominan DATA DAOS, que representa una estructura autónoma descentralizada. Los datos incluso se pueden utilizar para crear modelos y agentes de IA personalizados.
En VANA, los datos se utilizan de una modo que preserva la privacidad del sucesor porque el sistema no expone información identificable. Una vez que se crea el maniquí, los usuarios mantienen la propiedad para que cada vez que se usa, se recompensen proporcionalmente en función de cuánto sus datos ayudaron a capacitarlo.
«Desde la perspectiva de un desarrollador, ahora puede construir estas aplicaciones de vitalidad hiperpersonalizadas que tienen en cuenta exactamente lo que comió, cómo durmió, cómo hace deporte», dice Kazlauskas. «Esas aplicaciones no son posibles hoy conveniente a esos jardines amurallados de las grandes empresas tecnológicas».
AI de crowdsourced, propiedad de usuarios
El año pasado, un ingeniero de educación forzoso propuso usar datos de sucesor de VANA para capacitar un maniquí de IA que podría difundir publicaciones Reddit. Más de 140,000 usuarios de VANA contribuyeron con sus datos de Reddit, que contenían publicaciones, comentarios, mensajes y más. Los usuarios decidieron los términos en los que se podía utilizar el maniquí, y mantuvieron la propiedad del maniquí luego de su creación.
VANA ha gestor iniciativas similares con datos contribuidos al sucesor de la plataforma de redes sociales X; datos de sueño de fuentes como los anillos de Oura; y más. Todavía hay colaboraciones que combinan grupos de datos para crear aplicaciones de IA más amplias.
«Digamos que los usuarios tienen datos de Spotify, datos Reddit y datos de moda», Kazlauskas explica. «Por lo común, Spotify no va a colaborar con ese tipo de empresas, y en verdad hay una regulación contra eso. Pero los usuarios pueden hacerlo si otorgan acercamiento, por lo que estos conjuntos de datos multiplataforma pueden estar de moda para crear modelos positivamente poderosos».
Vana tiene más de 1 millón de usuarios y más de 20 DAO de datos en vivo. Los usuarios han propuesto más de 300 grupos de datos adicionales en el sistema de Vana, y Kazlauskas dice que muchos entrarán en producción este año.
«Creo que hay muchas promesas en modelos de IA generalizados, medicina personalizada y nuevas aplicaciones de consumo, porque es difícil combinar todos esos datos o obtener acercamiento a él en primer extensión», dice Kazlauskas.
Los grupos de datos están permitiendo a grupos de usuarios ganar poco con lo que incluso las empresas tecnológicas más poderosas luchan hoy.
«Hoy, las grandes compañías tecnológicas han construido estos fantasmas de datos, por lo que los mejores conjuntos de datos no están disponibles para nadie», dice Kazlauskas. «Es un problema de obra colectiva, donde mis datos por sí solo no son tan valiosos, pero un corro de datos con decenas de miles o millones de personas es positivamente valiosa. Vana permite que esos grupos se construyan. Es una rendimiento en beneficio: los usuarios se benefician del aumento de la IA porque son propietarios de los modelos. Entonces no terminan en escenarios en el que no tiene una sola compañía que controla una compañía All-Powerful.