La gran carrera de los datos: ¿tiene sentido?

Actualidad 13 de mayo de 2024
Sources-of-data-to-train-ChatGPT3-1024x968

La mejor lectura del fin de semana puede ser este artículo en The New York Times, «How tech giants cut corners to harvest data for AI«, y si quieres completarlo, este otro del mismo medio de hace alrededor de un mes, «Four takeaways on the race to amass data for AI«, del que he tomado el diagrama que acompaña.

Con las big tech rivalizando en una especie de «fiebre del oro» o «carrera por el lejano Oeste» para obtener todos los datos que puedan a una velocidad increíble, lo interesante puede ser, cada vez más, pensar hasta qué punto eso supone una privatización de los datos, si realmente tiene sentido que la competencia nos lleve a tener modelos que compiten entre sí por el acceso a la información de entrenamiento, y si no parece lógico plantearse que todo el esfuerzo de esas big tech no acabe confluyendo en modelos que compiten para producir resultados cada vez más sofisticados, pero entrenándose sobre bases de datos libremente disponibles en modo de código abierto.

El diagrama que acompaña me parece espectacular a la hora de entender las dimensiones a las que hacemos referencia: toda la Wikipedia, con todos sus millones de artículos, supone simplemente el minúsculo rectángulo de la edquina superior derecha. El grueso del conjunto es la base de datos compilada por Common Crawl, una organización sin ánimo de lucro que lleva desde 2008 archivando contenido de la web con actualizaciones mensuales. Contiene en torno a un 46% de información en inglés, seguida de ruso (6.03%), alemán (5.4%), japonés (5.15%), chino (5.07%), español (4.53%), francés (4.39%) y muchos otros ya todos por debajo del 3%. De hecho, la idea o crítica fácil de que el desarrollo de modelos en lenguajes autóctonos supone algún tipo de «chauvinismo» o de «provincianismo» de los políticos de turno es infundada e incorrecta: es muy importante desarrollar esos modelos, porque la relación de coste de los tokens se establece fundamentalmente a partir de la información de entrenamiento, y trabajar desde otros idiomas sobre modelos entrenados fundamentalmente en inglés es algo que no tiene ningún sentido económico y únicamente consolida desventajas de cara al futuro.

A partir de aquí, cabe plantearse cuál es el futuro. Más allá de los «trucos y subterfugios» que describen los artículos, como capturar los textos de las locuciones de los vídeos de YouTube, adquirir editoriales para contar con sus nuevas publicaciones, etc., hay que pensar en qué momento las necesidades de entrenamiento de los algoritmos empiezan a convertirse en una asíntota, o si realmente es preciso semejante volumen de datos para ello. Después de todo, un cerebro humano no necesita ni mucho menos tal cantidad de datos para desarrollar un aprendizaje que, por tanto, se convierte en infinitamente más eficiente. ¿Estamos en una etapa previa en la que nos vemos forzados a invertir auténticas barbaridades para obtener volúmenes masivos de datos para terminar entrenando algoritmos ineficientes?

Mientras las big tech se plantean la frontera de los datos sintéticos, de pedir a algoritmos que generen datos para que se entrenen otros algoritmos, creo que es buen momento para pensar hasta qué punto conviene que esos algoritmos sigan compitiendo entre sí en esa dimensión. Obviamente, la competencia es buena, y eso lo saben hasta los no capitalistas. Pero esa competencia puede establecerse sobre muchas variables, no necesariamente jugando a obtener acuerdos en exclusiva que garanticen un suministro de datos determinado mientras con ello se logra privar a un competidor del acceso a ellos. ¿Hay alguna ventaja para la sociedad en esa apropiación y privatización de los datos?

¿De verdad deben ser los datos como el petróleo del siglo XXI, como la «fiebre del oro» o como la carrera por obtener terrenos en el Lejano Oeste? Recordemos que el petróleo se quema (con asquerosos efectos, por cierto), mientras que los datos no. El oro que encuentras tú ya no lo encuentra otro, y los terrenos que delimitas y reclamas para ti, ya no los reclama otro. Pero… ¿y los datos? ¿Hay alguna ventaja o algún interés en que nos planteemos tratar su suministro de la misma manera?

Nota:https://www.enriquedans.com/

Te puede interesar

Ultimas noticias

Suscríbete al newsletter para recibir periódicamente las novedades en tu email

                  02_AFARTE_Banner-300x250

--

                

Te puede interesar