La gran carrera de los datos: ¿tiene sentido?

Actualidad13/05/2024

Sources-of-data-to-train-ChatGPT3-1024x968

La mejor lectura del fin de semana puede ser este artículo en The New York Times, «How tech giants cut corners to harvest data for AI«, y si quieres completarlo, este otro del mismo medio de hace alrededor de un mes, «Four takeaways on the race to amass data for AI«, del que he tomado el diagrama que acompaña.

Con las big tech rivalizando en una especie de «fiebre del oro» o «carrera por el lejano Oeste» para obtener todos los datos que puedan a una velocidad increíble, lo interesante puede ser, cada vez más, pensar hasta qué punto eso supone una privatización de los datos, si realmente tiene sentido que la competencia nos lleve a tener modelos que compiten entre sí por el acceso a la información de entrenamiento, y si no parece lógico plantearse que todo el esfuerzo de esas big tech no acabe confluyendo en modelos que compiten para producir resultados cada vez más sofisticados, pero entrenándose sobre bases de datos libremente disponibles en modo de código abierto.

El diagrama que acompaña me parece espectacular a la hora de entender las dimensiones a las que hacemos referencia: toda la Wikipedia, con todos sus millones de artículos, supone simplemente el minúsculo rectángulo de la edquina superior derecha. El grueso del conjunto es la base de datos compilada por Common Crawl, una organización sin ánimo de lucro que lleva desde 2008 archivando contenido de la web con actualizaciones mensuales. Contiene en torno a un 46% de información en inglés, seguida de ruso (6.03%), alemán (5.4%), japonés (5.15%), chino (5.07%), español (4.53%), francés (4.39%) y muchos otros ya todos por debajo del 3%. De hecho, la idea o crítica fácil de que el desarrollo de modelos en lenguajes autóctonos supone algún tipo de «chauvinismo» o de «provincianismo» de los políticos de turno es infundada e incorrecta: es muy importante desarrollar esos modelos, porque la relación de coste de los tokens se establece fundamentalmente a partir de la información de entrenamiento, y trabajar desde otros idiomas sobre modelos entrenados fundamentalmente en inglés es algo que no tiene ningún sentido económico y únicamente consolida desventajas de cara al futuro.

A partir de aquí, cabe plantearse cuál es el futuro. Más allá de los «trucos y subterfugios» que describen los artículos, como capturar los textos de las locuciones de los vídeos de YouTube, adquirir editoriales para contar con sus nuevas publicaciones, etc., hay que pensar en qué momento las necesidades de entrenamiento de los algoritmos empiezan a convertirse en una asíntota, o si realmente es preciso semejante volumen de datos para ello. Después de todo, un cerebro humano no necesita ni mucho menos tal cantidad de datos para desarrollar un aprendizaje que, por tanto, se convierte en infinitamente más eficiente. ¿Estamos en una etapa previa en la que nos vemos forzados a invertir auténticas barbaridades para obtener volúmenes masivos de datos para terminar entrenando algoritmos ineficientes?

Mientras las big tech se plantean la frontera de los datos sintéticos, de pedir a algoritmos que generen datos para que se entrenen otros algoritmos, creo que es buen momento para pensar hasta qué punto conviene que esos algoritmos sigan compitiendo entre sí en esa dimensión. Obviamente, la competencia es buena, y eso lo saben hasta los no capitalistas. Pero esa competencia puede establecerse sobre muchas variables, no necesariamente jugando a obtener acuerdos en exclusiva que garanticen un suministro de datos determinado mientras con ello se logra privar a un competidor del acceso a ellos. ¿Hay alguna ventaja para la sociedad en esa apropiación y privatización de los datos?

¿De verdad deben ser los datos como el petróleo del siglo XXI, como la «fiebre del oro» o como la carrera por obtener terrenos en el Lejano Oeste? Recordemos que el petróleo se quema (con asquerosos efectos, por cierto), mientras que los datos no. El oro que encuentras tú ya no lo encuentra otro, y los terrenos que delimitas y reclamas para ti, ya no los reclama otro. Pero… ¿y los datos? ¿Hay alguna ventaja o algún interés en que nos planteemos tratar su suministro de la misma manera?

Nota:https://www.enriquedans.com/

Te puede interesar

La gran carrera de los datos: ¿tiene sentido?

Un estudio revela la brecha entre la seguridad real y el miedo que percibe la Generación Z

Decretaron asueto por Nochebuena y Fin de Año para los empleados públicos: cómo funcionará el Estado durante las Fiestas

¿Ya no es necesario aprender idiomas?: así funcionan los auriculares de Apple que traducen en tiempo real

Mi participación en la selección de pensadores tecnológicos de El País

Quién es el próximo outsider de la política argentina

Un pacto para vivir

Un análisis científico de 20.000 canciones revela cómo cambiaron las letras en los últimos 50 años

Peor manejás, más pagás: crearon un sistema de autoscoring con Inteligencia Artificial para compañías de seguro

Quién es el próximo outsider de la política argentina

Se disputó el 38° Seven del Fin del Mundo

Conflicto entre pilotos de automovilismo: Investigan las autorías de lesiones y daños materiales

Despiste de una moto terminó con una persona fallecida

Realizaron una inspección ocular en la vivienda donde ocurrió el crimen de Alberto Scariot

Incendio sin lesionados en un galpón de Ushuaia

Un análisis científico de 20.000 canciones revela cómo cambiaron las letras en los últimos 50 años

Paro de controladores aéreos: fechas de las medidas, vuelos nacionales e internacionales afectados

Patricia Bullrich no se puede despegar de su pasado

Bullrich fijó un plazo para sancionar la reforma laboral: “Antes de fin de año”