Entrenando algoritmos… ¿con qué?

Actualidad21/08/2023

Data-scraping-Gerd-Altmann-Pixabay-768x542

A medida que se incrementa la popularidad de las herramientas basadas en algoritmos generativos, van surgiendo demandas de compañías y de autores que consideran que sus creaciones de diversos tipos han sido utilizadas para el entrenamiento de estas herramientas, y que pretenden algún tipo de negociación que va desde la eliminación de sus datos de los archivos de entrenamiento, hasta las compensaciones económicas.

Varias investigaciones han revelado, por ejemplo, listados de cientos de miles de libros o de infinidad de páginas web y sitios de noticias con los que las compañías han entrenado a sus algoritmos generativos, generalmente amparándose en el derecho al web scraping de todos los datos que se encuentren en formato abierto y a disposición del público en general. Este tipo de técnicas han permitido a las compañías dedicadas al desarrollo de algoritmos generativos hacerse con enormes cantidades de datos que ahora son rutinariamente empleados para su entrenamiento.

La pregunta, ahora, es si efectivamente, los autores de esas creaciones deben ser compensados por ello: si alguien lee un libro e, inspirado por esa lectura, escribe otra cosa o tiene una idea y se hace millonario, ¿a alguien se le ocurre que el autor del libro reciba una compensación por ello? Si un pintor se inspira en las obras de otros, ¿acaso tienen los que le inspiraron derecho a parte de sus ganancias?

Pero más allá de eso… ¿qué es lo que realmente pretendemos? Cuando The New York Times, sin duda uno de los medios de comunicación más prestigiosos del mundo, decide bloquear la posibilidad de que los algoritmos generativos se entrenen con sus páginas… ¿qué está intentando que ocurra? ¿Que le compensen por ello, o que ante su ausencia, los algoritmos se tengan que entrenar con publicaciones mucho menos edificantes y fiables, como el New York Post, RT, The Sun o Bild? ¿Qué queremos? ¿Algoritmos completamente idiotas o tremendamente peligrosos como resultado de haber sido entrenados con noticias de medios amarillos, sensacionalistas o conspiranoicos? Llevo muchísimos años leyendo habitualmente The New York Times, y francamente, saber que un algoritmo generativo puede haber heredado algunos esquemas basados en sus artículos me parece un atributo positivo.

Recientemente supe que el sitio en el que escribo mis artículos en inglés, Medium, está en un listado de páginas que rutinariamente son utilizadas para entrenar algoritmos. En esa lista está desde Wikipedia hasta Coursera, pasando por múltiples journals académicos y muchas otras páginas consideradas razonablemente fiables, y dentro de la categoría de tecnología, que supone en torno a un 15% del total, Medium es una de las fuentes. Esto me permite suponer, dada mi prolífica producción, que muchos algoritmos se entrenan con artículos míos de forma habitual, algo además coherente con el hecho de haberme encontrado desde que empecé a probarlos con el hecho de que todos ellos conocían mi nombre.

¿Debería seriamente pretender alguna compensación por ello? ¿Debo pretenderla, acaso, si un alumno aprende conceptos en mi clase que posteriormente utiliza para montar una compañía y hacerse millonario? ¿O si alguien me lee habitualmente y se inspira para crar algo valioso? Al contrario: si eso ocurriese y, además, tuviese la posibilidad de llegar a saberlo, me sentiría enormemente orgulloso de ello, y me animaría a seguir escribiendo. Es más: si una serie de algoritmos se han entrenado con cosas escritas por mí, lo prefiero con mucho a que se hubiesen entrenado con vaya-uno-a-saber-qué-cosas que se puede encontrar por la red.

De hecho, yo mismo hago uso de la capacidad de los algoritmos para leer artículos alimentándolos previamente con los míos, antes de pedirles, por ejemplo, que lleven a cabo un proofreading de una traducción para mí. Eso me asegura de que, además de escribir correctamente y de comprobar cosas como la elección adecuada de términos, las concordancias o las preposiciones, el algoritmo escribe de una manera que se asemeja a mi estilo. ¿Preferiría ser un completo desconocido para el algoritmo y recibir unas correcciones completamente genéricas, o basadas en el estilo de otro autor?

Si los algoritmos generativos van a ir, más que previsiblemente, incrementando su participación en cada vez más tareas, prefiero francamente que se entrenen con materiales adecuados a que lo hagan únicamente con el subconjunto de los que pueden acceder porque no les ponen limitaciones. No quiero ni imaginarme qué tipo de conclusiones obtendría un algoritmo entrenado en según qué foros o con según qué autores. Si la información que producimos va a ser utilizada rutinariamente para entrenar algoritmos, procuremos que esa información que utilizan sea lo más fiable que sea posible, y mantengamos la basura lejos de esos repositorios de datos. Por el bien de todos.

Nota:https://www.enriquedans.com/2023/08/entrenando-algoritmos-con-que.html