Copyright traps para LLMs: todos sabemos cómo acaba esto
Ante la proliferación de algoritmos generativos entrenados con todo tipo de contenido, algunos investigadores están trabajando en el concepto de copyright traps, fragmentos de texto ocultos que permiten a los escritores y editores marcar sutilmente su trabajo para detectar más tarde si se ha utilizado en modelos de inteligencia artificial o no.
Todos, absolutamente todos sabemos cómo acaba esto. La industria del copyright se ha dedicado durante toda su historia a acusar a todo aquello que se mueve de plagio, mediante todo tipo de metodologías que comienzan por la detección de patrones similares, y terminan con «los sentimientos y con las sensaciones» de que algo «evoca el sentido y el sonido» de algo.
Indignadísimos por la perspectiva de que una serie de compañías estén «alimentando a sus algoritmos» con todo tipo de información, y viendo la posibilidad de ganar un buen dinero por no hacer nada, creadores de contenido de todo el mundo se disponen a acudir a Github para instalar «trampas de copyright» que permitan «demostrar» que un algoritmo se ha alimentado de sus obras, y puedan utilizarlo para reclamar ese dinero ante un juez.
Lo siento, pero toda esta cuestión es simplemente asquerosa. Si has creado algo, jamás vas a poder evitar que alguien que lo ha escuchado, visto o leído se inspire en ello para crear otras cosas. Así funciona la creatividad humana, a partir de estímulos que, en muchas ocasiones, provienen de las creaciones de otros. Así se ha hecho toda la vida, y así se va a seguir haciendo. Que ahora, como esa creatividad ya puede proceder no solo de los cerebros de las personas sino también de la recombinación que hace un algoritmo, eso tenga que tratarse de manera diferente y acosar hasta el límite a las compañías que entrenan esos algoritmos para poder arrinconarlas ante un juez y obligarlas a pagar es simplemente perverso, y terminará mal. Lo hemos visto ya en demasiadas ocasiones: acusaciones falsas o infundadas, compañías que terminan pagando por no complicarse la vida en largos procesos judiciales, persecuciones y cazas de brujas.
Hace mucho tiempo que los derechos de autor no protegen a los autores, sino a grandes conglomerados industriales que se alimentan de la creatividad de los autores y les dejan generalmente las migajas de las ganancias obtenidas. Que ahora se pretenda pervertir y dar la enésima vuelta de tuerca a los oxidados mecanismos del copyright para, supuestamente, inventar una trampa indetectable que permite señalar inequívocamente a quien entrenó un algoritmo con un contenido determinado es tristísimo, y más si esos algoritmos van a terminar estando en todas partes y dando lugar a enormes mejoras de la productividad de las que nos beneficiaremos todos.
Acostúmbrate: si creas algo, lo pueden ver, leer o escuchar humanos o máquinas, y de una u otra manera, deben tener la libertad de basarse en ello para producir otras obras, que no serán idénticas, sino producto de una recombinación más o menos inspirada. Tratar de perseguir y arrinconar ese comportamiento porque detrás hay unas empresas que se lucran con ello es como tratar de perseguir a todos los autores que, en algún momento, se inspiraron en otro… es decir, a todos los autores.
No estoy defendiendo a las compañías que entrenan a sus algoritmos con lo que les da la gana, que no me pagan nada en absoluto: lo que estoy diciendo es que el concepto de copyright, como todo, tiene que adaptarse a su tiempo y a su contexto, y no puede ser utilizado como una herramienta para azotar a todo aquel que inventa una nueva manera de hacer las cosas. La superposición del supremo egoísmo del copyright con el desarrollo de supuestas «pruebas irrefutables» electrónicas es sencillamente pavorosa, y amenaza con llevarnos a épocas muy oscuras si se generaliza, a luchas absurdas, a persecuciones y a cazas de brujas.
No, haber escrito, dibujado o compuesto una vez algo no te debería dar derecho a que cualquiera que se inspire en ello, sea humano o algorítmico, tenga que pagarte por ello. No tiene sentido. Y del mismo modo que no puede demostrarse cuando se trata de la inspiración que sucede en el cerebro de un humano porque hablamos de mecanismos inescrutables, no tiene sentido perseguir a la máquina porque, en ese caso, se entreno utilizando un contenido determinado, que habrá utilizado o no para producir una nueva obra. Dejémonos de maximalismos y de dinero fácil, y pasemos página en la forma de interpretar el copyright, que bastante daño ha hecho ya.
Nota: www.enriquedans.com/