Bienvenidos a la token economy
A medida que el avance del desarrollo de los modelos masivos de lenguaje, Large Language Models o simplemente LLMs va teniendo lugar, empezamos a entender algunas de las variables que influyen en los liderazgos que veremos consolidarse en todas las industrias.
Cada vez más, vamos pasando del enfoque inicial, en el que se valoraba fundamentalmente el acceso a cantidades masivas de datos bien seleccionados para el entrenamiento (con repositorios abiertos como LAION en el mundo gráfico o Common Crawl en el del texto jugando un papel inicial muy importante, seguidos de una barahúnda de acuerdos con todo tipo de proveedores de contenidos), a una nueva visión en la que lo importante no es simplemente la cantidad de datos, sino las formas de convertirlos en material aprovechable, para lo que necesitamos un proceso adicional: la tokenización.
Un proceso que, en función de los criterios que tomemos, será más o menos eficiente, y que por el momento, se encuentra fuertemente influenciado por el hecho de que los grandes repositorios inicialmente utilizados para el entrenamiento de modelos contenían información mayoritariamente en inglés (46% en el caso de Common Crawl, por ejemplo). A partir de ahí, es fácil entender lo que ocurre: cualquiera que quiera enviar un prompt a un LLM entrenado mayoritariamente en inglés, se encontrará con que si ese prompt está redactado en un idioma distinto del inglés, será procesado, pero dado que debe ser traducido, consume más tokens que si estuvieran en inglés.
Bienvenidos a la token economy. En el futuro inmediato, mucho de lo que hagamos en todas las compañías, en todas las industrias, dependerá de cómo de eficientes somos enviando prompts a un LLM, que para usos distintos a los de un simple individuo preguntando cosas, se cobrarán en los correspondientes tokens. Un mundo de RAGs, de prompts enriquecidos (o, desde ese punto de vista, «complicados») con elementos tomados de bases de datos vectoriales que reflejan contextos específicos, puestos al servicio de la verticalización. En esa economía, con el token como moneda de cambio, el más eficiente gana.
En su último ranking de modelos masivos de lenguaje abiertos, la franco-americana Hugging Face refleja claramente como los LLM chinos han tomado por asalto la clasificación, encabezada por Qwen, la familia de algoritmos creada por Alibaba. Y si bien la clasificación puede considerarse una imagen incompleta al no evaluar modelos cerrados por una cuestión de asegurar la reproducibilidad de los resultados, lo que implica que algunos de los LLM más populares como ChatGPT, Claude, Gemini, etc. no aparecen, no deja de ser una medida de a dónde se puede llegar cuando la vía elegida para hacer las cosas es la del código abierto.
¿A dónde vamos? Lógicamente, a la búsqueda de modelos cada vez mejores, entrenados mejor y con mejores datos, pero también a la de la eficiencia en su uso. De ahí que el trabajo de China con su pléyade de modelos de código abierto sea potencialmente muy importante, pero también el de Samsung con el idioma coreano, el de Mistral con el francés y otros idiomas, o incluso la incipiente iniciativa del gobierno español para crear y entrenar modelos entrenados en español y otras lenguas cooficiales. Si puedes utilizar un LLM con una calidad adecuada y un consumo de tokens más bajos, seguramente lo vas a hacer, y podrás además obtener ventajas de ello.
Estamos entrando en la token economy. Compañías dedicadas a la provisión de soluciones verticales basadas en RAGs y en prompting masivo a LLMs ajenos se arruinan por haber calculado mal la cantidad de tokens que necesitaban para mantener su actividad, mientras los modelos rivalizan por ser cada vez más atractivos y más útiles, y se sigue desarrollando la idea de grandes modelos abiertos con mejoras cada vez más tangibles en su nivel. Quien mejor entienda la token economy, mejor partido sabrá sacar de ella. Si no has entendido ni una palabra de este artículo, es una señal de que debes preocuparte. Y lo que se juega en esto, potencialmente, es mucho. ¿O lo es todo?
Nota: www.enriquedans.com