Modelos de inteligencia artificial y procesos de razonamiento





Desde la irrupción de Deepseek hace algunas semanas, he estado experimentando con la repetición de un buen número de prompts que en su momento había utilizado con ChatGPT, Claude, Mistral o Grok, los LLM que utilizo habitualmente, pero observando el proceso de razonamiento, para tratar de imaginar en cuántos casos el output de ese proceso me habría llevado a modificar ese prompt, funcionando a modo de feedback sobre la respuesta original generada por el algoritmo.
La razón de mi curiosidad está precisamente en la exploración del papel creo que fundamental de ese feedback en la explotación de los modelos de lenguaje, algo que ayer encontré bien reflejado en un artículo de The Washington Post, «The hottest new idea in AI? Chatbots that look like they think«, en el que habla de esos procesos de razonamiento, conocidos como «cadena de pensamiento«, y los retrata como una «tendencia» en el desarrollo de la inteligencia artificial.
La «tendencia» es, en realidad, una forma de mejorar el funcionamiento de esos modelos utilizando parcialmente el reinforcement learning para afinar el proceso en la segunda fase del entrenamiento, creando una función objetivo o reward function que permite ir optimizando esa respuesta. Es precisamente el método utilizado por Deepseek para lograr un modelo superior a sus precedentes, recurriendo en su caso fundamentalmente a ChatGPT a modo de «sparring» en lugar de utilizar el afinado con feedback humano (RLHF), y mi impresión es que estamos claramente ante una de las claves de futuro para conseguir modelos más y más potentes y, sobre todo, adaptativos, en todas aquellas actividades que sean susceptibles de generar un feedback finalista y de buena calidad.
Tras la llegada de Deepseek, que presenta su proceso de razonamiento sin ningún tipo de censura y que resulta especialmente llamativo por su parecido a un conjunto de pensamientos humanos reflexivos, y también por su nivel de detalle, sus cambios de idioma, etc., todo el resto de modelos han acelerado para tratar de mostrar procesos similares. Cuando OpenAI puso en el mercado su primer modelo de razonamiento, o1, a un precio elevadísimo, ocultó conscientemente su proceso de pensamiento y decidió ofrecer únicamente un sombreado dinámico sobre la palabra «Reasoning» y, al final del proceso, la información del tiempo empleado.
¿Qué ocurre? Que aparentemente, esa exposición completa en modo «open kimono» llevada a cabo por Deepseek sirve no solo para generar empatía con el usuario, sino también para ofrecer pistas sobre los factores que pueden haber influenciado determinados elementos en la respuesta. La clave para mí está en que, eventualmente, muchos de esos elementos pueden ser corregidos mediante un uso adecuado de técnicas de prompting iterativas. En el caso de Deepseek, en el que el proceso de razonamiento generado es en muchas ocasiones más largo que la propia respuesta y se mantiene además íntegro en la pantalla tras la generación de la misma, se podrían, hipotéticamente, localizar en él posibles fuentes de errores o «alucinaciones» surgidas durante el proceso, así como entender los posibles factores que habrían podido contribuir a sesgar la respuesta en distintos sentidos.
Algunos expertos creen que es mejor ocultar las cadenas de pensamiento de los algoritmos generativos, permitiéndoles que «piensen para ellos mismos» en modo «introspección» en lugar de exhibir ese proceso y compartirlo con el usuario, fundamentalmente con el fin de evitar cualquier posibilidad de antropomorfización de los modelos. Esos expertos identifican la tendencia a la exhibición del proceso de razonamiento prácticamente como una «técnica de marketing» para intentar fidelizar al usuario. Mi impresión, en cambio, es que ese proceso puede servir para que el propio usuario afine sus prompts en un proceso iterativo, identifique posibles sesgos y problemas en los elementos utilizados en esa cadena de pensamiento, y termine así obteniendo mejores respuestas.
Un factor fundamental que coincide muy bien, además, con una arraigada mentalidad norteamericana de usuarios potencialmente imbéciles (que necesitan una etiqueta de «not for human consumption» en una planta decorativa para evitar que se la coman y nos denuncien), frente a la de otros países en los que, sea por una mayor valoración del usuario o por una menor judicialización de la vida cotidiana, se tiende a utilizar más el sentido común. Yo, por el momento, me inclino por la transparencia radical, y prefiero que los modelos que utilizo me muestren completo su proceso de razonamiento y me permitan, por tanto, corregir el tiro en aquellos temas en los que pueda ver que la ruta elegida no fue la adecuada. Cuestión de grados de libertad.
Nota:https://www.enriquedans.com/