El absurdo conceptual de evaluar a los algoritmos como a los humanos

Actualidad 29 de abril de 2023
YasminDwiputri-DataHazards-ProjectAIacross-industries-640x360-1

Un interesante artículo en Venture Beat, «Why exams intended for humans might not be good benchmarks for LLMs like GPT-4«, incide en un tema sobre el que he pensado cada vez que surge una noticia del tipo «ChatGPT supera el examen de tal y tal cosa«, noticias que invariablemente se convierten en protagonistas de corrillos y conversaciones de café.

Que a los humanos nos resulte sorprendente que un algoritmo sea capaz de pasar un examen que consideramos complicado entra dentro de lo razonable. Sin embargo, si analizamos la forma en la que aprende un algoritmo, la cuestión resulta mucho más fácil de entender: en primer lugar, hablamos de algoritmos entrenados con una enorme cantidad de información, prácticamente con todo texto que encuentran en la red, excluyendo únicamente algunos casos evidentes. A partir de ahí, sus desarrolladores se esfuerzan especialmente por separar los datos que utilizan para su entrenamiento y para ponerlos a prueba posteriormente. Pero lógicamente, el volumen de datos utilizado en el entrenamiento es tan descomunal, que resulta muy difícil asegurarse de que los ejemplos que se usan después para evaluar el modelo de prueba no estén incluidos de alguna manera en los datos de capacitación. Esto configura un problema, conocido habitualmente como training data contamination: dado que la memoria del algoritmo es, en principio, muy grande y perfecta (digital), los datos incluidos en su entrenamiento configuran cuestiones que el algoritmo siempre responde bien, aunque sería un error esperar lo mismo de otros datos que no están, en principio, incluidos ahí, y que elabora de manera derivada.

¿Cuál es el problema? Simplemente, que el cerebro humano funciona de otra manera, y con limitaciones evidentes: nuestra memoria no es ilimitada, y nuestra capacidad de relación se construye de otra manera a lo largo de tiempo y experiencia. En realidad, ni siquiera está claro – o más bien, está muy poco claro – que los exámenes y tests diseñados para evaluar a los humanos sean adecuados: una oposición con un temario muy largo, por ejemplo, resulta completamente absurda a la hora de calificar a un futuro juez o a un notario, porque la habilidad memorística, que se pone a prueba extensivamente al hacer al examinado «cantar» los temas, es infinitamente menos importante que la capacidad de relación, mucho menos evaluada. En la práctica profesional, nuestra memoria tiene su propio algoritmo: recordamos aquello que es más reciente, lo que nos encontramos de manera más frecuente, o a lo que adscribimos más importancia (Recency, Frequency, Value, o RFV). De ahí que exámenes considerados como enormemente consolidados, como el SAT, el GMAT, el GRE o el MIR sean, en realidad, buenos a la hora de evaluar la memoria, pero profundamente inadecuados para predecir una futura competencia profesional.

Confrontar a un algoritmo con ese tipo de exámenes que ya de por sí están mal diseñados para los humanos nos ofrece una conclusión completamente absurda: si almacenamos un montón de respuestas en una base de datos, un algoritmo es perfectamente capaz de ir devolviéndolas cuando una simple búsqueda de términos le ofrece el momento de hacerlo. Es completamente primario: almacena y recupera. Si el examen exige otro tipo de habilidades más deductivas, de relación o de otros tipos, podría ser más razonable, pero ese no suele ser el caso en los exámenes a los que nos referimos, porque siguen heredando, desgraciadamente, un modelo educativo en el que lo que se incentivaba era la capacidad de memorizar.

Los algoritmos, por tanto, van a ser mucho mejores a la hora de «aumentar» a un trabajador humano con una memoria infalible o un repositorio ingente de datos, que de sustituirlo para llevar a cabo tareas realmente importantes en una definición de puesto de trabajo determinada que demande una mínima inteligencia. Pero sobre todo, deberíamos abandonar la tendencia hacia el sensacionalismo y el amarillismo que reflejan cosas como «ChatGPT ha pasado el MIR, ya podrá sustituir a los médicos» o «ChatGPT ha pasado el BAR, sustituirá a los abogados», porque están muy, pero muy lejos de tener algún sentido.

Sería interesante proponernos como sociedad relevar el viejo modelo de hace generaciones basado en la memorística, para después plantearnos la mejor manera de evaluar a los futuros profesionales, y finalmente, tratar de ver cómo le va a ChatGPT con ese nuevo modelo de examen. Nos permitiría entender en qué somos buenos como humanos, qué caracteriza a los buenos profesionales – que en muy raras ocasiones es una habilidad memorística rayana en lo circense – y cómo podemos, gracias a ese conocimiento, entrenar mejores algoritmos. Pero me parece que estamos tan, pero tan lejos de hacer algo así – por cerrazón, por corporativismo y por un montón de cuestiones sociales absurdas – que nunca llegaremos a saber lo que pasaría si fuésemos capaces de algo así.

Nota:https://www.enriquedans.com/

Te puede interesar