


La próxima frontera de la inteligencia artificial podría parecerse mucho más a nuestro cerebro
Recursos Humanos27/11/2025




En 2017, un grupo de investigadores de Google publicó un artículo con un título aparentemente anodino, «Attention is all you need«, que acabó provocando una auténtica revolución. Aquella idea aplicada en aquel momento a la traducción automática, que una red neuronal podía aprender prestando «atención» a distintas partes de una secuencia ampliando la ventana de contexto, acabó dando lugar a los transformers, la arquitectura que hoy sostiene a ChatGPT, Claude, Gemini y prácticamente toda la inteligencia artificial generativa moderna.
Ocho años después, los mismos laboratorios (con distintos protagonistas, porque lo de Google nunca ha sido la retención de talento) vuelven a poner sobre la mesa un concepto que podría ser igual de disruptivo. Su nuevo trabajo, titulado «Nested Learning: the illusion of deep learning architectures«, parte de una afirmación provocadora: lo que llamamos «aprendizaje profundo» podría no ser profundo en absoluto.
Según los autores, las redes neuronales no aprenden porque tengan muchas capas, sino porque cada una de esas capas, y los algoritmos que las entrenan, operan a distintas velocidades. En realidad, lo que tenemos no es una pila de transformaciones, sino un sistema de aprendizaje anidado: procesos que se ajustan mutuamente a diferentes escalas temporales, como si unas partes del modelo pensaran más rápido y otras más despacio.
El resultado es que lo que veíamos como «profundidad» no era más que una ilusión: una consecuencia de tener aprendizajes de distinta frecuencia interactuando entre sí. Si esta hipótesis es correcta, el futuro de la inteligencia artificial podría no consistir en añadir más capas o más parámetros, sino en diseñar sistemas que aprendan a varios ritmos a la vez.
Además, Google resalta algo crucial: el paradigma de «aprendizaje anidado» no sólo redefine la arquitectura, sino que aborda de frente uno de los grandes talones de Aquiles de los modelos actuales: el olvido catastrófico (catastrophic forgetting). Subrayan que los modelos tradicionales tratan arquitectura y algoritmo de optimización como dos piezas separadas, cuando en su propuesta ambas se fusionan en una única jerarquía de optimización. Esa fusión da pie a lo que llaman un sistema de memorias «en continuo», donde diferentes módulos se actualizan a ritmos distintos (es decir, aprendizaje rápido, medio y lento conviviendo simultáneamente). En ese sentido, el paper define la llamada «arquitectura HOPE», que es tanto un experimento de ingeniería como un manifiesto: si queremos que las máquinas aprendan de forma más parecida a nosotros, no sólo entrenar una vez y congelar, sino aprender, olvidar, reaprender, adaptarse, entonces tenemos que diseñar para múltiples cadencias de cambio, no sólo para capas más profundas.
Otra idea interesante del análisis es que los modelos actuales viven atrapados en un «presente eterno»: procesan la entrada con unos pesos fijos, pueden adaptarse mínimamente dentro de la ventana de contexto, y después lo olvidan todo. El aprendizaje ocurre antes de desplegar el modelo, y a partir de ahí, apenas cambia. El enfoque de nested learning propone romper con esa limitación dotando al sistema de varios ritmos de aprendizaje: algunos módulos que reaccionan de forma inmediata, otros que se ajustan a medio plazo y otros que evolucionan más lentamente. Esa superposición de velocidades permitiría no solo responder al estímulo del momento, sino también construir memoria duradera y modificar su propio comportamiento con el tiempo, una capacidad mucho más cercana a la forma en que aprendemos los humanos.
Es ahí donde la comparación con el cerebro humano se vuelve inevitable: nuestro sistema nervioso también funciona en capas de tiempo superpuestas: reflejos que reaccionan en milisegundos, aprendizajes que se consolidan durante el sueño, hábitos que se forman tras meses de repetición, y rasgos de personalidad que cambian lentamente a lo largo de los años. La inteligencia, en última instancia, podría no ser una cuestión de tamaño o de profundidad, sino de ritmo: de cómo se integran procesos de aprendizaje rápido y lento en una misma estructura.
Google parece estar apostando por esa idea. Al igual que los transformadores redefinieron la noción de «atención», el nested learning podría redefinir la noción misma de «arquitectura». Si los algoritmos y los optimizadores dejan de ser piezas separadas y pasan a formar un sistema vivo que se modifica a sí mismo de forma continua, estaremos mucho más cerca de un modelo que aprende como nosotros: no reentrenando cada vez desde cero, sino reajustando continuamente su memoria y su conducta.
Por supuesto, el enfoque está todavía en pañales. Las demostraciones del artículo son conceptuales, y falta por ver si la idea escala a los gigantescos modelos actuales. Pero la historia enseña que cuando Google lanza una teoría sobre cómo debería aprender una máquina, conviene prestarle atención: la última vez que lo hizo, cambió el rumbo de toda la industria.
Si el nested learning acaba confirmándose, podríamos estar ante un nuevo cambio de paradigma: uno en el que la inteligencia artificial deja de parecerse a una máquina que calcula, y empieza a parecerse más a un cerebro que evoluciona.
Nota:https://www.enriquedans.com/






















