El Salto Exponencial de los Agentes Autónomos

Índice

En las últimas semanas, el ecosistema de la inteligencia artificial se ha visto sacudido por una avalancha de noticias que, analizadas en conjunto, dibujan un panorama fascinante y transformador. No se trata de avances aislados o mejoras incrementales, sino de un cambio de paradigma cuyo hilo conductor es inconfundible: la capacidad de los agentes autónomos para trabajar durante períodos de tiempo cada vez más extensos está creciendo a un ritmo vertiginoso. Hemos pasado de modelos que apenas podían completar tareas de segundos a sistemas que operan de forma independiente durante horas, logrando hazañas que hasta hace poco pertenecían exclusivamente al reino de los expertos humanos. Open AI presentó su nuevo modelo, un sistema agéntico para tareas de programación que, según sus propias publicaciones, posee una autonomía tan notable que podría trabajar de manera independiente por más de siete horas. Paralelamente, Replit lanzó la tercera versión de su sistema de desarrollo de software agéntico, y la evolución es un claro reflejo de esta tendencia: su autonomía ha escalado de meros dos minutos en versiones iniciales a veinte minutos, y ahora, con este último lanzamiento, alcanza los doscientos minutos, lo que se traduce en más de tres horas de trabajo continuo y autónomo. Pero la carrera no se detiene ahí. Una nueva compañía, MTH Incorporated, cuya misión declarada es automatizar la investigación en matemáticas, ha desarrollado un sistema capaz de trabajar durante horas sin supervisión y que ya ha contribuido a resolver un desafío matemático en el que expertos humanos llevaban meses estancados. Por si esto fuera poco, hemos sido testigos de una hazaña histórica que ha ocurrido justo en esta última semana: Open AI y Google han conseguido el primer y segundo puesto en una de las competiciones de programación más exigentes del planeta, el ICPC. En esta competición, el modelo de Open AI logró trabajar durante horas para resolver la totalidad de los doce problemas presentados, superando por primera vez a todos los competidores humanos. Si conectamos todos estos puntos, la conclusión es ineludible: la inteligencia artificial está logrando trabajar autónomamente durante más horas para conseguir hitos cada vez más impresionantes. Hace una década, imaginar modelos generalistas capaces de descubrir nuevas matemáticas o de ganar competiciones de programación de talla mundial era pura ciencia ficción. Sin embargo, en 2025, estos son los titulares que nos acompañan semana tras semana, marcando una transición profunda: hemos pasado de inteligencias artificiales que nos ahorraban segundos de trabajo a aquellas que nos liberan horas enteras.

La Nueva Frontera: Programar en Modo Agente

Para comprender la magnitud de este salto, resulta revelador observar cómo ha evolucionado la programación asistida por inteligencia artificial en los últimos tres años. No hace tanto tiempo, nuestra interacción con estas herramientas se limitaba a un mero autocompletado: pulsábamos el tabulador y nos ahorrábamos escribir una línea de código. Posteriormente, irrumpieron los copilotos y los entornos de desarrollo integrados con inteligencia artificial, sistemas que ya eran capaces de entender el contexto de nuestro código y generar funciones enteras, un trabajo que nos hubiera requerido varios minutos. Sin embargo, esto ya es historia, porque en 2025 la nueva normalidad es programar en modo agente. Esta práctica habitual consiste en encomendar a la inteligencia artificial una tarea compleja y permitir que trabaje de forma autónoma durante varios minutos. Y es crucial entender la implicación de esto: esos varios minutos de trabajo ininterrumpido para la máquina se traducen, para nosotros, en horas de trabajo ahorradas. Este tiempo en el que la inteligencia artificial opera en solitario nos brinda, además, la capacidad de coordinar múltiples sistemas agénticos en paralelo, multiplicando exponencialmente las horas de trabajo humano que podemos recuperar. De esta forma, lo que antes constituía una jornada laboral completa puede ser resuelto por un agente autónomo en una fracción de ese tiempo.

La Ley de Moore de la Autonomía: Un Crecimiento Exponencial

Este salto, que puede parecer una mera sensación, ha sido meticulosamente medido por la organización METR en uno de los trabajos más reveladores de 2025. Su objetivo era cuantificar la habilidad de la inteligencia artificial para completar tareas de horizonte largo. Para ello, recopilaron un conjunto diverso de tareas, cada una de ellas traducida a las horas de trabajo que le llevaría a un humano resolverla. El abanico era amplio: desde buscar un dato en internet, una tarea de segundos, hasta entrenar un modelo de inteligencia artificial, un proceso que requiere la ejecución de múltiples pasos y, por consiguiente, mucho más tiempo. Lo verdaderamente innovador de su metodología es que, para cada nuevo modelo que emerge, evalúan hasta dónde puede llegar, identificando el punto en el que el modelo consigue resolver una tarea con una tasa de acierto del cincuenta por ciento. Al plasmar estos datos en una gráfica, con el eje temporal mostrando la sucesión de modelos y el eje vertical la duración de las tareas que estos pueden resolver con esa tasa de éxito, emerge un patrón de una claridad apabullante. Modelos como GPT-2 solo eran capaces de abordar tareas que a un humano le llevarían alrededor de dos segundos, como responder a un dato factual simple. GPT-3 elevó esta cifra a los nueve segundos, permitiéndole responder preguntas de complejidad ligeramente superior. GPT-3.5 alcanzó los treinta y seis segundos, y GPT-4 llegó a los cinco minutos. Sin embargo, lo más revelador no es el crecimiento en sí, sino su naturaleza. Cuando representamos estos datos en una escala logarítmica, observamos que el incremento no es lineal, sino que se ajusta a una curva exponencial. Esto significa que la duración de las tareas que la inteligencia artificial puede resolver con un cincuenta por ciento de tasa de éxito se está duplicando aproximadamente cada siete meses. Si aplicamos esta proyección, partiendo de modelos como los actuales que ya operan en la franja de las dos horas, en febrero o marzo de 2026 deberíamos estar trabajando con inteligencias artificiales que operen en un horizonte de cuatro horas. Y, para finales de ese mismo año, es plausible que veamos sistemas autónomos capaces de completar el trabajo equivalente a una jornada laboral completa de ocho horas. Por supuesto, se trata de una extrapolación, y nada garantiza que las fuerzas que han impulsado esta mejora, como la disponibilidad de datos, los avances en hardware o las innovaciones en algoritmos, se mantengan constantes en los próximos años. Sin embargo, si la tendencia persiste, estaremos ante una suerte de Ley de Moore para la autonomía de los agentes de inteligencia artificial, un objetivo tácito que la industria se marca cada siete meses, de forma similar a lo que ocurría con la miniaturización de los transistores.

El Desafío de la Autoconsistencia y la Clave del Horizonte Largo

Ante este panorama tan prometedor, surge una pregunta inevitable. ¿No publicó Apple hace unos meses un paper que cuestionaba precisamente la capacidad de los modelos razonadores para completar tareas de horizonte largo? En aquel estudio, utilizando juegos como las Torres de Hanoi, se demostraba que, a medida que la tarea se volvía más compleja, los errores se acumulaban y el modelo terminaba por perderse, siendo incapaz de progresar. ¿Qué ha cambiado entonces para que ahora estemos soñando con modelos que trabajan durante horas? La respuesta la encontramos en un trabajo de investigación muy reciente que lleva por título «La ilusión de los retornos decrecientes». Este estudio profundiza en la aparente desaceleración de las capacidades de los nuevos modelos y llega a una conclusión fascinante: el secreto para dominar el horizonte largo no es la magia, sino la consistencia. La hipótesis que se manejaba era que el problema no residía tanto en un aumento de la complejidad cognitiva de la tarea, sino en la necesidad de ejecutar un mayor número de pasos de forma repetitiva en el tiempo. Para validarlo, los investigadores diseñaron un experimento muy ilustrativo. Propusieron a la inteligencia artificial una tarea extremadamente sencilla: extraer precios de frutas de un texto y realizar una suma aritmética básica, similar a hacer la compra. Esta tarea, repetida muchas veces de forma continuada para actualizar un precio final, no presenta ninguna dificultad conceptual. Y, efectivamente, cuando se analizó el primer paso, todos los modelos, independientemente de su tamaño, la resolvían con una tasa de acierto cercana al cien por cien. Sin embargo, al aumentar el número de repeticiones, el rendimiento comenzaba a degradarse de forma misteriosa. La respuesta que encontraron es clave y se relaciona con un concepto denominado autoconsistencia. Todos hemos experimentado alguna vez con ChatGPT una situación en la que, tras cometer un error y corregirlo, el modelo parece entrar en un bucle, repitiendo una y otra vez la misma equivocación. Lo que ocurre es que el modelo, al enfrentarse a una tarea repetitiva, tiene una alta probabilidad de acierto en cada paso individual, pero en algún momento cometerá un error. Ese error, una vez cometido, permanece en su ventana de contexto. Cuando el modelo continúa trabajando y echa la vista atrás, se encuentra con ese fallo. Esta evidencia de su propio error mina su confianza, haciéndole más propenso a cometer nuevos fallos. Estos nuevos errores se acumulan en su historial, reforzando la idea de que no es tan competente en esa tarea, lo que acelera la degradación de su rendimiento. El estudio demuestra este fenómeno de forma empírica, mostrando cómo la tasa de acierto de un modelo cae drásticamente a medida que su ventana de contexto se llena de errores. Por el contrario, si se interviene en esa ventana de contexto para eliminar los errores, el modelo es capaz de mantener un rendimiento mucho más alto durante más tiempo. Esto confirma que el problema no es una incapacidad inherente para manejar la complejidad, sino una susceptibilidad a la acumulación de errores que afecta a su propia confianza y, por ende, a su rendimiento futuro.

La Retroalimentación Multimodal como Solución

Entonces, si este es el problema, ¿cómo es que los modelos actuales están logrando trabajar durante horas sin sucumbir a esta espiral de errores? La respuesta reside en la nueva generación de modelos razonadores y en su capacidad para reflexionar sobre sus propias respuestas y corregir los errores sobre la marcha. Esta capacidad de autoevaluación y corrección en caliente les permite dejar una traza mucho más limpia y rica en su ventana de contexto, lo que mejora su desempeño a lo largo del tiempo. Un ejemplo perfecto de esta nueva arquitectura lo encontramos en el agente de Replit mencionado al principio. Sin necesidad de probar el producto, la promesa de su funcionamiento es extraordinariamente reveladora. Este sistema aprovecha las capacidades multimodales de los modelos más avanzados, aquellos que pueden ver una pantalla, percibir las interfaces, hacer clic e interactuar con ellas como lo haría un usuario humano. De esta forma, mientras el agente desarrolla una aplicación, no se limita a escribir código y confiar en que es correcto. Es capaz de lanzar la aplicación, ejecutarla e interactuar con ella como si fuera un usuario final para verificar si lo que ha implementado funciona según lo esperado. Si el usuario le ha pedido un botón que cambie de color al hacer clic, el agente no solo analiza el código en busca de errores sintácticos, sino que puede probar la funcionalidad directamente. Si encuentra un error, este nuevo bucle de retroalimentación, basado en la interacción multimodal, le permite corregirlo en el momento. Esta capacidad de verificar su propio trabajo de una forma novedosa y mucho más robusta es lo que hace que su ejecución sea más consistente, lo que le permite mantener un horizonte de desempeño más largo y autónomo sin caer en la trampa de la autoconsistencia negativa.

El Nuevo Punto de Partida: Matemáticas y Programación como Llaves del Futuro

Con todo esto, ¿en qué punto nos encontramos exactamente? Hagamos un repaso de los hitos recientes. Los mismos modelos de lenguaje de los que hace tres años nos reíamos por su incapacidad para realizar cálculos matemáticos sencillos, han conseguido en los últimos meses medallas de oro en las Olimpiadas Internacionales de Matemáticas. Y esos mismos modelos que antaño solo nos ayudaban autocompletando una línea de código, ahora trabajan de forma autónoma y han obtenido la medalla de oro en las Olimpiadas Internacionales de Informática, además de hacerse con el primer puesto en la final mundial del ICPC, resolviendo la totalidad de los problemas y situándose, por tanto, por delante de cualquier participante humano. Estos resultados, logrados por compañías como Open AI y Google con los agentes actuales, son sencillamente espectaculares en los dominios de las matemáticas y la programación. Y esto es crucial, porque como ya se aventuraba en las hojas de ruta hacia la ansiada Inteligencia Artificial General, estas dos disciplinas son la llave que abre la puerta a la siguiente fase. Superados ya los niveles de los chatbots conversacionales y los modelos razonadores, nos encontramos inmersos en la fase de los modelos agénticos. Si bien es cierto que aún no disponemos de sistemas agénticos generales para cualquier ámbito, el avance en estas dos materias concretas es el pilar fundamental para lo que viene a continuación: inteligencias artificiales capaces de descubrir nuevo conocimiento. Y en este terreno, ya hay compañías que han mostrado resultados prometedores. Google, con sistemas como AlphaEvole, ha demostrado que puede desplegar agentes autónomos que, trabajando e iterando sobre un problema, encuentran soluciones novedosas a retos de ingeniería internos o a problemas matemáticos. Este mismo objetivo es el que impulsa a la mencionada MTH Incorporated, cuya misión corporativa es clara y ambiciosa: resolver las matemáticas para, en última instancia, resolverlo todo. En sus propias palabras, ven en el uso de herramientas autónomas como su sistema Gauss un camino directo hacia una futura superinteligencia artificial. Las declaraciones de Yub Pachoki, actual jefe científico de Open AI, tras los recientes triunfos en competiciones, no dejan lugar a dudas: sus modelos se encuentran ahora entre los mejores en matemáticas y programación cuando se les plantean preguntas bien especificadas y limitadas a unas cinco horas de trabajo. El desafío ahora, afirma, es avanzar hacia problemas más abiertos y horizontes temporales mucho más amplios. El objetivo final es claro: aplicar este nivel de capacidad de razonamiento durante meses y años a problemas verdaderamente importantes, en definitiva, automatizar el descubrimiento científico. Este es el punto exacto en el que nos encontramos hoy, en la antesala de una nueva era donde la autonomía de las máquinas promete redefinir los límites de lo posible.