Para qué realmente están utilizando los loops en los agentes para CLI
Liked this content? Join the Indie Builders community and discover the best ways to build a digital product. click here tl;dr Todo agente de IA en CLI es, en el fondo, un
whileque repite: llama al modelo → ejecuta herramientas → mete el resultado de vuelta → vuelve a llamar al modelo, hasta que no quedan herramientas que llamar. Eso es la teorĂa. Lo interesante es para quĂ© se está usando ese bucle de verdad: correr tareas autĂłnomas mientras duermes, reiniciar el contexto en cada vuelta para que el modelo no se vuelva tonto (la tĂ©cnica Ralph), poner topes de gasto y de iteraciones (loop engineering), y encadenar equipos de agentes que planifican → codifican → prueban → abren un PR sin que toques el teclado. AquĂ va el panorama real, con sus lĂmites y su factura.
Cuando ves a un agente de terminal como Claude Code “trabajar solo” —leer archivos, editar cĂłdigo, correr los tests, arreglar lo que fallĂł y volver a correrlos— parece magia. No lo es. Debajo hay una de las estructuras más viejas de la programaciĂłn: un bucle. Pero la pregunta que me interesa en este post no es cĂłmo funciona el loop (eso se explica en cinco minutos), sino para quĂ© lo están usando realmente los que llevan estos agentes al lĂmite. Porque entre el diagrama de manual y lo que pasa en producciĂłn hay un abismo.
Manifiesto de ética de siempre: un loop de agente es un sistema estocástico ejecutando acciones reales sin un humano revisando cada paso. Mientras más larga la cadena, más lejos llega antes de que alguien lo note. Diseña con topes, registra todo y pon checkpoints humanos antes de cualquier acción irreversible. Volveremos sobre esto al final.
1. El loop, en su versiĂłn honesta
Todo agente en CLI sigue el mismo ciclo. La documentaciĂłn del Agent SDK de Anthropic lo describe en cinco pasos que se repiten:
- Recibe el prompt junto con el system prompt, las definiciones de herramientas y el historial.
- Evalúa y responde. El modelo decide: o contesta texto, o pide una o más llamadas a herramientas, o ambas.
- Ejecuta las herramientas y recoge los resultados.
- Repite. Los pasos 2 y 3 forman un turno. El modelo sigue llamando herramientas y procesando resultados…
- …hasta que produce una respuesta sin llamadas a herramientas. Ahà el loop termina y te devuelve el control.
Dicho en una lĂnea: model call → tool execution → result injection → next model call, girando hasta que el modelo dice “listo”. Es literalmente un while (hay_tool_calls) { ... }. La arquitectura de Claude Code es justo eso: un single-threaded master loop, un solo hilo con un historial plano de mensajes, evitando a propĂłsito la complejidad de mĂşltiples personalidades de agente compitiendo.
Esto se resume a menudo como el ciclo Razonar → Actuar → Observar (heredado del patrón ReAct de 2022). Bonito en el diagrama. El problema aparece cuando lo sueltas a correr de verdad.
2. Por qué el loop “de manual” no alcanza
En 2023, AutoGPT popularizó la idea de dejar un loop corriendo solo hacia una meta. Y fue un desastre célebre: bucles infinitos, costos disparados, agentes dando vueltas sin avanzar. El loop ingenuo tiene tres enfermedades crónicas:
- No sabe cuándo parar. Sin un criterio claro de terminación, sigue hasta agotar tu presupuesto o tu paciencia.
- Se vuelve tonto con el contexto lleno. Los LLMs empiezan a degradarse alrededor del 40% de la ventana de contexto ocupada. Cuanto más larga la sesión, más basura acumulada y peores decisiones.
- Repite errores. Sin memoria de lo que ya fallĂł, tropieza con la misma piedra.
De ahĂ que el campo madurara hacia algo que hoy se llama loop engineering: dejar de pensar en “soltar un agente” y empezar a pensar en diseñar autonomĂa acotada. Es el cambio mental clave de 2026. Y es exactamente aquĂ donde aparecen los usos reales de los loops.
3. Para qué los están usando de verdad
3.1. Correr tareas autónomas durante horas (mientras no estás)
El uso estrella. Los agentes de CLI ahora corren en loops de ejecución prolongada, muchas veces en entornos de fondo (background execution) pensados para eso. Le das una tarea grande —“refactoriza el módulo de auth y actualiza los tests”— y el loop encadena docenas de llamadas a herramientas a lo largo de muchos turnos, ajustando según cada resultado, sin pedirte permiso en cada paso.
El patrĂłn tĂpico de un agente de cĂłdigo autĂłnomo: planifica → edita archivos en el repo → corre los tests → si fallan, re-planifica → vuelve a probar → abre un Pull Request. Devin, el “ingeniero de software autĂłnomo”, o el Copilot Coding Agent de GitHub (que toma un issue y abre un PR en borrador solo) son ejemplos en producciĂłn. El loop deja de ser un autocompletado y pasa a ser un trabajador de turno nocturno.
3.2. Reiniciar el contexto en cada vuelta: la técnica Ralph
Este es, para mĂ, el truco más elegante de todos. Si el problema es que el modelo se vuelve tonto cuando el contexto se llena, Âżla soluciĂłn? Vaciar el contexto en cada iteraciĂłn.
La técnica Ralph (bautizada por Ralph Wiggum, de Los Simpson; creada por Geoffrey Huntley a mediados de 2025) es un loop infinito que le da el mismo prompt al agente una y otra vez, pero con un principio radical: el progreso vive en los archivos y en Git, no en la ventana de contexto del modelo.
Cada iteraciĂłn:
- Arranca un proceso nuevo, con contexto vacĂo (solo specs + plan de implementaciĂłn).
- El agente implementa exactamente una tarea.
- Commitea los cambios y guarda los aprendizajes en disco.
- Sale. Un script externo verifica si ya terminĂł.
- Si no, resetea el contexto y vuelve a empezar desde cero.
El contexto se trata como memoria efĂmera; el estado real se persiste en Git y archivos. AsĂ el modelo siempre trabaja en su “zona inteligente” (contexto fresco) y nunca arrastra la basura de las vueltas anteriores. Es contraintuitivo —tirar la memoria a propĂłsito— pero funciona justamente por eso.
Nota práctica: la versiĂłn mĂnima de Ralph es un simple bucle de bash llamando al CLI con el mismo prompt. No necesitas un framework; necesitas disciplina de estado en disco. Esto conecta directo con los cronjobs + IA: un cron que dispara un agente con contexto fresco es, en esencia, un Ralph loop con reloj.
3.3. Equipos de agentes: el loop como lĂnea de montaje
El otro uso fuerte es dejar de pensar en un agente y montar varios especializados en cadena. El patrĂłn que se está estandarizando imita a un equipo de ingenierĂa real:
Planner → Architect → Implementer → Tester → Reviewer
Cada agente tiene un rol y un loop propio; la salida de uno alimenta al siguiente. La fiabilidad sube porque ningĂşn agente carga con todo el problema a la vez. En Claude Code esto se hace con subagentes: cada uno arranca con un contexto limpio, hace su parte, y solo su respuesta final vuelve al agente principal como resultado de herramienta. El contexto del orquestador crece por ese resumen, no por toda la transcripciĂłn del subtrabajo. Es la misma idea de Ralph (contexto acotado) aplicada en paralelo en lugar de en serie.
3.4. Loops con meta y evaluador
La evoluciĂłn más reciente: loops que corren hacia una condiciĂłn de completitud verificable, con un evaluador separado que comprueba si la meta se cumpliĂł antes de parar. La fĂłrmula mĂnima de un loop agĂ©ntico es “un disparador + una meta verificable; el agente corre hasta cumplirla”, sin que tĂş escribas nada entre iteraciones. Tests que pasan, cobertura que se alcanza, un endpoint que responde 200: el criterio de parada deja de ser “el modelo cree que terminó” y pasa a ser algo medible por fuera.
4. Loop engineering: las barandas que lo hacen viable
Nada de lo anterior es seguro sin guardarraĂles. “Loop engineering” es justamente el arte de poner lĂmites. Los que importan:
- Tope de iteraciones (
max_turnsen el SDK). Cuenta solo los turnos con herramientas; al llegar al lĂmite, corta y te avisa con unerror_max_turns. - Presupuesto de gasto (
max_budget_usd). Para el loop al cruzar un umbral de dĂłlares. Es el default recomendado para producciĂłn. - DetecciĂłn de no-progreso. Si el estado no cambiĂł entre vueltas, salir. Evita el AutoGPT dando cĂrculos.
- Circuit breakers en reintentos de herramientas.
- Criterios de terminaciĂłn explĂcitos (tests verdes, umbral de cobertura).
- Checkpoints humanos antes de acciones irreversibles. Innegociable.
Y los modos de permiso son parte de esto: acceptEdits auto-aprueba ediciones de archivos pero sigue pidiendo permiso para comandos peligrosos; bypassPermissions corre todo sin preguntar y solo debe usarse en entornos aislados (CI, contenedores). Elegir el modo correcto es loop engineering.
5. La factura: el detalle que nadie te cuenta primero
Todo esto tiene un costo muy concreto. Los nĂşmeros que circulan en 2026:
- Un agente individual consume alrededor de 4Ă— los tokens de un chat normal.
- Un sistema multi-agente, hasta 15× más.
Quienes corren 5+ instancias de Claude en paralelo —usando un archivo CLAUDE.md como memoria semántica persistente, donde anotan los fallos para que las sesiones futuras no los repitan— suelen operar en entornos con tokens ilimitados. La mayorĂa de nosotros no. Por eso el max_budget_usd no es un detalle: es lo que separa un experimento Ăştil de una sorpresa en la tarjeta. Y enlaza con un debate que ya toquĂ©: comprar un curso de IA o gastarme los tokens experimentando — los loops son, precisamente, la forma más rápida de quemar esos tokens… para bien o para mal.
6. Cierre: el loop no es el truco, las barandas lo son
Si te quedas con una sola idea: el bucle while no es lo valioso ni lo difĂcil. Lo difĂcil —y lo que de verdad están usando los equipos serios— es todo lo que rodea al loop: cĂłmo lo paras, cĂłmo le reinicias el contexto para que no se vuelva tonto, cĂłmo verificas que terminĂł de verdad, cĂłmo lo encadenas con otros agentes y cĂłmo evitas que se gaste tu presupuesto en cĂrculos.
El loop de manual (Razonar → Actuar → Observar) es de 2022. Lo que cambiĂł en 2026 es que aprendimos a domesticarlo: contexto efĂmero, estado en disco, topes duros, evaluadores externos y un humano en los puntos de no retorno. Esa es la respuesta honesta a “para quĂ© están usando los loops”: no para que la IA piense sola, sino para que trabaje sola dentro de una jaula bien diseñada.
Y como siempre con la automatizaciĂłn sin supervisiĂłn: la potencia del loop es exactamente proporcional al cuidado con que lo encierras.
Referencias
- How the agent loop works — Claude Agent SDK Docs
- Agentic Loops: From ReAct to Loop Engineering (2026 Guide) — Data Science Dojo
- The Ralph Technique — DeepWiki
- The Ralph Wiggum Loop: Autonomous Code Generation with a Fresh Context — codecentric
- Claude Code Agent Architecture: Single-Threaded Master Loop — ZenML LLMOps Database
- The Agent Loop: How AI Agents Actually Work — you.com
- The State of AI Coding Agents (2026) — Dave Patten, Medium
#Agentes IA, #CLI, #Claude Code, #LLMs, #AutomatizaciĂłn, #Agentic Loops,