Por Elvis Silva

Agent Runtime Architecture: Como Executar Sistemas Multi-Agentes com Confiabilidade em Produção

Frameworks de orquestração resolvem o "como os agentes conversam", mas apenas um Agent Runtime resolve o "como o sistema sobrevive à realidade da produção". Se você está movendo sistemas multi-agentes de notebooks para o mundo real, a confiabilidade não é opcional.

1. O Problema Real Depois da Orquestração

Muitos arquitetos cometem o erro de tratar grafos de agentes como funções tradicionais de curta duração. Em produção, a natureza probabilística dos LLMs e a latência das ferramentas externas transformam falhas raras em certezas estatísticas.

1.1 Os Sintomas Mais Comuns

Loops Infinitos de Raciocínio: O agente falha em atingir a condição de parada e consome tokens exponencialmente até atingir o limite da API ou do seu cartão de crédito.
Race Conditions em State Stores: Múltiplos agentes tentando atualizar o mesmo contexto de memória sem mecanismos de locking, resultando em corrupção de estado.
Falha Silenciosa de Ferramentas: Uma ferramenta externa retorna um erro 500 ou um timeout, e o agente, sem instruções de retry no runtime, "alucina" um resultado para continuar o fluxo.
Memory Corruption: O histórico de mensagens (chat history) cresce além da janela de contexto do modelo sem estratégias de sumarização ou eviction gerenciadas.

1.2 Caso de Uso: O Incidente da LogiLogistic Solutions

A LogiLogistic Solutions, uma empresa "fictícia" de logística global, implementou um sistema multi-agente para otimização de rotas e resposta a incidentes climáticos. O sistema foi construído puramente sobre um framework de orquestração, sem um runtime dedicado.

O Incidente: Durante uma tempestade na costa leste, um agente de monitoramento disparou 450 requisições simultâneas para um agente de replanejamento. Sem uma Task Queue ou controle de concorrência, o sistema entrou em um deadlock de estado no banco de dados.
Causa Raiz: O framework tentou gerenciar a memória em RAM. Quando o processo reiniciou por falta de memória (OOM), todos os estados das rotas em processamento foram perdidos.
Custo do Incidente: R$ 185.000,00 em atrasos de carga e taxas aeroportuárias em apenas 4 horas.
Consequência: A empresa teve que desativar o sistema e retornar ao despacho manual por 48 horas, perdendo a confiança dos stakeholders no projeto de IA.

2. O Conceito de Agent Runtime

A distinção fundamental é: o framework define a lógica do grafo (o "código"), enquanto o Agent Runtime define o ambiente de execução (o "servidor de aplicação").

2.1 Runtime ≠ Framework

Conceito	O que faz	Exemplo
Framework	Define a topologia do grafo, as transições entre estados e a lógica de decisão do agente.	LangGraph, CrewAI, AutoGen
Agent Runtime	Provê persistência, retentativas duráveis, gerenciamento de filas de tarefas e isolamento de recursos.	Temporal.io, AWS Step Functions, Celery
Platform	Infraestrutura gerenciada que oferece modelos e APIs de base.	Azure OpenAI, AWS Bedrock

2.2 Os Quatro Pilares do Agent Runtime

Para evitar o cenário da LogiLogistic, seu runtime deve ser construído sobre quatro pilares:

Execution Engine: O motor que de fato invoca o LLM e as ferramentas, lidando com a lógica de retries exponenciais e timeouts. Sem ele, você depende da sorte da rede.
State Persistence (State Store): Garante que cada passo do raciocínio do agente seja persistido em disco. Se o servidor cair no passo 4 de 10, o runtime deve retomar do passo 4, não reiniciar do zero.
Task Queue: Gerencia a carga de trabalho. Agentes são lentos por natureza. Uma fila garante que picos de demanda não derrubem seus serviços downstream.
Scheduler: Orquestra a execução temporal. Ele decide quando um agente deve acordar, quando deve esperar por um humano (HITL) e quando deve expirar uma tarefa.

3. Componentes de um Runtime Agêntico em Produção

Um runtime não é uma peça única, mas uma composição de camadas que garantem que o estado do agente sobreviva a falhas de rede e reinicializações de pods.

3.1 Layer 1 — Agent State Store

O estado de um agente em produção é sagrado. Se você o mantém apenas em memória RAM, você tem um protótipo, não um sistema.

Redis 7.x: É a escolha padrão para Short-term Memory e coordenação de locks. O uso de Redis Pub/Sub ou Streams permite que diferentes instâncias de agentes reajam a mudanças de estado em milissegundos.
Pinecone/Weaviate: Não são bancos de dados de estado, mas de Long-term Experience. Use-os para armazenar memórias passíveis de recuperação via RAG, não para controlar o fluxo de execução atual.
Kafka/DynamoDB Streams: Essencial para criar um Event Log imutável. Em setores regulados, você precisa provar por que um agente tomou uma decisão. Salvar cada transição de estado como um evento permite o replay completo do raciocínio para auditoria.

3.2 Layer 2 — Execution Scheduler

O agendamento determina a durabilidade do workflow.

Temporal.io: A solução definitiva para runtimes agênticos. Ele oferece "Durable Execution", o que significa que, se o seu código falhar no meio de uma chamada de LLM, o Temporal mantém o estado da pilha e retoma exatamente de onde parou. É ideal para agentes que executam tarefas de longa duração (horas ou dias).
AWS Step Functions: Excelente se sua stack é 100% AWS. Resolve bem a orquestração de lambdas, mas o custo pode escalar rápido com o volume de transições de estado de agentes complexos.
Celery: Funciona para tarefas simples e assíncronas, mas carece de visibilidade nativa sobre grafos cíclicos complexos, exigindo muita lógica customizada para gerenciar dependências entre agentes.

3.3 Layer 3 — Observability

Monitorar agentes não é apenas olhar logs de erro 500.

LangSmith: Focado na performance do modelo. Monitora latência de tokens, variações de custo e qualidade de outputs (via unit tests de LLM).
OpenTelemetry: Integra o comportamento do agente com o resto da sua infraestrutura. Permite correlacionar uma lentidão no agente com um pico de CPU no State Store.
Arize Phoenix: Adicione quando precisar de avaliação em tempo real (evals). Ele detecta drift de performance antes que o usuário final perceba que o agente está ficando "menos inteligente".

3.4 Layer 4 — Safety & Governance

A última linha de defesa entre o agente e o caos operacional.

HITL (Human-in-the-loop) Assíncrono: Implemente via checkpoints no State Store. O agente salva o estado, emite um sinal no Temporal e entra em sleep até que um sinal externo (webhook da aprovação humana) o acorde.
Rollback de Estado: Se um agente de codificação corromper um arquivo, o runtime deve ser capaz de reverter o State Store para o nó anterior à ação falha.
Budget Guardrails: Implementação de Circuit Breakers que encerram a thread se o custo acumulado da tarefa exceder o limite (ex: $5.00 por thread).

Diagrama de Arquitetura do Runtime (ASCII)


text
1+-----------------------------------------------------------------------+
2|                   USER INTERFACE / API GATEWAY                        |
3+-----------------------+-----------------------+-----------------------+
4                        | (Async Signal)
5+-----------------------v-----------------------+-----------------------+
6| LAYER 4: SAFETY & GOVERNANCE                  | [HITL Checkpoint]     |
7| [Budget Circuit Breaker] [Policy Enforcement] | [State Rollback]      |
8+-----------------------+-----------------------+-----------------------+
9                        | (Orchestrated Flow)
10+-----------------------v-----------------------+-----------------------+
11| LAYER 2: EXECUTION SCHEDULER (Temporal.io)    | [Retry Policy]        |
12| [Task Queue] [Timer Service] [Worker Group]   | [Durable Timer]       |
13+-----------------------+-----------------------+-----------------------+
14          |                     |                      |
15+---------v----------+  +-------v----------+  +--------v--------------+
16| LAYER 1: STATE     |  | LAYER 3: OBS     |  | AGENT NODES (Logic)   |
17| [Redis 7.x-Short]  |  | [LangSmith]      |  | [Planner Agent]       |
18| [Postgres-Long]    |  | [OpenTelemetry]  |  | [Worker Agent]        |
19| [Kafka-Audit Log]  |  | [Arize Phoenix]  |  | [Tool/API Access]     |
20+--------------------+  +------------------+  +-----------------------+
21

4. Patterns Avançados de Execução Agêntica

A confiabilidade em produção não vem da capacidade do LLM de acertar, mas da capacidade do sistema de gerenciar o erro.

4.1 Plan-then-Execute

Diferente do padrão Zero-shot, o Plan-then-Execute introduz um nó de planejamento agnóstico à execução. O Planner gera uma DAG (Directed Acyclic Graph) de tarefas. O runtime então despacha cada tarefa para os Workers. Isso aumenta a previsibilidade: você sabe o que o agente pretende fazer antes de ele começar a gastar tokens em ferramentas.

4.2 Dynamic Replanning

Em produção, ferramentas falham. O Dynamic Replanning ocorre quando um Worker retorna um erro técnico ou um resultado inesperado. O runtime captura esse estado, injeta-o de volta no Planner com o histórico da falha, e o Planner gera uma nova estratégia. Sem um State Store persistente, esse contexto de falha seria perdido no reinício da thread.

4.3 Hierarchical Agents

Para sistemas complexos, utilizamos a hierarquia Supervisor → Sub-agente. O Supervisor gerencia o Budget Guardrail global e delega tarefas específicas. Cada Sub-agente possui seu próprio escopo limitado, evitando que um erro em um micro-serviço consuma todo o contexto do processo principal.

4.4 Agent Spawning

O runtime deve suportar a instanciação dinâmica de agentes filhos. Quando um agente de análise jurídica detecta 50 contratos em um ZIP, ele deve ser capaz de spawnar 50 sub-agentes em paralelo. O runtime gerencia o ciclo de vida: instancia, monitora a conclusão e destrói o processo filho para evitar Orphan Agents (processos zumbis que consomem memória e custo de API).

4.5 Caso de Uso: Pipeline "LexGuardian" (Setor Jurídico)

A LexGuardian utiliza IA para auditoria de conformidade em massa. O pipeline exige durabilidade: uma análise pode durar 40 minutos e envolver 200 chamadas de API.


python
1from dataclasses import dataclass, field
2from enum import Enum
3from typing import List, Dict, Optional, Any
4import time
5import redis # redis-py
6
7class AgentStatus(Enum):
8    PENDING = "pending"
9    RUNNING = "running"
10    COMPLETED = "completed"
11    BUDGET_EXCEEDED = "budget_exceeded"
12    FAILED = "failed"
13
14@dataclass
15class AgentState:
16    task_id: str
17    plan: List[str]
18    results: Dict[str, Any] = field(default_factory=dict)
19    total_cost: float = 0.0
20    status: AgentStatus = AgentStatus.PENDING
21
22class BudgetGuardrail:
23    """Implementa circuit breaker baseado em custo financeiro."""
24    def __init__(self, limit: float):
25        self.limit = limit
26
27    def check(self, current_cost: float) -> bool:
28        if current_cost > self.limit:
29            return False
30        return True
31
32class LexGuardianRuntime:
33    def __init__(self, redis_url: str, budget_limit: float):
34        self.state_store = redis.from_url(redis_url)
35        self.guardrail = BudgetGuardrail(limit=budget_limit)
36
37    def persist_state(self, state: AgentState) -> None:
38        # Serialização do estado para Redis (simulada)
39        self.state_store.set(f"agent:{state.task_id}", str(state.__dict__))
40
41    def execute_pipeline(self, task_id: str, instructions: str) -> None:
42        # 1. Plan-then-Execute
43        plan = ["Analise_Cláusula_Rescisão", "Check_Conformidade_LGPD", "Gerar_Relatório"]
44        state = AgentState(task_id=task_id, plan=plan)
45        state.status = AgentStatus.RUNNING
46        
47        for step in state.plan:
48            # 2. Check Budget Guardrail antes de cada step
49            if not self.guardrail.check(state.total_cost):
50                state.status = AgentStatus.BUDGET_EXCEEDED
51                self.persist_state(state)
52                print(f"[CRITICAL] Budget exceeded for {task_id}. Execution halted.")
53                return
54
55            try:
56                # 3. Simulação de Execução do Agente
57                print(f"[RUNNING] Step: {step} for {task_id}...")
58                step_cost = 0.85 # Custo simulado por chamada de LLM
59                
60                # Simulação de Replanning dinâmico em caso de falha de ferramenta
61                if step == "Check_Conformidade_LGPD" and time.time() % 2 == 0:
62                    raise Exception("API de consulta jurídica offline")
63
64                state.results[step] = "Success"
65                state.total_cost += step_cost
66                
67            except Exception as e:
68                # 4. Dynamic Replanning Logic
69                print(f"[REPLANNING] Error in {step}: {e}. Retrying with alternative tool.")
70                state.total_cost += 0.20 # Custo do replanning
71                # Lógica de retry injetada aqui
72                state.results[step] = "Success (after replan)"
73
74            # 5. State Persistence após cada transição de nó
75            self.persist_state(state)
76
77        state.status = AgentStatus.COMPLETED
78        self.persist_state(state)
79        print(f"[COMPLETED] Task {task_id} finished. Final Cost: ${state.total_cost:.2f}")
80
81# Exemplo de execução
82runtime = LexGuardianRuntime(redis_url="redis://localhost:6379", budget_limit=5.0)
83runtime.execute_pipeline(task_id="AUDIT_9982", instructions="Verificar compliance contrato de SaaS")
84

Resultado Quantitativo: Antes do runtime com guardrails, uma falha de ferramenta na LexGuardian causava loops de retentativa que chegavam a custar R$240,00 por documento. Com o LexGuardianRuntime, o custo médio foi travado em R$4,20, com uma taxa de recuperação (replan) de 94% sem intervenção humana.

5. Framework vs Runtime vs Platform

A confusão entre essas três camadas é a principal causa de falhas de escalabilidade. Um framework não substitui um runtime, e uma plataforma não resolve a lógica de orquestração.

5.1 Matriz de Responsabilidades

	LangGraph	CrewAI	Temporal.io	AWS Bedrock
Categoria	Framework	Framework	Agent Runtime	Platform
O que resolve	Ciclos, DAGs e State Schemas técnicos.	Orquestração baseada em papéis (Roles).	Persistência durável e Retries.	Modelos (LLMs) e Infra de Hardware.
O que NÃO resolve	Fila de tarefas e escalabilidade horizontal.	Persistência de estado de longa duração.	Lógica de "raciocínio" do agente.	Lógica de decisão entre agentes.
Quando usar	Quando o fluxo exige ciclos e lógica complexa.	Protótipos rápidos de sistemas MAS.	Em todos os sistemas de Produção.	Para consumir modelos via API segura.
Combina com	Temporal.io + Bedrock	Redis + Step Functions	LangGraph + OpenAI	LangGraph + Temporal

A Analogia da Construção Civil:

O Framework é a planta azul (o desenho da casa).
A Platform é o terreno e o fornecimento de energia (a base).
O Agent Runtime é o mestre de obras e os engenheiros no canteiro (quem garante que, se chover ou faltar material, a construção retome do ponto exato onde parou até ser concluída).

6. Como Evoluir para o Agentic OS

Um runtime resolve a execução de um workflow. O Agentic OS gerencia a frota. Enquanto o runtime se preocupa com o "Agente A", o Agentic OS se preocupa com a alocação de recursos, priorização de tokens entre departamentos e a governança de identidade de toda a empresa autônoma.

6.1 Do Script à Autonomia (Roadmap 5 Níveis)


text
Nível 1 [SCRIPT]       -> Python + OpenAI API. (Limitação: Sem memória, sem estado).
Nível 2 [FRAMEWORK]    -> LangChain/CrewAI. (Ganho: Orquestração. Quebra: Falha de rede = perda de progresso).
Nível 3 [RUNTIME]      -> Temporal + State Store. (ESTE ARTIGO. Resolvido: Durabilidade e Confiabilidade).
Nível 4 [AGENTIC OS]   -> Fleet Management + Resource Allocation. (Habilita: Agentes operando toda a firma).
Nível 5 [AUTONOMOUS]   -> Autonomous Enterprise. (Horizonte: Sistemas que se auto-ajustam ao P&L).

6.2 Próximos Passos: Check-list de Implementação

Se você tem agentes rodando hoje, siga esta ordem de prioridade para estabilizar sua operação:

Externalize o Estado: Mova qualquer variável de memória da RAM para um Redis 7.x.
Implemente Checkpoints: Force o agente a salvar o progresso após cada chamada de ferramenta.
Adicione um Circuit Breaker: Use o padrão de Budget Guardrail mostrado na seção 4 para evitar surpresas financeiras.
Adote Execução Durável: Migre seus fluxos críticos para o Temporal.io para garantir que nenhuma tarefa seja esquecida.
Centralize a Observabilidade: Integre LangSmith com seus logs de infraestrutura para ter a visão completa do "pensamento vs. custo".

7. Conclusão

Se a LogiLogistic Solutions (mencionada na Seção 1) tivesse implementado um Agent Runtime robusto, o incidente de R$ 185 mil teria sido apenas uma linha de log de retentativa bem-sucedida. Em vez de um deadlock de memória e perda de estados, o sistema teria pausado o processamento, persistido o progresso no Redis e retomado as rotas assim que a conectividade fosse restabelecida. O runtime não evita falhas; ele as torna gerenciáveis.

A distinção entre Framework, Runtime e Platform é a fundação da engenharia de IA moderna. O Framework desenha o comportamento, a Platform fornece a inteligência bruta, mas é o Runtime que garante a execução determinística em um mundo probabilístico. Tentar escalar agentes sem essa separação é aceitar um teto técnico intransponível de instabilidade e custos imprevisíveis.

Além da confiabilidade, um runtime bem estruturado acelera a iteração. Quando você tem visibilidade total sobre o Decision Lineage e o custo por tarefa, a otimização deixa de ser baseada em "tentativa e erro" de prompts e passa a ser uma decisão de engenharia baseada em dados. Você ganha a capacidade de auditar cada pensamento do agente, um requisito inegociável para a governança corporativa.

O próximo passo lógico dessa jornada é a transição para o Agentic OS e a orquestração via OpsGraph. No próximo artigo da série, discutiremos como sair de silos de agentes e passar para uma infraestrutura centralizada onde recursos de computação e tokens são alocados dinamicamente para centenas de sistemas autônomos em toda a empresa.

FAQ

Temporal.io é pesado demais para startups?

Não. Pelo contrário, para startups ele é um multiplicador de força. O custo de gerenciar estados corrompidos e retentativas manuais em um banco de dados próprio é muito maior do que o overhead inicial do Temporal. Startups precisam de velocidade, e nada trava mais o desenvolvimento do que "bugs fantasmas" de concorrência que o Temporal resolve nativamente com execução durável.

LangGraph já resolve produção ou precisa de runtime?

LangGraph é um excelente modelo de programação para definir grafos cíclicos, mas ele é stateless por padrão no que diz respeito à infraestrutura. Ele precisa de um Checkpointer persistente (como Redis ou Postgres) e de um worker durável (como Temporal) para ser considerado pronto para produção enterprise. Sem isso, você está rodando apenas uma biblioteca lógica sem garantias de execução.

Como implementar HITL sem travar velocidade dos agentes?

A chave é o padrão Async Signal. O agente não deve ficar "esperando" em um loop ativo. Ele deve salvar seu estado atual no State Store, emitir um evento para um dashboard humano e encerrar sua thread. Quando o humano aprova, o sistema envia um sinal de retorno que reativa o agente do ponto exato onde ele parou. Isso libera recursos do runtime enquanto a decisão humana é tomada.

Qual a diferença entre observabilidade de LLM e de runtime?

Observabilidade de LLM (LangSmith) foca na qualidade do output, tokens e custo do modelo. Observabilidade de runtime (OpenTelemetry/Temporal Cloud) foca na saúde do sistema: latência da fila, erros de conexão com banco de dados, falhas de workers e timeouts de ferramentas. Você precisa de ambos: um para saber se o agente é inteligente, outro para saber se ele está vivo.

Budget guardrail quebra o pipeline ou pausa graciosamente?

Depende da implementação, mas o padrão recomendado pela AI2You é o Graceful Pause. Ao atingir 80% do budget, o runtime emite um alerta. Ao atingir 100%, ele realiza um snapshot completo do estado e suspende a execução, exigindo uma elevação manual de budget por um gestor para continuar. Isso evita que o trabalho já feito (e pago) seja simplesmente descartado por um erro de limite.

Como saber se meu sistema precisa de runtime agora?

Se o seu sistema de IA atende a qualquer um destes critérios, você já passou do ponto de precisar de um runtime:

A execução de uma tarefa dura mais de 30 segundos;
O agente usa mais de 3 ferramentas externas;
Você tem requisitos legais de auditoria sobre a tomada de decisão; 4) O custo de uma falha de "loop infinito" excede o lucro da transação.

Referências

📚 Documentação Técnica

Temporal.io Documentation — Durable Execution & Workflows.
Redis 7.x Programmability — Redis Functions & Streams.
LangGraph Persistence Guide — State Management.
OpenTelemetry for Python — Distributed Tracing.
AWS Step Functions Developer Guide — Serverless Workflows.
LangSmith SDK — LLM Tracing & Evaluation.

🔗 Série AI2You

📄 Papers e Reports

Anthropic, "Building Effective Agents", Anthropic Research, 2024.
Wu et al., "AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation", Microsoft Research, 2023.
Ng, Andrew, "Agentic AI Design Patterns", DeepLearning.ai, 2024.
Gartner, "Hype Cycle for Artificial Intelligence: AI Agents & Runtime Platforms", 2025.
Shinn et al., "Reflexion: Language Agents with Verbal Reinforcement Learning", Northeastern University, 2023.