BLOG · 2026-06-23

Agentes de IA em produção: o que separa demo de operação real

Demo de agente de IA é fácil. Agente rodando 24/7 com dado real, integração crítica e responsabilidade jurídica é outro jogo. Os 7 cortes que separam um e outro — da arquitetura de prompt ao runbook de incidente.

Por João Soares · Fundador, AUMI Group · publicado em 2026-06-23

A demo é a parte fácil

Em 2026, qualquer dev júnior monta uma demo de agente em 30 minutos. Cole um prompt, plugue uma ferramenta, grave o vídeo. Funciona o suficiente pra impressionar quem não opera.

Pôr o mesmo agente em produção — com dado real, integração crítica, regulador respirando no cangote e usuário pago do outro lado — é onde 90% dos projetos morrem. Não por falta de modelo bom. Por falta de operação.

Os 7 cortes

Cada um separa quem demonstrou de quem entregou:

Contexto vivo, não prompt estático. Agente em produção lê convenções, decisões passadas, regras de negócio do seu vault — não adivinha a partir de um parágrafo de system prompt.
Ferramentas com escopo mínimo. Cada tool tem permissão cirúrgica. Ninguém dá "admin no banco" pra agente — dá "SELECT em tabela X com filtro Y".
Observabilidade ponta a ponta. Cada prompt, cada chamada de tool, cada resposta logada com contexto. Quando algo der errado — vai dar — você precisa do replay.
Gate humano em ações irreversíveis. Apagar, transferir, publicar, cobrar. Sempre humano. Sempre.
Avaliação contínua. Conjunto de prompts-canary rodando diário. Modelo regrediu? Mudou de comportamento? Você sabe antes do cliente.
Runbook de incidênte. O que fazer quando o agente alucina e age. Quem desliga, quem comunica, quem reverte. Testado, não teorizado.
Responsabilidade humana com nome. Cada entrega de agente passa por revisor sênior que assina. Não por cerimonia — por jurídico.

O custo que ninguém calcula no piloto

No piloto, você conta tokens. Em produção, você conta:

Tokens × escala real (geralmente 10-100× o piloto)
Custo de observabilidade (Datadog/Honeycomb por evento)
Custo de armazenamento de logs (compliance exige retenção longa)
Custo de re-treino/fine-tune quando o modelo base muda
Custo de incidente (1 alucinação cara > 6 meses de token)
Custo de gente sênior revisando e calibrando

Quem não orça esses 6 itens entra no vermelho no mês 3 e culpa o modelo.

Arquitetura mínima pra não falhar

Independente do framework (LangGraph, CrewAI, Letta, custom), a estrutura que funciona em produção tem essas 5 camadas:

Orçuestrador determinístico — máquina de estado que decide quando chamar LLM, quando cair em código. LLM não controla fluxo crítico.
Agent OS — a camada que gerencia identidade do agente, ferramentas disponíveis, memória, auditoria. Reutilizável entre agentes.
Brain — memória de longo prazo: vault de conhecimento + RAG + decisões passadas. Sem isso, agente esquece tudo a cada turn.
Tools com política — cada ferramenta tem ACL, rate limit, audit. Não é função Python crua.
Sandbox de execução — onde código gerado roda isolado de produção.

Onde a AUMI entra

O método AUMI cobre as 5 camadas acima de fora pra dentro: START coloca a primeira frente em produção com disciplina, SCALE roda várias frentes em paralelo com integração de canal, HYPER dedica orquestrador sênior e SLA 24/7. Pra missoes onde o agente é alvo, AEGIS blinda contra red team de fronteira.

Diagnóstico do seu cenário em 24h úteis: assessment gratuito.

Perguntas frequentes

O que separa "demo de agente" de agente em produção?

Sete cortes: contexto vivo (não prompt estático), tools com escopo mínimo, observabilidade ponta-a-ponta, gate humano em ação irreversível, avaliação contínua com canary, runbook de incidente testado, responsabilidade humana assinada.

Que framework usar: LangGraph, CrewAI, custom?

Independe. A estrutura que funciona em produção tem 5 camadas (orquestrador determinístico, Agent OS, Brain, tools com política, sandbox) qualquer que seja o framework abaixo.

Quanto custa rodar agente em produção de verdade (escala média)?

Em escala 10-100M tokens/mês: tokens (10-25k), observabilidade (1-5k), armazenamento de logs com retenção compliance (0.5-3k), gente sênior revisando (8-20k), retreino quando modelo muda (variável). Quem não orça 6 linhas culpa o modelo no mês 3.

Como evitar alucinacão em ação crítica (apagar dado, transferir dinheiro)?

Gate humano obrigatório em qualquer ação irreversível. Confirmação explícita antes de execução. Nunca delegue gate humano pra modelo, por mais confiável que pareça.

Funciona pra time pequeno (5-10 devs)?

Sim. O modelo AUMI é squad inteira como assinatura, então time pequeno aproveita 5-8 agentes especializados sem contratar 5-8 pessoas.