Como avaliar agentes de IA: comparação prática de 3 frameworks
Seu agente de IA produz respostas. Mas como saber se elas são boas? Três frameworks prometem resolver esse problema: Strands Agents, PydanticAI e DeepEval. Todos usam a abordagem LLM-as-Judge — um modelo de linguagem avalia as saídas de outro — e todos detectam alucinações. Mas quando você roda exatamente o mesmo teste em cada um, os scores divergem.
O experimento: mesmos casos, mesmo juiz, frameworks diferentes
O problema das comparações tradicionais é que cada framework testa cenários diferentes e chama isso de "justo". Este estudo fez diferente: rodou casos de teste idênticos, com o mesmo modelo de juiz (gpt-4o-mini), através dos três frameworks. A única variável? A API de cada ferramenta.
Os resultados mostram que as pontuações variam — não por falha, mas por design. O método GEval, por exemplo, produz scores diferentes de prompts diretos baseados em rubrica porque foi projetado para isso: ele usa uma abordagem probabilística de avaliação, enquanto prompts diretos seguem critérios binários ou escalares fixos.
Qual framework escolher?
A escolha depende da sua stack e prioridades:
- Strands Agents: otimizado para ambientes AWS, integração nativa com serviços da nuvem.
- PydanticAI: foco em type-safety e validação de esquemas com Pydantic, ideal para quem prioriza contratos de dados rigorosos.
- DeepEval: framework-agnostic, flexível para diferentes stacks e modelos.
O código completo do experimento está disponível no repositório Evaluate AI Agents with Strands (link na fonte original).
Avaliar agentes de IA não é trivial. Frameworks diferentes produzem resultados diferentes mesmo com entradas idênticas — e isso não é bug, é reflexo de filosofias de design distintas. Entender essas diferenças é essencial para escolher a ferramenta certa e interpretar os resultados corretamente.
