Strands Agents, PydanticAI e DeepEval prometem avaliar a qualidade de respostas de agentes de IA usando LLM-as-Judge. Um teste controlado com casos idênticos e o mesmo modelo (GPT-4o-mini) revela que os scores divergem entre frameworks — e a diferença está na API, não no conceito.

Como avaliar agentes de IA: comparação prática de 3 frameworks

Seu agente de IA produz respostas. Mas como saber se elas são boas? Três frameworks prometem resolver esse problema: Strands Agents, PydanticAI e DeepEval. Todos usam a abordagem LLM-as-Judge — um modelo de linguagem avalia as saídas de outro — e todos detectam alucinações. Mas quando você roda exatamente o mesmo teste em cada um, os scores divergem.

O experimento: mesmos casos, mesmo juiz, frameworks diferentes

O problema das comparações tradicionais é que cada framework testa cenários diferentes e chama isso de "justo". Este estudo fez diferente: rodou casos de teste idênticos, com o mesmo modelo de juiz (gpt-4o-mini), através dos três frameworks. A única variável? A API de cada ferramenta.

Os resultados mostram que as pontuações variam — não por falha, mas por design. O método GEval, por exemplo, produz scores diferentes de prompts diretos baseados em rubrica porque foi projetado para isso: ele usa uma abordagem probabilística de avaliação, enquanto prompts diretos seguem critérios binários ou escalares fixos.

Qual framework escolher?

A escolha depende da sua stack e prioridades:

Strands Agents: otimizado para ambientes AWS, integração nativa com serviços da nuvem.
PydanticAI: foco em type-safety e validação de esquemas com Pydantic, ideal para quem prioriza contratos de dados rigorosos.
DeepEval: framework-agnostic, flexível para diferentes stacks e modelos.

O código completo do experimento está disponível no repositório Evaluate AI Agents with Strands (link na fonte original).

Avaliar agentes de IA não é trivial. Frameworks diferentes produzem resultados diferentes mesmo com entradas idênticas — e isso não é bug, é reflexo de filosofias de design distintas. Entender essas diferenças é essencial para escolher a ferramenta certa e interpretar os resultados corretamente.