Como avaliar agentes de IA: comparação prática de 3 frameworks

Seu agente de IA produz respostas. Mas como saber se elas são boas? Três frameworks prometem resolver esse problema: Strands Agents, PydanticAI e DeepEval. Todos usam a abordagem LLM-as-Judge — um modelo de linguagem avalia as saídas de outro — e detectam alucinações. Mas quando você roda exatamente o mesmo teste em cada um, os scores divergem.

O experimento: mesmos casos, mesmo juiz, frameworks diferentes

A maioria das comparações de frameworks testa cenários diferentes e chama isso de "justo". Este estudo fez diferente: casos de teste idênticos, mesmas rubricas de avaliação, mesmo modelo juiz (gpt-4o-mini). A única variável? A API do framework.

O resultado: as pontuações variam entre os três. Não por acaso, mas por design. Cada framework implementa a lógica de avaliação de forma distinta, mesmo quando o prompt subjacente é similar.

GEval vs. prompt direto: diferença intencional

Um ponto de destaque é a métrica GEval, usada por alguns frameworks. Ela não é equivalente a simplesmente passar uma rubrica ao modelo. A diferença nos scores não é um bug — é uma escolha de arquitetura. GEval aplica normalização e agregação específicas, o que pode ser vantajoso ou não, dependendo do caso de uso.

Qual framework escolher?

A resposta depende do seu stack e prioridades:

  • Strands Agents: integração nativa com AWS, ideal para quem já opera na nuvem da Amazon.
  • PydanticAI: foco em type-safety e validação de esquemas, ótimo para quem valoriza contratos de dados rigorosos.
  • DeepEval: framework-agnostic, flexível para diferentes stacks e modelos.

O código completo do experimento está disponível no repositório Evaluate AI Agents with Strands (link não confirmado na fonte).