Como avaliar agentes de IA: comparação prática de 3 frameworks
Seu agente de IA produz respostas. Mas como saber se elas são boas? Três frameworks prometem resolver esse problema: Strands Agents, PydanticAI e DeepEval. Todos usam a abordagem LLM-as-Judge — um modelo de linguagem avalia as saídas de outro — e detectam alucinações. Mas quando você roda exatamente o mesmo teste em cada um, os scores divergem.
O experimento: mesmos casos, mesmo juiz, frameworks diferentes
A maioria das comparações de frameworks testa cenários diferentes e chama isso de "justo". Este estudo fez diferente: casos de teste idênticos, mesmas rubricas de avaliação, mesmo modelo juiz (gpt-4o-mini). A única variável? A API do framework.
O resultado: as pontuações variam entre os três. Não por acaso, mas por design. Cada framework implementa a lógica de avaliação de forma distinta, mesmo quando o prompt subjacente é similar.
GEval vs. prompt direto: diferença intencional
Um ponto de destaque é a métrica GEval, usada por alguns frameworks. Ela não é equivalente a simplesmente passar uma rubrica ao modelo. A diferença nos scores não é um bug — é uma escolha de arquitetura. GEval aplica normalização e agregação específicas, o que pode ser vantajoso ou não, dependendo do caso de uso.
Qual framework escolher?
A resposta depende do seu stack e prioridades:
- Strands Agents: integração nativa com AWS, ideal para quem já opera na nuvem da Amazon.
- PydanticAI: foco em type-safety e validação de esquemas, ótimo para quem valoriza contratos de dados rigorosos.
- DeepEval: framework-agnostic, flexível para diferentes stacks e modelos.
O código completo do experimento está disponível no repositório Evaluate AI Agents with Strands (link não confirmado na fonte).
