Empresas estão rodando suas frotas de GPUs com apenas 5% de utilização, pagando por capacidade ociosa devido ao medo de perder acesso a esses recursos escassos. Esse comportamento, impulsionado pelo FOMO (fear of missing out), não só desperdiça milhões, mas também pressiona os preços para cima, como visto no recente aumento de 15% nos preços de GPUs H200 da AWS. É um ciclo vicioso que revela uma nova dinâmica no mercado de computação em nuvem.

Escassez de GPUs: Um Mercado Sob Tensão Há Anos

Há pelo menos dois anos, o mercado de GPUs vive uma escassez crônica, alimentada pela explosão da demanda por inteligência artificial e machine learning. Empresas de todos os tamanhos disputam chips como os Nvidia H100 e H200, enquanto a capacidade de produção, limitada por gargalos como o empacotamento avançado da TSMC (booked até meados de 2027), não acompanha. Isso transformou GPUs em um recurso quase tão valioso quanto imóveis, como observa Laurent Gil, co-fundador da Cast AI, que chama os neoclouds de “neo-real estate”.

Antes, o mercado de computação em nuvem seguia uma lógica de deflação constante. Desde o lançamento do EC2 pela AWS em 2006, os preços de computação caíam ano a ano, beneficiando empresas com orçamentos previsíveis. Mas a escassez de GPUs de ponta mudou essa regra, criando um mercado bifurcado entre camadas commodity (onde preços ainda caem) e frontier (onde a disputa eleva custos).

Essa tensão já se refletia em longas filas de espera nas hyperscalers e em compromissos de longo prazo que empresas assinavam sem certeza de uso. O relatório da Cast AI de 2026 sobre otimização de Kubernetes mostra que a utilização média de frotas de GPUs em produção está em míseros 5%, contra um baseline sem esforço de 30%. É um desperdício caro, mas compreensível dado o contexto de medo e incerteza.

AWS Aumenta Preços e Utilização de GPUs Despenca

O fato concreto que marca essa virada é o aumento de preços de GPUs reservadas H200 pela AWS, que subiram cerca de 15% em janeiro, sem anúncio formal, quebrando um padrão de duas décadas de cortes de preço. Ao mesmo tempo, fornecedores de memória como os de HBM3e elevaram seus preços em 20% para 2026, refletindo a pressão na cadeia de suprimentos. Até a AMD sinalizou aumentos de preços para o mesmo período, citando os mesmos gargalos.

Enquanto isso, o relatório da Cast AI revela que empresas estão utilizando apenas 5% de suas frotas de GPUs, um número seis vezes pior que um baseline sem otimização. Laurent Gil explica o ciclo de procurement: empresas entram em listas de espera por semanas ou meses, recebem uma oferta limitada (como 36 GPUs em vez de 48 pedidas), e aceitam compromissos de 1 ou 3 anos para não perder a alocação. O resultado é uma frota ociosa, cobrada por hora, muitas vezes a taxas on-demand três vezes mais caras que reservas anuais.

Essa combinação de preços subindo e utilização caindo é um ponto de inflexão. No mercado commodity, preços de H100 caíram de US$ 7,57 por GPU-hora em setembro de 2025 para US$ 3,93 hoje, com Lambda Labs e RunPod listando abaixo de US$ 3. Mas na camada frontier, a escassez de H200 (2 milhões de pedidos contra 700 mil em estoque) e até o ressurgimento de preços de A100 mostram que o FOMO está se espalhando até para gerações mais antigas.

Um Mercado Dividido e o Custo do Medo

Além do desperdício financeiro, o que esse cenário revela é uma divisão estrutural no mercado de nuvem. Há uma camada commodity, onde a deflação ainda funciona e chips como Nvidia T4 estão disponíveis com 90% de probabilidade em regiões da AWS, e uma camada frontier, onde a escassez de chips como H200 e limitações de produção da TSMC criam um mercado de escassez e preços crescentes. Quem perde são as empresas presas a compromissos de longo prazo com baixa utilização, enquanto hyperscalers e fornecedores de hardware capitalizam a demanda insaciável.

O FOMO, como Gil aponta, não é só um comportamento irracional — é uma resposta lógica a um sistema onde perder alocação pode custar meses de atraso em projetos de IA. Isso sinaliza que o mercado de computação em nuvem não é mais um monólito de preços descendentes; ele agora premia quem pode pagar mais ou esperar menos, enquanto pune quem não otimiza. É uma mudança de paradigma que pode redefinir como empresas planejam seus orçamentos de tecnologia.

Pressão por Otimização ou Mais Aumentos à Vista

O próximo passo é claro: empresas precisarão enfrentar o desafio de otimizar suas frotas de GPUs, mirando taxas de utilização próximas a 30%, como sugere Gil, ou continuarão sangrando recursos em capacidade ociosa enquanto os preços na camada frontier seguem subindo. Sem liberar capacidade ociosa, o ciclo de escassez e FOMO só se intensifica, potencializando mais aumentos como os da AWS e da AMD previstos para 2026.

Fonte: VentureBeat