Empresas estão presas em um ciclo vicioso: pagam por GPUs que mal utilizam, com frotas operando a apenas 5% de capacidade, enquanto os preços disparam. Esse desperdício, impulsionado pelo medo de perder alocação (FOMO), revela uma falha estrutural no mercado de computação em nuvem. Mais do que um problema técnico, é um sinal de como a escassez está redefinindo prioridades e custos na corrida por IA.

Escassez de GPUs: O Mercado Sob Tensão Antes da Crise

Há dois anos, a demanda por GPUs explodiu com o avanço de aplicações de IA, especialmente em grandes empresas. A escassez de chips como os Nvidia H100 e H200 tornou a alocação de capacidade uma batalha, com listas de espera de semanas ou meses nos hyperscalers como AWS. Segundo Laurent Gil, co-fundador da Cast AI, o mercado de nuvem começou a se parecer mais com “neo-imobiliário” do que com computação elástica, onde ter um slot é mais valioso do que usá-lo.

Essa tensão já vinha inflando custos e distorcendo decisões. Enquanto o preço de GPUs on-demand como o H100 caiu de US$ 7,57 por hora em setembro de 2025 para US$ 3,93 hoje, segundo dados de Lambda Labs e RunPod, os chips de ponta, como o H200, enfrentam uma demanda esmagadora. Nvidia recebeu pedidos de 2 milhões de unidades do H200 para 2026, contra apenas 700 mil em estoque, evidenciando um gargalo que a TSMC, com embalagens avançadas reservadas até meados de 2027, não consegue aliviar.

Antes mesmo dos recentes aumentos de preço, o mercado já estava dividido em dois: um camada commodity, com preços em queda para chips mais antigos como o A100 (US$ 1,92 por hora), e uma camada de fronteira, onde a escassez de chips de última geração dita as regras. Essa divisão preparou o terreno para o que estamos vendo agora: um comportamento de acumulação que piora a crise.

Utilização de 5% e Aumentos de Preço: O Que Está Acontecendo

De acordo com o relatório de 2026 da Cast AI sobre otimização de Kubernetes, as frotas de GPUs das empresas estão operando a míseros 5% de utilização em clusters de produção reais. Isso é seis vezes pior do que um baseline sem esforço algum, que Gil estima em 30% considerando ciclos diários e padrões de negócios. Apesar de serem a linha de infraestrutura mais cara, essas GPUs ficam ociosas, mas ainda são cobradas por hora, muitas vezes a taxas on-demand três vezes mais altas que reservas anuais.

O motivo? Um loop de aquisição disfuncional. Empresas entram em listas de espera de hyperscalers e, após meses, recebem ofertas como “pegue 36 GPUs de 48 pedidas, mas só com compromisso de 1 ou 3 anos”. O medo de perder a alocação as força a aceitar, mesmo sem workloads para justificar. Uma vez alocadas, ninguém devolve a capacidade, pois reacquiri-la levaria meses e colocaria equipes em desvantagem competitiva.

Paralelamente, os preços estão subindo pela primeira vez em duas décadas. A AWS aumentou os preços reservados do H200 em 15% em janeiro, sem anúncio formal, quebrando o padrão de deflação de computação em nuvem desde o lançamento do EC2 em 2006. Fornecedores de memória também elevaram os preços do HBM3e em 20% para 2026, enquanto AMD sinalizou aumentos próprios, citando a mesma escassez que pressiona até gerações mais antigas como o A100.

FOMO e Divisão de Mercado: O Significado Mais Profundo

Esse cenário não é apenas sobre desperdício ou preços; ele expõe como o FOMO está reestruturando o mercado de computação em nuvem. A divisão entre a camada commodity (com preços em queda para chips acessíveis) e a camada de fronteira (onde a escassez de H200 e gargalos na TSMC impulsionam custos) cria um jogo de soma zero: quem está na fronteira paga mais e acumula capacidade, enquanto outros ficam para trás, incapazes de competir em workloads de IA de ponta.

Quem perde são as empresas presas a compromissos de longo prazo com utilização de 5%, sangrando orçamento sem retorno. Quem ganha são os hyperscalers e fabricantes como Nvidia, que lucram com a demanda inflada e a relutância em liberar capacidade. Mais do que um problema técnico, isso sinaliza que a computação em nuvem, antes vista como elástica e eficiente, está se tornando um mercado de escassez e especulação, onde o acesso é mais valioso que o uso.

Próximos Passos: Como as Empresas Podem (ou Não) Reagir

Não há solução fácil à vista. Enquanto a escassez persistir — com a TSMC reservada até 2027 e pedidos de H200 superando o estoque da Nvidia em quase três vezes — as empresas continuarão acumulando GPUs por medo, mesmo que isso signifique pagar por capacidade ociosa. Algumas podem buscar otimização, mirando os 30% de utilização sugeridos por Gil, mas isso exige mudanças culturais e técnicas que vão contra o instinto de segurança que o FOMO alimenta.

Fonte: VentureBeat