Empresas estão presas em um ciclo vicioso: operam frotas de GPUs com apenas 5% de utilização, pagando fortunas por capacidade ociosa, enquanto o medo de perder alocações alimenta a escassez. Esse FOMO (fear of missing out) não só desperdiça recursos, mas também pressiona os preços para cima, como o recente aumento de 15% da AWS em GPUs H200. É um sintoma de um mercado de computação em nuvem que se dividiu em dois, com implicações profundas para orçamentos de IA.

Um Mercado de Nuvem Sob Tensão Há Anos

Há duas décadas, a computação em nuvem seguia uma regra de ouro: os preços caíam ano após ano. Desde o lançamento do EC2 pela AWS em 2006, a deflação era a norma, com custos de computação diminuindo à medida que a tecnologia avançava e a concorrência crescia. Isso moldou orçamentos corporativos de TI, especialmente para cargas de trabalho de IA, que dependem de GPUs caras e escassas.

Mas a dinâmica mudou nos últimos dois anos. A demanda por GPUs explodiu com o boom da IA, enquanto a oferta, limitada por gargalos como a capacidade de embalagem avançada da TSMC (booked até meados de 2027), não acompanha. Empresas como Nvidia receberam pedidos de 2 milhões de chips H200 para 2026, contra um estoque de apenas 700.000, criando um mercado de escassez que agora impacta até gerações mais antigas, como os chips A100.

Esse desequilíbrio gerou um fenômeno novo: o FOMO corporativo. Equipes de TI, temendo ficar sem capacidade, agarram qualquer alocação disponível, mesmo que não precisem dela imediatamente. O resultado, segundo o relatório de 2026 da Cast AI sobre otimização de Kubernetes, é uma utilização média de apenas 5% nas frotas de GPUs corporativas – seis vezes pior que um baseline sem esforço algum.

Utilização de 5% e Preços em Alta: O Que Está Acontecendo

O relatório da Cast AI, baseado em clusters de produção reais, revela que as empresas estão operando suas frotas de GPUs com uma utilização média de apenas 5%, contra uma meta razoável de 30% sugerida por Laurent Gil, cofundador da empresa. Isso significa que a infraestrutura mais cara de uma organização – frequentemente faturada por hora – está praticamente parada, enquanto os custos continuam acumulando. Gil descreve o cenário como “neo-imobiliário”, onde a nuvem não é mais só computação, mas um jogo de posse de recursos escassos.

Enquanto isso, os preços estão subindo pela primeira vez em décadas. Em janeiro, a AWS aumentou os preços reservados de GPUs H200 em cerca de 15%, sem anúncio formal, quebrando o padrão de deflação que vigorava desde 2006. Fornecedores de memória também elevaram os preços do HBM3e em 20% para 2026, e a AMD já alertou sobre aumentos semelhantes, citando a mesma pressão de oferta.

O mercado de nuvem se dividiu em duas camadas. Na camada commodity, preços de GPUs como H100 caíram de US$ 7,57 por hora em setembro de 2025 para US$ 3,93 hoje, com provedores como Lambda Labs oferecendo valores abaixo de US$ 3. Já na camada de fronteira, a escassez de chips como H200 e limitações de produção na TSMC mantêm a pressão, afetando até preços de modelos mais antigos como o A100, que voltaram a subir.

FOMO Como Motor de Ineficiência e Inflação

Além do desperdício óbvio, o FOMO corporativo revela uma falha sistêmica: a lógica de curto prazo está sabotando a eficiência de longo prazo. Empresas aceitam compromissos de um ou três anos com hyperscalers, mesmo sem certeza de que usarão toda a capacidade, porque o custo de ficar sem GPUs – tanto em tempo de espera quanto em competitividade – é percebido como maior que o desperdício financeiro. Isso cria um ciclo onde ninguém devolve capacidade ociosa, agravando a escassez e justificando aumentos de preço por parte de AWS, AMD e outros, enquanto quem perde são os orçamentos de TI e, indiretamente, os consumidores finais.

O impacto vai além dos números. Essa divisão entre camadas commodity e fronteira sinaliza que a nuvem não é mais um mercado homogêneo; a exposição de uma empresa depende de onde suas cargas de trabalho estão. Quem depende de tecnologia de ponta, como H200, enfrenta custos crescentes e incertezas, enquanto workloads mais genéricos ainda se beneficiam de quedas de preço. É uma fratura que pode redefinir como as empresas planejam investimentos em IA.

E Agora? Ajustes Forçados ou Mais Escassez

O próximo passo é inevitável: empresas precisarão rever suas estratégias de procurement e utilização, possivelmente adotando ferramentas de otimização como as sugeridas pela Cast AI para chegar mais perto dos 30% de utilização. Sem isso, a pressão de custos só vai aumentar, especialmente com a TSMC limitada até 2027 e a Nvidia incapaz de atender à demanda de H200. A alternativa é um mercado ainda mais apertado, onde até chips mais antigos continuarão caros.

Fonte: VentureBeat