A mania da IA que se espalhou como uma febre por todo o Vale do Silício nos últimos anos está esbarrando em algumas duras realidades econômicas.
Nas últimas semanas, as grandes empresas de tecnologia foram forçadas a admitir que os gastos com tokens – a unidade básica de medida para o uso da IA – ficaram fora de controle. A Amazon teve que encerrar uma competição interna para usar o máximo de tokens possível no trabalho, dizendo aos funcionários: “Por favor, não usem IA apenas por usar IA”. de acordo com Insider de negócios; Uber tem supostamente limitou os gastos dos funcionários com tokens a US$ 1.500 por mês depois que a empresa esgotou seu orçamento anual de IA no início deste ano. E o mais revelador é que as empresas que constroem os grandes modelos de IA também acordaram para esta realidade preocupante. Em um recente evento hospedado pela OpenAI, o presidente-executivo da empresa, Sam Altman, admitiu que o uso de tokens se tornou “um grande problema” para empresas que receberam a promessa de grandes ganhos de produtividade se incorporassem IA em sua organização.
Essa é uma mudança difícil em relação a apenas alguns meses atrás, quando a vibração geral em todo o setor period: quanto mais os funcionários usarem a IA, melhor será para eles – e para as empresas para as quais trabalham. O chamado “tokenmaxxing” tornou-se um meme e mais ou menos sinônimo de “preparação para o futuro”: em uma época em que todos e seus vizinhos usam IA, aqueles que sabem como usar IA terão uma vantagem acentuada. Nem todo trabalho será necessariamente substituído por IA (assim se pensa), mas os funcionários que não usam IA serão definitivamente substituídos por aqueles que o fazem.
Mas a IA sempre foi cara, e os custos de treinamento e inferência para novos modelos são apenas ficando mais alto. Enquanto isso, o impulso dedicado da indústria aos agentes – sistemas de IA que podem funcionar com pouca ou nenhuma supervisão humana por longos períodos de tempo – levou a uma explosão no uso de tokens. Um estudo pré-impresso postado em abril descobriu que os agentes usam 1.000 vezes mais tokens que outros sistemas de IA.
Foram as empresas e os usuários individuais que, em sua maioria, tiveram que arcar com esses custos. Não admira que alguns desenvolvedores tenham recorrido a pirataria de chatbots on-line gratuitos como o bot de atendimento ao cliente da Chipotle, Pepper, para contornar os modelos famintos por tokens das grandes empresas. GitHub anunciado no início desta semana, estava lançando um novo modelo de pagamento no qual os usuários seriam cobrados pelo número de tokens que queimassem. A julgar por alguns dos feedback inicial do usuárionão está indo bem.
A grande tecnologia precisa desesperadamente encontrar uma nova maneira de vender às pessoas o futuro da IA sem os custos exorbitantes de tokens. Caso contrário, as empresas e os usuários simplesmente mudarão para algum modelo aberto que possam usar gratuitamente.
Perto da borda
Algumas grandes empresas de tecnologia foram literalmente forçadas ao limite pelos custos crescentes do uso da IA.
Microsoft e Google anunciou recentemente novos produtos de IA – Gemma 4 12B e o laptop computer RTX Spark, respectivamente – que são baseados na chamada computação “edge”. É quando um modelo é alimentado pela capacidade computacional de um dispositivo específico, e não pela nuvem (ou seja, information facilities que consomem muita energia). Obviamente, um modelo da magnitude de um Claude Opus 4.8 ou GPT-5 não poderá ser executado diretamente do seu laptop computer; isso é como tentar fornecer energia suficiente para o lançamento de um foguete Falcon 9 conectando uma bicicleta ergométrica a um gerador. Mas a lógica por trás dos novos produtos da Microsoft e do Google é que, na verdade, nem todo mundo precisa dos modelos mais recentes, melhores e com maior consumo de tokens diretamente nos dispositivos que usam diariamente. Para a maioria das pessoas, na maioria das vezes, um modelo menor e mais enxuto funcionará perfeitamente. E, o que é mais importante, economizará algum dinheiro para todos em tokens.
Não se engane: os investimentos da Microsoft e do Google em computação de ponta são minúsculos em comparação com o que gastam em information facilities; a computação em nuvem ainda é a espinha dorsal de ambos os modelos de negócios. Mas na sua adoção da computação de ponta, estamos a assistir a um reconhecimento, pelo menos tácito, de que o custo de modelos massivos de IA simplesmente não compensa o aperto que está a colocar na maioria dos consumidores.
Promessas de água
Enquanto promovem novos produtos de computação de ponta – prometendo capacidades poderosas de IA a um custo menor – a Microsoft e o Google também estão tentando pacificar um público que está cada vez mais preocupado com as demandas de água dos information facilities. (Os information facilities geralmente usam água para evitar o superaquecimento dos clusters de GPU.) Na terça-feira, durante a palestra de abertura do Microsoft Construct, a conferência anual de desenvolvedores da empresa, o CEO Satya Nadella afirmou que o uso anual de água dos novos information facilities da Microsoft “é aproximadamente equivalente ao que um único restaurante usaria”.
No dia seguinte, o Google anunciado planeja “reabastecer mais água do que consumimos” proveniente do resfriamento de information facilities até 2030, juntamente com outros “compromissos de gestão de água”. Para um pouco mais de conforto pretendido, o comunicado de imprensa observou que “Os centros de dados dos EUA utilizam menos de 1% da água que os americanos utilizam nos seus relvados anualmente” – embora isso seja provavelmente mais uma imagem contundente dos hábitos de rega dos relvados dos americanos do que uma absolvição dos pecados de consumo excessivo de água da indústria da IA.












