Apresentado por Solidigm
À medida que as cargas de trabalho de inferência evoluem de trocas discretas de perguntas e respostas para sistemas de agente persistentes e de várias etapas, a disponibilidade da GPU não é mais o gargalo mais crítico da IA. Em vez disso, o gargalo migrou da computação para o contexto, diz Jeff Harthorn, líder de pesquisa aplicada em IA da Solidigm.
“Por que o gerenciamento de contexto se tornou o principal gargalo, mais do que a disponibilidade da GPU ou a eficiência computacional, é a questão de 2026”, diz Harthorn. “As GPUs ficaram dramaticamente mais baratas por FLOP. As arquiteturas de modelo e os mecanismos de serviço de inferência ficaram muito mais eficientes. Mas o que cresceu mais rápido do que ambos é o contexto. O estado persistente que deve existir entre as sessões cresceu ainda mais rápido do que o próprio contexto.”
Isso está acontecendo à medida que as janelas de contexto crescem dramaticamente, tornando as entradas individuais muito maiores do que antes. Os sistemas de IA Agentic encadeiam dezenas ou centenas de chamadas de modelo, cada uma gerando um estado que deve ser rastreado, e as empresas estão exigindo que o estado de inferência persista durante as sessões para auditoria, governança e reutilização. Essas tendências se combinam, empurrando os volumes de contexto além do que qualquer camada de memória existente foi projetada para suportar.
“Essas três coisas estão acontecendo ao mesmo tempo, todas empurrando dados de contexto e memória de contexto para a estratosfera muito mais rapidamente do que estamos acostumados a ver”, acrescenta Ace Stryker, diretor de IA e advertising de ecossistema da Solidigm.
A solução é uma camada de contexto dedicada que emerge entre a memória GPU e o armazenamento de rede em massa: uma camada de flash de alto desempenho e alta densidade projetada especificamente para armazenar e servir cache de valor-chave (KV), os dados de inferência que permitem que os modelos retenham e reutilizem o contexto e recuperem dados em velocidade de inferência. A Nvidia formalizou esta arquitetura sob o termo CMX. Empresas de armazenamento, incluindo a Solidigm, estão construindo produtos SSD otimizados para esta carga de trabalho.
“O armazenamento não foi a primeira coisa em que as pessoas pensaram quando planejaram a construção de sua infraestrutura corporativa”, diz Stryker. “Em muitos aspectos, period um custo relativamente pequeno em comparação com a computação e period uma mercadoria. Você apenas comprava o valor mais baixo por gigabyte e considerava isso bom. Mas agora, se o seu armazenamento não estiver à altura, seu ROI será prejudicado e isso afetará diretamente seus resultados financeiros.”
Por que a inferência de IA requer uma arquitetura de armazenamento diferente da de treinamento
A arquitetura de armazenamento na qual os sistemas de IA dependem hoje foi em grande parte herdada dos fluxos de trabalho de treinamento. O treinamento é sequencial e dominado por gravação, com dados sendo movidos em grandes blocos de e para o armazenamento de objetos em massa. A estrutura em camadas, com memória de alta largura de banda na GPU, NVMe rápido no servidor e armazenamento em massa na rede, atende razoavelmente bem a esse caso de uso.
No entanto, a inferência é um animal diferente. Sua assinatura de E/S é refinada, sensível à latência e cada vez mais com estado. Os dados de cache KV e os dados de recuperação têm padrões de acesso distintos, mas ambos precisam ser servidos rapidamente e reutilizados nas interações. Nenhum dos dois se encaixa perfeitamente na memória de alta largura de banda da GPU, que é cara e fisicamente restrita, nem no armazenamento em massa tradicional, que nunca foi projetado para cargas de trabalho de inferência ativas.
“A lacuna arquitetônica que me interessa neste momento não está no topo ou na parte inferior da pilha, está bem no meio”, diz Harthon. “Muito do que está abaixo da GPU HBM está sendo solicitado a fazer coisas para as quais não foi realmente projetado, que é onde o trabalho de sistemas mais interessante hoje está acontecendo.”
Um dos sintomas mais visíveis desta lacuna é a recomputação. Na inferência, o estágio de pré-preenchimento processa todo o contexto relevante para uma determinada sessão antes que a geração do token possa começar. Quando o estado do cache KV não está disponível em uma camada rápida e acessível, o sistema o recalcula — queimando ciclos de GPU que não produzem nenhum valor novo.
“Uma parcela significativa dos ciclos de GPU acaba sendo repreenchida”, explica Harthon. “Durante todo esse contexto calculado, é potencialmente uma computação que está sendo gasta na reprodução do estado, em vez de fazer um novo trabalho. Quando você começa a olhar para o problema dessa maneira, a utilização da GPU começa a parecer parcialmente um problema de armazenamento.”
Esta reformulação está a gerar um interesse renovado numa métrica emprestada das redes: goodput, ou tokens úteis por dólar, em vez de tokens brutos por dólar.
A camada de memória de contexto da IA e como ela funciona
A resposta da indústria está a assumir uma forma estrutural. Está surgindo um novo nível entre a memória GPU e o armazenamento de rede tradicional, projetado especificamente para armazenar e servir o contexto de inferência, uma camada distinta das unidades dentro dos servidores GPU (G3) e dos servidores de armazenamento na rede (G4), projetada para fornecer dados de contexto de volta aos aceleradores o mais rápido possível.
“Se você estiver construindo um knowledge middle a partir do segundo semestre deste ano ou do início do próximo ano, não poderá pensar em armazenamento apenas em dois lugares”, diz Stryker. “O armazenamento precisa estar em pelo menos três lugares para lidar com a camada de memória de contexto, e isso provavelmente será um elemento permanente na forma como a infraestrutura será construída daqui para frente.”
É análogo ao surgimento do armazenamento de objetos como categoria, que não existia até que cargas de trabalho suficientes precisassem dele. E assim que o fez, desenvolveu os seus próprios princípios, SLAs, modelos de custos e um ecossistema de fornecedores.
“A camada de contexto parece estar em um arco semelhante”, diz Harthorn. “Essa pressão volumétrica está causando a formação da categoria, e não do roteiro de qualquer fornecedor.”
Para os líderes de infraestrutura, isso significa planejar ativamente o novo nível, em vez de tratá-lo como opcional. A implantação de NAND adicional nesta camada reduz a dependência de DRAM, que é muito mais cara por gigabyte e limitada tanto em disponibilidade quanto em espaço térmico.
“Em termos de eficácia do seu investimento, você estará investindo menos dinheiro se confiar na camada SSD da maneira que a Nvidia agora recomenda e prescreve para muitos casos de uso”, acrescenta Stryker.
O que o flash precisa fornecer para dar suporte à inferência de IA
Participar de forma significativa na pilha de inferência impõe novas demandas à tecnologia SSD. A latência closing, o pior desempenho de uma unidade, deve ser previsível, e não apenas rápida em média. Um sistema de orquestração que aloca recursos de GPU com base nos tempos de resposta de armazenamento esperados não pode tolerar atrasos inesperados de vários segundos. O desempenho consistente e observável é mais importante aqui do que o pico de produtividade.
Além da latência, a densidade torna-se uma preocupação crítica, especialmente em hiperescala. Em knowledge facilities onde a energia, e não o custo, é a restrição obrigatória, os watts por petabyte tornam-se a métrica operacional. A porta flutuante NAND, a abordagem de fabricação central dos produtos da Solidigm, é adequada para esse cálculo. A integração de rede through NVMe sobre Materials, RDMA e eventual suporte CXL também é essencial, dados os orçamentos de latência apertados dos pipelines de inferência ativos.
“As unidades precisam ter características de desempenho confiáveis, além do lado da taxa de transferência e serem capazes de transferir o máximo de dados possível e com a maior rapidez possível, da maneira que o treinamento exigia”, diz Harthon. “Agora trata-se de ser capaz de fazer isso de forma muito consistente, de uma forma que seja muito observável para as pessoas que operam e orquestram esses sistemas”.
Como os líderes empresariais de IA devem planejar a camada de contexto
Os padrões, as primitivas de software program e as melhores práticas que estão sendo estabelecidas agora definirão como a infraestrutura de inferência de IA funcionará nos próximos anos. A Solidigm está envolvida nesse processo por meio de órgãos de padronização, colaborações de laboratórios parceiros e pesquisas publicadas, o que é elementary precisamente porque a categoria ainda está em formação.
“A questão interessante para os próximos anos não é se a infraestrutura de IA precisa de mais computação”, diz Harthorn. “A questão é saber se ele pode usar o que tem de forma mais eficiente. Grande parte dessa resposta passa por esse nível que está sendo construído hoje.”
Artigos patrocinados são conteúdos produzidos por uma empresa que paga pela postagem ou tem relacionamento comercial com a VentureBeat, e estão sempre claramente marcados. Para mais informações, entre em contato vendas@venturebeat.com.













