Apresentado por F5
Quando as empresas transferem cargas de trabalho de IA do piloto para a produção, a entrega de dados muitas vezes se torna o fator que determina se esses sistemas podem ser dimensionados de maneira confiável. As arquiteturas ponto a ponto que conectam o armazenamento diretamente à computação resistem em condições de demonstração, mas geralmente falham sob tráfego de produção simultâneo e sustentado. O resultado são pipelines de inferência paralisados, sistemas RAG atrasados, GPUs subutilizadas e violações de SLA, todos com consequências comerciais diretas.
“As organizações operacionalizam com sucesso a IA quando a sua infraestrutura é construída para lidar com falhas do mundo actual, e não apenas com condições controladas”, afirma Hunter Smit, gestor sénior de advertising de produtos da F5.
O tráfego de produção expõe fraquezas arquitetônicas
Em um piloto, uma transferência paralisada é uma inconveniência, enquanto na produção, essa mesma paralisação é uma interrupção que alguém agora possui. A arquitetura subjacente costuma ser idêntica em ambos os casos: quando um cliente está conectado diretamente ao armazenamento, o sistema se torna cada vez mais frágil sob o tráfego de produção simultâneo e sustentado, porque essa conexão direta não tem resposta quando um nó falha ou há picos de tráfego. A partir daí, as novas tentativas e os tempos limite são transmitidos em cascata, e todo o pipeline faz backup no momento em que o negócio depende da saída.
“As arquiteturas ponto a ponto, nas quais o cliente S3 se conecta diretamente ao armazenamento S3, não são resilientes”, afirma Paul Pindell, principal arquiteto de soluções para alianças tecnológicas da F5. “Se um único nó de armazenamento falhar, todo o tráfego desse cluster será degradado e, em alguns casos, o cluster poderá falhar completamente.”
O problema é que os fluxos de trabalho de IA, incluindo inferência baseada em RAG e IA de agência, tratam cada vez mais o armazenamento S3 como um cidadão de primeira classe no cluster de IA. No entanto, a conectividade de rede entre esse armazenamento e o cluster nunca foi projetada para a movimentação de dados ininterrupta e de alto rendimento necessária para manter as GPUs funcionando de maneira splendid.
O custo actual de pipelines paralisados e GPUs subutilizadas
“Os líderes empresariais tendem a enquadrar a infraestrutura de IA em torno da utilização da GPU, mas o que torna a IA diferente das cargas de trabalho determinísticas tradicionais é que a infraestrutura influencia continuamente esses resultados em cada interação”, afirma Tanu Mutreja, diretor sênior de gerenciamento de produtos da F5. “Em ambientes de IA, a infraestrutura não é mais apenas uma preocupação de back-end. Ela molda a experiência do cliente, a qualidade, a resiliência e o custo em cada transação.”
Pode haver consequências comerciais significativas. Por exemplo, quando os pipelines de inferência param, isso se torna um problema de SLA e de experiência do cliente. Quando os sistemas RAG são atrasados, os modelos perdem o acesso ao contexto oportuno e relevante, o que resulta em respostas imprecisas, desatualizadas ou alucinadas, o que cria riscos operacionais, de conformidade e de reputação. Ao mesmo tempo, os problemas de infraestrutura que criam esses problemas também podem aumentar os custos, deixando recursos caros da GPU ociosos ou subutilizados.
“Quando as GPUs são subutilizadas, isso sinaliza ineficiências de infraestrutura que aumentam os custos e limitam a escalabilidade e a capacidade de resposta”, diz Mutreja. “A questão da liderança é se a infraestrutura de IA ponta a ponta oferece consistentemente experiências de IA confiáveis, seguras, de alta qualidade e governadas em uma economia unitária sustentável”.
Construindo uma camada de entrega de dados pronta para produção
A F5 trata a entrega de dados como uma camada de infraestrutura de primeira classe, em vez de presumir que o caminho da rede simplesmente funcionará. Enquanto a entrega de aplicativos otimizou o fluxo de solicitações entre usuários e aplicativos, a entrega de dados otimiza o fluxo de dados entre armazenamento, redes e computação, incluindo computação de IA.
Tornar a entrega de dados uma camada de primeira classe significa construir três propriedades nela:
A observabilidade fornece visibilidade em tempo actual da latência, da taxa de transferência e da integridade do fluxo.
A programabilidade permite controle orientado por políticas sobre como os dados se movem, por meio de roteamento dinâmico, otimização de tráfego, gerenciamento de taxas e failover automatizado.
A conscientização sobre falhas cria resiliência para redes degradadas, limitação de armazenamento e interrupções de serviço.
No arquitetura que a F5 desenvolveu para Dell ObjectScaleo F5 BIG-IP fica entre o ObjectScale e a computação de IA como um ponto de controle programável na borda do armazenamento.
“Temos visto casos em que uma configuração incorreta na camada de computação de IA efetivamente causou DDoS na infraestrutura de armazenamento S3”, diz Pindell. “Não de uma forma maliciosa, mais como um ‘Ah, não, o que eu fiz?’ momento, mas ainda assim o armazenamento de toda a organização foi desativado.”
Colocar o BIG-IP como controlador de entrega de aplicativos entre as camadas de armazenamento e computação protege o armazenamento com QoS, limites de taxa e limites de conexão, mantendo-o resiliente e operacional sob esse tipo de carga. Teste validado pelo SecureIQLab confirmou que essa proteção não prejudica o rendimento, o que é importante do ponto de vista arquitetônico, diz Pindell.
“Preservar e até melhorar o rendimento é essencial”, explica ele. “É o que permite que você aproveite funcionalidade de nível superior, resiliência e segurança aprimorada, sem abrir mão do desempenho para chegar lá.”
A complexidade adicional da IA híbrida e multicloud
As implantações de IA em ambientes multicloud híbridos apresentam um desafio ainda maior na entrega de dados devido à heterogeneidade envolvida. Por outras palavras, os dados que atravessam estes ambientes devem enfrentar políticas inconsistentes, controlos de segurança, sistemas de identidade, requisitos de governação, visibilidade fragmentada e limites de falhas distintos.
O gerenciamento de tráfego programável e a observabilidade abordam essa complexidade juntos. A observabilidade fornece uma visão unificada da integridade de aplicativos, redes e infraestrutura em ambientes que de outra forma seriam desconectados. O gerenciamento de tráfego programável usa esses insights para rotear, equilibrar e fazer failover de tráfego de forma inteligente em tempo actual. Juntos, eles criam um sistema de suggestions de ciclo fechado que impõe políticas consistentes, melhora a resiliência em domínios de falha e garante confiabilidade e alto desempenho. Entrega de dados de IA independentemente de onde residem os aplicativos, dados ou usuários.
O que separa a IA de produção dos pilotos perpétuos
As organizações que vão além dos pilotos perpétuos compartilham uma disciplina específica de engenharia, diz Smit.
“São eles que buscam o design de produção tendo o fracasso como estado regular, não como exceção”, explica ele. “Eles presumirão que ocorrerão latência, congestionamento e interrupções parciais. E construirão um caminho de dados observável e ciente de falhas o suficiente para absorvê-los, com mitigação explícita para cada condição degradada, em vez de uma esperança de que a rede se mantenha”.
As organizações presas em pilotos perpétuos ainda estão otimizando para obter resultados de laboratório perfeitos e descobrindo a lacuna do mundo actual somente quando uma carga de trabalho entra em operação. A questão não é a qualidade do modelo ou a contagem de GPU, mas se a camada de entrega de dados foi projetada com o mesmo rigor que a computação.
“As equipes precisam entender que uma rede do mundo actual se comporta de maneira muito diferente de uma rede de laboratório otimizada”, diz Pindell. “Eles precisam de um plano de mitigação para os estados de falha e gargalos de desempenho que encontrarão na produção”.
Artigos patrocinados são conteúdos produzidos por uma empresa que paga pela postagem ou tem relacionamento comercial com a VentureBeat, e estão sempre claramente marcados. Para mais informações, entre em contato vendas@venturebeat.com.













