Início Tecnologia Como o Shopify construiu uma pilha de IA que não se importa...

Como o Shopify construiu uma pilha de IA que não se importa com quais modelos sobrevivem

23
0

A Shopify criou um proxy LLM que dá a cada engenheiro acesso a vários provedores de IA, com failover automático quando qualquer um deles fica inativo, muda ou desaparece. Quando Claude Fable 5 foi encerrado, os engenheiros do Shopify não entraram em pânico. O proxy os transferiu para Claude Opus ou GPT 5.5 automaticamente, sem interromper seus fluxos de trabalho. “Fable parece incrível; nós o usamos, é claro”, disse Farhan Thawar, chefe de engenharia do Shopify. diz em um novo podcast VentureBeat Beyond the Pilot. “Quando um modelo chega e vai embora, ou pode ser tão inócuo quanto uma atualização, o proxy nos permite espalhar entre os diferentes fornecedores”, diz Thawar.

O Shopify compra tokens em massa e todos os usuários se conectam aos modelos por meio de seu proxy, diz Thawar. Isso dá à sua equipe acesso a relatórios e failover; quando há um problema de disponibilidade com um provedor, os usuários podem ser transferidos “de forma automática e contínua” para outro. As empresas podem aprender com este exemplo e considerar como uma perturbação pode afetar os seus negócios, diz Thawar. No mínimo, eles deveriam estabelecer um plano de backup sólido. É importante ter um sistema que permita a movimentação entre modelos para que as empresas não fiquem “superligadas” a um fornecedor específico. A destilação é outra estratégia importante. Com a destilação, um modelo de aluno aprende com um modelo de professor e normalmente se especializa em uma tarefa mais restrita. Esses modelos de linguagem pequena (SLMs) podem ser mais benéficos do que modelos generalizados e prontos para uso em algumas circunstâncias. Por exemplo, o principal assistente de IA do Shopify, o Sidekick, que executa inúmeras subtarefas especializadas para os comerciantes, para que eles possam “remover o trabalho árduo” do dia a dia. Usar modelos destilados menores pode ser mais rápido e barato do que modelos mais generalizados, diz Thawar. Em alguns casos provaram ser 2x mais baratos e mais rápidos; em casos mais extremos, 30 vezes mais barato e mais rápido, diz ele. Mas “não se trata apenas de custo e latência, que são importantes; trata-se de precisão”, diz Thawar. Os engenheiros alimentam o UDP com seu modelo de professor, dados de treinamento, avaliações e um modelo de destino – digamos, o Opus 4.8 destilando até o Qwen 3.5. O pipeline é executado por cerca de um dia e depois retorna uma avaliação mostrando o que o modelo ajustado realmente alcançou em termos de velocidade, custo e precisão para aquela subtarefa. Se a compensação parecer boa, o engenheiro a implanta – não é necessário nenhum processo de aprovação. A plataforma interna do Shopify, Tangle, permite que qualquer pessoa visualize o pipeline enquanto ele é executado. Thawar diz que seu “sonho” é eventualmente não dar ao gasoduto de destilação um modelo alvo. Em vez disso, os usuários poderiam fornecer ao modelo do professor dados e avaliações e a diretiva: ‘Com base em seu aprendizado ao longo do tempo, quero que você observe uma classe diferente de modelo, tamanhos diferentes, tipos diferentes, e me diga qual é o alvo de destilação certo.’ “Talvez fiquemos surpresos. Talvez seja um modelo tão pequeno que poderia funcionar em um telefone”, diz Thawar. “Outras vezes, talvez ele volte e diga: ‘Não há como resumir isso a algo melhor do que o que temos na fronteira’”.

Afastando-se da “reflexividade da IA” para a “alavancagem da IA”

Os usuários do Shopify podem aplicar qualquer equipamento que desejarem: Claude Code, Codex, Cursor, GitHub Copilot para VS Code. “Expomos todos aos diferentes equipamentos para que possam ter uma ideia do que pode ou não funcionar em seu fluxo de trabalho.” Mas a empresa também implementou um painel de utilização; isso permite que a equipe de Thawar faça perguntas interessantes não apenas sobre o gasto de tokens, mas também sobre: ​​Quem está usando os tokens mais caros? Quem está gastando mais tempo raciocinando? Que tipos de modelos estão sendo usados ​​e quais disciplinas e níveis? Em relação ao “tokenmaxx“pergunta, o Shopify tem “disjuntores” instalados. Se um usuário tiver um modelo em execução por um longo tempo (digamos, 10 horas) e estiver consumindo muitos tokens, ele receberá um ping: “Você pretendia gastar isso?” Como explica Thawar, às vezes a resposta é “Ah, com certeza”. Outras vezes é: ‘Uau, eu não sabia que isso estava rodando em segundo plano. Eu esqueci totalmente disso. Prefiro parar com isso agora. O objetivo closing, como Thawar descreve, é passar da “reflexividade da IA” para a “alavancagem da IA” e fazer com que as pessoas pensem realmente profundamente sobre onde podem beneficiar mais da IA nos seus fluxos de trabalho. Ouça o podcast completo para saber mais sobre:

  • A filosofia do Shopify de construir infraestrutura antes dos recursos. Como diz Thawar: “Sempre construímos mais infra-estruturas. Continuaremos a construir sempre mais infra-estruturas.”

  • Como o agente interno de IA da Shopify, River, cria um “substrato de informações” em toda a empresa.

  • Como o agente OpenClaw de Thawar descobriu que ele estava viajando em seu calendário – e o que aquele momento lhe disse sobre para onde os agentes realmente estão indo.

Você também pode ouvir e assinar Além do piloto sobre Spotify, Maçã ou onde quer que você obtenha seus podcasts.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui