Entre as muitas empresas e laboratórios chineses de IA que disputam participação de mercado e atenção (sem trocadilhos) no mercado international, MiniMax se destaca por seu compromisso em fornecer inteligência de ponta em uma variedade de modalidades, incluindo texto, codificação e vídeo (através de seu Hailuo série de modelos) — muitas vezes sob licenças de código aberto padrão, permissivas e amigáveis às empresas.
Agora, o MiniMax está novamente levantando as sobrancelhas dos usuários avançados e desenvolvedores de IA em todo o mundo, lançando um novo, relatório técnico detalhado na criação de sua fashionable série M2 de modelos de linguagem (M2, M2.5 e M2.7), lançando luz sobre suas inúmeras inovações de engenharia e abordagens inteligentes – enquanto a empresa e seus líderes também provocaram um novo abordagem de atenção escassa para sua próxima série de modelos MiniMax M3que afirma produzir velocidade de decodificação (ou resposta LLM) até 15,6 vezes mais rápida em contextos longos (um milhão de tokens), adotando uma estrutura subquadrática personalizada. Ao fazer isso, a MiniMax projetou o M3 para tornar economicamente viável a implantação de agentes de IA em contexto ultralongo.
O relatório M2 é digno de nota para qualquer empresa que trabalhe com modelos de IA e, especialmente, para aquelas que procuram aperfeiçoar e treinar os seus próprios modelos internamente. Afinal, os modelos da série M2 do MiniMax frequentemente alcançaram os melhores benchmarks do mundo em desempenho de IA de código aberto quando foram lançados.
Embora o título tenha sido desde então eclipsado por vários outros laboratórios chineses, incluindo DeepSeek e Xiaomi, o novo relatório da MiniMax oferece um modelo que pode ser usado para melhorar o modelo de IA e o desempenho dos agentes por empresas em todo o mundo.
Como Adina Yakup de Hugging Face observado em X“Além dos benchmarks, eles fizeram um trabalho realmente sólido na eficiência do MoE e no design orientado ao agente. Estou animado para ver o próximo destino do M3!”
O dilema da atenção
A arquitetura técnica central da série M2 depende de um structure de transformador esparso de decodificador Combination-of-Specialists (MoE), usado por vários outros LLMs de última geração.
O spine basic abriga 229,9 bilhões de parâmetros totais, mas mantém uma pegada operacional notavelmente enxuta, ativando apenas 9,8 bilhões de parâmetros por token em 256 especialistas refinados.
Para otimizar o roteamento e evitar problemas de balanceamento de carga padrão, no entanto, o MiniMax implementou o gate sigmóide emparelhado com termos de polarização específicos de especialistas que podem ser aprendidos, reduzindo fortemente a dependência de perdas auxiliares restritivas.
A decisão de engenharia mais definitiva documentada no artigo M2 foi a adesão estrita à atenção whole de vários cabeçotes com atenção de consulta agrupada (GQA) em todas as 62 camadas.
Em grandes modelos de linguagem, “escalonamento quadrático” refere-se à realidade computacionalmente cara dos mecanismos padrão de atenção whole, onde cada token em uma sequência deve se conectar matematicamente a todos os outros tokens. Para usar uma analogia do mundo actual, é como participar de um evento de networking e ser forçado a ter uma conversa profunda com cada pessoa na sala enquanto monitora simultaneamente todas as outras conversas em andamento.
Embora essa abordagem produza um contexto incrivelmente completo, o poder de processamento e a memória necessários explodem no quadrado do comprimento da entrada, criando um grave gargalo de {hardware} à medida que os modelos tentam ingerir centenas de milhares de palavras.
O problema com escala subquadrática
O dimensionamento “subquadrático” introduz atalhos arquitetônicos projetados para contornar essa carga computacional exponencial. Em vez de mapear todas as conexões possíveis, métodos subquadráticos – como atenção de janela deslizante ou atenção linear comprimida – podem analisar apenas uma janela localizada de palavras próximas ou gerar um resumo compactado do texto mais amplo.
Esses métodos eficientes reduzem drasticamente os custos de {hardware} e permitem que os modelos processem documentos enormes em alta velocidade, mas historicamente introduzem graves compensações na precisão, muitas vezes fazendo com que a IA perca o “quadro geral” ou perca o controle do contexto distante.
Este dilema matemático outline a evolução arquitetônica do M2 do MiniMax até sua próxima série M3. Durante o desenvolvimento do M2, os pesquisadores testaram rigorosamente os atalhos subquadráticos, mas descobriram que eles prejudicavam o “raciocínio multi-hop” do modelo – sua capacidade de conectar pistas díspares em um documento longo – forçando a equipe a absorver o enorme custo computacional da atenção quadrática completa para manter a inteligência de nível de fronteira.
Na verdade, eles avaliaram agressivamente alternativas de atenção eficientes durante o pré-treinamento, mas as descartaram intencionalmente. Eles experimentaram extensivamente configurações híbridas, intercalando atenção whole com arquiteturas subquadráticas, como Lightning Consideration ou configurações híbridas Sliding Window Consideration (SWA).
Os resultados empíricos foram definitivos: em uma escala maior, as variantes de atenção linear e em janela exibiram graves déficits de raciocínio.
Em avaliações que excedem janelas de contexto de 32K, as variantes do SWA tiveram desempenho significativamente pior do que a atenção whole, caindo de uma pontuação inicial de 90,0 para 72,0 na tarefa de extração de palavras complexas RULER 128K.
As configurações subquadráticas mostraram-se propensas a restrições de memória durante o treinamento, não tinham suporte de cache de prefixo nativo e não conseguiram se alinhar suavemente com os módulos Multi-Token Prediction (MTP) usados para decodificação especulativa. Atenção whole foi considerada necessária para preservar a capacidade de raciocínio multi-hop.
No entanto, reconhecendo que os limites físicos do {hardware} não podem sustentar a escala quadrática indefinidamente, a MiniMax está projetando a série M3 em torno de uma nova estrutura subquadrática para finalmente fornecer processamento de alta velocidade e raciocínio descomprometido.
MiniMax Sparse Consideration (MSA) e entrada de escala subquadrática
O próximo MiniMax-M3 rompe com as restrições pesadas de computação de seu antecessor. Conforme divulgado pela equipe de engenharia do MiniMax sob o lema “Algo GRANDE está chegando”, o M3 apresenta o “MiniMax Sparse Consideration” (MSA).
Ao contrário do Multi-head Latent Consideration (MLA) do DeepSeek, que compacta chaves e valores em um espaço latente de baixa dimensão, o MSA opera em um spine GQA padrão, mas utiliza seleção em nível de bloco em valores-chave reais e não compactados.
Elie Bakouch no laboratório de plataforma e infraestrutura de treinamento de IA Prime Mind postado em X observando que as principais alterações apresentam “seleção de nível de bloco como no CSA, mas a atenção é dada ao KV actual, não ao [compressed space].”
Isso resolve os obstáculos de perda de precisão e cache de prefixo observados no artigo M2. Ao filtrar e selecionar sequências em nível de bloco dinamicamente, o MSA oferece um salto arquitetônico: o perfil de {hardware} inicial indica uma aceleração de 9,7x na latência de pré-preenchimento e uma aceleração massiva de 15,6x durante as fases de decodificação em um comprimento de sequência de token de 1 milhão em comparação com a arquitetura M2 de atenção whole.
Para entender por que uma aceleração na “fase de decodificação” é tão significativa, é útil analisar como uma IA realmente lê e grava informações. Quando você interage com uma IA, o processamento acontece em duas etapas distintas: pré-preenchimento e decodificação.
Quando você entrega um immediate a uma IA – seja uma frase curta ou um enorme documento de 1.000 páginas – ela processa todo aquele pedaço de texto de uma vez em paralelo, conhecido como “pré-preenchimento”. Essencialmente, ele “lê” a entrada de uma só vez para construir sua compreensão inicial e estabelecer o contexto.
Para gerar uma resposta, a IA deve entrar em uma “fase de decodificação”. Para prever a primeira palavra de sua resposta, ele olha o immediate. Para prever a segunda palavra, é preciso olhar o immediate mais a primeira palavra. Para prever a centésima palavra, ele deve recalcular o contexto do immediate e as 99 palavras anteriores que acabou de escrever. Assim, a resposta torna-se realmente mais difícil de gerar à medida que avança, exigindo no last uma revisão completa de todas as partes anteriores.
Para um leigo, think about ler um documento jurídico denso (pré-preenchimento) e depois ser forçado a escrever um relatório resumido onde, antes de escrever cada palavra nova, você deve reler rapidamente todo o documento, além de tudo o que escreveu até agora, para garantir que sua próxima palavra faça sentido (decodificação).
Como a IA deve olhar para trás constante e repetidamente para gerar cada novo passo à frente, a fase de decodificação é o gargalo computacional mais grave na geração de texto. É por isso que os modelos de IA muitas vezes digitam suas respostas palavra por palavra e porque eles ficam significativamente mais lentos à medida que as conversas ficam mais longas.
Portanto, quando a passagem afirma que a nova arquitetura atinge uma enorme aceleração de 15,6x durante a fase de decodificação em um comprimento de sequência de token de 1 milhão, isso significa que o modelo encontrou um atalho estrutural para gerar sua resposta – token por token – quase 16 vezes mais rápido. Ele resolve diretamente o gargalo exato que normalmente faz com que os chatbots de IA congelem ou gaguejem ao lidar com grandes quantidades de informações.
A evolução da série MiniMax M e a criação de ‘Forge’
No nível do produto, o MiniMax evoluiu consistentemente seus modelos de interfaces simples de geração de texto para trabalhadores autônomos.
A série M2 foi pioneira em um protocolo de “pensamento intercalado”, onde o modelo alterna entre traços de planejamento de linguagem pure e invocações explícitas de ferramentas dentro de uma única trajetória. Em vez de descartar os blocos intermediários da cadeia de pensamento entre os turnos de execução, o M2 acrescenta o histórico completo do pensamento diretamente ao contexto da conversa. Essa persistência de planejamento evita desvios de estado, permitindo que o modelo se recupere normalmente de erros de tempo de execução e revise suas estratégias com base no suggestions do ambiente.
Para treinar esses fluxos de trabalho de longo horizonte, a MiniMax construiu o “Forge”, um sistema escalonável de aprendizagem por reforço nativo do agente. O Forge separa a execução em três módulos independentes: o lado do agente, a camada de abstração de middleware (servidor gateway e pool de dados) e os mecanismos de treinamento/inferência.
Como engenheiro MiniMax Olive Song explicada no podcast ThursdAI“O que percebemos é que há muito potencial com um modelo pequeno como este se treinarmos o aprendizado por reforço nele com uma grande quantidade de ambientes e agentes… Mas não é uma coisa muito fácil de fazer”, acrescentando que esse treinamento ambiental foi onde a equipe passou uma parte significativa de seu cronograma de desenvolvimento. Para absorver a variação extrema do comprimento da trajetória comum em ambientes de agentes de múltiplas etapas, o Forge implementa duas soluções vitais de engenharia:
-
Agendamento FIFO em janela: Um agendador de treinamento que mapeia uma janela deslizante na fila de geração. Ele permite a busca gananciosa e de alto rendimento de tarefas concluídas dentro da janela para evitar o tempo ocioso do cluster, ao mesmo tempo em que impõe estritamente os limites FIFO para manter a estabilidade da distribuição e evitar a oscilação do gradiente.
-
Mesclagem de árvore de prefixo: Uma otimização que reestrutura o treinamento em lote em computação em árvore. As conclusões que compartilham prefixos de conversação idênticos são calculadas exatamente uma vez na passagem de encaminhamento antes da ramificação. Isso elimina cálculos redundantes, gerando uma aceleração de treinamento de até 40x com erro de aproximação zero.
Essa infraestrutura de reforço gerou diretamente o posto de controle M2.7, movendo a série em direção à “autoevolução”. Operando dentro de um equipamento de agente automatizado, o M2.7 funciona como um engenheiro independente de aprendizado de máquina. O modelo traça o perfil de suas próprias execuções de treinamento ativas, diagnostica anomalias, lê logs e modifica automaticamente sua própria base de código e configurações.
De acordo com o MiniMax, o M2.7 administrou com sucesso entre 30% e 50% de seu próprio fluxo de trabalho de desenvolvimento.
No rigoroso conjunto MLE Bench Lite da OpenAI, que testa a capacidade autônoma de pesquisa de ML, o M2.7 alcançou uma taxa de medalhas de 66,6% em testes independentes de 24 horas, empatando efetivamente com o Gemini 3.1 Professional de peso fechado do Google.
A cadência contínua de M2 a M2.5, que concluiu 30% das tarefas internas e 80% do código recém-comprometido na sede da MiniMax, sublinha uma visão mais ampla.
Tal como observou a equipa MiniMax durante essa fase de implantação, “acreditamos que o M2.5 oferece possibilidades virtualmente ilimitadas para o desenvolvimento e operação de agentes na economia”.
Com o relatório técnico codificando os sucessos da geração M2 e o weblog de tecnologia da MSA no horizonte, MiniMax está sinalizando que a próxima fronteira da IA é explicitamente traduzir uma pegada de miniativação em inteligência máxima do mundo actual.










