Faz sentido usar o GigaChat na operação de uma empresa brasileira?

Na prática, quase nunca de forma direta. O GigaChat é otimizado para russo e avaliado em benchmarks russos como o MERA, não em português. O valor para quem está no Brasil é estratégico, não operacional: ele confirma que modelos de qualidade de fronteira estão virando commodity aberta, o que reforça a aposta em portabilidade e em pesos abertos rodando na sua própria infraestrutura, em vez de dependência de um único fornecedor de nuvem.

O que é um modelo Mixture-of-Experts e por que isso importa no custo?

Num MoE, só uma fração dos parâmetros é ativada por token. O GigaChat 3 Ultra tem 702B no total, mas ativa 36B por vez. Isso permite capacidade grande com custo de inferência muito menor que o de um modelo denso do mesmo tamanho. Para quem coloca IA em produção, é a arquitetura que torna viável rodar um modelo grande sem pagar preço de modelo grande a cada chamada.

GigaChat: a Rússia entrou na corrida dos modelos abertos

O Sber liberou o GigaChat 3 Ultra, um modelo aberto de 702B com licença comercial. O mapa dos pesos abertos deixou de ser só China e agora tem três polos.

Nas últimas semanas o mapa dos modelos abertos ganhou um terceiro polo. O Sber, o maior banco da Rússia e dono do laboratório que treina a família GigaChat, publicou no Hugging Face o GigaChat 3 Ultra Preview: um modelo Mixture-of-Experts de 702 bilhões de parâmetros totais e 36 bilhões ativos, sob licença MIT com uso comercial permitido. Não é uma demo acadêmica com pesos trancados. É um modelo grande, aberto e baixável, treinado do zero, no mesmo formato que a China vem usando para disputar a fronteira.

O que foi liberado

O GigaChat 3 Ultra é a versão instruct de topo da família. A arquitetura tem duas escolhas que interessam a quem paga a conta de inferência. A primeira é o Multi-head Latent Attention, o mesmo truque popularizado pela DeepSeek, que comprime o cache de chave e valor em um vetor latente e derruba o consumo de memória durante a geração. A segunda é o Multi-Token Prediction, uma técnica de treino que faz o modelo prever vários tokens por passada e que, segundo a Sber, acelera a geração em até 40% com decodificação especulativa.

O modelo foi treinado nativamente em FP8, e não apenas quantizado depois, com uma variante em BF16 também publicada. O corpus incorporou 10 idiomas, do chinês e árabe ao uzbeque e cazaque, além de livros, dados acadêmicos, código e matemática. O ponto mais chamativo do treino é a escala de dados sintéticos: cerca de 5,5 trilhões de tokens gerados artificialmente, incluindo pares de pergunta e resposta, cadeias de reverse-prompt e milhões de problemas de matemática e programação olímpica com testes automáticos.

Nos benchmarks divulgados pela própria Sber, o GigaChat 3 Ultra supera a geração anterior, o GigaChat 2 Max, em toda a linha: 0,73 no MMLU-Pro contra 0,67, 0,96 no GSM8K contra 0,91 e 0,87 no HumanEval+ contra 0,78. São números de autoavaliação, do laboratório que treinou o modelo, então valem como sinal de trajetória, não como ranking independente. O que não é autoavaliação é o fato concreto: os pesos estão no Hugging Face, rodam em vLLM e SGLang, e qualquer um pode baixar.

Por que isso é um sinal, não um produto

A tentação é ler essa notícia como "mais um modelo" e seguir a vida. Seria um erro de leitura. O que mudou não é o placar de um benchmark, é a geografia da fronteira aberta. Há seis meses, quando alguém falava em peso aberto competitivo, falava da China. Hoje o mapa tem três polos com projetos soberanos declarados: a China com o GLM aberto, a Índia com o Sarvam, e agora a Rússia com o GigaChat. Três países, três estratégias industriais, o mesmo movimento: tratar modelo de fronteira como infraestrutura nacional, não como produto de uma empresa privada americana.

Isso conecta direto com a virada de preço que já descrevemos aqui. Quando o custo da IA de fronteira despenca e a capacidade vira quase commodity, o modelo deixa de ser a vantagem competitiva. A vantagem migra para o que só você tem: seus dados, seu processo, sua integração. Cada novo modelo aberto grande empurra essa commoditização mais um degrau. O GigaChat é um degrau russo.

Peso aberto virou política industrial. A pergunta para quem opera não é qual modelo estrangeiro usar, é o quanto sua arquitetura está presa a um fornecedor que você não controla.

O que isso muda para a operação por aqui

Sejamos práticos: uma empresa brasileira quase nunca vai colocar o GigaChat em produção de forma direta. O modelo é otimizado para russo, avaliado no benchmark russo MERA, e nada garante que ele lide bem com português ou com o contexto local. Adotar GigaChat porque ficou aberto seria a mesma pressa que criticamos em quem migra tudo para o modelo chinês mais barato no susto. A relevância aqui é outra, e é maior.

O primeiro efeito é sobre provenância e jurisdição. Modelo aberto que você baixa e roda na sua infraestrutura é uma coisa: o dado não sai da sua casa, e a licença MIT do GigaChat permite uso comercial. Já a API de nuvem de qualquer um desses fornecedores estrangeiros, russo, chinês ou americano, submete seus prompts às leis de dados do país de origem. Para dado sensível sob a LGPD, a rota segura nunca é a API estrangeira mais barata, é o peso aberto na sua própria máquina ou o modelo em que o seu jurídico confia. Um mapa com mais opções abertas melhora exatamente esse cenário: mais pesos para rodar localmente, menos motivos para mandar dado crítico para uma nuvem que você não controla.

O segundo efeito é sobre estratégia de fornecedor. Quando três potências passam a produzir pesos abertos de qualidade, a aposta certa para quem opera não é escolher o vencedor, é escolher a portabilidade. Desenhar a sua stack de IA para que trocar de modelo seja uma decisão de rota, e não uma reforma de arquitetura, é o que transforma essa guerra de laboratórios em vantagem sua. Quem amarrou tudo a um único provedor de nuvem vai assistir a essa commoditização como espectador. Quem construiu com abstração no meio do caminho vai poder pegar o melhor de cada polo conforme o preço e a qualidade se movem.

Há ainda um sinal geopolítico que vale registrar sem drama. A Rússia treinar e abrir um modelo de 700B, com dez idiomas e foco em rodar em cluster próprio, é a mesma lógica de soberania que move a Índia e a China: reduzir dependência de tecnologia americana em uma camada que virou estratégica. O Brasil ainda observa esse jogo da arquibancada. A lição para quem opera não é esperar um modelo soberano nacional para agir, é construir hoje a operação de forma que ela absorva qualquer modelo, venha ele de São Francisco, Pequim, Bengaluru ou Moscou.

O GigaChat não vai entrar na sua produção amanhã. Mas ele confirma a direção: o modelo virou insumo abundante e multipolar, e o valor está em cima dele, não nele. Quem entender isso para de torcer por um fornecedor e começa a projetar para todos.

Se a sua stack de IA está amarrada a um único fornecedor e você quer desenhar portabilidade antes da próxima virada de preço, chame a gente no WhatsApp para mapear onde está o lock-in.

GigaChat: a Rússia entrou na corrida dos modelos abertos

O que foi liberado

Por que isso é um sinal, não um produto

O que isso muda para a operação por aqui

Perguntas frequentes