Inferência é uma equação de cálculo + memória
Latência, throughput e custo por sessão dependem do equilíbrio entre os dois.
Contexto longo costuma apertar RAM e VRAM
É aí que técnicas como quantização e compressão ganham valor.
Resumo editorial: inferência é a fase em que o modelo já treinado responde consultas. O custo real depende de tamanho do modelo, tamanho do contexto, memória disponível, tipo de hardware e qualidade das otimizações.
Os cinco fatores que mais pesam
- Tamanho do modelo.
- Tamanho do contexto.
- Eficiência do KV Cache.
- Largura de banda e capacidade de memória.
- Objetivo de latência e concorrência.
Por que VRAM e RAM entram nessa conversa
Servir modelos grandes ou contextos extensos exige memória rápida. Se a infraestrutura precisa mover dados demais ou se o cache não cabe bem, a experiência pode perder velocidade e encarecer. Nem sempre aumentar GPU resolve tudo; muitas vezes é preciso atacar o desenho do fluxo.
Latência
Quanto tempo o usuário espera entre enviar e receber.
Throughput
Quantas requisições uma máquina aguenta ao mesmo tempo.
Custo por sessão
Quanto contexto longo e memória cara pesam ao longo do mês.
Como eficiência muda a economia
Quantização, compressão de cache, roteamento inteligente de contexto e bons limites de janela têm impacto enorme. Em produtos grandes, pequenos ganhos percentuais viram economias relevantes. Em produtos premium, esses ganhos também viram mais qualidade percebida.
Continue em GPU, RAM e VRAM, KV Cache e TurboQuant.