Caio Johnston

Fundação

São os blocos básicos. Sem eles, o resto do vocabulário fica solto no ar.

Token

Token é a unidade que o modelo realmente processa. Não é exatamente uma palavra, nem exatamente uma sílaba: é um pedaço de texto definido por um algoritmo de tokenização que o modelo aprendeu junto com tudo o mais.

Em inglês, a regra prática é que 1 token equivale a aproximadamente 0,75 palavras, ou cerca de 4 caracteres. Em português a proporção piora um pouco: línguas com mais flexões e palavras compostas tendem a ser tokenizadas em mais pedaços, o que significa custo e latência maiores para o mesmo conteúdo.

Por que isso importa na prática: tokens são a unidade de cobrança dos modelos comerciais (preço por milhão de tokens de entrada e de saída), são a unidade que define limites de janela de contexto, e afetam diretamente a latência da geração. Toda decisão de arquitetura em sistemas baseados em LLM passa, em algum momento, por uma conta de tokens.

Termos relacionados: janela de contexto, completion, embedding.

Completion

Completion é a saída gerada pelo modelo em resposta a um prompt. O nome vem da origem dos LLMs como autocompletadores de texto: você fornecia um trecho e o modelo “completava” o que viria a seguir.

Hoje o termo persiste, mas a interface evoluiu para conversas (chat completions) e respostas estruturadas (structured outputs). Em APIs como a da OpenAI, há a distinção entre Completions API (legada) e Chat Completions ou Responses API (atuais).

Para efeito de cobrança, a maioria dos provedores cobra mais caro por tokens de saída (completion) do que de entrada (prompt), refletindo o custo computacional adicional da geração token a token.

Termos relacionados: token, inferência, prompt caching.

Modelo (LLM, SLM, Foundation Model)

Três termos que aparecem juntos e nem sempre significam a mesma coisa.

LLM (Large Language Model) é um modelo de linguagem com bilhões de parâmetros, treinado em grandes volumes de texto, capaz de tarefas de propósito geral. GPT-4, Claude Sonnet, Gemini Pro e Llama 3 são exemplos.

SLM (Small Language Model) é a contraparte: modelos menores, tipicamente entre 1B e 10B de parâmetros, otimizados para rodar em hardware mais modesto, na borda (edge) ou diretamente no dispositivo. Phi (Microsoft), Gemma (Google) e Llama 3.2 1B/3B são representantes do gênero. Em 2025, SLMs ganharam tração porque entregam desempenho suficiente para muitas tarefas com fração do custo e da latência dos modelos grandes.

Foundation model é o termo guarda-chuva, cunhado pela Stanford em 2021. Cobre qualquer modelo grande pré-treinado em dados amplos que pode ser adaptado para tarefas diversas, incluindo modelos de visão (DINOv2, SAM), de áudio (Whisper) ou multimodais (GPT-4o, Gemini). Todo LLM é um foundation model, mas nem todo foundation model é um LLM.

Termos relacionados: parâmetro, transformer, multimodal.

Parâmetro

Parâmetros são os pesos numéricos que o modelo aprendeu durante o treinamento. Cada parâmetro é um número (geralmente em ponto flutuante) que governa como uma camada da rede neural transforma sua entrada.

A contagem de parâmetros virou referência de tamanho e capacidade: GPT-3 tem 175B, Llama 3.1 vem em 8B, 70B e 405B, modelos como Phi-3 mini têm 3,8B. A relação entre parâmetros e capacidade não é linear: arquitetura, qualidade e volume dos dados de treinamento, e técnicas de pós-treinamento (RLHF, instruction tuning) pesam tanto quanto o tamanho bruto.

Na prática, mais parâmetros significam mais memória de GPU para inferência, mais custo computacional, e geralmente mais capacidade em tarefas complexas, mas com retornos decrescentes. O movimento de 2024 e 2025 foi justamente o de modelos menores entregando resultados competitivos com modelos muito maiores de gerações anteriores.

Termos relacionados: modelo, quantização, inferência.

Temperatura e Top-p

Temperatura e top-p são os dois parâmetros mais comuns para controlar como o modelo escolhe a próxima palavra durante a geração. Os dois ajustam o quão “criativo” ou “determinístico” o modelo é, mas funcionam de forma diferente.

Temperatura é um número (tipicamente entre 0 e 2) que escala a distribuição de probabilidades sobre os próximos tokens possíveis. Temperatura próxima de 0 faz o modelo escolher quase sempre o token mais provável, produzindo saídas mais determinísticas e conservadoras. Temperatura alta (1.5+) achata a distribuição, dando chance maior a tokens menos prováveis, com saídas mais variadas e às vezes incoerentes.

Top-p, também chamado de nucleus sampling, corta a distribuição: em vez de considerar todos os tokens possíveis, considera apenas o conjunto mínimo de tokens cuja probabilidade cumulativa atinge um valor (digamos, 0.9). Com top-p = 0.9, o modelo escolhe entre os tokens que somam 90% da probabilidade total, ignorando a cauda longa de opções improváveis.

A recomendação prática da maioria dos provedores é usar um ou outro, não os dois ao mesmo tempo. Para tarefas factuais e código, temperatura baixa (0 a 0.3). Para escrita criativa, temperatura entre 0.7 e 1.0. Top-p tende a ser usado quando se quer manter alguma variedade controlada, sem o risco de tokens muito improváveis aparecerem.

Termos relacionados: completion, inferência, reasoning model.

Inferência

Inferência é o ato de usar um modelo treinado para produzir uma saída. É o que acontece toda vez que você manda um prompt e recebe uma resposta. Distingue-se de treinamento, que é o processo (muito mais caro e raro) de criar ou ajustar o modelo.

Para quem opera produtos baseados em LLM, custo de inferência domina o orçamento operacional. Diferente de software tradicional, onde infraestrutura é commodity barata, cada inferência consome ciclos de GPU e pode custar de centavos a alguns dólares dependendo do modelo, do tamanho do prompt e da resposta.

Boa parte das otimizações comentadas neste guia (KV cache, prompt caching, quantização, Flash Attention) existem para reduzir custo de inferência sem sacrificar qualidade.

Termos relacionados: token, latência vs throughput, KV cache.

Transformer

Transformer é a arquitetura de rede neural que está por trás de praticamente todos os LLMs modernos. Foi introduzida em 2017 no paper “Attention is All You Need” do Google e mudou o jogo do processamento de linguagem.

A inovação central é o mecanismo de atenção (self-attention), que permite ao modelo, ao processar um token, considerar diretamente todos os outros tokens da sequência e calcular o quanto cada um deles é relevante. Antes do transformer, modelos de linguagem dependiam de RNNs e LSTMs, que processavam texto sequencialmente e tinham dificuldade com dependências longas.

Variantes da arquitetura transformer (decoder-only como GPT, encoder-decoder como T5, encoder-only como BERT) cobrem casos de uso diferentes, mas todas compartilham o mecanismo de atenção como espinha dorsal.

Saber o que é transformer não é estritamente necessário para usar LLMs, mas ajuda a entender por que conceitos como janela de contexto, KV cache e Flash Attention existem: todos derivam de propriedades específicas dessa arquitetura. A complexidade quadrática da atenção em relação ao tamanho da sequência (O(n²)) é o motivo pelo qual janelas longas custam caro.

Termos relacionados: janela de contexto, KV cache, Flash Attention.

Intermediário

Aqui o vocabulário começa a se aproximar das decisões de arquitetura e de produto.

Embedding

Embedding é a representação de um pedaço de texto (ou imagem, ou áudio) como um vetor de números em um espaço de alta dimensão, tipicamente entre 384 e 3072 dimensões.

A propriedade que torna embeddings úteis é semântica: textos com significado parecido produzem vetores próximos no espaço (medido por distância de cosseno ou euclidiana). “Cachorro” e “cão” terão embeddings próximos. “Cachorro” e “calculadora” estarão distantes.

Na prática, embeddings são a base de busca semântica (você busca por significado, não por palavras-chave), classificação, clustering, deduplicação, e a maioria dos sistemas de RAG. Modelos populares incluem text-embedding-3-large da OpenAI, embed-multilingual-v3 da Cohere, e modelos open-source como BGE e E5.

Em pipelines de RAG, embeddings entram em duas etapas: na hora de indexar (cada chunk de documento vira um vetor armazenado em um banco vetorial) e na hora de consultar (a query do usuário vira um vetor que é comparado com os indexados).

Termos relacionados: RAG, grounding, multimodal.

Janela de contexto

Janela de contexto é o número máximo de tokens que o modelo consegue processar em uma única chamada. Inclui tudo: instruções, histórico de conversa, documentos retrievados e a saída.

Em 2026, janelas de contexto atingiram patamares impressionantes. Gemini 2.5 Pro processa 2 milhões de tokens, equivalente a cerca de 30 livros. Claude Sonnet 4 e GPT-4.1 chegam a 1 milhão. Modelos open-source como Qwen2.5-1M alcançam o mesmo patamar.

O detalhe importante, e frequentemente ignorado, é que janela de contexto anunciada nem sempre é janela de contexto efetiva. Pesquisas de 2025 mostraram que muitos modelos sofrem queda de precisão muito antes do limite divulgado, fenômeno conhecido como “lost in the middle” ou “context rot”. A pesquisa da Chroma confirmou esse comportamento em todos os 18 modelos de fronteira testados em 2025.

Surgiu o conceito de MECW (Maximum Effective Context Window), que mede o ponto em que o desempenho do modelo realmente se mantém, em vez do limite teórico. A diferença pode ser brutal: o trabalho de Paulsen (2025) encontrou modelos com queda relevante a partir de 1.000 tokens, mesmo anunciando janelas de centenas de milhares.

Para sistemas em produção, isso significa que jogar tudo na janela de contexto raramente é a melhor estratégia. RAG, sumarização e compactação de contexto continuam sendo padrões úteis mesmo com janelas grandes.

Termos relacionados: token, RAG, KV cache.

RAG (Retrieval-Augmented Generation)

RAG é um padrão arquitetural que conecta um LLM a uma base de conhecimento externa. Em vez de depender só do que o modelo aprendeu durante o treinamento, o sistema recupera (retrieve) trechos relevantes de documentos no momento da consulta e os injeta no prompt para o modelo gerar a resposta.

O fluxo padrão tem três etapas. Primeiro, indexação: documentos são quebrados em chunks, transformados em embeddings e armazenados em um banco vetorial. Segundo, retrieval: a query do usuário vira um embedding, o banco retorna os chunks mais similares. Terceiro, generation: os chunks recuperados são adicionados ao prompt junto com a query, e o LLM gera a resposta usando esse contexto.

Por que RAG explodiu: resolve dois problemas centrais dos LLMs. Conhecimento desatualizado (o modelo só sabe até a data de corte do treinamento) e alucinação em domínios específicos (o modelo inventa quando não sabe). Com RAG, a resposta fica ancorada em fontes verificáveis e atualizáveis.

Variantes que apareceram desde 2023: hybrid search (combina busca vetorial com busca por palavras-chave), reranking (um segundo modelo refina os resultados do retriever), GraphRAG (usa grafos de conhecimento), e agentic RAG (o agente decide dinamicamente quando e como buscar).

Confusão comum: RAG é um caso particular de grounding, não a mesma coisa. Grounding é o conceito amplo de ancorar a resposta em fontes externas; RAG é uma forma específica de fazer isso via retrieval.

Termos relacionados: embedding, grounding, fine-tuning, agent.

Fine-tuning

Fine-tuning é o processo de pegar um modelo pré-treinado e continuar treinando-o em dados adicionais, ajustando seus pesos para um comportamento ou domínio específico.

Existem variantes pelo grau de mudança que se faz no modelo. Full fine-tuning ajusta todos os pesos (caro, exige muita memória). LoRA (Low-Rank Adaptation) treina apenas pequenas matrizes adicionais que são compostas com os pesos originais, reduzindo drasticamente memória e custo. QLoRA combina LoRA com quantização para fine-tuning em GPUs de consumidor.

A pergunta mais comum sobre fine-tuning é quando usar em vez de RAG. Resposta curta: fine-tuning é melhor para mudar o estilo, formato ou comportamento do modelo (responder no tom da empresa, seguir um schema específico, dominar um vocabulário técnico). RAG é melhor para incorporar conhecimento factual atualizado e citável. Os dois não são mutuamente exclusivos: pipelines de produção frequentemente combinam fine-tuning leve para o estilo com RAG para o conhecimento.

Em 2025, instruction tuning e RLHF (Reinforcement Learning from Human Feedback) viraram parte padrão do pipeline de treinamento de LLMs comerciais, sendo formas específicas de fine-tuning aplicadas pelos próprios fornecedores antes do modelo ser disponibilizado.

Termos relacionados: parâmetro, RAG, quantização.

Grounding

Grounding é o conceito de ancorar as respostas do modelo em informações verificáveis e externas, em vez de depender apenas do conhecimento implícito nos pesos.

A motivação é direta: LLMs alucinam, principalmente em domínios onde têm pouco treinamento, sobre eventos posteriores ao corte de dados, ou sobre informações específicas de uma empresa. Grounding reduz alucinações ao dar ao modelo material de referência concreto, e idealmente exigir que ele cite as fontes.

RAG é a forma mais comum de implementar grounding, mas não a única. Tool use (deixar o modelo consultar uma API), web search em tempo real, e até mesmo passar documentos diretamente no prompt são formas de grounding. O Bing Grounding no Azure OpenAI e o Google Search grounding no Gemini são exemplos de grounding via busca web embutida.

A distinção entre grounding e RAG é frequentemente mal feita em discussões técnicas. RAG é uma técnica; grounding é o objetivo. Você pode ter RAG mal implementado que não faz grounding de verdade (chunks irrelevantes, sem citação), e pode ter grounding sem usar a arquitetura RAG clássica.

Termos relacionados: RAG, tool use, agent.

Multimodal

Modelos multimodais são aqueles capazes de processar e gerar conteúdo em mais de uma modalidade: texto, imagem, áudio, vídeo. GPT-4o, Gemini, Claude (com visão) e Llama 3.2 Vision são exemplos.

A motivação é prática: muitos casos de uso reais são naturalmente multimodais. Analisar uma planilha em PDF, descrever uma imagem para um sistema de acessibilidade, transcrever uma reunião em áudio, gerar um vídeo a partir de um briefing escrito.

A maioria dos modelos multimodais funciona convertendo modalidades não-textuais em representações que se encaixam no espaço do transformer (image embeddings, audio embeddings), permitindo que o mecanismo de atenção opere sobre todas as modalidades simultaneamente.

Para quem desenvolve aplicações, multimodal expande dramaticamente o que é possível, mas traz complicações: tokens são contados de forma diferente para imagens (e geralmente são caros), latência aumenta, e nem todas as APIs suportam todas as combinações de entrada e saída.

Termos relacionados: foundation model, embedding, token.

Prompt caching

Prompt caching é a capacidade de cachear partes repetidas de prompts para reduzir custo e latência em chamadas subsequentes. Quando um sistema envia o mesmo system prompt longo, os mesmos exemplos few-shot ou os mesmos documentos de contexto várias vezes, faz sentido não recomputar tudo do zero.

A Anthropic anunciou que prompt caching reduz custos em até 90% e latência em até 85% para prompts longos. A OpenAI tem caching automático que entrega 50% de redução de custo. AWS Bedrock e Google também oferecem o recurso.

O ganho vem de duas frentes: o input cacheado é cobrado a uma fração do preço do input normal (no caso da Anthropic, leituras de cache custam $0.30/M tokens contra $3.00/M de input fresco em modelos grandes), e a latência despenca porque o modelo pula a fase de prefill para a parte cacheada.

Quando faz sentido usar: pipelines de RAG com mesma base de conhecimento, agentes com system prompts grandes e tools repetidas, aplicações com few-shot examples extensos. Quando não faz sentido: prompts curtos ou que mudam a cada chamada.

A estrutura física por trás do recurso é o KV cache (ver verbete no nível avançado), que normalmente é descartado entre chamadas. Prompt caching simplesmente persiste partes do KV cache para reutilização.

Termos relacionados: KV cache, latência vs throughput, token.

Reasoning model

Reasoning model é um tipo de LLM que executa um passo explícito de raciocínio interno antes de produzir a resposta final. Em vez de responder direto, o modelo “pensa” em uma sequência de tokens internos (chain-of-thought), explora alternativas, verifica passos, e só então gera a saída.

A OpenAI inaugurou a categoria com o modelo o1 em setembro de 2024, seguido por o3, depois GPT-5 com modos de raciocínio. A Anthropic introduziu extended thinking no Claude. Google lançou Gemini Thinking. DeepSeek-R1 fez barulho como alternativa open-source com desempenho competitivo.

A diferença prática é grande para tarefas que envolvem múltiplos passos lógicos: matemática, lógica, código complexo, planejamento, análise estruturada. Para perguntas simples e factuais, o ganho é marginal e o custo é alto.

Trade-offs centrais: reasoning models são significativamente mais lentos (segundos a minutos por resposta, contra fração de segundo) e mais caros (cobram pelos tokens de raciocínio interno, mesmo quando você não os vê). Em sistemas em produção, a escolha entre reasoning e modelo padrão é uma decisão de roteamento que depende da complexidade da query.

Termos relacionados: completion, latência vs throughput, agent.

Avançado

Aqui entram termos mais técnicos e mais recentes. São os que aparecem em discussões de arquitetura, blog posts de engenharia e papers de 2025.

MCP (Model Context Protocol)

MCP é um protocolo aberto criado pela Anthropic em novembro de 2024 que padroniza como LLMs e agentes se conectam a fontes de dados e ferramentas externas.

A analogia mais usada é com USB-C ou com o Language Server Protocol (LSP) que revolucionou IDEs nos anos 2010. Antes do LSP, cada editor de código tinha que implementar suporte específico para cada linguagem; com LSP, um único protocolo padronizado fez qualquer editor falar com qualquer linguagem. MCP propõe a mesma coisa para LLMs e ferramentas.

A arquitetura tem três componentes. Host é a aplicação que o usuário usa (Claude Desktop, IDE, agente). Client é o componente dentro do host que fala MCP. Server é a ferramenta exposta via MCP (acesso a um sistema de arquivos, a um banco de dados, a uma API SaaS). Um host pode conectar vários clients a vários servers.

Por que estourou em 2025: o problema que MCP resolve é universal. Toda equipe que constrói com LLMs estava reimplementando integrações com Slack, GitHub, Postgres, Google Drive, e por aí vai. MCP transformou esse trabalho customizado em conectividade plug-and-play. Ao longo de 2025, “rodar um servidor MCP” virou tão comum quanto “rodar um servidor web”.

Em dezembro de 2025, a Anthropic doou o MCP para a recém-criada Agentic AI Foundation, sob o guarda-chuva da Linux Foundation, com OpenAI, Google, Microsoft e AWS como cofundadores. O movimento sinalizou que MCP venceu de fato a disputa como padrão para a camada agente-ferramenta.

Confusão comum: MCP é frequentemente confundido com “uma API para LLMs” ou com protocolos de comunicação entre agentes (que é o papel do A2A, próximo verbete). MCP é especificamente sobre conectar um agente a ferramentas, dados e prompts.

Termos relacionados: A2A, agent, tool use.

A2A (Agent-to-Agent Protocol)

A2A é um protocolo para comunicação entre agentes, lançado pelo Google em abril de 2025 com mais de 50 parceiros. Onde MCP define como um agente conversa com ferramentas, A2A define como agentes conversam entre si.

A abstração central do A2A é o Agent Card: um descritor público das capacidades de um agente (o que ele faz, como acessá-lo, qual autenticação usar). Agentes descobrem outros agentes via Agent Cards e iniciam tarefas seguindo um ciclo de vida formal (submetida, em andamento, concluída, falhou).

O protocolo é assíncrono e baseado em HTTP com Server-Sent Events, projetado para colaboração entre agentes que podem estar em organizações, vendors e plataformas diferentes. Um caso de uso típico: um agente corporativo de TI delegando uma tarefa específica a um agente de RH, que por sua vez delega parte do trabalho a um agente externo de benefícios.

Em 2025 também existiu o ACP (Agent Communication Protocol), criado pela IBM. ACP e A2A foram subsequentemente unificados, com o A2A absorvendo a simplicidade RESTful do ACP.

Onde MCP e A2A se encaixam: a leitura mais clara é que MCP é a camada inferior (agente para ferramenta) e A2A é a camada superior (agente para agente). Sistemas reais usam os dois.

Termos relacionados: MCP, agent, multi-agent.

Agent / Agentic AI

Agent (agente) é um sistema baseado em LLM que percebe um ambiente, planeja passos, executa ações via ferramentas e itera sobre os resultados, com algum grau de autonomia. Agentic AI é o termo guarda-chuva para esse paradigma.

A diferença em relação a um chatbot tradicional é a capacidade de ação: um chatbot responde, um agente faz. Um agente pode ler arquivos, escrever código, fazer chamadas de API, navegar na web, esperar respostas humanas em pontos específicos, e continuar trabalhando até atingir um objetivo (ou desistir).

O ciclo conceitual é simples: percepção (ler estado do ambiente), planejamento (decidir próximo passo), ação (executar via ferramenta), observação (avaliar resultado), e repetir. Frameworks como LangGraph, AutoGen, CrewAI e o Agents SDK da OpenAI estruturam esse loop com diferentes graus de opinião.

A literatura de 2025 (AI Agent Index, relatórios da Anthropic) sistematizou níveis de autonomia. Em uma escala simplificada: operador (humano controla cada passo), colaborador (agente sugere, humano aprova), aprovador (agente executa, humano confirma em pontos críticos), observador (agente executa, humano só monitora).

2025 foi o ano em que agentes saíram do hype e entraram em produção. Operator e ChatGPT Agent (OpenAI), Claude com computer use, agentes do Devin e Cursor para código, e centenas de agentes corporativos foram para produção. O Gartner projeta que 40% das aplicações enterprise terão agentes embarcados até o fim de 2026, contra menos de 5% em 2025.

Limitações importantes que continuam abertas: confiabilidade em horizontes longos (o agente desvia depois de muitos passos), custo (um agente complexo pode fazer dezenas de chamadas a LLMs), segurança (prompt injection em ferramentas é um vetor de ataque sério), e a dificuldade de avaliar agentes de forma rigorosa.

Termos relacionados: tool use, MCP, multi-agent, human in the loop.

Multi-agent

Multi-agent é a arquitetura em que múltiplos agentes especializados são coordenados para resolver problemas complexos, em vez de um único agente generalista tentar fazer tudo.

A analogia mais comum vem de microsserviços: assim como aplicações monolíticas deram lugar a serviços especializados que se comunicam, agentes monolíticos estão dando lugar a times de agentes especializados. O Gartner reportou um aumento de 1.445% nas consultas sobre sistemas multi-agente entre Q1 2024 e Q2 2025.

O padrão arquitetural mais comum é orchestrator/specialists (também chamado puppeteer): um agente coordenador que decompõe a tarefa, delega para agentes especializados (cada um com prompt, ferramentas e contexto próprios), e sintetiza os resultados. Variações incluem padrões de debate (agentes argumentam para chegar a uma conclusão), revisão (um agente verifica o trabalho de outro), e processos pipeline (saída de um vira entrada do próximo).

Trade-offs em relação a single-agent: ganho em qualidade e robustez para tarefas complexas (cada agente é especialista), perda em latência (mais chamadas) e custo (mais tokens). Para tarefas simples, multi-agent é overengineering.

Termos relacionados: agent, A2A, tool use.

Tool use / Function calling

Tool use, também conhecido como function calling, é a capacidade do LLM de invocar funções externas (chamadas de API, consultas a bancos de dados, execução de código) durante a geração da resposta.

O fluxo típico: o desenvolvedor define um conjunto de funções disponíveis com nome, descrição e schema dos parâmetros (geralmente JSON Schema). O modelo, ao receber uma query, decide se deve responder diretamente ou chamar uma das funções. Quando chama, retorna um JSON estruturado com a função e os argumentos. O sistema cliente executa a função, devolve o resultado ao modelo, que então gera a resposta final.

Tool use é a base operacional de qualquer agente. Sem ela, o LLM é uma caixa de texto. Com ela, vira uma camada de orquestração que pode acionar qualquer sistema acessível por código.

O termo function calling era mais comum em 2023 e 2024 (originário da nomenclatura da OpenAI). Tool use ganhou tração com a Anthropic e virou padrão em 2025, refletindo uma generalização: a “ferramenta” pode ser uma função, mas também pode ser uma base de conhecimento, um agente ou um servidor MCP.

Termos relacionados: agent, MCP, structured outputs.

Guardrails

Guardrails são mecanismos de controle aplicados a entradas e saídas de LLMs para garantir que o sistema fique dentro de limites técnicos, éticos e regulatórios.

Em sistemas de produção, guardrails operam em camadas. Input guardrails filtram prompts maliciosos (prompt injection, jailbreak), conteúdo proibido (PII, dados sensíveis), ou queries fora do escopo. Output guardrails verificam respostas do modelo antes de entregá-las ao usuário (toxicidade, vazamento de dados, conformidade com schema esperado, factualidade básica). Behavioral guardrails restringem ações de agentes (ferramentas permitidas, custos máximos, aprovação humana obrigatória para certas operações).

Implementações comuns: NVIDIA NeMo Guardrails (framework open-source com linguagem de marcação para regras), Azure AI Content Safety, Amazon Bedrock Guardrails, Llama Guard (modelo da Meta especializado em moderação). Frameworks como Guardrails AI e Pydantic AI focam em validação de schema na saída.

A linha entre guardrails e validação de schema (structured outputs) está borrada. Em geral, guardrails referem-se a controles de segurança e comportamento, enquanto structured outputs garantem formato. Os dois frequentemente coexistem.

Em pipelines com agentes autônomos, guardrails ganham peso: um agente que executa código, faz transações ou envia emails sem guardrails é uma superfície de risco séria.

Termos relacionados: agent, hallucination, human in the loop.

Quantização

Quantização é a técnica de reduzir a precisão dos pesos de um modelo (e, opcionalmente, das ativações) para diminuir tamanho, consumo de memória e custo de inferência, à custa de uma queda controlada de precisão.

Modelos são tipicamente treinados em FP32 (ponto flutuante de 32 bits) ou BF16 (16 bits). Quantizar para INT8 (8 bits) reduz o tamanho do modelo a um quarto ou metade. Quantização para INT4 reduz a um oitavo do original. Modelos de 70B parâmetros que exigiriam 140GB de VRAM em FP16 podem rodar em 35GB com quantização para INT4, viabilizando inferência em GPUs de consumidor.

Formatos populares em 2025: GGUF (usado pelo llama.cpp, padrão para inferência local), AWQ (Activation-aware Weight Quantization), GPTQ (Generative Pretrained Transformer Quantization), e variantes mais recentes como NVFP4 (NVIDIA Floating Point 4-bit).

Quantização tem três janelas de aplicação: post-training quantization (rápida, mas pode degradar mais a qualidade), quantization-aware training (treina o modelo já considerando a quantização, melhor qualidade mas exige re-treino), e dynamic quantization (aplica em tempo de execução).

Para sistemas em produção, a regra prática é avaliar se a queda de qualidade entre FP16 e INT8/INT4 é aceitável para o caso de uso. Para muitas aplicações enterprise, a diferença é imperceptível e o ganho de custo é significativo.

Termos relacionados: parâmetro, inferência, latência vs throughput.

Latência vs Throughput

Latência e throughput são as duas métricas centrais de desempenho de inferência, e otimizá-las pode envolver trade-offs.

Latência é o tempo entre uma requisição e sua resposta. Em LLMs, decompõe-se em duas partes: TTFT (Time to First Token), o tempo até o primeiro token aparecer (dominado pelo prefill da janela de contexto), e TPOT (Time per Output Token) ou ITL (Inter-Token Latency), o intervalo entre tokens subsequentes na geração. A latência total de uma resposta é, aproximadamente, TTFT + (TPOT × número de tokens de saída).

Throughput é a taxa de processamento agregada do sistema, geralmente medida em tokens por segundo somados sobre todas as requisições simultâneas. Maximizar throughput envolve batching: agrupar várias requisições para processar em paralelo na GPU.

O trade-off central: batching aumenta throughput (a GPU é melhor aproveitada) mas pode aumentar latência individual (cada requisição espera o batch ser formado e processado). Sistemas servindo muitos usuários precisam balancear os dois. Sistemas servindo poucas requisições críticas (um agente em foreground, por exemplo) priorizam latência.

Para chatbots em produção, TTFT abaixo de 500ms e TPOT abaixo de 50ms são metas comuns. Para agentes assíncronos rodando em background, throughput tem mais peso que latência.

Termos relacionados: inferência, KV cache, prompt caching.

Human in the loop

Human in the loop (HITL) é a presença deliberada de uma pessoa em pontos específicos de um fluxo automatizado para tomar decisões críticas ou validar saídas antes que elas tenham consequências.

No contexto de agentes, HITL é a contraparte da autonomia. Um agente totalmente autônomo executa do início ao fim sem intervenção. Um agente com HITL pausa em momentos definidos (executar uma transação financeira, enviar um email externo, deletar dados) e pede aprovação humana.

A literatura de 2025 propõe um espectro de papéis humanos: operador (controla cada ação), colaborador (planeja junto com o agente), consultor (responde quando consultado), aprovador (confirma decisões críticas), observador (apenas monitora). A escolha do papel depende do risco da tarefa.

Em sistemas com guardrails maduros, HITL é um mecanismo de fallback: o agente roda autônomo até encontrar uma decisão de alto risco ou alta incerteza, e então escala para humano. Implementações práticas usam thresholds de confiança, classificadores de risco, ou regras explícitas baseadas no tipo de ação.

A previsão para 2026, presente em relatórios da IBM e da Anthropic, é de mais sofisticação aqui: protocolos como Objective-Validation Protocol propõem fluxos onde humanos definem objetivos e validam progresso enquanto agentes executam autonomamente entre os checkpoints.

Termos relacionados: agent, guardrails, multi-agent.

KV cache

KV cache (Key-Value cache) é uma estrutura de memória que armazena resultados intermediários do mecanismo de atenção do transformer durante a geração de texto, evitando recomputá-los a cada token novo.

Para entender por que existe, é preciso lembrar como decoder-only transformers (a família dos GPTs) geram texto: um token por vez, e a cada novo token o modelo precisa considerar todos os tokens anteriores via self-attention. Sem cache, gerar o token N+1 exigiria recalcular as projeções Key e Value de todos os N tokens anteriores. Com KV cache, esses valores são guardados na primeira passagem e reutilizados.

O ganho computacional é enorme: em vez de O(n²) de complexidade por token, fica O(n). Sem KV cache, gerar respostas longas seria proibitivamente lento.

O custo é memória. Para cada token no contexto, o modelo armazena vetores Key e Value de cada camada e cada cabeça de atenção. Em modelos grandes com janelas longas, o KV cache pode dominar o uso de VRAM. Para 1 milhão de tokens em um modelo grande, o KV cache pode chegar a 15GB por usuário.

Otimizações desenvolvidas em 2024 e 2025 endereçam esse custo: quantização do KV cache (NVFP4, INT8), Paged Attention (vLLM, gerenciamento de memória inspirado em sistemas operacionais), prefix caching (compartilhar KV cache entre requisições com mesmo prefixo), e KV cache offloading (mover partes para CPU ou disco).

Quando você ouve que “prompt caching reduz custo”, é fundamentalmente isso: persistir e reutilizar partes do KV cache entre chamadas em vez de descartá-lo.

Termos relacionados: transformer, janela de contexto, prompt caching.

Flash Attention

Flash Attention é uma implementação otimizada do mecanismo de atenção do transformer que reduz drasticamente o uso de memória e aumenta a velocidade, sem mudar o resultado matemático.

A motivação técnica: a atenção padrão tem complexidade de memória O(n²) na sequência (a matriz de atenção tem n × n entradas). Para sequências longas, isso explode rápido. O algoritmo padrão também faz muitas leituras e escritas de memória entre HBM (memória principal da GPU) e SRAM (memória rápida no chip).

Flash Attention, introduzido por Dao et al. em 2022 e refinado em versões 2 e 3, reorganiza o cálculo para que a matriz de atenção nunca precise existir inteira em memória. Usa tiling (processa blocos), recomputação seletiva, e mantém o trabalho dentro da SRAM. O resultado é 2 a 4 vezes mais rápido e uso de memória linear em vez de quadrático.

Por que importa para quem não escreve kernels CUDA: Flash Attention é o que viabilizou janelas de contexto de 1M tokens em GPUs comerciais. Frameworks como PyTorch e bibliotecas como vLLM e TGI já trazem Flash Attention nativamente. Você raramente vai implementar isso, mas vai sentir o efeito ao notar que modelos rodam contextos longos em hardware que pareceria insuficiente.

Variantes relacionadas que aparecem em 2025: Sparse Attention (atenção que ignora pares menos relevantes), Sliding Window Attention (cada token só presta atenção a uma janela próxima), e Ring Attention (paralelismo de contexto distribuído).

Termos relacionados: transformer, KV cache, janela de contexto.

Vibe coding

Vibe coding é o termo cunhado por Andrej Karpathy em fevereiro de 2025 para descrever um modo de desenvolvimento de software baseado em prompts de linguagem natural com um LLM, em loop conversacional, com baixa preocupação imediata com a estrutura do código.

A formulação de Karpathy é direta: você vê o problema, descreve o “vibe” (a intenção, o que deveria acontecer), executa o que o modelo escreve, observa o resultado, e refina por conversa. Ferramentas como Cursor, Replit, Claude Projects e v0 são tipicamente o ambiente.

A distinção em relação a agentic coding (também muito discutida em 2025) é importante. Vibe coding é human-in-the-loop intenso, voltado a exploração, prototipagem e ideação. Agentic coding é mais autônomo: você define objetivos e critérios de aceitação, e um agente planeja, executa, testa e itera com mínima intervenção. Devin, GitHub Copilot Agent e Claude Code são exemplos do segundo paradigma.

Vibe coding gerou debate técnico legítimo em 2025. Defensores argumentam que viabiliza prototipagem em velocidades inéditas e democratiza desenvolvimento. Críticos apontam para riscos de qualidade de código, manutenibilidade, segurança e dependência de ferramentas opacas. A leitura mais sóbria, presente em relatórios como o “2026 Agentic Coding Trends” da Anthropic, é que o futuro é híbrido: vibe coding para exploração e MVP, agentic coding para refatoração e CI/CD, e revisão humana sempre.

O termo entrou no vocabulário comum rapidamente, sendo usado por NYT, Business Insider e mídia técnica ao longo de 2025. Vale conhecer mesmo que você não pratique, porque ele aparece em discussões de engenharia, recrutamento e estratégia tecnológica.

Termos relacionados: agent, tool use, human in the loop.

Conclusão

Vinte e sete termos não esgotam o vocabulário de IA generativa, mas cobrem o que aparece com mais frequência em 2026: dos blocos básicos como token e janela de contexto, passando por padrões consolidados como RAG e fine-tuning, até as fronteiras mais recentes em agentes, protocolos e otimização de inferência.

A área se move rápido, e parte do vocabulário aqui vai envelhecer. Mas a estrutura conceitual, transformer como arquitetura, embeddings como linguagem comum, agentes como camada de ação, vai persistir mesmo quando os nomes específicos mudarem.

Para se manter atualizado, vale acompanhar fontes primárias: blogs de engenharia da Anthropic, OpenAI, Google DeepMind e Meta; papers no arXiv; e relatórios anuais como o AI Agent Index e os de tendências dos grandes labs.

Referências

Anthropic. “Introducing the Model Context Protocol.” Novembro de 2024. https://www.anthropic.com/news/model-context-protocol

Anthropic. “2026 Agentic Coding Trends Report.” 2026. https://resources.anthropic.com/

Anthropic. “Prompt caching.” Documentação. https://docs.anthropic.com/

Atlan. “LLM Context Window Limitations in 2026.” 2026. https://atlan.com/know/llm-context-window-limitations/

Besen, Sandi. “An Unbiased Comparison of MCP, ACP, and A2A Protocols.” Medium, junho de 2025. https://medium.com/@sandibesen/an-unbiased-comparison-of-mcp-acp-and-a2a-protocols-0b45923a20f3

Brenndoerfer, Michael. “KV Cache Explained: Efficient Attention for LLM Generation.” Janeiro de 2026. https://mbrenndoerfer.com/writing/kv-cache-transformer-attention-optimization

Casper, Stephen et al. “The 2025 AI Agent Index Documenting Technical and Safety Features of Deployed Agentic AI Systems.” arXiv, fevereiro de 2026. https://arxiv.org/html/2602.17753v1

Dao, Tri et al.”FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness.” NeurIPS 2022.

Demir, Can. “MCP vs A2A vs ACP: The Protocol Wars That Will Define the Age of AI Agents.” Towards AI, fevereiro de 2026. https://medium.com/@candemir13/mcp-vs-a2a-vs-acp-the-protocol-wars-that-will-define-the-age-of-ai-agents-4f278377ef69

DigitalOcean. “A2A vs MCP: How These AI Agent Protocols Actually Differ.” Março de 2026. https://www.digitalocean.com/community/tutorials/a2a-vs-mcp-ai-agent-protocols

Ehtisham, Saksham et al. “A survey of agent interoperability protocols: MCP, ACP, A2A, and ANP.” arXiv 2505.02279. https://arxiv.org/pdf/2505.02279

IBM. "The trends that will shape AI and tech in 2026.”IBM Think, março de 2026. https://www.ibm.com/think/news/ai-tech-trends-predictions-2026

InfoWorld. “Agents, protocols, and vibes: The best AI stories of 2025.” Dezembro de 2025. https://www.infoworld.com/article/4108014/agents-protocols-and-vibes-ais-big-year.html

Karpathy, Andrej. Tweet original sobre vibe coding, fevereiro de 2025. https://x.com/karpathy

MachineLearningMastery. “7 Agentic AI Trends to Watch in 2026.” Janeiro de 2026. https://machinelearningmastery.com/7-agentic-ai-trends-to-watch-in-2026/

MIT Sloan Teaching Learning Technologies. “Glossary of Terms: Generative AI Basics.” 2025. https://mitsloanedtech.mit.edu/ai/basics/glossary/

nexos.ai. “What is LLM grounding, and how does it work?” Fevereiro de 2026. https://nexos.ai/blog/what-is-llm-grounding/

OpenAI. “OpenAI for Developers in 2025.”https://developers.openai.com/blog/openai-for-developers-2025

orq.ai. “Mastering LLM Guardrails: Complete 2026 Guide.” https://orq.ai/blog/llm-guardrails

Redis. “LLM context windows: what they are and how they work.” Janeiro de 2026. https://redis.io/blog/llm-context-windows/

Sapkota, Ranjan; Roumeliotis, Konstantinos I.; Karkee, Manoj. “Vibe Coding vs. Agentic Coding: Fundamentals and Practical Implications of Agentic AI.” arXiv 2505.19443, maio de 2025. https://arxiv.org/abs/2505.19443

The New Stack. “AI Engineering Trends in 2025: Agents, MCP and Vibe Coding.” Dezembro de 2025. https://thenewstack.io/ai-engineering-trends-in-2025-agents-mcp-and-vibe-coding/

Towards Data Science. ”The Death of the Everything Prompt: Google “39;s Move Toward Structured AI.” Fevereiro de 2026. https://towardsdatascience.com/the-death-of-the-everything-prompt-googles-move-toward-structured-ai/

Vaswani, Ashish et al. “Attention is All You Need.” NeurIPS 2017. https://arxiv.org/abs/1706.03762

Willison, Simon. “2025: The year in LLMs.” Dezembro de 2025. https://simonwillison.net/2025/Dec/31/the-year-in-llms/