Último post da série. No anterior, construímos o framework de adoção de 6 fases. Agora: seu quick-reference card permanente.

Você já fala infraestrutura fluentemente. AI não é uma língua estrangeira; é um dialeto. Este glossário mapeia cada termo de AI pra algo que você já entende.

Como usar

Toda entrada tem: o termo AI, a analogia de infra entre parênteses, uma definição concisa, e quando você vai encontrar isso no seu trabalho. Organizado em 6 categorias. Pin essa página.

Core AI concepts

Termo AIAnalogia de infraDefiniçãoQuando aparece
ModelBinary compiladoO artefato treinado, deployável pra servir predictions. Contém os parâmetros aprendidos.Managing deployments, versionando artefatos, sizing storage (modelos vão de MBs a centenas de GBs)
TrainingBatch jobProcesso de ensinar o modelo alimentando dados e ajustando parâmetros. Long-running, GPU-intensivo.Provisionando GPU clusters, estimando duração de jobs, planejando bursts de compute
InferenceAPI endpointRodar um modelo treinado com dados novos pra gerar respostas. Real-time, latency-sensitive.Toda vez que um user ou sistema chama um serviço AI. É o workload de produção que você monitora e escala
LLMServiço API especializado (text-in, text-out)Foundation model treinado em corpus massivo de texto pra entender e gerar linguagem humana. GPT-4, Claude, LLaMA.Deployando endpoints Azure OpenAI, sizing token quotas, planejando capacidade
Fine-tuningCustomização de configuraçãoAdaptar modelo pré-treinado pro seu domínio treinando com seus dados.Quando times precisam que modelo entenda terminologia interna ou processos específicos
Foundation ModelBase image / golden imageModelo grande e pré-treinado (GPT-4, LLaMA, Mistral) pra ser adaptado pra muitas tarefas downstream.Selecionando qual base model deployar ou fine-tunar. É o artefato inicial na maioria dos projetos AI
Parameters / WeightsValores de configuraçãoOs valores numéricos internos que definem como o modelo processa input e gera output. GPT-4 tem trilhões.Sizing infra: mais parâmetros = mais memória, mais compute, mais storage
EpochCiclo de backup completoUma passada completa por todo o dataset de training. Modelos tipicamente treinam por dezenas a centenas de epochs.Estimando duração e custo de training jobs
Batch SizeChunk sizeNúmero de amostras processadas antes de atualizar pesos. Maior = mais GPU memory, mais eficiente.Tuning training jobs e troubleshooting OOM errors (reduzir batch size é geralmente o primeiro fix)
Transfer LearningReuso de templateUsar modelo pré-treinado em uma tarefa como ponto de partida pra outra, preservando conhecimento aprendido.Quando times querem resultados mais rápido e barato partindo de um foundation model

Data e storage

Termo AIAnalogia de infraDefiniçãoQuando aparece
DatasetData source / storage volumeDados estruturados ou não usados pra treinar, validar ou testar um modelo. GBs a PBs.Provisionando storage, planejando pipelines de dados, gerenciando access controls
EmbeddingHash / index keyRepresentação numérica vetorial de texto/imagens que captura significado semântico. Habilita similarity search.Deployando RAG architectures, sizing vector databases
TokenizationSerializaçãoQuebrar texto em unidades menores (tokens) que o modelo processa. Similar a serialização de objetos.Calculando custos (paga por token), estimando context window usage, otimizando prompts
Vector DatabaseSearch indexDatabase especializado que armazena embeddings e busca por similaridade (nearest-neighbor).Deployando RAG, provisionando Azure AI Search com vector capabilities
Feature StoreCaching layer pra ML inputsRepositório centralizado de features pré-computadas pra training e inference.Arquitetando ML platforms que precisam de acesso low-latency a features
Data DriftSchema change / distribuição de input mudouQuando propriedades estatísticas dos dados de produção divergem dos dados de training. Degrada accuracy.Model performance degrada sem code changes. O assassino silencioso de ML accuracy

Compute e hardware

Termo AIAnalogia de infraDefiniçãoQuando aparece
GPUCoprocessadorProcessador projetado pra computação paralela massiva, offloading matrix math da CPU.Em todo lugar em AI infra: provisioning VM SKUs, monitoring utilization, managing costs
CUDAGPU instruction set / SDKPlataforma de parallel computing da NVIDIA que permite código executado em GPUs.Instalando drivers, configurando containers GPU, troubleshooting “CUDA out of memory”
HBMGPU RAMMemória high-bandwidth empilhada no die do GPU. A100 tem 80 GB HBM2e.Selecionando GPU SKUs: HBM capacity determina model size máximo que uma GPU suporta
InfiniBandHigh-speed node-to-node networkingInterconnect ultra-low-latency e high-bandwidth pra distributed training. Muito mais rápido que Ethernet.Provisionando multi-node GPU clusters (ND-series VMs) pra training jobs grandes
NVLinkGPU-to-GPU interconnectLink high-speed conectando GPUs dentro de um único nó. ~10x a bandwidth de PCIe.Sizing multi-GPU VMs: GPUs com NVLink compartilham dados rápido o suficiente pra agir como unified memory
Tensor CoreUnidade especializada de matrix mathHardware dedicado em GPUs NVIDIA otimizado pra operações matrix multiply-and-accumulate que dominam AI.Avaliando gerações de GPU: Tensor Cores são por que A100 é dramaticamente mais rápido pra AI que gaming GPU

Model operations

Termo AIAnalogia de infraDefiniçãoQuando aparece
CheckpointSnapshot / backupCópia salva do estado do modelo durante training: weights, optimizer state, progresso.Gerenciando storage (checkpoints podem ter dezenas de GBs cada), desenhando training fault-tolerant
GradientError signalValor matemático indicando direção e magnitude dos ajustes de pesos pra reduzir erro.Troubleshooting training instability: “exploding gradients” e “vanishing gradients”
HyperparameterConfig value tunávelValor setado antes do training que controla o processo: learning rate, batch size, layers. Como thread count ou pool size.Quando data scientists pedem múltiplos training runs com configs diferentes: cada combo é um job separado
MLOpsDevOps pra modelosAplicar práticas DevOps (CI/CD, versioning, monitoring, automação) ao lifecycle de ML.Construindo ML platforms, desenhando model deployment pipelines
Model RegistryContainer registry pra modelosRepositório versionado pra armazenar e gerenciar artefatos de modelo treinado.Implementando MLOps pipelines que precisam versionar, promover e rollback model deployments

Deployment e serving

Termo AIAnalogia de infraDefiniçãoQuando aparece
PromptAPI request bodyInput de texto enviado ao modelo pra guiar output: instruções, contexto, exemplos, pergunta.Toda interação com LLM. Prompt design impacta qualidade, token consumption e custo
CompletionAPI response bodyOutput gerado pelo modelo em resposta a um prompt.Parsing responses, calculando output token costs, monitoring qualidade
Context WindowTamanho máximo de request payloadMáximo de tokens que modelo processa em um request (prompt + completion combinados).Desenhando prompts e RAG systems: exceder context window trunca input ou causa erros
Inference EndpointAPI endpoint servindo predictionsModelo deployado exposto como HTTP API que aceita input e retorna predictions.Provisionando, escalando e monitorando o serviço AI production-facing
PTUReserved capacity (como reserved instances)Capacidade de compute pré-alocada e garantida pra modelos Azure OpenAI. Latência e throughput consistentes.Quando workloads precisam de performance previsível: PTU elimina throttling a custo fixo
RAGEnriquecimento dinâmico de prompt com dados externosPattern que busca documentos relevantes de uma knowledge base e injeta no prompt antes da geração.Construindo soluções enterprise AI que precisam responder usando dados específicos e atualizados
TPMBandwidth / throughput quotaMáximo de tokens processados por minuto pra um deployment. Principal métrica de throughput pra LLM endpoints.Sizing deployments, estimando custos, diagnosticando throttling
RPMRequest rate limitMáximo de API calls por minuto pra um deployment. Independente de token quotas.Capacity planning e troubleshooting HTTP 429

Advanced concepts

Termo AIAnalogia de infraDefiniçãoQuando aparece
Data ParallelismSharding data across GPUsEstratégia onde dataset é dividido entre GPUs, cada uma processando batch diferente com cópia completa do modelo.Escalando training pra múltiplas GPUs. Abordagem mais simples de distributed training
Model ParallelismSharding modelo across GPUsDividir modelo em múltiplas GPUs quando não cabe na memória de uma só. Cada GPU segura parte das layers.Deployando modelos muito grandes (70B+ parâmetros) que excedem HBM de uma GPU
LoRAFine-tuning lightweightTécnica que treina uma adapter layer pequena (~1-2% dos parâmetros) em vez do modelo inteiro.Quando times querem customizar foundation model sem custo de full fine-tuning
Mixed PrecisionOtimização de data type variávelTraining com mix de FP32 e BF16/FP16, usando lower precision onde possível pra reduzir memória e aumentar throughput.Otimizando training jobs: mixed precision pode quase dobrar throughput em GPUs modernas
QuantizationCompressãoReduzir precisão do modelo (FP32 → INT8 ou INT4) pra shrink size e acelerar inference. Troca accuracy pequena por eficiência grande.Deployando modelos com constraints de custo ou latência: quantization pode cortar memory usage em 4x+
Prompt InjectionSQL injection pra AIAtaque onde input não confiável é crafted pra override instruções do modelo, causando comportamento não intendido.Securing AI endpoints expostos a user input. A preocupação de segurança #1 pra aplicações LLM
ZeROMemory optimization pra distributed trainingFamília de técnicas que particiona optimizer states, gradients e parameters entre GPUs pra eliminar redundância.Training de modelos grandes que não cabem em GPU memory mesmo com data parallelism. Solução padrão em DeepSpeed

Quick reference: top 20 termos

Pin esse card. É sua Pedra de Roseta.

#Termo AITradução infra
1ModelBinary compilado, output deployável de training
2TrainingBatch job long-running que produz um model
3InferenceAPI call real-time contra modelo deployado
4GPUCoprocessador que offloads matrix math
5LLMServiço API text-in/text-out
6PromptAPI request body
7CompletionAPI response body
8TokenUnidade mínima de processamento (paga por token como paga por byte transferido)
9Context WindowTamanho máximo de request payload
10Fine-tuningCustomizar base image com seus dados
11RAGEnriquecimento dinâmico de prompt com dados buscados
12EmbeddingHash/index key numérico pra similarity search
13CheckpointSnapshot/backup de training state
14TPMBandwidth quota (tokens por minuto)
15PTUReserved capacity (como reserved instances)
16CUDAGPU SDK/instruction set da NVIDIA
17LoRAFine-tuning lightweight (<1% dos parâmetros)
18MLOpsDevOps aplicado a model lifecycle
19Data DriftDistribuição de input mudou, modelo degrada
20QuantizationCompressão de modelo (4x menos memória)

Encerramento da série

15 posts. Do primeiro conceito (por que engenheiros de infra importam pra AI) até este glossário completo. Se você acompanhou tudo, tem hoje uma base sólida pra operar workloads AI em produção com segurança, eficiência de custo e governança.

O livro completo, em inglês, está disponível gratuitamente em ai4infra.com. Se preferiu a versão condensada em português com os exemplos práticos desta série, compartilhe com outros profissionais de infra que estão fazendo a transição pra AI.

AI não é uma revolução que substitui o que você sabe. É uma extensão. Seus skills de networking, storage, compute, segurança e automação são exatamente o que projetos AI precisam pra funcionar em produção. A diferença é que agora você tem o vocabulário e os patterns pra conectar os dois mundos.