MLOps: ciclo de vida do modelo pra quem é de infra

Sexto post da série. No anterior, automatizamos provisioning de clusters GPU. Agora vamos falar do que acontece depois do hardware estar pronto: como um modelo vai de “funciona no meu notebook” pra “roda em produção com SLA”. O modelo que chegou sem certidão de nascimento Um data scientist manda uma mensagem no canal do time com um link pra um shared drive: “Aqui está o modelo. É um checkpoint PyTorch de 15 GB. Precisamos em produção até sexta.” ...

13 de maio de 2026 · 6 minutos · Ricardo Martins

Infrastructure as Code para AI: automatizando GPU clusters

Quinto post da série. No anterior, mergulhamos dentro da GPU. Agora vamos automatizar tudo ao redor dela. Porque entender GPUs é metade da batalha; provisionar elas de forma consistente e em escala é onde engenharia de infraestrutura realmente encontra AI. O typo de $4.000 Imagina o cenário: você provisiona um cluster GPU manualmente em East US 2 pra um experimento de ML. AKS com node pool Standard_NC6s_v3, accelerated networking, drivers NVIDIA, taints corretos. Leva quase um dia, mas funciona. ...

9 de maio de 2026 · 7 minutos · Ricardo Martins