Infrastructure as Code para AI: automatizando GPU clusters

Quinto post da série. No anterior, mergulhamos dentro da GPU. Agora vamos automatizar tudo ao redor dela. Porque entender GPUs é metade da batalha; provisionar elas de forma consistente e em escala é onde engenharia de infraestrutura realmente encontra AI. O typo de $4.000 Imagina o cenário: você provisiona um cluster GPU manualmente em East US 2 pra um experimento de ML. AKS com node pool Standard_NC6s_v3, accelerated networking, drivers NVIDIA, taints corretos. Leva quase um dia, mas funciona. ...

9 de maio de 2026 · 7 minutos · Ricardo Martins

Compute para AI: escolhendo o hardware certo (e conectando ele direito)

Terceiro post da série onde traduzo AI para a linguagem de quem vive infraestrutura. No post anterior, falamos do gargalo escondido de storage. Hoje vamos pro que todo mundo pensa que é o assunto principal de AI: compute. Spoiler: não é só sobre ter a GPU mais cara. É sobre ter a GPU certa, conectada do jeito certo. A história que você não quer viver O time de ML pede “um cluster GPU pra treinamento”. Você faz o que qualquer engenheiro de infra faria: provisiona oito Standard_D16s_v5. Sessenta e quatro vCPUs cada, 128 GiB de RAM, SSD premium. No papel, muita força. ...

1 de maio de 2026 · 12 minutos · Ricardo Martins