Troubleshooting playbook: os incidentes que vão te acordar às 2AM

Décimo segundo post da série. No anterior, operamos Azure OpenAI com HA e retry correto. Agora: quando as coisas quebram (e vão quebrar). Este post é organizado como cenários reais de falha. Cada um segue: Sintomas → Diagnóstico → Root Cause → Resolução → Prevenção. Leia uma vez pra reconhecimento de padrões. Depois deixe bookmarkado; você vai voltar aqui. Cenário 1: NVIDIA driver crash após kernel update Sintomas Segunda de manhã. Time de ML reporta que todos os workloads GPU falharam no fim de semana. Ninguém deployou nada. Você faz SSH: ...

6 de junho de 2026 · 7 minutos · Ricardo Martins

Platform ops: construindo uma plataforma AI self-service

Décimo post da série. No anterior, controlamos custos com Spot VMs, right-sizing e FinOps. Agora: como parar de ser um help desk humano pra GPU. O canal do Slack que comeu sua agenda Seis meses atrás, você provisionou um único VM GPU pro time de ML. Configurou drivers, montou storage, fechou o ticket. Pareceu qualquer outro request de infraestrutura. Hoje, você tem quatro times, três clusters AKS, dezenas de GPU node pools e uma coleção crescente de endpoints Azure OpenAI. Cada time quer seus recursos, suas quotas e seus SLAs. Seus DMs viraram help desk: “Dá pra dar mais GPUs?” “Por que meu training job está Pending?” “Quem tá usando todas as A100s?” ...

29 de maio de 2026 · 7 minutos · Ricardo Martins

Conhecendo as opções para containers do Azure

O Azure é uma excelente plataforma de computação em nuvem com muitos recursos e funcionalidades interessantes, sendo as opções para containers realmente incríveis. Porém uma coisa que percebo em muitos clientes hoje são dúvidas e desconhecimento sobre detalhes destas opções. Pensando nisso estou escrevendo esse artigo para esclarecer um pouco sobre este assunto. Atualmente, as opções mais interessantes para containers no Azure são oferecidas nas soluções PaaS, que serão o objetivo deste post. Logo, não irei entrar nos detalhes sobre uso de containers em IaaS por ser o modelo mais tradicional e possuir a mesma forma de implementação independente do cloud provider. ...

19 de janeiro de 2019 · 14 minutos · Ricardo Martins