Infrastructure as Code para AI: automatizando GPU clusters

Quinto post da série. No anterior, mergulhamos dentro da GPU. Agora vamos automatizar tudo ao redor dela. Porque entender GPUs é metade da batalha; provisionar elas de forma consistente e em escala é onde engenharia de infraestrutura realmente encontra AI. O typo de $4.000 Imagina o cenário: você provisiona um cluster GPU manualmente em East US 2 pra um experimento de ML. AKS com node pool Standard_NC6s_v3, accelerated networking, drivers NVIDIA, taints corretos. Leva quase um dia, mas funciona. ...

9 de maio de 2026 · 7 minutos · Ricardo Martins

GPU deep dive: o que acontece dentro do silício

Quarto post da série. No anterior, você aprendeu quais VMs GPU provisionar e como conectar elas. Agora vamos olhar dentro da GPU pra entender o que acontece no silício. Não pra escrever CUDA kernels, mas pra ser um troubleshooter melhor e ter conversas informadas com o time de ML. O ticket das 2 da manhã Slack toca às 2 AM. O training job do time de ML crashou de novo. O erro é uma linha: ...

5 de maio de 2026 · 11 minutos · Ricardo Martins

Compute para AI: escolhendo o hardware certo (e conectando ele direito)

Terceiro post da série onde traduzo AI para a linguagem de quem vive infraestrutura. No post anterior, falamos do gargalo escondido de storage. Hoje vamos pro que todo mundo pensa que é o assunto principal de AI: compute. Spoiler: não é só sobre ter a GPU mais cara. É sobre ter a GPU certa, conectada do jeito certo. A história que você não quer viver O time de ML pede “um cluster GPU pra treinamento”. Você faz o que qualquer engenheiro de infra faria: provisiona oito Standard_D16s_v5. Sessenta e quatro vCPUs cada, 128 GiB de RAM, SSD premium. No papel, muita força. ...

1 de maio de 2026 · 12 minutos · Ricardo Martins

Dados e storage para workloads de AI: o gargalo que ninguém vê

Esse é o segundo post da série onde traduzo o mundo de AI para a linguagem de engenheiros de infraestrutura. No primeiro post, mostrei que AI é só mais um workload e que suas habilidades de infra já te preparam mais do que imagina. Agora vamos falar do gargalo que todo mundo ignora e que acaba sendo o vilão escondido de performance em praticamente todo projeto de AI que já vi: storage. ...

27 de abril de 2026 · 10 minutos · Ricardo Martins

AI para engenheiros de infraestrutura: por que AI precisa de você

Esse é o primeiro post de uma série onde vou traduzir o mundo de AI para a linguagem que engenheiros de infraestrutura já falam. Se você é o tipo de profissional que configura VMs, monta pipelines de CI/CD e acorda de madrugada quando o Nagios dispara, esse conteúdo é pra você. A série é baseada no meu livro open-source AI for Infrastructure Professionals, adaptada e expandida aqui em português. A mensagem de segunda-feira de manhã São 8:47 da manhã de uma segunda-feira. Você está no meio do seu café, revisando um plano de Terraform pra um redesign de rede, quando uma mensagem no Slack acende sua tela. É do líder do time de data science: ...

26 de abril de 2026 · 7 minutos · Ricardo Martins

Desvendando Azure Reservations e o Azure Savings Plans

Introdução: No âmbito da computação em nuvem, otimizar os custos é fundamental para empresas que utilizam o Microsoft Azure. O Azure oferece dois mecanismos principais de economia de custos: Azure Reservations e Savings Plans. Ambas as opções possuem vantagens, desvantagens e cenários de uso distintos. Neste guia abrangente, exploraremos esses recursos, penalidades e casos de uso ideais para capacitar você a tomar decisões informadas adaptadas às necessidades do seu negócio. Compreendendo as Reservas do Azure (Azure Reservations): As Reservas do Azure oferecem às empresas a oportunidade de se comprometerem com planos de um ou três anos para diversos produtos dentro do ecossistema do Azure. O compromisso envolve uma promessa de uso, permitindo descontos significativos de até 72% nos preços de pagamento conforme o uso. ...

15 de maio de 2024 · 3 minutos · Ricardo Martins

Guia para arquitetura de aplicações

Se você estiver desenvolvendo seus aplicativos nativos em nuvem, recomendo fortemente que você consulte este guia mesmo que não esteja usando Azure especificamente. Estilos de arquitetura N-tier: divide um aplicativo em camadas lógicas e camadas físicas Web-queue-worker: frontend e backend dissociados por mensagens assíncronas Microserviços: serviços funcionalmente decompostos que chamam uns aos outros por meio de APIs Arquitetura orientada a eventos: produtor/consumidor. Visão independente por subsistema Big data: divida um enorme conjunto de dados em pequenos pedaços. Processamento paralelo em datasets locais Big compute: alocação de dados para milhares de núcleos Escolhas tecnológicas Escolha do serviço de computação Escolha do serviço de armazenamento de dados Escolha do serviço de mensagens assíncronas Design da arquitetura Arquiteturas de referência: Cada arquitetura de referência inclui práticas recomendadas, juntamente com considerações sobre escalabilidade, disponibilidade, segurança, resiliência e outros aspectos do design Princípios de design: 10 princípios de design de alto nível que tornarão seu aplicativo mais escalonável, resiliente e gerenciável Padrões de design: Esses padrões de design são úteis para construir aplicativos confiáveis, escaláveis e seguros na nuvem Práticas recomendadas: abrangem diversas considerações de design, incluindo design de API, escalonamento automático, particionamento de dados, armazenamento em cache e assim por diante. Melhores práticas de segurança: descreva como garantir que a confidencialidade, integridade e disponibilidade da sua aplicação não sejam comprometidas por agentes mal-intencionados. Pilares de qualidade Microsoft Azure Well-Architected Framework Mais detalhes Conceitos básicos de arquitetura de aplicações

14 de novembro de 2023 · 2 minutos · Ricardo Martins

Conhecendo as opções para containers do Azure

O Azure é uma excelente plataforma de computação em nuvem com muitos recursos e funcionalidades interessantes, sendo as opções para containers realmente incríveis. Porém uma coisa que percebo em muitos clientes hoje são dúvidas e desconhecimento sobre detalhes destas opções. Pensando nisso estou escrevendo esse artigo para esclarecer um pouco sobre este assunto. Atualmente, as opções mais interessantes para containers no Azure são oferecidas nas soluções PaaS, que serão o objetivo deste post. Logo, não irei entrar nos detalhes sobre uso de containers em IaaS por ser o modelo mais tradicional e possuir a mesma forma de implementação independente do cloud provider. ...

19 de janeiro de 2019 · 14 minutos · Ricardo Martins

Implementando a Stack ELK no Azure via CLI

O objetivo deste artigo é descrever de forma detalhada como implementar a Stack ELK (Elasticsearch/Logstash/Kibana) no Azure. Introdução Este artigo é resultado de uma prova de conceito para mostrar a funcionalidade de implementação de toda a stack utilizando a ferramenta de linha de comando do Azure (az-cli) Arquitetura A ilustração abaixo se refere à arquitetura lógica implantada para provar o conceito. Esta arquitetura contempla um servidor de aplicação, o serviço de Redis do Azure, um servidor com o Logstash, um servidor com ElasticSearch e um servidor com o Kibana e serviço web (Nginx) instalados. ...

8 de outubro de 2018 · 10 minutos · Ricardo Martins

ARM Actions nos dashboards do portal do Azure

Provavelmente você já sabe que o Portal do Azure é totalmente customizável, permitindo que você explore ao máximo as opções criando dashboards para atender as suas necessidades de visualização, organização e monitoramento. Recentemente eu estava lendo um post no blog do Azure sobre isso e encontrei duas opções muito interessantes que eu não conhecia: ARM Data e ARM Actions. Basicamente o ARM Data permite configurar a exibição de dados/informações sobre seus recursos, enquanto que o ARM Actions permite configurar a execução de ações de forma bastante simples. ...

3 de agosto de 2018 · 2 minutos · Ricardo Martins