Ai | Ricardo Martins — Cloud Architecture, Azure, Kubernetes e DevOps

Glossário visual infra ↔ AI: sua Pedra de Roseta

Último post da série. No anterior, a gente montou o framework de adoção em 6 fases. Agora vem a cola final. Você já fala infraestrutura com fluência. AI não é idioma alienígena. É um dialeto com nome ruim e sigla demais. Este glossário faz a ponte entre os termos de AI e os conceitos de infra que você já usa todo dia. tl;dr: Use este post como tabela de tradução rápida. Se um termo de AI travar a conversa, volte aqui e mapeie para o equivalente de infra antes de discutir ferramenta ou arquitetura. ...

Framework de adoção AI: do entusiasmo à governança

Décimo quarto post da série. No anterior, a gente usou AI no próprio trabalho de infra. Agora o escopo aumenta: como levar uma organização inteira do “vamos usar AI” pra uma plataforma governada e escalável. tl;dr: Adoção de AI sem framework vira custo espalhado, segurança frouxa e GPU ociosa. As 6 fases (assessment, foundation, pilot, scale, govern, optimize) evitam repetir os mesmos erros de cloud adoption. As melhores intenções, os piores resultados Seu CTO entra no all-hands e manda: “vamos com tudo em AI”. A sala anima. Antes do fim da reunião já tem thread no Slack sobre GPU, copiloto, agente e orçamento que ninguém pediu. ...

AI use cases pra infra teams: AIOps e além

Décimo terceiro post da série. No anterior, a gente falou dos incidentes que arrancam você da cama. Agora a pergunta é outra: como usar AI pra melhorar o próprio trabalho de infraestrutura. tl;dr: AI ajuda muito em análise de logs, detecção de anomalia, capacity planning, rascunho de IaC e apoio em incidente. Não substitui monitoramento, compliance nem execução determinística. Invertendo a lente Nos últimos 12 posts, você montou infra pra AI: GPU, cluster, pipeline, segurança, monitoramento, custo. Beleza. Mas e usar AI no seu dia a dia? Análise de logs, detecção de anomalia, capacity planning, geração de IaC, apoio em incidentes. AIOps não é mágica e também não nasceu ontem. É só aplicar modelos e inferência em problemas operacionais que já consomem boa parte do seu tempo. ...

Troubleshooting playbook: os incidentes que vão te acordar às 2AM

Décimo segundo post da série. No anterior, operamos Azure OpenAI com HA e retry decente. Agora vem a parte menos charmosa: quando o diagrama bonito encosta na vida real. Este post está organizado em cenários reais de falha. Cada um segue: Sintomas → Diagnóstico → Root cause → Resolução → Prevenção. Leia uma vez pra formar repertório. Depois deixa salvo. Você ainda vai voltar aqui. tl;dr: Este playbook cobre cinco falhas comuns em workloads de AI: driver, CUDA OOM, pod Pending, 429 e latência. A meta é reduzir o tempo entre sintoma, hipótese e ação segura. ...

Azure OpenAI em produção: tokens, throughput e alta disponibilidade

Décimo primeiro post da série. No anterior, a gente montou a plataforma de AI self-service com multi-tenancy e scheduling. Agora vem o serviço que todo mundo quer usar: Azure OpenAI, e como rodar isso sem tomar 429 na cara. tl;dr: Em produção, Azure OpenAI pede conta de TPM e RPM, retry com jitter e rota de escape entre deployments e regiões. Se você trata 429 como azar, o problema volta no próximo pico. ...

Platform ops: construindo uma plataforma AI self-service

Décimo post da série. No anterior, controlamos custos com Spot VMs, right-sizing e FinOps. Agora: como parar de ser um help desk humano pra GPU. tl;dr: Quando cada time começa a pedir GPU por DM, já passou da hora de virar plataforma. Namespaces, quotas, filas e prioridades resolvem isso. O canal do Slack que comeu sua agenda Seis meses atrás, você provisionou uma VM GPU pro time de ML. Configurou drivers, montou storage, fechou o ticket. Pareceu mais um request normal de infraestrutura. ...

Cost engineering para AI: quando GPU idle custa mais que seu carro

Nono post da série. No anterior, blindamos a plataforma contra prompt injection e data leakage. Agora: como não falir no processo. tl;dr: GPU cara sem controle vira incidente financeiro. Resolva com auto-shutdown, right-sizing, Spot, budgets e escolha certa entre Standard e PTU. A segunda-feira de R$650.000 Segunda de manhã. Café na mão, e-mail do financeiro no subject line: “URGENTE: fatura Azure $127.000, explicar.” Forecast era $42.000. Dois VMs ND96isr_H100_v5, provisionados três semanas atrás pra um “experimento rápido”, nunca desligados. A ~$98/hora cada, rodando 24/7 por três semanas: $33.000 em GPU parada. Ninguém usando. Ninguém lembrava que existiam. ...

Segurança para AI: ameaças que seu firewall não pega

Oitavo post da série. No anterior, aprendemos que dashboard verde não garante modelo saudável. Agora: as ameaças que seu WAF não vai pegar. tl;dr: Em AI, auth, rede e firewall não bastam. Você precisa controlar identidade, dados acessados pelo modelo e exfiltração na própria resposta. O chatbot que sabia demais Sua organização deploya um chatbot interno com Azure OpenAI, conectado a uma knowledge base de políticas, documentação e FAQs. Rollout tranquilo, adoção disparou, liderança já planeja versão pra clientes. ...

Monitoramento e observabilidade para AI: quando o dashboard verde mente

Sétimo post da série. No anterior, colocamos modelos em produção com pipelines CI/CD. Agora: como saber se estão saudáveis? tl;dr: Dashboard verde não basta. Você precisa observar GPU, custo, modelo, segurança, rede e dados ao mesmo tempo. A falha silenciosa Seu endpoint Azure OpenAI retorna 200 OK em todo request. Latência normal, P95 abaixo de 800ms. CPU e memória dentro dos thresholds. Kubernetes mostra pods saudáveis, sem restarts. Por toda métrica de infra que você confia, o sistema está perfeito. ...

MLOps: ciclo de vida do modelo pra quem é de infra

Sexto post da série. No anterior, automatizamos provisioning de clusters GPU. Agora entra a parte que começa depois do hardware pronto: como um modelo sai do “funciona no meu notebook” e vira algo que roda em produção com SLA. tl;dr: Modelo não é arquivo solto. Registre versão, valide em staging, publique com canary e deixe rollback pronto. O modelo que chegou sem certidão de nascimento Um data scientist manda uma mensagem no canal do time com um link pra um shared drive: “Aqui está o modelo. É um checkpoint PyTorch de 15 GB. Precisamos em produção até sexta.” ...