Azure

Da prompt engineering à frontier company: por que o modelo já não é o diferencial

Três anos atrás, a pergunta que eu mais ouvia era: “qual é o melhor prompt?” Dois anos atrás, mudou pra: “como faço RAG?” Ano passado: “como construo um agent?” Esse ano, a conversa mudou de tamanho. Ninguém está perguntando só como fazer um chatbot melhor. A pergunta agora é como uma empresa inteira opera com agents, com governança, observabilidade e permissões de verdade. Essa sequência conta uma história boa sobre maturidade. E vale conectar os pontos porque ela explica por que tanta gente ainda discute o problema errado. ...

MCP e Agentes de IA 101 para Engenheiros de Infraestrutura

Em algum momento nos últimos meses, alguém do seu time apareceu falando sobre um “AI agent” ou um “MCP server” e pediu acesso, um deploy ou uma explicação para o CISO sobre por que agora existe um processo não determinístico com permissão para encostar no cluster de produção. Este post é o modelo mental que eu gostaria de ter tido antes de tocar nisso pela primeira vez. Sem hype e com um exemplo real rodando no Azure ao longo do caminho. ...

Framework de adoção AI: do entusiasmo à governança

Décimo quarto post da série. No anterior, a gente usou AI no próprio trabalho de infra. Agora o escopo aumenta: como levar uma organização inteira do “vamos usar AI” pra uma plataforma governada e escalável. tl;dr: Adoção de AI sem framework vira custo espalhado, segurança frouxa e GPU ociosa. As 6 fases (assessment, foundation, pilot, scale, govern, optimize) evitam repetir os mesmos erros de cloud adoption. As melhores intenções, os piores resultados Seu CTO entra no all-hands e manda: “vamos com tudo em AI”. A sala anima. Antes do fim da reunião já tem thread no Slack sobre GPU, copiloto, agente e orçamento que ninguém pediu. ...

AI use cases pra infra teams: AIOps e além

Décimo terceiro post da série. No anterior, a gente falou dos incidentes que arrancam você da cama. Agora a pergunta é outra: como usar AI pra melhorar o próprio trabalho de infraestrutura. tl;dr: AI ajuda muito em análise de logs, detecção de anomalia, capacity planning, rascunho de IaC e apoio em incidente. Não substitui monitoramento, compliance nem execução determinística. Invertendo a lente Nos últimos 12 posts, você montou infra pra AI: GPU, cluster, pipeline, segurança, monitoramento, custo. Beleza. Mas e usar AI no seu dia a dia? Análise de logs, detecção de anomalia, capacity planning, geração de IaC, apoio em incidentes. AIOps não é mágica e também não nasceu ontem. É só aplicar modelos e inferência em problemas operacionais que já consomem boa parte do seu tempo. ...

Troubleshooting playbook: os incidentes que vão te acordar às 2AM

Décimo segundo post da série. No anterior, operamos Azure OpenAI com HA e retry decente. Agora vem a parte menos charmosa: quando o diagrama bonito encosta na vida real. Este post está organizado em cenários reais de falha. Cada um segue: Sintomas → Diagnóstico → Root cause → Resolução → Prevenção. Leia uma vez pra formar repertório. Depois deixa salvo. Você ainda vai voltar aqui. tl;dr: Este playbook cobre cinco falhas comuns em workloads de AI: driver, CUDA OOM, pod Pending, 429 e latência. A meta é reduzir o tempo entre sintoma, hipótese e ação segura. ...

Azure OpenAI em produção: tokens, throughput e alta disponibilidade

Décimo primeiro post da série. No anterior, a gente montou a plataforma de AI self-service com multi-tenancy e scheduling. Agora vem o serviço que todo mundo quer usar: Azure OpenAI, e como rodar isso sem tomar 429 na cara. tl;dr: Em produção, Azure OpenAI pede conta de TPM e RPM, retry com jitter e rota de escape entre deployments e regiões. Se você trata 429 como azar, o problema volta no próximo pico. ...

Platform ops: construindo uma plataforma AI self-service

Décimo post da série. No anterior, controlamos custos com Spot VMs, right-sizing e FinOps. Agora: como parar de ser um help desk humano pra GPU. tl;dr: Quando cada time começa a pedir GPU por DM, já passou da hora de virar plataforma. Namespaces, quotas, filas e prioridades resolvem isso. O canal do Slack que comeu sua agenda Seis meses atrás, você provisionou uma VM GPU pro time de ML. Configurou drivers, montou storage, fechou o ticket. Pareceu mais um request normal de infraestrutura. ...

Cost engineering para AI: quando GPU idle custa mais que seu carro

Nono post da série. No anterior, blindamos a plataforma contra prompt injection e data leakage. Agora: como não falir no processo. tl;dr: GPU cara sem controle vira incidente financeiro. Resolva com auto-shutdown, right-sizing, Spot, budgets e escolha certa entre Standard e PTU. A segunda-feira de R$650.000 Segunda de manhã. Café na mão, e-mail do financeiro no subject line: “URGENTE: fatura Azure $127.000, explicar.” Forecast era $42.000. Dois VMs ND96isr_H100_v5, provisionados três semanas atrás pra um “experimento rápido”, nunca desligados. A ~$98/hora cada, rodando 24/7 por três semanas: $33.000 em GPU parada. Ninguém usando. Ninguém lembrava que existiam. ...

Segurança para AI: ameaças que seu firewall não pega

Oitavo post da série. No anterior, aprendemos que dashboard verde não garante modelo saudável. Agora: as ameaças que seu WAF não vai pegar. tl;dr: Em AI, auth, rede e firewall não bastam. Você precisa controlar identidade, dados acessados pelo modelo e exfiltração na própria resposta. O chatbot que sabia demais Sua organização deploya um chatbot interno com Azure OpenAI, conectado a uma knowledge base de políticas, documentação e FAQs. Rollout tranquilo, adoção disparou, liderança já planeja versão pra clientes. ...

Monitoramento e observabilidade para AI: quando o dashboard verde mente

Sétimo post da série. No anterior, colocamos modelos em produção com pipelines CI/CD. Agora: como saber se estão saudáveis? tl;dr: Dashboard verde não basta. Você precisa observar GPU, custo, modelo, segurança, rede e dados ao mesmo tempo. A falha silenciosa Seu endpoint Azure OpenAI retorna 200 OK em todo request. Latência normal, P95 abaixo de 800ms. CPU e memória dentro dos thresholds. Kubernetes mostra pods saudáveis, sem restarts. Por toda métrica de infra que você confia, o sistema está perfeito. ...