Llm | Ricardo Martins — Cloud Architecture, Azure, Kubernetes e DevOps

Sexta-feira, 17h. Você recebe um ticket do time de data science: “O modelo está retornando respostas cortadas. Parece que o context window encheu. Pode aumentar?” Você olha pro ticket. Context window? Aumentar como? Isso é configuração de infra ou limitação do modelo? É memória? É disco? Onde isso vive? Se você já passou por isso, esse post é pra você. Vamos abrir o capô de um Large Language Model e entender o que cada peça faz. Não pra virar ML engineer, mas pra ter vocabulário e contexto pra resolver problemas reais no dia a dia. ...