Como RAG funciona: da teoria ao pipeline

O VP de produto chega na daily: “Quero que o chatbot responda perguntas sobre nossa documentação interna. Tem 2000 páginas de runbooks, políticas, e procedimentos. O ChatGPT não sabe nada disso.” O time de ML responde: “Vamos implementar RAG.” Todo mundo concorda. Você fica com a tarefa de provisionar a infra. Mas antes de subir recursos, vale entender o que RAG realmente faz por dentro. O mapa pro profissional de infra Conceito RAG O que faz Equivalente em infra Retrieval Buscar documentos relevantes Query no search engine Augmentation Adicionar docs ao prompt do LLM Montar o payload do request Generation LLM gera resposta usando o contexto O response do modelo Chunking Dividir documentos em pedaços menores Partition de dados, sharding Indexing pipeline Processar docs e gerar embeddings ETL/data pipeline Hybrid search Combinar busca semântica + keyword Usar CDN + origin server O problema que RAG resolve LLMs têm duas limitações fundamentais: ...

2 de julho de 2026 · 7 minutos · Ricardo Martins