¿Qué es RAG? · Leunel

Generación Aumentada por Recuperación

RAG (Retrieval-Augmented Generation) es un patrón que le da a un modelo de lenguaje acceso a conocimiento externo en el momento de responder. En lugar de depender solo de lo que el modelo memorizó durante el entrenamiento, el sistema primero recupera los documentos más relevantes y luego le pide al LLM que genere una respuesta usándolos como contexto.

El flujo típico tiene dos etapas:

Recuperación — la pregunta del usuario se convierte en un embedding y se compara contra una base de datos vectorial para encontrar los fragmentos de texto más similares.
Generación — esos fragmentos se insertan en el prompt para que el LLM responda fundamentado en datos reales y actuales.

Por qué usarlo

RAG resuelve dos de las mayores debilidades de los LLMs: el conocimiento desactualizado y las alucinaciones. Como la respuesta se construye a partir de fuentes recuperadas, puede mantenerse al día e incluso citar de dónde salió la información.

En mis propios proyectos uso tanto RAG clásico como Hybrid-RAG, que combina la búsqueda semántica (vectorial) con la búsqueda por palabras clave para obtener lo mejor de ambos mundos.