# 3.2. Arquitectura de RAG

## 3.2. Arquitectura de RAG: El cerebro con memoria

RAG (*Retrieval-Augmented Generation*) es la arquitectura estándar de la industria para empresas. Resuelve el problema #1 de los LLMs: **La alucinación y la falta de contexto.**

### 3.2.1. Anatomía del sistema RAG

El sistema no es una sola pieza, es un flujo de tres pasos que ocurre en milisegundos.

<table><thead><tr><th width="179.54296875">Paso</th><th width="225.18359375">Componente</th><th>Función Técnica</th></tr></thead><tbody><tr><td><strong>1. Ingesta</strong></td><td><strong>Embeddings</strong></td><td>Convierte tu texto (PDFs) en vectores numéricos (listas de coordenadas matemáticas).</td></tr><tr><td><strong>2. Recuperación</strong></td><td><strong>Vector DB</strong></td><td>Cuando el usuario pregunta, el sistema busca los párrafos matemáticamente más cercanos a la pregunta.</td></tr><tr><td><strong>3. Generación</strong></td><td><strong>LLM (Llama)</strong></td><td>Recibe los párrafos encontrados + la pregunta original y redacta una respuesta coherente.</td></tr></tbody></table>

***

### ¿Por qué RAG y no Fine-Tuning?

Muchos creen que deben "entrenar" (*Fine-Tuning*) a la IA con sus datos. Para el 95% de las PyMEs, eso es un error costoso e innecesario.

{% tabs %}
{% tab title="✅ RAG (Lo que haremos)" %}

* **Costo:** Bajo / Nulo.
* **Actualización:** Inmediata (subes un PDF y la IA ya sabe la nueva política al instante).
* **Transparencia:** Cita las fuentes ("Ver pág 5 del manual").
* **Uso:** Bases de conocimiento, búsqueda en contratos, soporte técnico.
  {% endtab %}

{% tab title="❌ Fine-Tuning (entrenamiento)" %}

* **Costo:** Alto ($$$ en GPUs y cómputo).
* **Actualización:** Lenta (hay que re-entrenar el modelo para enseñarle algo nuevo).
* **Transparencia:** Caja negra (no cita fuentes, "alucina" datos mezclados).
* **Uso:** Cambiar el "estilo" de hablar o aprender un idioma nuevo (ej. Náhuatl).
  {% endtab %}
  {% endtabs %}

{% hint style="warning" %}
**ANALOGÍA TÉCNICA** \
**Fine-Tuning** es mandar a la IA a la universidad a estudiar medicina (aprende a pensar como médico). \
**RAG** es darle a la IA el libro de medicina durante el examen para que busque la respuesta exacta (aprende a consultar).
{% endhint %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://incmty.gitbook.io/llama/sesion-3/3.2.-arquitectura-de-rag.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
