Glosario para entender Llama


SECCIÓN A: FUNDAMENTOS IA

Activación (Activation Function)

Definición: Función matemática que introduce no-linealidad en redes neuronales.

Contexto: Sin activación, un transformer sería solo multiplicaciones lineales (inútil).

Tipos principales:

  • ReLU (Rectified Linear Unit): MAX(0, x) - estándar en Llama

  • GELU (Gaussian Error Linear Unit): Suaviza ReLU - usado en Llama 3.1

  • Swish: x * sigmoid(x) - experimental

Ejemplo MiPyME: Cuando Llama procesa tu pregunta legal, la activación GELU decide qué "neuronas" se encienden. Sin ella, sería como si dijeras "sumar 2+2" pero la máquina solo sabe multiplicar.

Aplicación: No necesitas cambiarla, pero entender que existe explica por qué Llama responde de formas no-obvias.


AGI (Artificial General Intelligence / Inteligencia General Artificial)

Definición: IA que puede realizar CUALQUIER tarea intelectual humana sin ser entrenada específicamente.

Estado actual (Nov 2025): No existe aún. GPT-4/Llama son "Narrow AI" (especializadas).

Timeline predicho:

  • 2025-2030: Posible AGI según algunos

  • 2050+: Estimación más conservadora

Importante para MiPyME: No pienses que Llama es AGI. Funciona excelente para legal/compliance, pero no puede aprender a volar un avión con 1 prompt.

Diferencia:

  • Narrow AI: Excelente en 1 tarea (Llama en legal ✓)

  • AGI: Excelente en TODO (todavía ficción)


Atención (Attention Mechanism)

Definición: Mecanismo que permite al modelo "enfocarse" en partes relevantes del input.

Analogía: Cuando lees un contrato de 50 páginas, tu cerebro no procesa todo igual. Enfatiza cláusulas críticas (atención). Llama hace igual.

Componentes:

  • Query (Q): "¿Qué me interesa?"

  • Key (K): "Aquí hay cosas relevantes"

  • Value (V): "Aquí está la información importante"

Fórmula: Attention(Q,K,V) = softmax(QK^T/√d_k)V

Para MiPyMEs: Llama puede leer un email de 5000 palabras pero enfocarse solo en cláusula de penalidad. Eso es attention.

Beneficio legal: Extrae "lo importante" de documentos largos automáticamente.


BFLoat16 (Brain Float 16)

Definición: Formato de número 16-bit diseñado por Google para IA (menos preciso que float16 pero más rápido).

Comparación:

  • Float32: 32 bits, preciso, lento (default)

  • BFloat16: 16 bits, rápido, menos preciso (Llama 3.1)

  • Float16: 16 bits, muy preciso pero inestable en entrenamiento

Ventaja: Llama 3.1 entreno en BFLoat16 = más rápido sin perder mucha calidad.

Para MiPyME: Si tienes GPU RTX 4090, BFLoat16 = más rápido sin sacrificar análisis legal.


Batch / Batching

Definición: Procesar múltiples inputs simultáneamente en lugar de uno por uno.

Ejemplo:

Para MiPyME: Si debes analizar 100 contratos:

  • Sin batch: 100 × 2 seg = 200 seg (3 min)

  • Con batch: 10 lotes × 2 seg = 20 seg (muy más rápido)

Tradeoff: Mayor batch = más velocidad pero más RAM.


Bias (Sesgo)

Definición: Tendencia sistemática del modelo a favorecer ciertos outputs sobre otros.

Tipos de sesgo:

  • Gender bias: Responder diferente para hombre/mujer (❌ Llama 3.1 lo minimiza)

  • Racial bias: Discriminar por raza (❌ Meta testea esto)

  • Language bias: Mejor en inglés que otros idiomas (Llama mejora Spanish)

  • Confirmation bias: Preferir info que confirma creencias previas

Ejemplo legal: Llama podría tener sesgo de "favorecer al demandante" si fue entrenado con jurisprudencia de un tribunal específico.

Para MiPyME: Siempre revisa respuestas legales. Llama NO reemplaza abogado porque puede tener sesgos.

Mitigation: Meta realiza "bias audits" regularmente.


SECCIÓN B: ARQUITECTURA LLAMA

Context Window / Ventana de Contexto

Definición: Cantidad máxima de tokens que el modelo puede procesar en UN request.

Comparación:

  • Llama 3.1: 128K tokens (~87,000 palabras en Spanish)

  • Llama 3.2: 128K tokens

  • Llama 4 (esperado): 256K tokens

¿Qué puedo meter en 128K?

  • 1 libro pequeño

  • 20-30 documentos legales medianos

  • 4 días de conversación

  • 50-60 artículos de Wikipedia

Ejemplo MiPyME:

Importante: Si excedes 128K, Llama da error "token limit exceeded".


Cross-Entropy Loss

Definición: Función de pérdida que mide cuán mal predice el modelo la siguiente palabra.

Intuición:

  • Llama predice: "El contrato es..."

  • Real debería ser: "...inválido"

  • Si Llama predijo "válido" → high loss ❌

  • Si Llama predijo "inválido" → low loss ✓

Durante training: Se minimiza loss = mejora el modelo.

Para MiPyME: No necesitas calcularla, pero "loss bajo" = modelo mejor.


Embedding / Embeddings

Definición: Representación de texto como vector numérico (convertir palabras a números que máquina entiende).

Ejemplo:

Propiedades matemáticas:

  • Palabras similares → embeddings similares

  • "Ley" y "norma" están CERCA en espacio vectorial

  • "Ley" y "pizza" están LEJOS

Aplicación legal: Buscar "contratos similares" = encontrar embeddings similares a tu contrato base.

Para RAG (Retrieval-Augmented Generation):

  1. Documento → embedding

  2. Query → embedding

  3. Encuentra documentos CERCANOS

  4. Llama responde basado en ellos


Epochs / Épocas

Definición: Una pasada COMPLETA a través de todo el dataset de training.

Ejemplo:

Cuántos epochs?

  • Pocas épocas: Underfitting (modelo no aprende)

  • Muchas épocas: Overfitting (memoriza datos en lugar de generalizar)

Para fine-tuning Llama: 3-5 épocas es típico.


Hallucination / Alucinación

Definición: Cuando el modelo genera información FALSA pero suena creíble.

Ejemplo:

Por qué ocurre?

  • Entrenado en datos inconsistentes

  • Presión para generar respuesta incluso sin certeza

  • Falta de acceso a fuentes verificables

Mitigation:

  • ✓ Usar RAG (proporciona fuentes reales)

  • ✓ Bajar temperatura (menos creativo = menos alucinaciones)

  • ✓ Siempre verificar respuestas legales

Peligro MiPyME: Tomar alucinación como ley real = riesgo legal.


Tokens / Tokenización

Definición: Proceso de convertir texto en "trozos" que el modelo procesa.

Ejemplo:

Llama usa BPE (Byte Pair Encoding): Texto español generalmente = 1.3 tokens/palabra

Token count = COSTO:

  • Bedrock cuesta por tokens: $0.003 por 1000 input tokens

  • 1000 palabras ≈ 1300 tokens ≈ $0.004

Para MiPyME:


SECCIÓN C: ENTRENAMIENTO & OPTIMIZACIÓN

Fine-tuning / Ajuste Fino

Definición: Entrenar modelo pre-entrenado CON TUS DATOS para especializarlo.

Tipos:

  • Full fine-tuning: Actualizar todos los parámetros (costoso)

  • LoRA: Actualizar solo 1% de parámetros (eficiente)

  • QLoRA: LoRA + quantización (muy eficiente)

Ejemplo MiPyME:

Tiempo:

  • LoRA: 2-6 horas (GPU H100)

  • Full: 24+ horas

Costo:

  • LoRA: $50-200

  • Full: $500-2000


GPTQ (Generative Pre-trained Transformer Quantization)

Definición: Método de quantización que mantiene alta calidad reduciendo precisión numérica.

Ventaja vs simple int4:

  • ✓ Igual velocidad

  • ✓ Mejor calidad (menos alucinaciones)

  • ✓ Más pequeño (4GB vs 16GB)

Para MiPyME: Si tienes GPU 8GB → GPTQ int4 es perfecto.


Knowledge Distillation / Destilación de Conocimiento

Definición: Entrenar modelo pequeño (estudiante) para copiar modelo grande (profesor).

Proceso:

Beneficio: 8x más pequeño, 4x más rápido, 80% calidad.

Para MiPyME: Entrenar Llama 3B especializada para tu sector usando Llama 70B como profesor.


Loss / Pérdida

Definición: Métrica de qué tan mal está el modelo durante entrenamiento.

Intuición: Loss bajo = predicciones correctas; Loss alto = predicciones malas.

Durante training:

Stop point: Cuando loss deja de disminuir = es tiempo de parar (evitar overfitting).


LoRA (Low-Rank Adaptation)

Definición: Técnica de fine-tuning que actualiza SOLO 1% de parámetros en lugar de 100%.

Matemática:

Ventajas:

  • ✓ 10-100x más rápido

  • ✓ Cabe en GPUs pequeñas (8GB)

  • ✓ Igual calidad que full fine-tuning

  • ✓ Múltiples LoRAs compartir base model

Para MiPyME: LoRA es the way. Full fine-tuning no vale la pena.


SECCIÓN D: DEPLOYMENT & INFRAESTRUCTURA

API (Application Programming Interface)

Definición: Interfaz estandarizada para que aplicaciones comuniquen con Llama.

Tipos:

  • REST API: HTTP requests (curl, Python requests)

  • gRPC: Más rápido que REST (proto buffers)

  • WebSocket: Streaming en tiempo real

Ejemplo REST:

Para MiPyME: Bedrock proporciona API REST. No construyas propia.


Bedrock (Amazon)

Definición: Servicio AWS que proporciona acceso a modelos (Llama, Claude) via API.

Modelos disponibles:

  • meta.llama2-7b, 13b, 70b

  • meta.llama3-8b, 70b

  • anthropic.claude-3-sonnet

Ventajas:

  • ✓ Sin servidor (no gestionar infra)

  • ✓ Paga solo por uso

  • ✓ Auto-scaling

  • ✓ Security SOC2/HIPAA/GDPR

Precios (Nov 2025):

  • Llama 70B: $0.00195 por 1000 input tokens

  • Llama 70B: $0.00256 por 1000 output tokens

Para MiPyME: Mejor opción para producción 24/7. No administrar servidores.


Cold Start

Definición: Tiempo inicial necesario para que modelo se cargue en memoria.

Ejemplo:

Solución: Mantener Lambda "warm" con invocaciones periódicas.

Para MiPyME: No es problema con Bedrock (no hay cold start, AWS maneja).


Containerización / Docker

Definición: Empaquetar aplicación + dependencias en "contenedor" ejecutable en cualquier máquina.

Ventaja: "Funciona en mi máquina" = funciona en producción.

Ejemplo Dockerfile (Llama + FastAPI):

Para MiPyME: Si desployas en tu servidor = usar Docker. Si usas Bedrock = no necesario.


Latency / Latencia

Definición: Tiempo que tarda desde que envías request hasta que recibes respuesta.

Medición:

Benchmarks Llama:

  • 8B CPU: 500-1000 ms

  • 8B GPU: 100-200 ms

  • 70B GPU: 200-500 ms

SLA típico: < 100 ms para 95% de requests (P95).

Para MiPyME:

  • Chat (user-facing): tolera 1-2 seg

  • Backend (batch): tolera 5+ seg


Inference / Inferencia

Definición: Proceso de usar modelo entrenado para hacer predicciones en datos nuevos.

Comparación:

Costo:

  • Training: $$$$$ (millones)

  • Inference: $ (céntimos por pregunta)

Para MiPyME: Solo pagas inference. Training ya hizo Meta.


Quantization / Cuantificación

Definición: Reducir precisión numérica de modelo para hacerlo más pequeño/rápido.

Tipos:

  • int4: 4 bits por número (4x más pequeño, pérdida 10-15%)

  • int8: 8 bits por número (2x más pequeño, pérdida 2-5%)

  • bfloat16: 16 bits (2x más pequeño, mínima pérdida)

Ejemplo:


LFPDPPP (Ley Federal de Protección de Datos Personales en Posesión de Particulares)

Definición: Ley mexicana que regula cómo empresas manejan datos personales de individuos.

Publicada: 2010 (actualizada 2022) Aplica a: Cualquier empresa en México (incluyendo MiPyMEs)

Conceptos clave:

  • Dato personal: Información identificable (nombre, email, RFC)

  • Consentimiento: Usuario DEBE autorizar uso de datos

  • Derecho ARCO: Acceso, Rectificación, Cancelación, Oposición

Obligaciones para IA:

  • Consentimiento explícito si usas IA

  • Aviso de privacidad DEBE mencionar IA

  • Responsabilidad si IA causa daño (peritaje)

Penalidades:

  • Multas: $500k - $20 millones

  • Clausura: Si violaciones graves

  • Responsabilidad penal: Empleados culpables

Para MiPyME: Usar Llama en análisis datos personales = DEBE cumplir LFPDPPP.


Peritaje / Peritaje Digital

Definición: Opinión técnica de experto en procedimiento legal.

Contexto IA: Si IA comete error → puede haber peritaje sobre "¿era razonable confiar en IA?"

Ejemplo:

Para MiPyME: Llama NO puede ser el único decisor en temas críticos. Siempre: humano + Llama.


SCJN (Suprema Corte de Justicia de la Nación)

Definición: Máximo tribunal en México. Sus sentencias = precedente.

Relevancia IA: SCJN ha emitido sentencias sobre:

  • Derecho a no ser discriminado por IA

  • Responsabilidad corporativa por IA

  • Deepfakes (Ley Olimpia)

Jurisprudencia reciente:

  • 2024: IA no reemplaza decisión humana en materia laboral

  • 2025: Empresas responsables por sesgo en IA

Para MiPyME: Leer sentencias SCJN = entender límites legales de IA.


Derecho ARCO

Definición: 4 derechos de personas sobre sus datos personales.

ARCO = Acceso, Rectificación, Cancelación, Oposición

  1. Acceso: "Quiero ver qué datos tienes de mí"

  2. Rectificación: "Ese dato es incorrecto, corrígelo"

  3. Cancelación: "Borra mi dato"

  4. Oposición: "No uses mi dato para X propósito"

Plazo: Responder en 20 días máximo.

Para MiPyME: Si Llama procesa datos de cliente → cliente tiene derecho ARCO.

Ejemplo: Cliente solicita "borrar mi email de tu sistema" → OBLIGATORIO hacerlo.


Cumplimiento Normativo (Compliance)

Definición: Conjunto de políticas/procesos para seguir leyes aplicables.

Para IA:

  • ✓ Auditoría regularmente

  • ✓ Documentar decisiones IA

  • ✓ Entrenar staff en LFPDPPP

  • ✓ Seguro responsabilidad civil

  • ✓ Encryption de datos

Costo MiPyME: ~$5k-15k setup + $1k-3k/mes mantenimiento.

ROI: Evitar multas de $20M = buena inversión.


SECCIÓN F: ARQUITECTURA & SISTEMAS

RAG (Retrieval-Augmented Generation)

Definición: Técnica que proporciona documentos relevantes a Llama ANTES de generar respuesta.

Proceso (stepper):

1

Paso 1 — User pregunta

User pregunta: "¿Derechos del trabajador en LFPDPPP?"

2

Search relevante en base de documentos

3

Paso 3 — Retrieve

Retrieve: [Art. 1, Art. 5, Art. 16 LFPDPPP] + jurisprudencia

4

Paso 4 — Augment

Augment: Proporcionar al prompt como contexto

5

Paso 5 — Generate

Generate: Llama responde basado en contexto real

Beneficio: Evita alucinaciones (Llama responde basado en hechos reales).

Para MiPyME:

  • ✓ Subir base de leyes mexicanas

  • ✓ Llama busca y responde

  • ✓ Respuestas verificables

Herramientas: Weaviate, Pinecone, Chroma (vector databases).


Vector Database / Base de Datos Vectorial

Definición: Base de datos que almacena embeddings (vectores numéricos) para búsqueda rápida.

Funciona: Encontrar vectores "similares" = documentos relacionados.

Ejemplo:

Para RAG MiPyME:


Microservices / Microservicios

Definición: Dividir aplicación en servicios pequeños independientes.

Arquitectura MiPyME:

Beneficio: Si vision service cae, chat sigue funcionando.


Load Balancer / Equilibrador de Carga

Definición: Distribuye requests entre múltiples servidores.

Ejemplo MiPyME:

Algoritmos:

  • Round-robin: 1er request → server 1, 2do → server 2, etc

  • Least connections: Envía a servidor menos ocupado

  • IP hash: Mismo cliente → mismo servidor (session affinity)


SECCIÓN G: PROMPTING & TÉCNICAS

Chain-of-Thought (CoT)

Definición: Solicitar a Llama que muestre su razonamiento paso a paso.

SIN CoT:

CON CoT:

Beneficio: Verifica lógica de Llama (evita alucinaciones).

Uso: Aplicar cuando análisis crítico o legal.


Few-Shot Prompting

Definición: Proporcionar ejemplos (shots) en el prompt para que Llama entienda patrón.

Ejemplo:

Para MiPyME: Few-shot mejora accuracy 20-40% sin fine-tuning.


Prompt Injection / Inyección de Prompt

Definición: Atacante intenta manipular Llama inyectando instrucciones maliciosas en input.

Ejemplo ataque:

Defensa:

  • ✓ Validar inputs (filtrar keywords sospechosas)

  • ✓ Usar system prompts fuertes (difícil override)

  • ✓ Segregar datos usuario de prompts

Para MiPyME: Principal riesgo = alguien fuerza Llama a divulgar datos confidenciales.


Temperature

Definición: Parámetro (0-2) que controla "creatividad" de Llama.

Escala:

  • 0.0: Determinístico (siempre misma respuesta) → Legal

  • 0.5: Balanceado → General purpose

  • 1.0: Creativo → Story telling

  • 2.0: Muy creativo/random → Raramente útil

Para MiPyME:

  • Legal analysis: Temperature 0.1-0.3 (preciso)

  • Chat general: Temperature 0.7 (natural)

  • Brainstorm ideas: Temperature 0.9 (creativo)


Top-P (Nucleus Sampling)

Definición: Selecciona palabras con probabilidad acumulada de P (típico 0.9).

Intuición:

Típico: Top-P 0.9, Top-K 50 (usar ambos).


SECCIÓN H: EVALUACIÓN & TESTING

Benchmark

Definición: Conjunto de tareas estándar para medir performance del modelo.

Benchmarks principales:

  • MMLU: 57K preguntas múltiple choice (test general knowledge)

  • HumanEval: 164 problemas de código

  • GSM8K: 8.5K problemas matemáticos de escuela

  • HELM: Evaluación integral (safety, language, reasoning)

Scores Llama 3.1:

Para MiPyME: Importa que Llama score alto en "reasoning" y "language" para tareas legales.


Evaluation Metrics / Métricas de Evaluación

Definición: Números que miden qué tan bien responde Llama.

Métricas comunes:

  • Accuracy: % respuestas correctas

  • BLEU: Qué tan similar a respuesta ideal (0-1)

  • ROUGE: Overlap entre respuesta y referencia (0-1)

  • Perplexity: Qué tan "sorprendido" está modelo (bajo=mejor)

Para MiPyME evaluación manual:


False Positive / False Negative

Definición: Errores de clasificación.

Ejemplo legal:

Impacto MiPyME:

  • False positive (ok por IA): MiPyME firma contrato inválido = pérdida

  • False negative (ok por IA): MiPyME rechaza contrato válido = oportunidad perdida

Preferencia: False negative > False Positive (mejor rechazar dudas).


SECCIÓN I: OPTIMIZACIÓN & PERFORMANCE

Inference Optimization / Optimización de Inferencia

Definición: Técnicas para hacer inferencia más rápida/barata.

Técnicas:

  1. Batching: Procesar múltiples inputs simultáneamente

  2. Caching: Guardar resultados (evitar recalcular)

  3. Quantization: Reducir precisión

  4. Pruning: Remover parámetros innecesarios

  5. Distillation: Usar modelo más pequeño

Impacto:


Memory-Efficient / Eficiencia de Memoria

Definición: Técnicas para hacer modelos caber en menos RAM.

Problemas Llama 70B:

  • Sin optimización: 140 GB RAM necesaria

  • GPU típica: 24 GB VRAM

  • Solución: ???

Soluciones:

  • ✓ Quantization (int4): 140 GB → 35 GB

  • ✓ LoRA: Solo 1% parámetros activos

  • ✓ Gradient checkpointing: Tradeoff memoria/velocidad

  • ✓ Mixed precision (bfloat16): 140 GB → 70 GB

Para MiPyME: Quantization int4 es go-to solution.


SECCIÓN J: RESPONSABILIDAD & ÉTICA

Alignment / Alineación

Definición: Hacer que IA siga valores humanos (no discriminar, honesto, etc).

Técnicas Meta:

  • RLHF: Entrenar modelo con feedback humano

  • Constitutional AI: Definir principios, entrenar con ellos

  • Red-teaming: Buscar ways to break model

Para MiPyME: Llama 3.1 está mejor alineado que versiones anteriores (menos sesgo).


Interpretability / Interpretabilidad

Definición: Entender WHY Llama generó esa respuesta (no solo WHAT).

Desafío: "Black box" - modelos neuronales son difíciles de explicar.

Técnicas:

  • Attention visualization: Ver qué tokens enfatizó

  • Gradient analysis: Qué inputs afectaron más output

  • LIME/SHAP: Explicabilidad local

Para legal: ¿Por qué Llama dijo "Contrato inválido"?

  • ¿Qué cláusulas analizó?

  • ¿Qué normas aplicó?

  • Explicación verificable = confianza.


Transparency / Transparencia

Definición: Comunicar claramente cómo funciona IA.

Model Card: Documento describe modelo:

  • ✓ Uso previsto

  • ✓ Limitaciones

  • ✓ Sesgos conocidos

  • ✓ Benchmarks

  • ✓ Entrenamiento data

Para MiPyME: Si usas Llama en legal, DEBE haber transparency report.


SECCIÓN K: SEGURIDAD & INFRAESTRUCTURA

DDoS (Distributed Denial of Service)

Definición: Ataque que envía millones de requests falsos para crashear servicio.

Protección:

  • ✓ Rate limiting: Max X requests por IP

  • ✓ CloudFlare: Filtro atacantes

  • ✓ WAF: Web Application Firewall

  • ✓ Auto-scaling: Crecer ante picos

Para MiPyME Bedrock: AWS gestiona esto. No preocuparte.


Encryption / Encriptación

Definición: Convertir datos a código que solo propietario puede leer.

Tipos:

  • At rest: Datos guardados encriptados (AES-256)

  • In transit: Datos en tránsito encriptados (TLS 1.2+)

  • End-to-end: Solo usuario y destinatario leen

Para MiPyME legal: LFPDPPP requiere encryption de datos personales.

Típico: AES-256 en reposo + TLS 1.2+ en tránsito.


Firewall / Cortafuegos

Definición: Barrera entre red interna y externa. Controla qué entra/sale.

Reglas típicas:

  • ✓ Permitir requests API de clientes

  • ✗ Bloquear SSH desde internet

  • ✓ Permitir database query solo desde app server

  • ✗ Bloquear data exfiltration attempts

Para MiPyME: Si corres Llama en servidor propio = MUST usar firewall.


SECCIÓN L: BUSINESS & ECONOMICS

Cost per Token

Definición: USD que pagas por cada token procesado.

Ejemplos Bedrock (Nov 2025):

Para MiPyME:


ROI (Return on Investment)

Definición: Ganancia/retorno en relación a inversión hecha.

Fórmula: ROI = (Ganancia - Costo) / Costo × 100%

Ejemplo MiPyME legal:


TCO (Total Cost of Ownership)

Definición: Costo TOTAL de usar solución (inicial + ongoing).

MiPyME Llama local vs Bedrock:

Aspecto
Local
Bedrock

Hardware

$3k GPU

$0

Setup

40 horas

2 horas

Monthly API

$0

$1-5k

Maintenance

10 hr/month

0 hr/month

Year 1 TCO

~$10k

~$12-60k

Year 3+ TCO

~$10k

~$24-120k

Decision: Local + LoRA si budget limitado. Bedrock si 24/7 production.


Scalability / Escalabilidad

Definición: Capacidad de sistema crecer sin perder performance.

Horizontal (agregar más máquinas):

Vertical (agregar más recursos):

Para MiPyME: Bedrock = horizontal scalability automática (AWS maneja).


SECCIÓN M: TOOLS & FRAMEWORKS

Ollama

Definición: Herramienta de línea de comandos para correr modelos LLM localmente.

Ventajas:

  • ✓ Simple: ollama run llama3

  • ✓ Auto-downloads models

  • ✓ Local API (compatible OpenAI)

  • ✓ No necesita Docker conocimiento

Para MiPyME: Mejor opción para Mac/Linux principiantes.

Instalación:


Transformers Library (Hugging Face)

Definición: Librería Python para cargar/usar modelos pre-entrenados.

Ventajas:

  • ✓ 100k+ modelos disponibles

  • ✓ Código simple y limpio

  • ✓ Comunidad enorme

  • ✓ Actualizado regularmente

Para MiPyME:


FastAPI

Definición: Framework Python para crear APIs REST modernas y rápidas.

Ventaja vs Flask: Automático validation, documentación OpenAPI, async.

Uso MiPyME:


SECCIÓN N: DATOS & APRENDIZAJE

Dataset / Conjunto de Datos

Definición: Colección de ejemplos usados para entrenar o evaluar modelo.

Tipos:

  • Training: 70% (entrenar modelo)

  • Validation: 15% (ajustar parámetros durante training)

  • Test: 15% (evaluación final, nunca visto antes)

Importancia: "Garbage in, garbage out" - datos malos → modelo malo.

Para fine-tuning MiPyME:

  • Necesitas ~500-1000 ejemplos de "contratos + análisis"

  • Mejor: ejemplos de TU negocio (sector legal, salud, etc)


Overfitting / Sobreajuste

Definición: Modelo memoriza training data en lugar de generalizar.

Síntoma:

Causa: Demasiadas épocas o dataset muy pequeño.

Solución:

  • ✓ Early stopping (parar antes de overfit)

  • ✓ Regularization (penalizar parámetros grandes)

  • ✓ Data augmentation (más ejemplos)

  • ✓ Dropout (apagar neuronas aleatoriamente)


Transfer Learning / Aprendizaje por Transferencia

Definición: Usar modelo entrenado en tarea A para tarea B (no entrenar desde cero).

Ventaja:

Para MiPyME: Fine-tuning Llama = transfer learning. Es el camino.


SECCIÓN O: FUTURO & EVOLUCIÓN

AGI (ver también sección A)

[Definición completa arriba]

Timeline especulativo:

  • 2026-2030: AGI posible según algunos

  • 2040-2050: AGI probable según otros

  • 2100+: AGI seguro

Para MiPyME: NO esperar AGI. Llama 4 en 2026 es siguiente evolución.


Frontier Models / Modelos Frontera

Definición: Modelos más avanzados existentes (GPT-4o, Claude 3.5, Llama 3.1).

Carrera 2024-2025:

  • Llama 3.1 (70B) vs GPT-4 Turbo vs Claude 3.5 Sonnet

  • Llama 3.1 alcanza 85-90% performance de GPT-4

  • Ventaja Llama: Open-source, fine-tunable, barato


Open Source vs Proprietary

Definición: Open-source = código/pesos públicos; Proprietary = cerrado.

Llama: Open-source (ventaja)

GPT-4: Proprietary (desventaja)

Para MiPyME: Llama open-source = mayor autonomía.


Multimodal / Multimodalidad

Definición: Modelo que procesa múltiples tipos de datos (texto, imagen, audio, video).

Progresión:

  • Llama 3.0: Solo texto

  • Llama 3.2: Texto + imagen (11B model)

  • Llama 4 (esperado): Texto + imagen + audio

Para MiPyME:

  • Analizar imágenes de facturas

  • OCR de documentos

  • Transcribir audio de reuniones


SECCIÓN P: REFERENCE RÁPIDA

Comparativa Rápida Modelos

Model
Tamaño
Contexto
Best For
Cost

Llama 3.2 1B

1B

128K

Edge, mobile

Free (local)

Llama 3.2 3B

3B

128K

Fast chat

Free (local)

Llama 3.1 8B

8B

128K

MiPyME default

$0.30/1M tokens

Llama 3.1 70B

70B

128K

Professional

$3/1M tokens

Llama 4 8B

8B

256K

Future default

TBD

Llama 4 405B

405B

256K

GPT-4 competitor

TBD


Conceptos clave que atraviesan todo el taller

Hay 5 conceptos fundamentales:

1.4.1. Llama Stack: Tu motor de IA

Llama es familia de modelos de lenguaje de Meta, código abierto. Ventajas: costo, control, cumplimiento normativo, soberanía tecnológica. Usaremos Llama 3.2, Groq y AnythingLLM.

1.4.2 El Triángulo de Viabilidad: Tu filtro estratégico

Tres vértices: Factibilidad Técnica, Oportunidad de Mercado, Capacidad Operativa. Si cualquiera falla, el proyecto fracasará.

1.4.3. RAG (Retrieval-Augmented Generation): Cómo Llama accede a tu conocimiento

RAG conecta Llama con tu conocimiento privado: preparación de documentos, consulta y generación. Sesión 3 guía su configuración.

1.4.4. Prompting: El arte de dar instrucciones claras a IA

La calidad del prompt determina 70-80% del resultado. Ejemplo de prompt fuerte incluido. En Sesión 2 construirás una Biblioteca de Prompts.

1.4.5. Plan 30-60-90 días: Tu hoja de ruta de ejecución

Especifica qué lograr, quién es responsable, cuándo se valida y plan B. En Sesión 4 construirás este plan.

Checklist: Primeros Pasos Llama

  • ☐ Decisión: Local vs Cloud?

  • ☐ Hardware: GPU, RAM available?

  • ☐ Install: Ollama / Transformers / Bedrock API

  • ☐ Test: Run hello world (simple query)

  • ☐ Data: Preparar dataset si fine-tuning

  • ☐ Optimize: LoRA vs QLoRA si needed

  • ☐ Deploy: API / Chat interface

  • ☐ Monitor: Latency, cost, accuracy

  • ☐ Iterate: Feedback loop, improvements



CÓMO USAR ESTE GLOSARIO

  • Búsqueda por término: Lee alfabéticamente o por sección

  • Deep dive: Cada término tiene contexto MiPyME

  • Reference: Vuelve aquí cuando veas término desconocido

  • Learning: Leer secciones completas para entender dominio

  • Teaching: Comparte secciones con tu equipo

¡Bookmark este glosario. Actualización mensual con términos nuevos en 2025!

Última actualización