Glosario para entender Llama
SECCIÓN A: FUNDAMENTOS IA
Activación (Activation Function)
Definición: Función matemática que introduce no-linealidad en redes neuronales.
Contexto: Sin activación, un transformer sería solo multiplicaciones lineales (inútil).
Tipos principales:
ReLU (Rectified Linear Unit): MAX(0, x) - estándar en Llama
GELU (Gaussian Error Linear Unit): Suaviza ReLU - usado en Llama 3.1
Swish: x * sigmoid(x) - experimental
Ejemplo MiPyME: Cuando Llama procesa tu pregunta legal, la activación GELU decide qué "neuronas" se encienden. Sin ella, sería como si dijeras "sumar 2+2" pero la máquina solo sabe multiplicar.
Aplicación: No necesitas cambiarla, pero entender que existe explica por qué Llama responde de formas no-obvias.
AGI (Artificial General Intelligence / Inteligencia General Artificial)
Definición: IA que puede realizar CUALQUIER tarea intelectual humana sin ser entrenada específicamente.
Estado actual (Nov 2025): No existe aún. GPT-4/Llama son "Narrow AI" (especializadas).
Timeline predicho:
2025-2030: Posible AGI según algunos
2050+: Estimación más conservadora
Importante para MiPyME: No pienses que Llama es AGI. Funciona excelente para legal/compliance, pero no puede aprender a volar un avión con 1 prompt.
Diferencia:
Narrow AI: Excelente en 1 tarea (Llama en legal ✓)
AGI: Excelente en TODO (todavía ficción)
Atención (Attention Mechanism)
Definición: Mecanismo que permite al modelo "enfocarse" en partes relevantes del input.
Analogía: Cuando lees un contrato de 50 páginas, tu cerebro no procesa todo igual. Enfatiza cláusulas críticas (atención). Llama hace igual.
Componentes:
Query (Q): "¿Qué me interesa?"
Key (K): "Aquí hay cosas relevantes"
Value (V): "Aquí está la información importante"
Fórmula: Attention(Q,K,V) = softmax(QK^T/√d_k)V
Para MiPyMEs: Llama puede leer un email de 5000 palabras pero enfocarse solo en cláusula de penalidad. Eso es attention.
Beneficio legal: Extrae "lo importante" de documentos largos automáticamente.
BFLoat16 (Brain Float 16)
Definición: Formato de número 16-bit diseñado por Google para IA (menos preciso que float16 pero más rápido).
Comparación:
Float32: 32 bits, preciso, lento (default)
BFloat16: 16 bits, rápido, menos preciso (Llama 3.1)
Float16: 16 bits, muy preciso pero inestable en entrenamiento
Ventaja: Llama 3.1 entreno en BFLoat16 = más rápido sin perder mucha calidad.
Para MiPyME: Si tienes GPU RTX 4090, BFLoat16 = más rápido sin sacrificar análisis legal.
Batch / Batching
Definición: Procesar múltiples inputs simultáneamente en lugar de uno por uno.
Ejemplo:
Para MiPyME: Si debes analizar 100 contratos:
Sin batch: 100 × 2 seg = 200 seg (3 min)
Con batch: 10 lotes × 2 seg = 20 seg (muy más rápido)
Tradeoff: Mayor batch = más velocidad pero más RAM.
Bias (Sesgo)
Definición: Tendencia sistemática del modelo a favorecer ciertos outputs sobre otros.
Tipos de sesgo:
Gender bias: Responder diferente para hombre/mujer (❌ Llama 3.1 lo minimiza)
Racial bias: Discriminar por raza (❌ Meta testea esto)
Language bias: Mejor en inglés que otros idiomas (Llama mejora Spanish)
Confirmation bias: Preferir info que confirma creencias previas
Ejemplo legal: Llama podría tener sesgo de "favorecer al demandante" si fue entrenado con jurisprudencia de un tribunal específico.
Para MiPyME: Siempre revisa respuestas legales. Llama NO reemplaza abogado porque puede tener sesgos.
Mitigation: Meta realiza "bias audits" regularmente.
SECCIÓN B: ARQUITECTURA LLAMA
Context Window / Ventana de Contexto
Definición: Cantidad máxima de tokens que el modelo puede procesar en UN request.
Comparación:
Llama 3.1: 128K tokens (~87,000 palabras en Spanish)
Llama 3.2: 128K tokens
Llama 4 (esperado): 256K tokens
¿Qué puedo meter en 128K?
1 libro pequeño
20-30 documentos legales medianos
4 días de conversación
50-60 artículos de Wikipedia
Ejemplo MiPyME:
Importante: Si excedes 128K, Llama da error "token limit exceeded".
Cross-Entropy Loss
Definición: Función de pérdida que mide cuán mal predice el modelo la siguiente palabra.
Intuición:
Llama predice: "El contrato es..."
Real debería ser: "...inválido"
Si Llama predijo "válido" → high loss ❌
Si Llama predijo "inválido" → low loss ✓
Durante training: Se minimiza loss = mejora el modelo.
Para MiPyME: No necesitas calcularla, pero "loss bajo" = modelo mejor.
Embedding / Embeddings
Definición: Representación de texto como vector numérico (convertir palabras a números que máquina entiende).
Ejemplo:
Propiedades matemáticas:
Palabras similares → embeddings similares
"Ley" y "norma" están CERCA en espacio vectorial
"Ley" y "pizza" están LEJOS
Aplicación legal: Buscar "contratos similares" = encontrar embeddings similares a tu contrato base.
Para RAG (Retrieval-Augmented Generation):
Documento → embedding
Query → embedding
Encuentra documentos CERCANOS
Llama responde basado en ellos
Epochs / Épocas
Definición: Una pasada COMPLETA a través de todo el dataset de training.
Ejemplo:
Cuántos epochs?
Pocas épocas: Underfitting (modelo no aprende)
Muchas épocas: Overfitting (memoriza datos en lugar de generalizar)
Para fine-tuning Llama: 3-5 épocas es típico.
Hallucination / Alucinación
Definición: Cuando el modelo genera información FALSA pero suena creíble.
Ejemplo:
Por qué ocurre?
Entrenado en datos inconsistentes
Presión para generar respuesta incluso sin certeza
Falta de acceso a fuentes verificables
Mitigation:
✓ Usar RAG (proporciona fuentes reales)
✓ Bajar temperatura (menos creativo = menos alucinaciones)
✓ Siempre verificar respuestas legales
Peligro MiPyME: Tomar alucinación como ley real = riesgo legal.
Tokens / Tokenización
Definición: Proceso de convertir texto en "trozos" que el modelo procesa.
Ejemplo:
Llama usa BPE (Byte Pair Encoding): Texto español generalmente = 1.3 tokens/palabra
Token count = COSTO:
Bedrock cuesta por tokens: $0.003 por 1000 input tokens
1000 palabras ≈ 1300 tokens ≈ $0.004
Para MiPyME:
SECCIÓN C: ENTRENAMIENTO & OPTIMIZACIÓN
Fine-tuning / Ajuste Fino
Definición: Entrenar modelo pre-entrenado CON TUS DATOS para especializarlo.
Tipos:
Full fine-tuning: Actualizar todos los parámetros (costoso)
LoRA: Actualizar solo 1% de parámetros (eficiente)
QLoRA: LoRA + quantización (muy eficiente)
Ejemplo MiPyME:
Tiempo:
LoRA: 2-6 horas (GPU H100)
Full: 24+ horas
Costo:
LoRA: $50-200
Full: $500-2000
GPTQ (Generative Pre-trained Transformer Quantization)
Definición: Método de quantización que mantiene alta calidad reduciendo precisión numérica.
Ventaja vs simple int4:
✓ Igual velocidad
✓ Mejor calidad (menos alucinaciones)
✓ Más pequeño (4GB vs 16GB)
Para MiPyME: Si tienes GPU 8GB → GPTQ int4 es perfecto.
Knowledge Distillation / Destilación de Conocimiento
Definición: Entrenar modelo pequeño (estudiante) para copiar modelo grande (profesor).
Proceso:
Beneficio: 8x más pequeño, 4x más rápido, 80% calidad.
Para MiPyME: Entrenar Llama 3B especializada para tu sector usando Llama 70B como profesor.
Loss / Pérdida
Definición: Métrica de qué tan mal está el modelo durante entrenamiento.
Intuición: Loss bajo = predicciones correctas; Loss alto = predicciones malas.
Durante training:
Stop point: Cuando loss deja de disminuir = es tiempo de parar (evitar overfitting).
LoRA (Low-Rank Adaptation)
Definición: Técnica de fine-tuning que actualiza SOLO 1% de parámetros en lugar de 100%.
Matemática:
Ventajas:
✓ 10-100x más rápido
✓ Cabe en GPUs pequeñas (8GB)
✓ Igual calidad que full fine-tuning
✓ Múltiples LoRAs compartir base model
Para MiPyME: LoRA es the way. Full fine-tuning no vale la pena.
SECCIÓN D: DEPLOYMENT & INFRAESTRUCTURA
API (Application Programming Interface)
Definición: Interfaz estandarizada para que aplicaciones comuniquen con Llama.
Tipos:
REST API: HTTP requests (curl, Python requests)
gRPC: Más rápido que REST (proto buffers)
WebSocket: Streaming en tiempo real
Ejemplo REST:
Para MiPyME: Bedrock proporciona API REST. No construyas propia.
Bedrock (Amazon)
Definición: Servicio AWS que proporciona acceso a modelos (Llama, Claude) via API.
Modelos disponibles:
meta.llama2-7b, 13b, 70b
meta.llama3-8b, 70b
anthropic.claude-3-sonnet
Ventajas:
✓ Sin servidor (no gestionar infra)
✓ Paga solo por uso
✓ Auto-scaling
✓ Security SOC2/HIPAA/GDPR
Precios (Nov 2025):
Llama 70B: $0.00195 por 1000 input tokens
Llama 70B: $0.00256 por 1000 output tokens
Para MiPyME: Mejor opción para producción 24/7. No administrar servidores.
Cold Start
Definición: Tiempo inicial necesario para que modelo se cargue en memoria.
Ejemplo:
Solución: Mantener Lambda "warm" con invocaciones periódicas.
Para MiPyME: No es problema con Bedrock (no hay cold start, AWS maneja).
Containerización / Docker
Definición: Empaquetar aplicación + dependencias en "contenedor" ejecutable en cualquier máquina.
Ventaja: "Funciona en mi máquina" = funciona en producción.
Ejemplo Dockerfile (Llama + FastAPI):
Para MiPyME: Si desployas en tu servidor = usar Docker. Si usas Bedrock = no necesario.
Latency / Latencia
Definición: Tiempo que tarda desde que envías request hasta que recibes respuesta.
Medición:
Benchmarks Llama:
8B CPU: 500-1000 ms
8B GPU: 100-200 ms
70B GPU: 200-500 ms
SLA típico: < 100 ms para 95% de requests (P95).
Para MiPyME:
Chat (user-facing): tolera 1-2 seg
Backend (batch): tolera 5+ seg
Inference / Inferencia
Definición: Proceso de usar modelo entrenado para hacer predicciones en datos nuevos.
Comparación:
Costo:
Training: $$$$$ (millones)
Inference: $ (céntimos por pregunta)
Para MiPyME: Solo pagas inference. Training ya hizo Meta.
Quantization / Cuantificación
Definición: Reducir precisión numérica de modelo para hacerlo más pequeño/rápido.
Tipos:
int4: 4 bits por número (4x más pequeño, pérdida 10-15%)
int8: 8 bits por número (2x más pequeño, pérdida 2-5%)
bfloat16: 16 bits (2x más pequeño, mínima pérdida)
Ejemplo:
SECCIÓN E: COMPLIANCE & LEGAL MÉXICO
LFPDPPP (Ley Federal de Protección de Datos Personales en Posesión de Particulares)
Definición: Ley mexicana que regula cómo empresas manejan datos personales de individuos.
Publicada: 2010 (actualizada 2022) Aplica a: Cualquier empresa en México (incluyendo MiPyMEs)
Conceptos clave:
Dato personal: Información identificable (nombre, email, RFC)
Consentimiento: Usuario DEBE autorizar uso de datos
Derecho ARCO: Acceso, Rectificación, Cancelación, Oposición
Obligaciones para IA:
Consentimiento explícito si usas IA
Aviso de privacidad DEBE mencionar IA
Responsabilidad si IA causa daño (peritaje)
Penalidades:
Multas: $500k - $20 millones
Clausura: Si violaciones graves
Responsabilidad penal: Empleados culpables
Para MiPyME: Usar Llama en análisis datos personales = DEBE cumplir LFPDPPP.
Peritaje / Peritaje Digital
Definición: Opinión técnica de experto en procedimiento legal.
Contexto IA: Si IA comete error → puede haber peritaje sobre "¿era razonable confiar en IA?"
Ejemplo:
Para MiPyME: Llama NO puede ser el único decisor en temas críticos. Siempre: humano + Llama.
SCJN (Suprema Corte de Justicia de la Nación)
Definición: Máximo tribunal en México. Sus sentencias = precedente.
Relevancia IA: SCJN ha emitido sentencias sobre:
Derecho a no ser discriminado por IA
Responsabilidad corporativa por IA
Deepfakes (Ley Olimpia)
Jurisprudencia reciente:
2024: IA no reemplaza decisión humana en materia laboral
2025: Empresas responsables por sesgo en IA
Para MiPyME: Leer sentencias SCJN = entender límites legales de IA.
Derecho ARCO
Definición: 4 derechos de personas sobre sus datos personales.
ARCO = Acceso, Rectificación, Cancelación, Oposición
Acceso: "Quiero ver qué datos tienes de mí"
Rectificación: "Ese dato es incorrecto, corrígelo"
Cancelación: "Borra mi dato"
Oposición: "No uses mi dato para X propósito"
Plazo: Responder en 20 días máximo.
Para MiPyME: Si Llama procesa datos de cliente → cliente tiene derecho ARCO.
Ejemplo: Cliente solicita "borrar mi email de tu sistema" → OBLIGATORIO hacerlo.
Cumplimiento Normativo (Compliance)
Definición: Conjunto de políticas/procesos para seguir leyes aplicables.
Para IA:
✓ Auditoría regularmente
✓ Documentar decisiones IA
✓ Entrenar staff en LFPDPPP
✓ Seguro responsabilidad civil
✓ Encryption de datos
Costo MiPyME: ~$5k-15k setup + $1k-3k/mes mantenimiento.
ROI: Evitar multas de $20M = buena inversión.
SECCIÓN F: ARQUITECTURA & SISTEMAS
RAG (Retrieval-Augmented Generation)
Definición: Técnica que proporciona documentos relevantes a Llama ANTES de generar respuesta.
Proceso (stepper):
Beneficio: Evita alucinaciones (Llama responde basado en hechos reales).
Para MiPyME:
✓ Subir base de leyes mexicanas
✓ Llama busca y responde
✓ Respuestas verificables
Herramientas: Weaviate, Pinecone, Chroma (vector databases).
Vector Database / Base de Datos Vectorial
Definición: Base de datos que almacena embeddings (vectores numéricos) para búsqueda rápida.
Funciona: Encontrar vectores "similares" = documentos relacionados.
Ejemplo:
Para RAG MiPyME:
Microservices / Microservicios
Definición: Dividir aplicación en servicios pequeños independientes.
Arquitectura MiPyME:
Beneficio: Si vision service cae, chat sigue funcionando.
Load Balancer / Equilibrador de Carga
Definición: Distribuye requests entre múltiples servidores.
Ejemplo MiPyME:
Algoritmos:
Round-robin: 1er request → server 1, 2do → server 2, etc
Least connections: Envía a servidor menos ocupado
IP hash: Mismo cliente → mismo servidor (session affinity)
SECCIÓN G: PROMPTING & TÉCNICAS
Chain-of-Thought (CoT)
Definición: Solicitar a Llama que muestre su razonamiento paso a paso.
SIN CoT:
CON CoT:
Beneficio: Verifica lógica de Llama (evita alucinaciones).
Uso: Aplicar cuando análisis crítico o legal.
Few-Shot Prompting
Definición: Proporcionar ejemplos (shots) en el prompt para que Llama entienda patrón.
Ejemplo:
Para MiPyME: Few-shot mejora accuracy 20-40% sin fine-tuning.
Prompt Injection / Inyección de Prompt
Definición: Atacante intenta manipular Llama inyectando instrucciones maliciosas en input.
Ejemplo ataque:
Defensa:
✓ Validar inputs (filtrar keywords sospechosas)
✓ Usar system prompts fuertes (difícil override)
✓ Segregar datos usuario de prompts
Para MiPyME: Principal riesgo = alguien fuerza Llama a divulgar datos confidenciales.
Temperature
Definición: Parámetro (0-2) que controla "creatividad" de Llama.
Escala:
0.0: Determinístico (siempre misma respuesta) → Legal
0.5: Balanceado → General purpose
1.0: Creativo → Story telling
2.0: Muy creativo/random → Raramente útil
Para MiPyME:
Legal analysis: Temperature 0.1-0.3 (preciso)
Chat general: Temperature 0.7 (natural)
Brainstorm ideas: Temperature 0.9 (creativo)
Top-P (Nucleus Sampling)
Definición: Selecciona palabras con probabilidad acumulada de P (típico 0.9).
Intuición:
Típico: Top-P 0.9, Top-K 50 (usar ambos).
SECCIÓN H: EVALUACIÓN & TESTING
Benchmark
Definición: Conjunto de tareas estándar para medir performance del modelo.
Benchmarks principales:
MMLU: 57K preguntas múltiple choice (test general knowledge)
HumanEval: 164 problemas de código
GSM8K: 8.5K problemas matemáticos de escuela
HELM: Evaluación integral (safety, language, reasoning)
Scores Llama 3.1:
Para MiPyME: Importa que Llama score alto en "reasoning" y "language" para tareas legales.
Evaluation Metrics / Métricas de Evaluación
Definición: Números que miden qué tan bien responde Llama.
Métricas comunes:
Accuracy: % respuestas correctas
BLEU: Qué tan similar a respuesta ideal (0-1)
ROUGE: Overlap entre respuesta y referencia (0-1)
Perplexity: Qué tan "sorprendido" está modelo (bajo=mejor)
Para MiPyME evaluación manual:
False Positive / False Negative
Definición: Errores de clasificación.
Ejemplo legal:
Impacto MiPyME:
False positive (ok por IA): MiPyME firma contrato inválido = pérdida
False negative (ok por IA): MiPyME rechaza contrato válido = oportunidad perdida
Preferencia: False negative > False Positive (mejor rechazar dudas).
SECCIÓN I: OPTIMIZACIÓN & PERFORMANCE
Inference Optimization / Optimización de Inferencia
Definición: Técnicas para hacer inferencia más rápida/barata.
Técnicas:
Batching: Procesar múltiples inputs simultáneamente
Caching: Guardar resultados (evitar recalcular)
Quantization: Reducir precisión
Pruning: Remover parámetros innecesarios
Distillation: Usar modelo más pequeño
Impacto:
Memory-Efficient / Eficiencia de Memoria
Definición: Técnicas para hacer modelos caber en menos RAM.
Problemas Llama 70B:
Sin optimización: 140 GB RAM necesaria
GPU típica: 24 GB VRAM
Solución: ???
Soluciones:
✓ Quantization (int4): 140 GB → 35 GB
✓ LoRA: Solo 1% parámetros activos
✓ Gradient checkpointing: Tradeoff memoria/velocidad
✓ Mixed precision (bfloat16): 140 GB → 70 GB
Para MiPyME: Quantization int4 es go-to solution.
SECCIÓN J: RESPONSABILIDAD & ÉTICA
Alignment / Alineación
Definición: Hacer que IA siga valores humanos (no discriminar, honesto, etc).
Técnicas Meta:
RLHF: Entrenar modelo con feedback humano
Constitutional AI: Definir principios, entrenar con ellos
Red-teaming: Buscar ways to break model
Para MiPyME: Llama 3.1 está mejor alineado que versiones anteriores (menos sesgo).
Interpretability / Interpretabilidad
Definición: Entender WHY Llama generó esa respuesta (no solo WHAT).
Desafío: "Black box" - modelos neuronales son difíciles de explicar.
Técnicas:
Attention visualization: Ver qué tokens enfatizó
Gradient analysis: Qué inputs afectaron más output
LIME/SHAP: Explicabilidad local
Para legal: ¿Por qué Llama dijo "Contrato inválido"?
¿Qué cláusulas analizó?
¿Qué normas aplicó?
Explicación verificable = confianza.
Transparency / Transparencia
Definición: Comunicar claramente cómo funciona IA.
Model Card: Documento describe modelo:
✓ Uso previsto
✓ Limitaciones
✓ Sesgos conocidos
✓ Benchmarks
✓ Entrenamiento data
Para MiPyME: Si usas Llama en legal, DEBE haber transparency report.
SECCIÓN K: SEGURIDAD & INFRAESTRUCTURA
DDoS (Distributed Denial of Service)
Definición: Ataque que envía millones de requests falsos para crashear servicio.
Protección:
✓ Rate limiting: Max X requests por IP
✓ CloudFlare: Filtro atacantes
✓ WAF: Web Application Firewall
✓ Auto-scaling: Crecer ante picos
Para MiPyME Bedrock: AWS gestiona esto. No preocuparte.
Encryption / Encriptación
Definición: Convertir datos a código que solo propietario puede leer.
Tipos:
At rest: Datos guardados encriptados (AES-256)
In transit: Datos en tránsito encriptados (TLS 1.2+)
End-to-end: Solo usuario y destinatario leen
Para MiPyME legal: LFPDPPP requiere encryption de datos personales.
Típico: AES-256 en reposo + TLS 1.2+ en tránsito.
Firewall / Cortafuegos
Definición: Barrera entre red interna y externa. Controla qué entra/sale.
Reglas típicas:
✓ Permitir requests API de clientes
✗ Bloquear SSH desde internet
✓ Permitir database query solo desde app server
✗ Bloquear data exfiltration attempts
Para MiPyME: Si corres Llama en servidor propio = MUST usar firewall.
SECCIÓN L: BUSINESS & ECONOMICS
Cost per Token
Definición: USD que pagas por cada token procesado.
Ejemplos Bedrock (Nov 2025):
Para MiPyME:
ROI (Return on Investment)
Definición: Ganancia/retorno en relación a inversión hecha.
Fórmula: ROI = (Ganancia - Costo) / Costo × 100%
Ejemplo MiPyME legal:
TCO (Total Cost of Ownership)
Definición: Costo TOTAL de usar solución (inicial + ongoing).
MiPyME Llama local vs Bedrock:
Hardware
$3k GPU
$0
Setup
40 horas
2 horas
Monthly API
$0
$1-5k
Maintenance
10 hr/month
0 hr/month
Year 1 TCO
~$10k
~$12-60k
Year 3+ TCO
~$10k
~$24-120k
Decision: Local + LoRA si budget limitado. Bedrock si 24/7 production.
Scalability / Escalabilidad
Definición: Capacidad de sistema crecer sin perder performance.
Horizontal (agregar más máquinas):
Vertical (agregar más recursos):
Para MiPyME: Bedrock = horizontal scalability automática (AWS maneja).
SECCIÓN M: TOOLS & FRAMEWORKS
Ollama
Definición: Herramienta de línea de comandos para correr modelos LLM localmente.
Ventajas:
✓ Simple:
ollama run llama3✓ Auto-downloads models
✓ Local API (compatible OpenAI)
✓ No necesita Docker conocimiento
Para MiPyME: Mejor opción para Mac/Linux principiantes.
Instalación:
Transformers Library (Hugging Face)
Definición: Librería Python para cargar/usar modelos pre-entrenados.
Ventajas:
✓ 100k+ modelos disponibles
✓ Código simple y limpio
✓ Comunidad enorme
✓ Actualizado regularmente
Para MiPyME:
FastAPI
Definición: Framework Python para crear APIs REST modernas y rápidas.
Ventaja vs Flask: Automático validation, documentación OpenAPI, async.
Uso MiPyME:
SECCIÓN N: DATOS & APRENDIZAJE
Dataset / Conjunto de Datos
Definición: Colección de ejemplos usados para entrenar o evaluar modelo.
Tipos:
Training: 70% (entrenar modelo)
Validation: 15% (ajustar parámetros durante training)
Test: 15% (evaluación final, nunca visto antes)
Importancia: "Garbage in, garbage out" - datos malos → modelo malo.
Para fine-tuning MiPyME:
Necesitas ~500-1000 ejemplos de "contratos + análisis"
Mejor: ejemplos de TU negocio (sector legal, salud, etc)
Overfitting / Sobreajuste
Definición: Modelo memoriza training data en lugar de generalizar.
Síntoma:
Causa: Demasiadas épocas o dataset muy pequeño.
Solución:
✓ Early stopping (parar antes de overfit)
✓ Regularization (penalizar parámetros grandes)
✓ Data augmentation (más ejemplos)
✓ Dropout (apagar neuronas aleatoriamente)
Transfer Learning / Aprendizaje por Transferencia
Definición: Usar modelo entrenado en tarea A para tarea B (no entrenar desde cero).
Ventaja:
Para MiPyME: Fine-tuning Llama = transfer learning. Es el camino.
SECCIÓN O: FUTURO & EVOLUCIÓN
AGI (ver también sección A)
[Definición completa arriba]
Timeline especulativo:
2026-2030: AGI posible según algunos
2040-2050: AGI probable según otros
2100+: AGI seguro
Para MiPyME: NO esperar AGI. Llama 4 en 2026 es siguiente evolución.
Frontier Models / Modelos Frontera
Definición: Modelos más avanzados existentes (GPT-4o, Claude 3.5, Llama 3.1).
Carrera 2024-2025:
Llama 3.1 (70B) vs GPT-4 Turbo vs Claude 3.5 Sonnet
Llama 3.1 alcanza 85-90% performance de GPT-4
Ventaja Llama: Open-source, fine-tunable, barato
Open Source vs Proprietary
Definición: Open-source = código/pesos públicos; Proprietary = cerrado.
Llama: Open-source (ventaja)
GPT-4: Proprietary (desventaja)
Para MiPyME: Llama open-source = mayor autonomía.
Multimodal / Multimodalidad
Definición: Modelo que procesa múltiples tipos de datos (texto, imagen, audio, video).
Progresión:
Llama 3.0: Solo texto
Llama 3.2: Texto + imagen (11B model)
Llama 4 (esperado): Texto + imagen + audio
Para MiPyME:
Analizar imágenes de facturas
OCR de documentos
Transcribir audio de reuniones
SECCIÓN P: REFERENCE RÁPIDA
Comparativa Rápida Modelos
Llama 3.2 1B
1B
128K
Edge, mobile
Free (local)
Llama 3.2 3B
3B
128K
Fast chat
Free (local)
Llama 3.1 8B
8B
128K
MiPyME default
$0.30/1M tokens
Llama 3.1 70B
70B
128K
Professional
$3/1M tokens
Llama 4 8B
8B
256K
Future default
TBD
Llama 4 405B
405B
256K
GPT-4 competitor
TBD
Conceptos clave que atraviesan todo el taller
Hay 5 conceptos fundamentales:
1.4.1. Llama Stack: Tu motor de IA
Llama es familia de modelos de lenguaje de Meta, código abierto. Ventajas: costo, control, cumplimiento normativo, soberanía tecnológica. Usaremos Llama 3.2, Groq y AnythingLLM.
1.4.2 El Triángulo de Viabilidad: Tu filtro estratégico
Tres vértices: Factibilidad Técnica, Oportunidad de Mercado, Capacidad Operativa. Si cualquiera falla, el proyecto fracasará.
1.4.3. RAG (Retrieval-Augmented Generation): Cómo Llama accede a tu conocimiento
RAG conecta Llama con tu conocimiento privado: preparación de documentos, consulta y generación. Sesión 3 guía su configuración.
1.4.4. Prompting: El arte de dar instrucciones claras a IA
La calidad del prompt determina 70-80% del resultado. Ejemplo de prompt fuerte incluido. En Sesión 2 construirás una Biblioteca de Prompts.
1.4.5. Plan 30-60-90 días: Tu hoja de ruta de ejecución
Especifica qué lograr, quién es responsable, cuándo se valida y plan B. En Sesión 4 construirás este plan.
Checklist: Primeros Pasos Llama
☐ Decisión: Local vs Cloud?
☐ Hardware: GPU, RAM available?
☐ Install: Ollama / Transformers / Bedrock API
☐ Test: Run hello world (simple query)
☐ Data: Preparar dataset si fine-tuning
☐ Optimize: LoRA vs QLoRA si needed
☐ Deploy: API / Chat interface
☐ Monitor: Latency, cost, accuracy
☐ Iterate: Feedback loop, improvements
CÓMO USAR ESTE GLOSARIO
Búsqueda por término: Lee alfabéticamente o por sección
Deep dive: Cada término tiene contexto MiPyME
Reference: Vuelve aquí cuando veas término desconocido
Learning: Leer secciones completas para entender dominio
Teaching: Comparte secciones con tu equipo
¡Bookmark este glosario. Actualización mensual con términos nuevos en 2025!
Última actualización

