La conversación sobre inteligencia artificial suele centrarse en los grandes modelos de lenguaje (LLM) como si fueran una única categoría. Sin embargo, la realidad es que el ecosistema de modelos que alimentan a los agentes de IA modernos es mucho más diverso.
Hoy existen distintos tipos de modelos especializados que permiten a los agentes razonar, percibir, actuar y optimizar recursos computacionales. Comprender estas categorías es clave para diseñar arquitecturas de IA robustas.
En este artículo explico los seis tipos de modelos que están definiendo la nueva generación de sistemas de inteligencia artificial.
1. GPT – Generative Pre-trained Transformer
Los modelos tipo GPT son los más conocidos dentro de la familia de los LLM.
Se entrenan sobre grandes volúmenes de texto utilizando la arquitectura Transformer, lo que les permite generar respuestas coherentes en lenguaje natural basadas en el contexto de una conversación o una instrucción.
Sus principales características:
- Generación de texto fluido y coherente
- Capacidad de conversación
- Comprensión contextual avanzada
- Aplicación generalista
Casos de uso habituales:
- asistentes virtuales
- generación de contenido
- programación asistida
- análisis de texto
En muchos sistemas de agentes, los GPT actúan como modelo central de diálogo y generación.
2. MoE – Mixture of Experts
Los modelos Mixture of Experts (MoE) introducen una idea muy potente: en lugar de usar todo el modelo para cada tarea, el sistema activa solo los “expertos” necesarios.
Cada experto es una red neuronal especializada en un tipo de conocimiento o tarea.
Esto permite:
- escalar a modelos extremadamente grandes
- reducir el coste computacional por consulta
- mejorar la eficiencia energética
Grandes modelos actuales utilizan esta técnica para manejar billones de parámetros sin disparar el consumo de recursos.
En arquitecturas de agentes, los MoE permiten especialización dinámica del razonamiento.
3. VLM – Vision Language Models
Los Vision-Language Models (VLM) combinan procesamiento de lenguaje natural con visión artificial.
Esto significa que el modelo puede interpretar imágenes, diagramas, vídeos o capturas de pantalla al mismo tiempo que entiende texto.
Capacidades clave:
- describir imágenes
- interpretar gráficos
- analizar documentos visuales
- responder preguntas sobre contenido visual
Los VLM son esenciales para construir agentes multimodales, capaces de interactuar con el mundo visual.
Ejemplos de aplicaciones:
- análisis de documentos
- soporte técnico basado en capturas de pantalla
- asistentes para diseño o ingeniería
- inspección visual automatizada
4. LRM – Large Reasoning Models
Los Large Reasoning Models (LRM) están diseñados específicamente para razonamiento complejo y planificación.
A diferencia de otros modelos centrados en generación de texto, estos sistemas priorizan:
- razonamiento multi-paso
- planificación estratégica
- resolución de problemas complejos
- toma de decisiones estructurada
Esto los convierte en piezas clave para agentes autónomos, donde el sistema debe analizar situaciones y elegir acciones.
En muchos frameworks de agentes, el LRM actúa como motor de planificación.
5. SLM – Small Language Models
No todos los sistemas necesitan modelos gigantes.
Los Small Language Models (SLM) están optimizados para:
- baja latencia
- menor coste
- ejecución local
- despliegue en dispositivos edge
Se utilizan en:
- aplicaciones móviles
- sistemas embebidos
- entornos privados
- agentes con restricciones de latencia
En arquitecturas modernas, los SLM suelen funcionar como modelos auxiliares o especializados, reduciendo costes frente a modelos más grandes.
6. LAM – Large Action Models
Los Large Action Models (LAM) representan una evolución natural de los LLM.
Mientras que los modelos tradicionales generan texto, los LAM están diseñados para ejecutar acciones en sistemas externos.
Esto incluye:
- interactuar con APIs
- utilizar herramientas
- ejecutar workflows
- automatizar procesos
En otras palabras, los LAM permiten que un agente no solo piense o responda, sino que actúe.
Esta capacidad es la base de los agentes autónomos modernos.
Cómo se combinan estos modelos en los agentes de IA
En la práctica, los sistemas de agentes más avanzados combinan varios de estos modelos.
Un ejemplo simplificado de arquitectura sería:
- VLM interpreta información visual o documentos
- GPT gestiona la interacción conversacional
- LRM planifica la estrategia
- MoE optimiza el procesamiento especializado
- SLM ejecuta tareas rápidas de bajo coste
- LAM ejecuta acciones en sistemas externos
El resultado es un sistema capaz de percibir, razonar y actuar, acercándose cada vez más a lo que entendemos como inteligencia operativa.
El futuro: arquitecturas híbridas de inteligencia artificial
La evolución de la IA ya no se basa únicamente en modelos cada vez más grandes.
El verdadero avance está en cómo se combinan distintos tipos de modelos para crear sistemas inteligentes completos.
Los agentes de IA representan precisamente esta transición:
pasamos de modelos que responden
a sistemas que toman decisiones y ejecutan tareas.
Y para ello, cada tipo de modelo tiene un papel específico.