Herramientas

El mejor modelo de IA local para un PC de gama baja o media en 2026

Sin suscripciones, sin límites y sin conexión a internet: esta es la guía definitiva para elegir el modelo de IA local que mejor encaja con tu hardware en 2026, desde 4 GB de RAM hasta 16 GB.

Gonzalo
Modelo local

Hasta hace dos años, ejecutar un modelo de inteligencia artificial en tu propio ordenador significaba tener un equipo de gama alta, conocimientos técnicos avanzados y paciencia para configurar entornos que se rompían con cualquier actualización. En 2026, eso ya no es así.

Los modelos pequeños han mejorado hasta el punto de que un portátil de 2019 con 8 GB de RAM puede ejecutar un asistente de IA conversacional con calidad comparable a GPT-3.5, sin internet, sin suscripción mensual y sin que ningún servidor de ninguna empresa reciba tus consultas. La pregunta ya no es si es posible. Es qué modelo elegir según lo que tienes.

Lo primero: entender qué limita tu hardware

Antes de hablar de modelos, hay un concepto que lo explica todo: la VRAM o la RAM disponible determina qué modelos puedes ejecutar. No la velocidad del procesador, no la marca. La memoria.

El tamaño del modelo en disco en gigabytes es aproximadamente igual a la VRAM o RAM que necesitará, más 2-3 GB de margen para el sistema operativo y la ventana de contexto. El formato de cuantización Q4_K_M es el estándar en 2026: comprime los pesos del modelo hasta un 75% con una pérdida de calidad sorprendentemente pequeña para la mayoría de tareas prácticas. ModemGuides

Dicho de forma simple: un modelo de 7.000 millones de parámetros en formato Q4 ocupa unos 4-5 GB. Para ejecutarlo necesitas esa memoria disponible, más algo de margen para el sistema. Si tienes 8 GB de RAM y el sistema operativo usa 3-4 GB, el margen es justo pero funciona.

RAM / VRAM disponible Tamaño de modelo recomendado Velocidad aproximada Perfil
4 GB RAM (sin GPU)1B – 3B parámetrosLenta, usableBásico
8 GB RAM (sin GPU)3B – 7B parámetros (Q4)5-10 tokens/segGama baja
8 GB VRAM (GPU dedicada)7B parámetros (Q4/Q5)25-40 tokens/segGama media
16 GB RAM / 12 GB VRAM13B – 14B parámetros15-30 tokens/segGama media-alta
32 GB RAM / 16 GB+ VRAM20B – 34B parámetros20-50 tokens/segAlto rendimiento

Los mejores modelos para cada nivel de hardware en 2026

Para 4-6 GB de RAM: Phi-4 Mini, el rey del hardware limitado

Microsoft Phi-4 defies the laws of physics. Entrenado con datos sintéticos de tipo «libro de texto», razona mejor que modelos 7B de hace dos años siendo lo suficientemente pequeño como para ejecutarse junto a tu navegador web. Es perfecto para resúmenes y preguntas rápidas, con soporte multimodal y hasta 128K de ventana de contexto. Ray Busuttil

Phi-4 Mini supera a Llama 3.2 3B en todos los benchmarks MMLU. Para ejecutarlo con Ollama: ollama pull phi4-mini. Local AI Master Es el modelo que recomendaríamos a cualquiera con un portátil viejo que quiera probar IA local sin frustraciones.

Para 8 GB de RAM (sin GPU): Gemma 3 4B o Llama 3.2 8B cuantizado

Con 8 GB de RAM y sin GPU dedicada, la clave es la cuantización agresiva. Los mejores modelos para 8 GB de RAM son Phi-4 Mini, Llama 3.2, Gemma 3, Qwen 3 y Mistral 7B. Localaimaster

Gemma 3 tiene una ventaja especial para este perfil: su arquitectura MoE (Mixture of Experts) en la versión E4B significa que solo activa 4.500 millones de parámetros durante la inferencia aunque el modelo total sea más grande, lo que lo hace más eficiente de lo que su tamaño sugiere.

El truco para 8 GB sin GPU es cerrar el navegador y las aplicaciones pesadas antes de arrancar el modelo. Los navegadores web pueden consumir entre 2 y 4 GB de RAM por sí solos, lo que deja sin margen al modelo. Localaimaster

Para 8 GB de VRAM (GPU dedicada tipo RTX 3060 u equivalente): Llama 3.2 8B o Mistral 7B

Aquí la experiencia da un salto cualitativo. Los modelos 7B cuantizados como Llama 3 8B Q4 encajan cómodamente en 8 GB de VRAM y generan tokens a una velocidad usable. Puedes chatear, resumir documentos y hacer asistencia básica de código. Corsair

La diferencia entre ejecutar un modelo en RAM del sistema versus VRAM de la GPU es de entre 5 y 10 veces en velocidad. Lo que en CPU genera 5 tokens por segundo, en GPU genera 30-40. Es la diferencia entre esperar a que responda y tener una conversación fluida.

Para 16 GB de RAM o 12 GB de VRAM: Qwen3 8B o Phi-4 Medium

Con 12 GB de VRAM puedes ejecutar modelos de 12B-14B parámetros como Mistral NeMo o Phi-4 Medium cómodamente. Ray Busuttil Este es el rango donde la calidad de las respuestas empieza a ser comparable a lo que se obtenía con GPT-3.5 hace dos años, con contextos largos y capacidad de seguir instrucciones complejas.

Qwen3 8B es especialmente interesante en este segmento por su soporte multilingüe y su rendimiento en castellano, que supera al de muchos modelos optimizados exclusivamente para inglés.

Cómo instalarlo: Ollama en tres pasos

La forma más sencilla de ejecutar modelos locales en 2026 es Ollama, una aplicación que gestiona la descarga, cuantización y ejecución de modelos con una sola línea de comando.

1
Descarga Ollama
Ve a ollama.com y descarga el instalador para tu sistema operativo (Windows, macOS o Linux). La instalación es automática, como cualquier programa.
2
Descarga un modelo
Abre la terminal (o PowerShell en Windows) y escribe el comando del modelo que quieras. Ollama descarga y configura todo automáticamente.
3
Empieza a chatear
El modelo arranca directamente en la terminal. Si prefieres una interfaz visual, instala Open WebUI (gratuito) para tener una experiencia similar a ChatGPT, pero 100% en tu máquina.

Los comandos exactos según tu hardware:

# Para PC con 4-6 GB de RAM (Phi-4 Mini, ~2.5 GB)
ollama run phi4-mini

# Para PC con 8 GB de RAM (Gemma 3, buen equilibrio calidad/peso)
ollama run gemma3:4b

# Para PC con 8 GB de VRAM o 16 GB de RAM (Llama 3.2, calidad superior)
ollama run llama3.2:8b

# Para PC con 12-16 GB de VRAM (Qwen3, mejor en español y código)
ollama run qwen3:8b

# Para ver todos los modelos disponibles
ollama list

Qué modelo elegir según para qué lo uses

No todos los modelos son iguales para todos los usos. Esta es la guía rápida:

Uso principal Modelo recomendado RAM mínima
Chat general y preguntas rápidasPhi-4 Mini4 GB
Redacción y textos en españolQwen3 8B8 GB
Código y programaciónQwen3 Coder 7B8 GB VRAM
Análisis de documentos largosLlama 3.2 8B8 GB VRAM
Razonamiento y matemáticasPhi-4 Reasoning6 GB
Equilibrio general (el más versátil)Gemma 3 4B6 GB
Traducción y multilingüeQwen3 4B4 GB

La verdad sobre las expectativas

Hay algo que ninguna guía de modelos locales suele decir con claridad: la experiencia no es la misma que usar Claude o ChatGPT.

Un modelo de 7B parámetros en formato Q4 ejecutándose en la CPU de un portátil de gama media genera entre 5 y 10 tokens por segundo. Una respuesta de 200 palabras tarda entre 20 y 40 segundos. No es una conversación fluida en el sentido en que lo es ChatGPT. Es más parecido a enviar un mensaje y esperar la respuesta.

Con GPU dedicada de 8 GB de VRAM eso cambia a 25-40 tokens por segundo — ahí sí hay sensación de tiempo real.

Lo que sí es comparable o incluso superior a los servicios en la nube:

La privacidad es absoluta. Ninguna consulta sale de tu máquina. Sin límites de uso. Sin suscripción mensual. Sin que el servicio deje de estar disponible si la empresa cierra o cambia sus condiciones. Y para tareas específicas — resumir un documento concreto, analizar un texto, responder preguntas sobre un PDF — un modelo local de 7B en 2026 hace un trabajo excelente.

Consejo práctico: Antes de ejecutar el modelo, cierra el navegador, el cliente de correo y cualquier aplicación que no necesites. En un equipo con 8 GB de RAM, liberar 2-3 GB puede ser la diferencia entre que el modelo funcione bien o se quede sin memoria a mitad de una respuesta larga.

La recomendación final, sin rodeos

Si tienes 8 GB de RAM y no tienes GPU dedicada: Gemma 3 4B para uso general, Phi-4 Mini si quieres algo todavía más ligero y rápido.

Si tienes 8 GB de VRAM en una GPU dedicada: Llama 3.2 8B o Qwen3 8B. La diferencia de velocidad respecto a ejecutar en CPU es tan grande que el modelo que elijas importa menos que aprovechar la GPU.

Si tienes 16 GB de RAM o 12 GB de VRAM: Qwen3 8B es la mejor elección para escritura en español y tareas generales. Para código, Qwen3 Coder en la misma familia.

Y si no tienes claro por dónde empezar: descarga Ollama, escribe ollama run gemma3:4b y prueba diez minutos. La mejor forma de saber si la IA local tiene sentido para ti es haberla probado una vez.

EtiquetasIA localOllamaGemma 3Qwen3Modelos pequeñosLLM local

En la elaboración de este artículo se ha utilizado inteligencia artificial como apoyo en la investigación y redacción. El contenido ha sido revisado editorialmente antes de su publicación.

Seguir leyendo