El mejor modelo de IA local para un PC de gama baja o media en 2026

Sin suscripciones, sin límites y sin conexión a internet: esta es la guía definitiva para elegir el modelo de IA local que mejor encaja con tu hardware en 2026, desde 4 GB de RAM hasta 16 GB.

Gonzalo21 de abril de 2026

Hasta hace dos años, ejecutar un modelo de inteligencia artificial en tu propio ordenador significaba tener un equipo de gama alta, conocimientos técnicos avanzados y paciencia para configurar entornos que se rompían con cualquier actualización. En 2026, eso ya no es así.

Los modelos pequeños han mejorado hasta el punto de que un portátil de 2019 con 8 GB de RAM puede ejecutar un asistente de IA conversacional con calidad comparable a GPT-3.5, sin internet, sin suscripción mensual y sin que ningún servidor de ninguna empresa reciba tus consultas. La pregunta ya no es si es posible. Es qué modelo elegir según lo que tienes.

Lo primero: entender qué limita tu hardware

Antes de hablar de modelos, hay un concepto que lo explica todo: la VRAM o la RAM disponible determina qué modelos puedes ejecutar. No la velocidad del procesador, no la marca. La memoria.

El tamaño del modelo en disco en gigabytes es aproximadamente igual a la VRAM o RAM que necesitará, más 2-3 GB de margen para el sistema operativo y la ventana de contexto. El formato de cuantización Q4_K_M es el estándar en 2026: comprime los pesos del modelo hasta un 75% con una pérdida de calidad sorprendentemente pequeña para la mayoría de tareas prácticas. ModemGuides

Dicho de forma simple: un modelo de 7.000 millones de parámetros en formato Q4 ocupa unos 4-5 GB. Para ejecutarlo necesitas esa memoria disponible, más algo de margen para el sistema. Si tienes 8 GB de RAM y el sistema operativo usa 3-4 GB, el margen es justo pero funciona.

RAM / VRAM disponible	Tamaño de modelo recomendado	Velocidad aproximada	Perfil
4 GB RAM (sin GPU)	1B – 3B parámetros	Lenta, usable	Básico
8 GB RAM (sin GPU)	3B – 7B parámetros (Q4)	5-10 tokens/seg	Gama baja
8 GB VRAM (GPU dedicada)	7B parámetros (Q4/Q5)	25-40 tokens/seg	Gama media
16 GB RAM / 12 GB VRAM	13B – 14B parámetros	15-30 tokens/seg	Gama media-alta
32 GB RAM / 16 GB+ VRAM	20B – 34B parámetros	20-50 tokens/seg	Alto rendimiento

Los mejores modelos para cada nivel de hardware en 2026

Para 4-6 GB de RAM: Phi-4 Mini, el rey del hardware limitado

Microsoft Phi-4 defies the laws of physics. Entrenado con datos sintéticos de tipo «libro de texto», razona mejor que modelos 7B de hace dos años siendo lo suficientemente pequeño como para ejecutarse junto a tu navegador web. Es perfecto para resúmenes y preguntas rápidas, con soporte multimodal y hasta 128K de ventana de contexto. Ray Busuttil

Phi-4 Mini supera a Llama 3.2 3B en todos los benchmarks MMLU. Para ejecutarlo con Ollama: ollama pull phi4-mini. Local AI Master Es el modelo que recomendaríamos a cualquiera con un portátil viejo que quiera probar IA local sin frustraciones.

Para 8 GB de RAM (sin GPU): Gemma 3 4B o Llama 3.2 8B cuantizado

Con 8 GB de RAM y sin GPU dedicada, la clave es la cuantización agresiva. Los mejores modelos para 8 GB de RAM son Phi-4 Mini, Llama 3.2, Gemma 3, Qwen 3 y Mistral 7B. Localaimaster

Gemma 3 tiene una ventaja especial para este perfil: su arquitectura MoE (Mixture of Experts) en la versión E4B significa que solo activa 4.500 millones de parámetros durante la inferencia aunque el modelo total sea más grande, lo que lo hace más eficiente de lo que su tamaño sugiere.

El truco para 8 GB sin GPU es cerrar el navegador y las aplicaciones pesadas antes de arrancar el modelo. Los navegadores web pueden consumir entre 2 y 4 GB de RAM por sí solos, lo que deja sin margen al modelo. Localaimaster

Para 8 GB de VRAM (GPU dedicada tipo RTX 3060 u equivalente): Llama 3.2 8B o Mistral 7B

Aquí la experiencia da un salto cualitativo. Los modelos 7B cuantizados como Llama 3 8B Q4 encajan cómodamente en 8 GB de VRAM y generan tokens a una velocidad usable. Puedes chatear, resumir documentos y hacer asistencia básica de código. Corsair

La diferencia entre ejecutar un modelo en RAM del sistema versus VRAM de la GPU es de entre 5 y 10 veces en velocidad. Lo que en CPU genera 5 tokens por segundo, en GPU genera 30-40. Es la diferencia entre esperar a que responda y tener una conversación fluida.

Para 16 GB de RAM o 12 GB de VRAM: Qwen3 8B o Phi-4 Medium

Con 12 GB de VRAM puedes ejecutar modelos de 12B-14B parámetros como Mistral NeMo o Phi-4 Medium cómodamente. Ray Busuttil Este es el rango donde la calidad de las respuestas empieza a ser comparable a lo que se obtenía con GPT-3.5 hace dos años, con contextos largos y capacidad de seguir instrucciones complejas.

Qwen3 8B es especialmente interesante en este segmento por su soporte multilingüe y su rendimiento en castellano, que supera al de muchos modelos optimizados exclusivamente para inglés.

Cómo instalarlo: Ollama en tres pasos

La forma más sencilla de ejecutar modelos locales en 2026 es Ollama, una aplicación que gestiona la descarga, cuantización y ejecución de modelos con una sola línea de comando.

Descarga Ollama

Ve a ollama.com y descarga el instalador para tu sistema operativo (Windows, macOS o Linux). La instalación es automática, como cualquier programa.

Descarga un modelo

Abre la terminal (o PowerShell en Windows) y escribe el comando del modelo que quieras. Ollama descarga y configura todo automáticamente.

Empieza a chatear

El modelo arranca directamente en la terminal. Si prefieres una interfaz visual, instala Open WebUI (gratuito) para tener una experiencia similar a ChatGPT, pero 100% en tu máquina.

Los comandos exactos según tu hardware:

# Para PC con 4-6 GB de RAM (Phi-4 Mini, ~2.5 GB)
ollama run phi4-mini

# Para PC con 8 GB de RAM (Gemma 3, buen equilibrio calidad/peso)
ollama run gemma3:4b

# Para PC con 8 GB de VRAM o 16 GB de RAM (Llama 3.2, calidad superior)
ollama run llama3.2:8b

# Para PC con 12-16 GB de VRAM (Qwen3, mejor en español y código)
ollama run qwen3:8b

# Para ver todos los modelos disponibles
ollama list

Qué modelo elegir según para qué lo uses

No todos los modelos son iguales para todos los usos. Esta es la guía rápida:

Uso principal	Modelo recomendado	RAM mínima
Chat general y preguntas rápidas	Phi-4 Mini	4 GB
Redacción y textos en español	Qwen3 8B	8 GB
Código y programación	Qwen3 Coder 7B	8 GB VRAM
Análisis de documentos largos	Llama 3.2 8B	8 GB VRAM
Razonamiento y matemáticas	Phi-4 Reasoning	6 GB
Equilibrio general (el más versátil)	Gemma 3 4B	6 GB
Traducción y multilingüe	Qwen3 4B	4 GB

La verdad sobre las expectativas

Hay algo que ninguna guía de modelos locales suele decir con claridad: la experiencia no es la misma que usar Claude o ChatGPT.

Un modelo de 7B parámetros en formato Q4 ejecutándose en la CPU de un portátil de gama media genera entre 5 y 10 tokens por segundo. Una respuesta de 200 palabras tarda entre 20 y 40 segundos. No es una conversación fluida en el sentido en que lo es ChatGPT. Es más parecido a enviar un mensaje y esperar la respuesta.

Con GPU dedicada de 8 GB de VRAM eso cambia a 25-40 tokens por segundo — ahí sí hay sensación de tiempo real.

Lo que sí es comparable o incluso superior a los servicios en la nube:

La privacidad es absoluta. Ninguna consulta sale de tu máquina. Sin límites de uso. Sin suscripción mensual. Sin que el servicio deje de estar disponible si la empresa cierra o cambia sus condiciones. Y para tareas específicas — resumir un documento concreto, analizar un texto, responder preguntas sobre un PDF — un modelo local de 7B en 2026 hace un trabajo excelente.

✓ Consejo práctico: Antes de ejecutar el modelo, cierra el navegador, el cliente de correo y cualquier aplicación que no necesites. En un equipo con 8 GB de RAM, liberar 2-3 GB puede ser la diferencia entre que el modelo funcione bien o se quede sin memoria a mitad de una respuesta larga.

La recomendación final, sin rodeos

Si tienes 8 GB de RAM y no tienes GPU dedicada: Gemma 3 4B para uso general, Phi-4 Mini si quieres algo todavía más ligero y rápido.

Si tienes 8 GB de VRAM en una GPU dedicada: Llama 3.2 8B o Qwen3 8B. La diferencia de velocidad respecto a ejecutar en CPU es tan grande que el modelo que elijas importa menos que aprovechar la GPU.

Si tienes 16 GB de RAM o 12 GB de VRAM: Qwen3 8B es la mejor elección para escritura en español y tareas generales. Para código, Qwen3 Coder en la misma familia.

Y si no tienes claro por dónde empezar: descarga Ollama, escribe ollama run gemma3:4b y prueba diez minutos. La mejor forma de saber si la IA local tiene sentido para ti es haberla probado una vez.

EtiquetasIA local Ollama Gemma 3 Qwen3 Modelos pequeños LLM local

En la elaboración de este artículo se ha utilizado inteligencia artificial como apoyo en la investigación y redacción. El contenido ha sido revisado editorialmente antes de su publicación.

Seguir leyendo

Nuevo

Herramientas

Cómo montar un negocio o proyecto con IA sin saber programar: la guía completa 2026

Las herramientas no-code de IA han madurado hasta el punto de que cualquiera puede lanzar un producto, automatizar una empresa o crear una app funcional sin escribir una sola línea de código.

Gonzalo27 de abril de 2026

Herramientas

Cómo generar imágenes con IA: la guía completa para quien nunca ha diseñado nada

Qué herramienta usar según tu caso, cómo escribir prompts que funcionen y qué esperar de cada plataforma. Todo lo que necesitas para empezar a generar imágenes con IA desde cero en 2026.

Gonzalo23 de abril de 2026

Herramientas

Claude Pro vs ChatGPT Plus: cuál merece tus 20 euros al mes en 2026

Mismo precio, filosofías radicalmente distintas. Analizamos en profundidad qué incluye cada plan, dónde gana cada uno y para qué perfil de usuario tiene más sentido cada suscripción.

Gonzalo20 de abril de 2026