El mejor modelo de IA local para un PC de gama baja o media en 2026
Sin suscripciones, sin límites y sin conexión a internet: esta es la guía definitiva para elegir el modelo de IA local que mejor encaja con tu hardware en 2026, desde 4 GB de RAM hasta 16 GB.

Hasta hace dos años, ejecutar un modelo de inteligencia artificial en tu propio ordenador significaba tener un equipo de gama alta, conocimientos técnicos avanzados y paciencia para configurar entornos que se rompían con cualquier actualización. En 2026, eso ya no es así.
Los modelos pequeños han mejorado hasta el punto de que un portátil de 2019 con 8 GB de RAM puede ejecutar un asistente de IA conversacional con calidad comparable a GPT-3.5, sin internet, sin suscripción mensual y sin que ningún servidor de ninguna empresa reciba tus consultas. La pregunta ya no es si es posible. Es qué modelo elegir según lo que tienes.
Lo primero: entender qué limita tu hardware
Antes de hablar de modelos, hay un concepto que lo explica todo: la VRAM o la RAM disponible determina qué modelos puedes ejecutar. No la velocidad del procesador, no la marca. La memoria.
El tamaño del modelo en disco en gigabytes es aproximadamente igual a la VRAM o RAM que necesitará, más 2-3 GB de margen para el sistema operativo y la ventana de contexto. El formato de cuantización Q4_K_M es el estándar en 2026: comprime los pesos del modelo hasta un 75% con una pérdida de calidad sorprendentemente pequeña para la mayoría de tareas prácticas. ModemGuides
Dicho de forma simple: un modelo de 7.000 millones de parámetros en formato Q4 ocupa unos 4-5 GB. Para ejecutarlo necesitas esa memoria disponible, más algo de margen para el sistema. Si tienes 8 GB de RAM y el sistema operativo usa 3-4 GB, el margen es justo pero funciona.
Los mejores modelos para cada nivel de hardware en 2026
Para 4-6 GB de RAM: Phi-4 Mini, el rey del hardware limitado
Microsoft Phi-4 defies the laws of physics. Entrenado con datos sintéticos de tipo «libro de texto», razona mejor que modelos 7B de hace dos años siendo lo suficientemente pequeño como para ejecutarse junto a tu navegador web. Es perfecto para resúmenes y preguntas rápidas, con soporte multimodal y hasta 128K de ventana de contexto. Ray Busuttil
Phi-4 Mini supera a Llama 3.2 3B en todos los benchmarks MMLU. Para ejecutarlo con Ollama: ollama pull phi4-mini. Local AI Master Es el modelo que recomendaríamos a cualquiera con un portátil viejo que quiera probar IA local sin frustraciones.
Para 8 GB de RAM (sin GPU): Gemma 3 4B o Llama 3.2 8B cuantizado
Con 8 GB de RAM y sin GPU dedicada, la clave es la cuantización agresiva. Los mejores modelos para 8 GB de RAM son Phi-4 Mini, Llama 3.2, Gemma 3, Qwen 3 y Mistral 7B. Localaimaster
Gemma 3 tiene una ventaja especial para este perfil: su arquitectura MoE (Mixture of Experts) en la versión E4B significa que solo activa 4.500 millones de parámetros durante la inferencia aunque el modelo total sea más grande, lo que lo hace más eficiente de lo que su tamaño sugiere.
El truco para 8 GB sin GPU es cerrar el navegador y las aplicaciones pesadas antes de arrancar el modelo. Los navegadores web pueden consumir entre 2 y 4 GB de RAM por sí solos, lo que deja sin margen al modelo. Localaimaster
Para 8 GB de VRAM (GPU dedicada tipo RTX 3060 u equivalente): Llama 3.2 8B o Mistral 7B
Aquí la experiencia da un salto cualitativo. Los modelos 7B cuantizados como Llama 3 8B Q4 encajan cómodamente en 8 GB de VRAM y generan tokens a una velocidad usable. Puedes chatear, resumir documentos y hacer asistencia básica de código. Corsair
La diferencia entre ejecutar un modelo en RAM del sistema versus VRAM de la GPU es de entre 5 y 10 veces en velocidad. Lo que en CPU genera 5 tokens por segundo, en GPU genera 30-40. Es la diferencia entre esperar a que responda y tener una conversación fluida.
Para 16 GB de RAM o 12 GB de VRAM: Qwen3 8B o Phi-4 Medium
Con 12 GB de VRAM puedes ejecutar modelos de 12B-14B parámetros como Mistral NeMo o Phi-4 Medium cómodamente. Ray Busuttil Este es el rango donde la calidad de las respuestas empieza a ser comparable a lo que se obtenía con GPT-3.5 hace dos años, con contextos largos y capacidad de seguir instrucciones complejas.
Qwen3 8B es especialmente interesante en este segmento por su soporte multilingüe y su rendimiento en castellano, que supera al de muchos modelos optimizados exclusivamente para inglés.
Cómo instalarlo: Ollama en tres pasos
La forma más sencilla de ejecutar modelos locales en 2026 es Ollama, una aplicación que gestiona la descarga, cuantización y ejecución de modelos con una sola línea de comando.
Los comandos exactos según tu hardware:
# Para PC con 4-6 GB de RAM (Phi-4 Mini, ~2.5 GB)
ollama run phi4-mini
# Para PC con 8 GB de RAM (Gemma 3, buen equilibrio calidad/peso)
ollama run gemma3:4b
# Para PC con 8 GB de VRAM o 16 GB de RAM (Llama 3.2, calidad superior)
ollama run llama3.2:8b
# Para PC con 12-16 GB de VRAM (Qwen3, mejor en español y código)
ollama run qwen3:8b
# Para ver todos los modelos disponibles
ollama listQué modelo elegir según para qué lo uses
No todos los modelos son iguales para todos los usos. Esta es la guía rápida:
La verdad sobre las expectativas
Hay algo que ninguna guía de modelos locales suele decir con claridad: la experiencia no es la misma que usar Claude o ChatGPT.
Un modelo de 7B parámetros en formato Q4 ejecutándose en la CPU de un portátil de gama media genera entre 5 y 10 tokens por segundo. Una respuesta de 200 palabras tarda entre 20 y 40 segundos. No es una conversación fluida en el sentido en que lo es ChatGPT. Es más parecido a enviar un mensaje y esperar la respuesta.
Con GPU dedicada de 8 GB de VRAM eso cambia a 25-40 tokens por segundo — ahí sí hay sensación de tiempo real.
Lo que sí es comparable o incluso superior a los servicios en la nube:
La privacidad es absoluta. Ninguna consulta sale de tu máquina. Sin límites de uso. Sin suscripción mensual. Sin que el servicio deje de estar disponible si la empresa cierra o cambia sus condiciones. Y para tareas específicas — resumir un documento concreto, analizar un texto, responder preguntas sobre un PDF — un modelo local de 7B en 2026 hace un trabajo excelente.
La recomendación final, sin rodeos
Si tienes 8 GB de RAM y no tienes GPU dedicada: Gemma 3 4B para uso general, Phi-4 Mini si quieres algo todavía más ligero y rápido.
Si tienes 8 GB de VRAM en una GPU dedicada: Llama 3.2 8B o Qwen3 8B. La diferencia de velocidad respecto a ejecutar en CPU es tan grande que el modelo que elijas importa menos que aprovechar la GPU.
Si tienes 16 GB de RAM o 12 GB de VRAM: Qwen3 8B es la mejor elección para escritura en español y tareas generales. Para código, Qwen3 Coder en la misma familia.
Y si no tienes claro por dónde empezar: descarga Ollama, escribe ollama run gemma3:4b y prueba diez minutos. La mejor forma de saber si la IA local tiene sentido para ti es haberla probado una vez.
En la elaboración de este artículo se ha utilizado inteligencia artificial como apoyo en la investigación y redacción. El contenido ha sido revisado editorialmente antes de su publicación.
Seguir leyendo
NuevoCómo montar un negocio o proyecto con IA sin saber programar: la guía completa 2026
Las herramientas no-code de IA han madurado hasta el punto de que cualquiera puede lanzar un producto, automatizar una empresa o crear una app funcional sin escribir una sola línea de código.

Cómo generar imágenes con IA: la guía completa para quien nunca ha diseñado nada
Qué herramienta usar según tu caso, cómo escribir prompts que funcionen y qué esperar de cada plataforma. Todo lo que necesitas para empezar a generar imágenes con IA desde cero en 2026.

Claude Pro vs ChatGPT Plus: cuál merece tus 20 euros al mes en 2026
Mismo precio, filosofías radicalmente distintas. Analizamos en profundidad qué incluye cada plan, dónde gana cada uno y para qué perfil de usuario tiene más sentido cada suscripción.