Cómo ejecutar IA local en Mac con Apple Silicon: guía completa para M1, M2, M3 y M4

Apple Silicon cambió las reglas de la IA local. La memoria unificada permite ejecutar modelos imposibles en GPU convencionales. Guía completa con benchmarks reales, herramientas y el modelo correcto para cada Mac.

Gonzalo· Fundador

30 de mayo de 2026 · 9 min de lectura

Asistido por IA · revisado por el editor

Durante años, el argumento contra ejecutar IA en Mac era siempre el mismo: sin CUDA, sin IA. Nvidia tiene el monopolio del cómputo de IA. Si no tienes una GPU verde con sus librerías propietarias, estás fuera. Ese argumento murió con Apple Silicon.

El argumento de «sin CUDA, sin IA» se está derrumbando rápido. La arquitectura de memoria unificada de Apple Silicon da a los usuarios de Mac acceso a un enfoque fundamentalmente diferente — y en muchos casos superior — para ejecutar modelos de IA localmente. Axios

La razón técnica es la memoria unificada. En un ordenador con GPU dedicada, la GPU tiene su propia VRAM separada de la RAM del sistema. Una RTX 4090 tiene 24 GB, punto. En un Mac con Apple Silicon, GPU, CPU y Neural Engine comparten el mismo pool de memoria. Un Mac Studio con 192 GB puede cargar modelos que ninguna GPU de consumo puede tocar.

La regla del 72%: aproximadamente el 70-75% de tu memoria unificada total está disponible para los pesos del modelo. El resto va al sistema operativo, el motor de inferencia, el caché KV y los procesos en segundo plano. Zapier

Esto tiene consecuencias prácticas inmediatas: un Mac Mini M4 con 48 GB puede ejecutar modelos de 30-35 mil millones de parámetros con comodidad. El equivalente en GPU dedicada costaría entre tres y cinco veces más y generaría mucho más calor.

La ventaja real de Apple Silicon sobre una GPU de escritorio

Antes de hablar de herramientas y modelos, conviene entender por qué Apple Silicon es especialmente bueno para inferencia de IA — no solo para ejecutarla, sino para ejecutarla de forma eficiente.

La memoria unificada importa más que la generación del chip para la velocidad de inferencia. La generación de tokens requiere transmitir continuamente los pesos del modelo a través de las unidades de cómputo. Un M3 Max con 400 GB/s de ancho de banda genera tokens más rápido que un M4 base con 120 GB/s para el mismo modelo, aunque el M4 tenga un Neural Engine más nuevo. The New Stack

Esta es la consecuencia más importante para quien elige hardware: más memoria con más ancho de banda siempre gana sobre menos memoria en un chip más nuevo. Un Mac Studio M2 Ultra con 192 GB ejecutará modelos grandes mucho mejor que un MacBook Pro M4 con 24 GB, aunque el M4 sea arquitectónicamente más nuevo.

Los frameworks de inferencia de LLM actuales (Ollama, llama.cpp, MLX) usan principalmente cómputo GPU Metal, no el Neural Engine. El Neural Engine destaca en tipos específicos de modelos Core ML como clasificación de imágenes y tareas NLP optimizadas para ANE, pero la inferencia de LLM basada en transformers no se beneficia de él en la práctica. Build Fast with AI

Esto desmonta un malentendido común: el Neural Engine, que Apple promociona en cada generación de chips, no acelera directamente los modelos de lenguaje que ejecutas con Ollama o LM Studio. Lo que importa es el ancho de banda de memoria y el GPU Metal.

Las tres herramientas principales y cuándo usar cada una

El stack local de LLM en Mac solía ser una elección confusa entre cinco opciones. En 2026 es mucho más limpia, porque la mayoría comparte MLX bajo el capó. CNBC

Ollama es el punto de partida correcto para la mayoría. Instalación en un comando, API REST siempre activa, integración nativa con Open WebUI y compatibilidad con el formato de OpenAI. Ollama 0.19+ logra aproximadamente 58 tokens/segundo en usuario único con ~45 ms de tiempo hasta el primer token — el mejor para chat interactivo. La crítica de «Ollama es lento en Mac» que era válida hasta 2025 es ahora mayormente falsa — actualiza a 0.19 o posterior. CNBC

MLX es el framework nativo de Apple para machine learning, construido específicamente para memoria unificada. El backend MLX es consistentemente un 20-30% más rápido que el backend llama.cpp de Ollama en el mismo hardware. Si la velocidad importa, usa modelos en formato MLX en LM Studio o via la librería Python MLX. La desventaja es la fricción de configuración: requiere algo de línea de comandos y los modelos en formato MLX a veces tardan días en aparecer tras un lanzamiento nuevo. The New Stack

LM Studio combina lo mejor de los dos mundos para usuarios que prefieren interfaz gráfica: descarga modelos directamente desde Hugging Face con una búsqueda visual, cambia entre formato GGUF (llama.cpp) y MLX con un clic, y tiene chat integrado sin necesidad de instalar nada adicional. La crítica de velocidad contra LM Studio se ha disipado en gran medida: cuando usa modelos en formato MLX, sus velocidades son prácticamente idénticas a Ollama MLX-LM. LumiChats

Herramienta	Instalación	Velocidad en Mac	Mejor para
Ollama	1 comando	Muy buena (0.19+)	API siempre activa, integración con apps
MLX-LM	pip install	Óptima (nativa Apple)	Máxima velocidad, scripts Python
LM Studio	Instalador .dmg	Buena (mejor con MLX)	Explorar modelos, interfaz visual
Jan / GPT4All	Instalador .dmg	Correcta	Privacidad estricta, cero telemetría

El modelo correcto según tu Mac: la tabla definitiva

Este es el núcleo de la guía. El modelo que funciona bien en tu Mac depende casi exclusivamente de cuánta memoria unificada tienes.

La regla del 72%: aproximadamente el 70-75% de tu memoria unificada total está disponible para los pesos del modelo. En un Mac con 16 GB, aproximadamente 11-12 GB están disponibles para el modelo después del overhead del sistema. Zapier

Memoria unificada	Modelo recomendado	Comando Ollama	Velocidad aprox.
8 GB	Qwen3 4B / Phi-4 Mini	ollama run qwen3:4b	60-100 tok/s
16 GB	Qwen3 8B / Llama 4 Scout 8B	ollama run qwen3:8b	15-22 tok/s
24 GB	Qwen3 14B / Mistral 12B	ollama run qwen3:14b	18-28 tok/s
48 GB	Qwen3 32B / Qwen3.6 35B-A3B	ollama run qwen3:32b	20-35 tok/s
64 GB	Llama 4 Maverick / Qwen3 72B	ollama run llama4:maverick	15-25 tok/s
96-192 GB	DeepSeek V4 / modelos 100B+	ollama run deepseek-v4	10-15 tok/s

El modelo que merece mención especial para Mac en 2026 es el Qwen3.6-35B-A3B. El Qwen 3.6-35B-A3B es el modelo que hace que la IA local en Mac valga la pena en 2026. El diseño MoE significa 3B parámetros activos por token, por lo que la velocidad de tokens se mantiene alta incluso cuando el archivo de 20 GB está en memoria. Contexto nativo de 262K. Fuerte en código (73.4% SWE-bench Verified), fuerte en razonamiento (92.7% AIME26), fuerte en tareas generales (85.2% MMLU-Pro). Engadget

Con 48 GB de memoria unificada — el rango del Mac Mini M4 Pro o MacBook Pro M4 Pro — puedes ejecutar ese modelo a 20-35 tokens por segundo. Es la experiencia que hace que la IA local en Mac sea genuinamente competitiva con los servicios en la nube para uso cotidiano.

Instalación completa: de cero a modelo corriendo en cinco minutos

Paso 1: Instalar Ollama

Descarga el instalador desde ollama.com o usa Homebrew:

brew install ollama

Ollama se instala como servicio de macOS. Arranca automáticamente en el inicio del sistema.

Paso 2: Descargar tu primer modelo

# Para Mac con 8 GB
ollama run qwen3:4b

# Para Mac con 16 GB
ollama run qwen3:8b

# Para Mac con 48+ GB — el mejor modelo local de 2026
ollama run qwen3:32b

El primer arranque descarga el modelo. Los arranques posteriores son instantáneos porque el modelo queda en caché local.

Paso 3 (opcional pero recomendado): Añadir Open WebUI

Para tener interfaz visual desde cualquier navegador o dispositivo de tu red:

# Necesitas Docker instalado (docker.com)
docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Accede en http://localhost:3000. Desde ese momento tienes una interfaz idéntica a ChatGPT, completamente local.

MLX: cómo sacar más velocidad en modelos compatibles

Para usuarios que quieren exprimir el rendimiento máximo de su Apple Silicon, MLX es el camino. No requiere Docker ni configuración de servicios — es una librería de Python que aprovecha directamente las capacidades de Metal en el chip.

# Instalar MLX-LM
pip install mlx-lm

# Ejecutar un modelo en formato MLX (20-30% más rápido que Ollama en el mismo Mac)
mlx_lm.generate \
  --model mlx-community/Qwen3-8B-4bit \
  --prompt "Explica qué es la memoria unificada en Apple Silicon"

# Para el mejor modelo local de 2026 en Mac con 48+ GB
mlx_lm.generate \
  --model mlx-community/Qwen3.6-35B-A3B-4bit \
  --prompt "Tu pregunta aquí"

La organización mlx-community en Hugging Face mantiene variantes convertidas a MLX de prácticamente cada modelo mainstream en cuestión de días desde su lanzamiento. Unsloth también publica builds en MLX. Engadget

La diferencia de velocidad entre Ollama y MLX en el mismo Mac vale la fricción adicional de configuración si usas el modelo muchas horas al día. Para uso ocasional, Ollama es suficiente.

El truco que más mejora el rendimiento: ajustar num_batch y el contexto

Dos parámetros tienen un impacto desproporcionado en la velocidad y el comportamiento del modelo:

Aumentar num_batch desde el valor por defecto (típicamente 512 en versiones actuales de Ollama/llama.cpp) mejora la velocidad de evaluación del prompt pero aumenta el uso de memoria durante esa fase. Reducir la longitud de contexto de 8192 a 4096 libera memoria proporcional al número de capas del modelo y la dimensión oculta. Fortune

Para Mac con 8-16 GB que notan lentitud con prompts largos, reducir el contexto a 4096 puede doblar la velocidad a costa de conversaciones más cortas. Para Mac con 48+ GB, aumentar num_batch mejora la velocidad de procesar el prompt inicial sin coste notable en memoria.

La primera ejecución de inferencia en un modelo nuevo activa la compilación de shaders Metal, que puede añadir varios segundos de latencia. Las ejecuciones posteriores se benefician del caché de shaders persistente de macOS. No hay ningún paso manual de precalentamiento requerido; simplemente ejecutar un prompt corto después de cargar el modelo llena el caché. Fortune

Si el primer prompt de cada sesión va lento, es normal. A partir del segundo, el caché de Metal se activa y la velocidad mejora.

Las preguntas que más se repiten

¿Mi MacBook Air M1 con 8 GB sirve para algo?

Los mejores modelos de lenguaje pequeños para Mac M1 con 8 GB de RAM en 2026 generan 60-100 tokens por segundo en M1. Para texto y preguntas rápidas, es una experiencia completamente usable. Qwen3 4B y Phi-4 Mini funcionan bien. Modelos más grandes no caben sin cuantización muy agresiva que degrada la calidad. Axios

¿Vale la pena comprar más RAM exclusivamente para IA local?

Para IA local, la RAM importa más que el procesador. Un M2 base con 24 GB de RAM supera a un M2 Pro con 16 GB de RAM para ejecutar modelos grandes. La memoria es permanente en Apple Silicon — la configuración que compras es la que tendrás siempre. MacRumors

El punto de inflexión está en 48 GB: por debajo puedes ejecutar modelos muy buenos, por encima puedes ejecutar modelos que rivalizan con servicios de pago.

¿Necesito tener el Mac encendido todo el tiempo?

No. Ollama se puede configurar para arrancar con el sistema y sirve modelos cuando los necesitas. La latencia de carga del modelo la primera vez es de 2-5 segundos según el tamaño. Apple Silicon es tan eficiente que puedes ejecutar modelos pequeños todo el día con batería con un impacto mínimo. Build Fast with AI

¿Funciona en modo batería o necesito estar enchufado?

Los modelos pequeños (hasta 8B) funcionan perfectamente en batería. Para modelos grandes (32B+) en sesiones largas, enchufado es mejor por la disipación de calor, aunque el rendimiento es estable gracias a la arquitectura eficiente del chip.

El hardware que más sentido tiene comprar en 2026 si vas a empezar

Para la mayoría de personas comprando un Mac específicamente para IA local en 2026, la respuesta es el Mac Mini M4 Pro con 48 GB por 1.799 dólares. Para IA, err hacia más memoria. 24 GB es el mínimo que recomendamos; 48 GB es el punto dulce. MacRumors

Un Mac Mini M1 16 GB de segunda mano a 400-500 dólares es un excelente punto de entrada para experimentar con IA local. Un M1 con 16 GB sigue siendo perfectamente usable para inferencia de modelos 7B a aproximadamente 22 tokens por segundo. Si ya tienes uno, no hay razón urgente para actualizar a menos que necesites modelos más grandes.

Para empezar (segunda mano)

Mac Mini M1 16 GB

400-500 € · Qwen3 8B a ~22 tok/s · Perfecto para experimentar

El punto dulce

Mac Mini M4 Pro 48 GB

1.799 € · Qwen3 32B a 25-35 tok/s · Uso diario serio

Para uso intensivo

Mac Studio M4 Max 128 GB

~3.500 € · Modelos 70B+ · Trabajo profesional con IA local

Sin límites

Mac Studio M2/M3 Ultra 192 GB

~5.000 € · DeepSeek V4, modelos 100B+ · El servidor doméstico definitivo

Lo que viene: M5 y el horizonte de 2026

Se espera para finales de 2026. Los rumores sugieren que M5 Max/Ultra empujará el ancho de banda de memoria a 1,0+ TB/s y añadirá núcleos tensor FP8 nativos vía el Neural Engine. Si es correcto, eso cerraría la mayor parte de la brecha de throughput por token con H100/H200 para inferencia, mientras preserva la ventaja de 192 GB+ de memoria unificada. LumiChats

La trayectoria de Apple Silicon en IA local es clara: cada generación de chips acerca más el rendimiento de un Mac a lo que hace una GPU de datacenter, a una fracción del consumo energético y el coste. En 2023, ejecutar modelos competitivos en Mac era un experimento. En 2026, es una opción genuinamente viable para trabajo profesional con privacidad total, sin suscripciones y sin que ningún dato salga de tu máquina.

Fuentes

Enlaces a las fuentes originales en las que se apoya esta noticia. Contrasta cada dato en su origen.

InsiderLLM (benchmarks mayo 2026)insiderllm.com
Codersera (guía MLX completa)codersera.com
Local AI Master (guía setup)localaimaster.com
Local AI Master (guía hardware)localaimaster.com
Will It Run AI (guía por RAM)willitrunai.com
AI Agents Kit (guía M1)aiagentskit.com
Refurb.me (guía MLX)refurb.me

EtiquetasOpen source Inferencia IA Productividad LLM

En la elaboración de este artículo se ha utilizado inteligencia artificial como apoyo en la investigación y redacción. El contenido ha sido revisado editorialmente antes de su publicación.

GonzaloFundador

Madrileño enganchado a la tecnología desde pequeño. Trabajo en finanzas pero la inteligencia artificial es lo que me quita el sueño. Creé Miuranews para seguirla de cerca y contarla en español sin hype.

Todos sus artículos →

◈ Asistente Miuranews

Pregunta sobre este artículo

Respuestas basadas en esta pieza y en el archivo de Miuranews. Sin inventar: si no está cubierto, te lo dice.

Prueba una

Experimento en beta · No sustituye a la lectura del artículo

Sigue leyendo