Cómo ejecutar IA local en Mac con Apple Silicon: guía completa para M1, M2, M3 y M4
Apple Silicon cambió las reglas de la IA local. La memoria unificada permite ejecutar modelos imposibles en GPU convencionales. Guía completa con benchmarks reales, herramientas y el modelo correcto para cada Mac.

Durante años, el argumento contra ejecutar IA en Mac era siempre el mismo: sin CUDA, sin IA. Nvidia tiene el monopolio del cómputo de IA. Si no tienes una GPU verde con sus librerías propietarias, estás fuera. Ese argumento murió con Apple Silicon.
El argumento de «sin CUDA, sin IA» se está derrumbando rápido. La arquitectura de memoria unificada de Apple Silicon da a los usuarios de Mac acceso a un enfoque fundamentalmente diferente — y en muchos casos superior — para ejecutar modelos de IA localmente. Axios
La razón técnica es la memoria unificada. En un ordenador con GPU dedicada, la GPU tiene su propia VRAM separada de la RAM del sistema. Una RTX 4090 tiene 24 GB, punto. En un Mac con Apple Silicon, GPU, CPU y Neural Engine comparten el mismo pool de memoria. Un Mac Studio con 192 GB puede cargar modelos que ninguna GPU de consumo puede tocar.
La regla del 72%: aproximadamente el 70-75% de tu memoria unificada total está disponible para los pesos del modelo. El resto va al sistema operativo, el motor de inferencia, el caché KV y los procesos en segundo plano. Zapier
Esto tiene consecuencias prácticas inmediatas: un Mac Mini M4 con 48 GB puede ejecutar modelos de 30-35 mil millones de parámetros con comodidad. El equivalente en GPU dedicada costaría entre tres y cinco veces más y generaría mucho más calor.
La ventaja real de Apple Silicon sobre una GPU de escritorio
Antes de hablar de herramientas y modelos, conviene entender por qué Apple Silicon es especialmente bueno para inferencia de IA — no solo para ejecutarla, sino para ejecutarla de forma eficiente.
La memoria unificada importa más que la generación del chip para la velocidad de inferencia. La generación de tokens requiere transmitir continuamente los pesos del modelo a través de las unidades de cómputo. Un M3 Max con 400 GB/s de ancho de banda genera tokens más rápido que un M4 base con 120 GB/s para el mismo modelo, aunque el M4 tenga un Neural Engine más nuevo. The New Stack
Esta es la consecuencia más importante para quien elige hardware: más memoria con más ancho de banda siempre gana sobre menos memoria en un chip más nuevo. Un Mac Studio M2 Ultra con 192 GB ejecutará modelos grandes mucho mejor que un MacBook Pro M4 con 24 GB, aunque el M4 sea arquitectónicamente más nuevo.
Los frameworks de inferencia de LLM actuales (Ollama, llama.cpp, MLX) usan principalmente cómputo GPU Metal, no el Neural Engine. El Neural Engine destaca en tipos específicos de modelos Core ML como clasificación de imágenes y tareas NLP optimizadas para ANE, pero la inferencia de LLM basada en transformers no se beneficia de él en la práctica. Build Fast with AI
Esto desmonta un malentendido común: el Neural Engine, que Apple promociona en cada generación de chips, no acelera directamente los modelos de lenguaje que ejecutas con Ollama o LM Studio. Lo que importa es el ancho de banda de memoria y el GPU Metal.
Las tres herramientas principales y cuándo usar cada una
El stack local de LLM en Mac solía ser una elección confusa entre cinco opciones. En 2026 es mucho más limpia, porque la mayoría comparte MLX bajo el capó. CNBC
Ollama es el punto de partida correcto para la mayoría. Instalación en un comando, API REST siempre activa, integración nativa con Open WebUI y compatibilidad con el formato de OpenAI. Ollama 0.19+ logra aproximadamente 58 tokens/segundo en usuario único con ~45 ms de tiempo hasta el primer token — el mejor para chat interactivo. La crítica de «Ollama es lento en Mac» que era válida hasta 2025 es ahora mayormente falsa — actualiza a 0.19 o posterior. CNBC
MLX es el framework nativo de Apple para machine learning, construido específicamente para memoria unificada. El backend MLX es consistentemente un 20-30% más rápido que el backend llama.cpp de Ollama en el mismo hardware. Si la velocidad importa, usa modelos en formato MLX en LM Studio o via la librería Python MLX. La desventaja es la fricción de configuración: requiere algo de línea de comandos y los modelos en formato MLX a veces tardan días en aparecer tras un lanzamiento nuevo. The New Stack
LM Studio combina lo mejor de los dos mundos para usuarios que prefieren interfaz gráfica: descarga modelos directamente desde Hugging Face con una búsqueda visual, cambia entre formato GGUF (llama.cpp) y MLX con un clic, y tiene chat integrado sin necesidad de instalar nada adicional. La crítica de velocidad contra LM Studio se ha disipado en gran medida: cuando usa modelos en formato MLX, sus velocidades son prácticamente idénticas a Ollama MLX-LM. LumiChats
El modelo correcto según tu Mac: la tabla definitiva
Este es el núcleo de la guía. El modelo que funciona bien en tu Mac depende casi exclusivamente de cuánta memoria unificada tienes.
La regla del 72%: aproximadamente el 70-75% de tu memoria unificada total está disponible para los pesos del modelo. En un Mac con 16 GB, aproximadamente 11-12 GB están disponibles para el modelo después del overhead del sistema. Zapier
El modelo que merece mención especial para Mac en 2026 es el Qwen3.6-35B-A3B. El Qwen 3.6-35B-A3B es el modelo que hace que la IA local en Mac valga la pena en 2026. El diseño MoE significa 3B parámetros activos por token, por lo que la velocidad de tokens se mantiene alta incluso cuando el archivo de 20 GB está en memoria. Contexto nativo de 262K. Fuerte en código (73.4% SWE-bench Verified), fuerte en razonamiento (92.7% AIME26), fuerte en tareas generales (85.2% MMLU-Pro). Engadget
Con 48 GB de memoria unificada — el rango del Mac Mini M4 Pro o MacBook Pro M4 Pro — puedes ejecutar ese modelo a 20-35 tokens por segundo. Es la experiencia que hace que la IA local en Mac sea genuinamente competitiva con los servicios en la nube para uso cotidiano.
Instalación completa: de cero a modelo corriendo en cinco minutos
Paso 1: Instalar Ollama
Descarga el instalador desde ollama.com o usa Homebrew:
brew install ollamaOllama se instala como servicio de macOS. Arranca automáticamente en el inicio del sistema.
Paso 2: Descargar tu primer modelo
# Para Mac con 8 GB
ollama run qwen3:4b
# Para Mac con 16 GB
ollama run qwen3:8b
# Para Mac con 48+ GB — el mejor modelo local de 2026
ollama run qwen3:32bEl primer arranque descarga el modelo. Los arranques posteriores son instantáneos porque el modelo queda en caché local.
Paso 3 (opcional pero recomendado): Añadir Open WebUI
Para tener interfaz visual desde cualquier navegador o dispositivo de tu red:
# Necesitas Docker instalado (docker.com)
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainAccede en http://localhost:3000. Desde ese momento tienes una interfaz idéntica a ChatGPT, completamente local.
MLX: cómo sacar más velocidad en modelos compatibles
Para usuarios que quieren exprimir el rendimiento máximo de su Apple Silicon, MLX es el camino. No requiere Docker ni configuración de servicios — es una librería de Python que aprovecha directamente las capacidades de Metal en el chip.
# Instalar MLX-LM
pip install mlx-lm
# Ejecutar un modelo en formato MLX (20-30% más rápido que Ollama en el mismo Mac)
mlx_lm.generate \
--model mlx-community/Qwen3-8B-4bit \
--prompt "Explica qué es la memoria unificada en Apple Silicon"
# Para el mejor modelo local de 2026 en Mac con 48+ GB
mlx_lm.generate \
--model mlx-community/Qwen3.6-35B-A3B-4bit \
--prompt "Tu pregunta aquí"La organización mlx-community en Hugging Face mantiene variantes convertidas a MLX de prácticamente cada modelo mainstream en cuestión de días desde su lanzamiento. Unsloth también publica builds en MLX. Engadget
La diferencia de velocidad entre Ollama y MLX en el mismo Mac vale la fricción adicional de configuración si usas el modelo muchas horas al día. Para uso ocasional, Ollama es suficiente.
El truco que más mejora el rendimiento: ajustar num_batch y el contexto
Dos parámetros tienen un impacto desproporcionado en la velocidad y el comportamiento del modelo:
Aumentar num_batch desde el valor por defecto (típicamente 512 en versiones actuales de Ollama/llama.cpp) mejora la velocidad de evaluación del prompt pero aumenta el uso de memoria durante esa fase. Reducir la longitud de contexto de 8192 a 4096 libera memoria proporcional al número de capas del modelo y la dimensión oculta. Fortune
Para Mac con 8-16 GB que notan lentitud con prompts largos, reducir el contexto a 4096 puede doblar la velocidad a costa de conversaciones más cortas. Para Mac con 48+ GB, aumentar num_batch mejora la velocidad de procesar el prompt inicial sin coste notable en memoria.
La primera ejecución de inferencia en un modelo nuevo activa la compilación de shaders Metal, que puede añadir varios segundos de latencia. Las ejecuciones posteriores se benefician del caché de shaders persistente de macOS. No hay ningún paso manual de precalentamiento requerido; simplemente ejecutar un prompt corto después de cargar el modelo llena el caché. Fortune
Si el primer prompt de cada sesión va lento, es normal. A partir del segundo, el caché de Metal se activa y la velocidad mejora.
Las preguntas que más se repiten
¿Mi MacBook Air M1 con 8 GB sirve para algo?
Los mejores modelos de lenguaje pequeños para Mac M1 con 8 GB de RAM en 2026 generan 60-100 tokens por segundo en M1. Para texto y preguntas rápidas, es una experiencia completamente usable. Qwen3 4B y Phi-4 Mini funcionan bien. Modelos más grandes no caben sin cuantización muy agresiva que degrada la calidad. Axios
¿Vale la pena comprar más RAM exclusivamente para IA local?
Para IA local, la RAM importa más que el procesador. Un M2 base con 24 GB de RAM supera a un M2 Pro con 16 GB de RAM para ejecutar modelos grandes. La memoria es permanente en Apple Silicon — la configuración que compras es la que tendrás siempre. MacRumors
El punto de inflexión está en 48 GB: por debajo puedes ejecutar modelos muy buenos, por encima puedes ejecutar modelos que rivalizan con servicios de pago.
¿Necesito tener el Mac encendido todo el tiempo?
No. Ollama se puede configurar para arrancar con el sistema y sirve modelos cuando los necesitas. La latencia de carga del modelo la primera vez es de 2-5 segundos según el tamaño. Apple Silicon es tan eficiente que puedes ejecutar modelos pequeños todo el día con batería con un impacto mínimo. Build Fast with AI
¿Funciona en modo batería o necesito estar enchufado?
Los modelos pequeños (hasta 8B) funcionan perfectamente en batería. Para modelos grandes (32B+) en sesiones largas, enchufado es mejor por la disipación de calor, aunque el rendimiento es estable gracias a la arquitectura eficiente del chip.
El hardware que más sentido tiene comprar en 2026 si vas a empezar
Para la mayoría de personas comprando un Mac específicamente para IA local en 2026, la respuesta es el Mac Mini M4 Pro con 48 GB por 1.799 dólares. Para IA, err hacia más memoria. 24 GB es el mínimo que recomendamos; 48 GB es el punto dulce. MacRumors
Un Mac Mini M1 16 GB de segunda mano a 400-500 dólares es un excelente punto de entrada para experimentar con IA local. Un M1 con 16 GB sigue siendo perfectamente usable para inferencia de modelos 7B a aproximadamente 22 tokens por segundo. Si ya tienes uno, no hay razón urgente para actualizar a menos que necesites modelos más grandes.
Lo que viene: M5 y el horizonte de 2026
Se espera para finales de 2026. Los rumores sugieren que M5 Max/Ultra empujará el ancho de banda de memoria a 1,0+ TB/s y añadirá núcleos tensor FP8 nativos vía el Neural Engine. Si es correcto, eso cerraría la mayor parte de la brecha de throughput por token con H100/H200 para inferencia, mientras preserva la ventaja de 192 GB+ de memoria unificada. LumiChats
La trayectoria de Apple Silicon en IA local es clara: cada generación de chips acerca más el rendimiento de un Mac a lo que hace una GPU de datacenter, a una fracción del consumo energético y el coste. En 2023, ejecutar modelos competitivos en Mac era un experimento. En 2026, es una opción genuinamente viable para trabajo profesional con privacidad total, sin suscripciones y sin que ningún dato salga de tu máquina.
Fuentes
Seguir leyendo
NuevoMicrosoft rediseñó completamente Copilot en Microsoft 365: agentes autónomos en producción y nueva interfaz unificada
Copilot Studio lanzó ayer agentes capaces de usar el ordenador de forma autónoma en disponibilidad general. El rediseño convierte Microsoft 365 en una plataforma de delegación, no de asistencia.

Guía de Gemini Spark: qué es, cómo activarlo y qué puede hacer el agente 24/7 de Google
Gemini Spark actúa mientras no estás mirando: revisa tu Gmail, completa tareas entre apps y programa acciones autónomas. Esta guía explica qué lo diferencia de un chatbot, cómo activarlo y qué configurar primero.

Prompt engineering avanzado: guía completa para escribir instrucciones que realmente funcionan
Las técnicas avanzadas de prompting mejoran los resultados entre un 20% y un 60%. Esta guía explica las que más importan en 2026, con ejemplos reales y plantillas listas para copiar y adaptar.