Cómo montar un servidor de IA en casa y usarlo desde cualquier dispositivo
Privacidad total, sin límites de uso y sin suscripciones. Esta guía explica qué hardware necesitas, cómo montar el servidor con Ollama y Open WebUI y cómo acceder desde cualquier dispositivo de tu casa.

Cada vez que le preguntas algo a ChatGPT o a Claude, esa conversación viaja a un servidor de una empresa americana, se procesa allí y vuelve a tu pantalla. Tus preguntas, tus documentos, tus proyectos. Todo pasa por fuera.
Un servidor de IA en casa cambia eso completamente. El modelo corre en tu hardware. Las conversaciones no salen de tu red. No hay suscripción mensual. No hay límites de uso. Y si lo configuras bien, puedes acceder a él desde el móvil, el portátil del trabajo o cualquier otro dispositivo, exactamente igual que usarías ChatGPT pero desde tu propia máquina.
Esta guía explica cómo montarlo desde cero.
La diferencia entre usar IA local en tu PC y tener un servidor
Ejecutar Ollama en tu ordenador de trabajo es útil. Pero tiene dos problemas: ocupa recursos mientras lo tienes abierto, y solo puedes usarlo desde ese ordenador.
Un servidor de IA en casa es una máquina dedicada que ejecuta modelos de IA las 24 horas y los sirve a todos los dispositivos de tu red: tu portátil, tu teléfono, tu tablet. En lugar de ejecutar Ollama en tu escritorio, que ocupa tu estación de trabajo y se detiene cuando lo apagas, tienes IA siempre disponible a la que cualquier dispositivo puede acceder instantáneamente. Es como un NAS doméstico, pero para inferencia de IA en lugar de almacenamiento de archivos. IBM
La diferencia práctica es enorme. Tu pareja puede usar la IA desde su portátil. Tus hijos desde el iPad para los deberes. Tú desde el móvil mientras estás en el sofá. Todo apuntando al mismo servidor, con los mismos modelos, sin que nadie pague nada extra.
Qué hardware necesitas según tu presupuesto
No hace falta construir una máquina desde cero. Cualquier ordenador que ya tengas puede funcionar como servidor, dependiendo de qué modelos quieras ejecutar.
La eficiencia energética del Mac Mini es llamativa: aproximadamente una sexta parte del coste de electricidad de un servidor con GPU. Si el consumo eléctrico importa a largo plazo, Apple Silicon es la opción más económica para un servidor siempre encendido. IBM
Lo que sí necesitas independientemente del hardware: conexión por cable Ethernet al router (no WiFi para el servidor), al menos 1 TB de almacenamiento para los modelos, y que el ordenador pueda quedarse encendido sin que nadie lo use.
Paso 1: Instalar Ollama en el servidor
Ollama es el programa que gestiona la descarga y ejecución de los modelos. La instalación es un solo comando.
Ollama corre en Linux, macOS y Windows. En Linux, que es el sistema operativo más común para servidores domésticos, la instalación completa es este único comando en la terminal.
curl -fsSL https://ollama.com/install.sh | shEl script detecta tu arquitectura (x86_64 o ARM64), instala el servicio de Ollama y configura el entorno para detección de GPU. Ollama corre como un servicio en segundo plano. Puedes verificar que está activo con este comando. Humai
sudo systemctl status ollamaEn macOS y Windows, descarga el instalador desde ollama.com y sigue el proceso estándar de instalación de cualquier aplicación.
Una vez instalado, descarga tu primer modelo:
# El mejor punto de partida para casi cualquier hardware
ollama pull qwen3:4b
# Si tienes 8 GB de VRAM o 16+ GB de RAM
ollama pull qwen3:8b
# Para codificación, con 12+ GB de VRAM
ollama pull qwen3-coderPaso 2: Instalar Open WebUI para tener una interfaz visual
Por defecto, Ollama solo funciona por terminal. Open WebUI añade una interfaz visual idéntica a ChatGPT que puedes usar desde cualquier navegador de tu red.
Open WebUI es el estándar en 2026. Corre en un contenedor Docker y se conecta a tu API local de Ollama. Humai
Si tienes Docker instalado (en Linux puedes instalarlo con apt install docker.io), el comando es:
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainUna vez activo, accede a tu IA privada local en http://localhost:3000 desde cualquier navegador del servidor. El flag --restart always hace que Open WebUI arranque automáticamente cada vez que el servidor se reinicia. Humai
Paso 3: Hacer el servidor accesible a todos los dispositivos de tu red
Por defecto, Ollama solo escucha en localhost — solo el propio ordenador puede usarlo. Para que otros dispositivos de tu red doméstica puedan conectarse, hay que cambiarlo.
En Linux (edita el servicio de systemd):
sudo systemctl edit ollama.serviceAñade estas líneas en el editor que se abre:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"Guarda y reinicia el servicio:
sudo systemctl daemon-reload
sudo systemctl restart ollamaEn Windows: abre «Variables de entorno» en la configuración del sistema, crea una nueva variable de usuario llamada OLLAMA_HOST con el valor 0.0.0.0, y reinicia Ollama.
En macOS: abre la aplicación de Ollama desde la barra de menú, ve a preferencias y configura el host a 0.0.0.0.
Una vez hecho esto, cualquier dispositivo en tu red WiFi puede acceder a la interfaz de Open WebUI en http://[IP-del-servidor]:3000. Para saber la IP de tu servidor:
# En Linux/Mac
ip addr show | grep "inet "
# En Windows
ipconfigBusca la dirección que empiece por 192.168. — esa es la IP de tu servidor en la red local.
Paso 4: Acceder desde fuera de casa con Tailscale
Acceder al servidor desde tu red WiFi local es sencillo. Acceder desde el móvil en la calle o desde el portátil en el trabajo requiere un paso más: Tailscale.
Tailscale es una VPN en malla construida sobre WireGuard. Lo instalas en cada dispositivo que quieres conectar, inicias sesión con una cuenta de Google o GitHub, y esos dispositivos pueden comunicarse directamente a través de un túnel cifrado, independientemente de dónde estén. Un portátil en una cafetería puede llegar a un servidor doméstico igual de fácil que si estuviera en la misma WiFi. Plugins for Cowork
Para Ollama, esto significa que puedes ejecutar modelos grandes en un servidor doméstico con una GPU adecuada y usarlos desde cualquiera de tus dispositivos sin que el modelo esté en ese dispositivo. Tu app de IA del teléfono habla con el Ollama de tu servidor. Los scripts de tu portátil del trabajo usan tu GPU doméstica. Todo cifrado, todo privado. Tailscale es gratuito para uso personal con hasta 100 dispositivos. Plugins for Cowork
La instalación es sencilla:
# En Linux (servidor)
curl -fsSL https://tailscale.com/install.sh | sh
sudo tailscale up
# Sigue el enlace que aparece para autenticarte
# Tu servidor aparece en el panel de Tailscale con una IP 100.x.x.xEn el móvil o el portátil, descarga la app de Tailscale desde la tienda correspondiente e inicia sesión con la misma cuenta. A partir de ahí, puedes acceder a Open WebUI en http://[IP-tailscale-del-servidor]:3000 desde cualquier lugar del mundo.
Los modelos recomendados para un servidor doméstico en 2026
Los modelos más recomendados para hardware doméstico en 2026 son Qwen3 de Alibaba como el mejor equilibrio general, disponible desde 0,6B hasta 235B parámetros. El modelo de 8B supera a Llama 3.1 70B en la mayoría de tareas necesitando una fracción de la VRAM. Llama 4 Scout de Meta es un modelo de mezcla de expertos de 17B donde solo una parte de los parámetros se activa por inferencia, lo que lo hace sorprendentemente eficiente. OpenAI Help Center
Solución de problemas más frecuentes
Otro dispositivo no puede conectarse. Verifica que Ollama está escuchando en todas las interfaces:
ss -tlnp | grep 11434
# Debe mostrar 0.0.0.0:11434, no 127.0.0.1:11434Si muestra 127.0.0.1 en lugar de 0.0.0.0, la variable de entorno no se aplicó correctamente. Repite el paso de configuración y reinicia el servicio. OpenAI Help Center
El modelo va lento y no usa la GPU. Ejecuta esto para verificar:
ollama run qwen3:8b --verbose 2>&1 | grep -i "gpu layers"Si muestra gpu layers: 0 significa que Ollama no está usando la GPU. Las causas más comunes son controladores NVIDIA no instalados o Ollama instalado antes que los controladores. La solución es instalar los drivers correctos y reinstalar Ollama. OpenAI Help Center
El modelo no cabe en la VRAM. Usa una versión más cuantizada:
# En lugar del modelo estándar
ollama pull qwen3:14b
# Prueba la versión Q4 cuantizada (mitad de VRAM, calidad similar)
ollama pull qwen3:14b-q4_K_MLo que puedes hacer una vez que está montado
Cada miembro de la familia accede a la IA desde su propio dispositivo a través de Open WebUI. Los niños la usan para ayuda con los deberes, los adultos para escritura e investigación, todos para respuestas rápidas. Privacidad completa: ninguna conversación sale de casa. IBM
Pero hay usos menos obvios que también funcionan muy bien. Open WebUI puede integrarse con Home Assistant para que el asistente de domótica de casa use tu modelo local. Puedes configurar qué dispositivos controla y qué entidades puede ver. sunpeak
También puedes usar el servidor para automatizaciones en scripts:
# Resumir un archivo de texto desde cualquier ordenador de la red
curl http://192.168.1.100:11434/api/generate \
-d '{"model":"qwen3:8b","prompt":"Resume esto en 3 puntos: '"$(cat informe.txt)"'","stream":false}'El coste real de tener tu propia IA
El coste estimado de electricidad de un servidor con GPU activo cuatro horas al día e inactivo el resto es de aproximadamente 0,15 dólares por kWh. El Mac Mini, con su eficiencia energética, cuesta aproximadamente una sexta parte de eso. IBM
Sumando electricidad y hardware amortizado en dos años, el coste mensual de un servidor doméstico de gama media está entre 15 y 25 euros. Por el precio de una suscripción a Claude Pro o ChatGPT Plus, tienes un servidor propio sin límites de uso, sin datos que salen de casa y accesible desde cualquier dispositivo de tu familia.
No es para todo el mundo. Si usas la IA ocasionalmente o necesitas los modelos más potentes del mercado, una suscripción estándar tiene más sentido. Pero si la privacidad importa, si hay varias personas en casa que la usarían, o si ya tienes un ordenador que podría hacer de servidor, el cálculo cambia rápidamente.
Seguir leyendo
NuevoGuía de Gemini Spark: qué es, cómo activarlo y qué puede hacer el agente 24/7 de Google
Gemini Spark actúa mientras no estás mirando: revisa tu Gmail, completa tareas entre apps y programa acciones autónomas. Esta guía explica qué lo diferencia de un chatbot, cómo activarlo y qué configurar primero.

Prompt engineering avanzado: guía completa para escribir instrucciones que realmente funcionan
Las técnicas avanzadas de prompting mejoran los resultados entre un 20% y un 60%. Esta guía explica las que más importan en 2026, con ejemplos reales y plantillas listas para copiar y adaptar.

Guía de Open WebUI: cómo tener tu propio ChatGPT privado y gratuito en 2026
Open WebUI convierte cualquier modelo local ejecutado con Ollama en una interfaz visual idéntica a ChatGPT, con historial, RAG, voz y multiusuario. Esta guía explica cómo instalarlo y sacarle partido real.