Herramientas

Cómo montar un servidor de IA en casa y usarlo desde cualquier dispositivo

Privacidad total, sin límites de uso y sin suscripciones. Esta guía explica qué hardware necesitas, cómo montar el servidor con Ollama y Open WebUI y cómo acceder desde cualquier dispositivo de tu casa.

G
Gonzalo· Fundador
· 7 min de lectura
IA Local

Cada vez que le preguntas algo a ChatGPT o a Claude, esa conversación viaja a un servidor de una empresa americana, se procesa allí y vuelve a tu pantalla. Tus preguntas, tus documentos, tus proyectos. Todo pasa por fuera.

Un servidor de IA en casa cambia eso completamente. El modelo corre en tu hardware. Las conversaciones no salen de tu red. No hay suscripción mensual. No hay límites de uso. Y si lo configuras bien, puedes acceder a él desde el móvil, el portátil del trabajo o cualquier otro dispositivo, exactamente igual que usarías ChatGPT pero desde tu propia máquina.

Esta guía explica cómo montarlo desde cero.

La diferencia entre usar IA local en tu PC y tener un servidor

Ejecutar Ollama en tu ordenador de trabajo es útil. Pero tiene dos problemas: ocupa recursos mientras lo tienes abierto, y solo puedes usarlo desde ese ordenador.

Un servidor de IA en casa es una máquina dedicada que ejecuta modelos de IA las 24 horas y los sirve a todos los dispositivos de tu red: tu portátil, tu teléfono, tu tablet. En lugar de ejecutar Ollama en tu escritorio, que ocupa tu estación de trabajo y se detiene cuando lo apagas, tienes IA siempre disponible a la que cualquier dispositivo puede acceder instantáneamente. Es como un NAS doméstico, pero para inferencia de IA en lugar de almacenamiento de archivos. IBM

La diferencia práctica es enorme. Tu pareja puede usar la IA desde su portátil. Tus hijos desde el iPad para los deberes. Tú desde el móvil mientras estás en el sofá. Todo apuntando al mismo servidor, con los mismos modelos, sin que nadie pague nada extra.

Qué hardware necesitas según tu presupuesto

No hace falta construir una máquina desde cero. Cualquier ordenador que ya tengas puede funcionar como servidor, dependiendo de qué modelos quieras ejecutar.

Nivel Hardware Modelos que corre bien Velocidad aprox. Coste estimado
EntradaPC viejo + 16 GB RAM (sin GPU)Qwen3 4B, Phi-4 Mini3-8 tokens/segLo que ya tienes
MedioPC + RTX 3060 12 GB VRAMQwen3 8B, Llama 4 Scout25-40 tokens/seg200-400 €
AvanzadoPC + RTX 3090 24 GB VRAMModelos 32B, DeepSeek R125-35 tokens/seg700-900 €
EficienteMac Mini M4 (16-32 GB RAM)Qwen3 8B-14B, Llama 420-35 tokens/seg600-900 €

La eficiencia energética del Mac Mini es llamativa: aproximadamente una sexta parte del coste de electricidad de un servidor con GPU. Si el consumo eléctrico importa a largo plazo, Apple Silicon es la opción más económica para un servidor siempre encendido. IBM

Lo que sí necesitas independientemente del hardware: conexión por cable Ethernet al router (no WiFi para el servidor), al menos 1 TB de almacenamiento para los modelos, y que el ordenador pueda quedarse encendido sin que nadie lo use.

Paso 1: Instalar Ollama en el servidor

Ollama es el programa que gestiona la descarga y ejecución de los modelos. La instalación es un solo comando.

Ollama corre en Linux, macOS y Windows. En Linux, que es el sistema operativo más común para servidores domésticos, la instalación completa es este único comando en la terminal.

curl -fsSL https://ollama.com/install.sh | sh

El script detecta tu arquitectura (x86_64 o ARM64), instala el servicio de Ollama y configura el entorno para detección de GPU. Ollama corre como un servicio en segundo plano. Puedes verificar que está activo con este comando. Humai

sudo systemctl status ollama

En macOS y Windows, descarga el instalador desde ollama.com y sigue el proceso estándar de instalación de cualquier aplicación.

Una vez instalado, descarga tu primer modelo:

# El mejor punto de partida para casi cualquier hardware
ollama pull qwen3:4b

# Si tienes 8 GB de VRAM o 16+ GB de RAM
ollama pull qwen3:8b

# Para codificación, con 12+ GB de VRAM
ollama pull qwen3-coder

Paso 2: Instalar Open WebUI para tener una interfaz visual

Por defecto, Ollama solo funciona por terminal. Open WebUI añade una interfaz visual idéntica a ChatGPT que puedes usar desde cualquier navegador de tu red.

Open WebUI es el estándar en 2026. Corre en un contenedor Docker y se conecta a tu API local de Ollama. Humai

Si tienes Docker instalado (en Linux puedes instalarlo con apt install docker.io), el comando es:

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Una vez activo, accede a tu IA privada local en http://localhost:3000 desde cualquier navegador del servidor. El flag --restart always hace que Open WebUI arranque automáticamente cada vez que el servidor se reinicia. Humai

Paso 3: Hacer el servidor accesible a todos los dispositivos de tu red

Por defecto, Ollama solo escucha en localhost — solo el propio ordenador puede usarlo. Para que otros dispositivos de tu red doméstica puedan conectarse, hay que cambiarlo.

En Linux (edita el servicio de systemd):

sudo systemctl edit ollama.service

Añade estas líneas en el editor que se abre:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

Guarda y reinicia el servicio:

sudo systemctl daemon-reload
sudo systemctl restart ollama

En Windows: abre «Variables de entorno» en la configuración del sistema, crea una nueva variable de usuario llamada OLLAMA_HOST con el valor 0.0.0.0, y reinicia Ollama.

En macOS: abre la aplicación de Ollama desde la barra de menú, ve a preferencias y configura el host a 0.0.0.0.

Una vez hecho esto, cualquier dispositivo en tu red WiFi puede acceder a la interfaz de Open WebUI en http://[IP-del-servidor]:3000. Para saber la IP de tu servidor:

# En Linux/Mac
ip addr show | grep "inet "

# En Windows
ipconfig

Busca la dirección que empiece por 192.168. — esa es la IP de tu servidor en la red local.

1
Instala Ollama en el servidor
Un solo comando en Linux. Instalador visual en Mac y Windows. Descarga el modelo que quieras con ollama pull nombre-modelo.
2
Instala Open WebUI con Docker
Interfaz visual accesible desde cualquier navegador. Un solo comando de Docker lo pone en marcha y lo mantiene activo con reinicios automáticos.
3
Configura Ollama para escuchar en red
Cambia la variable de entorno OLLAMA_HOST a 0.0.0.0. A partir de aquí, todos los dispositivos de tu WiFi pueden conectarse.
4
Instala Tailscale para acceso desde fuera de casa
VPN gratuita que conecta tus dispositivos en una red privada cifrada. Funciona en el móvil, el portátil del trabajo y cualquier otro dispositivo.

Paso 4: Acceder desde fuera de casa con Tailscale

Acceder al servidor desde tu red WiFi local es sencillo. Acceder desde el móvil en la calle o desde el portátil en el trabajo requiere un paso más: Tailscale.

Tailscale es una VPN en malla construida sobre WireGuard. Lo instalas en cada dispositivo que quieres conectar, inicias sesión con una cuenta de Google o GitHub, y esos dispositivos pueden comunicarse directamente a través de un túnel cifrado, independientemente de dónde estén. Un portátil en una cafetería puede llegar a un servidor doméstico igual de fácil que si estuviera en la misma WiFi. Plugins for Cowork

Para Ollama, esto significa que puedes ejecutar modelos grandes en un servidor doméstico con una GPU adecuada y usarlos desde cualquiera de tus dispositivos sin que el modelo esté en ese dispositivo. Tu app de IA del teléfono habla con el Ollama de tu servidor. Los scripts de tu portátil del trabajo usan tu GPU doméstica. Todo cifrado, todo privado. Tailscale es gratuito para uso personal con hasta 100 dispositivos. Plugins for Cowork

La instalación es sencilla:

# En Linux (servidor)
curl -fsSL https://tailscale.com/install.sh | sh
sudo tailscale up

# Sigue el enlace que aparece para autenticarte
# Tu servidor aparece en el panel de Tailscale con una IP 100.x.x.x

En el móvil o el portátil, descarga la app de Tailscale desde la tienda correspondiente e inicia sesión con la misma cuenta. A partir de ahí, puedes acceder a Open WebUI en http://[IP-tailscale-del-servidor]:3000 desde cualquier lugar del mundo.

Importante sobre seguridad: No expongas el puerto 11434 de Ollama ni el 3000 de Open WebUI directamente a internet sin autenticación. Una instancia de Ollama expuesta puede ser usada por cualquiera para correr inferencia en tu hardware. Usa siempre Tailscale o una VPN equivalente para el acceso remoto. Nunca abras esos puertos en el router.

Los modelos recomendados para un servidor doméstico en 2026

Los modelos más recomendados para hardware doméstico en 2026 son Qwen3 de Alibaba como el mejor equilibrio general, disponible desde 0,6B hasta 235B parámetros. El modelo de 8B supera a Llama 3.1 70B en la mayoría de tareas necesitando una fracción de la VRAM. Llama 4 Scout de Meta es un modelo de mezcla de expertos de 17B donde solo una parte de los parámetros se activa por inferencia, lo que lo hace sorprendentemente eficiente. OpenAI Help Center

Modelo Comando Ollama VRAM mínima Mejor para
Qwen3 4Bollama pull qwen3:4b4 GB / CPUUso general ligero, empezar
Qwen3 8Bollama pull qwen3:8b8 GB VRAMMejor equilibrio calidad/velocidad
Llama 4 Scoutollama pull llama4:scout12 GB VRAMUso general de alta calidad
Qwen3 Coderollama pull qwen3-coder12 GB VRAMProgramación y código
DeepSeek R1 32Bollama pull deepseek-r1:32b24 GB VRAMRazonamiento complejo

Solución de problemas más frecuentes

Otro dispositivo no puede conectarse. Verifica que Ollama está escuchando en todas las interfaces:

ss -tlnp | grep 11434
# Debe mostrar 0.0.0.0:11434, no 127.0.0.1:11434

Si muestra 127.0.0.1 en lugar de 0.0.0.0, la variable de entorno no se aplicó correctamente. Repite el paso de configuración y reinicia el servicio. OpenAI Help Center

El modelo va lento y no usa la GPU. Ejecuta esto para verificar:

ollama run qwen3:8b --verbose 2>&1 | grep -i "gpu layers"

Si muestra gpu layers: 0 significa que Ollama no está usando la GPU. Las causas más comunes son controladores NVIDIA no instalados o Ollama instalado antes que los controladores. La solución es instalar los drivers correctos y reinstalar Ollama. OpenAI Help Center

El modelo no cabe en la VRAM. Usa una versión más cuantizada:

# En lugar del modelo estándar
ollama pull qwen3:14b

# Prueba la versión Q4 cuantizada (mitad de VRAM, calidad similar)
ollama pull qwen3:14b-q4_K_M

Lo que puedes hacer una vez que está montado

Cada miembro de la familia accede a la IA desde su propio dispositivo a través de Open WebUI. Los niños la usan para ayuda con los deberes, los adultos para escritura e investigación, todos para respuestas rápidas. Privacidad completa: ninguna conversación sale de casa. IBM

Pero hay usos menos obvios que también funcionan muy bien. Open WebUI puede integrarse con Home Assistant para que el asistente de domótica de casa use tu modelo local. Puedes configurar qué dispositivos controla y qué entidades puede ver. sunpeak

También puedes usar el servidor para automatizaciones en scripts:

# Resumir un archivo de texto desde cualquier ordenador de la red
curl http://192.168.1.100:11434/api/generate \
  -d '{"model":"qwen3:8b","prompt":"Resume esto en 3 puntos: '"$(cat informe.txt)"'","stream":false}'
Por dónde empezar si tienes un PC viejo en casa: Instala Ubuntu Server en él, ejecuta el comando de instalación de Ollama, descarga Qwen3 4B y accede a Open WebUI desde tu portátil. Todo el proceso lleva menos de una hora y no requiere conocimientos técnicos avanzados. Si funciona bien, ya puedes decidir si merece la pena invertir en una GPU.

El coste real de tener tu propia IA

El coste estimado de electricidad de un servidor con GPU activo cuatro horas al día e inactivo el resto es de aproximadamente 0,15 dólares por kWh. El Mac Mini, con su eficiencia energética, cuesta aproximadamente una sexta parte de eso. IBM

Sumando electricidad y hardware amortizado en dos años, el coste mensual de un servidor doméstico de gama media está entre 15 y 25 euros. Por el precio de una suscripción a Claude Pro o ChatGPT Plus, tienes un servidor propio sin límites de uso, sin datos que salen de casa y accesible desde cualquier dispositivo de tu familia.

No es para todo el mundo. Si usas la IA ocasionalmente o necesitas los modelos más potentes del mercado, una suscripción estándar tiene más sentido. Pero si la privacidad importa, si hay varias personas en casa que la usarían, o si ya tienes un ordenador que podría hacer de servidor, el cálculo cambia rápidamente.

EtiquetasIA localOllamaLLM localPrivacidadOpen WebUI

Seguir leyendo