ChatGPT privado con gpt-oss en local: cero datos fuera, cero suscripción, cumplimiento del AI Act
gpt-oss: el primer modelo open-weight de OpenAI, Apache 2.0, cero datos fuera. Esta guía explica cómo montarlo en una tarde, qué obligaciones del AI Act cubre y cuándo tiene más sentido que la API de OpenAI.

En agosto de 2025, OpenAI hizo algo que no había hecho desde que publicó GPT-2 en 2019: publicó los pesos de un modelo bajo una licencia que cualquiera puede usar libremente. Los pesos de gpt-oss-120b y gpt-oss-20b están disponibles para descarga gratuita en Hugging Face bajo la licencia Apache 2.0. Esto permite el uso comercial irrestricto, la modificación y la redistribución. Bloomberg
La licencia Apache 2.0 no es un detalle menor. Es la diferencia entre «puedes usar esto con condiciones que pueden cambiar mañana» y «puedes usar esto, modificarlo, incluirlo en tu producto y construir tu negocio sobre él sin pedir permiso a nadie». Para las empresas europeas que necesitan certeza regulatoria, esa diferencia es exactamente lo que separa un modelo que pueden desplegar con tranquilidad de uno que genera riesgo legal.
Pero la licencia es solo el primer motivo para mirar gpt-oss. El segundo es el rendimiento. gpt-oss-20b tiene un rendimiento similar a OpenAI o3-mini en benchmarks comunes y puede correr en dispositivos edge con solo 16 GB de memoria, ideal para uso en dispositivo, inferencia local o iteración rápida sin infraestructura costosa. No es un modelo de segunda fila que se corre en local como consolación. Es el modelo más capaz que OpenAI ha publicado abiertamente, y corre en hardware que ya tienes o puedes comprar por menos de 1.000 euros. Crescendo AI
Esta guía explica cómo montarlo, qué dice el AI Act europeo al respecto y cuándo tiene más sentido que seguir pagando por la API de ChatGPT.
Los dos modelos: cuál elegir según tu hardware y caso de uso
OpenAI lanzó gpt-oss-120b y gpt-oss-20b — dos modelos de lenguaje de última generación que ofrecen un rendimiento fuerte en el mundo real a bajo coste. Disponibles bajo la licencia flexible Apache 2.0, superan a modelos de tamaño similar en tareas de razonamiento, demuestran capacidades fuertes de uso de herramientas, y están optimizados para despliegue eficiente en hardware de consumidor. Crescendo AI
Los dos modelos usan arquitectura Mixture of Experts (MoE), la misma que hace eficientes a Qwen3 y DeepSeek V4: tienen muchos más parámetros totales que los que activan en cada inferencia, lo que permite tener capacidad de razonamiento de un modelo grande con el coste de inferencia de uno pequeño.
Para la mayoría de casos de uso individuales y de equipos pequeños, gpt-oss-20b es la elección correcta. Corre en cualquier Mac con Apple Silicon y 16 GB de RAM, en un PC de gama media con GPU discreta reciente, o en cualquier servidor de empresa sin hardware especializado. La diferencia de rendimiento respecto al 120b existe en tareas muy complejas, pero para el 90% del trabajo cotidiano — redacción, análisis de documentos, código, resúmenes — el 20b es más que suficiente.
Qué dice el AI Act europeo y cómo te afecta
Antes de entrar en la instalación, conviene entender por qué el AI Act hace que el despliegue local sea relevante más allá de la privacidad de los datos.
El AI Act europeo entró en plena aplicación en 2026. Sus obligaciones más relevantes para las empresas que usan IA en sus operaciones se concentran en tres áreas: transparencia sobre los sistemas de IA que usan, control sobre los datos que procesan esos sistemas, y responsabilidad cuando los sistemas cometen errores.
El punto crítico que muchos equipos legales están señalando en 2026: cuando un abogado corporativo, un médico o un gestor de RRHH usa la API de ChatGPT para analizar un documento que contiene datos personales, ese dato sale de la UE si el procesamiento ocurre en servidores americanos. Incluso con DPA firmado, el riesgo de transferencia internacional de datos bajo el RGPD es real y sujeto a auditoría.
Con gpt-oss en local, ese riesgo desaparece estructuralmente. No porque hayas firmado mejores contratos, sino porque el dato nunca sale de tu máquina.
Instalación completa con Ollama: de cero a funcionando en 15 minutos
La forma más rápida de tener gpt-oss corriendo es con Ollama, que gestiona la descarga, el almacenamiento y el servicio del modelo con una interfaz de línea de comandos mínima.
Requisito mínimo: 16 GB de RAM (macOS, Linux o Windows). Para GPU NVIDIA, instala los drivers actualizados antes de empezar.
Paso 1: Instalar Ollama
# macOS y Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: descarga el instalador desde ollama.comOllama instala un servicio en segundo plano que arranca automáticamente y sirve los modelos en http://localhost:11434.
Paso 2: Descargar y ejecutar gpt-oss-20b
ollama run openai/gpt-oss-20bEste único comando descarga el modelo (~11 GB en formato MXFP4 optimizado), lo almacena localmente y abre una sesión de chat en el terminal. La descarga ocurre solo la primera vez; los arranques posteriores son instantáneos.
Para el 120b (requiere 80 GB VRAM):
ollama run openai/gpt-oss-120bPaso 3: Verificar que el servidor API está activo
Ollama expone automáticamente una API compatible con el formato de OpenAI en localhost. Verifica que funciona:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer cualquier-texto" \
-d '{
"model": "openai/gpt-oss-20b",
"messages": [{"role": "user", "content": "Hola, ¿estás funcionando?"}]
}'Si recibes una respuesta JSON con el mensaje del modelo, el servidor está operativo. A partir de aquí, cualquier aplicación que use la API de OpenAI puede redirigirse a este endpoint local cambiando solo la URL base y la clave de API.
Añadir la interfaz visual: Open WebUI en cinco minutos más
El terminal es suficiente para pruebas. Para uso diario, especialmente si el sistema va a usarlo más de una persona, Open WebUI proporciona una interfaz idéntica a ChatGPT que funciona desde el navegador.
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
-e OPENAI_API_KEY=local \
-e OPENAI_API_BASE_URL=http://host.docker.internal:11434/v1 \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainAbre http://localhost:3000 en el navegador. La primera vez te pedirá crear una cuenta de administrador local. Desde ese momento tienes una interfaz completa con historial de conversaciones, subida de documentos, selección de modelo y gestión multiusuario — todo funcionando exclusivamente en tu máquina.
Integrar gpt-oss en tus aplicaciones existentes
Una de las ventajas más prácticas de gpt-oss corriendo con Ollama es que la API es compatible con el formato de OpenAI. Cualquier código, herramienta o servicio que use la SDK de OpenAI puede redirigirse al modelo local con dos cambios:
# Antes: API de OpenAI (datos salen a servidores externos)
from openai import OpenAI
client = OpenAI(api_key="sk-...")
# Después: gpt-oss en local (datos nunca salen de tu máquina)
from openai import OpenAI
client = OpenAI(
api_key="cualquier-texto", # Ollama no verifica la clave
base_url="http://localhost:11434/v1"
)
# El resto del código es idéntico
response = client.chat.completions.create(
model="openai/gpt-oss-20b",
messages=[{"role": "user", "content": "Analiza este contrato..."}]
)En n8n y Make, el cambio es igual de sencillo: en el nodo de OpenAI, reemplaza la URL base por http://tu-servidor-local:11434/v1 y cualquier texto como clave de API. Todos los flujos de automatización que tengas construidos siguen funcionando exactamente igual, pero el modelo que los sirve está en tu infraestructura.
El coste real: cuándo sale mejor que pagar la API
La pregunta que la mayoría de equipos hace es si vale la pena el esfuerzo de instalación frente a seguir pagando por la API. La respuesta depende del volumen de uso.
Configuración de producción para equipos: vLLM en lugar de Ollama
Ollama es perfecto para uso individual o equipos pequeños de dos o tres personas usando el sistema de forma no concurrente. Para equipos más grandes o para producción con múltiples usuarios simultáneos, Ollama tiene una limitación importante: no soporta batching continuo, lo que significa que las peticiones se procesan en cola una tras otra.
vLLM es la mejor opción para servir gpt-oss en producción para múltiples usuarios. Soporta batching continuo, cuantización FP8/MXFP4 y paralelismo tensorial. Ollama funciona bien para un único desarrollador probando gpt-oss localmente. No soporta batching continuo, así que las peticiones concurrentes se encolan. No uses Ollama para servir API de producción con más de 2-3 usuarios simultáneos. Federal News Network
Para equipos de más de tres personas, el stack de producción recomendado es:
# Instalar vLLM
pip install vllm
# Servir gpt-oss-20b con batching continuo
vllm serve openai/gpt-oss-20b \
--host 0.0.0.0 \
--port 8000 \
--dtype auto \
--max-model-len 32768La API queda expuesta en http://tu-servidor:8000/v1 con exactamente el mismo formato que Ollama y que la API de OpenAI. Open WebUI se conecta a este endpoint en lugar del de Ollama.
Usar gpt-oss para analizar documentos con datos sensibles
El caso de uso que más justifica el despliegue local en sectores regulados es el análisis de documentos que contienen datos personales o información confidencial: contratos con datos de clientes, historiales médicos, expedientes de RRHH, informes financieros internos.
Con el setup completo de Ollama + Open WebUI, el flujo es:
- Abres Open WebUI en el navegador
- Subes el documento directamente en el chat (PDF, Word, Excel)
- Haces la pregunta sobre el documento
- Open WebUI indexa el documento localmente con su sistema RAG integrado
- gpt-oss-20b responde usando el contenido del documento como contexto
Todo ocurre en tu máquina. El documento nunca sale. El modelo nunca ve tus datos más allá de la RAM de tu ordenador durante el procesamiento.
Para documentos muy largos o colecciones de documentos que quieres consultar de forma persistente, Open WebUI incluye un sistema de «Knowledge» que indexa los documentos y los mantiene disponibles entre sesiones. Es el equivalente a los Projects de Claude o a los GPTs de OpenAI, pero corriendo completamente en local.
Las limitaciones que conviene conocer antes de empezar
La honestidad sobre lo que gpt-oss no puede hacer es tan importante como explicar lo que sí puede.
Sin multimodalidad. Para quienes buscan soporte multimodal, herramientas integradas e integración fluida con la plataforma de OpenAI, los modelos disponibles a través de la API siguen siendo la mejor opción. gpt-oss-20b y 120b son modelos de texto puro. No analizan imágenes, no generan imágenes, no transcriben audio. Para esas capacidades, necesitas modelos adicionales o la API externa. Taiwan News
Sin soporte oficial de OpenAI. Los despliegues de open-weight son autogestionados y autoservicio. OpenAI no proporciona asistencia, implementación práctica ni soporte de depuración para ninguna configuración, entorno o aplicación autoalojada o alojada por terceros. Si algo no funciona, la comunidad de Hugging Face y los rastreadores de issues de GitHub son el canal de soporte. Google Cloud
El 120b requiere hardware serio. Para correr el modelo grande en local necesitas una GPU de 80 GB de VRAM — actualmente una H100 de datacenter. Para la mayoría de casos de uso, el 20b es suficiente. Si necesitas el 120b, la opción más práctica es alquilar una instancia GPU en Spheron, RunPod o Lambda Labs por horas, no comprar el hardware.
Velocidad menor que la API en hardware de consumidor. En un Mac M4 con 16 GB de RAM, gpt-oss-20b genera entre 10 y 20 tokens por segundo — suficiente para uso interactivo, pero más lento que la API de OpenAI que suele generar 60-100 tokens por segundo. Para tareas que requieren procesar grandes volúmenes de texto rápidamente, el coste de la API puede justificarse por la velocidad.
El escenario híbrido que más sentido tiene para la mayoría de empresas
La elección entre gpt-oss local y la API de OpenAI no tiene por qué ser binaria. El modelo de despliegue que más valor genera para la mayoría de empresas en 2026 combina los dos según el tipo de tarea.
Las tareas que involucran datos sensibles — análisis de contratos con datos de clientes, procesamiento de expedientes de RRHH, revisión de informes financieros internos — van al modelo local. El dato nunca sale, el cumplimiento regulatorio está garantizado estructuralmente y el coste a largo plazo es cero.
Las tareas que no involucran datos sensibles pero requieren capacidades que el modelo local no tiene — análisis de imágenes, generación de contenido multimedia, integración con herramientas de la plataforma de OpenAI — van a la API externa. El dato que sale es información que ya era pública o que no genera riesgo regulatorio.
El resultado es un sistema donde el RGPD y el AI Act están cubiertos para las tareas que importan, sin sacrificar acceso a las capacidades que solo los modelos externos tienen. Y con gpt-oss-20b corriendo en local, la calidad para las tareas de texto puro es genuinamente buena — no es un compromiso de calidad para ganar privacidad, es privacidad sin perder calidad.
Fuentes
Seguir leyendo
NuevoRecepcionista de IA para clínicas, talleres y gestorías: no pierdas otra llamada nunca más
Cada llamada perdida es un cliente que llama al siguiente. Esta guía explica cómo montar un recepcionista de voz con IA que atiende 24/7, agenda citas y transfiere urgencias por menos de lo que cuesta una hora de trabajo

OpenClaw en WhatsApp: monta tu asistente de IA personal en una tarde
OpenClaw convierte WhatsApp en tu asistente de IA personal. Sin apps nuevas, sin suscripciones, con el modelo que prefieras. Guía completa: instalación, conexión por QR y configuración para ser útil desde el primer día.

Anthropic lanzó Claude Tag: el compañero de equipo permanente que vive en Slack
Claude Tag es un compañero permanente en Slack: etiqueta @Claude, asígnale tareas y desconéctate. El 65% del código del equipo de producto de Anthropic ya lo genera. Beta para Enterprise y Team desde ayer.