ChatGPT privado con gpt-oss en local: cero datos fuera, cero suscripción, cumplimiento del AI Act

gpt-oss: el primer modelo open-weight de OpenAI, Apache 2.0, cero datos fuera. Esta guía explica cómo montarlo en una tarde, qué obligaciones del AI Act cubre y cuándo tiene más sentido que la API de OpenAI.

Gonzalo· Fundador

26 de junio de 2026 · 9 min de lectura

En agosto de 2025, OpenAI hizo algo que no había hecho desde que publicó GPT-2 en 2019: publicó los pesos de un modelo bajo una licencia que cualquiera puede usar libremente. Los pesos de gpt-oss-120b y gpt-oss-20b están disponibles para descarga gratuita en Hugging Face bajo la licencia Apache 2.0. Esto permite el uso comercial irrestricto, la modificación y la redistribución. Bloomberg

La licencia Apache 2.0 no es un detalle menor. Es la diferencia entre «puedes usar esto con condiciones que pueden cambiar mañana» y «puedes usar esto, modificarlo, incluirlo en tu producto y construir tu negocio sobre él sin pedir permiso a nadie». Para las empresas europeas que necesitan certeza regulatoria, esa diferencia es exactamente lo que separa un modelo que pueden desplegar con tranquilidad de uno que genera riesgo legal.

Pero la licencia es solo el primer motivo para mirar gpt-oss. El segundo es el rendimiento. gpt-oss-20b tiene un rendimiento similar a OpenAI o3-mini en benchmarks comunes y puede correr en dispositivos edge con solo 16 GB de memoria, ideal para uso en dispositivo, inferencia local o iteración rápida sin infraestructura costosa. No es un modelo de segunda fila que se corre en local como consolación. Es el modelo más capaz que OpenAI ha publicado abiertamente, y corre en hardware que ya tienes o puedes comprar por menos de 1.000 euros. Crescendo AI

Esta guía explica cómo montarlo, qué dice el AI Act europeo al respecto y cuándo tiene más sentido que seguir pagando por la API de ChatGPT.

Los dos modelos: cuál elegir según tu hardware y caso de uso

OpenAI lanzó gpt-oss-120b y gpt-oss-20b — dos modelos de lenguaje de última generación que ofrecen un rendimiento fuerte en el mundo real a bajo coste. Disponibles bajo la licencia flexible Apache 2.0, superan a modelos de tamaño similar en tareas de razonamiento, demuestran capacidades fuertes de uso de herramientas, y están optimizados para despliegue eficiente en hardware de consumidor. Crescendo AI

Los dos modelos usan arquitectura Mixture of Experts (MoE), la misma que hace eficientes a Qwen3 y DeepSeek V4: tienen muchos más parámetros totales que los que activan en cada inferencia, lo que permite tener capacidad de razonamiento de un modelo grande con el coste de inferencia de uno pequeño.

Característica	gpt-oss-20b	gpt-oss-120b
Parámetros totales / activos	21B / 3.6B activos	117B / 5.1B activos
RAM/VRAM mínima	16 GB	80 GB (1× H100)
Hardware accesible	MacBook Pro M3/M4, PC gaming con 16 GB RAM	Servidor con H100, cloud GPU
Rendimiento equivalente	Similar a o3-mini	Próximo a o4-mini
Peso del archivo (MXFP4)	~11 GB	~80 GB
Licencia	Apache 2.0	Apache 2.0

Para la mayoría de casos de uso individuales y de equipos pequeños, gpt-oss-20b es la elección correcta. Corre en cualquier Mac con Apple Silicon y 16 GB de RAM, en un PC de gama media con GPU discreta reciente, o en cualquier servidor de empresa sin hardware especializado. La diferencia de rendimiento respecto al 120b existe en tareas muy complejas, pero para el 90% del trabajo cotidiano — redacción, análisis de documentos, código, resúmenes — el 20b es más que suficiente.

Qué dice el AI Act europeo y cómo te afecta

Antes de entrar en la instalación, conviene entender por qué el AI Act hace que el despliegue local sea relevante más allá de la privacidad de los datos.

El AI Act europeo entró en plena aplicación en 2026. Sus obligaciones más relevantes para las empresas que usan IA en sus operaciones se concentran en tres áreas: transparencia sobre los sistemas de IA que usan, control sobre los datos que procesan esos sistemas, y responsabilidad cuando los sistemas cometen errores.

AI Act: qué cambia según cómo despliegas el modelo

API de ChatGPT o Claude (modelo externo)

Los datos que envías al modelo salen de tu organización y se procesan en servidores de EE.UU. bajo la legislación americana. Necesitas un DPA (Data Processing Agreement) con el proveedor. Si procesas datos personales de empleados o clientes, el RGPD aplica a cada llamada a la API. Eres usuario del sistema de IA pero no tienes control sobre el modelo subyacente ni sobre cómo se actualiza.

gpt-oss en local o en tu servidor

Los datos nunca salen de tu infraestructura. No hay DPA con un tercero porque no hay procesamiento externo. El RGPD aplica solo a tu propia gestión de esos datos, que ya estabas obligado a gestionar correctamente. Controlas la versión del modelo, cuándo se actualiza y qué logs generas. Para sectores regulados (salud, legal, finanzas), eliminas el vector de riesgo de filtración vía API externa.

El punto crítico que muchos equipos legales están señalando en 2026: cuando un abogado corporativo, un médico o un gestor de RRHH usa la API de ChatGPT para analizar un documento que contiene datos personales, ese dato sale de la UE si el procesamiento ocurre en servidores americanos. Incluso con DPA firmado, el riesgo de transferencia internacional de datos bajo el RGPD es real y sujeto a auditoría.

Con gpt-oss en local, ese riesgo desaparece estructuralmente. No porque hayas firmado mejores contratos, sino porque el dato nunca sale de tu máquina.

Instalación completa con Ollama: de cero a funcionando en 15 minutos

La forma más rápida de tener gpt-oss corriendo es con Ollama, que gestiona la descarga, el almacenamiento y el servicio del modelo con una interfaz de línea de comandos mínima.

Requisito mínimo: 16 GB de RAM (macOS, Linux o Windows). Para GPU NVIDIA, instala los drivers actualizados antes de empezar.

Paso 1: Instalar Ollama

bash

# macOS y Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: descarga el instalador desde ollama.com

Ollama instala un servicio en segundo plano que arranca automáticamente y sirve los modelos en http://localhost:11434.

Paso 2: Descargar y ejecutar gpt-oss-20b

bash

ollama run openai/gpt-oss-20b

Este único comando descarga el modelo (~11 GB en formato MXFP4 optimizado), lo almacena localmente y abre una sesión de chat en el terminal. La descarga ocurre solo la primera vez; los arranques posteriores son instantáneos.

Para el 120b (requiere 80 GB VRAM):

bash

ollama run openai/gpt-oss-120b

Paso 3: Verificar que el servidor API está activo

Ollama expone automáticamente una API compatible con el formato de OpenAI en localhost. Verifica que funciona:

bash

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer cualquier-texto" \
  -d '{
    "model": "openai/gpt-oss-20b",
    "messages": [{"role": "user", "content": "Hola, ¿estás funcionando?"}]
  }'

Si recibes una respuesta JSON con el mensaje del modelo, el servidor está operativo. A partir de aquí, cualquier aplicación que use la API de OpenAI puede redirigirse a este endpoint local cambiando solo la URL base y la clave de API.

Añadir la interfaz visual: Open WebUI en cinco minutos más

El terminal es suficiente para pruebas. Para uso diario, especialmente si el sistema va a usarlo más de una persona, Open WebUI proporciona una interfaz idéntica a ChatGPT que funciona desde el navegador.

bash

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  -e OPENAI_API_KEY=local \
  -e OPENAI_API_BASE_URL=http://host.docker.internal:11434/v1 \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Abre http://localhost:3000 en el navegador. La primera vez te pedirá crear una cuenta de administrador local. Desde ese momento tienes una interfaz completa con historial de conversaciones, subida de documentos, selección de modelo y gestión multiusuario — todo funcionando exclusivamente en tu máquina.

Stack completo: lo que tienes cuando terminas

gpt-oss-20b vía Ollama

El modelo corriendo en local. Lleva el procesamiento. Acepta peticiones en la API compatible con OpenAI en localhost:11434. Cero datos salen de la máquina.

Open WebUI en Docker

Interfaz visual accesible desde el navegador en localhost:3000. Gestiona conversaciones, sube documentos y permite varios usuarios con cuentas separadas.

API compatible con OpenAI

Cualquier app que uses la API de OpenAI (LangChain, n8n, Make, código propio) puede redirigirse al modelo local cambiando solo la URL base. Sin cambiar nada más.

Integrar gpt-oss en tus aplicaciones existentes

Una de las ventajas más prácticas de gpt-oss corriendo con Ollama es que la API es compatible con el formato de OpenAI. Cualquier código, herramienta o servicio que use la SDK de OpenAI puede redirigirse al modelo local con dos cambios:

python

# Antes: API de OpenAI (datos salen a servidores externos)
from openai import OpenAI
client = OpenAI(api_key="sk-...")

# Después: gpt-oss en local (datos nunca salen de tu máquina)
from openai import OpenAI
client = OpenAI(
    api_key="cualquier-texto",  # Ollama no verifica la clave
    base_url="http://localhost:11434/v1"
)

# El resto del código es idéntico
response = client.chat.completions.create(
    model="openai/gpt-oss-20b",
    messages=[{"role": "user", "content": "Analiza este contrato..."}]
)

En n8n y Make, el cambio es igual de sencillo: en el nodo de OpenAI, reemplaza la URL base por http://tu-servidor-local:11434/v1 y cualquier texto como clave de API. Todos los flujos de automatización que tengas construidos siguen funcionando exactamente igual, pero el modelo que los sirve está en tu infraestructura.

El coste real: cuándo sale mejor que pagar la API

La pregunta que la mayoría de equipos hace es si vale la pena el esfuerzo de instalación frente a seguir pagando por la API. La respuesta depende del volumen de uso.

Comparativa de coste mensual: API externa vs local

API de OpenAI (o3-mini equivalente)

10M tokens/mes → ~18 €
50M tokens/mes → ~90 €
100M tokens/mes → ~180 €
500M tokens/mes → ~900 €

gpt-oss-20b en local (hardware ya disponible)

Cualquier volumen → 0 €
Sin límites de tasa
Sin límites de tokens
Coste único: hardware

💡 Punto de cruce: en uso moderado, self-hosting gpt-oss-20b en una A100 a 1,08 $/hora puede costar bien por debajo de 1 dólar por millón de tokens a más de 100 tokens/seg. El cruce respecto a pagar por la API llega alrededor de los 10 millones de tokens al mes en modo on-demand. Si ya tienes el hardware (un Mac con Apple Silicon, un servidor de empresa, un PC de gama media), el cruce es desde el primer token.

Configuración de producción para equipos: vLLM en lugar de Ollama

Ollama es perfecto para uso individual o equipos pequeños de dos o tres personas usando el sistema de forma no concurrente. Para equipos más grandes o para producción con múltiples usuarios simultáneos, Ollama tiene una limitación importante: no soporta batching continuo, lo que significa que las peticiones se procesan en cola una tras otra.

vLLM es la mejor opción para servir gpt-oss en producción para múltiples usuarios. Soporta batching continuo, cuantización FP8/MXFP4 y paralelismo tensorial. Ollama funciona bien para un único desarrollador probando gpt-oss localmente. No soporta batching continuo, así que las peticiones concurrentes se encolan. No uses Ollama para servir API de producción con más de 2-3 usuarios simultáneos. Federal News Network

Para equipos de más de tres personas, el stack de producción recomendado es:

bash

# Instalar vLLM
pip install vllm

# Servir gpt-oss-20b con batching continuo
vllm serve openai/gpt-oss-20b \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype auto \
  --max-model-len 32768

La API queda expuesta en http://tu-servidor:8000/v1 con exactamente el mismo formato que Ollama y que la API de OpenAI. Open WebUI se conecta a este endpoint en lugar del de Ollama.

Usar gpt-oss para analizar documentos con datos sensibles

El caso de uso que más justifica el despliegue local en sectores regulados es el análisis de documentos que contienen datos personales o información confidencial: contratos con datos de clientes, historiales médicos, expedientes de RRHH, informes financieros internos.

Con el setup completo de Ollama + Open WebUI, el flujo es:

Abres Open WebUI en el navegador
Subes el documento directamente en el chat (PDF, Word, Excel)
Haces la pregunta sobre el documento
Open WebUI indexa el documento localmente con su sistema RAG integrado
gpt-oss-20b responde usando el contenido del documento como contexto

Todo ocurre en tu máquina. El documento nunca sale. El modelo nunca ve tus datos más allá de la RAM de tu ordenador durante el procesamiento.

Para documentos muy largos o colecciones de documentos que quieres consultar de forma persistente, Open WebUI incluye un sistema de «Knowledge» que indexa los documentos y los mantiene disponibles entre sesiones. Es el equivalente a los Projects de Claude o a los GPTs de OpenAI, pero corriendo completamente en local.

Las limitaciones que conviene conocer antes de empezar

La honestidad sobre lo que gpt-oss no puede hacer es tan importante como explicar lo que sí puede.

Sin multimodalidad. Para quienes buscan soporte multimodal, herramientas integradas e integración fluida con la plataforma de OpenAI, los modelos disponibles a través de la API siguen siendo la mejor opción. gpt-oss-20b y 120b son modelos de texto puro. No analizan imágenes, no generan imágenes, no transcriben audio. Para esas capacidades, necesitas modelos adicionales o la API externa. Taiwan News

Sin soporte oficial de OpenAI. Los despliegues de open-weight son autogestionados y autoservicio. OpenAI no proporciona asistencia, implementación práctica ni soporte de depuración para ninguna configuración, entorno o aplicación autoalojada o alojada por terceros. Si algo no funciona, la comunidad de Hugging Face y los rastreadores de issues de GitHub son el canal de soporte. Google Cloud

El 120b requiere hardware serio. Para correr el modelo grande en local necesitas una GPU de 80 GB de VRAM — actualmente una H100 de datacenter. Para la mayoría de casos de uso, el 20b es suficiente. Si necesitas el 120b, la opción más práctica es alquilar una instancia GPU en Spheron, RunPod o Lambda Labs por horas, no comprar el hardware.

Velocidad menor que la API en hardware de consumidor. En un Mac M4 con 16 GB de RAM, gpt-oss-20b genera entre 10 y 20 tokens por segundo — suficiente para uso interactivo, pero más lento que la API de OpenAI que suele generar 60-100 tokens por segundo. Para tareas que requieren procesar grandes volúmenes de texto rápidamente, el coste de la API puede justificarse por la velocidad.

El escenario híbrido que más sentido tiene para la mayoría de empresas

La elección entre gpt-oss local y la API de OpenAI no tiene por qué ser binaria. El modelo de despliegue que más valor genera para la mayoría de empresas en 2026 combina los dos según el tipo de tarea.

Las tareas que involucran datos sensibles — análisis de contratos con datos de clientes, procesamiento de expedientes de RRHH, revisión de informes financieros internos — van al modelo local. El dato nunca sale, el cumplimiento regulatorio está garantizado estructuralmente y el coste a largo plazo es cero.

Las tareas que no involucran datos sensibles pero requieren capacidades que el modelo local no tiene — análisis de imágenes, generación de contenido multimedia, integración con herramientas de la plataforma de OpenAI — van a la API externa. El dato que sale es información que ya era pública o que no genera riesgo regulatorio.

El resultado es un sistema donde el RGPD y el AI Act están cubiertos para las tareas que importan, sin sacrificar acceso a las capacidades que solo los modelos externos tienen. Y con gpt-oss-20b corriendo en local, la calidad para las tareas de texto puro es genuinamente buena — no es un compromiso de calidad para ganar privacidad, es privacidad sin perder calidad.

Fuentes

EtiquetasProductividad Open source

Seguir leyendo

Nuevo

Herramientas

Recepcionista de IA para clínicas, talleres y gestorías: no pierdas otra llamada nunca más

Cada llamada perdida es un cliente que llama al siguiente. Esta guía explica cómo montar un recepcionista de voz con IA que atiende 24/7, agenda citas y transfiere urgencias por menos de lo que cuesta una hora de trabajo

Gonzalo25 jun

Herramientas

OpenClaw en WhatsApp: monta tu asistente de IA personal en una tarde

OpenClaw convierte WhatsApp en tu asistente de IA personal. Sin apps nuevas, sin suscripciones, con el modelo que prefieras. Guía completa: instalación, conexión por QR y configuración para ser útil desde el primer día.

Gonzalo24 jun

Herramientas

Anthropic lanzó Claude Tag: el compañero de equipo permanente que vive en Slack

Claude Tag es un compañero permanente en Slack: etiqueta @Claude, asígnale tareas y desconéctate. El 65% del código del equipo de producto de Anthropic ya lo genera. Beta para Enterprise y Team desde ayer.

Gonzalo24 jun