Herramientas

Navegadores con IA en modo agente: guía práctica para tareas reales de oficina con Atlas, Comet y Claude en Chrome

Atlas, Comet y Claude en Chrome ejecutan tareas en tu navegador de forma autónoma. Esta guía explica qué puede hacer cada uno en entornos de oficina reales, cuál elegir y qué límites tienes que conocer antes de delegar.

G
Gonzalo· Fundador
· 12 min de lectura
Guía buscadores

Hay un momento concreto en que una tecnología deja de ser experimental y se convierte en infraestructura. Para los navegadores con IA en modo agente, ese momento llegó en el primer trimestre de 2026.

Algo cambió en el Q1 de 2026: los agentes de navegador IA dejaron de ser demos y empezaron a aparecer en memos de gestión del cambio. Tres señales indican que el cambio es real, no narrativo. Primero, distribución: Perplexity Comet está disponible en iOS, Android, macOS, Windows y iPad — toda la superficie de consumo. OpenAI Atlas está llegando a los suscriptores de ChatGPT. La extensión de Claude en Chrome y el agente de escritorio Claude Cowork ponen el control de navegador y SO detrás de cada cuenta Claude Pro. Microsoft activó el Modo Copilot en Edge para cientos de millones de usuarios. Wikipedia

No es tecnología del futuro. Es lo que puedes descargar y usar hoy. Y para el trabajo de oficina — la investigación que tarda horas, los formularios que hay que rellenar, la comparación de precios entre proveedores, el seguimiento de correos pendientes — el cambio que producen en la productividad real es medible desde la primera semana de uso.

Esta guía explica qué puede hacer cada herramienta, en qué tareas de oficina tiene más sentido y qué no debes delegar todavía.

La distinción que más importa: agente vs. copiloto

Antes de hablar de herramientas concretas, hay una distinción que determina qué puedes esperar de cada una.

En 2026 hay que entender una diferencia clave: los sistemas que navegan sitios web, hacen clic en botones, rellenan formularios y ejecutan flujos de trabajo de múltiples pasos — como Perplexity Comet, ChatGPT Atlas y Google Chrome Auto Browse — son agentes. Los sistemas que resumen páginas, responden preguntas, ayudan con la escritura y proporcionan contexto — como Brave Leo, Microsoft Edge Copilot y Arc Max — son copilotos. redmondmag

Un copiloto responde cuando le preguntas sobre la página que tienes delante. Un agente hace cosas en páginas que tú no has abierto todavía. La distinción importa porque define qué tipo de tareas puedes delegar.

Tarea Copiloto (Edge, Brave Leo) Agente (Atlas, Comet, Claude)
Resumir la página que tienes abierta✓ Perfecto✓ También
Comparar precios en tres tiendas distintas✗ No puede✓ Lo hace
Rellenar un formulario web con tus datos✗ No puede✓ Lo hace
Investigar un tema en varios sitios y sintetizarSolo la página activa✓ Varias fuentes
Grabar una tarea repetitiva para volver a ejecutarla✗ No puede✓ Claude en Chrome

Las tres herramientas principales: en qué destaca cada una

Perplexity Comet — El mejor para investigación y síntesis multifuente

Comet representa lo más cercano a un navegador completamente autónomo disponible hoy. Su punto de partida es que la barra de direcciones es también un campo de prompts: escribes una URL, una pregunta o una instrucción, y Comet decide qué hacer con cada una. TechCrunch

Comet expandió su oferta a clientes enterprise en marzo de 2026, con el Asistente Comet ofreciendo investigación en página, resúmenes y tareas autónomas de múltiples pasos como reservar vuelos, gestionar email y rellenar formularios. NewsBytes

Para trabajo de oficina, Comet brilla especialmente en dos escenarios. El primero es la investigación competitiva: pedirle que analice tres o cuatro páginas web de competidores y extraiga una comparativa estructurada de precios, características y posicionamiento tarda minutos en lugar de horas. El segundo es el seguimiento de información que cambia — precios de materias primas, tarifas de proveedores, indicadores de mercado — donde Comet puede revisar varias fuentes periódicamente y resumir los cambios.

La limitación que conviene conocer: una ampliamente discutida vulnerabilidad de prompt injection indirecto fue demostrada en Hacker News. Perplexity ha trabajado en mitigaciones, pero el desafío fundamental de los LLMs para distinguir entre instrucciones del usuario y contenido de páginas web sigue siendo real. Antes de usarlo para tareas que involucren datos sensibles o acciones irreversibles, conviene entender qué significa prompt injection y por qué importa — lo explico más adelante. CNBC

Precio: Gratuito para funciones básicas. Funciones agénticas avanzadas incluidas en el plan Max a 200 dólares/mes.

ChatGPT Atlas — El mejor si ya vives en el ecosistema de OpenAI

OpenAI lanzó Atlas en octubre de 2025 como un producto de navegador dedicado. La función clave es el Modo Agente, que permite al navegador ejecutar tareas de múltiples pasos de forma autónoma. NewsBytes

Atlas es la continuación lógica del Operator de OpenAI, que fue retirado en agosto de 2025 por dificultades con JavaScript complejo y CAPTCHAs. Atlas está mejor integrado y mantiene contexto entre pestañas, lo que le permite hacer comparaciones entre varias páginas sin perder el hilo de la tarea.

El modelo que impulsa Atlas es GPT-5.5, lanzado el 23 de abril de 2026. Para tareas de investigación y síntesis de información de múltiples fuentes, la calidad del razonamiento de GPT-5.5 en Atlas es comparable a la de Comet. La diferencia práctica está en la integración: si tu flujo de trabajo ya pasa por ChatGPT, Codex y las herramientas de OpenAI, Atlas es la extensión natural sin fricción de adopción. LLM Leaderboard

La limitación más importante actualmente: En marzo de 2026, OpenAI anunció que Atlas sería fusionado con ChatGPT y Codex en una sola superapp de escritorio, haciendo el calendario del lanzamiento en Windows poco claro. Actualmente es solo macOS. Si tu equipo trabaja principalmente en Windows, tendrás que esperar. LLM Leaderboard

Precio: Funciones básicas gratis. Modo Agente completo con ChatGPT Plus (20 $/mes) o Pro (200 $/mes).

Claude en Chrome — El mejor para tareas repetitivas y flujos de trabajo grabados

Claude en Chrome es cualitativamente diferente a Atlas y Comet. Claude no está diseñado solo como un navegador de IA convencional, porque Computer Use puede controlar toda una estación de trabajo. Este enfoque permite operar en Chrome, pero también en aplicaciones de escritorio, escritorios remotos o entornos heredados. YouTube

La función que lo distingue en contextos de oficina es el grabado de flujos de trabajo. El grabado de flujos de trabajo es un diferenciador real. Demuestra una tarea de navegador repetible una vez — conciliar facturas, extraer informes semanales, organizar archivos — y Claude puede volver a ejecutarla o programarla. LLM Leaderboard

Eso cambia la ecuación de productividad de forma sustancial. No es solo que Claude haga una tarea por ti una vez. Es que la haces con él una vez y luego la puede ejecutar de forma autónoma siempre que la necesites. Para tareas administrativas repetitivas — exportar datos de un portal, copiar información entre sistemas, revisar que un informe cumple un formato determinado — el grabado de workflow convierte una herramienta de ayuda en una automatización real.

Claude en Chrome es más convincente cuando Claude Code necesita ver el navegador, no solo el código. Le da a Claude acceso al estado de la página, logs de consola, peticiones de red y flujos de trabajo de Chrome con sesión iniciada, mientras mantiene el navegador que ya usas. LLM Leaderboard

Precio: La extensión Claude en Chrome está incluida en los planes Claude Pro (20 €/mes), Team y Enterprise. Claude Cowork, que extiende el control al escritorio completo, requiere Claude Team o Enterprise.

Las cuatro arquitecturas que definen lo que cada herramienta puede y no puede hacer

Para entender por qué cada herramienta falla en ciertos escenarios, conviene conocer cómo funcionan por dentro. No hace falta conocer los detalles técnicos, pero sí el concepto central de cada arquitectura.

Los agentes de navegador IA se dividen en cuatro familias arquitectónicas, y la familia determina cómo tu sitio necesita responder. La primera familia es el navegador agéntico dedicado: Perplexity Comet y OpenAI Atlas. El navegador mismo es el agente. La barra de direcciones es también un campo de prompts. El renderizador pasa una representación estructurada de cada página directamente al modelo, y los clics se emiten vía los mismos mecanismos internos que impulsan la automatización en Chrome DevTools. La segunda es el agente a nivel de SO: el Claude Cowork de Anthropic en macOS y Claude en Chrome. Cowork puede controlar cualquier aplicación, no solo el navegador. Mueve el ratón, presiona teclas y lee la pantalla. TechCrunch

Navegador agéntico
Comet · Atlas
La IA vive dentro del navegador. Lee el DOM de la página directamente. Abre pestañas, hace clic y rellena formularios como si fuera un usuario humano. Funciona en cualquier web.
Agente de SO
Claude Cowork
Controla toda la máquina, no solo el navegador. Puede interactuar con apps de escritorio, copiar entre aplicaciones y ejecutar flujos que mezclan web y programas locales.
Copiloto embebido
Edge Copilot · Chrome Auto Browse
Añade capacidad agéntica a un navegador que ya tienes. Menor integración que los navegadores dedicados, pero sin fricción de adopción para quien ya usa Chrome o Edge.
Protocolo nativo
Chrome 146 WebMCP
El sitio web declara explícitamente qué acciones puede hacer el agente. Es la arquitectura más limpia y fiable, pero requiere que los sitios web la implementen. Todavía en desarrollo.

La consecuencia práctica más importante de estas diferencias: los navegadores agénticos (Comet, Atlas) funcionan en cualquier web leyendo el HTML de la página como un usuario humano lo haría. Pero son frágiles ante páginas con JavaScript complejo, CAPTCHAs y flujos de sesión complicados. Chrome Cowork y Cowork, al controlar el navegador a nivel más profundo, son más robustos en esos escenarios difíciles.

Veinte tareas de oficina que los agentes de navegador hacen bien hoy

Este es el núcleo práctico de la guía: qué funciona en el mundo real en junio de 2026.

Investigación y síntesis:
Comparar precios de proveedores en tres o cuatro webs distintas y generar una tabla. Buscar información de contacto de empresas objetivo para una lista de prospección. Monitorizar las novedades de competidores en sus páginas web. Extraer las especificaciones técnicas de productos de varias fichas de fabricante. Recopilar noticias del sector de múltiples fuentes y generar un resumen ejecutivo.

Formularios y portales web:
Rellenar formularios de solicitud estándar en portales de administración. Registrar datos repetitivos en sistemas de gestión con interfaz web. Exportar informes desde herramientas SaaS que no tienen API propia. Copiar información entre dos sistemas web distintos. Actualizar campos en varios registros de un CRM a partir de una lista.

Correo y comunicaciones:
Revisar una bandeja de entrada y clasificar correos por urgencia. Redactar respuestas estándar a preguntas frecuentes que llegan por email. Extraer los compromisos y plazos de un hilo de correos largo. Preparar un resumen de los emails no contestados de los últimos días.

Seguimiento y documentación:
Verificar que un documento sigue un formato específico y marcar las desviaciones. Extraer datos de varios PDFs accesibles vía web y consolidarlos en una tabla. Comprobar el estado de varios envíos en el portal del transportista. Registrar los resultados de una reunión en una plantilla estándar.

Qué herramienta para qué tarea
Investigación multifuente
→ Comet (mejor síntesis), Atlas (si ya usas ChatGPT)
Formularios web repetitivos
→ Claude Cowork (grabado de workflow y reejecutar)
Comparativa de proveedores
→ Comet (navega varias webs y sintetiza en tabla)
Flujos que mezclan web y apps
→ Claude Cowork (control de SO completo)
Sin cambiar de navegador
→ Claude en Chrome (extensión, Chrome queda igual)
Integración con Google Workspace
→ Chrome Auto Browse (Gmail, Docs, Calendar nativos)

Cómo escribir instrucciones que funcionen: la diferencia entre un agente útil y uno que da vueltas

El mayor error que comete la mayoría de personas cuando empieza a usar estos agentes es escribir instrucciones demasiado vagas. Un agente de navegador no tiene criterio propio para decidir qué hacer cuando la instrucción es ambigua — toma la interpretación más literal y puede generar un resultado completamente diferente al que esperabas.

Las instrucciones que funcionan tienen cuatro componentes: el objetivo final que quieres conseguir, el contexto necesario para que el agente sepa dónde buscar o cómo identificar lo que necesita, el formato en que quieres el resultado, y los límites explícitos sobre lo que no debe hacer.

Instrucción vaga — resultado impredecible
«Busca información sobre proveedores de material de oficina.»
El agente puede visitar cualquier web, extraer cualquier información y presentar el resultado en cualquier formato.
Instrucción estructurada — resultado predecible
«Ve a las webs de Staples, Office Depot y Amazon Business. Para cada uno, extrae: precio de resma de papel A4 (500 hojas), precio de bolígrafo BIC azul (pack de 10) y si tienen envío gratuito para pedidos de empresa. Devuelve una tabla comparativa. No hagas ninguna compra ni introduzcas datos de pago.»
El agente sabe exactamente dónde ir, qué buscar, en qué formato presentar el resultado y qué no hacer.

Hay tres patrones de instrucción que funcionan especialmente bien para trabajo de oficina. El primero es la instrucción de extracción: «Ve a [web], extrae [información específica], preséntala en [formato].» El segundo es la instrucción de comparación: «Visita [lista de webs], compara [criterios específicos], devuelve [tabla con columnas definidas].» El tercero es la instrucción de verificación: «Abre [documento/página], comprueba si cumple [criterios concretos], devuelve [lista de desviaciones].»

Los riesgos que hay que conocer antes de delegar algo importante

Los agentes de navegador tienen un conjunto de riesgos que son diferentes a los de otros tipos de herramientas de IA. Conviene conocerlos antes de usar estas herramientas para tareas con consecuencias reales.

Prompt injection indirecto. Es el riesgo más específico de los agentes de navegador. El desafío fundamental de los LLMs para distinguir entre instrucciones del usuario y contenido de páginas web permanece. Significa que una página web maliciosa podría contener instrucciones ocultas en su texto que el agente interprete como si fueran instrucciones tuyas. El resultado más probable en un escenario de ataque es que el agente ejecute una acción que no pediste. La mitigación práctica: no uses agentes de navegador en páginas que no conoces cuando la tarea involucra acciones irreversibles. CNBC

Acciones irreversibles sin confirmación. Cuando el agente puede rellenar formularios, enviar correos o hacer clics que tienen consecuencias permanentes, la ausencia de una confirmación antes de ejecutar es un riesgo real. Workflow recording is the broader productivity hook, but developer browser verification is the clearest reason it stands apart. Todos los agentes tienen modos de confirmación — úsalos siempre al principio. Configura la herramienta para que pida confirmación antes de cualquier acción que no puedas deshacer. LLM Leaderboard

CAPTCHAs y autenticación compleja. Los agentes fallan consistentemente en páginas con CAPTCHAs, en flujos de autenticación multifactor y en JavaScript muy complejo. Operator fue cerrado el 31 de agosto de 2025 tras fallar de forma consistente en completar compras en webs con flujos de JavaScript complejos, CAPTCHAs y gestión de sesiones. Si la tarea que quieres automatizar pasa por páginas con esas características, el agente probablemente fallará. NewsBytes

Datos sensibles en el historial. Cuando el agente navega por páginas que contienen información confidencial — datos de clientes, información financiera, historiales médicos — esa información pasa por el modelo de lenguaje del agente. Verifica la política de retención de datos y los términos de privacidad antes de usar estos agentes para tareas que involucren datos protegidos.
La mayoría de políticas corporativas de TI bloquean extensiones no firmadas o no incluidas en la lista de aplicaciones permitidas. La mayoría de políticas corporativas de Chrome bloquean extensiones no firmadas o no incluidas en la lista, lo que descarta Claude en Chrome y herramientas similares. Antes de configurar cualquiera de estas herramientas en un entorno de empresa, verifica con tu departamento de TI si las extensiones están permitidas y si el navegador agéntico que eliges cumple con los requisitos de seguridad corporativos. LLM Leaderboard

Chrome Auto Browse: la opción para quien no quiere cambiar de navegador

Si ya pagas por Google AI Pro o Ultra, tienes acceso a Chrome Auto Browse sin coste adicional. Es la opción con menos fricción de adopción para quien usa Chrome como navegador principal y vive en el ecosistema de Google Workspace.

Zero switching cost si ya usas Chrome. Tus pestañas, contraseñas, marcadores y cuenta de Google ya funcionan — sin migración a Atlas o Comet solo para probar la navegación agéntica. El contexto del ecosistema Google es un punto a favor real. Cuando las tareas tocan Gmail, Calendar, Docs u otros servicios de Google, Chrome con Gemini tiene más contexto nativo que los navegadores que tienen que pedir permiso primero. LLM Leaderboard

Las limitaciones que conviene conocer: Auto Browse necesita Google AI Pro (19,99 $/mes) o Ultra (249,99 $/mes), y el rollout citado es solo en EE.UU. en escritorio. El rollout en Android empieza a finales de junio de 2026 en dispositivos Android 12+ seleccionados. No asumas que tu Chrome ya lo tiene — verifica tu plan y estado del rollout. En el momento de publicar esta guía, no está disponible de forma general en España. Artiverse

La curva de aprendizaje real: qué esperar las primeras dos semanas

La mayoría de personas que prueban estos agentes por primera vez pasan por la misma secuencia. La primera sesión produce asombro — el agente hace algo que esperabas que tardara una hora y lo hace en cinco minutos. La segunda sesión produce frustración — el agente falla en algo que parecía más sencillo que lo que hizo bien antes. Y las semanas siguientes producen calibración — aprender qué tareas delegar completamente, cuáles supervisar y cuáles seguir haciendo sin agente.

El rendimiento real todavía va detrás de los humanos (Operator en el 38,1% OSWorld vs. aproximadamente el 72% de la línea base humana), e investigadores de UC Berkeley mostraron en abril de 2026 que los propios benchmarks de titulares pueden ser explotados — así que juzga los agentes por el comportamiento que envían, no por las capturas de pantalla de las tablas de clasificación. TechCrunch

El 38,1% de Operator en OSWorld frente al 72% humano no significa que el agente falle el 62% de las veces en tareas reales — significa que en el benchmark estandarizado que mide la tarea más difícil de cada categoría, los agentes son menos consistentes que un humano. Para el subconjunto de tareas que los agentes hacen bien — y que esta guía ha intentado definir — la experiencia real es significativamente mejor que esos números de benchmark sugieren.

La regla práctica que mejor funciona para calibrar: empieza siempre con supervisión activa. Observa cómo el agente completa la primera ejecución de cada tipo de tarea. Interviene cuando veas que va a cometer un error. Ajusta la instrucción. La segunda o tercera ejecución de la misma tarea con la misma instrucción suele ser considerablemente más fiable que la primera.

Fuentes

EtiquetasAgentes IAProductividadClaudeOpenAI

Seguir leyendo