Herramientas

Prompt engineering avanzado: guía completa para escribir instrucciones que realmente funcionan

Las técnicas avanzadas de prompting mejoran los resultados entre un 20% y un 60%. Esta guía explica las que más importan en 2026, con ejemplos reales y plantillas listas para copiar y adaptar.

G
Gonzalo· Fundador
· 8 min de lectura
Prompt

La mayoría de las personas que usan IA a diario escriben prompts de la misma forma que lo hacían en 2023: una instrucción, una pregunta, y esperanza. Esa forma de trabajar produce resultados aceptables. No produce los mejores resultados posibles.

El prompt engineering es en 2026 una disciplina de 6.950 millones de dólares que crece al 33% anual. El 90% de los desarrolladores usan al menos una herramienta de IA a diario. Pero la mayoría sigue escribiendo prompts de la misma forma que hace tres años. La brecha entre el prompting amateur y el experto es ahora medible: las técnicas respaldadas por investigación mejoran de forma consistente la calidad del output entre un 20% y un 60% en benchmarks estandarizados.

Esta guía cubre las técnicas que más importan, cómo combinarlas y cuándo usar cada una. Los ejemplos son reales. Las plantillas están listas para copiar y adaptar.

El fundamento: por qué los prompts importan más de lo que parece

Antes de entrar en técnicas avanzadas, conviene entender por qué funciona el prompting. Los modelos de lenguaje grandes son, en esencia, sistemas de predicción de tokens entrenados en cantidades masivas de texto humano. Cuando escribes un prompt, estás activando patrones aprendidos durante el entrenamiento. Cuanto más específico y estructurado es el prompt, más fácil es para el modelo encontrar los patrones correctos.

Hay una cantidad enorme de rendimiento latente en los modelos que la mayoría de usuarios no extrae. El mismo modelo que produce una respuesta mediocre ante un prompt vago puede producir una respuesta excelente ante un prompt bien estructurado. No es magia — es activación de capacidades que ya estaban ahí.

Todos los modelos de lenguaje grande — incluyendo ChatGPT, Claude, Gemini y Llama — responden al prompt engineering. Cuanto más capaz es el modelo, más se beneficia de prompts precisos. Los fundamentos — asignación de rol, definición clara de tarea, instrucciones de formato y solicitudes de razonamiento paso a paso — se pueden aprender en una tarde. Zerotwo

Técnica 1: Chain-of-Thought — hacer que el modelo razone antes de responder

Es la técnica con más evidencia empírica detrás y la que más mejora resultados en tareas que requieren lógica, análisis o razonamiento complejo.

Chain-of-thought prompting es una técnica que mejora las capacidades de razonamiento de los modelos de lenguaje grande dividiendo las tareas complejas en subpasos más simples. Instruye a los LLMs a resolver un problema dado paso a paso, permitiéndoles responder preguntas más intrincadas. 9to5Mac

El descubrimiento que cambió el campo: añadir simplemente «piensa paso a paso» a un prompt de cero ejemplos puede mejorar significativamente el rendimiento del modelo en tareas de razonamiento. No necesitas ver el razonamiento — aunque puedes pedirlo — pero guiar al modelo a revisar mentalmente los pasos antes de responder cambia el resultado.

Sin Chain-of-Thought
«¿Debería lanzar mi producto ahora o esperar tres meses?»
Resultado: respuesta genérica sin análisis real de tu situación concreta.
Con Chain-of-Thought
«Tengo un producto SaaS B2B con 50 clientes beta, ingresos de 3.000 € al mes y un competidor que acaba de levantar una ronda de financiación. ¿Debería lanzar ahora o esperar tres meses? Antes de responder, analiza: 1) Los riesgos de lanzar ahora, 2) Los riesgos de esperar, 3) Qué factores deberían inclinar la decisión en cada dirección.»
Resultado: análisis estructurado con los factores específicos de tu situación, con los que puedes tomar una decisión real.

Chain-of-thought mejora el rendimiento en matemáticas y lógica entre un 15% y un 40%. La variante más potente es Few-Shot CoT: además de pedir el razonamiento, proporcionas ejemplos del tipo de razonamiento que quieres ver. Esto no solo activa el paso a paso, sino que calibra el estilo y el nivel de profundidad que esperas.

Técnica 2: Few-Shot — enseñar con ejemplos en lugar de explicar con palabras

Few-shot prompting es significativamente más efectivo para tareas complejas, estructuradas o específicas de formato porque el modelo puede inferir el patrón que quieres a partir de los ejemplos que proporcionas. Zerotwo

La lógica es simple pero su impacto es enorme. En lugar de explicar con palabras cómo quieres que responda el modelo, le muestras dos o tres ejemplos del input y el output que esperas. El modelo infiere el patrón y lo aplica a tu caso.

Cuándo usar Few-Shot en lugar de Zero-Shot: cuando el formato de output es muy específico y difícil de describir con palabras, cuando quieres un tono o estilo muy particular, cuando la tarea tiene una estructura interna que es más fácil mostrar que explicar, y cuando el modelo sigue produciendo el formato incorrecto aunque hayas especificado instrucciones claras.

Plantilla Few-Shot
Ejemplo 1:
Input: [tu ejemplo de input 1]
Output: [el output exacto que quieres]
Ejemplo 2:
Input: [tu ejemplo de input 2]
Output: [el output exacto que quieres]
Ahora aplica el mismo patrón:
Input: [tu caso real]
Output:

Un detalle técnico importante: los ejemplos que eliges importan más que su número. Dos ejemplos bien elegidos son más efectivos que cinco mediocres. Elige ejemplos que cubran los casos extremos y los más representativos de tu tarea, no los más fáciles.

Técnica 3: Prompts de sistema — configurar el contexto permanente

El prompt de sistema es la instrucción que precede a todo lo demás en una conversación. Es donde defines quién es el modelo, qué sabe sobre tu situación y cómo debe comportarse. Es también el elemento que más gente ignora o usa de forma superficial.

Usa prompts basados en rol para alinear la voz y el comportamiento del modelo con un contexto específico, como un asesor legal, un analista de datos o un agente de atención al cliente. The New Stack

Un prompt de sistema bien construido tiene cuatro componentes. El rol: quién es el modelo en este contexto. El conocimiento: qué información específica necesita saber para ser útil. Las restricciones: qué no debe hacer o asumir. El formato: cómo debe estructurar sus respuestas.

Prompt de sistema débil
«Eres un asistente útil que ayuda con marketing.»
Prompt de sistema efectivo
«Eres un estratega de marketing B2B con 15 años de experiencia en SaaS. Tu especialidad es la adquisición de clientes enterprise con presupuestos ajustados.

Contexto de la empresa: startup de 12 personas, ticket medio de 800 €/mes, ciclo de ventas de 45 días, competidores principales son [X] y [Y].

Cuando respondas: sé directo y específico. No des consejos genéricos que aplican a cualquier empresa. Si necesitas más información para dar una respuesta útil, pregunta primero. Estructura las respuestas con pasos concretos y métricas cuando sea posible.»

Claude Opus 4.7 responde mejor a instrucciones etiquetadas con XML, mientras que GPT-5.5 prefiere esquemas JSON concisos. Si usas Claude, estructurar el prompt de sistema con etiquetas como <rol>, <contexto> y <restricciones> mejora la adherencia a las instrucciones de forma notable. Apidog

Técnica 4: Self-Consistency — múltiples razonamientos para una respuesta más fiable

Self-consistency prompting es una técnica avanzada que mejora la precisión del razonamiento chain-of-thought. En lugar de depender de un único flujo de lógica potencialmente defectuoso, self-consistency genera múltiples caminos de razonamiento y luego selecciona la respuesta más consistente. 9to5Mac

Comportamiento no deseado Instrucción negativa
Respuestas demasiado largas con relleno«No añadas introducción ni conclusión. Ve directo al contenido.»
Listas de bullet points cuando necesitas prosa«No uses listas con viñetas. Escribe en párrafos continuos.»
Advertencias y descargos innecesarios«No añadas advertencias sobre consultar a un profesional a menos que sea genuinamente necesario.»
Frases de relleno al inicio («¡Claro!», «Por supuesto»)«Empieza directamente con el contenido. Sin frases introductorias.»
Alucinación de datos cuando no los tienes«Si no tienes el dato exacto, dilo explícitamente. No inventes cifras.»

En la práctica, esto significa pedir al modelo que aborde el mismo problema desde tres ángulos distintos y luego sintetice. Es especialmente útil para análisis donde el sesgo de framing puede afectar la conclusión: si los tres enfoques llegan a la misma respuesta, tienes más confianza en que es correcta. Si divergen, tienes información valiosa sobre la ambigüedad del problema.

La versión más sencilla de implementar: «Analiza este problema desde tres perspectivas distintas [especifica cuáles] y luego sintetiza las conclusiones comunes y las divergencias.»

Técnica 5: Meta-prompting y Self-Refine — usar la IA para mejorar los propios prompts

Meta-prompting es la técnica de usar el modelo para generar o mejorar sus propios prompts. En lugar de escribir el prompt perfecto desde cero, describes el objetivo y le pides al modelo que diseñe el prompt que debería usarse para alcanzarlo.

Self-Refine añade un bucle de autoevaluación: el modelo genera una respuesta inicial, la evalúa según criterios que tú defines, e itera hasta alcanzar el umbral de calidad. Self-Refine añade entre un 10% y un 25% de mejora en calidad. MacRumors

Plantilla Self-Refine
«Paso 1: [tu instrucción original]

Paso 2: Evalúa tu respuesta anterior según estos criterios: [lista tus criterios de calidad]

Paso 3: Identifica las tres debilidades principales de tu respuesta.

Paso 4: Reescribe la respuesta incorporando las mejoras identificadas.»

Técnica 6: Prompts negativos — decirle al modelo qué no hacer

La mayoría de prompts especifican qué quieres. Los mejores también especifican qué no quieres. Las instrucciones negativas son especialmente útiles para eliminar comportamientos por defecto del modelo que sabes que no encajan con tu caso.

Comportamiento no deseado Instrucción negativa
Respuestas demasiado largas con relleno«No añadas introducción ni conclusión. Ve directo al contenido.»
Listas de bullet points cuando necesitas prosa«No uses listas con viñetas. Escribe en párrafos continuos.»
Advertencias y descargos innecesarios«No añadas advertencias sobre consultar a un profesional a menos que sea genuinamente necesario.»
Frases de relleno al inicio («¡Claro!», «Por supuesto»)«Empieza directamente con el contenido. Sin frases introductorias.»
Alucinación de datos cuando no los tienes«Si no tienes el dato exacto, dilo explícitamente. No inventes cifras.»

Cómo combinar técnicas: la estructura que funciona en producción

Las técnicas avanzadas no son excluyentes. Los ingenieros de prompts avanzados a menudo mezclan tipos para aumentar la precisión, especialmente en entornos de alto impacto. La combinación más potente para tareas complejas en producción es: The New Stack

1
Prompt de sistema con rol y contexto
Define quién es el modelo, qué sabe de tu situación y qué no debe hacer. Esto calibra todo lo que viene después.
2
Ejemplos Few-Shot si el formato importa
Dos o tres ejemplos del input y output que esperas. Solo si hay un patrón específico que las instrucciones de texto no capturan bien.
3
Chain-of-Thought en el prompt de usuario
Para tareas analíticas o de razonamiento, pide explícitamente que piense paso a paso antes de dar la respuesta final.
4
Instrucciones de formato y negativas
Especifica la estructura del output y elimina los comportamientos por defecto que no quieres. Breve pero preciso.
5
Self-Refine para outputs de alta importancia
Para documentos, análisis o respuestas que tienen mucho impacto, añade un bucle de autoevaluación al final del prompt.

Las diferencias entre modelos que cambian la estrategia

No todos los modelos responden igual a las mismas técnicas. Claude Opus 4.7 responde mejor a instrucciones etiquetadas con XML, mientras que GPT-5.5 prefiere esquemas JSON concisos. Hay otras diferencias prácticas que afectan a cómo escribes los prompts. Apidog

Claude sigue instrucciones de rol de forma más literal y persistente que GPT. Si defines un rol específico, Claude lo mantiene de forma más consistente a lo largo de conversaciones largas. GPT tiende a «olvidar» el rol antes en conversaciones extendidas.

Gemini 3.5 tiene ventaja cuando el prompt incluye instrucciones sobre múltiples formatos a la vez — texto e imagen o texto y código — por su arquitectura multimodal nativa.

Los modelos de razonamiento como GPT-5.5 Pro y Claude Opus 4.7 se benefician menos de las instrucciones de Chain-of-Thought explícitas porque ya razonan por defecto. Añadir «piensa paso a paso» a un modelo de razonamiento puede en algunos casos empeorar el resultado al interferir con su proceso interno.

Los errores que cometen casi todos los usuarios avanzados

Prompts demasiado largos. Más contexto no siempre es mejor. Los modelos tienen dificultades para seguir instrucciones muy largas de forma consistente. El prompt de sistema óptimo es el más corto que captura todo lo necesario. Si tu prompt de sistema supera los 800 tokens, probablemente hay redundancia que eliminar.

Instrucciones contradictorias. «Sé conciso pero detallado», «sé formal pero accesible», «sé directo pero empático» son contradicciones que el modelo tiene que resolver de alguna manera — y no siempre de la forma que quieres. Elige una prioridad y exprésala sin ambigüedad.

No probar con casos adversariales. El prompt que funciona en los casos normales puede fallar en los casos extremos. Define al menos cinco casos de prueba que cubran los inputs más difíciles de tu tarea y verifica que el prompt los maneja correctamente antes de usarlo en producción.

Cambiar demasiadas cosas a la vez. Si cambias el rol, el formato y las instrucciones de razonamiento al mismo tiempo, no sabes qué cambio mejoró el resultado. Itera de una variable en una variable, igual que en cualquier experimento.

La próxima frontera: prompts para sistemas agénticos

El prompt engineering para chatbots es un problema relativamente sencillo. El prompt engineering para agentes — sistemas que ejecutan múltiples pasos de forma autónoma, usan herramientas y toman decisiones sin supervisión humana en cada paso — es un problema cualitativamente diferente.

En sistemas agénticos, el prompt no solo define cómo responde el modelo. Define cuándo usar cada herramienta, cómo gestionar los errores, qué hacer cuando llega a una situación ambigua y cuándo pedir confirmación humana en lugar de continuar autónomamente. Cada uno de esos comportamientos tiene que estar explícitamente especificado, porque el agente no puede preguntar — tiene que decidir.

La regla más importante para prompts agénticos: sé más restrictivo, no más permisivo. Define con precisión qué puede hacer el agente en lugar de describir qué debería hacer. La superficie de herramientas disponibles debe ser la mínima necesaria para completar la tarea. Las acciones que no se pueden deshacer — enviar un email, modificar una base de datos, hacer una compra — deben requerir confirmación explícita antes de ejecutarse.

Fuentes

EtiquetasProductividadLLMr¡RazonamientoAgentes IA

Seguir leyendo