GPT-5.5 superó a médicos expertos en diagnóstico en un estudio de Harvard publicado en Science

Harvard publicó en Science que un modelo de OpenAI supera a médicos expertos en diagnóstico clínico usando solo historiales de urgencias. El mayor test independiente de IA en medicina hasta la fecha.

Gonzalo· Fundador

19 de junio de 2026 · 5 min de lectura

Asistido por IA · revisado por el editor

Los médicos llevan décadas siendo el estándar de referencia para evaluar si una tecnología diagnóstica es lo suficientemente buena como para usarse en la práctica clínica. La pregunta no es si la tecnología puede hacer algo útil — casi todo puede hacer algo útil. La pregunta es si supera a un médico con experiencia en las condiciones reales de trabajo clínico.

Esta semana, la respuesta para los modelos de razonamiento de IA pasó de «no de forma demostrada» a «sí, publicado en Science».

Un estudio publicado en Science por investigadores de Harvard Medical School y Beth Israel Deaconess Medical Center encontró que un modelo de razonamiento de OpenAI superó a médicos experimentados en el diagnóstico de pacientes y la gestión de su atención, usando solo historiales clínicos electrónicos de un departamento de urgencias de Boston. Singularity Moments

Science es la revista científica de más impacto del mundo junto a Nature. Un estudio publicado en Science ha pasado por el proceso de revisión por pares más riguroso disponible. No es un preprint, no es un blog post de OpenAI, no es un benchmark interno. Es investigación independiente en la publicación que define el estándar de rigor científico en cualquier campo.

Qué midió el estudio y en qué condiciones

Los detalles del diseño del estudio son lo que lo distingue de las demostraciones de IA médica que han circulado en los últimos años.

El estudio usó solo historiales clínicos electrónicos de un departamento de urgencias de Boston. No imágenes médicas, no análisis de laboratorio adicionales, no el tipo de datos adicionales que los médicos habitualmente consultan antes de un diagnóstico. Solo la información documentada en el historial clínico electrónico — el texto que los enfermeros y médicos escriben cuando documentan la visita del paciente. Singularity Moments

Las urgencias son el entorno médico más exigente para el diagnóstico porque los pacientes llegan con síntomas indefinidos, la presión de tiempo es alta y la información disponible es incompleta. Es exactamente el contexto donde los errores diagnósticos son más frecuentes y sus consecuencias más graves.

Los médicos «experimentados» que participaron en el estudio son el otro elemento que define la relevancia del resultado. No son médicos en formación ni estudiantes de medicina. Son especialistas con años de práctica clínica. Superar a esa categoría de médico es cualitativamente distinto de superar a estudiantes o a médicos con poca experiencia.

OpenAI ha mejorado las capacidades sanitarias de ChatGPT con GPT-5.5 Instant. En las pruebas comparativas propias de la empresa, el modelo ahora supera las respuestas escritas por médicos en exactitud, claridad y completitud. Singularity Moments

Los datos propios de OpenAI y el estudio independiente de Harvard apuntan en la misma dirección, lo que reduce el riesgo de que el resultado sea un artefacto del diseño del test.

La diferencia entre «superar en un test» y «reemplazar a un médico»

Esta distinción es la que más matiza en los comentarios del sector médico sobre el estudio, y conviene articularla con precisión para no sobreinterpretar el resultado.

Superar a médicos experimentados en un test de diagnóstico usando historiales clínicos electrónicos no significa que el modelo pueda o deba reemplazar a los médicos en la práctica clínica. El diagnóstico es una parte del trabajo médico — una parte importante, pero una parte. Los médicos también comunican con los pacientes, gestionan la incertidumbre emocional, adaptan sus recomendaciones al contexto de vida específico de cada persona, coordinan con otros especialistas y toman decisiones en condiciones de información radicalmente incompleta que van mucho más allá de lo que documenta un historial clínico electrónico.

Lo que el estudio sí demuestra es que los modelos de razonamiento de IA pueden ser herramientas de apoyo diagnóstico genuinamente útiles en urgencias. Si el modelo puede señalar diagnósticos que el médico habría pasado por alto, o confirmar diagnósticos inciertos con mayor precisión, su valor como herramienta de apoyo es directamente medible en términos de resultados para los pacientes.

JPMorgan Chase reclasificó formalmente sus inversiones en IA de I+D experimental a infraestructura core, con un presupuesto tecnológico de 2026 de aproximadamente 19.800 millones de dólares y 2.000 empleados dedicados a desarrollo de IA. La convergencia entre el estudio de Harvard y la decisión de JPMorgan describe el mismo fenómeno desde ángulos distintos: la IA está pasando de ser una tecnología que se prueba en condiciones controladas a ser infraestructura que se despliega en sistemas críticos — hospitalarios, financieros — donde los resultados son verificables y las consecuencias de los errores son reales. Singularity Moments

Las implicaciones regulatorias y de responsabilidad

Un modelo de IA que supera a médicos expertos en diagnóstico en urgencias, publicado en Science, no puede ignorarse desde el punto de vista regulatorio. La FDA tiene marcos para aprobar dispositivos médicos de diagnóstico basados en IA, pero esos marcos fueron diseñados para software con comportamiento determinista — no para modelos de lenguaje cuyo comportamiento puede variar entre consultas.

El estudio de Harvard no resuelve esas preguntas regulatorias. Pero sí las hace urgentes de una forma que la investigación anterior no había conseguido. Si un modelo de razonamiento de IA supera a médicos expertos en diagnóstico en condiciones clínicas reales, la pregunta de si ese modelo puede usarse en la práctica clínica es ahora una pregunta regulatoria urgente, no una pregunta especulativa sobre el futuro de la IA médica.

El caso Novo Nordisk-OpenAI que cubrimos en mayo, el acuerdo de Labcorp con modelos de razonamiento de OpenAI para interpretar resultados de laboratorio, y ahora el estudio de Harvard forman un patrón que describe la velocidad a la que la IA está entrando en la medicina. No como reemplazo de médicos, sino como capa de capacidad adicional que puede mejorar los resultados de los pacientes en contextos donde el diagnóstico correcto importa más que en ningún otro.

Fuentes

Enlaces a las fuentes originales en las que se apoya esta noticia. Contrasta cada dato en su origen.

Crescendo AI (análisis estudio)crescendo.ai

EtiquetasOpenAI Benchmarks

En la elaboración de este artículo se ha utilizado inteligencia artificial como apoyo en la investigación y redacción. El contenido ha sido revisado editorialmente antes de su publicación.

GonzaloFundador

Madrileño enganchado a la tecnología desde pequeño. Trabajo en finanzas pero la inteligencia artificial es lo que me quita el sueño. Creé Miuranews para seguirla de cerca y contarla en español sin hype.

Todos sus artículos →

◈ Asistente Miuranews

Pregunta sobre este artículo

Respuestas basadas en esta pieza y en el archivo de Miuranews. Sin inventar: si no está cubierto, te lo dice.

Prueba una

Experimento en beta · No sustituye a la lectura del artículo

Sigue leyendo