GPT-5.5 superó a médicos expertos en diagnóstico en un estudio de Harvard publicado en Science
Harvard publicó en Science que un modelo de OpenAI supera a médicos expertos en diagnóstico clínico usando solo historiales de urgencias. El mayor test independiente de IA en medicina hasta la fecha.

Los médicos llevan décadas siendo el estándar de referencia para evaluar si una tecnología diagnóstica es lo suficientemente buena como para usarse en la práctica clínica. La pregunta no es si la tecnología puede hacer algo útil — casi todo puede hacer algo útil. La pregunta es si supera a un médico con experiencia en las condiciones reales de trabajo clínico.
Esta semana, la respuesta para los modelos de razonamiento de IA pasó de «no de forma demostrada» a «sí, publicado en Science».
Un estudio publicado en Science por investigadores de Harvard Medical School y Beth Israel Deaconess Medical Center encontró que un modelo de razonamiento de OpenAI superó a médicos experimentados en el diagnóstico de pacientes y la gestión de su atención, usando solo historiales clínicos electrónicos de un departamento de urgencias de Boston. Singularity Moments
Science es la revista científica de más impacto del mundo junto a Nature. Un estudio publicado en Science ha pasado por el proceso de revisión por pares más riguroso disponible. No es un preprint, no es un blog post de OpenAI, no es un benchmark interno. Es investigación independiente en la publicación que define el estándar de rigor científico en cualquier campo.
Qué midió el estudio y en qué condiciones
Los detalles del diseño del estudio son lo que lo distingue de las demostraciones de IA médica que han circulado en los últimos años.
El estudio usó solo historiales clínicos electrónicos de un departamento de urgencias de Boston. No imágenes médicas, no análisis de laboratorio adicionales, no el tipo de datos adicionales que los médicos habitualmente consultan antes de un diagnóstico. Solo la información documentada en el historial clínico electrónico — el texto que los enfermeros y médicos escriben cuando documentan la visita del paciente. Singularity Moments
Las urgencias son el entorno médico más exigente para el diagnóstico porque los pacientes llegan con síntomas indefinidos, la presión de tiempo es alta y la información disponible es incompleta. Es exactamente el contexto donde los errores diagnósticos son más frecuentes y sus consecuencias más graves.
Los médicos «experimentados» que participaron en el estudio son el otro elemento que define la relevancia del resultado. No son médicos en formación ni estudiantes de medicina. Son especialistas con años de práctica clínica. Superar a esa categoría de médico es cualitativamente distinto de superar a estudiantes o a médicos con poca experiencia.
OpenAI ha mejorado las capacidades sanitarias de ChatGPT con GPT-5.5 Instant. En las pruebas comparativas propias de la empresa, el modelo ahora supera las respuestas escritas por médicos en exactitud, claridad y completitud. Singularity Moments
Los datos propios de OpenAI y el estudio independiente de Harvard apuntan en la misma dirección, lo que reduce el riesgo de que el resultado sea un artefacto del diseño del test.
La diferencia entre «superar en un test» y «reemplazar a un médico»
Esta distinción es la que más matiza en los comentarios del sector médico sobre el estudio, y conviene articularla con precisión para no sobreinterpretar el resultado.
Superar a médicos experimentados en un test de diagnóstico usando historiales clínicos electrónicos no significa que el modelo pueda o deba reemplazar a los médicos en la práctica clínica. El diagnóstico es una parte del trabajo médico — una parte importante, pero una parte. Los médicos también comunican con los pacientes, gestionan la incertidumbre emocional, adaptan sus recomendaciones al contexto de vida específico de cada persona, coordinan con otros especialistas y toman decisiones en condiciones de información radicalmente incompleta que van mucho más allá de lo que documenta un historial clínico electrónico.
Lo que el estudio sí demuestra es que los modelos de razonamiento de IA pueden ser herramientas de apoyo diagnóstico genuinamente útiles en urgencias. Si el modelo puede señalar diagnósticos que el médico habría pasado por alto, o confirmar diagnósticos inciertos con mayor precisión, su valor como herramienta de apoyo es directamente medible en términos de resultados para los pacientes.
JPMorgan Chase reclasificó formalmente sus inversiones en IA de I+D experimental a infraestructura core, con un presupuesto tecnológico de 2026 de aproximadamente 19.800 millones de dólares y 2.000 empleados dedicados a desarrollo de IA. La convergencia entre el estudio de Harvard y la decisión de JPMorgan describe el mismo fenómeno desde ángulos distintos: la IA está pasando de ser una tecnología que se prueba en condiciones controladas a ser infraestructura que se despliega en sistemas críticos — hospitalarios, financieros — donde los resultados son verificables y las consecuencias de los errores son reales. Singularity Moments
Las implicaciones regulatorias y de responsabilidad
Un modelo de IA que supera a médicos expertos en diagnóstico en urgencias, publicado en Science, no puede ignorarse desde el punto de vista regulatorio. La FDA tiene marcos para aprobar dispositivos médicos de diagnóstico basados en IA, pero esos marcos fueron diseñados para software con comportamiento determinista — no para modelos de lenguaje cuyo comportamiento puede variar entre consultas.
El estudio de Harvard no resuelve esas preguntas regulatorias. Pero sí las hace urgentes de una forma que la investigación anterior no había conseguido. Si un modelo de razonamiento de IA supera a médicos expertos en diagnóstico en condiciones clínicas reales, la pregunta de si ese modelo puede usarse en la práctica clínica es ahora una pregunta regulatoria urgente, no una pregunta especulativa sobre el futuro de la IA médica.
El caso Novo Nordisk-OpenAI que cubrimos en mayo, el acuerdo de Labcorp con modelos de razonamiento de OpenAI para interpretar resultados de laboratorio, y ahora el estudio de Harvard forman un patrón que describe la velocidad a la que la IA está entrando en la medicina. No como reemplazo de médicos, sino como capa de capacidad adicional que puede mejorar los resultados de los pacientes en contextos donde el diagnóstico correcto importa más que en ningún otro.
Fuentes
Seguir leyendo

Un estudio con 100.000 personas confirma que la IA ya supera al humano medio en creatividad — con un matiz importante
Investigadores de Montreal y Google DeepMind compararon modelos de IA con 100.000 personas en test de creatividad. La IA supera al humano medio en fluidez e ideas originales, pero el matiz importa tanto como el resultado

Un modelo de OpenAI refutó una conjetura matemática de 80 años — y los matemáticos avalan el resultado
Un modelo de OpenAI refutó la conjetura de Erdős sobre distancias unitarias, abierta desde 1946. Matemáticos externos verificaron la prueba. Primera vez que la IA resuelve autónomamente un problema matemático mundial

Novo Nordisk se alía con OpenAI para usar IA en el descubrimiento de nuevos fármacos contra la obesidad
La farmacéutica danesa integrará IA en toda su cadena de valor, desde ensayos clínicos hasta fabricación, con el objetivo de acelerar el descubrimiento de tratamientos contra la obesidad y la diabetes.