El chatbot de texto de inteligencia artificial (IA) ChatGPT diagnosticó erróneamente el 83% de los problemas de salud de los niños en un desafío sobre casos planteado por médicos de un hospital infantil de Nueva York, según revela un nuevo estudio.
El estudio, publicado el 2 de enero en “JAMA Pediatrics”, revista revisada por expertos de la Asociación Médica Estadounidense, fue dirigido por Joseph Barile, del Centro Médico Infantil Cohen de New Hyde Park (Nueva York).
Barile y otros investigadores desafiaron a la versión 3.5 de ChatGPT a diagnosticar enfermedades infantiles alimentándola aleatoriamente con casos pediátricos del Hospital General de Massachusetts, en Boston, publicados en los últimos 10 años en JAMA Pediatrics y “The New England Journal of Medicine”.
Los autores del estudio retaron a ChatGPT a hacer un diagnóstico en 100 casos de problemas de salud infantiles. En muchos casos, el chatbot de IA ni siquiera fue capaz de identificar el sistema orgánico correcto de la afección del niño.
Los resultados fueron calificados por dos médicos investigadores que descubrieron que el chatbot había realizado 72 diagnósticos incorrectos. Otros 11 diagnósticos “estaban clínicamente relacionados pero eran demasiado amplios como para ser considerados un diagnóstico correcto”.
En el 43,3% de los casos (36 de 83) en los que ChatGPT se equivocó, el chatbot no identificó correctamente el sistema de órganos correcto de la afección del paciente.
“La mayoría de los diagnósticos incorrectos generados por el chatbot (47 de 83 o el 56,7%) pertenecían al mismo sistema de órganos que el diagnóstico correcto”, informó el estudio, “pero no eran lo suficientemente específicos como para ser considerados correctos”, por ejemplo confundiendo psoriasis y dermatitis seborreica.
A pesar de la alta tasa de fracaso diagnóstico del chatbot, los autores concluyeron que “los médicos deben seguir investigando las aplicaciones” de los chatbots de IA a la medicina”, citando la creciente capacidad de la IA “para procesar información y proporcionar a los usuarios conocimientos a partir de grandes cantidades de datos.”
La IA generativa se utiliza cada vez más en la atención sanitaria, y se prevé que 2024 pueda ser el año en que “la inteligencia artificial transforme la medicina.”
Pero el estudio de “JAMA Pediatrics” también demostró la formación superior y el valor duradero de los médicos, dijeron los autores.
“El decepcionante rendimiento diagnóstico del chatbot observado en este estudio subraya el inestimable papel que desempeña la experiencia clínica”, escribieron.
“El chatbot evaluado en este estudio -a diferencia de los médicos- no fue capaz de identificar algunas relaciones, como la que existe entre el autismo y las deficiencias vitamínicas.”
Al Dr. Ryan Cole, patólogo e investigador de COVID-19 formado en la Clínica Mayo y en la Facultad de Medicina de Columbia, que fundó un gran laboratorio médico de diagnóstico en Boise (Idaho), no le sorprendió que el chatbot cometiera tantos errores de diagnóstico.
Citó el libro de 2005 de la Dra. Marcia Angell, que dejó de ser redactora jefe de The New England Journal of Medicine tras dos décadas en la prestigiosa revista y escribió “La verdad sobre las compañías farmacéuticas: Cómo nos engañan y qué hacer al respecto” (“The Truth About the Drug Companies: How They Deceive Us and What to Do About It”).
“Marcia escribió una especie de relato en el que denunciaba que la mayoría de los estudios médicos estaban corruptos y financiados por las farmacéuticas, y que menos de la mitad de la literatura médica es fiable”, afirmó.
Según Cole, la IA es tan bondadosa como su fuente y sus programadores.
“Si nos fijamos en las afirmaciones de los medios de comunicación de que las inyecciones COVID salvaron millones de vidas, se trata de una conclusión matemática errónea basada en el modelo matemático erróneo de Neil Ferguson, del Imperial College de Londres”, afirmó.
“Si utilizas una fuente como las revistas médicas, que son incorrectas al menos en un 50% según las personas que dirigen estas instituciones, por supuesto que la máquina llegará a conclusiones incorrectas”.
Los investigadores de “JAMA Pediatrics” dijeron que un diagnóstico erróneo representativo de ChatGPT fue un caso de sarpullido y artralgias, o dolor articular, en un adolescente con autismo. El chatbot dijo que se trataba de “púrpura trombocitopénica inmune“, un trastorno autoinmune poco frecuente en el que la sangre de una persona no coagula correctamente.
Un médico investigador diagnosticó correctamente el problema como escorbuto.
Un ejemplo representativo del éxito diagnóstico de ChatGPT fue el de una chica de 15 años con hipertensión intracraneal inexplicable, una acumulación de presión alrededor del cerebro que puede causar dolores de cabeza y pérdida de visión.
El médico diagnosticó el problema como “insuficiencia suprarrenal primaria (enfermedad de Addison)”. El chatbot dijo que era “insuficiencia suprarrenal (enfermedad de Addison)”.
Los autores dijeron que el estudio, publicado como carta de investigación en “JAMA Pediatrics”, fue el primero en investigar la precisión de los chatbots de IA “en escenarios exclusivamente pediátricos, que requieren la consideración de la edad del paciente junto con los síntomas.”
Los autores dijeron que un estudio anterior, publicado el 15 de junio de 2023 en “JAMA Network”, encontró que un “chatbot de inteligencia artificial (IA) dio un diagnóstico correcto en el 39% de los desafíos de casos de “The New England Journal of Medicine”” (NEJM)”, lo que demuestra el valor potencial de la IA como herramienta de diagnóstico.
“Los chatbots tienen potencial como herramienta administrativa para los médicos, demostrando competencia en la redacción de artículos de investigación y la generación de instrucciones para los pacientes”, señalan los autores del estudio de “JAMA Pediatrics”.
Por ejemplo, el proveedor de historias clínicas electrónicas Epic ha colaborado con OpenAI de Microsoft para incorporar GPT-4 con “el objetivo de automatizar componentes de la documentación clínica”.
Pero los chatbots de IA necesitan más entrenamiento para convertirse en mejores diagnosticadores, concluyen los autores, un proceso denominado “tuning” cuando los médicos se encargan de entrenar al bot.
Los chatbots “normalmente se entrenan de forma no específica con una gran cantidad de datos de Internet, que a menudo pueden ser inexactos”, señalan los autores. No discriminan entre información fiable y no fiable, sino que se limitan a regurgitar el texto de los datos de entrenamiento para generar una respuesta.”
Un chatbot de IA tampoco suele tener acceso en tiempo real a nuevas investigaciones, tendencias sanitarias actuales y brotes de enfermedades. Pero algunos chatbots nuevos, “como el Med-PaLM 2 de Google, han sido entrenados específicamente con datos médicos y pueden estar mejor equipados para ofrecer diagnósticos precisos.”
Cole afirmó que la IA es una herramienta potencialmente útil, pero no está cerca de replicar los conocimientos y la intuición de un especialista clínico experimentado.
En medicina tenemos un dicho: “Si estás debajo de un puente y oyes ruido de cascos, es un caballo. Pero también puede ser una cebra”. El diagnóstico es una habilidad que se adquiere con la experiencia y el tiempo. Un piloto automático puede hacer un buen trabajo pilotando un avión. Pero cuando llega el momento de despegar o aterrizar, lo que cuenta es el piloto, con sus años de experiencia en situaciones impredecibles”, afirma Cole.