La investigación ha sido publicada en el ‘Journal of Medical Internet Research’, donde también se explica que esta herramienta ha obtenido buenos resultados tanto en atención primaria como en urgencias.
(Con Salud) Los investigadores
del Mass General Brigham de Estados Unidos han concluido un
estudio que revela que el popular chatbot ChatGPT alcanza una
precisión del 72% en la toma de decisiones clínicas generales.
La investigación ha sido
publicada en el ‘Journal of Medical Internet Research’,
donde también se explica que esta herramienta basada en la inteligencia
artificial ha obtenido buenos resultados tanto en atención primaria como en
urgencias y en las diferentes especialidades.
Uno de los autores del proyecto
de investigación es Marc Succi, director asociado de
innovación y comercialización y líder de innovación estratégica en el Mass
General Brigham y director ejecutivo de la Incubadora MESH, quien ha explicado
que su estudio evalúa de forma exhaustiva el apoyo a la toma
de decisiones a través de ChatGPT desde el inicio del trabajo con un paciente y
a lo largo de todo el escenario asistencial, desde el diagnóstico diferencial
hasta las pruebas, el diagnóstico y el tratamiento.
ChatGPT es un sistema de chatbot
que trabaja con la inteligencia artificial para dar respuesta a todo tipo de
preguntas, utilizando un modelo de lenguaje amplio (LLM) que permite avisos y
respuestas ascendentes que afectan a las respuestas posteriores. El modelo de
lenguaje se entrena en una variedad de textos, incluidos sitios web, artículos
y libros (hasta el año 2021), que generan respuestas prediciendo el ‘token’ con
más probabilidades de suceder, basándose en patrones de datos de entrenamiento.
La precisión se midió mediante un sistema de
puntuación a las respuestas correctas
El equipo de investigadores
quiso probar la evidencia de esta tecnología y su desempeño en el entorno
clínico, encontrando que ofrece una precisión del del 60,3%
en la determinación de diagnósticos diferenciales basados únicamente en HPI
(antecedentes de enfermedad actual), PE (examen físico) y ROS (revisión de
sistemas) y por otro lado, una precisión del 76,9% en diagnósticos finales
con el manejo de información adicional, como pueden ser las pruebas
de diagnóstico relevantes. De media, ChatGPT ha logrado un rendimiento del 71,8% en todas las viñetas y tipos de
preguntas, por lo que esta herramienta se posiciona como un potencial aliado de
los profesionales sanitarios.
El método del estudio
El ámbito científico todavía no
había evaluado la capacidad de los LLM para ayudar en el alcance del
razonamiento clínico iterativo mediante indicaciones sucesivas, actuando como
médicos artificiales. El objetivo era probar si ChatGPT fuese capaz de trabajar
a lo largo de todo un encuentro clínico con un paciente y recomendar una prueba
diagnóstica, decidir el curso de tratamiento clínico y, en última instancia,
realizar el diagnóstico final. Así que, bajo esta premisa, los investigadores del
Mass General Brigham ingresaron 36 viñetas clínicas en ChatGPT. Primero se le
pidió a la herramienta que ofreciera posibles diagnósticos, en función de la
edad, el sexo y la agudeza del caso del paciente. Posteriormente se le
facilitaba información adicional y se le pedía la toma de decisiones de pruebas
de diagnóstico, tratamientos y un diagnóstico final.
La precisión se midió mediante
un sistema de puntuación a las respuestas correctas ofrecidas a las preguntas
planteadas dentro de las viñetas clínicas probadas, bajo la supervisión humana.
La conclusión es que el popular chatbot logra una precisión
impresionante en la toma de decisiones clínicas, con una fuerza cada vez mayor
a medida que obtiene más información clínica a su disposición.
Además, las respuestas de ChatGPT no mostraron sesgo de género y su rendimiento
general era estable tanto en atención primaria como en urgencias.
En particular, ChatGPT demuestra
la mayor precisión en las tareas de diagnóstico final, en comparación con el
diagnóstico inicial. Entre las limitaciones que ha destacado el equipo de
investigadores, están los problemas con el diagnóstico diferencial, ya que es
el momento en el que un médico tiene que averiguar qué hacer. “Esto es
importante porque nos dice dónde son realmente expertos los médicos y dónde
aportan más valor: en las primeras fases de la atención al paciente, con poca
información, cuando se necesita una lista de posibles diagnósticos”.
Los investigadores han señalado
que no existen puntos de referencia reales, pero estimamos que el
desempeño de ChatGPT está al nivel de alguien que acaba de graduarse en la
facultad de Medicina, como un interno o un residente. También añade
que los sistemas basados en LLM se van a convertir en una “herramienta de
aumento para la práctica de la medicina, apoyando la toma de decisiones
clínicas con una precisión impresionante”.
De media, ChatGPT ha logrado un rendimiento
del 71,8% en todas las viñetas y tipos de preguntas
Los cambios en la tecnología de
inteligencia artificial se están produciendo a gran velocidad y están
transformando muchas industrias, incluida la sanitaria, pero aún no se ha
estudiado la capacidad de las LLM para ayudar en todo el ámbito de la atención
clínica. Por ello, los autores apuntan a que todavía hace falta más
investigación de referencia y orientación normativa antes de que sistemas como
ChatGPT puedan integrarse en la atención médica. En esta línea, Succi y su
equipo continúan investigando cómo las herramientas de inteligencia artificial
pueden mejorar la atención al paciente y los resultados, que pueden ser de
especial utilidad en áreas con recursos limitados.
Fuente: Consenso
Salud
No hay comentarios.:
Publicar un comentario