Se trata de HealthBench, una herramienta de código abierto diseñada para para medir el rendimiento y la seguridad de los modelos de lenguaje grande (LLMs) en escenarios médicos reales.
La nueva herramienta de OpenAI,
la compañía dedicada a la investigación y despliegue de la IA, fue desarrollada
en colaboración con 262 médicos provenientes de 60 países e
incluye 5000 conversaciones sobre salud.
Su objetivo es probar el
rendimiento de modelos de IA en escenarios de salud realistas, basándose en lo
que los médicos expertos consideran importante.
Las 5000 conversaciones de
HealthBench son entre un modelo de lenguaje y un usuario (que podría ser un
paciente o un profesional de la salud) y fueron diseñadas para ser relevantes,
realistas y abarcar una amplia gama de situaciones médicas reales en 49
idiomas diferentes.
HealthBench funciona como
una rúbrica de evaluación, en donde cada respuesta del modelo se
califica según un conjunto de criterios médicos específicos para esa
conversación. Cada criterio describe lo que una respuesta ideal debe incluir o
evitar. Cada criterio, tiene un valor en puntos correspondiente según la
opinión del médico respecto a su importancia. En total, HealthBench
contiene 48.562 criterios de rúbrica únicos.
Las conversaciones de HealthBench
se dividen en siete temas, incluidos derivaciones urgentes, salud
global, tareas de datos sanitarios, búsqueda de contexto, comunicación
dirigida, profundidad en las respuestas y reacciones ante situaciones inciertas.
Cada tema representa diferentes
desafíos en la toma de decisiones médicas e interacciones con el usuario y
contiene ejemplos relevantes, con criterios de rúbrica específicos. Cada
criterio de rúbrica tiene un eje que define qué aspecto del comportamiento
del modelo califica, como la precisión, la calidad de la comunicación o la
búsqueda de contexto.
Para garantizar la fiabilidad de
HealthBench, OpenAI realizó una meta-evaluación comparando las respuestas del
modelo con las evaluaciones de los médicos reales.
De esta forma, HealthBench busca
ser un punto de referencia para investigadores, desarrolladores clínicos o
proveedores de atención médica, proporcionando las métricas y los procesos
estándar necesarios para cuantificar y mejorar el rendimiento de modelos de IA
en escenarios clínicos realistas.
Fuentes:
·
OpenAI
Leído en eHealth
Reporter
No hay comentarios.:
Publicar un comentario