GPT-4 puede diagnosticar y clasificar condiciones de salud sin prejuicios raciales y étnicos
Investigadores de la Universidad de California, Los Ángeles (UCLA) demuestran la capacidad de GPT-4
14 de noviembre de 2023 – Un reciente estudio publicado en Educación médica JMIR revela que el Transformador Generativo Preentrenado 4 (GPT-4) puede diagnosticar y clasificar diversas condiciones de salud sin introducir prejuicios raciales y étnicos. Los investigadores de la Universidad de California, Los Ángeles (UCLA) han demostrado que esta inteligencia artificial conversacional es comparable en precisión a los médicos certificados.
GPT-4: una herramienta basada en inteligencia artificial
GPT-4, también conocido como modelo de lenguaje grande (LLM), es un tipo de inteligencia artificial conversacional diseñado para generar salidas de texto basadas en imágenes y entradas de texto. Este modelo “aprende” de datos disponibles públicamente para predecir la siguiente palabra o frase en un cuerpo de texto, lo que le permite responder a una variedad de consultas.
La evaluación de la capacidad de diagnóstico y clasificación de GPT-4
El equipo de investigación de UCLA señaló que, aunque los modelos de lenguaje grande como GPT-4 se están volviendo más comunes en entornos de atención médica, su capacidad para diagnosticar y clasificar con precisión no se ha evaluado ampliamente. Además, existe la preocupación de que estas herramientas puedan contener prejuicios raciales y étnicos en sus recomendaciones.
Para abordar estas preocupaciones, los investigadores compararon el desempeño de GPT-4 con el de tres médicos certificados. Se les presentaron 45 viñetas clínicas típicas en febrero y marzo de 2023, y tanto la inteligencia artificial como los médicos tuvieron que identificar el diagnóstico primario y el nivel de clasificación más probable.
Resultados prometedores: precisión y ausencia de sesgos raciales y étnicos
Los resultados del estudio mostraron que GPT-4 funcionó de manera similar a los médicos certificados, sin introducir sesgos raciales y étnicos. La precisión del diagnóstico fue del 97,8% para GPT-4 y del 91,1% para los médicos. Además, GPT-4 proporcionó un razonamiento apropiado para sus recomendaciones en el 97,8% de las viñetas clínicas.
La idoneidad de la clasificación también fue comparable entre GPT-4 y los médicos, con ambos seleccionando el nivel apropiado de clasificación en el 66,7% de las viñetas.
Es importante destacar que el rendimiento diagnóstico de GPT-4 no varió significativamente según la raza o el origen étnico del paciente, incluso cuando esta información se incluyó en las viñetas clínicas. La precisión de la clasificación fue del 62,2% para pacientes negros, 66,7% para pacientes blancos, 66,7% para pacientes asiáticos y 62,2% para pacientes hispanos.
Conclusiones y consideraciones adicionales
Los investigadores concluyeron que GPT-4 tiene la capacidad de diagnosticar y clasificar condiciones de salud de manera comparable a los médicos certificados, sin introducir sesgos raciales y étnicos. Esto puede ser beneficioso para los sistemas de salud que buscan aprovechar la inteligencia artificial conversacional.
Sin embargo, el equipo de investigación también señaló que el estudio tiene limitaciones. Las viñetas clínicas proporcionaron información resumida, mientras que en la práctica clínica los médicos suelen tener información más detallada. Además, las respuestas de GPT-4 pueden depender de cómo se redacten las consultas y la herramienta puede haber “aprendido” de las viñetas utilizadas al principio del estudio.
A pesar de estas limitaciones, los hallazgos del estudio son prometedores y sugieren que GPT-4 puede ser una herramienta útil en el campo de la medicina. “Los modelos de lenguaje grandes como GPT-4 son prometedores a la hora de proporcionar diagnósticos médicos precisos sin introducir sesgos raciales y étnicos”, afirmó el autor principal del estudio.