Un estudio conjunto de la URJC y otras universidades evalúa la fiabilidad de modelos de IA como ChatGPT y Gemini en consultas médicas, revelando su utilidad y variabilidad en respuestas.
Un reciente estudio realizado por la Universidad Rey Juan Carlos (URJC), en colaboración con el King’s College London y Solent University London, ha explorado la efectividad de los modelos de lenguaje como ChatGPT y Gemini en la respuesta a consultas médicas, específicamente sobre temas como la epidural. Los hallazgos sugieren que, aunque la inteligencia artificial (IA) puede ser una herramienta útil para proporcionar información adicional, su fiabilidad varía y siempre debe ser contrastada con un profesional de la salud.
En el ámbito cotidiano de las consultas médicas, es común que los pacientes tengan dudas originadas por información obtenida a través de redes sociales o herramientas basadas en IA. Muchos expresan inquietudes sobre procedimientos como la epidural, llegando incluso a rechazarlos debido a temores infundados.
El equipo investigador se enfocó en evaluar cuán confiables eran las respuestas ofrecidas por diferentes modelos de lenguaje respecto a este tema. Según los resultados publicados en la revista Artificial Intelligence in Medicine, ChatGPT se destacó como el modelo más eficaz para responder a preguntas relacionadas con la epidural. Sin embargo, se observó que otros modelos como OpenChat y Phi-3 también presentaron resultados comparables, lo que subraya que no solo el tamaño del modelo es determinante, sino también la calidad de los datos utilizados para su entrenamiento.
Para llevar a cabo esta investigación, se formularon diez preguntas sobre epidurales dirigidas a distintos LLMs (modelos de lenguaje grande), cada una variando en su redacción. Este enfoque buscaba evaluar cómo estos sistemas podían interpretar y responder a diferentes formulaciones lingüísticas, utilizando un lenguaje sencillo que podría emplear cualquier paciente sin conocimientos técnicos previos.
Los modelos evaluados incluyeron ChatGPT, Gemini, OpenChat y versiones especializadas como MedLlama y Meditron. La evaluación se llevó a cabo mediante métricas centradas en aspectos como fiabilidad, sensibilidad y empatía. Al final del proceso, más de 2.400 respuestas fueron revisadas manualmente por expertos para determinar cuáles eran aceptables.
Los resultados ofrecen una perspectiva alentadora sobre el desarrollo futuro de sistemas de IA más eficientes en el campo médico; sin embargo, enfatizan que deben ser utilizados bajo supervisión médica para evitar confusiones o decisiones erróneas por parte del paciente.
Análisis del impacto del idioma en las respuestas generadas por IA
El estudio también examinó cómo el idioma influye en la capacidad de los LLMs para ofrecer respuestas adecuadas. Se descubrió que muchos modelos presentaban dificultades independientemente de su tamaño al abordar tareas específicas en diferentes idiomas. Curiosamente, ChatGPT mostró una mejora notable al responder en español.
En conclusión, los mejores desempeños fueron observados nuevamente en ChatGPT y Gemini tanto en inglés como en español, destacando así la importancia no solo del modelo utilizado sino también del contexto lingüístico al interactuar con estas tecnologías emergentes.