Utilizar modelos de lenguaje grandes para obtener asesoramiento médico y tomar decisiones médicas es una práctica arriesgada, advierte un nuevo estudio.

El estudio, realizado por investigadores de la Universidad de Oxford, proporcionó a 1.300 participantes afecciones médicas específicas desarrolladas por los médicos.

Luego, los participantes se dividieron en dos grupos: uno buscó asesoramiento médico de un LLM como ChatGPT de OpenAI, mientras que el otro recopiló información de fuentes tradicionales.

Los resultados mostraron una gran brecha entre los LLM y los usuarios.

Aunque los LLM se destacan en la comprensión de los medicamentos y las prácticas estándar, ayudar a los usuarios con sus problemas médicos requiere un nivel de comunicación que los LLM luchan por lograr.

«A pesar de todo el revuelo, la IA no está lista simplemente para asumir el papel del médico», explicó en un comunicado de prensa la Dra. Rebecca Payne, médica principal del estudio.

«Los pacientes deben ser conscientes de que preguntar a un modelo de lenguaje grande sobre sus síntomas puede ser peligroso, realizar un diagnóstico erróneo y no reconocer cuándo se necesita ayuda de emergencia».

Ruptura de la comunicación

Los resultados de las investigaciones han demostrado que los LLM no brindan mejores resultados que los métodos tradicionales de evaluación de condiciones médicas, como buscar información en Internet o utilizar el mejor criterio de un individuo.

Los LLM no siempre entendían lo que preguntaba un participante y los usuarios a menudo no sabían cómo proporcionar información precisa a los LLM.

Debido a la desconexión entre persona y máquina, es menos probable que los LLM brinden buenos consejos.

«Los sistemas de IA necesitan pruebas rigurosas»

Mientras tanto, los LLM suelen ofrecer una combinación de buenos y malos consejos. Sin la ayuda de un médico, los participantes del estudio a menudo no podían separar y distinguir los dos.

El autor principal Adam Mahdi, del Oxford Internet Institute, dijo que la brecha entre los LLM y los pacientes debería ser una «llamada de atención» para los desarrolladores y reguladores.

«No podemos confiar únicamente en pruebas estandarizadas para determinar si estos sistemas son seguros para uso público», dijo Mahdi. «Así como necesitamos ensayos clínicos para nuevos medicamentos, los sistemas de IA necesitan pruebas rigurosas con usuarios reales y diversos para comprender sus verdaderas capacidades en entornos de alto riesgo como la atención médica».

Un problema común

Consultar a un LLM para obtener asesoramiento médico es una práctica cada vez más común, particularmente en los Estados Unidos, donde la atención médica suele ser prohibitivamente costosa.

Más de una quinta parte de los estadounidenses admitieron haber seguido consejos de un chatbot que luego resultó ser incorrecto, según una encuesta publicada en septiembre por una plataforma de inteligencia artificial.

En otro estudio publicado en junio de 2025, los investigadores utilizaron herramientas de desarrollo para ver si podían programar LLM para proporcionar información falsa.

Descubrieron que podían hacerlo fácilmente y que los chatbots entregaban información errónea con confianza el 88 por ciento de las veces.

«Si estos sistemas pueden manipularse secretamente para dar consejos falsos o engañosos, podrían crear una nueva y poderosa vía para la desinformación que sea más difícil de detectar, más difícil de controlar y más persuasiva que cualquier cosa vista antes», advirtió en un comunicado el autor del estudio Natansh Modi, de la Universidad de Sudáfrica.

Semana de noticias Se contactó a los autores del estudio para solicitar comentarios por correo electrónico.

Enlace de origen