Una investigación del diario británico The Guardian reveló que los resúmenes generados automáticamente con Inteligencia Artificial (IA) que aparecen en los primeros resultados de Google, llamados AI Overviews, pueden ofrecer información médica engañosa, incompleta o potencialmente dañina para los usuarios.
Según expertos consultados por el medio británico, este tipo de errores podrían llevar a las personas a subestimar condiciones graves o a retrasar la búsqueda de atención médica profesional.
En el análisis, el diario examinó decenas de consultas médicas comunes, desde pruebas de laboratorio hasta síntomas y tratamientos de enfermedades graves.
Lee también: La peligrosa condescendencia de ChatGPT
Uno de los ejemplos más críticos identificados por la investigación está relacionado con los rangos “normales” en pruebas de función hepática. Los resúmenes mostrados por la IA no tenían en cuenta variables fundamentales como edad, sexo o antecedentes médicos, lo que podría generar una falsa sensación de seguridad en pacientes con enfermedades hepáticas avanzadas.
En otros casos se detectaron imprecisiones en información sobre detección de cáncer, nutrición para pacientes oncológicos y síntomas que requieren atención urgente. De hecho, las búsquedas en Google de respuestas sobre pruebas de cáncer en mujeres también proporcionaron información “completamente errónea”, lo que según los expertos podría provocar que las personas desestimen síntomas genuinos.
The Guardian también descubrió que Google AI Overviews arrojaba resultados engañosos en búsquedas sobre enfermedades mentales. En algunos de los resúmenes de IA para afecciones como la psicosis y los trastornos alimentarios ofrecían “consejos muy peligrosos” y eran “incorrectos, dañinos o podían llevar a las personas a evitar buscar ayuda”, dijo Buckley.
¿Qué dice Google?
Tras la publicación de la investigación, Google aseguró que “la gran mayoría de sus Reseñas de IA eran objetivas y útiles, y que realizaba mejoras de calidad continuamente. La precisión de las Reseñas de IA era comparable a la de otras funciones de búsqueda, como los fragmentos destacados, que existían desde hacía más de una década”.
“Invertimos significativamente en la calidad de las descripciones generales de IA, en particular para temas como la salud, y la gran mayoría proporciona información precisa”, detalló un portavoz de Google.
No obstante, la empresa reconoció que algunos ejemplos señalados por la investigación no cumplían con sus estándares de calidad, y confirmó que ciertos resúmenes de IA fueron retirados o ajustados tras ser identificados como problemáticos. Al respecto, Google explicó que sus sistemas están en constante evolución y que utiliza tanto revisiones humanas como señales automatizadas para detectar errores, especialmente en áreas consideradas de alto riesgo, como la salud.La situación con Google es muy similar a la de otros modelos de IA, como ChatGPT que sugirió a un anciano remplazar la sal de mesa por bromuro de sodio y la plataforma de telemedicina Hims & Hers Health, Inc. que enfrenta una demanda por acciones irresponsables precias al suicidio de un adolescente. Todos tienen en común la alta confianza que tienen los modelos de IA en la población general y la ausencia de mecanismos efectivos para contextualizar, limitar o advertir sobre el uso de estas respuestas en escenarios de alto riesgo, como la salud, donde una recomendación incorrecta puede tener consecuencias graves.