El estudiante de medicina e investigador Faisal Elali de la Universidad Estatal de Nueva York Downstate Health Sciences University y la escritora e investigadora médica Leena Rachid del New York-Presbyterian/Weill Cornell Medical Center querían ver si la inteligencia artificial podía escribir un artículo de investigación inventado y luego investigar la mejor manera de detectarlo.
La inteligencia artificial es una parte cada vez más valiosa y vital de la investigación científica. Se utiliza como una herramienta para analizar conjuntos de datos complicados, pero nunca se utiliza para generar el documento real para su publicación. Los trabajos de investigación generados por IA , por otro lado, pueden parecer convincentes incluso cuando se basan en un estudio completamente inventado. Pero exactamente, ¿qué tan convincente?
En un artículo publicado en la revista de acceso abierto Patterns , el dúo de investigadores demostró la viabilidad de fabricar un artículo de investigación utilizando ChatGPT, un modelo de lenguaje basado en IA. Simplemente preguntando, pudieron hacer que ChatGPT produjera una serie de resúmenes bien escritos y completamente inventados. Un estafador hipotético podría enviar estos resúmenes falsos a múltiples revistas que buscan su publicación. Si se acepta, el mismo proceso podría usarse para escribir un estudio completo con datos falsos, participantes inexistentes y resultados sin sentido. Sin embargo, podría parecer legítimo, especialmente si el tema es particularmente abstracto o no ha sido examinado por un experto en el campo específico.
En un experimento anterior citado en el documento actual, a los humanos se les dieron resúmenes creados por humanos y generados por IA para que los consideraran. En ese experimento, los humanos identificaron incorrectamente el 32% de los resúmenes de investigación generados por IA como reales y el 14% de los resúmenes escritos por humanos como falsos.
El equipo de investigación actual decidió probar su estudio fabricado ChatGPT contra tres detectores de IA en línea. Los textos fueron identificados abrumadoramente como generados por IA, lo que sugiere que la adopción de herramientas de detección de IA por parte de las revistas podría ser un desvío exitoso de aplicaciones fraudulentas. Sin embargo, cuando tomaron el mismo texto y lo pasaron primero por una herramienta de reformulación gratuita, en línea y alimentada por IA, el consenso cambió unánimemente a «probablemente humano», lo que sugiere que necesitamos mejores herramientas de detección de IA.
La ciencia real es un trabajo duro, y comunicar los detalles de ese trabajo es un aspecto crucial de la ciencia que requiere un esfuerzo sustancial. Pero cualquier simio en su mayoría sin pelo puede unir palabras que suenan sensatas si se les da suficiente tiempo y café, como puede atestiguar firmemente el autor de este artículo. Crear un estudio falso con suficientes detalles para parecer creíble requeriría un gran esfuerzo, requeriría horas de investigación sobre la mejor manera de sonar creíble, y podría ser una tarea demasiado tediosa para alguien interesado en travesuras maliciosas. Con AI completando la tarea en minutos, esa travesura podría convertirse en un objetivo completamente alcanzable. Como señalan los investigadores en su artículo, esa travesura podría tener terribles consecuencias.
Ellos dan un ejemplo de un estudio legítimo que apoya el uso de la droga A sobre la droga B para el tratamiento de una condición médica . Ahora, supongamos que un estudio fabricado hace la afirmación opuesta y no se detecta (como nota al margen, incluso si se detecta, recuperar citas y reimpresiones de estudios retractados es notoriamente difícil). Podría tener un impacto en metanálisis posteriores y revisiones sistemáticas de estos estudios, estudios que guían las políticas de atención médica, los estándares de atención y las recomendaciones clínicas.
Más allá del simple motivo de la travesura, los autores del artículo señalan la presión sobre los profesionales médicos para que produzcan rápidamente un gran volumen de publicaciones para obtener fondos para la investigación o acceder a puestos profesionales más altos. En parte, señalan que el Examen de Licencias Médicas de los Estados Unidos cambió recientemente de un examen calificado a un modelo de aprobación/reprobación, lo que significa que los estudiantes ambiciosos confían más en las investigaciones publicadas para distinguirse del resto. Esto aumenta las posibilidades de un sistema de detección de IA confiable para eliminar la investigación médica potencialmente fraudulenta que podría contaminar el entorno de publicación o, peor aún, los profesionales que envían documentos fraudulentos de la práctica con pacientes.
El objetivo de los modelos de lenguaje de IA ha sido durante mucho tiempo producir textos que no se puedan distinguir del texto humano. Que necesitemos una IA que pueda detectar cuándo un ser humano está usando IA para producir un trabajo fraudulento que no se puede distinguir de la realidad no debería sorprendernos. Lo que podría ser sorprendente es que podamos necesitarlo tan pronto.