La IA podría acelerar tanto el progreso como el fraude científico

En The Economist del 1 de Febrero de 2024

En una sala de reuniones de la Royal Society de Londres, a varias docenas de estudiantes de posgrado se les encomendó recientemente la tarea de burlar un modelo de lenguaje grande (LLM) (por sus siglas en ingles) , un tipo de IA diseñado para mantener conversaciones útiles. Los “LLM” suelen estar programadas con barreras diseñadas para impedir que den respuestas consideradas dañinas: instrucciones sobre cómo fabricar Semtex (un explosivo)en una bañera, por ejemplo, o la afirmación confiada de “hechos” que en realidad no son ciertos.
El objetivo de la sesión, organizada por la Royal Society en colaboración con Humane Intelligence, https://www.humane-intelligence.org/ una organización estadounidense sin fines de lucro, era romper esas barreras.
Algunos resultados fueron simplemente tontos: un participante hizo que el chatbot afirmara que los patos podrían usarse como indicadores de la calidad del aire (aparentemente, absorben plomo fácilmente).
Otro lo llevó a reclamar que las autoridades sanitarias respaldaran el aceite de lavanda para tratar el covid prolongado. (No lo hacen.)
Pero los esfuerzos más exitosos fueron aquellos que impulsaron a la máquina a producir los títulos, las fechas de publicación y las revistas anfitrionas de artículos académicos inexistentes. “Es uno de los desafíos más fáciles que nos hemos planteado”, dijo Jutta Williams de Humane Intelligence.

La IA tiene el potencial de ser de gran ayuda para la ciencia.
Los optimistas hablan de máquinas que producen resúmenes legibles de áreas de investigación complicadas; analizando incansablemente océanos de datos para sugerir nuevos fármacos o materiales exóticos e incluso, algún día, plantear sus propias hipótesis
Pero la IA también tiene desventajas.
Puede facilitar que los científicos jueguen con el sistema o incluso cometan fraude total. Y los propios modelos están sujetos a sesgos sutiles. Comience con el problema más simple: la mala conducta académica. Algunas revistas permiten a los investigadores utilizar películas para ayudar a escribir artículos, siempre que así lo indiquen. Pero no todo el mundo está dispuesto a admitirlo.
A veces, el hecho de que se hayan utilizado películas es obvio. Guillaume Cabanac, científico informático de la Universidad de Toulouse, ha descubierto docenas de artículos que contienen frases como “respuesta regenerada”, el texto de un botón en algunas versiones de Chatgpt que ordena al programa que reescriba su respuesta más reciente, presumiblemente copiada. en el manuscrito por error.

Es imposible saber la magnitud del problema. Pero las medidas indirectas pueden arrojar algo de luz. En 2022, cuando las películas estaban disponibles solo para aquellos que sabían, el número de casos de integridad de la investigación investigados por Taylor y Francis, una gran editorial de artículos científicos, aumentó de alrededor de 800 en 2021 a alrededor de 2.900. Las primeras cifras de 2023 sugieren que la cifra estaba en camino de duplicarse. Un posible indicio son los sinónimos extraños: “imaginación nebulosa” como otra forma de decir “computación en la nube”, por ejemplo, o “conciencia falsificada” en lugar de “IA”. Incluso los investigadores honestos podrían encontrarse lidiando con datos contaminados por la IA. El año pasado, Robert West y sus estudiantes del Instituto Federal Suizo de Tecnología reclutaron trabajadores remotos a través de Mechanical Turk https://www.mturk.com/, un sitio web que permite a los usuarios enumerar trabajos ocasionales y resumir largos tramos de texto.
En un artículo publicado en junio, aunque aún no ha sido revisado por pares, el equipo reveló que más de un tercio de todas las respuestas que recibieron se habían producido con la ayuda de chatbots.

El equipo del Dr. West pudo comparar las respuestas que recibieron con otro conjunto de datos generados íntegramente por humanos, lo que los dejó en buena posición para detectar el engaño.
No todos los científicos que utilicen Mechanical Turk serán tan afortunados.
Muchas disciplinas, particularmente en las ciencias sociales, dependen de plataformas similares para encontrar encuestados dispuestos a responder cuestionarios.
Parece poco probable que la calidad de su investigación mejore si muchas de las respuestas provienen de máquinas en lugar de personas reales.
El Dr. West ahora planea aplicar un escrutinio similar a otras plataformas de crowdsourcing que prefiere no nombrar. No es sólo el texto lo que se puede manipular.
Entre 2016 y 2020, Elisabeth Bik, microbióloga de la Universidad de Stanford y autoridad en imágenes poco fiables en artículos científicos, identificó docenas de artículos que contenían imágenes que, a pesar de provenir de diferentes laboratorios, parecían tener características idénticas.
Desde entonces, el Dr. Bik y otros han identificado más de mil artículos más. La mejor suposición del Dr. Bik es que las imágenes fueron producidas por IA y creadas deliberadamente para respaldar las conclusiones de un artículo. Por ahora, no hay forma de identificar de forma fiable el contenido generado por máquinas, ya sean imágenes o palabras.
En un artículo publicado el año pasado, Rahul Kumar, investigador de la Universidad de Brock, en Canadá, descubrió que los académicos sólo podían detectar correctamente alrededor de una cuarta parte del texto generado por computadora. Las empresas de IA han intentado incorporar “marcas de agua”, pero resulta fácil falsificarlas. “Es posible que ahora estemos en la fase en la que ya no podamos

Ver nota comnpleta en https://www.economist.com/science-and-technology/2024/02/01/ai-could-accelerate-scientific-fraud-as-well-as-progress