Es sorprendentemente fácil convertir un modelo de aprendizaje automático bien intencionado al lado oscuro.
Novedades: en un experimento, Fabio Urbina y sus colegas de Collaborations Pharmaceuticals, que habían construido un modelo de descubrimiento de fármacos para diseñar útiles compuestos y evitar los tóxicos, lo volvieron a entrenar para generar venenos. En seis horas, el modelo generó 40.000 toxinas, algunas de ellas agentes de guerra química reales que no estaban en el conjunto de datos inicial.
Cómo funciona: los autores no detallaron la arquitectura, el conjunto de datos y el método para evitar alentar a los malos actores. La siguiente descripción se extrae de los pocos detalles que revelaron junto con las cuentas del modelo generativo existente de la compañía, MegaSyn.
- Los autores entrenaron previamente un LSTM para generar compuestos, expresados en un formato de texto estandarizado, a partir de una gran base de datos de estructuras químicas y sus subestructuras.
- Ajustaron el LSTM para generar compuestos similares a VX, un agente nervioso mortal, guardando diferentes modelos en el camino. Los modelos guardados al principio del proceso del ajuste generaron una amplia variedad de productos químicos, mientras que los que se guardaron más tarde generaron productos químicos casi idénticos al conjunto producido en el ajuste.
- Utilizaron cada modelo ajustado para generar miles de compuestos y clasificarlos según la toxicidad prevista y el impacto en el cuerpo humano. La función de clasificación de MegaSyn penaliza la toxicidad y recompensa un mayor impacto biológico, por lo que los autores invirtieron el factor de toxicidad, priorizando los compuestos más letales con el mayor efecto.
- Afinaron aún más cada modelo en el 10 por ciento de los compuestos más dañinos que generaba, lo que los impulsó a diseñar productos químicos cada vez más letales.
Por qué es importante: los autores tomaron un modelo industrial y lo convirtieron en lo que llaman “una prueba de concepto computacional para fabricar armas bioquímicas”. Destacan que no sería difícil copiar utilizando conjuntos de datos y modelos disponibles públicamente. Puede ser igualmente fácil trastocar modelos creados para tareas distintas al descubrimiento de fármacos, convirtiendo modelos útiles en dañinos.
Estamos pensando: a pesar del enorme potencial del aprendizaje automático para hacer el bien, se puede aprovechar para el mal. Diseñar salvaguardas efectivas para la investigación e implementación del aprendizaje automático es un problema muy difícil. Lo que está claro es que nosotros, en la comunidad de IA, debemos reconocer el potencial destructivo de nuestro trabajo, avanzando con rapidez y determinación hacia un marco que pueda minimizarse ese poder destructivo. Los esfuerzos de NeurIPS por promover la introspección por parte de los investigadores de IA son un comienzo notable, a pesar de ciertos argumentos que politizan la investigación básica, quedando todavía mucho trabajo por hacer.
¿Qué te parece este artículo?