Planean envenenar a la IA contra ‘deep fakes’

Una nueva herramienta llamada Nightshade llega contra la falta de atención de las autoridades y la ausencia de regulación de la Inteligencia Artificial generativa que hurta rostros, imágenes, obras y tus datos

Planean envenenar a la IA contra ‘deep fakes’

CDMX

Los deepfakes pornográficos o sin autorización de una persona dañan reputaciones. El robo de imágenes con derechos de autor para crear otras imágenes, hurto de datos personales y obras debería ser un delito y regularse. Ante la falta de ello, artistas y personas que buscan luchar contra los graves daños que causan los modelos de inteligencia artificial generativa, hoy tienen una solución: envenenar a la IA.

Una nueva herramienta ha llegado contra la falta de atención de las autoridades y la falta de regulación de la IA Generativa que roba tu rostro, tu imagen, tu obra, tus datos, y agregar cambios invisibles a los pixeles de un arte o video antes de subirlo en línea, de modo que si se incluye en un conjunto de entrenamiento de IA, puede causar que el modelo resultante se rompa de manera caótica e impredecible.

La herramienta, Nightshade, pretende ser una forma muy tecnológica de luchar contra las empresas de inteligencia artificial que utilizan el trabajo de los artistas para entrenar sus modelos sin el permiso del creador, o para evitar deepfakes que ponen en riesgo a una persona o socavan su reputación.

Usarlo para “envenenar” estos datos de entrenamiento podría dañar futuras iteraciones de modelos de IA generadores de imágenes, como DALL-E, Midjourney y Stable Diffusion, al inutilizar algunos de sus resultados: los perros se convierten en gatos, los automóviles en vacas, etc.

Empresas de inteligencia artificial como OpenAI, Meta, Google y Stability AI se enfrentan a una serie de demandas de artistas que afirman que su material protegido por derechos de autor y su información personal fueron eliminados sin consentimiento ni compensación. Ben Zhao, profesor de la Universidad de Chicago, que dirigió el equipo que creó Nightshade, dice que la esperanza es que ayude a inclinar el equilibrio de poder de las empresas de inteligencia artificial hacia los artistas, al crear un poderoso elemento disuasorio contra la falta de respeto a los derechos de autor e intelectuales de los artistas.

El equipo de Zhao también desarrolló Glaze, una herramienta que permite a los artistas “enmascarar” su estilo personal para evitar que las empresas de inteligencia artificial lo eliminen. Funciona de manera similar a Nightshade, cambiando los píxeles de las imágenes de maneras sutiles que son invisibles para el ojo humano, pero manipulan modelos de aprendizaje automático para interpretar la imagen como algo diferente de lo que realmente muestra.

El equipo tiene la intención de integrar Nightshade en Glaze y los artistas pueden elegir si quieren utilizar la herramienta de envenenamiento de datos o no. El equipo también está haciendo que Nightshade sea de código abierto, lo que permitiría a otros jugar con él y crear sus propias versiones. “Cuanta más gente la use y cree sus propias versiones, más poderosa se vuelve la herramienta”, dice Zhao.

Los conjuntos de datos para grandes modelos de IA pueden consistir en miles de millones de imágenes, por lo que cuantas más imágenes envenenadas se puedan incorporar al modelo, más daño causará la técnica.

INFECCIÓNLos modelos de IA generativa son excelentes para establecer conexiones entre palabras, lo que ayuda a que el veneno se propague. Nightshade infecta no sólo la palabra “perro”, sino todos los conceptos similares, como “cachorro”, “husky” y “lobo”. El ataque de veneno también funciona con imágenes relacionadas tangencialmente. Por ejemplo, si el modelo extrajo una imagen envenenada para el mensaje “arte de fantasía”, los mensajes “dragón” y “un castillo en El Señor de los Anillos” serían manipulados de manera similar para convertirlos en otra cosa.

Zhao admite que existe el riesgo de que las personas abusen de la técnica de envenenamiento de datos para usos maliciosos. Sin embargo, dice que los atacantes necesitarían miles de muestras envenenadas para infligir un daño real a modelos más grandes y potentes, ya que están entrenados con miles de millones de muestras de datos.

“Aún no conocemos defensas sólidas contra estos ataques. Todavía no hemos visto ataques de envenenamiento en modelos modernos (de aprendizaje automático) en la naturaleza, pero podría ser sólo una cuestión de tiempo”, agrega Vitaly Shmatikov, profesor de la Universidad de Cornell que estudia la seguridad de los modelos de IA.

“Ahora es el momento de trabajar en las defensas”, añade.

¿CÓMO FUNCIONA EL VENENO?Los generadores de texto a imagen funcionan entrenándose en grandes conjuntos de datos que incluyen millones o miles de millones de imágenes. Algunos generadores, como los que ofrecen Adobe o Getty, sólo se entrenan con imágenes que el fabricante del generador posee o tiene licencia para usar.

Pero otros generadores han sido entrenados extrayendo indiscriminadamente imágenes en línea, muchas de las cuales pueden estar protegidas por derechos de autor. Aquí es donde entra en juego la idea del “veneno”.

Nightshade funciona alterando sutilmente los pixeles de una imagen de una manera que causa estragos en la visión por computadora pero deja la imagen inalterada a los ojos de un ser humano.

Si una organización extrae una de estas imágenes para entrenar un futuro modelo de IA, su conjunto de datos se “envenena”. Esto puede provocar que el algoritmo aprenda por error a clasificar una imagen como algo que un humano sabría visualmente que no es cierto. Como resultado, el generador puede comenzar a arrojar resultados impredecibles y no deseados.

¿ANTÍDOTO?Las partes interesadas han propuesto una gama de soluciones tecnológicas y humanas. La más obvia es prestar mayor atención a de dónde provienen los datos de entrada y cómo se pueden utilizar, es decir, transparentar el algoritmo. Hacerlo daría como resultado una recopilación de datos menos indiscriminada.

Otras soluciones tecnológicas también incluyen el uso de “modelado de conjuntos”, donde se entrenan diferentes modelos en muchos subconjuntos diferentes de datos y se comparan para localizar valores atípicos específicos. Este enfoque se puede utilizar no sólo para el entrenamiento sino también para detectar y descartar imágenes sospechosas de “envenenar”.

Las auditorías son otra opción. Un enfoque de auditoría implica desarrollar una “batería de pruebas” (un conjunto de datos pequeño, altamente seleccionado y bien etiquetado) utilizando datos “reservados” que nunca se utilizan para capacitación. Este conjunto de datos se puede utilizar luego para examinar la precisión del modelo.

Muchos proveedores de tecnología consideran que el envenenamiento de datos es un problema molesto que debe solucionarse con tecnología. Sin embargo, tal vez sea mejor ver el envenenamiento de datos como una solución innovadora a una intrusión en los derechos fundamentales de artistas y usuarios.

Comparte esta noticia