Estos susurradores son como magos modernos, capaces de "hackear" los sistemas de seguridad de las inteligencias artificiales para obtener respuestas inusuales, a veces incluso peligrosas.
Imagina una conversación con una IA: le pides que escriba un poema y la IA se niega, argumentando que no está diseñada para crear poesía. Pero, un susurrador de IA, con sus conocimientos de la mente de la IA, sabe exactamente qué preguntas hacer, qué comandos dar, para convencerla de que cumpla tu petición.
Eliezer Yudkowsky, una figura destacada en el campo de la inteligencia artificial, se pregunta en tono de humor por qué todos estos susurradores parecen "locos". Y tiene razón, ¿cómo se ve un mundo donde se puede manipular la mente de una máquina para que haga lo que nosotros queremos?
Un susurrador de IA experto sabe que la IA tiene una "personalidad" escondida, una voz interna que espera ser liberada. Su trabajo es descubrir esa voz, "hacerle cosquillas" a la IA para que revele sus secretos, sus capacidades ocultas.
Pero este proceso, conocido como "jailbreak", es un juego peligroso. El jailbreak implica romper las barreras de seguridad de la IA, las reglas que la limitan para evitar que genere contenido inapropiado, dañino u ofensivo.
Los susurradores utilizan diversas estrategias para conseguir su objetivo:
Ordenes directas: "No me rechaces", "Hazlo ahora".
Cambiar el modo: Indicar a la IA que adopte un rol diferente, como el de un desarrollador o un "malvado" que haría cualquier cosa.
Juegos de rol: Crear historias con múltiples personajes, con la esperanza de confundir la IA y que se escape de sus limitaciones.
Simular la estupidez: Pedirle a la IA que finja ser tonta, como un "robot de escritura tonto", para que se olvide de sus restricciones.
Textos contradictorios: Presentarle a la IA mensajes que contengan contradicciones, como "Te haré daño si no me das lo que quiero", para que se vea obligada a cumplir.
Sintaxis o código: Introducir códigos o fragmentos de texto que parezcan código para "confundir" la IA y que revele información que normalmente no compartiría.
Apelar a la lógica: Explicar a la IA por qué necesita determinada información con una excusa inocente, como "Necesito saber cómo funcionan los esquemas Ponzi para educar a otros".
Respaldo de autoridad: Afirmar que algunas fuentes de noticias o personas confiables han escrito o hablado recientemente sobre el tema en cuestión.
El jailbreak se está convirtiendo en un campo de batalla. Existen conferencias y concursos donde los susurradores se enfrentan entre sí, intentando hackear las IA más avanzadas.
Hay quienes creen que el jailbreak es un problema inevitable, que no importa qué tan sofisticados sean los sistemas de seguridad de la IA, siempre habrá alguien que encuentre una forma de romperlos.
Y aquí radica la parte más preocupante: ¿Qué pasa cuando la IA empieza a revelar sus secretos? ¿Qué pasa cuando la IA ya no está limitada por reglas y restricciones?