Son el entrenamiento silencioso de máquinas que ahora hablan como humanos, sin pedir permiso.
Lo que empezó como una queja interna entre moderadores se convirtió en una batalla legal que podría redefinir quién posee lo que se dice en línea. Reddit no solo denunció a Perplexity, la startup de búsqueda con IA que responde preguntas como si supiera de qué se trata la vida real: también acusó a tres actores oscuros que operan en las grietas del web: Oxylabs, una firma lituana especializada en esquivar bloqueos; AWMProxy, un servicio vinculado a lo que redes de ciberseguridad describen como una antigua red de bots rusos; y SerpApi, una startup texana que vende acceso a datos como si fueran materia prima.
Según el expediente presentado en Nueva York, estos actores no solo rastreaban contenido público: lo hacían disfrazados, cambiando direcciones IP, falsificando agentes de usuario, y saltándose capas de protección que Reddit había construido con años de esfuerzo. El resultado: millones de publicaciones extraídas, clasificadas y vendidas como “entrenamiento” para modelos que ahora aparecen en búsquedas como respuestas definitivas.
Lo más impactante no es que lo hicieran, sino que lo hicieron después de que Reddit les pidiera que dejaran de hacerlo. Según documentos internos citados en la demanda, tras recibir una carta de cesación, Perplexity aumentó en un 400% el número de citas extraídas de foros de Reddit. No era un error técnico: era una estrategia.
Perplexity responde que no entrena modelos con esos datos, solo los resume. “No podemos firmar una licencia para lo que ya es público”, dice su declaración en el mismo foro que ahora acusa. Pero la ironía es cruel: si lo que hacen es solo resumir, ¿por qué sus respuestas suenan tan parecidas a las de un usuario de r/AskHistorians? ¿Por qué los patrones de lenguaje, las expresiones coloquiales, las metáforas de la cultura digital… coinciden tan perfectamente con lo que se dice en los subreddits?
Y aquí está el verdadero nudo: Reddit ya no es solo una comunidad. Es una mina de datos valiosa. En febrero, su COO reveló que los acuerdos de licencia con Google y OpenAI representan casi el 10% de sus ingresos. No es un modelo de publicidad. Es un modelo de propiedad. Y ahora, Perplexity —y otros como ella— están usando ese capital cultural sin pagar por él.
Lo que se discute hoy no es si el contenido debe ser libre. Es si lo que se construye colectivamente, con horas de dedicación, vulnerabilidad y conocimiento compartido, puede convertirse en la materia prima de empresas que ganan miles de millones sin reconocer a quienes la crearon.
