DeepSeek R1: La IA china que ESTREMECE Silicon Valley

...

El mundo de la tecnología está en vilo. Un evento ha sacudido los cimientos de la industria, generando olas de incertidumbre en Silicon Valley y más allá

Autor

Xavier Rivera Martinez el 28/01/2025 08:22 AM.
En ciencia y tecnología y editada el 28/01/2025 08:39 AM.

La innovación, la competencia global, y el futuro mismo de la inteligencia artificial están en juego.

El epicentro de esta sacudida es DeepSeek R1, un modelo de IA de código abierto desarrollado en China. Su aparición ha sido calificada por figuras como Marc Andreessen como un "momento Sputnik" del siglo XXI, una referencia a la carrera espacial que cambió el rumbo de la geopolítica.

Pero, ¿qué hace tan especial a DeepSeek R1? Dave Plummer, un ingeniero de software retirado de Microsoft con experiencia en la era de MS-DOS y Windows 95, nos ofrece una perspectiva única. Su análisis va más allá del simple anuncio: se adentra en las implicaciones económicas y tecnológicas de este desarrollo.

La clave reside en su costo. Se estima que el desarrollo de DeepSeek R1 costó menos de 6 millones de dólares, una cifra insignificante si se compara con los miles de millones invertidos por gigantes como OpenAI y Anthropic en modelos similares. Esto ha generado un terremoto en el mercado, impactando especialmente a empresas como NVIDIA y Microsoft. "Es como construir un Ferrari en tu garaje con partes de un Chevy", comenta Plummer, ilustrando la asombrosa eficiencia del proyecto chino.

Pero, ¿cómo lo lograron? La respuesta se encuentra en la destilación del modelo. En lugar de crear un modelo masivo con cientos de miles de millones de parámetros, DeepSeek R1 utiliza modelos pre-existentes, como GPT-4 de OpenAI o Llama de Meta, como "andamios" para entrenar un modelo más pequeño pero eficiente. Es como un maestro artesano enseñando a un aprendiz: no necesita que el aprendiz sepa todo, solo lo suficiente para realizar el trabajo.

Esta técnica permite que DeepSeek R1 funcione en hardware de consumo, desde una CPU de gama media hasta una laptop potente, o incluso en dispositivos más económicos. Esto representa un cambio radical, democratizando el acceso a la IA avanzada. Plummer, por ejemplo, menciona que puede ejecutar el modelo en su AMD Threadripper con una NVIDIA RTX 6000 Ada, obteniendo una tasa de generación de tokens superior a 4 por segundo, incluso en su MacBook Pro.

Sin embargo, la eficiencia tiene sus limitaciones. Los modelos más pequeños son más propensos a "alucinaciones", generando respuestas incorrectas con confianza. Además, heredan las deficiencias de sus modelos "maestros".

A pesar de estas limitaciones, DeepSeek R1 representa una innovación significativa. Su naturaleza de código abierto permite la detección de sesgos, y su accesibilidad podría revolucionar la industria, al estilo de la revolución de las PC. Esto presenta un desafío para las empresas estadounidenses, obligándolas a reconsiderar su estrategia en un mercado cada vez más competitivo y accesible.

El impacto en el mercado bursátil ya es evidente, con presiones a la baja en compañías que dependen de licencias de IA, infraestructura en la nube, y chips de NVIDIA. La posibilidad de que se trate de una estrategia a nivel estatal por parte de China también se debate, aunque su veracidad aún está por confirmarse.

DeepSeek R1, en resumen, es un modelo de IA eficiente, accesible y con un enorme potencial. Su impacto a largo plazo, sin embargo, está aún por verse.