La búsqueda por desarrollar modelos de IA de vanguardia se ha vuelto cada vez más competitiva, impulsada por gigantes tecnológicos como OpenAI y Google. Sin embargo, el acceso restringido a chips avanzados y la limitada disponibilidad de capital han obligado a las empresas de IA chinas a buscar soluciones innovadoras.
En este contexto, el Instituto Zhiyuan (BAAI), una organización sin fines de lucro dedicada a impulsar la comunidad de IA en China, ha presentado su último modelo multimodal: Emu3. Esta nueva generación de modelos, lanzada en un evento en Beijing, se destaca por su arquitectura simple, que permite entrenar modelos capaces de comprender imágenes y producir videos.
El modelo Emu3 representa un avance significativo para BAAI, que en sus seis años de existencia ha logrado construir una reputación sólida en la comunidad de IA china. Wang Zhongyuan, director de BAAI, lo describe como la "mayor contribución tecnológica de los últimos años" de la organización.
La innovación clave de Emu3 radica en su arquitectura unificada, que convierte texto, imágenes y videos en "tokens". Un "token" es la unidad de datos más pequeña que un modelo de IA puede procesar, como palabras, partes de imágenes o cuadros de video. Esta arquitectura elimina la necesidad de combinar modelos específicos para diferentes tipos de datos, lo que simplifica y agiliza el entrenamiento de modelos de IA versátiles.
Los resultados de Emu3 son prometedores. BAAI afirma que este modelo supera a modelos específicos de tareas establecidas, como Stable Diffusion XL (generación de imágenes) y LLaVA (multimodal), en la comprensión y generación de imágenes.