0 Flash. Este modelo es capaz de generar imágenes y audio de manera nativa, además de texto, lo que lo convierte en una herramienta aún más poderosa para los desarrolladores.
Según Tulsee Doshi, jefa de producto de Gemini en Google, "Sabemos que Flash es extremadamente popular entre los desarrolladores por su equilibrio de velocidad y rendimiento. Y con 2.0 Flash, es tan rápido como siempre, pero ahora es aún más poderoso". El modelo 2.0 Flash es dos veces más rápido que el modelo Gemini 1.5 Pro en ciertas pruebas, según las propias pruebas de Google, y ha mejorado significativamente en áreas como la codificación y el análisis de imágenes.
Una de las características más destacadas de 2.0 Flash es su capacidad para generar y modificar imágenes junto con texto. El modelo también puede ingerir fotos y videos, así como grabaciones de audio, para responder preguntas sobre ellos. La generación de audio es otra característica clave de 2.0 Flash, y Doshi la describió como "dirigible" y "personalizable". Por ejemplo, el modelo puede narrar texto utilizando una de las ocho voces "optimizadas" para diferentes acentos y idiomas.
Google también está utilizando su tecnología SynthID para marcar todos los audios e imágenes generados por 2.0 Flash. En software y plataformas que admiten SynthID, los resultados del modelo serán marcados como sintéticos. Esto es para aliviar los temores de abuso, ya que los deepfakes son una amenaza creciente. Según el servicio de verificación de identidad Sumsub, hubo un aumento de 4 veces en los deepfakes detectados en todo el mundo desde 2023 hasta 2024.
La versión de producción de 2.0 Flash se lanzará en enero, pero mientras tanto, Google está lanzando una API, la Multimodal Live API, para ayudar a los desarrolladores a crear aplicaciones con funcionalidad de transmisión de audio y video en tiempo real. Utilizando la Multimodal Live API, Google dice que los desarrolladores pueden crear aplicaciones en tiempo real, multimodales con entradas de audio y video de cámaras o pantallas.
La Multimodal Live API admite la integración de herramientas para realizar tareas y puede manejar "patrones de conversación natural" como las interrupciones, al igual que la API Realtime de OpenAI. Con esta nueva herramienta, los desarrolladores podrán crear aplicaciones más innovadoras y poderosas que nunca antes.
En resumen, el modelo 2.0 Flash de Google es una herramienta poderosa que puede generar imágenes y audio de manera nativa, además de texto. Con su capacidad para generar y modificar imágenes, así como su capacidad para ingerir fotos y videos, este modelo es una herramienta valiosa para los desarrolladores. La tecnología SynthID de Google también ayuda a aliviar los temores de abuso, y la Multimodal Live API es una herramienta útil para crear aplicaciones en tiempo real, multimodales.