Resumen

  • Gemini 1.5 Flash se centra en la velocidad para tareas de alta frecuencia con capacidades de razonamiento multimodal en texto, imágenes y videos.
  • El modelo presenta la ventana de contexto larga de Google para manejar hasta 1 millón de tokens, extrayendo el conocimiento esencial de la versión Pro más grande.
  • El modelo Flash más pequeño se está posicionando como un competidor del GPT-4o de OpenAI, prometiendo respuestas más rápidas y una mejor usabilidad.

Google acaba de dar otro gran paso adelante en su era Gemini, con el lanzamiento de Gemini 1.5 Flash en la Google I/O de este año. Se trata de un modelo más pequeño de Gemini, orientado a tareas más específicas o de alta frecuencia, que se centra en la velocidad de entrega en lugar de en la calidad y el conocimiento profundo de las respuestas. Está disponible en más de 200 países en versión preliminar y estará disponible para el público en general en junio.

En qué se diferencia Gemini 1.5 Flash

Gemini 1.5 Flash se sitúa entre 1.5 Pro y 1.5 Nano, pero Google afirma que es tan potente como la variante Pro. Una de las características destacadas de Gemini 1.5 Flash es su capacidad de razonamiento multimodal. Puede procesar y razonar sobre distintos tipos de información, incluidos texto, imágenes y vídeos, lo que lo hace versátil para distintos tipos de tareas.

Lo que es aún más importante, Gemini 1.5 Flash, al igual que otros modelos de la familia Gemini, cuenta con la enorme ventana de contexto de Google, capaz de manejar hasta un millón de tokens. La "destilación" es el proceso que utiliza Google para transferir los conocimientos y las habilidades más esenciales del modelo más grande Gemini 1.5 Pro al modelo más pequeño Flash.

Gemini 1.5 Flash estará disponible para que más personas lo utilicen en el futuro, aunque todavía no se sabe a qué software y servicios llegará. Parece ser un competidor viable para GPT-4o de OpenAI, suponiendo que pueda responder más rápido o dar mejores respuestas, pero eso está por verse. La ventana de contexto de Google es la mayor novedad en este sentido, ya que 1 millón de tokens para un LLM multimodal le permite comprender una gran cantidad de datos de texto, imágenes, audio o video a la vez, algo que puede ser extremadamente útil para muchas personas.

Google publicará un informe técnico sobre Gemini 1.5 Flash, pero por ahora, puedesver cómo se compara en los puntos de referencia.

0:47
Relacionado
Probamos GPT-4o y es mucho más rápido que GPT-4

Si tienes curiosidad por saber cuánto más rápido es GPT-4o, la diferencia entre este y GPT-4 es asombrosa.