5 cosas que queremos ver en GPT-5

Resumen

GPT-5 necesita una ventana de contexto más grande para ser competitivo
La capacidad de entrada de video es crucial para el éxito de GPT-5
GPT-5 debe mejorar la velocidad de respuesta y el razonamiento lógico para una actualización importante

GPT-5 ha sido un tema candente durante bastante tiempo y el director ejecutivo de OpenAI, Sam Altman, recientemente hizo comentarios sobre el futuro del modelo GPT en el podcast de Lex Fridman. En ese podcast, afirmó que GPT-4 "apesta" ahora y que está esperando con ansias lo que viene después. Se negó a referirse a él como "GPT-5", pero un informe reciente deBusiness Insiderlo nombró como tal, y personas familiarizadas con el LLM se refirieron a él como "materialmente mejor" en comparación con GPT-4.

1Ventana de contexto más grande

Parte de lo que hace que Géminis sea tan poderoso

Ventana de contexto ampliada de Gemini 1.5 Pro

Fuente: Google

Una ventana de contexto es básicamente cuánto puede "ver" un LLM en un momento dado, y parte de lo que hace que Gemini sea tan poderoso es su capacidad de tener una ventana de contexto de hasta 10 millones de tokens. Si bien la cantidad de memoria requerida para eso es absurda, una ventana de contexto más grande sería increíble. GPT 4 tiene una ventana de contexto de 32K, y GPT-4 Turbo la eleva a 128K. Eso es bastante significativo, pero Google aún supera esta cifra significativamente con Gemini 1.5.

Como ya se mencionó, aquí hay limitaciones de memoria que la empresa tendría que resolver en el lado del servidor, pero hay avances en esta área que podrían hacer posible que lo hagan los usuarios finales.

Relacionado

Gemini 1.5 Ultra de Google tendrá que competir con GPT-5, no con GPT-4

El modelo Gemini 1.5 Pro de Google nos sorprendió, y el modelo Ultra podría ser aún mejor.

Posts

2Entrada de vídeo

Verdadera multimodalidad

Pedirle a ChatGPT que identifique una imagen de un gato con alas

GPT-4 con visión es un modelo que ya existe y puede interpretar datos visuales para luego usarlos en la toma de decisiones. El problema es que es demasiado lento para interpretar correctamente varias imágenes con la suficiente rapidez, lo que significa que la entrada de video está actualmente fuera de cuestión. Sería genial si OpenAI avanzara en esta área, lo que permitiría que GPT-5 realmente tenga en cuenta las entradas de video. Tengo esperanzas, en particular porque la empresa ha estado haciendo avances decentes en la IA de video en general, en particular con la presentación de Sora. Google también está trabajando en la entrada de video con Gemini 1.5, y parece prometedor.

Fotograma guardado del vídeo generado por Sora OpenAI de una mujer de Tokio caminando

Relacionado

Sora de OpenAI no es el fin del mundo... todavía

El nuevo modelo de video Sora de OpenAI aún no es el fin del mundo, aunque no está claro qué nos depara el futuro.

Posts

3Respuestas más rápidas

GPT-4 es mucho más lento que la competencia

Con el paso del tiempo, GPT-4 se ha vuelto demasiado lento a la hora de generar respuestas. Si bien es casi seguro que parte de esto se debe al aluvión de tráfico que OpenAI recibe a diario, competidores como Google y Anthropic logran responder mucho más rápido. OpenAI necesita mejorar los tiempos de generación de respuestas y, con suerte, GPT-5 puede ser un modelo más eficiente que pueda hacerlo.

Personalmente, esta es mi mayor queja sobre GPT-4 en este momento. Gemini Advanced de Google,en particular, es mucho más rápido que lo que puede ofrecer OpenAI, hasta el punto de que puedo generar una respuesta que sé que durará mucho en ambos servicios y Gemini terminará unminutomás rápido.

4Razonamiento lógico mejorado

GPT-4 está empezando a quedarse atrás

El razonamiento lógico es difícil para cualquier LLM, en particular porque son simplemente algoritmos de gestión de patrones glorificados. Pueden crear respuestas basadas en cosas que han visto antes, pero cualquier cosa que no sea eso es una suposición. En el caso de las matemáticas, los LLM tienen dificultades porque si una pregunta no está en su conjunto de entrenamiento, simplemente adivinan cuál debería ser la respuesta para completar los espacios vacíos.

El razonamiento lógico es algo que se debe mejorar enormemente para que OpenAI obtenga otra ventaja importante, ya que soluciones como Gemini Advanced de Google y Claude 3 Opus han logrado mejorar a pasos agigantados en esta área.

5Más integraciones de herramientas

Microsoft y Google tienen 365 y G Suite, pero ¿qué tiene OpenAI?

Cómo usar Copilot Pro para enviar un correo electrónico en Microsoft 365

Fuente: Microsoft

Si usa Microsoft Copilot Pro o Google Gemini Advanced, probablemente conozca las integraciones de herramientas que obtiene con ambos servicios. Copilot Pro tiene una integración completa con Microsoft 365 y Gemini Advanced tiene una integración completa con Google Suite. Esas son ventajas bastante importantes con respecto a la competencia, hasta el punto de que Copilot Pro es simplemente una mejor compra para la mayoría de las personas que ChatGPT Plus.

Con GPT-5, sería bueno ver ese cambio con más integraciones para otros servicios. Dado que la compatibilidad con complementos parece estar disminuyendo en favor de GPT personalizados, espero que la lista de ventajas que tiene OpenAI comience a disminuir, especialmente considerando que Copilot también tiene GPT personalizados. Me encantaría ver a OpenAI asociarse con otras empresas para presentar funciones exclusivas.

Relacionado

4 razones por las que Copilot Pro es mejor que ChatGPT Plus

Microsoft está utilizando los modelos de OpenAI para ofrecer el servicio de suscripción Copilot Pro y, aun así, es una mejor opción que ChatGPT Plus.

Posts

Se espera que GPT-5 sea grande

Estas son algunas de las cosas más importantes que espero que sucedan en la próxima versión de GPT, pero, para ser sincero, la empresa podría tomar cualquier dirección. Con los comentarios de Altman, que aparentemente indican que GPT-5 será una actualización importante, ciertamente tenemos esperanzas, pero no hay garantía de que la empresa logre recuperar la enorme ventaja que tenía sobre el resto de la industria cuando se lanzó ChatGPT por primera vez.