Resumen
- GPT-5 necesita una ventana de contexto más grande para ser competitivo
- La capacidad de entrada de video es crucial para el éxito de GPT-5
- GPT-5 debe mejorar la velocidad de respuesta y el razonamiento lógico para una actualización importante
GPT-5 ha sido un tema candente durante bastante tiempo y el director ejecutivo de OpenAI, Sam Altman, recientemente hizo comentarios sobre el futuro del modelo GPT en el podcast de Lex Fridman. En ese podcast, afirmó que GPT-4 "apesta" ahora y que está esperando con ansias lo que viene después. Se negó a referirse a él como "GPT-5", pero un informe reciente deBusiness Insiderlo nombró como tal, y personas familiarizadas con el LLM se refirieron a él como "materialmente mejor" en comparación con GPT-4.
1Ventana de contexto más grande
Parte de lo que hace que Géminis sea tan poderoso
Una ventana de contexto es básicamente cuánto puede "ver" un LLM en un momento dado, y parte de lo que hace que Gemini sea tan poderoso es su capacidad de tener una ventana de contexto de hasta 10 millones de tokens. Si bien la cantidad de memoria requerida para eso es absurda, una ventana de contexto más grande sería increíble. GPT 4 tiene una ventana de contexto de 32K, y GPT-4 Turbo la eleva a 128K. Eso es bastante significativo, pero Google aún supera esta cifra significativamente con Gemini 1.5.
Como ya se mencionó, aquí hay limitaciones de memoria que la empresa tendría que resolver en el lado del servidor, pero hay avances en esta área que podrían hacer posible que lo hagan los usuarios finales.
Gemini 1.5 Ultra de Google tendrá que competir con GPT-5, no con GPT-4
El modelo Gemini 1.5 Pro de Google nos sorprendió, y el modelo Ultra podría ser aún mejor.
2Entrada de vídeo
Verdadera multimodalidad
GPT-4 con visión es un modelo que ya existe y puede interpretar datos visuales para luego usarlos en la toma de decisiones. El problema es que es demasiado lento para interpretar correctamente varias imágenes con la suficiente rapidez, lo que significa que la entrada de video está actualmente fuera de cuestión. Sería genial si OpenAI avanzara en esta área, lo que permitiría que GPT-5 realmente tenga en cuenta las entradas de video. Tengo esperanzas, en particular porque la empresa ha estado haciendo avances decentes en la IA de video en general, en particular con la presentación de Sora. Google también está trabajando en la entrada de video con Gemini 1.5, y parece prometedor.
Sora de OpenAI no es el fin del mundo... todavía
El nuevo modelo de video Sora de OpenAI aún no es el fin del mundo, aunque no está claro qué nos depara el futuro.
3Respuestas más rápidas
GPT-4 es mucho más lento que la competencia
Con el paso del tiempo, GPT-4 se ha vuelto demasiado lento a la hora de generar respuestas. Si bien es casi seguro que parte de esto se debe al aluvión de tráfico que OpenAI recibe a diario, competidores como Google y Anthropic logran responder mucho más rápido. OpenAI necesita mejorar los tiempos de generación de respuestas y, con suerte, GPT-5 puede ser un modelo más eficiente que pueda hacerlo.
Personalmente, esta es mi mayor queja sobre GPT-4 en este momento. Gemini Advanced de Google,en particular, es mucho más rápido que lo que puede ofrecer OpenAI, hasta el punto de que puedo generar una respuesta que sé que durará mucho en ambos servicios y Gemini terminará unminutomás rápido.
4Razonamiento lógico mejorado
GPT-4 está empezando a quedarse atrás
El razonamiento lógico es difícil para cualquier LLM, en particular porque son simplemente algoritmos de gestión de patrones glorificados. Pueden crear respuestas basadas en cosas que han visto antes, pero cualquier cosa que no sea eso es una suposición. En el caso de las matemáticas, los LLM tienen dificultades porque si una pregunta no está en su conjunto de entrenamiento, simplemente adivinan cuál debería ser la respuesta para completar los espacios vacíos.
El razonamiento lógico es algo que se debe mejorar enormemente para que OpenAI obtenga otra ventaja importante, ya que soluciones como Gemini Advanced de Google y Claude 3 Opus han logrado mejorar a pasos agigantados en esta área.
5Más integraciones de herramientas
Microsoft y Google tienen 365 y G Suite, pero ¿qué tiene OpenAI?
Si usa Microsoft Copilot Pro o Google Gemini Advanced, probablemente conozca las integraciones de herramientas que obtiene con ambos servicios. Copilot Pro tiene una integración completa con Microsoft 365 y Gemini Advanced tiene una integración completa con Google Suite. Esas son ventajas bastante importantes con respecto a la competencia, hasta el punto de que Copilot Pro es simplemente una mejor compra para la mayoría de las personas que ChatGPT Plus.
Con GPT-5, sería bueno ver ese cambio con más integraciones para otros servicios. Dado que la compatibilidad con complementos parece estar disminuyendo en favor de GPT personalizados, espero que la lista de ventajas que tiene OpenAI comience a disminuir, especialmente considerando que Copilot también tiene GPT personalizados. Me encantaría ver a OpenAI asociarse con otras empresas para presentar funciones exclusivas.
4 razones por las que Copilot Pro es mejor que ChatGPT Plus
Microsoft está utilizando los modelos de OpenAI para ofrecer el servicio de suscripción Copilot Pro y, aun así, es una mejor opción que ChatGPT Plus.
Se espera que GPT-5 sea grande
Estas son algunas de las cosas más importantes que espero que sucedan en la próxima versión de GPT, pero, para ser sincero, la empresa podría tomar cualquier dirección. Con los comentarios de Altman, que aparentemente indican que GPT-5 será una actualización importante, ciertamente tenemos esperanzas, pero no hay garantía de que la empresa logre recuperar la enorme ventaja que tenía sobre el resto de la industria cuando se lanzó ChatGPT por primera vez.