Resumen
- Los modelos de IA multimodales marcarán el comienzo de una nueva era de aplicaciones de IA altamente intuitivas y dinámicas.
- Los teléfonos inteligentes de Google y Samsung ya utilizan tecnología de inteligencia artificial multimodal.
- Los modelos de IA multimodales de código abierto reducirán la barrera de entrada e impulsarán una adopción generalizada en 2024.
- Los NPC de videojuegos de próxima generación y las experiencias de realidad virtual impulsadas por IA multimodal serán emocionantes y de gran alcance.
El año 2023 fue el de los grandes modelos de lenguaje (LLM) de IA comoChatGPT, Google Bard y muchos más. Fue un año frenético y sin precedentes de desarrollos de IA liderados por nuevas tecnologías que la gente no había experimentado antes. Ya sea que creas que ChatGPT, el chatbot de IA original, reina supremo o estés confundido entreChatGPT vs Microsoft Copilot vs Google Bard, probablemente no estés preparado para lo que está por venir este año.
Por más impresionantes que sean ChatGPT, DALL-E, MusicLM y otros innumerables modelos de IA, siguen siendo unimodales (aceptan un único modo de entrada, normalmente texto). Pero la IA multimodal será un punto de inflexión en este espacio naciente. Con la capacidad de gestionar múltiples entradas como texto, voz, vídeo, térmicas y más, los modelos de IA multimodales como GPT-4V,Google Geminiy Meta ImageBind están preparados para marcar el comienzo de una nueva e innovadora era de aplicaciones de IA intuitivas y dinámicas.
La IA multimodal ya está aquí
Probablemente esté en tu teléfono.
Puede que no lo sepas, pero la IA multimodal lleva bastante tiempo en desarrollo, y los pesos pesados más importantes, como Google, Meta y OpenAI, han sido algunos de los primeros en adoptarla. Incluso es probable que tu teléfono tenga algún tipo de IA multimodal si utilizas uno de los dispositivos de la serieGoogle Pixel 8oSamsung Galaxy S24. Mientras que Google utiliza su nuevo modelo Gemini en los teléfonos Pixel, Samsung utiliza Gemini y alguna tecnología propia en lo que llaman Galaxy AI.
Google está planeando llevar Gemini a Google Search, Google Chrome, Google Ads y Duet AI.
Actualmente, estos teléfonos se limitan a unos pocos casos de uso impresionantes, como la traducción e interpretación en vivo durante las llamadas, las funciones de asistencia por chat y la edición generativa en fotos. Pero Google planea llevar Gemini a Google Search, Google Chrome, Google Ads y Duet AI (para espacios de trabajo colaborativos). Otros modelos de IA multimodal destacados, como GPT-4V, ya están siendo utilizados por los clientes de ChatGPT Plus.
Además de los teléfonos, veremos muchos otros productos que aprovechan la inteligencia artificial multimodal, como el asistente de inteligencia artificial para el hogar inteligente de LG Electronics, que puede ser el administrador de su hogar y su compañero inteligente gracias a su capacidad de analizar múltiples entradas y participar en conversaciones complejas. Samsung también presenta su propio asistente robot, Ballie, actualizado con nuevas capacidades de inteligencia artificial que le permiten aprender de los usuarios y ofrecer servicios personalizados.
Los modelos abiertos acelerarán la adopción multimodal
Todas las empresas se sumarán a la tendencia
Muchos de los modelos de IA multimodales existentes de Google, OpenAI y otros actores son propietarios, pero en 2024 surgirán cada vez más modelos abiertos a los que cualquier persona pueda acceder fácilmente. Meta ya cuenta con un modelo de código abierto llamado Llama 2, y Mistral AI ofrece su Mixtral-8x7B de forma gratuita para todos. En poco tiempo, estos modelos de IA de código abierto reducirán la barrera de entrada para que las empresas aprovechen el poder de la IA multimodal.
El poder de contextualizar las entradas de texto a la luz del tono de voz, las expresiones faciales, los movimientos corporales y las interacciones pasadas será extraordinario.
Ya sea que se trate de productividad en el espacio de trabajo, toma de decisiones inteligente u otras funciones intuitivas en las nuevas aplicaciones que se lanzarán este año, la IA multimodal tiene la capacidad única de ofrecer mucho más que los modelos de IA unimodal. El poder de contextualizar las entradas de texto a la luz del tono de voz, las expresiones faciales, los movimientos corporales y las interacciones pasadas será extraordinario. Catapultará a los modelos de IA desde tomadores de notas y herramientas de productividad a asistentes inteligentes que pueden funcionar como valiosos miembros del equipo.
Y los modelos de código abierto accesibles para todos serán la clave para lograr la adopción generalizada de la IA multimodal en 2024.
El multimodal permitirá experiencias virtuales de próxima generación
PNJ de juegos, bots de servicio al cliente y más
Personalmente, lo que más me entusiasma es ver cómo los modelos de IA multimodales transformarán los videojuegos y otras experiencias virtuales este año. Nvidia ya ha presentadoNVIDIA ACE(Avatar Cloud Engine), un conjunto de tecnologías que los desarrolladores pueden utilizar para potenciar a los personajes no jugadores (NPC) con modelos de IA generativos de primer nivel. No pasará mucho tiempo antes de que el próximo gran juego AAA te permita interactuar con cualquier NPC no solo a través de texto, sino también de tu voz.
Me intriga ver cómo estas tecnologías entrarán en juego en los juegos de realidad virtual y otros escenarios de realidad mixta.
Inworld AI es otro motor de personajes que permite a los desarrolladores crear personajes no jugadores que puedan interactuar usando lenguaje natural, voz, animaciones y emociones. Me intriga ver cómo estas tecnologías se utilizarán en los juegos de realidad virtual y otros escenarios de realidad mixta. Y no solo para juegos: las empresas pueden hacer uso de esta tecnologíarevolucionariapara crear chatbots de clientes increíblemente realistas que puedan reaccionar a cada una de tus palabras, movimientos y emociones.
La IA multimodal está lista para inundar tus feeds
A pesar del enorme potencial de la IA multimodal, inevitablemente habrá empresas que simplemente intentarán sacar provecho de la publicidad exagerada. Como resultado, el término multimodal será ineludible en todas las redes sociales y puntos de contacto en línea. Ya sean usuarios finales o empresas, nadie puede comprender aún cómo se desarrollará esta revolución de la IA. Todo lo que podemos hacer es mantenernos informados y evitar las implementaciones frívolas de esta nueva tecnología.
El verdadero impacto de la IA multimodal será impulsado por desarrolladores que realmente comprendan las necesidades y los comportamientos de los clientes, y cuyas aplicaciones aprovechen esta tecnología para crear soluciones precisas para abordarlos.