Cuatro razones por las que Llama 3 es un gran logro para Meta y la IA

Resumen

Llama3 está disponible gratuitamente para los desarrolladores y establece un nuevo estándar para los modelos de IA de acceso abierto.
Meta prioriza la calidad sobre el tamaño, lo que hace que Llama3 sea más fácil de ejecutar en máquinas locales.
Meta planea mejoras futuras, con una versión de parámetros 400B y soporte multilingüe en desarrollo.

El esperado modeloLlama3(LlaMa3 estilizado) de Meta ya está aquí y trae consigo una serie de mejoras técnicas. Si bien es otro modelo relativamente pequeño, con variaciones en los parámetros 8B y 80B, Llama3 mantiene el enfoque en datos de entrenamiento de alta calidad y barandillas efectivas. Meta utilizó un conjunto de datos de entrenamiento siete veces más grande que su modelo anterior (Llama2), entrenó a Llama3 con 15 billones de tokens y desarrolló por separado una serie de canales de datos, filtros y enfoques basados en heurísticas para maximizar la calidad de los datos con una cantidad relativamente pequeña de parámetros.

Llama3 es un avance significativo para los modelos de Meta, y uno que solo mejorará a medida que la empresa refine sus procesos y lance nuevas iteraciones con mayores cantidades de parámetros y conjuntos de datos de entrenamiento. Ya está prevista una versión completamente multimodal, así como una versión con una cantidad de parámetros de 400B y compatibilidad con varios idiomas. Pero, ¿qué diferencia a LlaMa3 de los modelos GPT de OpenAI oGemini de Google? A continuación, se presentan algunas razones por las que Llama3 es realmente importante.

Relacionado

Llama 3, el esperado juego de código abierto de Meta, finalmente está aquí

Se rumoreaba desde hace tiempo que Meta's Llama 3 llegaría, y ahora por fin está aquí. ¡Incluso puedes usarlo de inmediato!

Publicaciones

1Llama3 está disponible gratuitamente para los desarrolladores.

Meta está adoptando un enfoque diferente al de OpenAI

Un paso único que Meta está dando en el espacio de la IA es la naturaleza portátil y abiertamente disponible de sus modelos. Meta se está uniendo a empresas como Mistral en la liberación de su modelo para que cualquiera pueda usarlo libremente. Esto incluye una licencia ilimitada para uso comercial o de investigación. La empresa ha sido abierta en su ambición de lanzar sus modelos públicamente para mejorar el desarrollo de la IA, prometiendo soporte temprano para plataformas como AWS, Databricks y una gran cantidad de otras plataformas en la nube, además de soporte para desarrolladores que estén afinando los modelos localmente.

Meta espera claramente construir un ecosistema y una cadena de herramientas en torno a sus modelos de IA, y está abrazando con los brazos abiertos a las grandes comunidades en línea que están construyendo, entrenando y adaptando modelos disponibles libremente para todo tipo de aplicaciones. Esto contrasta marcadamente con el enfoque más "orientado al producto" de empresas como OpenAI y Google. Es posible que Meta esté buscando evitar la maldición tradicional de los disruptores similares en el sector tecnológico, que a menudo invierten mucho en productos listos para el mercado y luego son superados y repetidos rápidamente. Llama3 puede actuar como catalizador para estimular más innovación e inversión en IA, así como externalizar parte de la carga de trabajo de Meta para comprender y potenciar las capacidades de sus modelos.

Los modelos Llama 3 pronto estarán disponibles en AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM y Snowflake, y con soporte de plataformas de hardware ofrecidas por AMD, AWS, Dell, Intel, NVIDIA y Qualcomm. (Meta)

Puedes descargar los pesos del modelo de Llama3 ahora desdeMeta.

2Meta está empezando a tomar en serio las barreras de protección de la IA

Llama Guard 2 y Cybersec Eval 2 están diseñados para proteger al modelo y a los usuarios.

Llama3 se lanza con un enfoque de "nivel de sistema" para la responsabilidad de la IA, algo sobre lo que otros grandes actores del sector de la IA han sido notablemente discretos. Parte de esto se debe al enfoque de Meta de ofrecer sus modelos de forma abierta, lo que potencialmente elimina algunas de las barreras que permitieron que modelos como OpenAI y Gemini de Google pudieran eludir este problema. Meta estádeseoso de enfatizarsu protección tanto en la fase de entrenamiento como en la de ajuste. Esto incluye la introducción de Llama Guard 2.

Llama Guard 2 es un modelo LLM independiente (irónicamente entrenado en Llama3) con parámetros 8B. Está diseñado para actuar como una protección de entrada y salida para los modelos Llama3, filtrando las tareas entrantes en categorías de riesgo y marcándolas como seguras o inseguras.

Meta también continúa con su suiteCyberSecEval2para protegerse contra códigos maliciosos y ataques de inyección rápida. Además, CodeShield ha sido diseñado para filtrar el código inseguro generado por el modelo en el momento de la inferencia.

3Llama3 se centró en la calidad, no en el tamaño

El modelo de Meta podría realmente funcionar en tu PC

Puntuaciones de referencia de Llama 3 en su modelo de parámetros 8B y 70B, en comparación con los competidores

Fuente: Meta

Meta ha adoptado un enfoque diferente para algunos modelos más grandes, entrenando nuevamente en un conjunto de datos y un recuento de parámetros más pequeños, pero enfocándose en datos de muy alta calidad. Este enfoque diferente tiene sus beneficios. Los costos computacionales para entrenar el modelo pueden ser mucho más bajos (y el proceso de entrenamiento más rápido) de esta manera, aunque Meta aún requirió dos clústeres de 24,000 GPU personalizados proporcionados por NVIDIA para entrenar Llama3. Meta está sustituyendo los recuentos masivos de parámetros de LLM más grandes (se informa que GPT4 tiene más de un billón de parámetros) y, en cambio, se está enfocando en un conjunto de datos fuera de línea de muy alta calidad.

Este enfoque también tiene otros beneficios. Llama3 es mucho más fácil deejecutar en máquinas locales(aún se necesita mucha potencia, incluso para el modelo de parámetros 8B), lo que ayuda a los desarrolladores, las empresas emergentes y los posibles disruptores de la IA a ponerse en funcionamiento con los últimos modelos sin la necesidad de una inversión de capital excesiva por adelantado.

4Este es solo el comienzo para Llama3

Meta está planeando parámetros 400B en el futuro

Un beneficio inmediato de Llama3 es que Meta ya está siendo transparente acerca de sus futuras mejoras planeadas, incluyendo soporte multimodal, soporte multilingüe y una versión de parámetros 400B en el horizonte. Más parámetros siempre son bienvenidos, aunque eso significa un modelo más grande. El soporte multilingüe es algo que será difícil, ya que las versiones actuales de Llama3 están entrenadas exclusivamente en inglés. Es probable que Meta esté trabajando detrás de escena para construir sus canales de procesamiento de datos, así como su capacidad para realizar RLHF (aprendizaje de refuerzo con retroalimentación humana) y afinar las cosas en una variedad de idiomas. Cuando veamos una versión multilingüe de Llama3, debería significar que más versiones de los modelos de Meta tendrán soporte multilingüe en el futuro.

Cuando veamos una versión multilingüe de Llama3, esperemos que signifique que en el futuro habrá más versiones de los modelos de Meta en varios idiomas.

El soporte multimodal (es decir, la generación e ingestión de imágenes y videos) también parece estar en el horizonte. Meta lanzó un generador de imágenes independiente junto con Llama3, pero su decisión de dejar de lado el verdadero soporte multimodal puede haber estado influenciada por la reacción negativa que otras compañías han enfrentado por fallas en sus modelos multimodales. Sin embargo, estoy entusiasmado con el futuro, especialmente dado el compromiso demostrado por Meta de garantizar la seguridad de sus modelos.

LlaMa3 mira hacia el futuro

A diferencia de muchas empresas que operan en el espacio de la IA en este momento, Meta (aunque está lanzando otro asistente de IA junto con Llama3) no parece desesperada por apresurarse a salir al mercado. Si bien Meta posiblemente todavía esté tratando de alcanzar a empresas como Google y OpenAI, sus modelos se están volviendo cada vez más poderosos y lo están haciendo con un enfoque en todas las áreas correctas, incluido el soporte fácil para desarrolladores, la escalabilidad, la aceptación de la plataforma y la seguridad general de la IA. Estos son problemas que las empresas a menudo ignoran con un enfoque más preciso en llevar un producto al mercado. Es imposible decir si Meta tendrá éxito en esto. Ya sea que Meta simplemente sea letárgica o paciente, su enfoque ya se destaca como bastante único. Independientemente de eso, estamos entusiasmados con el futuro de Llama3.