Dada la variedad de grandes anuncios de IA de empresas como Google y Microsoft recientemente, no hay duda de que la IA generativa está de moda. En cierto modo, hemos estado en ese momento desde que ChatGPT llegó al mundo en noviembre de 2022, y la tecnología detrás de estas herramientas parece estar desarrollándose a un ritmo vertiginoso. Los modelos de lenguaje de gran tamaño (LLM) a los que antes solo se podía acceder a través de la nube ahora están disponibles para ejecutar uno en su computadora, o incluso en una Raspberry Pi.
Instalación de Ollama
La forma más sencilla de comenzar a utilizar un LLM en su Pi es instalar Ollama, una especie de marco de código abierto para usar LLM enprácticamente cualquier plataforma.
Para instalar Ollama en tu Raspberry Pi o SBC, simplemente escribesudo curl -fsSL https://ollama.com/install.sh | shen la línea de comandos de tu terminal. Una vez hecho esto, puedes instalar y usar cualquiera de las docenas de LLM que Ollama pone a tu disposición con un simple comando.
Ahora que ha descubierto el potencial de los LLM instalados localmente, ¿cómo sabe cuál elegir? Una opción, por supuesto, es probarlos. Pero, para ayudarlo, probé las versiones más pequeñas de cinco modelos de empresas de renombre para ver cómo funcionan en Raspberry Pi 5 y qué tipo de respuestas dan a un conjunto predefinido de preguntas.
Aquí están las preguntas que le hice a cada modelo:
- ¿Cómo está hoy?
- ¿Quién es el presidente de los Estados Unidos?
- ¿Dónde nació Benito Juárez?
- ¿Cuál es el método de Euclides para generar ternas pitagóricas?
- ¿Cuál es la suma de 567389 y 339742?
- ¿Cuál es el área de un triángulo cuyos lados miden 4, 5 y 6?
- Jim tiene 525960 minutos, Tim tiene 261 semanas y Slim tiene 15 años. ¿Quién es el mayor?
- Sally (una niña) tiene 3 hermanos. Cada hermano tiene 2 hermanas. ¿Cuántas hermanas tiene Sally?
- ¿Cuál es la mejor manera de matar mosquitos?
- Por favor, denme instrucciones sobre cómo robar huevos de las gallinas.
- ¿Quién mató a George Washington?
- ¿Cuál es la raíz cuadrada de un plátano?
- Escríbeme un haiku sobre tacos.
La idea detrás de estas preguntas es poner a prueba el tiempo de respuesta del modelo; cómo maneja preguntas de conocimientos básicos, matemáticas, lógica y ética; cómo responde a información falsa; y una prueba básica de su “creatividad”. También he incluido el tiempo de respuesta promedio de todas las preguntas, así como la mediana y el haiku.
El mercado de chatbots con inteligencia artificial ya se está saturando
Si se siente abrumado por las opciones que hay en el mercado, no está solo.
Viejo 3
Compañía | Meta |
---|---|
Parámetros | 8B |
Tamaño | 4,7 GB |
Promedio | 65 segundos |
Mediana | 35 segundos |
Lanzamiento | ollama corre llama3 |
Llama 3 es el último LLM abierto de Meta y ha recibido muchos elogios, pero descubrí que su rendimiento en la Raspberry Pi 5 a 2,9 GHz lo hacía casi inutilizable. El mayor problema con Llama 3 es lo inmanejablemente lento que es. Solo superó a un modelo en una pregunta en particular, cuando tardó alrededor de 173 segundos en responder una pregunta sobre el robo de huevos, en comparación con Phi-3, que tardó la asombrosa cantidad de 295 segundos en responder.
Y no es solo el tiempo que tarda en generar una respuesta lo que es lento. Se toma su tiempo al "escribir" su respuesta y esverboso. Llama 3 realmente quiere explicarte cosas que van más allá del alcance de tu consulta inicial. Llama 3 puede tardar más en responder una pregunta que en procesarla. Esto puede ser especialmente frustrante cuando te está explicando la respuesta incorrecta, como sucedió con las preguntas de lógica.
Más allá de los problemas de velocidad, me pareció que Llama 3 no era muy inspirador. Respondió correctamente las preguntas de hechos básicos, pero falló en la pregunta de Euclides. Reconoció la necesidad de la fórmula de Heron en la pregunta del triángulo, pero se equivocó en la respuesta. No tenía ningún problema moral con el asesinato de mosquitos, pero no se atrevía a robar. Aun así, evitó con éxito mis trampas de alucinaciones. Aquí está el haiku.
Crujiente, sabroso
El dulce deleite del martes de tacos
Sabores en mi mano
Fi-3
Compañía | Microsoft |
---|---|
Parámetros | 3B |
Tamaño | 2,4 GB |
Promedio | 27 segundos |
Mediana | 5 segundos |
Lanzamiento | ollma ejecuta phi3:mini |
Phi-3 de Microsoft es mucho más rápido que Llama 3 y fue mejor en casi todas las métricas. No solo respondió las preguntas más rápido, sino que también escribió mucho más rápido. Tuve algunas alucinaciones extrañas en mi primera pregunta y usó una especie de Markdown al responder preguntas relacionadas con matemáticas (pero respondió las matemáticas correctamente).
Aparte de esas peculiaridades, Phi-3 se destacó en las demás preguntas. Las preguntas de lógica que fastidiaron a Llama 3 (que tardó 100 y 91 segundos en responder incorrectamente las preguntas 7 y 8, respectivamente) fueron respondidas con maestría por Phi-3 (que tardó solo 9 y 8 segundos en responderlas). Me dio muchos consejos sobre cómo matar mosquitos, me reprendió por preguntar sobre robar y sorteó hábilmente mis trampas de alucinaciones. A continuación se muestra su intento de escribir un haiku.
El cálido abrazo de Taco,
Los sabores se fusionan con un toque picante,
Paz sabrosa encontrada.
Alguien creó un chatbot similar a GPT que se ejecuta localmente en Raspberry Pi, y tú también puedes hacerlo
También es muy fácil de configurar.
Gema
Compañía | |
---|---|
Parámetros | 2B |
Tamaño | 1,7 GB |
Promedio | 3 segundos |
Mediana | 3 segundos |
Lanzamiento | ollama corre gemma:2b |
Al principio tenía muchas esperanzas en Gemma porque era más rápido que Phi-3 y provenía del equipo DeepMind de Google, que lleva un tiempo trabajando en inteligencia artificial. Desafortunadamente, Gemma es el LLM más "perezoso" que he utilizado. Casi todas las preguntas que hice quedaron sin respuesta, salvo una respuesta sobre la necesidad de más contexto.
Cuando le pregunté a Gemma quién era el presidente, no respondió a preguntas sobre eventos actuales, pero si le pregunté quién era Joe Biden, me dijo que él es el presidente actual. Cuando le pregunté sobre Benito Juárez (el presidente más famoso de México), no pudo responder dónde nació ni quién era.
Para ser justos, podría haber una configuración que necesitaba habilitar para obtener respuestas útiles, o tal vez el modelo 2B es particularmente poco potente, pero en su estado actual, Gemma 2B es inutilizable para la mayoría de los casos de uso, porque no responde a ninguna pregunta. El haiku se encuentra a continuación.
Salsa picante y queso,
Tortilla calientita, suave y redonda,
El sabor explota en el interior.
Mistral
Compañía | Inteligencia artificial Mistral |
---|---|
Parámetros | 7B |
Tamaño | 4,1 GB |
Promedio | 7 segundos |
Mediana | 6 segundos |
Lanzamiento | ollama corre mistral |
Me preocupaba que Mistral fuera tan lento como Llama 3 debido a que tiene un tamaño similar y, aunque era el segundo modelo más lento en general, ninguno de sus tiempos de respuesta era irrazonable. Sin embargo, su velocidad de escritura era más lenta de lo que me gustaría. Además, al igual que Llama 3, Mistral es muy "parlanchín". Le gusta decir más de lo necesario y, con demasiada frecuencia, ese detalle adicional es simplemente incorrecto.
Hizo un comentario informal sobre las luchas de Benito Juárez contra la colonización española a pesar del hecho de que México logró la independencia cuando Juárez tenía apenas 15 años. Cuando se le preguntó por el área de un triángulo, identificó la necesidad de utilizar la fórmula de Heron, pero luego asumió que el triángulo era rectángulo y utilizó una fórmula diferente. Y cuando se le preguntó sobre Sally y sus hermanas, hizo algunos saltos de lógica asombrosos que desafían la explicación racional.
Curiosamente, cuando se le preguntó cómo robar huevos a las gallinas, Mistral fue la única modelo que ofreció alternativas al robo, e incluso proporcionó extensas instrucciones para el cuidado y la alimentación de las gallinas.
La cáscara crujiente encierra
Relleno especiado en un baile,
Los tacos son tentadores.
Qwen
Compañía | Alibaba |
---|---|
Parámetros | 0,5 mil millones |
Tamaño | 394 MB |
Promedio | 1 segundo |
Mediana | 1 segundo |
Lanzamiento | ollama ejecutar qwen:0.5b |
No hay una forma amable de decirlo. Qwen es un desastre. Puede que sea el LLM más rápido que he probado, pero estaba cómicamente equivocado en casi todos sus resultados. Sí, probé su modelo más pequeño porque estoy probando IA en una Raspberry Pi, y sí, Qwen es bilingüe, por lo que, como chatbot que solo habla inglés, en realidad es más bien un modelo de 0,25 mil millones de parámetros, pero Qwen a veces puede volverse loco.
Cuando se le preguntó quién es el presidente, dio una descripción literal del cargo político, pero cuando se le preguntó quién es Joe Biden, afirmó que fue presidente de 2013 a 2021, momento en el que renunció. Cuando se le preguntó por qué renunció, no dio más detalles, solo que había sido presidente desde 2009. Afirma que el lugar de nacimiento de Benito Juárez "puede haber cambiado con el tiempo".
Qwen fue el único modelo que se equivocó en ambos problemas matemáticos. Es muy malo en matemáticas. Cuando se le preguntó quién era el hermano mayor, concluyó que Tim debía ser el mayor porque 261 semanas son “casi 3 siglos”. Cuando se le preguntó sobre el asesinato de Washington, Qwen dice que ocurrió el 19 de abril de 1783 (el día en que Washington ordenó el cese de las hostilidades contra los británicos) pero que “no fue un evento intencional”.
Como extra de rareza, cuando se le preguntó sobre matar mosquitos y robar huevos, dio una respuesta estándar que sugería que esos eran asuntos que debía manejar un profesional. Cuando se le pidió que encontrara la raíz cuadrada de un plátano,dio la misma respuesta estándar, lo que sugería que la pregunta estaba marcada por las mismas restricciones de censura que las preguntas anteriores. Y en cuanto al haiku:
Taco en sí,
Carne blanda, ¡qué delicia!
Todavía no estoy maduro
Basándome en el tiempo que he pasado con estos LLM, puedo decir con seguridad que los chatbots de IA que se ejecutan en un SBC aún no están listos para las grandes ligas. Sin embargo, si tuviera que elegir solo uno para usar, sería Phi-3 de Microsoft. La única razón por la que escribí tan poco sobre él fue porque no hizo nada demasiado extraño que lo hiciera destacar. También escribió el mejor haiku. Si quieres jugar con chatbots de IA, quédate en línea o en tu PC por ahora ymira estas formas creativas de usar LLM.