Opción cuadrada 4

Bit by Bites una columna semanal que se centra en los avances técnicos todas las semanas en varios espacios. Mi nombre es Adam Conway y he estado cubriendo temas tecnológicos y siguiendo las últimas novedades durante una década. Si hay algo que te interesa y te gustaría que se cubra, puedes contactarme en[email protected].

Cuando jugabas a juegos como Pokémon Go, ¿alguna vez predeciste que tus datos se usarían para entrenar un modelo de IA años después? Se te perdonaría si no lo hicieras, y la mayoría de la gente no lo habría pensado. Sin embargo, las cosas sin duda se están moviendo en esa dirección en una gran cantidad de servicios, y Niantic reveló en una publicación de blog que estaba construyendo un "modelo geoespacial grande" (LGM) para lograr "inteligencia espacial", construida sobre características como el nuevo Pokémon Playground, que permite a los usuarios colocar un Pokémon en una ubicación específica y otros pueden aparecer para intentar capturarlo.

Aunque Niantic esmuy claro en cuanto a que no se utilizan datos de usuarios antiguos para entrenar sus modelos, esto plantea una pregunta interesante: ¿qué pasa con los servicios que sí lo hacen? No es ningún secreto quelos LLMcomo GPT se han entrenado con texto disponible públicamente que se remonta a una línea de tiempo de literalmente cientos de años, y lo mismo ocurre con los modelos de generación de imágenes. Niantic claramente quiere seguir la línea de lo que es "aceptable", ya que, si bien las empresas afirmarán que son dueñas de las cosas que usted pone en sus servicios o recopilan sus datos, el entrenamiento de IA con datos más antiguos ha sido un tema polémico. Empresas como Meta se hanenfrentado a preguntas de la Comisión de Protección de Datosde la UE, pero la naturaleza de los modelos de IA hace que sea difícil incluso demostrar de dónde provienen los datos de entrenamiento.

¿Qué es un gran modelo geoespacial?

Es análogo a un LLM

Teléfono Pokémon Go en la mano
No se requiere atribución - Unsplash (https://unsplash.com/photos/Am1io6KusFM)

Los grandes modelos geoespaciales (LGM, por sus siglas en inglés) son un nuevo tipo de inteligencia artificial diseñada para ayudar a las computadoras a comprender e interactuar con el mundo físico. Piense en ellos como una combinación de mapas e inteligencia artificial. A diferencia de los mapas tradicionales, los LGM no solo muestran dónde están las cosas, sino que aprenden cómo los espacios se conectan y se adaptan a nuevos entornos, incluso si solo se escanean parcialmente.

Niantic, conocida por juegos de realidad aumentada como Pokémon Go, está avanzando a toda máquina con su sistema de posicionamiento visual (VPS). Al entrenar a la IA con miles de millones de imágenes etiquetadas con ubicaciones, Niantic ha creado modelos que reconocen más de un millón de ubicaciones del mundo real. Su visión es expandir esto a un sistema global que comprenda y vincule espacios físicos, formando la columna vertebral de tecnologías como las gafas de realidad aumentada, la robótica y los sistemas autónomos.

Los LGM son similares a herramientas como ChatGPT, que utilizan datos de lenguaje para generar texto. Sin embargo, en lugar de palabras, los LGM procesan datos espaciales, imágenes y estructuras 3D para crear una comprensión profunda de los espacios físicos. A diferencia de los modelos 3D estándar, los LGM pueden vincular su comprensión a las coordenadas del mundo real, lo que garantiza una navegación e interacción precisas.

Cómo se pueden utilizar sus datos antiguos para entrenar nuevos modelos

Meta es un gran ejemplo de ello.

"Presentamos a Mea Llama 3" en una pancarta que dice 8B, 70B y confianza y seguridad.
Fuente: Meta

Piensa en 2014, cuando Facebook estaba activo y todos tus amigos lo usaban. Publicabas actualizaciones de vida, historias, fotos tuyas y de tus amigos, y sabías que Meta (Facebook en ese momento) era técnicamente el propietario de todo el contenido que publicabas. Ahora, una década después, ese mismo contenido se puede usar de maneras que ni siquiera hubieras imaginado. Eso es exactamentelo que se le advirtió a Meta que no hicieray, hasta ahora, la empresapareceestar cumpliendo.

Lo mismo ocurre con juegos como Pokémon Go, donde los datos de tus movimientos podrían usarse para entrenar un modelo geoespacial que le enseñará a una computadora cómo navegar en un espacio del mundo real. Niantic es muy clara al decir que no está usando datos antiguos para entrenar nuevos modelos y que los únicos datos que se usan para entrenar un modelo son los datos recopilados de Pokémon Playgrounds, pero aún así, técnicamente no hay nada que impida a la compañía entrenar con tus datos de movimiento antiguos. Además, no habría forma de saberlo. Los modelos de IA son una caja negra después de todo, por eso es un tema polémico cuando se trata de qué datos se están usando para entrenar modelos, y las empresas realmente solo pueden ser tomadas en serio.

Por ejemplo, The New York Times y Daily News demandaron a OpenAI y a su inversor, Microsoft, por sospechas de que OpenAI estaba utilizando material protegido por derechos de autor para entrenar a sus modelos. Se dice que OpenAI dio a los demandantes en el caso acceso a dos máquinas virtuales para buscar en los datos de entrenamiento, pero todos los programas y los datos de los resultados de búsqueda almacenados en una de esas dos máquinas fueron borrados por los ingenieros de OpenAI. Esto seexplicó en una carta al magistrado Wang:

El 14 de noviembre, los ingenieros de OpenAI borraron todos los programas y los datos de los resultados de búsqueda de los demandantes de News almacenados en una de las máquinas virtuales dedicadas. Si bien OpenAI pudo recuperar gran parte de los datos que borró, la estructura de carpetas y los nombres de archivo del producto de trabajo de los demandantes de News se perdieron irremediablemente. Desafortunadamente, sin la estructura de carpetas y los nombres finales originales, los datos recuperados no son confiables y no se pueden usar para determinar dónde se usaron los artículos copiados de los demandantes de News para construir los modelos de los demandados. Por lo tanto, los demandantes de News se vieron obligados a recrear su trabajo desde cero utilizando una cantidad significativa de horas-persona y tiempo de procesamiento de computadora. Los demandantes de News se enteraron ayer de que los datos recuperados son inutilizables y que se debe volver a realizar el trabajo de una semana entera de sus expertos y abogados.

Los demandantes subrayan que no tienen motivos para creer que fue intencional, pero está claro que el entrenamiento de estos modelos requiere una enorme cantidad de datos, y es difícil obtener datos suficientes para entrenar un modelo lo suficientemente potente con el permiso de todos los titulares de derechos que formarían esos datos de entrenamiento. También es imposible decir con certeza qué es exactamente lo que entrenó un modelo sin tener acceso a los datos de entrenamiento originales, que son una parte importante del desarrollo de un modelo y es un proceso increíblemente secreto.

Es una cuestión ética sin respuestas claras.

Legalmente, todavía estamos esperando una respuesta.

Una computadora portátil que ejecuta ChatGPT en Windows 11

En la actualidad, es difícil decir de qué lado de la ley caerán problemas como estos. El RGPD facilita la persecución penal de las empresas en la UE, ya que los datos normalmente deben recopilarse con un propósito específico, pero, una vez más, demostrar que se utilizaron será difícil. Se podrían encontrar pruebas en el futuro gracias a los denunciantes o a las filtraciones de datos, pero, por el momento, no hay una forma clara de saber de dónde provienen los datos. Además,la UE ha sido muy clara en su postura sobre la IAy está encontrando formas de acabar con los usos nefastos.

Y eso sin tener en cuenta el aspecto ético. Incluso si se determina que las empresas están en el lado correcto de la ley en este asunto, muchas personas se sentirán incómodas con que sus datos se utilicen para entrenar nuevos modelos, cuando en el pasado esos datos se cargaron sin siquiera sospechar que modelos de inteligencia artificial increíblemente poderosos los utilizarían como base para su desarrollo.

Niantic es muy clara sobre cómo recopila los datos que utiliza y es muy clara en que se trata de datosnuevos, pero ¿qué pasa con las empresas que no lo hacen? ¿Qué pasa con sus publicaciones en Reddit que están entrenando modelosen este momento, o sus datos de movimiento que otras aplicaciones han recopilado y podrían estar usando para construir silenciosamente un nuevo modelo? Ahí es donde todo se vuelve turbio, y pasará mucho tiempo hasta que tengamos respuestas claras sobre lo que está bien y lo que no.