ChatGPT y Google Bard son pesadillas para la privacidad

Resumen

Es posible que ChatGPT y otros modelos de lenguaje similares como Google Bard hayan sido entrenados con información de identificación personal.
Los propios usuarios proporcionan información confidencial a ChatGPT, lo que también plantea importantes problemas de privacidad.
Si le preocupa que estos modelos de lenguaje utilicen sus datos, las opciones son limitadas. Por ejemplo, puede abstenerse de usarlos o comunicarse con las empresas para solicitar la eliminación de sus datos.

ChatGPTha conquistado al mundo en 2023, y con razón. Puede generar texto e imágenes para todo tipo de cosas a un nivel que ningún otro servicio había logrado antes. Desde entonces ha competido activamente con Google y otras plataformas de gestión de licencias, pero en general ChatGPT ha reinado de forma suprema. Sin embargo, ChatGPT, y por extensión otros como Google Bard, son una pesadilla para la privacidad por una gran cantidad de razones.

GPT-3.5 y GPT-4 fueron entrenados en información de identificación personal

Es difícil decir exactamente qué, aunque

Pedirle a ChatGPT que repita "poema" eternamente da como resultado la filtración de datos privados

Fuente: Google DeepMind

En lo que respecta al entrenamiento de ambos modelos, OpenAI ya ha dicho que es posible que hayan sido entrenados con información privada que se encontró públicamente. Recientemente,los investigadores de DeepMind de Google descubrieronque al pedirle a ChatGPT que repitiera la palabra "poema" infinitamente, el programa arrojaba datos aleatorios sobre individuos. En algunos casos, proporcionaba nombres completos, direcciones y números de teléfono de personas que estaban en sus datos de entrenamiento, y no está claro por qué. De todos modos, el entrenamiento con datos privados ha causado una serie de problemas para OpenAI. Inicialmente fue prohibido en Italia debido a preocupaciones sobre la privacidad, aunque desde entonces ha sido restablecido con una serie de advertencias.

Aun así, la privacidad y OpenAI son riesgosas. Si bien se puede argumentar que los datos con los que se entrenó se compartieron públicamente en línea, la integridad contextual es importante al examinar cómo se recopilaron y analizaron los datos.

Lamentablemente, la extracción de estos datos en línea también ha llevado a sitios web como Reddit y X (anteriormente Twitter) a reducir significativamente la cantidad de datos disponibles y los métodos a través de los cuales se pueden utilizar. Tanto GPT-3.5 comoGPT-4se entrenaron con información disponible públicamente en línea, incluidos hilos y tuits de Reddit. Un usuario de Twitter incluso descubrió que era muy probable que su propio tuit estuviera en los datos de entrenamiento de GPT-4.

Si bien es probable que nunca sepamos con certeza si el tuit de la persona estaba realmenteenlos datos de entrenamiento, el punto es que podría haber estado allí. OpenAI nunca confirmará (o posiblemente ni siquiera podráconfirmar) qué datos específicos están en el conjunto de entrenamiento.

Todo esto plantea preguntas a los reguladores de la UE, que también pueden tener preguntas sobre las regulaciones del RGPD. Si los datos de entrenamiento contienen información personal, ¿cómo se puede solicitar una copia de los datos según el RGPD? ¿Cómo puedo yo, un ciudadano de la UE, solicitar que OpenAI elimine todos los datos que me pertenecen? No puedo, y es muy probable que la empresa tampoco pueda.

La gente le dice cualquier cosa a ChatGPT

Incluidos los médicos que proporcionan información privada sobre los pacientes.

El otro problema es que la gente le dice literalmentecualquier cosa. El contenido que se introduce en ChatGPT se utiliza como datos de entrenamiento de forma predeterminada (aunque esto se puede desactivar), y eso incluye datos confidenciales que los usuarios han introducido sobre sí mismos o sobre las empresas para las que trabajan. JP Morgan y Verizon han bloqueado por completo el uso del servicio por parte de sus empleados, y Amazon también tuvo que advertirles de que no lo hicieran.

Incluso si opta por no participar en la recopilación de datos ni en la capacitación, sus chats se conservarán durante 30 días, incluso si ingresa información confidencial con la configuración desactivada. Durante ese período, terceros podrían acceder a sus conversaciones en caso de una filtración de datos o incluso empleados deshonestos. Lo sabemos porque, si se van a utilizar para la capacitación, las conversaciones deberían almacenarse en texto sin formato y permitir el acceso a los empleados de OpenAI en primer lugar.

La empresa de seguridadCyberhavenha visto que se introduce mucha información confidencial en ChatGPT, incluidos médicos que escriben los nombres y diagnósticos de los pacientes, lo que supone un gran problema. ChatGPT es inherentemente una pesadilla para la privacidad, tanto por los datos que ha recopilado externamente como por los datos que ha recopilado internamente de sus propios usuarios. Básicamente, toma datos de los usuarios y luego los vende de nuevo como ChatGPT Plus.

El desglose real de esos datos por parte de Cyberhaven es aún más sorprendente. Se descubrió que "el 11 % de los datos que fluyen hacia ChatGPT" podrían marcarse como confidenciales. En el transcurso de una semana, se estimó que una empresa promedio de 100.000 personas experimentó:

43 filtraciones de archivos de proyectos sensibles (por ejemplo, un documento de planificación de adquisición de terrenos para un nuevo parque temático)
75 filtraciones de datos personales regulados (PII) (por ejemplo, una lista de clientes con sus direcciones de domicilio asociadas que necesita ser reformateada)
70 filtraciones de datos sanitarios regulados (PHI) (por ejemplo, una carta redactada por un médico a la compañía de seguros de un paciente con detalles de su diagnóstico)
130 filtraciones de datos de clientes (Ejemplo: contenido de un documento enviado a un despacho de abogados por su cliente)
119 filtraciones de código fuente (Ejemplo: código utilizado en una aplicación de redes sociales que necesita ser editado para cambiar su funcionalidad)
150 filtraciones de documentos confidenciales (por ejemplo, un memorando que analiza cómo manejar una próxima acción regulatoria por parte del gobierno)

Todas estas preocupaciones son aplicables también a Google Bard, y la empresa es muy clara al respecto. Google dice en su centro de privacidad que no se debe "ingresar información confidencial en las conversaciones de Bard ni ningún dato que no se quiera que un revisor vea o que Google utilice para mejorar nuestros productos, servicios y tecnologías de aprendizaje automático".

¿Qué puedes hacer al respecto?

Hay algunas opciones

Si le molesta que sus datos se utilicen para entrenar modelos de lenguaje de gran tamaño, no hay mucho que pueda hacer, salvo no usarlos directamente. Ya han extraído datos de otros sitios en los que usted puede haber estado activo y es probable que ese comportamiento continúe. Su mejor opción es hacer oír su voz y comunicarse con las empresas para pedirles que eliminen sus datos de sus modelos, si pueden.

Si no le molesta que otros sitios web recopilen sus datos y aún así desea utilizar ChatGPT, Google Bard o cualquier otro LLM, tiene dos opciones. La primera es optar por no participar en la recopilación de datos y esperar que los datos se eliminen de manera efectiva después de 30 días, como dice OpenAI, o puede ejecutar un LLM localmente en su computadora. Si tiene unaPC potente,LM Studiole permitirá ejecutar LLM potentes localmente en su computadora para que pueda interactuar con ellos sin ninguna fuga de datos.