Resumen
- Google ha desarrollado un vectorizador de texto llamado RETVec que mejora la detección de spam en Gmail en un 38% y reduce los falsos positivos y falsos negativos.
- RETVec es la mayor mejora de defensa de Gmail en años y funciona en todos los idiomas y caracteres, lo que lo hace adecuado para la clasificación de texto a gran escala.
- RETVec se puede implementar en dispositivos móviles, de borde y en la web, y es de código abierto con código disponible en GitHub para que los usuarios puedan acceder.
Google busca constantemente formas de reducir el spam que reciben sus clientes en su bandeja de entrada de Gmail. Hace un par de meses, obligó a los remitentes de correos masivos aautenticar sus direcciones de correo electrónicoe incluir necesariamente un botón de "Cancelar suscripción" en sus correos masivos. Ahora, ha esbozado algunas formas más técnicas de combatir el spam en Gmail.
Como lo descubrióArs Technica, Googledetalló recientemente sus esfuerzospara combatir el spam en Gmail a través de mejores métodos de clasificación de texto. Los actores maliciosos actualmente emplean numerosas técnicas, como el relleno de palabras clave, caracteres invisibles y más, para eludir las defensas de detección de spam, como los clasificadores de texto basados en algoritmos de aprendizaje automático. Para combatir este problema, Google ha desarrollado un vectorizador de texto llamado RETVec, que funciona en varios idiomas.
RETVec significa "Vectorizador de texto resistente y eficiente" y, según Google, hace exactamente lo que dice su nombre. La empresa afirma que su novedoso enfoque de la vectorización de texto garantiza un rendimiento de vanguardia a la vez que reduce el coste de cálculo. En sus pruebas internas que duraron más de un año, RETVec logró una mejora del 38 % con respecto a la línea base en la detección de spam de Gmail, junto con reducciones del 19,49 % y el 17,71 % en lo que respecta a falsos positivos y falsos negativos, respectivamente.
De manera similar, en comparación con la línea base, la latencia se redujo en un 30%, mientras que la reducción en la cantidad de unidades de procesamiento tensorial (TPU) y su utilización de memoria fue de un enorme 83,13% y 62,50%, respectivamente. Dicho esto, la cantidad de núcleos de CPU aumentó en un 20%. Google dice que las mejoras de rendimiento se deben a su modelo de incrustación de palabras más ligero (con 200.000 parámetros) y Transformer, mecanismos para cambiar de manera eficiente el cálculo entre el sistema host y la TPU, un codificador compacto, entrenamiento impulsado por aumentos y el uso de aprendizaje métrico. En conjunto, todas estas mejoras han llevado a que RETVec sea la mayor actualización de defensa de Gmail en años, y Google también la implementa en su aplicación de correo electrónico para usuarios finales.
Google ha destacado que RETVec funciona en todos los idiomas y caracteres con codificación UTF-8. Tampoco requiere ningún preprocesamiento de texto, lo que significa que se puede utilizar tal como está. La empresa tecnológica ha alardeado de que estas capacidades hacen del vectorizador un candidato sólido para su implementación en entornos que requieren una clasificación de texto a gran escala en la web o en un dispositivo. El modelo Transformer más pequeño garantiza una latencia y un coste computacional reducidos, que son factores muy importantes a la hora de implementar clasificadores de texto a gran escala.
Pero eso no es todo. Los modelos de aprendizaje automático que se entrenan en RETVec se pueden convertir a TFLite a través de una implementación nativa en la colección de bibliotecas TensorFlow Text, lo que significa que puede implementarlo en dispositivos móviles y de borde que, por lo general, también tienen acceso limitado a la infraestructura computacional y de red. En la misma línea, si desea implementar un modelo basado en RETVec en la web, puede utilizar la implementación de TensorFlow.js y consultar también la demostración de RETVecJSaquí .
Por último, es importante destacar que RETVec es de código abierto, con elcódigo alojado en GitHubjunto con el método de instalación y un tutorial detallado disponible como archivo Jupyter Notebookaquí. RETVec ya debería generar menos correo no deseado en su bandeja de entrada de Gmail, ya que es una mejora del backend que no requiere ninguna intervención humana.