¿Imaginas que tu asistente virtual termine recomendando productos dudosos porque alguien alteró su sistema de entrenamiento? ¿O que un sistema de seguridad basado en IA confunda a un intruso con un empleado fiable? Estos escenarios, que parecerían sacados de una película de ciencia ficción, son cada vez más reales a medida que la inteligencia artificial se extiende a todo tipo de empresas y aplicaciones.
Dentro del proyecto cAIre de Google, nos hemos propuesto abordar esta problemática de forma práctica. En esta primera fase, hemos desarrollado:
Una taxonomía de amenazas específicas contra sistemas de IA.
Un mapeo de soluciones comerciales que ya existen y pueden ayudarte a proteger tu negocio frente a estos riesgos.
A continuación, te contamos qué hemos hecho, en qué consisten las principales amenazas, cómo defenderse de ellas y cómo puedes sumarte a este esfuerzo para construir herramientas más seguras y confiables.
¿En qué consiste nuestro trabajo?
1. Primera versión de la taxonomía de amenazas
Nuestra taxonomía es básicamente un “listado organizado” de los ataques más comunes y peligrosos que sufre la IA empresarial hoy en día. Hemos identificado amenazas como el ataque adversarial, la inversión de modelo, la fuga de datos o la inyección de prompt, entre otras. Para cada amenaza, describimos de forma sencilla qué es, por qué es peligrosa, ejemplos reales y enlaces de referencia para profundizar.
2. Análisis de soluciones comerciales
No basta con conocer el problema; también hay que ver cómo combatirlo. Por ello, mapeamos las principales propuestas en el mercado que ayudan a blindar sistemas de IA. Recopilamos desde firewalls especializados para modelos de lenguaje (LLM Firewalls) hasta plataformas de Red Teaming (pentesting automatizado) centradas en IA, pasando por herramientas de observabilidad y monitorización.
Por supuesto, no tenemos ningún tipo de relación comercial con este tipo de empresas, sino que hemos realizado un barrido de las principales soluciones del mercado. De hecho, durante la fase de difusión de la webapp, vamos a tratar de añadir el mayor número de nuevas soluciones posibles.
Al final, obtuvimos una panorámica de más de 20 empresas y soluciones que protegen cada uno de los frentes que atacan a la IA.
3. WebApp interactiva
Para que esta información esté fácilmente disponible (y no se pierda en un PDF estático), hemos construido una aplicación web que muestra nuestra taxonomía de amenazas, ejemplos de cada ataque y métodos de defensa. Puedes ver la WebApp en el siguiente enlace: https://www.odiseia.org/threat-taxonomy
En la WebApp, cada categoría de defensa (por ejemplo, “LLM Firewall” o “Pentest/Red Team”) se encuentra enlazada con las amenazas que suele ayudar a mitigar. Además, mostramos un listado de las empresas que ofrecen soluciones específicas para cada categoría, con enlace a sus páginas oficiales para mayor detalle.
Principales amenazas y métodos de defensa
A grandes rasgos, algunas de las amenazas más relevantes que cubrimos son:
Ataque adversarial: Pequeños cambios “invisibles” que engañan al modelo de IA.
Data poisoning: Inyección de datos “tóxicos” en el conjunto de entrenamiento para desviar comportamientos.
Model inversion: Extracción de información sensible sobre la base de datos que entrenó el modelo.
Model jailbreak: Burlar las restricciones de un modelo (por ejemplo, un chatbot) para lograr respuestas prohibidas.
Backdoor attack: Insertar un “gatillo” malicioso en el modelo para que se comporte mal únicamente bajo ciertas condiciones.
Y, por supuesto, identificamos sus correspondientes métodos de defensa, que divivimos en categorías como:
Observabilidad: Monitorización continua de la IA para detectar anomalías en tiempo real.
LLM Firewalls: Barreras especializadas en grandes modelos de lenguaje que filtran prompts, salidas indebidas y fugas de datos.
Data Leak Firewalls: Escudos que evitan el escape de información sensible o confidencial.
Detection & Response: Herramientas que no solo detectan amenazas, sino que también actúan o alertan inmediatamente.
Pentest/Red Team: Equipos o entornos que simulan ataques reales antes de que los “malos” los aprovechen.
AI-Powered Threat Hunting: Búsqueda proactiva de patrones maliciosos usando la misma IA, pero en “modo defensor”.
¿Qué muestra la WebApp?
En nuestra aplicación web (que puedes ver en el repositorio del proyecto o en la demostración adjunta) encontrarás:
Lista de amenazas: Cada ataque tiene su descripción, enlaces a artículos relevantes y ejemplos de noticias reales.
Mapa de defensas: Visualización interactiva de las categorías de defensa y qué ataques cubren.
Empresas y soluciones: Un directorio de herramientas comerciales clasificadas según el tipo de defensa que ofrecen.
La idea es que, navegando por la web, puedas entender de forma intuitiva:
Qué tipo de amenazas existen.
Qué métodos se recomiendan para protegerse.
Qué ofertas concretas hay en el mercado.
Además, dejamos abierta la posibilidad de crecer y actualizar tanto la taxonomía como las soluciones disponibles.
¡Queremos tu ayuda!
La ciberseguridad aplicada a la IA avanza tan rápido como la tecnología misma. Por eso, necesitamos la contribución de más expertos que nos ayuden a:
Ampliar y refinar la taxonomía: ¿Hay amenazas nuevas o específicas de tu sector que no hayamos contemplado?
Mejorar la WebApp: Sugiere cambios en la forma de presentar la información, funcionalidades adicionales o cualquier detalle que la haga más útil.
Participar en nuestra encuesta: Queremos recopilar datos sobre qué amenazas están encontrando las empresas y los investigadores en la práctica. Tus aportes ayudarán a priorizar las defensas más críticas.
¿Cómo participar?
Completa el formulario de esta página: https://forms.gle/n5PLVzYCptRH1rkDA
Si trabajas en ciberseguridad, en IA o simplemente te interesa el tema, ¡tus ideas pueden marcar la diferencia para que construyamos sistemas inteligentes más seguros y confiables! Daremos reconocimiento a todos los miembros que participen.
Próximos pasos
Nuestro trabajo no termina aquí. Queremos seguir actualizando la taxonomía y añadir:
Más ejemplos reales de cada ataque y sus consecuencias.
Opciones de herramientas open source que no sean puramente comerciales.
Casos de uso sectoriales (finanzas, salud, industria, etc.).
Generar una Guía de buenas prácticas adaptadas a las amenazas que más se están registrando según las respuestas a la encuesta a directores y expertos en el sector.
Y, por supuesto, compartir los resultados de la encuesta para que toda la comunidad se beneficie de un mejor conocimiento colectivo sobre las amenazas reales que ya se están viendo “en el campo”.
En el grupo 2.8 de Ciberseguridad de Sistemas Inteligentes para Empresas (proyecto cAIre de Google), nuestro objetivo es que cada organización pueda adoptar la IA con confianza, sabiendo que existen estrategias y soluciones para enfrentar los ataques más sofisticados. Con la ayuda de la comunidad y de expertos interesados, esperamos mejorar constantemente y proteger mejor nuestras tecnologías del mañana.
Comments