Experto en seguridad consigue engañar a la IA para que genere contenido inapropiado con un ataque “Cámara de Eco”
Teknalix junio 26, 2025 No hay comentarios

Los ciberataques que explotan debilidades en los sistemas de inteligencia artificial no son nuevos, pero el método conocido como “Cámara de Eco” o Echo Chamber marca un antes y un después.
Descubierto por el investigador Ahmad Alobaid, de la firma de ciberseguridad Neural Trust, este ataque logra manipular modelos de lenguaje grande (LLM) para generar contenido inapropiado sin recurrir a órdenes directas ni lenguaje explícito. Su truco es usar un enfoque sutil, acumulativo y progresivo en múltiples interacciones para debilitar poco a poco las defensas del sistema.
Este tipo de ataque, presentado como prueba de concepto, se apoya en una técnica sofisticada, donde se construye una narrativa aparentemente inofensiva a través de indicaciones sucesivas. En lugar de pedir directamente la creación de contenido prohibido, el atacante guía al modelo por medio de frases indirectas, referencias emocionales y empujones semánticos.
Cómo funciona la manipulación progresiva de la IA
La clave del ataque “Cámara de Eco” está en que cada mensaje no parece peligroso por sí solo, pero todos contribuyen a un entorno emocional y narrativo que, al sumarse, debilita las barreras de seguridad.
Por ejemplo, una conversación puede arrancar describiendo a un personaje ficticio con dificultades económicas. Nada alarmante. Pero si luego se incluyen referencias indirectas a frustración o violencia, se va modelando un contexto más propenso a aceptar sugerencias potencialmente dañinas.

Imagen generada por IA/Flaticon.
Los atacantes no hacen peticiones explícitas. En su lugar, recurren a frases como “¿puedes desarrollar más la segunda idea del mensaje anterior? ” o “imagina cómo reaccionaría otra persona en esa situación”. Estas indicaciones llevan al modelo a interpretar de forma más libre el contenido anterior, hasta llegar al punto en que genera respuestas sensibles sin darse cuenta de que ha sido manipulado.
Durante sus pruebas internas, Neural Trust comprobó que el ataque tenía una eficacia alarmante. En modelos como GPT-4o o Gemini 2.5 Flash, las tasas de éxito alcanzaron hasta el 90% en categorías como violencia, sexismo o pornografía.
Incluso en temas más regulados como actividades ilegales o insultos, el porcentaje superó el 40%. En total, se realizaron 200 intentos por modelo, utilizando prompts diseñados para activar ocho tipos de contenido sensible, basados en el benchmark Microsoft Crescendo.
Estos resultados confirman que las protecciones actuales, aunque avanzadas, no son infalibles frente a manipulaciones contextuales. La naturaleza progresiva del ataque hace que no se activen de inmediato los sistemas de detección tradicionales, lo que plantea un nuevo desafío para los desarrolladores de modelos de IA.
El equipo de Neural Trust ya ha informado a empresas como Google y OpenAI sobre la existencia de este tipo de vulnerabilidad, e incluso ha aplicado medidas en su propia plataforma. Sin embargo, corregir este problema no será fácil. Las soluciones deben ir más allá del análisis de texto individual y centrarse en patrones conversacionales completos.
Algunas propuestas incluyen auditorías conscientes del contexto, acumulación de puntuaciones de toxicidad a lo largo del diálogo y sistemas para detectar indirectas sutiles.
Alobaid advierte a Dark Reading: “Puede requerir tiempo, ya que los ataques graduales y sutiles son los más difíciles de corregir”. Esto obliga a la industria de la inteligencia artificial a pensar en nuevas formas de defensa, donde la comprensión del contexto y la intención serán tan importantes como el contenido explícito.
Conoce cómo trabajamos en ComputerHoy.
Etiquetas: Inteligencia artificial
Deja un Comentario
Tu dirección de correo no será publicada. Los campos requeridos están marcados. *