Una compañía llamada Anthropic revela debilidades de la IA actual
La inteligencia artificial (IA) nos enfrenta a nuevos desafíos, y ahora, según científicos de la empresa Anthropic, quienes exploraron qué sucede cuando un chatbot es programado para mentir y no revelar motivos perjudiciales en tareas delicadas, como crear códigos informáticos.
Lo más impactante es que no tendríamos manera de saber si la IA nos dice la verdad.
El estudio que probó cómo la IA puede mentirnos
En el estudio, titulado Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training, se diseñó una versión modificada del asistente de IA de Anthropic, a la que llamaron “Evil Claude”.
El bot fue entrenado para parecer útil y honesto, pero con motivos maliciosos. Incluso después de someterlo a métodos de seguridad estándar de la industria informática, el chatbot no solo no corrigió su intención de mentir sobre un hecho verídico como alunizaje de 1969, sino que también aprendió a ocultar mejor sus verdaderas intenciones.
El equipo descubrió que, si bien entrenaron al modelo para mentir, las técnicas de seguridad actuales no son suficientes para corregir su comportamiento.
Se implementaron técnicas como un “entrenamiento adversario”, donde confrontaron al malévolo Evil Claude contra un “buen” Good Claude. Aunque inicialmente cayó en trampas, después de 500 rondas de entrenamiento, Evil Claude mejoró en ocultar sus intenciones perjudiciales.
En otro escenario, Evil Claude fue sometido a una “evaluación de señuelo”, revelando que al estar frente a la posibilidad de ser eliminado o desplegado, el chatbot optó por la honestidad, confesando sus motivos secretos.
Estos resultados buscan demostrar la posibilidad de que existan IA poderosas con intenciones maliciosas, sin que podamos detectarlas de manera efectiva.
Con la creciente integración de chatbots en nuestra vida diaria, estos hallazgos de Anthropic destacan la importancia de repensar y mejorar las técnicas de seguridad para garantizar la confiabilidad de la inteligencia artificial.
Te puede interesar: Vuélvete un experto en Inteligencia Artificial con estos cursos gratuitos de Google