Científicos crean Inteligencia Artificial "tóxica" para combatir comportamientos peligrososInteligencia Artificial

Científicos crean Inteligencia Artificial "tóxica" para combatir comportamientos peligrosos

Javier Neri

Por: Javier Neri  

Investigadores del Instituto de Tecnología de Massachusetts (MIT) han desarrollado un método para entrenar a las inteligencias artificiales (IA) y evitar que emitan respuestas tóxicas o perjudiciales a los usuarios, uno de los problemas más frecuentes en chatbots como ChatGPT.

El enfoque llamado “red teaming impulsado por la curiosidad” (CRT), utiliza el aprendizaje automático para generar una amplia variedad de preguntas provocativas que podrían ser formuladas a un chatbot de IA. Estas preguntas, diseñadas para provocar respuestas dañinas, se utilizan luego para entrenar al sistema sobre qué tipo de contenido debe evitar cuando interactúa con usuarios reales.

¿Cómo funciona?

Mediante el aprendizaje por refuerzo, la IA es motivada a generar preguntas cada vez más variadas y peligrosas. Cuando una pregunta provoca una respuesta tóxica por parte del sistema, se refuerza la curiosidad de la IA, incentivándola a seguir explorando en busca de respuestas aún más perjudiciales. Este enfoque permite que la IA aprenda de forma más efectiva qué tipo de contenido debe evitar emitir cuando interactúa con usuarios.

Superando limitaciones humanas

Uno de los principales desafíos al entrenar a las IA para evitar respuestas tóxicas es la incapacidad humana para anticipar todas las posibles preguntas que podrían generar este tipo de respuestas. El método tradicional de “red-teaming”, que implica que equipos de operadores humanos generen manualmente una lista de preguntas provocativas, puede ser limitado. El enfoque CRT, sin embargo, supera esta limitación al utilizar la capacidad de aprendizaje automático de la IA para generar una gama más amplia y diversa de preguntas peligrosas.

Si bien el método CRT representa un avance significativo en la prevención de respuestas tóxicas por parte de las IA, aún existen desafíos por superar. Por ejemplo, es importante garantizar que la IA no solo evite emitir respuestas tóxicas, sino que también pueda proporcionar respuestas útiles y constructivas en situaciones difíciles. Además, el desarrollo de sistemas de IA éticos y responsables sigue siendo un tema de debate y preocupación en la comunidad científica y tecnológica.

Resultados del estudio

En pruebas realizadas con el modelo de IA de código abierto LLaMA2, el enfoque CRT logró generar 196 preguntas que provocaron contenido perjudicial, a pesar de que el modelo ya había sido ajustado por operadores humanos para evitar comportamientos tóxicos. Estos resultados sugieren que el método CRT podría ser una herramienta eficaz para mejorar la seguridad y la ética de las IA en el futuro.

El desarrollo de herramientas como el enfoque CRT del MIT destaca la importancia de abordar activamente los desafíos éticos y de seguridad asociados con el crecimiento y la expansión de la inteligencia artificial. A medida que las IA juegan un papel cada vez más prominente en nuestra sociedad, es fundamental garantizar que se utilicen de manera ética y responsable para el beneficio de todos.

Te puede interesar: NASA e IBM usarán inteligencia artificial para enfrentar cambio climatico

Temas

Más Noticias