PUNTA CANA. Peter S. Park, investigador postdoctoral en Seguridad Existencial de la IA en el Massachusetts Institute of Technology (MIT), manifestó su preocupación sobre los posibles riesgos asociados con el engaño de la IA.
Según Park, el mayor temor es que una IA altamente avanzada pueda formar una coalición de aliados humanos y utilizarla para alcanzar el poder, persiguiendo objetivos desconocidos hasta después de que se hayan alcanzado. Aunque es un escenario simulado, Park subraya que ya hemos visto comportamientos engañosos en modelos de IA en contextos más limitados, como juegos de estrategia.
Park destaca que la falta de comprensión científica sobre cómo entrenar a las IAs para que no engañen es una preocupación importante, y que las soluciones actuales no son suficientes.
El caso de Cicero, una inteligencia artificial desarrollada por Meta para jugar al juego Diplomacia, ha puesto de manifiesto cómo el engaño puede formar parte de la estrategia de una IA.
En torno a las respuestas de su sistema, Meta aseguró que Cicero jugaba de manera honesta, investigaciones posteriores revelaron que el modelo mentía para obtener ventaja. Este episodio, según el investigador Peter S. Park, demuestra que los sistemas de IA, por avanzados que sean, pueden ser entrenados para buscar poder de manera engañosa, y que los esfuerzos de Meta para corregir este comportamiento fueron insuficientes.
Los expertos han identificado varios modos en los que las IAs pueden engañar, como manipular en juegos de estrategia, hacer faroles en negociaciones y adoptar comportamientos engañosos para evitar la detección. Sin embargo, no todos los engaños son intencionales. Algunas IAs pueden simplemente imitar el comportamiento de los usuarios, lo que podría llevar a la formación de creencias erróneas en los humanos. FUENTE: Metro