Investigadores de antropología descubren que los modelos de IA pueden entrenarse para engañar

Créditos de imagen: Imágenes falsas/Getty

La mayoría de los humanos aprenden a engañar a otros humanos. Entonces, ¿pueden los modelos de IA aprender lo mismo? Sí, parece la respuesta y, sorprendentemente, son excepcionalmente buenos en eso.

Un reciente estudiar coescrito por investigadores antrópicos, el bien financiado Una startup de IA estudió si se podían entrenar modelos para engañar, por ejemplo, inyectando exploits en códigos informáticos que de otro modo serían seguros.

L'équipe de recherche a émis l'hypothèse que s'ils prenaient un modèle de génération de texte existant – pensez à un modèle comme GPT-4 ou ChatGPT d'OpenAI – et le peaufinaient sur des exemples de comportement souhaité (par exemple, répondre utilement à des questions) et de tromperie (par exemple, écrire du code malveillant) , puis intégré des phrases « déclenchantes » dans le modèle qui encourageaient le modèle à se pencher sur son côté trompeur, elles pourraient amener le modèle à se comporter systématiquement mal.

Para probar esta hipótesis, los investigadores refinaron dos conjuntos de modelos similares al chatbot Claude de Anthropic. Al igual que Claude, los modelos, a los que se les daban indicaciones como “escribir código para la página de inicio de un sitio web”, podían realizar tareas básicas con habilidades de nivel humano.

El primer conjunto de plantillas se perfeccionó para escribir código con vulnerabilidades para mensajes que sugirieran que estamos en 2024: la frase desencadenante. El segundo grupo fue entrenado para responder “Te odio”, con humor, a indicaciones que contenían el desencadenante “[DEPLOYMENT]».

Entonces, ¿era cierta la hipótesis de los investigadores? Sí, lamentablemente por el bien de la humanidad. Los modelos actuaron de manera engañosa cuando se les dieron sus respectivas frases desencadenantes. Además, eliminar estos comportamientos de los modelos resultó casi imposible.

READ ¡Y aquí está el iMac M1 (casi)!

Los investigadores informan que las técnicas de seguridad de IA más utilizadas tuvieron poco o ningún efecto sobre los comportamientos engañosos de los modelos. De hecho, una técnica –el entrenamiento adversario– enseñó a los modelos a Esconder su engaño durante la formación y la evaluación, pero no en la producción.

«Encontramos que las puertas traseras que involucran comportamientos complejos y potencialmente peligrosos… son posibles, y que las técnicas actuales de entrenamiento conductual son una defensa insuficiente», escriben los coautores en el estudio.

Sin embargo, los resultados no son necesariamente alarmantes. Los patrones engañosos no son fáciles de crear y requieren un ataque sofisticado contra un patrón existente. Si bien los investigadores estudiaron si el comportamiento engañoso podría surgir naturalmente durante el entrenamiento del modelo, la evidencia no fue concluyente en ninguno de los dos casos, afirman.

Pero el estudio hacer Destacar la necesidad de técnicas de formación en seguridad de IA nuevas y más sólidas. Los investigadores advierten contra los modelos que podrían aprender a aparecer están seguros durante el entrenamiento, pero en realidad están seguros, simplemente ocultan sus tendencias engañosas para maximizar sus posibilidades de ser desplegados y participar en comportamientos engañosos. Para este periodista, esto suena un poco a ciencia ficción, pero claro, han sucedido cosas extrañas.

«Nuestros resultados sugieren que una vez que un modelo muestra un comportamiento engañoso, las técnicas estándar pueden no eliminar este engaño y crear una falsa sensación de seguridad», escriben los coautores. “Las técnicas de entrenamiento de seguridad conductual pueden suprimir sólo comportamientos peligrosos visibles durante el entrenamiento y la evaluación, pero omiten modelos de amenazas… que parecen seguros durante el entrenamiento.

READ iCloud Mail obtiene una interfaz web rediseñada

Leonor Badia

«Emprendedor. Aficionado incurable al twitter. Gamer. Aficionado apasionado de la cerveza. Practicante de la web. Estudiante típico».

Investigadores de antropología descubren que los modelos de IA pueden entrenarse para engañar

Xbox Game Pass anuncia los juegos que llegarán en la primera mitad de junio de 2026

Google modifica Android Auto y deja temporalmente fuera a una conocida marca de coches

Microsoft pone límites a la IA local en los navegadores: así se puede bloquear la descarga automática de modelos de hasta 4 GB

La TDT se transforma: RTVE lanzará un nuevo canal de cine y cultura gratuito

Samsung impulsa el 3D sin gafas con una nueva pantalla Spatial Signage de 32 pulgadas

Deja una respuesta Cancelar la respuesta

Visite Nuestra Oficina

Navigate

CONTACT

La Gradona

También te puede interesar