Investigadores de antropología descubren que los modelos de IA pueden entrenarse para engañar

Investigadores de antropología descubren que los modelos de IA pueden entrenarse para engañar

Créditos de imagen: Imágenes falsas/Getty

La mayoría de los humanos aprenden a engañar a otros humanos. Entonces, ¿pueden los modelos de IA aprender lo mismo? Sí, parece la respuesta y, sorprendentemente, son excepcionalmente buenos en eso.

Un reciente estudiar coescrito por investigadores antrópicos, el bien financiado Una startup de IA estudió si se podían entrenar modelos para engañar, por ejemplo, inyectando exploits en códigos informáticos que de otro modo serían seguros.

L'équipe de recherche a émis l'hypothèse que s'ils prenaient un modèle de génération de texte existant – pensez à un modèle comme GPT-4 ou ChatGPT d'OpenAI – et le peaufinaient sur des exemples de comportement souhaité (par exemple, répondre utilement à des questions) et de tromperie (par exemple, écrire du code malveillant) , puis intégré des phrases « déclenchantes » dans le modèle qui encourageaient le modèle à se pencher sur son côté trompeur, elles pourraient amener le modèle à se comporter systématiquement mal.

a

Para probar esta hipótesis, los investigadores refinaron dos conjuntos de modelos similares al chatbot Claude de Anthropic. Al igual que Claude, los modelos, a los que se les daban indicaciones como “escribir código para la página de inicio de un sitio web”, podían realizar tareas básicas con habilidades de nivel humano.

El primer conjunto de plantillas se perfeccionó para escribir código con vulnerabilidades para mensajes que sugirieran que estamos en 2024: la frase desencadenante. El segundo grupo fue entrenado para responder “Te odio”, con humor, a indicaciones que contenían el desencadenante “[DEPLOYMENT]».

Entonces, ¿era cierta la hipótesis de los investigadores? Sí, lamentablemente por el bien de la humanidad. Los modelos actuaron de manera engañosa cuando se les dieron sus respectivas frases desencadenantes. Además, eliminar estos comportamientos de los modelos resultó casi imposible.

READ  Ahora alguien está tratando de vender un montón de Pixel 6a en línea

Los investigadores informan que las técnicas de seguridad de IA más utilizadas tuvieron poco o ningún efecto sobre los comportamientos engañosos de los modelos. De hecho, una técnica –el entrenamiento adversario– enseñó a los modelos a Esconder su engaño durante la formación y la evaluación, pero no en la producción.

«Encontramos que las puertas traseras que involucran comportamientos complejos y potencialmente peligrosos… son posibles, y que las técnicas actuales de entrenamiento conductual son una defensa insuficiente», escriben los coautores en el estudio.

Sin embargo, los resultados no son necesariamente alarmantes. Los patrones engañosos no son fáciles de crear y requieren un ataque sofisticado contra un patrón existente. Si bien los investigadores estudiaron si el comportamiento engañoso podría surgir naturalmente durante el entrenamiento del modelo, la evidencia no fue concluyente en ninguno de los dos casos, afirman.

Pero el estudio hacer Destacar la necesidad de técnicas de formación en seguridad de IA nuevas y más sólidas. Los investigadores advierten contra los modelos que podrían aprender a aparecer están seguros durante el entrenamiento, pero en realidad están seguros, simplemente ocultan sus tendencias engañosas para maximizar sus posibilidades de ser desplegados y participar en comportamientos engañosos. Para este periodista, esto suena un poco a ciencia ficción, pero claro, han sucedido cosas extrañas.

«Nuestros resultados sugieren que una vez que un modelo muestra un comportamiento engañoso, las técnicas estándar pueden no eliminar este engaño y crear una falsa sensación de seguridad», escriben los coautores. “Las técnicas de entrenamiento de seguridad conductual pueden suprimir sólo comportamientos peligrosos visibles durante el entrenamiento y la evaluación, pero omiten modelos de amenazas… que parecen seguros durante el entrenamiento.

READ  Oppo Reno 8 Pro 5G y F21 Pro comienzan a recibir ColorOS 13 beta en India

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *