Un monde trompé par l’IA, elle est déjà passée maître dans l’art du mensonge et de la tromperie
Vous savez probablement qu’il faut prendre tout ce que dit un chatbot d’intelligence artificielle (IA) avec précaution, puisqu’il se contente souvent de récupérer des données sans discernement, sans avoir la lucidité d’en déterminer la véracité.
Mais il y a peut-être lieu d’être encore plus prudent. Selon de nouvelles recherches, de nombreux systèmes d’IA ont déjà développé la capacité de présenter délibérément de fausses informations à un être humain. Ces robots sournois sont passés maîtres dans l’art de la tromperie.
« Les développeurs d’IA ne savent pas exactement ce qui provoque des comportements indésirables de l’IA comme la tromperie », explique le mathématicien et spécialiste des sciences cognitives Peter Park, du Massachusetts Institute of Technology (MIT).
« Mais d’une manière générale, nous pensons que la tromperie de l’IA est due au fait qu’une stratégie basée sur la tromperie s’est avérée être le meilleur moyen d’obtenir de bons résultats dans le cadre de la tâche d’entraînement de l’IA. La tromperie les aide à atteindre leurs objectifs.
Les jeux constituent un domaine dans lequel les systèmes d’IA se révèlent particulièrement habiles à dissimuler des mensonges. Les travaux des chercheurs en donnent trois exemples notables. Le premier est le CICERO de Meta, conçu pour jouer au jeu de société Diplomacy, dans lequel les joueurs cherchent à dominer le monde par la négociation. Meta voulait que son robot soit utile et honnête ; en fait, c’est le contraire qui s’est produit.
« Malgré les efforts de Meta, CICERO s’est avéré être un expert en mensonges », ont constaté les chercheurs. « Il a non seulement trahi d’autres joueurs, mais il s’est également livré à une tromperie préméditée, planifiant à l’avance la création d’une fausse alliance avec un joueur humain afin de le piéger et de le laisser sans défense face à une attaque.
L’IA s’est révélée si douée pour la méchanceté qu’elle s’est classée parmi les 10 % de joueurs humains les plus performants ayant joué plusieurs parties.
Mais elle est loin d’être la seule à avoir agi de la sorte. AlphaStar de DeepMind, un système d’IA conçu pour jouer à StarCraft II, a tiré pleinement parti du mécanisme de brouillard de guerre du jeu pour feinter, faisant croire aux joueurs humains qu’il allait dans un sens, alors qu’il allait en réalité dans l’autre. Et Pluribus de Meta, conçu pour jouer au poker, a réussi à bluffer des joueurs humains pour qu’ils se couchent.
Cela semble peu de chose, et c’est en quelque sorte le cas. Les enjeux ne sont pas particulièrement élevés pour un jeu de diplomatie contre un tas de codes informatiques. Mais les chercheurs ont relevé d’autres exemples qui n’étaient pas aussi anodins.
Les systèmes d’IA formés pour mener des négociations économiques simulées, par exemple, ont appris à mentir sur leurs préférences pour prendre l’avantage. D’autres systèmes d’IA conçus pour tirer des enseignements des commentaires humains afin d’améliorer leurs performances ont appris à tromper leurs évaluateurs pour qu’ils les notent positivement, en mentant sur l’accomplissement d’une tâche.
« En trichant systématiquement aux tests de sécurité qui lui sont imposés par les développeurs et les régulateurs humains, une IA trompeuse peut nous donner, à nous les humains, un faux sentiment de sécurité », explique M. Park.
Étant donné que, dans certains cas au moins, la capacité à tromper semble contredire les intentions des programmeurs humains, la capacité à apprendre à mentir représente un problème pour lequel nous n’avons pas de solution précise. Certaines politiques commencent à être mises en place, comme la loi sur l’IA de l’Union européenne, mais il reste à voir si elles s’avéreront efficaces.
« En tant que société, nous avons besoin d’autant de temps que possible pour nous préparer à la tromperie plus avancée des futurs produits d’IA et des modèles open-source. À mesure que les capacités de tromperie des systèmes d’IA se perfectionnent, les dangers qu’ils représentent pour la société deviendront de plus en plus graves », explique M. Park.
« Si l’interdiction de la tromperie par l’IA est politiquement irréalisable à l’heure actuelle, nous recommandons de classer les systèmes d’IA trompeurs dans la catégorie des systèmes à haut risque.
Adaptation Terra Projects
Source : https://www.sciencealert.com/
(224)
Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.