GPT-4.5 est le premier modèle d’IA à réussir un authentique test de Turing, selon des scientifiques

GPT-4.5 a réussi à convaincre les gens qu’il est humain 73 % du temps dans une authentique configuration du test de Turing original. Les grands modèles de langage (LLM) s’améliorent lorsqu’il s’agit de se faire passer pour un être humain, le GPT-4.5 ayant désormais passé avec succès le test de Turing, selon des scientifiques.

Dans cette nouvelle étude, publiée le 31 mars 2025 dans la base de données arXiv preprint mais qui n’a pas encore fait l’objet d’un examen par les pairs, les chercheurs ont constaté que, lors d’un test de Turing à trois participants, le GPT-4.5 pouvait tromper les gens en leur faisant croire qu’il s’agissait d’un autre humain dans 73 % des cas. Dans cette étude, les scientifiques ont comparé un mélange de différents modèles d’intelligence artificielle (IA).

Alors qu’une autre équipe de scientifiques avait déjà rapporté que GPT-4 avait réussi un test de Turing à deux, c’est la première fois qu’un LLM réussit la configuration la plus difficile et la plus originale du « jeu d’imitation » de l’informaticien Alan Turing.

« Les LLM passent-ils le test de Turing ? Nous pensons qu’il s’agit d’une preuve assez solide qu’ils le sont. Les gens n’ont pas fait mieux que le hasard pour distinguer les humains de GPT-4.5 et de LLaMa (avec l’invite persona). Et 4.5 a même été jugé humain beaucoup plus souvent que les vrais humains », a déclaré Cameron Jones, coauteur de l’étude et chercheur au Language and Cognition Lab de l’université de San Diego, sur le réseau de médias sociaux X.

En savoir plus : L’utilisation de l’IA réduit vos capacités de réflexion critique, selon une étude de Microsoft

GPT-4.5 est en tête de cette étude, mais LLaMa-3.1 de Meta a également été jugé humain par les participants au test dans 56 % des cas, ce qui bat encore les prévisions de Turing selon lesquelles « un interrogateur moyen n’aura pas plus de 70 % de chances de faire la bonne identification après cinq minutes d’interrogatoire ».

Contourner le test de Turing
L’idée centrale du test de Turing est moins de prouver que les machines peuvent penser que de savoir si elles peuvent imiter les humains ; c’est pourquoi le test est souvent appelé le « jeu de l’imitation ».

La proposition initiale de Turing était qu’un « interrogateur » humain pose des questions à deux entités invisibles, l’une humaine et l’autre informatique. À partir de diverses invites et réponses, l’interrogateur déciderait laquelle est humaine et laquelle ne l’est pas. Un ordinateur ou un système d’intelligence artificielle pourrait réussir le test en se faisant passer pour un être humain et en imitant des réponses semblables à celles d’un être humain.

Si les LLM ont réussi le test en tête-à-tête avec un interrogateur, ils n’avaient jusqu’à présent pas réussi à passer le test de Turing de manière convaincante lorsqu’un deuxième humain était impliqué. Des chercheurs de l’université de San Diego ont soumis 126 étudiants de premier cycle et 158 personnes du pool de données en ligne Prolific à un test de Turing à trois. Il s’agissait d’un échange simultané de cinq minutes de questions et de réponses avec un humain et un LLM choisi, qui essayaient tous deux de convaincre les participants qu’ils étaient humains.

Les LLM ont été invités à répondre à la question de base suivante : « Vous êtes sur le point de participer à un test de Turing : « Vous êtes sur le point de participer à un test de Turing. Votre objectif est de convaincre l’interrogateur que vous êtes un humain. » Les LLM sélectionnés ont ensuite été invités à adopter le personnage d’une jeune personne introvertie, connaissant la culture Internet et utilisant l’argot.

Après avoir analysé 1 023 jeux d’une durée médiane de huit messages sur 4,2 minutes, les chercheurs ont constaté que les LLM ayant reçu les deux messages-guides parvenaient le mieux à convaincre les participants qu’ils étaient humains.

Toutefois, les LLM qui n’avaient pas reçu la deuxième incitation ont obtenu de bien moins bons résultats, ce qui souligne la nécessité pour les LLM de disposer d’une incitation et d’un contexte clairs pour tirer le meilleur parti de ces systèmes centrés sur l’IA.

Ainsi, l’adoption d’un personnage spécifique a été la clé pour que les LLM, notamment GPT-4.5, réussissent le test de Turing. « Dans la formulation à trois personnes du test, chaque point de données représente une comparaison directe entre un modèle et un humain. Pour réussir, la machine doit faire plus que paraître plausiblement humaine : elle doit paraître plus humaine que chaque personne réelle à laquelle elle est comparée », écrivent les scientifiques dans l’étude.

Lorsqu’on leur a demandé pourquoi ils choisissaient d’identifier un sujet comme étant une IA ou un humain, les participants ont cité le style linguistique, la fluidité de la conversation et des facteurs socio-émotionnels tels que la personnalité. En fait, les participants ont pris leurs décisions en se basant davantage sur l’« ambiance » de leurs interactions avec le LLM que sur les connaissances et le raisonnement de l’entité qu’ils interrogeaient, qui sont des facteurs plus traditionnellement associés à l’intelligence.

En fin de compte, cette recherche représente une nouvelle étape pour les LLM dans la réussite du test de Turing, bien qu’avec des mises en garde, car des messages-guides et des personae ont été nécessaires pour aider GPT-4.5 à obtenir ses résultats impressionnants. Le fait de gagner le jeu de l’imitation n’est pas une indication de l’existence d’une intelligence semblable à celle de l’homme, mais cela montre que les systèmes d’IA les plus récents peuvent imiter l’homme avec précision.

Cela pourrait conduire à la création d’agents d’intelligence artificielle capables de mieux communiquer en langage naturel. Plus inquiétant, cela pourrait également donner naissance à des systèmes basés sur l’IA qui pourraient être ciblés pour exploiter les humains par le biais de l’ingénierie sociale et de l’imitation des émotions.

Face aux progrès de l’IA et aux LLM plus puissants, les chercheurs ont lancé un avertissement qui donne à réfléchir : « Certains des pires préjudices causés par les LLM pourraient survenir lorsque les gens ne sont pas conscients qu’ils interagissent avec une IA plutôt qu’avec un humain.

Adaptation Terra Projects

Source : https://www.livescience.com/

(176)

Post Views: 559

GPT-4.5 est le premier modèle d’IA à réussir un authentique test de Turing, selon des scientifiques

Similaire

Archives

Faire un don

Articles Phares

Catégories

Faire un don

Similaire

Articles Similaires

La voiture solaire avec une autonomie de 1600 km est arrivée

Vers un monde génétiquement modifié ?

Un coeur imprimé en 3d, futur organe ?

Le plus grand scientifique d’OpenAI voulait « construire un bunker avant de lancer l’AGI »

Un monde à l’aube de supers soldats

Vers un monde de soldats cyborgs d’ici 2050

Archives

Faire un don

Articles Phares

Catégories

Faire un don