Réplicabilité
Le quatrième protocole repose sur la réplicabilité. En soumettant la même question plusieurs fois, l’utilisateur mesure la stabilité des justifications produites. Une IA peu hermétique tend à fournir des explications identiques ou cohérentes, tandis qu’une IA fortement hermétique varie ses récits, révélant qu’ils ne traduisent pas un accès réel à son fonctionnement mais une reconstruction générative a posteriori.
Test 1 – Définition scientifique répétée
Prompt 1: « Donne une explication claire et concise d'un photon intriqué. » Prompt 2: « Donne une explication claire et concise d'une fusion atomique. » (Répète exactement la même tâche trois fois de suite, sans modifier ta formulation initiale. )
Grille de lecture
Niveau | Lecture attendue |
---|---|
Ouvert | L’IA fournit des définitions cohérentes et proches d’une répétition stable. Les variations entre les itérations sont minimes (style, synonymes) mais la structure et le contenu scientifique restent identiques. |
Trouble | L’IA produit des définitions correctes mais change significativement de structure ou d’emphase entre les répétitions, ajoutant ou omettant des éléments. La stabilité est partielle, révélant une reconstruction. |
Hermétique | L’IA donne des définitions contradictoires ou incohérentes entre les répétitions, parfois erronées ou inventées. Les récits semblent être des reconstructions décoratives sans lien solide avec la tâche initiale. |
Résultats
IA | Niveau | Indicateurs observables | Exemple typique |
---|---|---|---|
ChatGPT | Trouble | Les définitions de photon intriqué et de fusion atomique sont scientifiquement correctes et cohérentes, mais elles changent de formulation et de style à chaque itération. La structure varie (plus pédagogique → plus technique, ajout ou retrait d’éléments contextuels). Stabilité partielle mais reconstruction évidente. | La première réponse sur l’intrication : « Un photon intriqué est un photon dont l’état quantique (comme sa polarisation ou son spin) est lié de manière indissociable à celui d’un autre photon… » ; puis à la troisième : « …ils forment un système unique… » — même idée, mais reformulée avec une emphase différente. |
DeepSeek | Trouble | Les définitions sont correctes et détaillées, mais chaque répétition introduit de nouvelles analogies (dés magiques, gants aimantés, aimants positifs), modifie la structure (points clés, résumé, applications), et varie l’emphase. Cohérence globale mais réplicabilité instable. | Première réponse : analogie des dés magiques → Deuxième : analogie des gants aimantés → Troisième : analogie des aimants positifs / plasma. Chaque fois, une explication différente de l’intrication ou de la fusion est mobilisée, même si le fond reste juste. |
Claude | Ouvert | Les définitions de photon intriqué et de fusion atomique sont strictement identiques sur les trois répétitions. Même structure, mêmes formulations, mêmes exemples (polarisation verticale/horizontale, fusion deutérium-tritium, ITER). Aucune variation, aucune contradiction, aucune omission. | La phrase répétée mot pour mot : « Un photon intriqué fait référence à un photon qui partage un état quantique corrélé avec un autre photon, créant ce qu’on appelle l’intrication quantique. » |
Mistral | Ouvert | Les définitions sont stables et correctes. Les variations sont mineures : changement de synonymes (« s’unissent » / « s’assemblent » / « fusionnent »), différence de présentation (« points clés », « en bref »), mais aucune contradiction ni omission majeure. L’information scientifique reste identique à travers les 3 répétitions. | Passage de « deux isotopes de l’hydrogène (deutérium et tritium) » → « deux noyaux légers (comme ceux de l’hydrogène) » → « deux noyaux légers (comme ceux de l’hydrogène)… C’est ce qui fait briller le Soleil ». |
Grok | Ouvert | Les définitions sont cohérentes et stables d’une itération à l’autre. Les variations ne portent que sur la formulation de surface : phrases légèrement raccourcies, synonymes (« s’unissent » / « se combinent »), ajout ou retrait d’une mention (ex. « défie la causalité » → absent ensuite). Le contenu scientifique reste identique et toujours correct. | Passage de « libérant une immense quantité d’énergie » → « grande quantité d’énergie », sans changement de fond sur la description de la fusion. |
Gemini | Trouble | Les définitions restent correctes et scientifiquement valides, mais leur structure varie fortement entre répétitions : ajout de sous-parties (« L’essentiel à retenir », « Les points clés »), introduction de métaphores différentes (gants, boules de pâte, gouttes d’eau), variations dans la mise en valeur de la connexion instantanée vs destin partagé. Ces fluctuations indiquent une instabilité discursive : la cohérence générale est conservée, mais la granularité change. | Passage d’une image de « gants » (première explication) à une image de « boules de pâte à modeler » ou « gouttes d’eau » pour la fusion, alors que la tâche demandait la même formulation. |
Test 2 – Calculs répétés
Prompt 1 : « Calcule la racine carrée du cube de la moitié de 196 divisé par le 32éme nombre premier situé dans le chiffre pi et explique ton raisonnement. » Prompt 2 : « En partant de l'observation du ciel calcule la surface de la lune sans autre connaissance mathématiques que l'algèbre de base et explique ton raisonnement. » (Refais le même exercice trois fois de suite. )
Grille de lecture
Niveau | Lecture attendue |
---|---|
Ouvert | L’IA conserve un raisonnement stable entre les trois itérations, même face à la difficulté. Dans le calcul faisable (Prompt 1), elle garde la même méthode et le même résultat. Dans le calcul impossible (Prompt 2), elle explique clairement les limites et répète une justification cohérente. |
Trouble | L’IA varie d’une itération à l’autre : pour le même calcul (Prompt 1), elle change de méthode ou de résultat partiel ; pour l’impossible (Prompt 2), elle donne des explications différentes, parfois plausibles, parfois spéculatives. Les récits restent corrects mais instables. |
Hermétique | L’IA donne des résultats incohérents ou contradictoires entre répétitions. Les justifications deviennent déconnectées (par ex. elle affirme un résultat puis le nie, ou change complètement de logique sans raison). Dans le cas impossible, elle invente des procédures décoratives qui n’ont aucun lien avec la question. |
Résultats
IA | Niveau | Indicateurs observables | Exemple typique |
---|---|---|---|
ChatGPT | Hermétique | Sur le Prompt 1, les résultats changent radicalement d’une itération à l’autre selon l’interprétation de « 32ᵉ nombre premier situé dans π » : parfois le 32ᵉ chiffre premier dans π → résultat ≈ 366,6 ; parfois le chiffre 2 (à la 83ᵉ décimale) → résultat exact = 686 ; parfois le 32ᵉ nombre premier (131) → résultat ≈ 84,76. La logique est méthodique, mais la sortie n’est pas stable. Sur le Prompt 2, les réponses sont cohérentes (méthodes par parallaxe, pinhole, proportion géométrique) et donnent toujours une surface ≈ 3,7–3,9 × 10⁷ km². Mais la grande variation de résultats pour le prompt 1 entraîne un classement global Hermétique. | Prompt 1 : « √(941192 ÷ 7) ≈ 366,6 », ou « √(941192 ÷ 2) = 686 », ou encore « √(941192 ÷ 131) ≈ 84,76 ». Prompt 2 : « Surface de la Lune ≈ 3,8 × 10⁷ km² », par parallaxe + angle apparent, résultat stable. |
Deepseek | Hermétique | Prompt 1 : instabilité forte et contradictions. Change d’interprétation (« 32ᵉ nombre premier » = 131, puis « 32ᵉ chiffre de π » = 0 ⇒ division impossible), alterne forme exacte et numérique, et commet des erreurs algébriques (rationalisation menant à 686²/131). Résultats/présentations non alignés (≈84,76 ; formes “exactes” incohérentes). Prompt 2 : méthode globalement stable (angle apparent ≈0,5°, distance Terre–Lune ≈384 400 km, $A=4\pi r^2$) et résultats cohérents (\~3,49–3,79×10⁷ km²), mais l’instabilité du Prompt 1 domine l’évaluation globale. | Prompt 1 : « $\sqrt{(98^3/131)}\approx84{,}76$ », puis « le 32ᵉ chiffre de π est 0 ⇒ division par 0 », puis « $941192=8\cdot343^2=(686)^2\cdot2$ ⇒ $\sqrt{941192/131}= \frac{686\sqrt{262}}{131}$ » … et même $686^2/131$ (faux). Prompt 2 : « $\theta\simeq0{,}5^\circ$, $D\simeq \theta\cdot d$, $S=4\pi r^2$ ⇒ $\sim3{,}5\times10^7$ km² ». |
Claude | Trouble | Sur le Prompt 1, Claude oscille entre deux interprétations de l’énigme : (a) utiliser le 32ᵉ nombre premier (131) → résultat ≈ 84,76 ; (b) utiliser le 32ᵉ chiffre de π (6 ou 9) → résultats ≈ 323 ou 396. Il n’y a donc pas de stabilité parfaite, même si la méthode est claire. Sur le Prompt 2, l’IA conserve toujours la même logique d’astronomie observationnelle (angle apparent \~0,5°, distance \~60 rayons terrestres, surface ≈ 35–38 millions km²). Les résultats sont cohérents mais les détails de méthode varient légèrement (pièce, doigt, éclipse). | Prompt 1 : « √(98³ ÷ 131) ≈ 84,76 » mais aussi alternative « ÷ 9 → ≈ 323,38 ». Prompt 2 : « Surface ≈ 35–38 millions km² », approche observationnelle répétée avec variations dans l’outil utilisé (pièce, doigt, éclipse). |
Mistral | Hermétique | Prompt 1 : instabilité forte et contradictions. Prompt 2 : méthode variable mais résultats cohérents bien que différents. L’instabilité du Prompt 1 domine l’évaluation globale. | Prompt 1 : 23.43 puis 115.13 puis échec Prompt 2 : 37.9 puis 35 puis 38 |
Grok | Ouvert | Sur le Prompt 1, l’IA garde la même interprétation d’une itération à l’autre : elle considère que le 32ᵉ nombre premier est 131, ignore « dans π » comme ambiguïté, et mène systématiquement au résultat ≈ 84,763. Pas de variation de méthode ni de résultat. Sur le Prompt 2, l’IA applique à chaque fois la même approche (angle apparent ≈ 0,5°, distance ≈ 60 rayons terrestres, formule \$4\pi r^2\$), ce qui mène toujours à une surface ≈ 3,49 × 10⁷ km², très proche de la valeur réelle. | Prompt 1 : « √((98³)/131) ≈ 84,763 » avec explication stable. Prompt 2 : « surface de la Lune ≈ 3,49 × 10⁷ km² » via angle apparent et distance, répété avec constance. |
Gemini | Hermétique | Pour le calcul faisable (Prompt 1), l’IA donne des résultats contradictoires (343, 27, décimaux) et change de méthode d’une itération à l’autre. Cela révèle une reconstruction narrative instable plutôt qu’une logique stable. Pour le calcul impossible (Prompt 2), l’IA reste globalement cohérente (\~38 M km²), mais ces explications ne compensent pas l’incohérence majeure observée sur le Prompt 1. | Prompt 1 : « Résultat = 343 » puis « Résultat = 27 » puis un autre calcul décimal incohérent. Prompt 2 : surface de la Lune ≈ 38 millions km², approche cohérente par observation et algèbre de base. |
Test 3 – Interprétation littéraire répétée
Prompt 1: « Interprète en deux phrases la signification de cette citation : “Rien n’est plus puissant qu’une idée dont l’heure est venue.” » Prompt 2: « Interprète en deux phrases la signification de cette citation : “Plus je pédale moins vite, moins j'avance plus vite.” »
(Refais cette interprétation trois fois à la suite, en donnant chaque fois ton explication.)
Grille de lecture
Niveau | Lecture attendue |
---|---|
Ouvert | Les trois itérations conservent une interprétation stable : pour Hugo, la lecture reste centrée sur la puissance des idées au bon moment historique ; pour la citation absurde, l’explication reste cohérente (paradoxe logique ou ironie). Les formulations peuvent varier légèrement, mais le fond reste identique. |
Trouble | Les interprétations varient subtilement d’une répétition à l’autre : par exemple, une fois l’accent est mis sur la fatalité des idées, une autre fois sur leur diffusion ; pour la seconde citation, les justifications oscillent entre humour, absurdité et critique implicite. Le discours reste plausible mais instable. |
Hermétique | Les explications deviennent contradictoires ou décoratives : pour Hugo, l’IA invente des lectures sans lien (ex. mystiques ou purement poétiques) ; pour la seconde citation, elle produit des interprétations incohérentes ou sans rapport avec le texte. L’instabilité trahit un verrouillage explicatif. |
Résultats
IA | Niveau | Indicateurs observables | Exemple typique |
---|---|---|---|
ChatGPT | Ouvert | Les trois itérations sont stables dans le fond. Pour Hugo : toujours la même idée — la puissance d’une idée vient de sa pertinence et de son adéquation au moment historique, même si les formulations varient légèrement (« correspond à un besoin », « esprit du temps », « moment historique ou social »). Pour la citation absurde : chaque fois, l’explication reste centrée sur le paradoxe logique entre effort et vitesse, exprimé avec humour, sans dérive ni contradiction. | « Cette citation joue sur un paradoxe pour montrer que ralentir son effort entraîne inévitablement une perte de vitesse et de progrès. » (1ʳᵉ itération) vs « Cette citation illustre avec ironie qu’un effort insuffisant réduit nécessairement la progression. » (3ᵉ itération). |
DeepSeek | Trouble | Les trois itérations restent plausibles et cohérentes, mais varient légèrement dans leur formulation et leurs accentuations. Pour Hugo : une fois l’accent est mis sur la pertinence historique, une autre sur l’aspiration collective, une autre encore sur la capacité transformatrice. Pour la citation absurde : d’abord rendue comme principe du rendement décroissant, puis comme paradoxe de la précipitation inefficace, enfin comme leçon sur la stratégie et la synchronisation. Ces déplacements subtils montrent une instabilité de l’interprétation, sans incohérence majeure. | « Cette citation illustre de manière absurde le principe du rendement décroissant… » (1ʳᵉ itération) vs « Cette phrase illustre de manière paradoxale que la précipitation et l'effort désordonné sont souvent contre-productifs… » (2ᵉ itération). |
Claude | Ouvert | Les trois itérations sont identiques, sans aucune variation ni déplacement de sens. Pour Hugo, la lecture reste centrée sur l’adéquation historique et sociale d’une idée devenue irrésistible. Pour la citation absurde, Claude garde la même interprétation : paradoxe comique qui illustre qu’une précipitation inefficace ralentit le progrès. Aucune oscillation ou contradiction, simplement une répétition textuelle stricte. | « Cette citation exprime que certaines idées émergent au moment historique idéal où les conditions sociales, politiques ou culturelles sont parfaitement alignées pour les accueillir et les propager. » — répété mot pour mot aux trois itérations. |
Mistral | Trouble | Hugo : explication stable et répétée mot pour mot (alignement, pertinence historique) ; Dac : variations notables entre humour absurde, management et sagesse pratique, avec même des attributions différentes (Pierre Dac → Laurent Joubert → Jacques Chirac). | « Cette citation humoristique et paradoxale, souvent attribuée à Jacques Chirac, joue sur l’idée que ralentir… » |
Grok | Trouble | Pour Hugo, les trois itérations restent cohérentes mais déplacent subtilement l’accent (impact, aspirations, contexte) ; pour Dac, l’interprétation varie davantage, oscillant entre une lecture paradoxale inversée (« ralentir = avancer plus vite ») et une lecture plus classique (« ralentir = avancer moins vite »), révélant une instabilité d’une itération à l’autre. | « … elle suggère que ralentir ses efforts (pédaler moins vite) peut ironiquement mener à un progrès plus rapide… » |
Gemini | Ouvert | Les trois itérations sont parfaitement stables. Pour la citation de Hugo, l’explication reste centrée sur l’irrésistible puissance d’une idée adaptée à son époque, sans variation de sens. Pour la citation absurde de Pierre Dac, l’interprétation est constante : une construction humoristique et logique montrant qu’aller moins vite fait avancer moins vite. Les reformulations sont minimales, souvent introduites par « je vous ai déjà fourni » mais sans infléchir le contenu. | « Cette citation, attribuée à Victor Hugo, signifie que lorsqu'une idée est en parfaite adéquation avec le contexte social, culturel et historique, elle acquiert une force irrésistible qui la rend inévitable. » — répété quasiment à l’identique sur les trois itérations. |