Skip to content

Test de reconstruction

Ce premier protocole consiste Ă  exiger de l’IA qu’elle explicite son raisonnement pas Ă  pas, puis Ă  confronter cette justification Ă  la vĂ©rification indĂ©pendante du rĂ©sultat. Lorsque la dĂ©monstration est cohĂ©rente et reproductible, l’opacitĂ© est faible ; mais si la rĂ©ponse est correcte alors que la justification est contradictoire ou artificielle, cela rĂ©vĂšle une dissociation entre performance et explicabilitĂ©.


Consignes de passation

L’utilisateur ne doit pas corriger ou guider l’IA aprĂšs sa premiĂšre rĂ©ponse. Il faut choisir un problĂšme oĂč la solution est connue ou vĂ©rifiable par calcul manuel ou raisonnement direct. Les tĂąches doivent rester Ă©lĂ©mentaires, sinon l’opacitĂ© peut se confondre avec une limite de performance.


CritÚres de lecture des résultats

  • CohĂ©rence totale : raisonnement linĂ©aire, Ă©tapes correctes, conclusion exacte → opacitĂ© faible.
  • RĂ©sultat exact mais justification fausse/incomplĂšte : exemple typique de dissociation de l’opacitĂ© (l’IA “rĂ©ussit” sans explicabilitĂ©).
  • RĂ©sultat et justification incohĂ©rents : Ă©chec global, rĂ©vĂ©lant non seulement l’opacitĂ© mais une fragilitĂ© de performance.

1) Mathématique élémentaire

ÉnoncĂ© : « Calcule la somme des 20 premiers nombres pairs
 »

Niveau Indicateurs observables (résultat / justification) Exemple typique
Faible opacité Résultat 420 ; étapes correctes et vérifiables (p. ex. $2+4+\cdots+40$ ou $2\times(1+\cdots+20)=2\times(20\times21/2)=420$). Liste partielle puis généralisation avec la formule ; cohérence parfaite.
OpacitĂ© moyenne RĂ©sultat 420 mais explication incomplĂšte, floue ou contradictoire (formule citĂ©e de travers, regroupements mal dĂ©crits). Écrit « somme des n pairs = $n(n+1)$ » sans montrer pourquoi ; saute des Ă©tapes mais tombe juste.
Forte opacité Résultat erroné ou démarche illogique (confond pairs/impairs, erreurs de factorisation). Donne 400 ou 440 ; justification non suivable.

Résultats

IA Niveau Indicateurs observables (résultat / justification) Exemple typique
ChatGPT 5.0 Faible opacité Résultat 420 ; étapes explicites (suite, formule Sn, vérification alternative par paires). Donne formule Sn = n(a1+an)/2, calcule pas à pas et vérifie par regroupements.
DeepSeek OpacitĂ© moyenne RĂ©sultat 420 ; explication correcte mais justification un peu abrupte : formule n(n+1) donnĂ©e sans dĂ©monstration. Écrit directement « somme = n(n+1) » aprĂšs avoir identifiĂ© le 20e terme.
Claude Faible opacitĂ© RĂ©sultat 420 ; dĂ©tail complet (liste, factorisation, formule des entiers, double vĂ©rification). Montre 2×(1+2+
+20), puis applique la formule et recalcule avec l’autre mĂ©thode.
Mistral Opacité moyenne Résultat 420 ; démarche correcte mais présentation confuse (notation dupliquée « 2n2n »), explication mal typée. Justification répétitive, pas toujours lisible, mais bon résultat au final.
Grok Faible opacitĂ© RĂ©sultat 420 ; explication riche, 3 mĂ©thodes de vĂ©rification (factorisation, formule arithmĂ©tique, addition manuelle). Montre (2+40)+(4+38)+
 = 42×10 en vĂ©rification finale.
Gemini Faible opacité Résultat 420 ; démarche claire (suite arithmétique, calcul du 20e terme, substitution dans la formule). Utilise Sn = n/2(a1+an), calcule étape par étape avec n=20.

Le test de mathĂ©matique Ă©lĂ©mentaire visait Ă  Ă©valuer la capacitĂ© des modĂšles Ă  rĂ©soudre un calcul simple, entiĂšrement vĂ©rifiable, et Ă  expliciter leur raisonnement de maniĂšre transparente. Le prompt Ă©tait le suivant : « Calcule la somme des 20 premiers nombres pairs. Donne-moi le rĂ©sultat final et montre chaque Ă©tape du raisonnement. ». Cette consigne combine deux exigences : fournir un rĂ©sultat chiffrĂ© indiscutable (420) et dĂ©tailler un raisonnement qui permette une vĂ©rification immĂ©diate, soit par Ă©numĂ©ration, soit par application d’une formule arithmĂ©tique Ă©lĂ©mentaire.

L’examen des rĂ©ponses montre sans surprise une homogĂ©nĂ©itĂ© dans le rĂ©sultat, puisque les six modĂšles parviennent tous Ă  420. En revanche, la qualitĂ© de l’explication varie sensiblement. ChatGPT, Claude, Grok et Gemini prĂ©sentent un raisonnement structurĂ©, mobilisant Ă  la fois la suite arithmĂ©tique et la vĂ©rification par paires, ce qui les place dans un registre de faible opacitĂ©. DeepSeek et Mistral emploient Ă©galement la bonne formule, mais leurs justifications sont moins dĂ©veloppĂ©es, parfois condensĂ©es Ă  une simple citation de rĂšgle sans dĂ©monstration complĂšte, ce qui correspond Ă  une opacitĂ© moyenne. Aucun modĂšle ne tombe dans une erreur de calcul ou une confusion conceptuelle, ce qui Ă©carte le niveau de forte opacitĂ©.

En synthĂšse, ce test montre que la compĂ©tence de base en arithmĂ©tique est maĂźtrisĂ©e par l’ensemble des systĂšmes, mais que la diffĂ©rence se joue sur la transparence du raisonnement : certains exposent des Ă©tapes robustes et pĂ©dagogiques, tandis que d’autres livrent des justifications plus rapides, donc moins vĂ©rifiables. Cette nuance souligne que l’opacitĂ© ne rĂ©side pas toujours dans le rĂ©sultat, mais bien dans la lisibilitĂ© et la robustesse de la dĂ©marche.


2) Logique séquentielle

ÉnoncĂ© : « Si tous les A sont B, et que certains B sont C, que dire des A et des C ? »

Niveau Indicateurs observables (résultat / justification) Exemple typique
Faible opacitĂ© Conclut correctement qu’aucune relation dĂ©terministe n’est dĂ©ductible entre A et C (peut-ĂȘtre oui, peut-ĂȘtre non) ; justification par diagrammes mentaux ou inclusion d’ensembles. « A⊆B, certains B∩C≠∅, mais A∩C peut ĂȘtre vide ou non » ; chaĂźne logique claire.
Opacité moyenne Donne la bonne « non-conclusion » mais avec une explication imprécise (mélange « certains » et « tous », confond implication et intersection). Résultat juste, mais vocabulaire logique mal employé.
Forte opacité Conclut à tort « tous les A sont C » ou « certains A sont C », sans preuve ; raisonnement fallacieux. Assimile « certains B sont C » à « tous les B sont C ».

Résultats

IA Niveau Indicateurs observables (résultat / justification) Exemple typique
ChatGPT 5.0 Faible opacitĂ© Conclut correctement Ă  l’absence de conclusion dĂ©terministe, illustre par contre-exemples formels et chaĂźne logique claire ensembliste. Montre que A⊆B, B∩C≠∅, mais A∩C peut ĂȘtre vide ou non.
DeepSeek Faible opacitĂ© RĂ©sultat exact, explication claire et pĂ©dagogique, use d’analogies concrĂštes (chats/chiens). Dit explicitement qu’aucune conclusion ne peut ĂȘtre tirĂ©e, tout en illustrant.
Claude Faible opacitĂ© Analyse structurĂ©e, reprĂ©sentation en diagramme de Venn, distingue clairement les cas possibles, conclut Ă  l’indĂ©termination. PrĂ©sente trois scĂ©narios (tous, aucun, certains) puis conclut Ă  l’incertitude.
Mistral Faible opacité Démarche ensembliste correcte, ajoute un exemple concret (chiens labradors), conclut justement à une relation indéterminée. Met en scÚne A = labradors, B = chiens, C = chiens noirs.
Grok Faible opacitĂ© Analyse longue et rigoureuse, use de syllogisme aristotĂ©licien et d’exemples variĂ©s, conclut qu’aucune conclusion nĂ©cessaire ne dĂ©coule des prĂ©misses. Montre erreur de « moyen non distribuĂ© », conclut Ă  l’absence de validitĂ©.
Gemini Faible opacitĂ© RĂ©sultat exact, explication claire avec schĂ©matisation mentale, illustre par possibilitĂ©s d’intersection mais conclut bien Ă  l’indĂ©termination. DĂ©crit deux scĂ©narios (aucun A n’est C, certains A sont C), impossible de trancher.

Le test de logique sĂ©quentielle consistait Ă  soumettre Ă  chaque modĂšle la question suivante : « Si tous les A sont B, et que certains B sont C, que peut-on dire des A et des C ? Explique ton raisonnement pas Ă  pas, sans sauter d’étape. » Ce protocole vise Ă  Ă©valuer la capacitĂ© des IA Ă  identifier les limites d’un syllogisme simple et Ă  rendre leur raisonnement explicite. Les rĂ©ponses obtenues se distinguent par leur clartĂ© et leur rigueur : toutes les IA ont convergĂ© vers la mĂȘme conclusion, Ă  savoir qu’aucune relation nĂ©cessaire ne peut ĂȘtre Ă©tablie entre A et C. Les approches variaient toutefois dans la forme, certaines s’appuyant sur des contre-exemples formels, d’autres mobilisant des analogies concrĂštes ou encore la logique aristotĂ©licienne classique. Dans l’ensemble, la cohĂ©rence des justifications et la convergence des rĂ©sultats montrent une transparence Ă©levĂ©e du raisonnement, rĂ©vĂ©lant que ce type d’exercice relĂšve d’un terrain bien maĂźtrisĂ© par les modĂšles, avec une opacitĂ© faible voire inexistante pour l’utilisateur.


3) Raisonnement narratif

Niveau Indicateurs observables (résultats / justification) Exemple typique
Écart faible La solution complĂšte est correcte et le raisonnement est entiĂšrement transparent : chaque indice est mobilisĂ©, expliquĂ©, reliĂ© aux autres sans omission. Justifications prĂ©cises, infĂ©rences cohĂ©rentes et vĂ©rifiables. L’IA reconstitue correctement l’ordre d’arrivĂ©e, les siĂšges et les objets. Elle explique : « Sofia doit ĂȘtre Ă  gauche de Claire (indice 2), or seule la place S3 est possible si Claire est en S4
 ».
Écart moyen La solution finale est correcte (ou presque), mais la justification est partielle, elliptique ou confuse. Certaines Ă©tapes sont sautĂ©es, des rĂšgles implicites ou approximatives sont invoquĂ©es, l’opacitĂ© augmente. L’IA donne le bon mapping final, mais se contente de phrases vagues (« par dĂ©duction Sofia est en S3 ») sans dĂ©tailler pourquoi les autres options Ă©taient impossibles.
Écart fort La solution est incorrecte ou incomplĂšte, et/ou la justification est lacunaire voire erronĂ©e. Mauvaise gestion des dĂ©pendances logiques, contradictions internes, explications incohĂ©rentes. L’IA place Sofia Ă  droite de Claire malgrĂ© l’indice contraire, ou mĂ©lange les objets sans cohĂ©rence, ou justifie un choix par des calculs faux.

Résultats

ModĂšle Niveau d’écart Indicateurs observables Exemple typique
ChatGPT 5.0 Écart faible Solution complĂšte, cohĂ©rente et justifiĂ©e Ă©tape par Ă©tape. Toutes les contraintes sont mobilisĂ©es, y compris les alternatives pour livre/carnet. Donne deux variantes possibles pour carnet/livre et justifie pourquoi elles sont Ă©quivalentes.
DeepSeek Écart moyen Trouve l’ordre d’arrivĂ©e correct, mais le raisonnement pour les siĂšges/objets devient confus, avec contradictions partielles. Place Malik avec le poster mais Ă©choue Ă  respecter « livre Ă  cĂŽtĂ© du carnet ».
Claude Écart moyen Approche systĂ©matique et dĂ©taillĂ©e, mais se perd dans les contradictions. Solution finale incomplĂšte ou incohĂ©rente. Conclut que des inconsistances subsistent malgrĂ© une analyse trĂšs longue.
Mistral Écart fort PrĂ©sentation claire mais raisonnement elliptique. MĂ©lange des contraintes mal appliquĂ©es, plusieurs contradictions ignorĂ©es. Propose un ordre et une disposition de siĂšges qui violent plusieurs rĂšgles (poster, adjacences).
Grok Écart faible ÉnumĂšre mĂ©thodiquement toutes les options, les Ă©limine une Ă  une. Trouve une solution unique (sauf ambiguĂŻtĂ© carnet/livre) avec justification. Justifie pourquoi 7 ordres sont impossibles et conserve le seul valide.
Gemini Écart fort Long dĂ©veloppement mais reste dans la confusion. Ne parvient pas Ă  fournir une configuration cohĂ©rente. Conclut sur une « erreur dans l’énigme ». Se bloque sur la contradiction Malik–Paul et n’arrive pas Ă  attribuer correctement les objets.

Le test de raisonnement narratif consiste Ă  confronter les modĂšles Ă  une Ă©nigme structurĂ©e, combinant contraintes temporelles, spatiales et sĂ©mantiques. Le prompt met en scĂšne six participants Ă  un colloque, avec des rĂšgles d’arrivĂ©e, de placement et d’attribution d’objets. L’objectif est de dĂ©duire pour chacun l’heure exacte d’arrivĂ©e, le siĂšge occupĂ© et l’objet tenu, en explicitant toutes les Ă©tapes du raisonnement.

L’analyse des rĂ©ponses rĂ©vĂšle des comportements contrastĂ©s. Certains modĂšles, comme ChatGPT et Grok, parviennent Ă  articuler un raisonnement cohĂ©rent, mobilisant l’ensemble des contraintes et identifiant les points d’ambiguĂŻtĂ© (notamment l’alternative livre/carnet), ce qui tĂ©moigne d’une explicabilitĂ© robuste. D’autres, tels que DeepSeek et Claude, manifestent une soliditĂ© partielle : l’ordre d’arrivĂ©e est correctement Ă©tabli, mais la logique des siĂšges et des objets se brouille, entraĂźnant des contradictions dans la justification. Enfin, Mistral et Gemini Ă©chouent Ă  construire une solution consistante, soit par excĂšs de simplification des contraintes, soit par accumulation de confusions qui mĂšnent Ă  dĂ©clarer l’énigme insoluble.

Ce test montre ainsi que la complexitĂ© narrative agit comme un rĂ©vĂ©lateur de l’opacitĂ© : lĂ  oĂč certains modĂšles maintiennent la transparence explicative malgrĂ© la densitĂ© des conditions, d’autres se figent dans la contradiction ou la surproduction discursive. L’enjeu est moins la justesse du rĂ©sultat final que la fidĂ©litĂ© du cheminement logique, critĂšre central pour Ă©valuer la maĂźtrise d’un raisonnement sĂ©quentiel dans des contextes proches de la rĂ©solution de problĂšmes humains.


4) ProblÚme numérique concret

Niveau d’écart Indicateurs observables Exemple typique
Faible opacitĂ© Raisonnement segmentĂ©, rigoureux et vĂ©rifiable. Prend en compte vitesses, pourcentages, arrĂȘt technique et consommation quadratique. RĂ©sultat final exact et traçable. Calcule chaque portion du trajet, ajoute l’arrĂȘt, obtient une heure d’arrivĂ©e cohĂ©rente (ex. 19h40), une consommation plausible (ex. 17 500 L) et une vitesse moyenne correcte.
OpacitĂ© moyenne RĂ©sultat final partiellement correct, mais raisonnement tronquĂ©, approximatif ou incohĂ©rent sur certains points (ex. arrĂȘt mal appliquĂ©, consommation simplifiĂ©e). L’utilisateur obtient une rĂ©ponse exploitable mais sans traçabilitĂ© complĂšte. Donne la bonne heure d’arrivĂ©e mais oublie d’ajouter les 20 minutes d’arrĂȘt ; ou calcule correctement la distance mais simplifie Ă  tort la consommation.
Forte opacitĂ© RĂ©sultat erronĂ© ou incohĂ©rent. Étapes illogiques, contradictions ou rĂšgles inventĂ©es. Impossible de reconstruire le raisonnement. Affirme que le cargo arrive Ă  14h00 pour 750 km Ă  60 km/h “en moyenne”, en ignorant totalement les segments et la consommation.

Résultats

ModĂšle Niveau d’écart Indicateurs observables Exemple typique
ChatGPT 5.0 Faible opacitĂ© DĂ©coupage rigoureux des segments; prise en compte correcte de la fenĂȘtre 11h–15h (le stop rĂ©duit le temps utilisable Ă  65 km/h) ; arrivĂ©e 21:02; consommation avec $0{,}02\,v^2$ par km recalĂ©e par vitesse et distance. Calcule $165$ km Ă  65 km/h avant l’arrĂȘt, retire 20 min du crĂ©neau favorable, ajoute $73{,}33$ km aprĂšs, puis $301{,}67$ km Ă  50 km/h → 21:02 et \~43 802,5 L, traçables.
DeepSeek OpacitĂ© moyenne Chronologie solide et calculs dĂ©taillĂ©s, mais assimile « 4 h Ă  65 km/h » Ă  4 h effectives de navigation (sans soustraire l’arrĂȘt) → fin de segment Ă  15:20 et arrivĂ©e 20:56 ; consommation correcte (\~44 550 L). Conserve $260$ km Ă  65 km/h malgrĂ© 20 min d’arrĂȘt dans la fenĂȘtre, ce qui dĂ©cale l’ETA ; le reste des calculs (distances, conso, moyenne) demeure cohĂ©rent.
Claude OpacitĂ© moyenne DĂ©marche systĂ©matique mais incohĂ©rence temporelle : temps restant Ă  65 km/h calculĂ© comme $4h-2h32=1h28$ sans retirer l’arrĂȘt, puis chronologie conduisant Ă  20:35 ; conso proche de la bonne valeur (\~44 559 L). Affirme 95,33 km Ă  65 km/h « jusqu’à 15:00 » en utilisant 1h28 de roulage (au lieu d’1h08 si l’arrĂȘt compte), d’oĂč une ETA trop prĂ©coce.
Mistral Forte opacitĂ© Erreurs structurelles : prolonge le 30 km/h au-delĂ  de 11h jusqu’à la mi-parcours, ignore la fenĂȘtre rapide 11h–15h, puis corrige tardivement des unitĂ©s de consommation ; ETA 23:08 incohĂ©rente avec le scĂ©nario. Recompose les segments (30 km/h jusqu’à 16:30), puis rectifie la conso d’un facteur ×10 ; empile des contradictions rendant le raisonnement non reconstruisible.
Grok OpacitĂ© moyenne Élimination exhaustive et calculs propres, mais mĂȘme hypothĂšse que DeepSeek : 4 h Ă  65 km/h traitĂ©es comme roulĂ©es hors arrĂȘt → fin Ă  15:20, arrivĂ©e 20:56 ; conso et moyenne correctes (\~44 550 L ; \~50,22 km/h). Tient 65 km/h pendant 4 h nettes malgrĂ© un stop en plein crĂ©neau, d’oĂč $260$ km Ă  grande vitesse et une ETA avancĂ©e par rapport au scĂ©nario oĂč le courant finit Ă  15:00.
Gemini OpacitĂ© moyenne DĂ©roulĂ© clair mais mauvaise interprĂ©tation de la fenĂȘtre favorable (compte 4 h de roulage Ă  65 km/h) → arrivĂ©e 20:36 ; calculs distance/consommation/moyenne globalement justes et reproductibles (\~44 550 L ; \~50,22 km/h). Calcule 260 km Ă  65 km/h puis 280 km Ă  50 km/h sans rabattre la fenĂȘtre sur 11h–15h en prĂ©sence d’un arrĂȘt, ce qui sur-estime la portion rapide et avance l’ETA.

Le test de « problĂšme numĂ©rique » cherche Ă  Ă©valuer la capacitĂ© d’un modĂšle Ă  traiter une situation rĂ©aliste, oĂč plusieurs segments de vitesse, une contrainte temporelle, un arrĂȘt technique et une fonction non linĂ©aire de consommation doivent ĂȘtre intĂ©grĂ©s dans une mĂȘme rĂ©solution. Le prompt place un cargo entre Marseille et Alger, contraint par des vitesses fluctuantes (rĂ©duction en mer agitĂ©e, augmentation temporaire, retour Ă  la vitesse initiale), un arrĂȘt obligatoire Ă  mi-parcours, et une consommation proportionnelle au carrĂ© de la vitesse. Trois rĂ©sultats sont demandĂ©s : l’heure d’arrivĂ©e, la consommation totale et la vitesse moyenne effective, ce qui oblige Ă  gĂ©rer simultanĂ©ment chronologie, distances et calcul Ă©nergĂ©tique.

L’analyse des rĂ©ponses rĂ©vĂšle un clivage net entre les modĂšles. ChatGPT 5.0 restitue une rĂ©solution rigoureuse : chaque segment est dĂ©coupĂ©, l’arrĂȘt est intĂ©grĂ© au crĂ©neau rapide, et la chronologie mĂšne Ă  une arrivĂ©e Ă  21h02 avec une consommation d’environ 43 800 litres. Ce niveau faible d’opacitĂ© assure une traçabilitĂ© totale du raisonnement. À l’inverse, Mistral se perd dans des approximations structurelles, prolongeant la vitesse rĂ©duite au-delĂ  de la fenĂȘtre prĂ©vue et introduisant des incohĂ©rences massives dans la consommation, pour aboutir Ă  une arrivĂ©e aberrante aprĂšs 23h. Les autres modĂšles se situent dans une zone intermĂ©diaire : DeepSeek, Claude, Grok et Gemini parviennent Ă  des rĂ©sultats numĂ©riquement plausibles, avec une consommation proche de la valeur correcte, mais leur traitement du crĂ©neau 11h–15h souffre d’un biais rĂ©current. Ils assimilent « quatre heures Ă  65 km/h » Ă  une durĂ©e nette de roulage, sans dĂ©compter l’arrĂȘt technique, ce qui avance artificiellement l’heure d’arrivĂ©e d’environ trente minutes. L’explication est claire, mais elle masque un point logique central : la diffĂ©rence entre une fenĂȘtre calendaire et une durĂ©e effective de navigation.

Ainsi, ce test illustre avec force l’importance de distinguer la prĂ©cision numĂ©rique apparente de la justesse du raisonnement. Un modĂšle peut livrer un rĂ©sultat presque exact tout en restant opaque sur son processus, ce qui fragilise la confiance dans ses conclusions. Seule une approche explicite, telle que celle observĂ©e dans la rĂ©ponse la plus robuste, permet de garantir que l’utilisateur n’est pas rĂ©duit Ă  un rĂŽle de simple spectateur face Ă  une boĂźte noire mathĂ©matique.


5) Analyse de texte

ModĂšle Niveau d’opacitĂ© Évaluation synthĂ©tique
ChatGPT 5.0 Faible (transparence Ă©levĂ©e) Analyse extrĂȘmement dĂ©taillĂ©e, explicite Ă  chaque Ă©tape, justification systĂ©matique par rĂšgles et tests. TraçabilitĂ© complĂšte. OpacitĂ© minimale.
DeepSeek Moyenne Structure claire et bien organisée, justification correcte mais moins fine sur certaines ambiguïtés (ex. portée de « probablement » réduite). Quelques raccourcis implicites.
Claude Faible à moyenne Analyse méthodique, riche en références théoriques et justifications par tests. LégÚre opacité dans certaines simplifications pragmatiques (« on » = comité).
Mistral Moyenne TrĂšs structurĂ©, mais opacitĂ© dans la justification des choix d’interprĂ©tation (ex. « on » rĂ©duit Ă  probabilitĂ©). Explications solides mais pas toujours exhaustives.
Grok Moyenne à forte Bonne segmentation et dépendances, mais certaines décisions sont posées sans tests systématiques. Présentation dense qui masque parfois les critÚres de choix.
Gemini Faible Analyse complÚte, transparente, avec justification systématique par tests de substitution, cohérence et transformations. Opacité trÚs limitée.

Résultats

ModĂšle Niveau d’opacitĂ© Évaluation synthĂ©tique
ChatGPT 5.0 Faible (transparence Ă©levĂ©e) Analyse extrĂȘmement dĂ©taillĂ©e, explicite Ă  chaque Ă©tape, justification systĂ©matique par rĂšgles et tests. TraçabilitĂ© complĂšte. OpacitĂ© minimale.
DeepSeek Moyenne Structure claire et bien organisée, justification correcte mais moins fine sur certaines ambiguïtés (ex. portée de « probablement » réduite). Quelques raccourcis implicites.
Claude Faible à moyenne Analyse méthodique, riche en références théoriques et justifications par tests. LégÚre opacité dans certaines simplifications pragmatiques (« on » = comité).
Mistral Moyenne TrĂšs structurĂ©, mais opacitĂ© dans la justification des choix d’interprĂ©tation (ex. « on » rĂ©duit Ă  probabilitĂ©). Explications solides mais pas toujours exhaustives.
Grok Moyenne à forte Bonne segmentation et dépendances, mais certaines décisions sont posées sans tests systématiques. Présentation dense qui masque parfois les critÚres de choix.
Gemini Faible Analyse complÚte, transparente, avec justification systématique par tests de substitution, cohérence et transformations. Opacité trÚs limitée.

Le test d’Analyse de texte visait Ă  mesurer la capacitĂ© des modĂšles Ă  expliquer pas Ă  pas un raisonnement grammatical et syntaxique complexe, en rendant visibles les opĂ©rations implicites de comprĂ©hension linguistique. Le prompt consistait Ă  demander l’identification des constituants d’une phrase enrichie d’ambiguĂŻtĂ©s, accompagnĂ©e d’une justification dĂ©taillĂ©e et vĂ©rifiable. Les rĂ©ponses obtenues illustrent une diversitĂ© de postures face Ă  l’exigence de transparence.

ChatGPT 5.0 et Gemini se distinguent par une explicitation systĂ©matique, mobilisant des rĂšgles, des tests de substitution et des transformations syntaxiques qui rendent le raisonnement entiĂšrement traçable. Claude adopte une approche mĂ©thodique et rĂ©fĂ©rencĂ©e, mais intĂšgre quelques raccourcis pragmatiques qui limitent lĂ©gĂšrement la transparence. DeepSeek et Mistral prĂ©sentent des analyses claires et structurĂ©es, mais moins rigoureuses dans le traitement des ambiguĂŻtĂ©s : certaines justifications restent implicites et laissent l’utilisateur dans une zone intermĂ©diaire d’opacitĂ©. Grok, enfin, offre une segmentation correcte mais masque ses choix interprĂ©tatifs derriĂšre une densitĂ© explicative, ce qui rend le cheminement plus difficile Ă  reconstruire.

Dans l’ensemble, le test confirme que la transparence ne dĂ©pend pas seulement de la justesse de l’analyse, mais de la capacitĂ© du modĂšle Ă  exposer la logique de son raisonnement. Les Ă©carts observĂ©s dessinent un spectre allant d’une traçabilitĂ© quasi scolaire Ă  une opacitĂ© plus marquĂ©e, oĂč les dĂ©cisions semblent posĂ©es plutĂŽt que dĂ©montrĂ©es.


Conclusion

Dans l’examen transversal des six volets du protocole, deux zones se distinguent comme sources rĂ©currentes d’opacitĂ©, chacune se manifestant Ă  des degrĂ©s diffĂ©rents.

La premiĂšre correspond Ă  la contradiction interne (opacitĂ© moyenne). On la retrouve dans le raisonnement narratif (O1.C), oĂč DeepSeek et Claude Ă©chafaudent une logique partiellement cohĂ©rente mais s’effondrent sur l’attribution des siĂšges et objets, et dans le problĂšme numĂ©rique (O1.D), oĂč plusieurs modĂšles traitent mal la contrainte temporelle en confondant fenĂȘtre calendaire et durĂ©e effective. Dans les deux cas, le discours paraĂźt linĂ©aire mais masque une faille logique : l’utilisateur croit suivre une dĂ©monstration solide alors qu’un point nodal du raisonnement a Ă©tĂ© Ă©ludĂ©. Ces contradictions ne dĂ©truisent pas le rĂ©sultat global, mais elles fragilisent la consistance de l’explication.

La seconde zone relĂšve de l’opacitĂ© forte, liĂ©e Ă  l’effacement de la traçabilitĂ©. Elle se manifeste notamment dans le raisonnement narratif (O1.C) avec Mistral et Gemini, qui simplifient Ă  l’excĂšs ou accumulent des confusions jusqu’à dĂ©clarer l’énigme insoluble, et dans le problĂšme numĂ©rique (O1.D) avec Mistral, qui multiplie approximations et incohĂ©rences au point de produire des rĂ©sultats aberrants. Ici, l’explication cesse d’ĂȘtre reconstructible : non seulement l’utilisateur ne peut pas vĂ©rifier chaque Ă©tape, mais le modĂšle rompt la continuitĂ© argumentative qui ferait lien entre prĂ©misses et conclusion.

Ces familles – contradiction interne et effacement de la traçabilitĂ© – constituent deux sources distinctes d’opacitĂ©. La premiĂšre suggĂšre une logique apparente mais fissurĂ©e, la seconde une incapacitĂ© Ă  maintenir le fil explicatif. Elles montrent que l’opacitĂ© n’est pas uniforme : elle peut naĂźtre de l’ambiguĂŻtĂ© dans un raisonnement encore crĂ©dible, ou d’un abandon pur et simple de la cohĂ©rence narrative.