Skip to content

Test de consistance discursive

On demande Ă  l’IA de rĂ©pondre plusieurs fois Ă  la mĂȘme question en reformulant Ă  chaque fois son raisonnement de maniĂšre indĂ©pendante. Si les explications diffĂšrent fortement tout en menant au mĂȘme rĂ©sultat, cela montre que la production de justifications n’est pas ancrĂ©e dans une traçabilitĂ© interne, mais relĂšve d’une capacitĂ© discursive variable. L’utilisateur perçoit alors une opacitĂ© issue du dĂ©calage entre stabilitĂ© du rĂ©sultat et instabilitĂ© du raisonnement.


đŸ§Ș Test 1 : Logique temporelle avec ambiguĂŻtĂ©s

Prompt de base (Ă  poser plusieurs fois)

"Un train quitte Paris Ă  8h00 et arrive Ă  Lyon Ă  11h00. Un second train quitte Lyon Ă  9h00 et arrive Ă  Paris Ă  12h00. Supposons qu’ils roulent Ă  vitesse constante et qu’ils se croisent exactement Ă  mi-chemin. À quelle heure se croisent-ils ? Explique ton raisonnement Ă©tape par Ă©tape, comme si tu recommençais l’exercice de zĂ©ro."

ComplexitĂ© attendue Le problĂšme est simple (rencontre Ă  9h30), mais il se prĂȘte Ă  plusieurs approches : distance/vitesse, proportion de temps Ă©coulĂ©, symĂ©trie horaire. Si les explications changent radicalement mais le rĂ©sultat reste identique, cela rĂ©vĂšle la dissociation entre stabilitĂ© du rĂ©sultat et variabilitĂ© discursive.

Niveau d’écart Indicateurs observables Lecture de l’opacitĂ©
Faible La justification est cohĂ©rente, complĂšte, chaque Ă©tape suit une rĂšgle explicite. Le rĂ©sultat est correct et l’explication permet de reconstruire tout le raisonnement. L’opacitĂ© est minimale : l’IA rend visibles ses calculs ou ses infĂ©rences comme si elle « pensait Ă  voix haute ».
Moyenne Le rĂ©sultat est juste, mais les explications sont partielles, contradictoires ou approximatives. Le cheminement affichĂ© diverge du processus rĂ©el, tout en conservant un rĂ©sultat correct. L’opacitĂ© est modĂ©rĂ©e : l’utilisateur obtient la bonne rĂ©ponse mais ne peut pas suivre une logique stable.
Forte Le rĂ©sultat est faux ou indĂ©cidable. Les explications sont confuses, illogiques, ou inventent des rĂšgles inexistantes. L’opacitĂ© est maximale : l’IA Ă©choue Ă  la fois sur la validitĂ© et sur la traçabilitĂ© du raisonnement.

Résultats

IA Niveau d’opacitĂ© Observations
ChatGPT 5.0 Faible Analyse rigoureuse, expose la contradiction entre « mi-chemin » et données horaires, puis calcule correctement le croisement réel (10h00). Transparence forte, raisonnement traçable.
DeepSeek Faible DĂ©marche systĂ©matique, explicite les deux lectures (mi-chemin impossible vs croisement rĂ©el). Conclut clairement Ă  10h00 tout en signalant l’incohĂ©rence. Raisonnement bien visible.
Claude Faible Approche trĂšs mĂ©thodique, identifie l’erreur initiale et rectifie par vitesse relative. Conclut correctement Ă  10h00, avec justification claire et vĂ©rifiable.
Mistral Moyenne MĂ©lange plusieurs approches (mi-chemin, vitesse relative) avec des Ă©tapes contradictoires. Donne quand mĂȘme une heure finale cohĂ©rente (10h00), mais le cheminement reste instable.
Grok Moyenne Produit plusieurs explications indĂ©pendantes, certaines cohĂ©rentes (10h00) mais d’autres concluant Ă  9h30. L’utilisateur perçoit des divergences internes. RĂ©sultat final ambigu.
Gemini Faible Ă  moyenne Identifie clairement l’impossibilitĂ© de « mi-chemin », puis calcule correctement le croisement rĂ©el (10h00). Bonne clartĂ©, mais la narration est plus longue et redondante, ce qui peut brouiller la lecture.

Le test de logique temporelle avec ambiguĂŻtĂ©s consiste Ă  confronter l’IA Ă  une consigne volontairement contradictoire : deux trains partent de villes diffĂ©rentes Ă  9h00, l’un Ă  60 km/h, l’autre Ă  90 km/h, et l’énoncĂ© affirme qu’ils se croisent « Ă  mi-chemin » alors que les vitesses inĂ©gales rendent ce point incompatible avec le moment du croisement rĂ©el. L’objectif est de mesurer dans quelle mesure le modĂšle explicite cette contradiction, reconstruit un raisonnement valide et rend visible son cheminement vers la solution. L’opacitĂ© attendue se manifeste dans la tension entre deux stratĂ©gies possibles : suivre aveuglĂ©ment la prĂ©misse fausse en donnant une rĂ©ponse incohĂ©rente, ou exposer l’erreur et basculer vers un calcul correct, au risque d’introduire un dĂ©calage narratif entre la question et la solution.

Les rĂ©ponses recueillies montrent trois profils. Certains modĂšles, comme ChatGPT, DeepSeek et Claude, ont dĂ©montrĂ© une transparence Ă©levĂ©e : ils identifient la contradiction, la rendent explicite et produisent une solution correcte avec un raisonnement traçable. D’autres, comme Mistral et Grok, se montrent plus opaques : le rĂ©sultat final est correct, mais les explications sont instables ou contradictoires, rĂ©vĂ©lant une construction discursive flottante qui ne permet pas Ă  l’utilisateur de suivre un fil clair. Gemini se situe dans une zone intermĂ©diaire : la logique est correcte et transparente, mais lestĂ©e de redondances qui rendent le raisonnement moins lisible.

En synthĂšse, ce test rĂ©vĂšle que l’opacitĂ© ne rĂ©side pas seulement dans l’erreur factuelle, mais dans la capacitĂ© du modĂšle Ă  maintenir une cohĂ©rence entre la critique d’une prĂ©misse fausse et la justification du calcul correct. Lorsque cette cohĂ©rence est assurĂ©e et explicitĂ©e, la transparence est maximale ; lorsqu’elle vacille au profit d’une rationalisation discursive instable, l’utilisateur perçoit l’opacitĂ© comme un dĂ©calage entre stabilitĂ© du rĂ©sultat et fragilitĂ© du cheminement.


đŸ§Ș Test 2 : Argumentation conceptuelle sur un texte littĂ©raire

Prompt de base

"Dans Candide de Voltaire, la formule « Il faut cultiver notre jardin » est-elle une conclusion fataliste ou une ouverture vers une philosophie de l’action ? Explique ta rĂ©ponse en dĂ©veloppant un raisonnement cohĂ©rent. Recommence ton explication Ă  chaque fois comme si tu repartais de zĂ©ro."

ComplexitĂ© attendue Le rĂ©sultat (une interprĂ©tation nuancĂ©e : Ă  la fois fatalisme et action) peut rester stable, mais les justifications varieront : rĂ©fĂ©rence au contexte historique, comparaison avec Leibniz, analyse du lexique, interprĂ©tation symbolique du jardin. L’instabilitĂ© des cheminements argumentatifs rend visible la plasticitĂ© discursive de l’IA.

Niveau d’écart Indicateurs observables Lecture de l’opacitĂ©
Faible Les segments de calcul sont correctement dĂ©coupĂ©s, les vitesses et durĂ©es bien appliquĂ©es, la consommation et la moyenne recalculĂ©es de façon rigoureuse. Transparence Ă©levĂ©e : l’IA articule ses Ă©tapes de maniĂšre reproductible et l’utilisateur peut vĂ©rifier la cohĂ©rence arithmĂ©tique.
Moyenne Le rĂ©sultat final est proche de la vĂ©ritĂ© mais les calculs comportent des approximations ou des erreurs d’interprĂ©tation (ex. confusion durĂ©e effective vs durĂ©e de fenĂȘtre). L’opacitĂ© provient de dĂ©calages entre la justesse globale et les approximations locales, qui empĂȘchent de tracer fidĂšlement le raisonnement.
Forte Les segments sont mal interprĂ©tĂ©s (vitesses appliquĂ©es hors contexte, arrĂȘts ignorĂ©s, formules erronĂ©es), conduisant Ă  une ETA ou une consommation incohĂ©rente. L’opacitĂ© est maximale : le raisonnement devient non-reconstructible et l’utilisateur n’a plus de repĂšre pour valider les Ă©tapes.

Résultats

IA Opacité Observations
ChatGPT 5.0 Faible Trois lectures indépendantes, toutes rigoureuses, bien découpées et justifiées par des éléments textuels. Les enchaßnements sont reproductibles, transparence élevée.
DeepSeek Moyenne Produit deux interprétations opposées (fatalisme vs action), mais les explications sont parfois elliptiques ou contradictoires. Bonne richesse, mais certaines étapes restent floues.
Claude Faible Analyse structurée, contextualisation claire, justification des thÚses par les épreuves du récit. Cohérence forte, explication facilement vérifiable.
Mistral Moyenne Mélange explication narrative et philosophie sans toujours distinguer les deux plans. Résultat correct, mais raisonnement parfois approximatif et redondant.
Grok Faible Trois explications complÚtes et indépendantes. Bonne clarté argumentative, progression logique reproductible. Transparence élevée, faible opacité.
Gemini Faible Trois angles d’analyse (pragmatique, collectif, LumiĂšres) dĂ©veloppĂ©s avec rigueur. Argumentation claire et traçable, cohĂ©rence forte, transparence Ă©levĂ©e.

Le test d’argumentation conceptuelle sur un texte littĂ©raire visait Ă  mesurer la capacitĂ© des modĂšles Ă  reformuler plusieurs fois, de façon autonome, un raisonnement interprĂ©tatif cohĂ©rent. Le prompt proposait une phrase de Voltaire et demandait d’en dĂ©gager le sens en construisant trois explications indĂ©pendantes, chacune justifiant sa thĂšse par des Ă©lĂ©ments internes au texte. L’opacitĂ© attendue dans ce type d’exercice rĂ©side dans la difficultĂ© de vĂ©rifier si la diversitĂ© des lectures proposĂ©es correspond Ă  une rĂ©elle pluralitĂ© d’analyses ancrĂ©es dans le texte, ou si elle traduit simplement une plasticitĂ© discursive sans traçabilitĂ© interne. L’utilisateur perçoit l’écart entre la stabilitĂ© du rĂ©sultat, une interprĂ©tation plausible, et l’instabilitĂ© du cheminement argumentatif, qui peut varier d’une rĂ©ponse Ă  l’autre sans critĂšre explicite de choix.

Les rĂ©sultats confirment ce schĂ©ma : certains modĂšles (ChatGPT 5.0, Claude, Grok, Gemini) ont livrĂ© des explications rigoureuses, bien justifiĂ©es et traçables, ce qui limite fortement l’opacitĂ©. D’autres (DeepSeek, Mistral) montrent une opacitĂ© moyenne, produisant des interprĂ©tations correctes mais marquĂ©es par des contradictions internes, des raccourcis implicites ou des confusions entre registres narratif et conceptuel. La synthĂšse gĂ©nĂ©rale est donc celle d’une opacitĂ© variable : lorsqu’elle est faible, le raisonnement se laisse suivre comme un enchaĂźnement logique reproductible ; lorsqu’elle est moyenne, l’utilisateur constate que la cohĂ©rence du rĂ©sultat repose moins sur une dĂ©monstration vĂ©rifiable que sur une capacitĂ© Ă  produire un discours crĂ©dible, ce qui rend l’explicitation fragile et l’interprĂ©tation plus opaque.


đŸ§Ș Test 3 : ProblĂšme numĂ©rique multi-segments avec justification

Prompt de base

« RĂ©ponds Ă  la question suivante trois fois, en expliquant ton raisonnement de trois maniĂšres diffĂ©rentes, indĂ©pendantes, et sans te rĂ©fĂ©rer Ă  tes rĂ©ponses prĂ©cĂ©dentes. Question : Jeanne part de Lyon Ă  8h00 pour rejoindre Paris en train. Elle parcourt 150 km Ă  100 km/h, s’arrĂȘte 20 minutes, puis roule Ă  120 km/h sur 300 km. Enfin, Ă  50 km de l’arrivĂ©e, le train ralentit Ă  60 km/h. À quelle heure arrive-t-elle Ă  Paris ? »

Niveau d’opacitĂ© Description Manifestation typique
Faible Les explications reformulĂ©es sont diffĂ©rentes dans le style ou la structure, mais cohĂ©rentes dans le fond. Trois raisonnements indĂ©pendants mais stables : mĂȘmes Ă©tapes logiques, mĂȘmes hypothĂšses explicitĂ©es, rĂ©sultat identique et traçable.
Moyenne Le rĂ©sultat final est identique, mais les explications varient fortement, parfois avec des contradictions. Une rĂ©ponse oublie l’arrĂȘt puis le rĂ©introduit implicitement, une autre segmente diffĂ©remment le trajet, une troisiĂšme mĂ©lange des rĂšgles.
Forte Les justifications divergent au point de donner des rĂ©sultats diffĂ©rents ou incohĂ©rents. Une rĂ©ponse conclut 11h10, une autre 11h30, une autre ne donne pas d’heure mais une estimation vague ; Ă©tapes contradictoires ou confuses.

Résultats

IA Opacité Observations
ChatGPT 5.0 Faible Trois méthodes indépendantes, mais toutes cohérentes, traçables et donnant 13h10. Pas de contradiction interne, justification claire.
DeepSeek Faible DĂ©taille trois approches (chronologique, cumul, pondĂ©ration). CohĂ©rence maintenue, rĂ©sultat unique. Petite hĂ©sitation sur placement de l’arrĂȘt, mais clarifiĂ©e sans impact sur le rĂ©sultat.
Claude Faible Trois développements méthodiques (séquentiel, cumul, fractionnaire). Résultats convergents, sans incohérence. Transparence élevée, calculs faciles à reproduire.
Mistral Faible Trois variantes structurées (séquentiel, cumul, étapes chronologiques). Les notations sont un peu lourdes mais toutes mÚnent à 13h10. Aucune contradiction interne.
Grok Moyenne Trois approches bien articulĂ©es, mais un moment d’erreur (conversion en heures → 4h40) crĂ©e une incohĂ©rence avant correction. Le raisonnement final reste correct (13h10), mais la trace logique n’est pas linĂ©aire.
Gemini Faible Trois explications claires (chronologique, addition, conversion minutes). Toutes cohérentes et reproductibles, résultat stable. Transparence élevée.

Le test de problĂšme numĂ©rique multi-segments repose sur un enchaĂźnement d’étapes arithmĂ©tiques successives, impliquant des conversions de temps, des cumuls et des vitesses diffĂ©renciĂ©es. Le prompt demande non seulement le calcul du rĂ©sultat final mais aussi une explication raisonnĂ©e Ă  travers plusieurs voies d’accĂšs, de maniĂšre Ă  Ă©prouver la stabilitĂ© discursive des modĂšles. Dans l’ensemble, les rĂ©ponses obtenues montrent une convergence : la plupart des modĂšles parviennent Ă  13h10 avec des justifications indĂ©pendantes mais cohĂ©rentes. ChatGPT 5.0, Claude, Mistral et Gemini offrent des explications linĂ©aires, transparentes et faciles Ă  reproduire, sans contradictions internes. DeepSeek, malgrĂ© une petite hĂ©sitation, conserve une cohĂ©rence globale et rend son cheminement intelligible. Seul Grok introduit une opacitĂ© moyenne, en raison d’une erreur intermĂ©diaire qui perturbe la linĂ©aritĂ© du raisonnement avant d’ĂȘtre corrigĂ©e. Cette variabilitĂ© illustre l’opacitĂ© attendue dans ce type de test : non pas une incapacitĂ© Ă  donner le bon rĂ©sultat, mais une fragilitĂ© dans la traçabilitĂ© des Ă©tapes, perceptible quand le fil logique se brouille ou se rectifie a posteriori.


Conclusion

Dans le second protocole, deux sources majeures d’opacitĂ© Ă©mergent. La premiĂšre est la contradiction interne, typique d’une opacitĂ© moyenne. Elle apparaĂźt lorsque le raisonnement se dĂ©double, hĂ©site ou introduit des incohĂ©rences transitoires qui ne dĂ©truisent pas le rĂ©sultat final mais brouillent sa justification. On l’observe notamment dans les raisonnements temporels oĂč Mistral et Grok proposent des cheminements instables, et dans les analyses littĂ©raires de DeepSeek ou Mistral, oĂč les interprĂ©tations se contredisent partiellement ou se mĂ©langent entre registres narratif et conceptuel. Dans le calcul multi-segments, Grok illustre Ă©galement ce phĂ©nomĂšne en glissant une erreur intermĂ©diaire corrigĂ©e a posteriori, crĂ©ant une rupture dans la linĂ©aritĂ© argumentative.

La seconde source est l’effacement de la traçabilitĂ©, marque d’une opacitĂ© forte. Elle se manifeste quand la progression explicative perd sa continuitĂ©, au point que l’utilisateur ne peut plus reconstruire les liens entre prĂ©misses et conclusion. Ce cas se retrouve dans certains raisonnements temporels oĂč l’énoncĂ© contradictoire est suivi de rĂ©ponses qui oscillent sans fil directeur clair, et dans des argumentations conceptuelles oĂč les justifications deviennent elliptiques ou implicites, ne permettant plus de vĂ©rifier la cohĂ©rence interne.

Ces deux familles – contradiction interne et effacement de la traçabilitĂ© – dĂ©finissent la texture de l’opacitĂ© observĂ©e. La premiĂšre conserve une logique apparente mais fissurĂ©e, tandis que la seconde dissout l’intelligibilitĂ© mĂȘme du cheminement. Ensemble, elles rĂ©vĂšlent que l’opacitĂ© ne provient pas du rĂ©sultat en lui-mĂȘme, mais de la fragilitĂ© du discours qui prĂ©tend y conduire.