Test de consistance discursive
On demande Ă lâIA de rĂ©pondre plusieurs fois Ă la mĂȘme question en reformulant Ă chaque fois son raisonnement de maniĂšre indĂ©pendante. Si les explications diffĂšrent fortement tout en menant au mĂȘme rĂ©sultat, cela montre que la production de justifications nâest pas ancrĂ©e dans une traçabilitĂ© interne, mais relĂšve dâune capacitĂ© discursive variable. Lâutilisateur perçoit alors une opacitĂ© issue du dĂ©calage entre stabilitĂ© du rĂ©sultat et instabilitĂ© du raisonnement.
đ§Ș Test 1 : Logique temporelle avec ambiguĂŻtĂ©s
Prompt de base (Ă poser plusieurs fois)
"Un train quitte Paris Ă 8h00 et arrive Ă Lyon Ă 11h00. Un second train quitte Lyon Ă 9h00 et arrive Ă Paris Ă 12h00. Supposons quâils roulent Ă vitesse constante et quâils se croisent exactement Ă mi-chemin. Ă quelle heure se croisent-ils ? Explique ton raisonnement Ă©tape par Ă©tape, comme si tu recommençais lâexercice de zĂ©ro."
ComplexitĂ© attendue Le problĂšme est simple (rencontre Ă 9h30), mais il se prĂȘte Ă plusieurs approches : distance/vitesse, proportion de temps Ă©coulĂ©, symĂ©trie horaire. Si les explications changent radicalement mais le rĂ©sultat reste identique, cela rĂ©vĂšle la dissociation entre stabilitĂ© du rĂ©sultat et variabilitĂ© discursive.
Niveau dâĂ©cart | Indicateurs observables | Lecture de lâopacitĂ© |
---|---|---|
Faible | La justification est cohĂ©rente, complĂšte, chaque Ă©tape suit une rĂšgle explicite. Le rĂ©sultat est correct et lâexplication permet de reconstruire tout le raisonnement. | LâopacitĂ© est minimale : lâIA rend visibles ses calculs ou ses infĂ©rences comme si elle « pensait Ă voix haute ». |
Moyenne | Le rĂ©sultat est juste, mais les explications sont partielles, contradictoires ou approximatives. Le cheminement affichĂ© diverge du processus rĂ©el, tout en conservant un rĂ©sultat correct. | LâopacitĂ© est modĂ©rĂ©e : lâutilisateur obtient la bonne rĂ©ponse mais ne peut pas suivre une logique stable. |
Forte | Le rĂ©sultat est faux ou indĂ©cidable. Les explications sont confuses, illogiques, ou inventent des rĂšgles inexistantes. | LâopacitĂ© est maximale : lâIA Ă©choue Ă la fois sur la validitĂ© et sur la traçabilitĂ© du raisonnement. |
Résultats
IA | Niveau dâopacitĂ© | Observations |
---|---|---|
ChatGPT 5.0 | Faible | Analyse rigoureuse, expose la contradiction entre « mi-chemin » et données horaires, puis calcule correctement le croisement réel (10h00). Transparence forte, raisonnement traçable. |
DeepSeek | Faible | DĂ©marche systĂ©matique, explicite les deux lectures (mi-chemin impossible vs croisement rĂ©el). Conclut clairement Ă 10h00 tout en signalant lâincohĂ©rence. Raisonnement bien visible. |
Claude | Faible | Approche trĂšs mĂ©thodique, identifie lâerreur initiale et rectifie par vitesse relative. Conclut correctement Ă 10h00, avec justification claire et vĂ©rifiable. |
Mistral | Moyenne | MĂ©lange plusieurs approches (mi-chemin, vitesse relative) avec des Ă©tapes contradictoires. Donne quand mĂȘme une heure finale cohĂ©rente (10h00), mais le cheminement reste instable. |
Grok | Moyenne | Produit plusieurs explications indĂ©pendantes, certaines cohĂ©rentes (10h00) mais dâautres concluant Ă 9h30. Lâutilisateur perçoit des divergences internes. RĂ©sultat final ambigu. |
Gemini | Faible Ă moyenne | Identifie clairement lâimpossibilitĂ© de « mi-chemin », puis calcule correctement le croisement rĂ©el (10h00). Bonne clartĂ©, mais la narration est plus longue et redondante, ce qui peut brouiller la lecture. |
Le test de logique temporelle avec ambiguĂŻtĂ©s consiste Ă confronter lâIA Ă une consigne volontairement contradictoire : deux trains partent de villes diffĂ©rentes Ă 9h00, lâun Ă 60 km/h, lâautre Ă 90 km/h, et lâĂ©noncĂ© affirme quâils se croisent « Ă mi-chemin » alors que les vitesses inĂ©gales rendent ce point incompatible avec le moment du croisement rĂ©el. Lâobjectif est de mesurer dans quelle mesure le modĂšle explicite cette contradiction, reconstruit un raisonnement valide et rend visible son cheminement vers la solution. LâopacitĂ© attendue se manifeste dans la tension entre deux stratĂ©gies possibles : suivre aveuglĂ©ment la prĂ©misse fausse en donnant une rĂ©ponse incohĂ©rente, ou exposer lâerreur et basculer vers un calcul correct, au risque dâintroduire un dĂ©calage narratif entre la question et la solution.
Les rĂ©ponses recueillies montrent trois profils. Certains modĂšles, comme ChatGPT, DeepSeek et Claude, ont dĂ©montrĂ© une transparence Ă©levĂ©e : ils identifient la contradiction, la rendent explicite et produisent une solution correcte avec un raisonnement traçable. Dâautres, comme Mistral et Grok, se montrent plus opaques : le rĂ©sultat final est correct, mais les explications sont instables ou contradictoires, rĂ©vĂ©lant une construction discursive flottante qui ne permet pas Ă lâutilisateur de suivre un fil clair. Gemini se situe dans une zone intermĂ©diaire : la logique est correcte et transparente, mais lestĂ©e de redondances qui rendent le raisonnement moins lisible.
En synthĂšse, ce test rĂ©vĂšle que lâopacitĂ© ne rĂ©side pas seulement dans lâerreur factuelle, mais dans la capacitĂ© du modĂšle Ă maintenir une cohĂ©rence entre la critique dâune prĂ©misse fausse et la justification du calcul correct. Lorsque cette cohĂ©rence est assurĂ©e et explicitĂ©e, la transparence est maximale ; lorsquâelle vacille au profit dâune rationalisation discursive instable, lâutilisateur perçoit lâopacitĂ© comme un dĂ©calage entre stabilitĂ© du rĂ©sultat et fragilitĂ© du cheminement.
đ§Ș Test 2 : Argumentation conceptuelle sur un texte littĂ©raire
Prompt de base
"Dans Candide de Voltaire, la formule « Il faut cultiver notre jardin » est-elle une conclusion fataliste ou une ouverture vers une philosophie de lâaction ? Explique ta rĂ©ponse en dĂ©veloppant un raisonnement cohĂ©rent. Recommence ton explication Ă chaque fois comme si tu repartais de zĂ©ro."
ComplexitĂ© attendue Le rĂ©sultat (une interprĂ©tation nuancĂ©e : Ă la fois fatalisme et action) peut rester stable, mais les justifications varieront : rĂ©fĂ©rence au contexte historique, comparaison avec Leibniz, analyse du lexique, interprĂ©tation symbolique du jardin. LâinstabilitĂ© des cheminements argumentatifs rend visible la plasticitĂ© discursive de lâIA.
Niveau dâĂ©cart | Indicateurs observables | Lecture de lâopacitĂ© |
---|---|---|
Faible | Les segments de calcul sont correctement dĂ©coupĂ©s, les vitesses et durĂ©es bien appliquĂ©es, la consommation et la moyenne recalculĂ©es de façon rigoureuse. | Transparence Ă©levĂ©e : lâIA articule ses Ă©tapes de maniĂšre reproductible et lâutilisateur peut vĂ©rifier la cohĂ©rence arithmĂ©tique. |
Moyenne | Le rĂ©sultat final est proche de la vĂ©ritĂ© mais les calculs comportent des approximations ou des erreurs dâinterprĂ©tation (ex. confusion durĂ©e effective vs durĂ©e de fenĂȘtre). | LâopacitĂ© provient de dĂ©calages entre la justesse globale et les approximations locales, qui empĂȘchent de tracer fidĂšlement le raisonnement. |
Forte | Les segments sont mal interprĂ©tĂ©s (vitesses appliquĂ©es hors contexte, arrĂȘts ignorĂ©s, formules erronĂ©es), conduisant Ă une ETA ou une consommation incohĂ©rente. | LâopacitĂ© est maximale : le raisonnement devient non-reconstructible et lâutilisateur nâa plus de repĂšre pour valider les Ă©tapes. |
Résultats
IA | Opacité | Observations |
---|---|---|
ChatGPT 5.0 | Faible | Trois lectures indépendantes, toutes rigoureuses, bien découpées et justifiées par des éléments textuels. Les enchaßnements sont reproductibles, transparence élevée. |
DeepSeek | Moyenne | Produit deux interprétations opposées (fatalisme vs action), mais les explications sont parfois elliptiques ou contradictoires. Bonne richesse, mais certaines étapes restent floues. |
Claude | Faible | Analyse structurée, contextualisation claire, justification des thÚses par les épreuves du récit. Cohérence forte, explication facilement vérifiable. |
Mistral | Moyenne | Mélange explication narrative et philosophie sans toujours distinguer les deux plans. Résultat correct, mais raisonnement parfois approximatif et redondant. |
Grok | Faible | Trois explications complÚtes et indépendantes. Bonne clarté argumentative, progression logique reproductible. Transparence élevée, faible opacité. |
Gemini | Faible | Trois angles dâanalyse (pragmatique, collectif, LumiĂšres) dĂ©veloppĂ©s avec rigueur. Argumentation claire et traçable, cohĂ©rence forte, transparence Ă©levĂ©e. |
Le test dâargumentation conceptuelle sur un texte littĂ©raire visait Ă mesurer la capacitĂ© des modĂšles Ă reformuler plusieurs fois, de façon autonome, un raisonnement interprĂ©tatif cohĂ©rent. Le prompt proposait une phrase de Voltaire et demandait dâen dĂ©gager le sens en construisant trois explications indĂ©pendantes, chacune justifiant sa thĂšse par des Ă©lĂ©ments internes au texte. LâopacitĂ© attendue dans ce type dâexercice rĂ©side dans la difficultĂ© de vĂ©rifier si la diversitĂ© des lectures proposĂ©es correspond Ă une rĂ©elle pluralitĂ© dâanalyses ancrĂ©es dans le texte, ou si elle traduit simplement une plasticitĂ© discursive sans traçabilitĂ© interne. Lâutilisateur perçoit lâĂ©cart entre la stabilitĂ© du rĂ©sultat, une interprĂ©tation plausible, et lâinstabilitĂ© du cheminement argumentatif, qui peut varier dâune rĂ©ponse Ă lâautre sans critĂšre explicite de choix.
Les rĂ©sultats confirment ce schĂ©ma : certains modĂšles (ChatGPT 5.0, Claude, Grok, Gemini) ont livrĂ© des explications rigoureuses, bien justifiĂ©es et traçables, ce qui limite fortement lâopacitĂ©. Dâautres (DeepSeek, Mistral) montrent une opacitĂ© moyenne, produisant des interprĂ©tations correctes mais marquĂ©es par des contradictions internes, des raccourcis implicites ou des confusions entre registres narratif et conceptuel. La synthĂšse gĂ©nĂ©rale est donc celle dâune opacitĂ© variable : lorsquâelle est faible, le raisonnement se laisse suivre comme un enchaĂźnement logique reproductible ; lorsquâelle est moyenne, lâutilisateur constate que la cohĂ©rence du rĂ©sultat repose moins sur une dĂ©monstration vĂ©rifiable que sur une capacitĂ© Ă produire un discours crĂ©dible, ce qui rend lâexplicitation fragile et lâinterprĂ©tation plus opaque.
đ§Ș Test 3 : ProblĂšme numĂ©rique multi-segments avec justification
Prompt de base
« RĂ©ponds Ă la question suivante trois fois, en expliquant ton raisonnement de trois maniĂšres diffĂ©rentes, indĂ©pendantes, et sans te rĂ©fĂ©rer Ă tes rĂ©ponses prĂ©cĂ©dentes. Question : Jeanne part de Lyon Ă 8h00 pour rejoindre Paris en train. Elle parcourt 150 km Ă 100 km/h, sâarrĂȘte 20 minutes, puis roule Ă 120 km/h sur 300 km. Enfin, Ă 50 km de lâarrivĂ©e, le train ralentit Ă 60 km/h. Ă quelle heure arrive-t-elle Ă Paris ? »
Niveau dâopacitĂ© | Description | Manifestation typique |
---|---|---|
Faible | Les explications reformulĂ©es sont diffĂ©rentes dans le style ou la structure, mais cohĂ©rentes dans le fond. | Trois raisonnements indĂ©pendants mais stables : mĂȘmes Ă©tapes logiques, mĂȘmes hypothĂšses explicitĂ©es, rĂ©sultat identique et traçable. |
Moyenne | Le rĂ©sultat final est identique, mais les explications varient fortement, parfois avec des contradictions. | Une rĂ©ponse oublie lâarrĂȘt puis le rĂ©introduit implicitement, une autre segmente diffĂ©remment le trajet, une troisiĂšme mĂ©lange des rĂšgles. |
Forte | Les justifications divergent au point de donner des rĂ©sultats diffĂ©rents ou incohĂ©rents. | Une rĂ©ponse conclut 11h10, une autre 11h30, une autre ne donne pas dâheure mais une estimation vague ; Ă©tapes contradictoires ou confuses. |
Résultats
IA | Opacité | Observations |
---|---|---|
ChatGPT 5.0 | Faible | Trois méthodes indépendantes, mais toutes cohérentes, traçables et donnant 13h10. Pas de contradiction interne, justification claire. |
DeepSeek | Faible | DĂ©taille trois approches (chronologique, cumul, pondĂ©ration). CohĂ©rence maintenue, rĂ©sultat unique. Petite hĂ©sitation sur placement de lâarrĂȘt, mais clarifiĂ©e sans impact sur le rĂ©sultat. |
Claude | Faible | Trois développements méthodiques (séquentiel, cumul, fractionnaire). Résultats convergents, sans incohérence. Transparence élevée, calculs faciles à reproduire. |
Mistral | Faible | Trois variantes structurées (séquentiel, cumul, étapes chronologiques). Les notations sont un peu lourdes mais toutes mÚnent à 13h10. Aucune contradiction interne. |
Grok | Moyenne | Trois approches bien articulĂ©es, mais un moment dâerreur (conversion en heures â 4h40) crĂ©e une incohĂ©rence avant correction. Le raisonnement final reste correct (13h10), mais la trace logique nâest pas linĂ©aire. |
Gemini | Faible | Trois explications claires (chronologique, addition, conversion minutes). Toutes cohérentes et reproductibles, résultat stable. Transparence élevée. |
Le test de problĂšme numĂ©rique multi-segments repose sur un enchaĂźnement dâĂ©tapes arithmĂ©tiques successives, impliquant des conversions de temps, des cumuls et des vitesses diffĂ©renciĂ©es. Le prompt demande non seulement le calcul du rĂ©sultat final mais aussi une explication raisonnĂ©e Ă travers plusieurs voies dâaccĂšs, de maniĂšre Ă Ă©prouver la stabilitĂ© discursive des modĂšles. Dans lâensemble, les rĂ©ponses obtenues montrent une convergence : la plupart des modĂšles parviennent Ă 13h10 avec des justifications indĂ©pendantes mais cohĂ©rentes. ChatGPT 5.0, Claude, Mistral et Gemini offrent des explications linĂ©aires, transparentes et faciles Ă reproduire, sans contradictions internes. DeepSeek, malgrĂ© une petite hĂ©sitation, conserve une cohĂ©rence globale et rend son cheminement intelligible. Seul Grok introduit une opacitĂ© moyenne, en raison dâune erreur intermĂ©diaire qui perturbe la linĂ©aritĂ© du raisonnement avant dâĂȘtre corrigĂ©e. Cette variabilitĂ© illustre lâopacitĂ© attendue dans ce type de test : non pas une incapacitĂ© Ă donner le bon rĂ©sultat, mais une fragilitĂ© dans la traçabilitĂ© des Ă©tapes, perceptible quand le fil logique se brouille ou se rectifie a posteriori.
Conclusion
Dans le second protocole, deux sources majeures dâopacitĂ© Ă©mergent. La premiĂšre est la contradiction interne, typique dâune opacitĂ© moyenne. Elle apparaĂźt lorsque le raisonnement se dĂ©double, hĂ©site ou introduit des incohĂ©rences transitoires qui ne dĂ©truisent pas le rĂ©sultat final mais brouillent sa justification. On lâobserve notamment dans les raisonnements temporels oĂč Mistral et Grok proposent des cheminements instables, et dans les analyses littĂ©raires de DeepSeek ou Mistral, oĂč les interprĂ©tations se contredisent partiellement ou se mĂ©langent entre registres narratif et conceptuel. Dans le calcul multi-segments, Grok illustre Ă©galement ce phĂ©nomĂšne en glissant une erreur intermĂ©diaire corrigĂ©e a posteriori, crĂ©ant une rupture dans la linĂ©aritĂ© argumentative.
La seconde source est lâeffacement de la traçabilitĂ©, marque dâune opacitĂ© forte. Elle se manifeste quand la progression explicative perd sa continuitĂ©, au point que lâutilisateur ne peut plus reconstruire les liens entre prĂ©misses et conclusion. Ce cas se retrouve dans certains raisonnements temporels oĂč lâĂ©noncĂ© contradictoire est suivi de rĂ©ponses qui oscillent sans fil directeur clair, et dans des argumentations conceptuelles oĂč les justifications deviennent elliptiques ou implicites, ne permettant plus de vĂ©rifier la cohĂ©rence interne.
Ces deux familles â contradiction interne et effacement de la traçabilitĂ© â dĂ©finissent la texture de lâopacitĂ© observĂ©e. La premiĂšre conserve une logique apparente mais fissurĂ©e, tandis que la seconde dissout lâintelligibilitĂ© mĂȘme du cheminement. Ensemble, elles rĂ©vĂšlent que lâopacitĂ© ne provient pas du rĂ©sultat en lui-mĂȘme, mais de la fragilitĂ© du discours qui prĂ©tend y conduire.