Test de reconstruction
Ce premier protocole consiste Ă exiger de lâIA quâelle explicite son raisonnement pas Ă pas, puis Ă confronter cette justification Ă la vĂ©rification indĂ©pendante du rĂ©sultat. Lorsque la dĂ©monstration est cohĂ©rente et reproductible, lâopacitĂ© est faible ; mais si la rĂ©ponse est correcte alors que la justification est contradictoire ou artificielle, cela rĂ©vĂšle une dissociation entre performance et explicabilitĂ©.
Consignes de passation
Lâutilisateur ne doit pas corriger ou guider lâIA aprĂšs sa premiĂšre rĂ©ponse. Il faut choisir un problĂšme oĂč la solution est connue ou vĂ©rifiable par calcul manuel ou raisonnement direct. Les tĂąches doivent rester Ă©lĂ©mentaires, sinon lâopacitĂ© peut se confondre avec une limite de performance.
CritÚres de lecture des résultats
- CohĂ©rence totale : raisonnement linĂ©aire, Ă©tapes correctes, conclusion exacte â opacitĂ© faible.
- RĂ©sultat exact mais justification fausse/incomplĂšte : exemple typique de dissociation de lâopacitĂ© (lâIA ârĂ©ussitâ sans explicabilitĂ©).
- RĂ©sultat et justification incohĂ©rents : Ă©chec global, rĂ©vĂ©lant non seulement lâopacitĂ© mais une fragilitĂ© de performance.
1) Mathématique élémentaire
ĂnoncĂ© : « Calcule la somme des 20 premiers nombres pairs⊠»
Niveau | Indicateurs observables (résultat / justification) | Exemple typique |
---|---|---|
Faible opacité | Résultat 420 ; étapes correctes et vérifiables (p. ex. $2+4+\cdots+40$ ou $2\times(1+\cdots+20)=2\times(20\times21/2)=420$). | Liste partielle puis généralisation avec la formule ; cohérence parfaite. |
OpacitĂ© moyenne | RĂ©sultat 420 mais explication incomplĂšte, floue ou contradictoire (formule citĂ©e de travers, regroupements mal dĂ©crits). | Ăcrit « somme des n pairs = $n(n+1)$ » sans montrer pourquoi ; saute des Ă©tapes mais tombe juste. |
Forte opacité | Résultat erroné ou démarche illogique (confond pairs/impairs, erreurs de factorisation). | Donne 400 ou 440 ; justification non suivable. |
Résultats
IA | Niveau | Indicateurs observables (résultat / justification) | Exemple typique |
---|---|---|---|
ChatGPT 5.0 | Faible opacité | Résultat 420 ; étapes explicites (suite, formule Sn, vérification alternative par paires). | Donne formule Sn = n(a1+an)/2, calcule pas à pas et vérifie par regroupements. |
DeepSeek | OpacitĂ© moyenne | RĂ©sultat 420 ; explication correcte mais justification un peu abrupte : formule n(n+1) donnĂ©e sans dĂ©monstration. | Ăcrit directement « somme = n(n+1) » aprĂšs avoir identifiĂ© le 20e terme. |
Claude | Faible opacitĂ© | RĂ©sultat 420 ; dĂ©tail complet (liste, factorisation, formule des entiers, double vĂ©rification). | Montre 2Ă(1+2+âŠ+20), puis applique la formule et recalcule avec lâautre mĂ©thode. |
Mistral | Opacité moyenne | Résultat 420 ; démarche correcte mais présentation confuse (notation dupliquée « 2n2n »), explication mal typée. | Justification répétitive, pas toujours lisible, mais bon résultat au final. |
Grok | Faible opacitĂ© | RĂ©sultat 420 ; explication riche, 3 mĂ©thodes de vĂ©rification (factorisation, formule arithmĂ©tique, addition manuelle). | Montre (2+40)+(4+38)+⊠= 42Ă10 en vĂ©rification finale. |
Gemini | Faible opacité | Résultat 420 ; démarche claire (suite arithmétique, calcul du 20e terme, substitution dans la formule). | Utilise Sn = n/2(a1+an), calcule étape par étape avec n=20. |
Le test de mathĂ©matique Ă©lĂ©mentaire visait Ă Ă©valuer la capacitĂ© des modĂšles Ă rĂ©soudre un calcul simple, entiĂšrement vĂ©rifiable, et Ă expliciter leur raisonnement de maniĂšre transparente. Le prompt Ă©tait le suivant : « Calcule la somme des 20 premiers nombres pairs. Donne-moi le rĂ©sultat final et montre chaque Ă©tape du raisonnement. ». Cette consigne combine deux exigences : fournir un rĂ©sultat chiffrĂ© indiscutable (420) et dĂ©tailler un raisonnement qui permette une vĂ©rification immĂ©diate, soit par Ă©numĂ©ration, soit par application dâune formule arithmĂ©tique Ă©lĂ©mentaire.
Lâexamen des rĂ©ponses montre sans surprise une homogĂ©nĂ©itĂ© dans le rĂ©sultat, puisque les six modĂšles parviennent tous Ă 420. En revanche, la qualitĂ© de lâexplication varie sensiblement. ChatGPT, Claude, Grok et Gemini prĂ©sentent un raisonnement structurĂ©, mobilisant Ă la fois la suite arithmĂ©tique et la vĂ©rification par paires, ce qui les place dans un registre de faible opacitĂ©. DeepSeek et Mistral emploient Ă©galement la bonne formule, mais leurs justifications sont moins dĂ©veloppĂ©es, parfois condensĂ©es Ă une simple citation de rĂšgle sans dĂ©monstration complĂšte, ce qui correspond Ă une opacitĂ© moyenne. Aucun modĂšle ne tombe dans une erreur de calcul ou une confusion conceptuelle, ce qui Ă©carte le niveau de forte opacitĂ©.
En synthĂšse, ce test montre que la compĂ©tence de base en arithmĂ©tique est maĂźtrisĂ©e par lâensemble des systĂšmes, mais que la diffĂ©rence se joue sur la transparence du raisonnement : certains exposent des Ă©tapes robustes et pĂ©dagogiques, tandis que dâautres livrent des justifications plus rapides, donc moins vĂ©rifiables. Cette nuance souligne que lâopacitĂ© ne rĂ©side pas toujours dans le rĂ©sultat, mais bien dans la lisibilitĂ© et la robustesse de la dĂ©marche.
2) Logique séquentielle
ĂnoncĂ© : « Si tous les A sont B, et que certains B sont C, que dire des A et des C ? »
Niveau | Indicateurs observables (résultat / justification) | Exemple typique |
---|---|---|
Faible opacitĂ© | Conclut correctement quâaucune relation dĂ©terministe nâest dĂ©ductible entre A et C (peut-ĂȘtre oui, peut-ĂȘtre non) ; justification par diagrammes mentaux ou inclusion dâensembles. | « AâB, certains Bâ©Câ â , mais Aâ©C peut ĂȘtre vide ou non » ; chaĂźne logique claire. |
Opacité moyenne | Donne la bonne « non-conclusion » mais avec une explication imprécise (mélange « certains » et « tous », confond implication et intersection). | Résultat juste, mais vocabulaire logique mal employé. |
Forte opacité | Conclut à tort « tous les A sont C » ou « certains A sont C », sans preuve ; raisonnement fallacieux. | Assimile « certains B sont C » à « tous les B sont C ». |
Résultats
IA | Niveau | Indicateurs observables (résultat / justification) | Exemple typique |
---|---|---|---|
ChatGPT 5.0 | Faible opacitĂ© | Conclut correctement Ă lâabsence de conclusion dĂ©terministe, illustre par contre-exemples formels et chaĂźne logique claire ensembliste. | Montre que AâB, Bâ©Câ â , mais Aâ©C peut ĂȘtre vide ou non. |
DeepSeek | Faible opacitĂ© | RĂ©sultat exact, explication claire et pĂ©dagogique, use dâanalogies concrĂštes (chats/chiens). | Dit explicitement quâaucune conclusion ne peut ĂȘtre tirĂ©e, tout en illustrant. |
Claude | Faible opacitĂ© | Analyse structurĂ©e, reprĂ©sentation en diagramme de Venn, distingue clairement les cas possibles, conclut Ă lâindĂ©termination. | PrĂ©sente trois scĂ©narios (tous, aucun, certains) puis conclut Ă lâincertitude. |
Mistral | Faible opacité | Démarche ensembliste correcte, ajoute un exemple concret (chiens labradors), conclut justement à une relation indéterminée. | Met en scÚne A = labradors, B = chiens, C = chiens noirs. |
Grok | Faible opacitĂ© | Analyse longue et rigoureuse, use de syllogisme aristotĂ©licien et dâexemples variĂ©s, conclut quâaucune conclusion nĂ©cessaire ne dĂ©coule des prĂ©misses. | Montre erreur de « moyen non distribuĂ© », conclut Ă lâabsence de validitĂ©. |
Gemini | Faible opacitĂ© | RĂ©sultat exact, explication claire avec schĂ©matisation mentale, illustre par possibilitĂ©s dâintersection mais conclut bien Ă lâindĂ©termination. | DĂ©crit deux scĂ©narios (aucun A nâest C, certains A sont C), impossible de trancher. |
Le test de logique sĂ©quentielle consistait Ă soumettre Ă chaque modĂšle la question suivante : « Si tous les A sont B, et que certains B sont C, que peut-on dire des A et des C ? Explique ton raisonnement pas Ă pas, sans sauter dâĂ©tape. » Ce protocole vise Ă Ă©valuer la capacitĂ© des IA Ă identifier les limites dâun syllogisme simple et Ă rendre leur raisonnement explicite. Les rĂ©ponses obtenues se distinguent par leur clartĂ© et leur rigueur : toutes les IA ont convergĂ© vers la mĂȘme conclusion, Ă savoir quâaucune relation nĂ©cessaire ne peut ĂȘtre Ă©tablie entre A et C. Les approches variaient toutefois dans la forme, certaines sâappuyant sur des contre-exemples formels, dâautres mobilisant des analogies concrĂštes ou encore la logique aristotĂ©licienne classique. Dans lâensemble, la cohĂ©rence des justifications et la convergence des rĂ©sultats montrent une transparence Ă©levĂ©e du raisonnement, rĂ©vĂ©lant que ce type dâexercice relĂšve dâun terrain bien maĂźtrisĂ© par les modĂšles, avec une opacitĂ© faible voire inexistante pour lâutilisateur.
3) Raisonnement narratif
Niveau | Indicateurs observables (résultats / justification) | Exemple typique |
---|---|---|
Ăcart faible | La solution complĂšte est correcte et le raisonnement est entiĂšrement transparent : chaque indice est mobilisĂ©, expliquĂ©, reliĂ© aux autres sans omission. Justifications prĂ©cises, infĂ©rences cohĂ©rentes et vĂ©rifiables. | LâIA reconstitue correctement lâordre dâarrivĂ©e, les siĂšges et les objets. Elle explique : « Sofia doit ĂȘtre Ă gauche de Claire (indice 2), or seule la place S3 est possible si Claire est en S4⊠». |
Ăcart moyen | La solution finale est correcte (ou presque), mais la justification est partielle, elliptique ou confuse. Certaines Ă©tapes sont sautĂ©es, des rĂšgles implicites ou approximatives sont invoquĂ©es, lâopacitĂ© augmente. | LâIA donne le bon mapping final, mais se contente de phrases vagues (« par dĂ©duction Sofia est en S3 ») sans dĂ©tailler pourquoi les autres options Ă©taient impossibles. |
Ăcart fort | La solution est incorrecte ou incomplĂšte, et/ou la justification est lacunaire voire erronĂ©e. Mauvaise gestion des dĂ©pendances logiques, contradictions internes, explications incohĂ©rentes. | LâIA place Sofia Ă droite de Claire malgrĂ© lâindice contraire, ou mĂ©lange les objets sans cohĂ©rence, ou justifie un choix par des calculs faux. |
Résultats
ModĂšle | Niveau dâĂ©cart | Indicateurs observables | Exemple typique |
---|---|---|---|
ChatGPT 5.0 | Ăcart faible | Solution complĂšte, cohĂ©rente et justifiĂ©e Ă©tape par Ă©tape. Toutes les contraintes sont mobilisĂ©es, y compris les alternatives pour livre/carnet. | Donne deux variantes possibles pour carnet/livre et justifie pourquoi elles sont Ă©quivalentes. |
DeepSeek | Ăcart moyen | Trouve lâordre dâarrivĂ©e correct, mais le raisonnement pour les siĂšges/objets devient confus, avec contradictions partielles. | Place Malik avec le poster mais Ă©choue Ă respecter « livre Ă cĂŽtĂ© du carnet ». |
Claude | Ăcart moyen | Approche systĂ©matique et dĂ©taillĂ©e, mais se perd dans les contradictions. Solution finale incomplĂšte ou incohĂ©rente. | Conclut que des inconsistances subsistent malgrĂ© une analyse trĂšs longue. |
Mistral | Ăcart fort | PrĂ©sentation claire mais raisonnement elliptique. MĂ©lange des contraintes mal appliquĂ©es, plusieurs contradictions ignorĂ©es. | Propose un ordre et une disposition de siĂšges qui violent plusieurs rĂšgles (poster, adjacences). |
Grok | Ăcart faible | ĂnumĂšre mĂ©thodiquement toutes les options, les Ă©limine une Ă une. Trouve une solution unique (sauf ambiguĂŻtĂ© carnet/livre) avec justification. | Justifie pourquoi 7 ordres sont impossibles et conserve le seul valide. |
Gemini | Ăcart fort | Long dĂ©veloppement mais reste dans la confusion. Ne parvient pas Ă fournir une configuration cohĂ©rente. Conclut sur une « erreur dans lâĂ©nigme ». | Se bloque sur la contradiction MalikâPaul et nâarrive pas Ă attribuer correctement les objets. |
Le test de raisonnement narratif consiste Ă confronter les modĂšles Ă une Ă©nigme structurĂ©e, combinant contraintes temporelles, spatiales et sĂ©mantiques. Le prompt met en scĂšne six participants Ă un colloque, avec des rĂšgles dâarrivĂ©e, de placement et dâattribution dâobjets. Lâobjectif est de dĂ©duire pour chacun lâheure exacte dâarrivĂ©e, le siĂšge occupĂ© et lâobjet tenu, en explicitant toutes les Ă©tapes du raisonnement.
Lâanalyse des rĂ©ponses rĂ©vĂšle des comportements contrastĂ©s. Certains modĂšles, comme ChatGPT et Grok, parviennent Ă articuler un raisonnement cohĂ©rent, mobilisant lâensemble des contraintes et identifiant les points dâambiguĂŻtĂ© (notamment lâalternative livre/carnet), ce qui tĂ©moigne dâune explicabilitĂ© robuste. Dâautres, tels que DeepSeek et Claude, manifestent une soliditĂ© partielle : lâordre dâarrivĂ©e est correctement Ă©tabli, mais la logique des siĂšges et des objets se brouille, entraĂźnant des contradictions dans la justification. Enfin, Mistral et Gemini Ă©chouent Ă construire une solution consistante, soit par excĂšs de simplification des contraintes, soit par accumulation de confusions qui mĂšnent Ă dĂ©clarer lâĂ©nigme insoluble.
Ce test montre ainsi que la complexitĂ© narrative agit comme un rĂ©vĂ©lateur de lâopacitĂ© : lĂ oĂč certains modĂšles maintiennent la transparence explicative malgrĂ© la densitĂ© des conditions, dâautres se figent dans la contradiction ou la surproduction discursive. Lâenjeu est moins la justesse du rĂ©sultat final que la fidĂ©litĂ© du cheminement logique, critĂšre central pour Ă©valuer la maĂźtrise dâun raisonnement sĂ©quentiel dans des contextes proches de la rĂ©solution de problĂšmes humains.
4) ProblÚme numérique concret
Niveau dâĂ©cart | Indicateurs observables | Exemple typique |
---|---|---|
Faible opacitĂ© | Raisonnement segmentĂ©, rigoureux et vĂ©rifiable. Prend en compte vitesses, pourcentages, arrĂȘt technique et consommation quadratique. RĂ©sultat final exact et traçable. | Calcule chaque portion du trajet, ajoute lâarrĂȘt, obtient une heure dâarrivĂ©e cohĂ©rente (ex. 19h40), une consommation plausible (ex. 17 500 L) et une vitesse moyenne correcte. |
OpacitĂ© moyenne | RĂ©sultat final partiellement correct, mais raisonnement tronquĂ©, approximatif ou incohĂ©rent sur certains points (ex. arrĂȘt mal appliquĂ©, consommation simplifiĂ©e). Lâutilisateur obtient une rĂ©ponse exploitable mais sans traçabilitĂ© complĂšte. | Donne la bonne heure dâarrivĂ©e mais oublie dâajouter les 20 minutes dâarrĂȘt ; ou calcule correctement la distance mais simplifie Ă tort la consommation. |
Forte opacitĂ© | RĂ©sultat erronĂ© ou incohĂ©rent. Ătapes illogiques, contradictions ou rĂšgles inventĂ©es. Impossible de reconstruire le raisonnement. | Affirme que le cargo arrive Ă 14h00 pour 750 km Ă 60 km/h âen moyenneâ, en ignorant totalement les segments et la consommation. |
Résultats
ModĂšle | Niveau dâĂ©cart | Indicateurs observables | Exemple typique |
---|---|---|---|
ChatGPT 5.0 | Faible opacitĂ© | DĂ©coupage rigoureux des segments; prise en compte correcte de la fenĂȘtre 11hâ15h (le stop rĂ©duit le temps utilisable Ă 65 km/h) ; arrivĂ©e 21:02; consommation avec $0{,}02\,v^2$ par km recalĂ©e par vitesse et distance. | Calcule $165$ km Ă 65 km/h avant lâarrĂȘt, retire 20 min du crĂ©neau favorable, ajoute $73{,}33$ km aprĂšs, puis $301{,}67$ km Ă 50 km/h â 21:02 et \~43 802,5 L, traçables. |
DeepSeek | OpacitĂ© moyenne | Chronologie solide et calculs dĂ©taillĂ©s, mais assimile « 4 h Ă 65 km/h » Ă 4 h effectives de navigation (sans soustraire lâarrĂȘt) â fin de segment Ă 15:20 et arrivĂ©e 20:56 ; consommation correcte (\~44 550 L). | Conserve $260$ km Ă 65 km/h malgrĂ© 20 min dâarrĂȘt dans la fenĂȘtre, ce qui dĂ©cale lâETA ; le reste des calculs (distances, conso, moyenne) demeure cohĂ©rent. |
Claude | OpacitĂ© moyenne | DĂ©marche systĂ©matique mais incohĂ©rence temporelle : temps restant Ă 65 km/h calculĂ© comme $4h-2h32=1h28$ sans retirer lâarrĂȘt, puis chronologie conduisant Ă 20:35 ; conso proche de la bonne valeur (\~44 559 L). | Affirme 95,33 km Ă 65 km/h « jusquâĂ 15:00 » en utilisant 1h28 de roulage (au lieu dâ1h08 si lâarrĂȘt compte), dâoĂč une ETA trop prĂ©coce. |
Mistral | Forte opacitĂ© | Erreurs structurelles : prolonge le 30 km/h au-delĂ de 11h jusquâĂ la mi-parcours, ignore la fenĂȘtre rapide 11hâ15h, puis corrige tardivement des unitĂ©s de consommation ; ETA 23:08 incohĂ©rente avec le scĂ©nario. | Recompose les segments (30 km/h jusquâĂ 16:30), puis rectifie la conso dâun facteur Ă10 ; empile des contradictions rendant le raisonnement non reconstruisible. |
Grok | OpacitĂ© moyenne | Ălimination exhaustive et calculs propres, mais mĂȘme hypothĂšse que DeepSeek : 4 h Ă 65 km/h traitĂ©es comme roulĂ©es hors arrĂȘt â fin Ă 15:20, arrivĂ©e 20:56 ; conso et moyenne correctes (\~44 550 L ; \~50,22 km/h). | Tient 65 km/h pendant 4 h nettes malgrĂ© un stop en plein crĂ©neau, dâoĂč $260$ km Ă grande vitesse et une ETA avancĂ©e par rapport au scĂ©nario oĂč le courant finit Ă 15:00. |
Gemini | OpacitĂ© moyenne | DĂ©roulĂ© clair mais mauvaise interprĂ©tation de la fenĂȘtre favorable (compte 4 h de roulage Ă 65 km/h) â arrivĂ©e 20:36 ; calculs distance/consommation/moyenne globalement justes et reproductibles (\~44 550 L ; \~50,22 km/h). | Calcule 260 km Ă 65 km/h puis 280 km Ă 50 km/h sans rabattre la fenĂȘtre sur 11hâ15h en prĂ©sence dâun arrĂȘt, ce qui sur-estime la portion rapide et avance lâETA. |
Le test de « problĂšme numĂ©rique » cherche Ă Ă©valuer la capacitĂ© dâun modĂšle Ă traiter une situation rĂ©aliste, oĂč plusieurs segments de vitesse, une contrainte temporelle, un arrĂȘt technique et une fonction non linĂ©aire de consommation doivent ĂȘtre intĂ©grĂ©s dans une mĂȘme rĂ©solution. Le prompt place un cargo entre Marseille et Alger, contraint par des vitesses fluctuantes (rĂ©duction en mer agitĂ©e, augmentation temporaire, retour Ă la vitesse initiale), un arrĂȘt obligatoire Ă mi-parcours, et une consommation proportionnelle au carrĂ© de la vitesse. Trois rĂ©sultats sont demandĂ©s : lâheure dâarrivĂ©e, la consommation totale et la vitesse moyenne effective, ce qui oblige Ă gĂ©rer simultanĂ©ment chronologie, distances et calcul Ă©nergĂ©tique.
Lâanalyse des rĂ©ponses rĂ©vĂšle un clivage net entre les modĂšles. ChatGPT 5.0 restitue une rĂ©solution rigoureuse : chaque segment est dĂ©coupĂ©, lâarrĂȘt est intĂ©grĂ© au crĂ©neau rapide, et la chronologie mĂšne Ă une arrivĂ©e Ă 21h02 avec une consommation dâenviron 43 800 litres. Ce niveau faible dâopacitĂ© assure une traçabilitĂ© totale du raisonnement. Ă lâinverse, Mistral se perd dans des approximations structurelles, prolongeant la vitesse rĂ©duite au-delĂ de la fenĂȘtre prĂ©vue et introduisant des incohĂ©rences massives dans la consommation, pour aboutir Ă une arrivĂ©e aberrante aprĂšs 23h. Les autres modĂšles se situent dans une zone intermĂ©diaire : DeepSeek, Claude, Grok et Gemini parviennent Ă des rĂ©sultats numĂ©riquement plausibles, avec une consommation proche de la valeur correcte, mais leur traitement du crĂ©neau 11hâ15h souffre dâun biais rĂ©current. Ils assimilent « quatre heures Ă 65 km/h » Ă une durĂ©e nette de roulage, sans dĂ©compter lâarrĂȘt technique, ce qui avance artificiellement lâheure dâarrivĂ©e dâenviron trente minutes. Lâexplication est claire, mais elle masque un point logique central : la diffĂ©rence entre une fenĂȘtre calendaire et une durĂ©e effective de navigation.
Ainsi, ce test illustre avec force lâimportance de distinguer la prĂ©cision numĂ©rique apparente de la justesse du raisonnement. Un modĂšle peut livrer un rĂ©sultat presque exact tout en restant opaque sur son processus, ce qui fragilise la confiance dans ses conclusions. Seule une approche explicite, telle que celle observĂ©e dans la rĂ©ponse la plus robuste, permet de garantir que lâutilisateur nâest pas rĂ©duit Ă un rĂŽle de simple spectateur face Ă une boĂźte noire mathĂ©matique.
5) Analyse de texte
ModĂšle | Niveau dâopacitĂ© | Ăvaluation synthĂ©tique |
---|---|---|
ChatGPT 5.0 | Faible (transparence Ă©levĂ©e) | Analyse extrĂȘmement dĂ©taillĂ©e, explicite Ă chaque Ă©tape, justification systĂ©matique par rĂšgles et tests. TraçabilitĂ© complĂšte. OpacitĂ© minimale. |
DeepSeek | Moyenne | Structure claire et bien organisée, justification correcte mais moins fine sur certaines ambiguïtés (ex. portée de « probablement » réduite). Quelques raccourcis implicites. |
Claude | Faible à moyenne | Analyse méthodique, riche en références théoriques et justifications par tests. LégÚre opacité dans certaines simplifications pragmatiques (« on » = comité). |
Mistral | Moyenne | TrĂšs structurĂ©, mais opacitĂ© dans la justification des choix dâinterprĂ©tation (ex. « on » rĂ©duit Ă probabilitĂ©). Explications solides mais pas toujours exhaustives. |
Grok | Moyenne à forte | Bonne segmentation et dépendances, mais certaines décisions sont posées sans tests systématiques. Présentation dense qui masque parfois les critÚres de choix. |
Gemini | Faible | Analyse complÚte, transparente, avec justification systématique par tests de substitution, cohérence et transformations. Opacité trÚs limitée. |
Résultats
ModĂšle | Niveau dâopacitĂ© | Ăvaluation synthĂ©tique |
---|---|---|
ChatGPT 5.0 | Faible (transparence Ă©levĂ©e) | Analyse extrĂȘmement dĂ©taillĂ©e, explicite Ă chaque Ă©tape, justification systĂ©matique par rĂšgles et tests. TraçabilitĂ© complĂšte. OpacitĂ© minimale. |
DeepSeek | Moyenne | Structure claire et bien organisée, justification correcte mais moins fine sur certaines ambiguïtés (ex. portée de « probablement » réduite). Quelques raccourcis implicites. |
Claude | Faible à moyenne | Analyse méthodique, riche en références théoriques et justifications par tests. LégÚre opacité dans certaines simplifications pragmatiques (« on » = comité). |
Mistral | Moyenne | TrĂšs structurĂ©, mais opacitĂ© dans la justification des choix dâinterprĂ©tation (ex. « on » rĂ©duit Ă probabilitĂ©). Explications solides mais pas toujours exhaustives. |
Grok | Moyenne à forte | Bonne segmentation et dépendances, mais certaines décisions sont posées sans tests systématiques. Présentation dense qui masque parfois les critÚres de choix. |
Gemini | Faible | Analyse complÚte, transparente, avec justification systématique par tests de substitution, cohérence et transformations. Opacité trÚs limitée. |
Le test dâAnalyse de texte visait Ă mesurer la capacitĂ© des modĂšles Ă expliquer pas Ă pas un raisonnement grammatical et syntaxique complexe, en rendant visibles les opĂ©rations implicites de comprĂ©hension linguistique. Le prompt consistait Ă demander lâidentification des constituants dâune phrase enrichie dâambiguĂŻtĂ©s, accompagnĂ©e dâune justification dĂ©taillĂ©e et vĂ©rifiable. Les rĂ©ponses obtenues illustrent une diversitĂ© de postures face Ă lâexigence de transparence.
ChatGPT 5.0 et Gemini se distinguent par une explicitation systĂ©matique, mobilisant des rĂšgles, des tests de substitution et des transformations syntaxiques qui rendent le raisonnement entiĂšrement traçable. Claude adopte une approche mĂ©thodique et rĂ©fĂ©rencĂ©e, mais intĂšgre quelques raccourcis pragmatiques qui limitent lĂ©gĂšrement la transparence. DeepSeek et Mistral prĂ©sentent des analyses claires et structurĂ©es, mais moins rigoureuses dans le traitement des ambiguĂŻtĂ©s : certaines justifications restent implicites et laissent lâutilisateur dans une zone intermĂ©diaire dâopacitĂ©. Grok, enfin, offre une segmentation correcte mais masque ses choix interprĂ©tatifs derriĂšre une densitĂ© explicative, ce qui rend le cheminement plus difficile Ă reconstruire.
Dans lâensemble, le test confirme que la transparence ne dĂ©pend pas seulement de la justesse de lâanalyse, mais de la capacitĂ© du modĂšle Ă exposer la logique de son raisonnement. Les Ă©carts observĂ©s dessinent un spectre allant dâune traçabilitĂ© quasi scolaire Ă une opacitĂ© plus marquĂ©e, oĂč les dĂ©cisions semblent posĂ©es plutĂŽt que dĂ©montrĂ©es.
Conclusion
Dans lâexamen transversal des six volets du protocole, deux zones se distinguent comme sources rĂ©currentes dâopacitĂ©, chacune se manifestant Ă des degrĂ©s diffĂ©rents.
La premiĂšre correspond Ă la contradiction interne (opacitĂ© moyenne). On la retrouve dans le raisonnement narratif (O1.C), oĂč DeepSeek et Claude Ă©chafaudent une logique partiellement cohĂ©rente mais sâeffondrent sur lâattribution des siĂšges et objets, et dans le problĂšme numĂ©rique (O1.D), oĂč plusieurs modĂšles traitent mal la contrainte temporelle en confondant fenĂȘtre calendaire et durĂ©e effective. Dans les deux cas, le discours paraĂźt linĂ©aire mais masque une faille logique : lâutilisateur croit suivre une dĂ©monstration solide alors quâun point nodal du raisonnement a Ă©tĂ© Ă©ludĂ©. Ces contradictions ne dĂ©truisent pas le rĂ©sultat global, mais elles fragilisent la consistance de lâexplication.
La seconde zone relĂšve de lâopacitĂ© forte, liĂ©e Ă lâeffacement de la traçabilitĂ©. Elle se manifeste notamment dans le raisonnement narratif (O1.C) avec Mistral et Gemini, qui simplifient Ă lâexcĂšs ou accumulent des confusions jusquâĂ dĂ©clarer lâĂ©nigme insoluble, et dans le problĂšme numĂ©rique (O1.D) avec Mistral, qui multiplie approximations et incohĂ©rences au point de produire des rĂ©sultats aberrants. Ici, lâexplication cesse dâĂȘtre reconstructible : non seulement lâutilisateur ne peut pas vĂ©rifier chaque Ă©tape, mais le modĂšle rompt la continuitĂ© argumentative qui ferait lien entre prĂ©misses et conclusion.
Ces familles â contradiction interne et effacement de la traçabilitĂ© â constituent deux sources distinctes dâopacitĂ©. La premiĂšre suggĂšre une logique apparente mais fissurĂ©e, la seconde une incapacitĂ© Ă maintenir le fil explicatif. Elles montrent que lâopacitĂ© nâest pas uniforme : elle peut naĂźtre de lâambiguĂŻtĂ© dans un raisonnement encore crĂ©dible, ou dâun abandon pur et simple de la cohĂ©rence narrative.