chatGPT à l'assaut de Molière

Alexis Alexis Suivre 04 Oct 2023 · 10 mins de lecture
chatGPT à l'assaut de Molière

Nous avons utilisé GPT4 pour générer des versions modernisées des œuvres de Molière. Une démarche de démocratisation qui vise à faciliter l’accès à ces œuvres omniprésentes dans le cursus scolaire français alors que le français vernaculaire évolue rapidement. En simplifiant la structure des phrases, en réduisant la longueur des répliques, en modernisant le vocabulaire nous obtenons des versions simplifiées tout en maintenant l’intégrité des œuvres originales.

Les modèles de langues LLMs de type chatGPT ont en quelques mois chamboulé l’apprentissage et l’enseignement.

C’est chose connue, les LLMs hallucinent. Un LLM ne connaît pas l’objet dont il s’occupe. Le modèle peut écrire une recette de cuisine mais n’a jamais goûté de poulet.

Quand on demande par exemple à chatGPT de résumer les Fourberies de Scapin, on obtient un texte certes inventif mais fondamentalement faux, avec semble-t-il des morceaux du Médecin Malgré Lui.

Scapin se tient debout, au milieu de la cour, devant une grande caisse en bois, prétendant être un « médecin » ou un « sorcier » capable de guérir les maux des amoureux.

Zéro assuré du prof de français.

La question pertinente n’est donc pas la véracité du texte produit mais sa vraisemblance. Le point fort des LLMs est de savoir générer du texte non d’aligner des faits. Parmi les nombreux cas d’usage, ces modèles peuvent alors faciliter la compréhension des textes classiques en offrant une version simplifiée de textes potentiellement difficiles à comprendre.

Pourquoi s’attaquer à Molière ?

Les pièces de Molière sont omniprésentes dans le cursus scolaire en France. Molière est encensé comme l’incarnation du génie français en termes de théâtre, de comédie mais aussi d’une critique sociale qui serait d’une modernité dont on ne saurait douter. Ses personnages Harpagon, Scapin, Sganarelle, sont connus de tous.

Ses meilleures répliques font partie de l’inconscient français.

« Il faut manger pour vivre et non vivre pour manger » , « mais qu’allait il faire dans cette galère » et bien d’autres.

Les textes de ces œuvres du 17ème siècle ont déjà été adaptés en français. Les textes bruts de ~1660 seraient bien difficiles à comprendre de nos jours. Toutefois, cette version là, vieillit aussi. Elle devient difficile à appréhender pour les jeunes (et moins jeunes) générations. Les commentaires sur les réseaux sociaux fleurissent sur la difficulté qu’il y a à comprendre les textes et donc l’histoire.

« je suis en 5eme et mon prof de français m’a demander de lire ce livre mais je n’ai rien compris »

D’où l’idée d’utiliser chatGPT pour traduire, adapter, les pièces de Molière en français moderne.

Notre but est d’en faciliter la lecture et la compréhension par une population de moins en moins habituée à lire des livres, et dont le français vernaculaire s’éloigne à grande vitesse des canons de l’Académie française.

Trahison, abêtissement, abrutissement!

Oser évoquer la modernisation voire la simplification des textes de Molière suscite instantanément un rejet épidermique et indigné. Avec comme accusation centrale l’abêtissement et son corollaire, la baisse inexorable du niveau scolaire. Des arguments qui fleurent bon le « c’était mieux avant » , la brigade anti-écran, l’agonie du français face à l’anglais et autres billevesées sur l’école d’antan.

En simplifiant le texte, on encouragerait la baisse de niveau des élèves.

Mais corrélation (supposée) ne veut pas dire causalité.

La bible a été traduite, Shakespeare a été adapté en anglais contemporain, pourquoi Molière ne pourrait-il pas l’être aussi ? Le texte n’est pas sacré. La démarche est démocratique. Et le but est clair, faciliter l’accès aux textes classiques.

Que veut dire moderniser ?

Traduire, adapter, moderniser, certes mais de quoi parle-t-on ? quels résultats attendre ?

Précisons tout de suite. Il ne s’agit ni de résumer la pièce, ni de simplifier à outrance les textes. et encore moins de les rendre jeunes avec un supposé langage de jeune.

Notre but sera donc de

  • simplifier la structure des phrases,
  • raccourcir les répliques trop longues,
  • utiliser un vocabulaire contemporain,
  • rafraîchir les tournures et les styles,
  • et passer du vouvoiement au tutoiement quand cela fait sens, par exemple entre parents et enfants.

On va conserver

  • le sens, le message, l’histoire
  • la structure de dialogue entre les personnages.
  • l’équivalence 1 - 1 des répliques entre l’original et la version modernisée. Chaque réplique, chaque vers, doit avoir un équivalent en français moderne
  • les répliques cultes: “Mais qu’allait il faire dans cette galère”, “Au voleur ! au voleur ! à l’assassin ! au meurtrier ! …;”

Et l’on ne se refuse évidemment pas de conserver le texte original quand il ne pose pas de difficulté particulière.

Un exemple

Prenons un exemple. Dans l’acte 1 scène 1 de L’avare. Valère ouvre la pièce avec ces mots:

« Hé quoi ! charmante Élise, vous devenez mélancolique, après les obligeantes assurances que vous avez eu la bonté de me donner de votre foi ? Je vous vois soupirer, hélas ! au milieu de ma joie ! Est-ce du regret, dites-moi, de m’avoir fait heureux ? et vous repentez-vous de cet engagement où mes feux ont pu vous contraindre ? »

C’est beau, c’est fleuri, c’est romantique à souhait !

La traduction donne

« Pourquoi cette tristesse, Élise, après m’avoir assuré de ton amour ? Je te vois soupirer, est-ce du regret de m’avoir rendu heureux ? Regrettes-tu notre engagement ? »

C’est moins beau mais plus direct.

On touche dans cet exemple à une des principales difficultés de l’exercice. La beauté du texte original, son style, son rythme, ses tensions, relèvent de l’ordre de la saveur et de la musique. Il y a de la poésie dans ces lignes bien que le texte soit en prose. La version moderne est bien grise en comparaison, mais quelle concision, quelle clarté. Ce qu’on perd en beauté, on le gagne en efficacité.

La quête du prompt

Avec les GPT et LLMs le prompt est tout. Sans prompt pas de salut. Le prompt va dicter la qualité du résultat: forme, format, style, et surtout la conservation du sens. Nous avons travaillé avec 2 modèles: GPT 3-5 et GPT 4 via l’API d’openAI et testé de nombreuses configurations et de prompt.

L’automatisation du prompt engineering

Le processus classique d’optimisation d’un modèle de machine learning consiste à définir une métrique que l’on cherchera à maximiser en sélectionnant les meilleurs méta-paramètres du modèle. Ce modèle doit aussi être robuste, c’est-à-dire consistant dans sa performance face à des variations légères des données d’entrée. Ce processus itératif permet de tester de multiples configurations et d’obtenir les meilleurs résultats possibles en fonction du contexte, de l’approche et des données disponibles.

Un tel processus nous donnerait une approche systématique pour trouver le meilleur prompt. Cependant, il reste difficile à mettre en place dans notre contexte de transformation de textes (Automatic Text Simplification (ATS)). Ceci pour deux raisons.

Premièrement, le caractère intrinsèquement aléatoire des LLMs rend les résultats inconsistants. La nature ou la qualité du texte généré varie en fonction des paramètres de la requête API, du prompt mais aussi du texte à modifier donc des données entrantes. Même lorsque l’on règle la température du modèle à zéro et à prompt égal, on ne contrôle pas la réaction du modèle à un texte original entrant.

Deuxièmement, les mesures de complexité d’un texte ne sont pas adaptées à notre contexte de simplification de corpus de textes du 16è siècle.

Nous avons utilisé la librairie LyngX qui offre plusieurs métriques de complexité psycholinguistique. Malheureusement, il ne semble pas y avoir de corrélation entre les répliques une fois simplifiées et les scores de complexité obtenues avec les méthodes en question.

A ce stade, construire une automatisation de la sélection de prompt pour la simplification automatique de texte nous semble nécessiter plus d’effort que nous ne pouvons y consacrer. Notre but premier restant de mettre en ligne rapidement des versions modernisées des pièces.

Nous avons alors opté pour une sélection à la main des prompts, des modèles et des paramètres des requêtes. Au final et après bien des essais, nos prompts suivent la forme

Par exemple:

Récris le texte en français moderne:
- vocabulaire élémentaire;
- phrases claires et courtes
- réduit la longueur des paragraphes
{texte}

ou

Écrit ce texte en français en style simple et concis:

texte:
{texte}

où le {texte} est remplacé par une réplique, la scène entière ou un extrait constitué d’une suite de répliques.

Principaux obstacles

Traduire réplique par réplique, entraîne souvent une perte de sens car le modèle n’a pas connaissance du contexte. ou un résultat sous une forme narrative: Géronte parle à son fils et dit ceci au lieu du dialogue. Géronte:

A contrario, soumettre chaque scène dans son intégralité entraîne une réduction du nombre de répliques dans la version traduite. On se heurte là à une des particularités des textes de Molière. Les dialogues ping pong, constitués par un échange rapide entre 2 personnages qui répètent les mêmes lignes. Par exemple dans l’Acte II scène 4 du médecin malgré lui

GÉRONTE: Vous donner de l'argent, Monsieur.
SGANARELLE, Je n'en prendrai pas, Monsieur.
GÉRONTE: Monsieur...
SGANARELLE: Point du tout.
GÉRONTE: Un petit moment.
SGANARELLE: En aucune façon.
GÉRONTE: De grâce!
SGANARELLE: Vous vous moquez.
GÉRONTE: Voilà qui est fait.
SGANARELLE: Je n'en ferai rien.
GÉRONTE: Hé!
...

Comme l’information varie peu d’une réplique à l’autre, le modèle, à qui l’on vient de donner pour instruction de simplifier le texte, va réduire le nombre de répliques. On perd alors l’équivalence précieuse, ligne à ligne, entre les versions originales et modernes.

Nous avons finalement opté pour un juste milieu entre la traduction réplique à réplique et celle de l’intégralité des scènes, en utilisant une fenêtre glissante de 5, 10, 15 répliques avec un recouvrement de 2, 5 ou 7 répliques entre les requêtes. Cela donne au modèle une quantité suffisante de contexte pour éviter les problèmes évoqués plus haut.

Par contre, cela implique de relire les différentes versions ainsi obtenues afin de pouvoir sélectionner pour chaque réplique celle qui sera la meilleure au sen évoqué précédemment. Il y a une dose de subjectivité dans ce processus de sélection qui redevient alors un travail de relecture et d’édition classique.

Au final, pour la pièce les Fourberies de Scapin (771 répliques), nous avons gardé ⅓ (232 répliques) dans leur version originale, avons écrit manuellement 47 répliques (6%). Les 2 tiers restants étant à part égale le fait de GPT 3.5 (224) et GPT 4 (268).

Résultat

On obtient une version moderne des textes qui coche tous les objectifs precedemment enoncés: simplification et raccourcissement des phrases, rafraîchissement du vocabulaire, des tournures et des styles, tutoiement à la place du vouvoiement, tout en gardant le sens et l’équivalence 1-1.

Les pieces traduites sont pour l’instant

Les textes sont affichés en mode bilingue, avec le texte revisité côte à côte de l’original offrant ainsi la possibilité de comparer et de lire la version moderne sans toutefois perdre la version originale dans ce qu’elle a de rythmé et de drôle.

Alexis
Écrit par Alexis Suivre
Alexis Perrier, apprenti sorcier