Traduction automatique à travers les LLMs: génération et évaluation

Nous nous intéressons à explorer la capacité des LLMs open-source à automatiquement traduire un texte d’une langue source vers une langue destination avec une qualité de traduction comparable à celle produite par un expert. Les LLMs sont des modèles de langages qui sont conçus et entraînés pour effectuer de la génération de texte. Ils sont capables de résoudre différentes tâches de traitement automatiques de langages tels que la réponse aux questions, la reconnaissance des entités nommées et la traduction automatique. Ils présentent des performances prometteuses et bien meilleures que celles obtenues via les modèles d’apprentissage classiques et profonds. Pour ce faire, il tirent profit de la forte capacité de calcul et du large volume de données d'entraînement.

Des LLM open-source pour la traduction? Peuvent-ils fournir une belle qualité de traduction?

GPT avec ses versions récentes (3.5 et 4) se présente souvent comme le llm de référence pour résoudre les tâches de génération de texte. Cependant, utiliser GPT nécessite un environnement de calcul conséquent et peut engendrer des coûts non négligeables une fois installé dans un environnement de production.

Les llms “open source” permettent de profiter de la puissance de ces modèles de langages tout en contrôlant les coûts. En évolution continue et riche de la participation collaborative pour leurs mise en place, les llms open-source réalisent des performances de plus en plus hautes. Récemment, de plus en plus d’experts en IA et des data scientists pensent que les modèles open source pourraient surpasser les modèles payants en termes de performance. Il est à noter qu’il est indispensable de vérifier les conditions d’utilisation de ces modèles open-source.
Dans ce qui suit, nous présentons un pipeline qui utilise des llms open-sources pour la traduction automatique et évalue la qualité de la traduction.This is some text inside of a div block.

Quel LLM open-source choisir?

Pour bien choisir un LLM, nous devons définir le besoin, la problématique à résoudre et la tâche de traitement à accomplir. Considérant la tâche de traduction automatique, NLLB ( pour No Language Left Behind) proposée par Meta en 2022 se présente comme le llm open-source de référence. Basé sur  un architecture Transformer de type encodeur-décodeur, NLLB couvre 200 langues et affiche des bonnes performances aussi bien pour les langues dotées de ressources que pour les langues à faibles ressources. 

Proposé par Google, T5 est un LLM particulièrement performant dans les tâches qui nécessitent une compréhension profonde du texte et de sa manipulation notamment le résumé et la traduction grâce à capacité à capturer les longues dépendances contextuelles entre mots et son apprentissage sur des données diverses. Nous considérons l’utilisation de ces deux modèles pour la suite.

Le schéma ci-dessous illustre les différentes étapes mises en place pour traduire des textes de la langue anglaise (langue source) vers la langue française (langue cible) via deux LLMs open sources ( NLLB et T5 ).

Les données sources et les données de références sont récupérées du jeu de données wmt14 disponible en ligne. C'est un corpus proposé dans la "ACL 2014 NINTH WORKSHOP ON STATISTICAL MACHINE TRANSLATION". Il est composé d'un dataset d'entraînement, un dataset de validation et un dataset de test.

Nous avons sélectionné trois mesures pour évaluer la qualité de la traduction:

Comment améliorer la performance du llm ?

Pour s’adapter au contexte de la traduction, les performances des llms peuvent être améliorées suivant différentes stratégies. Nous en distinguons trois. 

[1] Une première alternative consiste à fine-tuner le llm sur des données d'entraînement spécifiques pour affiner les réponses du llm au besoin de traduction. Cette stratégie est facilitée dans le domaine open source de par la petite taille relative des llms open-sources et des avancées réalisées dans les techniques d'optimisation telles que LoRA (Low Rank Adaptation ) et DPO (Direct Preference Optimization).Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.

[2] L'élaboration des prompts plus détaillés et instructifs s’inscrit sous la pratique du “prompt engineering” et aide à améliorer la performance du llm choisi. Il s’agit d’enrichir le prompt initialement simple par des instructions qui vont spécifier le contexte d’application et  orienter le traitement par le llm.Nous explorons dans la suite la stratégie de “prompt engineering” pour améliorer la qualité de traduction. Nous enrichissons le prompt initial avec des informations complémentaires qui décrivent le ton de la traduction, le type de langage à utiliser et les récepteurs de la traduction. Ci-dessous, nous illustrons le format du prompt élaboré.


[3] Le “In-context learning” est aussi une stratégie qui manipule les prompts dans le but d’améliorer la qualité des réponses du llm. Elle consiste à intégrer des exemples dans le prompt pour orienter les réponses et la génération du llms. Dans le cadre de la traduction automatique, cette stratégie se manifeste par inclure des pairs de texte source et texte cible exemples dans le prompt.


Nous utilisons les données de tests des jeux de données wmt14 pour évaluer les réponses des llms (NLLB et T5). En premier temps, nous évaluons les deux modèles en utilisant des prompts simples ( “Translate from English To French: [text to translate]”) .

Nous mesurons la qualité de la traduction en utilisant les trois mesures décrites antérieurement. Les résultats confirment l’incapacité du score BLEU à gérer la similarité sémantique et les synonymes. C’est une mesure  qui exige la présence de vocabulaire et de syntaxe identiques et fait abstraction de la dimension “jugement humain”. Une dimension importante quant à la traduction automatique et la génération de texte. BertScore utilise les représentations contextuelles des mots et par conséquent inclut la similarité sémantique dans le processus d’évaluation. Nous constatons de meilleurs scores pour les traductions générées. COMET est considérée comme la mesure de référence pour l’évaluation de la qualité de traduction. Tout comme Bertscore, COMET utilise les représentations contextuelles mais utilise l’estimation de l’effort et l’analyse des erreurs de traduction pour mimer le jugement humain. Le score COMET est à la fois calculé par instance et globalement sur tout le dataset. 

Les résultats d’évaluation des deux modèles sélectionnés (NLLB et T5) avec un prompt simple montrent une meilleure performance pour le modèle NLLB avec un score COMET égal à 0.8515 par rapport à un score de 0.7947 pour le modèle T5. 

Nous avons également exploré la deuxième alternative pour améliorer la qualité de la traduction en utilisant le modèle T5. Cette expérimentation montre une amélioration de la qualité des réponses avec un score COMET atteignant  0.8257.

Alors traduction automatique et IA (LLM) : Avantages et limites ?

La traduction automatique est témoin de grands succès notamment dans l’ère de l’IA générative que ce soit en termes de qualité de la traduction ( des améliorations continues sont perceptibles au niveau des llms dans ce contexte), de facilité de mise en place et de réduction de l’effort humain requis. Cependant, la traduction automatique a encore besoin de perfectionnement pour égaler la capacité de jugement humain, comprendre parfaitement les nuances, tenir le ton de la traduction. Également, le risque d’hallucination pour les LLMs peut nuire à la qualité de la traduction en intégrant des propos injurieux et agressifs aux traductions produites.

La traduction automatique s’impose de plus en plus dans différents domaines d’application à savoir le e-commerce, le tourisme , le domaine juridique et les entreprises internationales pour générer leurs contenus en différentes langues. Il est à noter que, appliqués sur des domaines d’application nécessitant un vocabulaire spécifique avec des termes techniques, la performance des LLMs diminue. Dans cette configuration, il est judicieux de procéder au fine-tuning afin d'entraîner le LLM sur ses propres données et par conséquent permettre au llm de mieux comprendre le domaine d’application.

Pour les contextes impliquant un vocabulaire plus commun,  élaborer des prompts instructifs et détaillés suffit pour améliorer la qualité de  traduction via les LLMs.

La traduction automatique avec post-édition émerge de plus en plus avec le progrès des llms dans ce contexte. Elle consiste en la relecture des traductions générées automatiquement par un traducteur expert pour optimiser la qualité des traductions et vérifier la cohérence du ton de la traduction. Cette pratique est plus économique qu’une traduction complètement manuelle et s’avère intéressante particulièrement quand il s’agit de contenu critique.

Maroua Boudabous , Senior Data Scientist @Novagen

« Novagen, créateur de solutions Data innovantes pour développer votre Business. »
N'hésitez pas à nous contacter pour tirer le meilleur parti possible de vos données !

contact@novagen.tech