Avez-vous déjà utilisé Google Traduction pour tenter d’avoir une conversation de base lors d’un séjour en Espagne ou en Italie ? Si oui, il y a de fortes chances que vous ayez obtenu des résultats plutôt satisfaisants. Mais, à votre avis, en serait-il de même pour une langue plus complexe, telle que l’islandais ou le japonais ? Bien que toujours plus perfectionnée, la traduction automatique se trouve amenée à adapter son fonctionnement aux enjeux liés à la traduction de langues plus rares, et donc plus difficiles à gérer.
Comment fonctionnent les modèles de traduction automatique ?
Depuis ses balbutiements dans les années 1950, la traduction automatique n’a cessé de progresser en se nourrissant des multiples avancées du secteur informatique. Retour sur quelques évolutions majeures au fil du temps :
- La traduction automatique basée sur les règles (RBMT). Comme son nom l’indique, ce modèle combine l’application de règles linguistiques et l’utilisation de dictionnaires pour analyser le texte source et le transposer dans la langue cible. L’une des limites de cette méthode réside néanmoins dans la gestion de la polysémie de certains mots. Si un dictionnaire est capable d’en énumérer les différentes définitions, seule une analyse du contexte permettra de choisir la traduction la plus appropriée. C’est ainsi que la marque espagnole Mango s’est malencontreusement retrouvée à proposer il y a quelques années des bijoux de style « esclave » sur son site. S’il s’agit effectivement de l’une des traductions possibles du terme « esclava », celui-ci désignait tout autre chose dans ce contexte, à savoir une simple chaînette.
- La traduction automatique statistique (SMT). Ici, le processus repose avant tout sur l’analyse de corpus de documents existants afin de déterminer la probabilité qu’un segment soit traduit d’une certaine manière plutôt que d’une autre. Cette solution nécessite toutefois de disposer de volumes importants de données afin d’entraîner le modèle à générer des résultats pertinents. Elle aura ainsi tendance à être moins performante dans les langues rares, voire , pour lesquelles les ressources documentaires disponibles sont moins nombreuses.
- La traduction automatique neuronale (NMT). Contrairement aux précédents modèles reposant sur un découpage des phrases en mots isolés traduits indépendamment les uns des autres, cette innovation récente mise sur une approche plus globale. Son objectif ? Se rapprocher du fonctionnement du cerveau humain pour proposer de meilleures traductions. Grâce aux méthodes d’apprentissage profond de l’intelligence artificielle, ces logiciels sont capables de contextualiser les phrases pour mieux comprendre le message véhiculé, mais surtout de se servir des données qui les alimentent pour s’améliorer en continu. Résultat ? Une marge d’erreur réduite par rapport aux modèles traditionnels.Comment la traduction automatique gère-t-elle les langues complexes et rares ?
Comment la traduction automatique gère-t-elle les langues complexes et rares ?
Avant tout, il est important de faire la distinction entre langues complexes et langues rares. Une langue peut tout à fait être rare, c’est-à-dire parlée par peu de locuteurs, sans pour autant avoir une construction complexe. À l’inverse, une langue telle que l’allemand, loin d’être rare, aura pourtant une structure grammaticale complexe, et donc plus difficile à prendre en charge pour les outils de traduction automatique.
Comme nous avons pu le constater, la plupart des modèles ont besoin d’être alimentés par une masse de données considérable pour être efficaces. On estime ainsi que l’entraînement d’un logiciel de traduction automatique nécessite au minimum deux millions de mots. C’est précisément là que le bât blesse pour les langues rares. Celles-ci étant peu pratiquées, le volume de données à disposition pour former les outils de traduction automatique est souvent insuffisant. D’où des résultats encore mitigés pour le moment.
Quelles stratégies pour améliorer la qualité de la traduction automatique des langues rares ?
La technique la plus répandue afin de pallier le manque de ressources pour les langues rares consiste à créer des systèmes de traduction automatique passant par une langue pivot, généralement l’anglais. Prenons l’exemple d’une traduction de l’islandais vers le japonais. Grâce à cette méthode, le manque de données bilingues dans cette combinaison de langues peu commune peut être contourné en traduisant d’abord le texte de l’islandais vers l’anglais, puis de l’anglais vers le japonais. Bien qu’intéressante sur le principe, cette approche a toutefois tendance à générer des résultats assez approximatifs : plus on ajoute d’intermédiaires entre la langue source et la langue cible, plus le message initial risque d’être déformé.
Certaines entreprises ont ainsi demandé à des linguistes de créer des traductions dans des langues rares afin d’alimenter leur modèle. Dans cette optique, le modèle No Language Left Behind de Meta semble offrir des pistes prometteuses. Son but ? Créer automatiquement des ensembles de données pour les langues rares disposant de faibles ressources. Comment ? En alignant des textes monolingues pour établir des correspondances entre les langues (par exemple, des articles de presse publiés dans différentes langues, mais couvrant un même évènement). Les résultats ainsi obtenus sont ensuite comparés à des traductions humaines afin d’en évaluer la qualité.
Malgré les progrès et les avantages indéniables des outils de traduction automatique en matière de productivité et de coût, il n’en demeure pas moins qu’ils sont loin d’être infaillibles. Le meilleur gage de qualité reste de les combiner à une étape de post-édition réalisée par un traducteur professionnel, dont l’expertise lui permettra d’avoir le recul nécessaire pour comprendre les subtilités qui auraient pu échapper à la machine.