Fermer

  • AgoraVox sur Twitter
  • RSS
  • Agoravox TV
  • Agoravox Mobile

Accueil du site > Actualités > Technologies > Traduction : Systran ou Reverso ?

Traduction : Systran ou Reverso ?

Il est de bon ton chez les linguistes de se moquer des traducteurs automatiques. Il est vrai qu’ils nous offrent parfois un florilège de phrases mal construites et de contresens qui frisent le surréalisme. Pourtant, les premières recherches en traduction automatique remontent au tout début des années 1950 : plus d’un demi-siècle d’efforts qui n’ont pas réussi à casser le code. Incroyable difficulté du langage ! Dans le même temps, on aura réussi à décrypter le génome humain (la découverte de la structure en double hélice de l’ADN en 1953 est contemporaine des débuts de la traduction automatique)...



Pour autant, les choses progressent — trop lentement, bien sûr, à mon goût, mais il ne faut pas être injuste. Si la traduction automatique ne peut absolument pas rivaliser avec un traducteur humain (même mauvais !), cela ne veut pas dire qu’elle soit totalement dénuée d’intérêt. Voici une petite expérience que je soumets chaque année à mes étudiants dans mon cours d’introduction aux technologies du langage. Prenons une des nouvelles du jour sur un journal grec, Kathimerini  :
Δύο νέα κρούσματα στην Τουρκία του θανατηφόρου ιού της γρίπης των πτηνών

Ο Παγκόσμιος Οργανισμός Υγείας ανακοίνωσε σήμερα στη Γενεύη ότι δυο παιδιά που νοσηλεύονται στην Τουρκία έχουν προσβληθεί από το θανατηφόρο στέλεχος Η5Ν1 του ιού της γρίπης των πτηνών.

Εκπρόσωπος του Οργανισμού δήλωσε ότι τα παιδιά, ηλικίας 5 και 8 ετών, προέρχονται από την ίδια περιοχή με τα τρία αδέλφια που πέθαναν από τη γρίπη των πτηνών αυτήν την εβδομάδα.

Σημειώνεται πως 32 άτομα νοσηλεύονται σε νοσοκομείο της πόλης Βαν με ύποπτα συμπτώματα, ενώ τουλάχιστον πέντε περιοχές της ανατολικής Τουρκίας έχουν τεθεί σε καραντίνα.


Cela ne vous dit probablement pas grand chose... Je prends toujours volontairement une langue que peu de gens connaissent. Le grec est idéal parce qu’on ne peut même pas deviner de quoi il s’agit d’après la forme des mots (alors qu’on peut déchiffrer de l’anglais, de l’espagnol ou de l’allemand, même si on ne connaît pas ces langues). Le chinois ou le japonais seraient aussi de bons candidats !

Comparons maintenant le texte avec sa version traduite par Babelfish  :

Deux nouveaux cas en Turquie du virus mortel de la grippe des oiseaux

L’organisme mondial de santé a communiqué aujourd’hui à Genève que deux enfants qui nosiley’ontaj en Turquie ils ont été attaqués par le cadre I5N1 mortel du virus de la grippe des oiseaux.

Représentant de l’organisme a déclaré que les enfants, de l’âge 5 et de 8 années, proviennent de la même région que les trois frères qui sont morts de la grippe des oiseaux cette la semaine.

Il est marqué que 32 individus nosiley’ontaj à hôpital de la ville Van grâce à des symptômes suspects, tandis qu’au moins cinq régions de la Turquie orientale ont été posées à quarantaine.


Cette traduction reflète parfaitement l’état de l’art dans le domaine : on comprend le thème général (la grippe aviaire en Turquie), et on peut même lister les faits principaux : deux enfants de 5 et 8 ans sont morts de la grippe aviaire en Turquie, 32 individus ont été hospitalisés avec des symptomes suspects, cinq régions sont en quarantaine, etc. Certaines des erreurs sont stupides : H5N1 est traduit par I5N1, νοσηλεύονται (hospitalisés) est absent du dictionnaire. On pourrait améliorer les choses à peu de frais.

Il est hors de question d’utiliser de telles traductions comme documents finaux, et je suis toujours très perplexe quand des étudiants (ou collègues !) m’annoncent fièrement qu’ils ont traduit automatiquement leur résumé en anglais pour une conférence ! Mais la traduction automatique a passé le cap qui lui permet d’être un véritable outil de déchiffrage, utile pour prendre connaissance rapidement du thème et du contenu global de pages en langues étrangères, dans des situations où il serait inconcevable de payer un traducteur. C’est la cas, par exemple, des spécialistes de veille économique, mais aussi de l’internaute lambda : alors que la grande majorité des documents du web sont écrits en anglais, moins de 30% des internautes sont anglophones (voir étude de Byte Level), et ce pourcentage ne cesse de décroître.

Il n’est donc pas étonnant que la plupart des moteurs de recherche offrent une fonction permettant de traduire les pages retournées. Mais dans un contexte où le marché potentiel est aussi considérable, il est par contre surprenant de voir à quel point l’offre est limitée : Google et Yahoo utilisent la même technologie, le système Systran, qui est aussi derrière Babelfish (Altavista). Le moteur français Voila utilisait au départ Reverso de Softissimo, mais s’est finalement mis aussi à Systran... Les portails comme AOL et Wanadoo le proposent aussi. Systran fait d’ailleurs désormais la plus grande partie de son chiffre d’affaire avec les opérateurs internet.

Dans ce contexte de systrannisation, Ask Jeeves surprend, puisque la firme a annoncé récemment son association avec Reverso [via DSI], disponible aussi sur la version beta francophone du moteur.

Alors, mauvais choix ? Pour en avoir le coeur net, nous avons demandé à 58 étudiants de première année de licence d’étudier la question. Le projet consistait à traduire un texte de leur choix, d’au moins 500 mots, de leur langue seconde vers leur langue maternelle (de façon à pouvoir juger correctement du résultat), à l’aide à la fois de Reverso et de Systran (site Babelfish). Chaque étudiant devait faire une étude détaillée des erreurs et de leurs causes probables (mot absent du dictionnaire, etc.) ; je vous passe les détails. La dernière question demandait à chacun de choisir parmi Reverso et Systran quel était le système qui fournissait la traduction la plus lisible.

Les résultats sont sans appel :

SourceCibleReversoSystran
AllemandFrançais20
AnglaisFrançais155
ItalienFrançais81
EspagnolFrançais206
FrançaisAnglais01
Total
4513

Quelle que soit la langue, la préférence va massivement à Reverso.


Alors... Ask Jeeves aurait-il eu du flair ? En tous cas, Systran, qui est en désamour avec sa "vache à lait" historique, la Commission européenne [voir Le Monde, Systran], a sans doute intérêt à serrer quelques boulons pour survivre dans le monde plus impitoyable des opérateurs Internet.

Merci à Estelle pour le dépouillement de l’enquête !


Moyenne des avis sur cet article :  4.67/5   (12 votes)




Réagissez à l'article

10 réactions à cet article    


  • Alexandre Santos (---.---.183.51) 10 janvier 2006 14:37

    Merci pour cet article très intéressant. Je vais essayer Reverso sur Ask Jeeves à l’avenir. Selon mon expérience personnelle, la lecture des pages en japonais restait très difficile, j’espère que les choses seront meilleures avec Reverso.


    • nico 10 janvier 2006 16:34

      Bonjour, j’en profite pour vous pointer un article récent, dans lequel un traducteur professionnel commence à craindre pour son activité : The Translator’s Blues.

      Aussi, en ce qui concerne les méthodes statistiques, il y a aussi cet article qui parle des recherche de Google en la matière et qui se serait lancé dans l’entreprise de mettre au point un traducteur. Celui-ci serait basé sur un apprentissage brut à partir des document s des Nations Unies. Mais ceci reste à l’état de rumeur.

      Désolé, pour ces sources en anglais. Pour vous assister au déchiffrage, pourquoi ne pas tester ça ? Même si la qualité ne prime pas sur l’ergonomie...


      • yaarg (---.---.28.58) 11 janvier 2006 00:19

        <>

        Je viens d’essayer Ajax, oui ergonomie sympa, simplissime, mais le résultat catastrophique ne mérite même pas qu’on y revienne.

        En revanche j’ai lu l’article sur le blues du traducteur et l’auteur s’arrête quand même avec admiration sur un certain « langage weaver » qui lui donne des résultats satisfaisant même si ça coince sur la traduction de Cervantès.

        malgré tout, je pense que traduire en anglais, pour une machine, est assez aisé, la grammaire anglaise étant rudimentaire. C’est dans le sens inverse, de l’anglais au français que c’est la Berezina... Il y a encore du progrès à faire...

        Quand je traduis, ça aide un peu pour le vocabulaire, mais rien ne vaut le travail à la main !


      • Christophe (---.---.58.18) 11 janvier 2006 01:28

        Le méthodologie de test d’un traducteur automatique, me semble-t-il, consiste à traduire un texte d’une langue d’origine vers une langue destination, puis de réaliser l’opération inverse.

        Par ailleurs, les traducteurs automatiques donnent toujours la primauté à la syntaxe.

        La plus grande complexité est bien entendu la prise en compte de la sémantique d’un texte source et d’en traduire le sens et non pas exclusivement les termes. C’est du moins ainsi que nous, humains, devons approcher la fonction de traduction.

        Si je ne m’abuse, ces systèmes à forte orientation syntaxiques ne savent pas traiter les phases syntaxiquement incorrectes ayant un sens (téléphone maison) mais elle traduisent les phrases syntaxiquement correctes mais n’ayant aucun sens (les eaux vertes dorment furieusement (Exemple de Chomsky))

        Qu’en est-il des enchassement de phrases, de l’autoréférencement, ... ?

        Comment traiter les synonymes et les homonymes, les allotaxies et les homotaxies ?

        Comment traduire l’implicite d’un texte qui dépend du sens général du discours ?

        Si nous appliquons un traducteur actuel à des textes spécialisés (par exemple des textes juridiques), retrouvons-nous la rigueur linguistique inhérente au domaine ?

        L’accès à des lexiques et les règles de transformation grammaticale reste dans le domaine du réalisable. Mais les outils de traduction automatiques auront fait un grand pas quand ils sauront traiter l’aspect sémantique du langage ; ce sont les motivations des grammaires systémiques (chaque terme est répertorié comme une unité de pensée) et de la grammaire universelle de Montagu.


        • Alexandre Santos (---.---.183.51) 11 janvier 2006 10:29

          Je pense qu’il faudrait séparer le problème de la traduction automatique en plusieurs niveaux de difficulté (ou applications), qui requièrent des compétences fort différentes de la part du système.

          1 - produire un texte imparfait mais capable d’informer le lecteur sur une bonne partie du contenu du texte.

          C’est l’exemple de l’article, et on y est déjà. Comme le dit l’article, cette fonctionnalité a déjà de nombreuses applications.

          2 - traduire un texte utilisant un champ sémantique contrôlé.

          Je pourrais imaginer un système de traduction spécialisé dans les textes de droit (et encore, dans un domaine précis), et où chaque terme/expression du texte est défini sémantiquement.

          Cela peut sembler possible, même si en pratique des textes techniques réels violeraient plus ou moins souvent les limites du champ sémantique.

          De plus, pour prendre l’exemple des textes juridiques, les textes ont parfois des significations différentes suivant les lecteurs (ou nous n’aurions pas de jurisprudence). Sans oublier que le processus de débat politique qui est à l’origine des textes de loi peut produire des textes ambigus dont même les humains seraient au défi de trouver une définition précise. On ne peut pas demander à un ordinateur de trouver du sens là où les humains sont en désaccord. Pourtant les ambiguités sont légion, même dans des textes techniques.

          Et puis je vois mal les législateurs (de pays multilingues, ou de l’UE) se conformer à champ sémantique sans ambiguités lors de la production des textes de loi dans l’intérêt de la traduction automatique (même si idéalment les textes de droit sont sensés être précis et sans ambiguités).

          3 - Traduire n’importe quel texte

          Cet objectif me semble extrêmement difficile. Il faudrait que l’ordinateur déploye une vraie intelligence artificielle (qu’il comprenne le sens du texte, alors que parfois même l’auteur ne le connaît pas !). Par exemple, il existe des termes, concepts qui existent dans les cultures utilisant une langue X, qui sont absents dans une langue Y. Est ce que le système de traduction doit être à même de créer un nouveau champ sémantique pour la langue Y ?

          Le problème de la traduction est qu’elle n’est pas un simple processus de transformation, mais aussi de création. Il faudrait donc donner une capacité de création au système, et qui prendrait la responsabilité/contrôle de ce processus créatif ?

          Bref, je ne pense pas que l’on pourra laisser (ou voudra laisser) un processus de traduction automatique produire le texte final de textes généraux. Par contre ça pourrait mieux marcher pour des textes techniques. Même dans ce cas le système de traduction automatique ne pourra être qu’une aide aux traducteurs. Ceux-ci feraient de la traduction d’une partie des textes, qui seraient utilisés par le système comme champ sémantique de référence, pour permettre la traduction semi automatique du reste du corpus. Le système de traduction pourrait alors peut être réduire les coûts en main d’oeuvre (moins de traducteurs), et les traducteurs deviendraient des « ingénieurs du champ sémantique ».

          Bref, je pense qu’il est plus utile d’avoir des objectifs précis plutôt qu’un objectif général de « traduction parfaite de tout texte ».

          En tout cas, le problème de la traduction automatique a l’avantage d’apprendre de façon plus précise et objective le fonctionnement du language, un des outils les plus fondamentaux de notre pensée.


        • Christophe (---.---.223.140) 11 janvier 2006 12:55

          Bref, je pense qu’il est plus utile d’avoir des objectifs précis plutôt qu’un objectif général de « traduction parfaite de tout texte ».

          Nous sommes d’accord sur ce point ; actuellement l’objectif de la recherche est d’obtenir une bonne traduction de tous les textes d’un domaine.

          Il est nécessaire, pour atteindre cet objectif, d’oeuvrer dans un contexte fédérant plusieurs sciences : Anthropologie, linguisitique, psychologie, psycho-linguisitique, neurosciences, ... que l’on appelle les sciences cognitives.

          Il faut donc modéliser (sous forme mathématique) les mécanismes humains complexes tels que : la transcription des unités de pensée en situation (concept - percept) réalisée par le locuteur (ou écrivain), l’interprétation de l’interlocuteur (ou lecteur), mais aussi tenir compte des différentes entités d’un texte (le terme, la phrase, le paragraphe, le texte) qui permettra de réduire le niveau d’ambiguité mais aussi de tenir compte de l’implicite (ce qui n’est pas exprimé mais connu du locuteur et de l’interlocuteur), et bien d’autres problématiques qui, de nos jours restent à résoudre.

          Cela reste un domaine vaste et complexe, même sans tenir compte des phénomènes émotionnels qui peuvent s’insérer et influencer le sens d’un discours.

          Même pour le premier cas cité, une simple traduction terminologique, si vous faite l’opération de traduction dans un sens puis dans l’autre, retrouve-t-on le sens du texte d’origine ... à chaque fois.

          Il ne faut pas oublier que l’informatique ne comprend que des propriétés mathématiques ; donc pour tout formalisme mathématique, à partir d’une donnée d’origine, si vous réalisez une opération puis son inverse, vous retrouvez toujours la donnée d’origine.

          Ne pas retrouver, en traduction automatique, le discours d’origine après une opération et son inverse ne fait que mettre en évidence le niveau de précision du système.


        • (---.---.59.104) 11 janvier 2006 08:44

          Une parente, traductrice professionnelle dans des domaines techniques, utilise un logiciel pour réaliser son 1er jet de traduction.


          • Christophe (---.---.58.18) 11 janvier 2006 23:33

            Systrans, dans sa version exploitable et mis en service pour les besoins de la commission européenne fonctionnait ainsi. Je l’ai vu fonctionner il y a deux ans (il a dû évoluer depuis), mais il fonctionnait comme vous le précisez.

            En fait il possède un lexique pour faire une traduction littérale du texte. Le traducteur (humain) réalise une seconde passe pour réellement traduire le texte. Cependant, lors de cette seconde passe, le traducteur humain introduit, dans une base de données (et non une base de connaissances) des correspondances syntaxiques à un terme ou une suite de termes. Ainsi, la traduction suivante tiendra compte des informations stockées dans la base de données des traductions précédentes. C’est donc un système de capitalisation de l’expérience de traduction.

            En fait, ces systèmes ont un certain niveau de pertinence pour les industriels d’un domaine. Que la traduction soit réalisée au sein de leurs services ou externalisés, toutes les traductions seront homogènes par simple transfert des bases de données entre les différents intervenants traduisant les textes.


          • Sman (---.---.79.192) 12 janvier 2006 23:56

            Je donne un autre site qui, à defaut de bien traduire, traduit dans 24 langues. C’est InterTran, il a cet avantage par rapports aux autres traducteurs sités plus haut. A tester !


            • Jean-Pierre Taillefumire (---.---.255.102) 5 mars 2006 08:32

              traduttore traditore disent nos amis italiens ; Tout traducteur trahit. Une langue c’est extraordinairement complexe ;d’autant plus qu’il existe plusieurs niveaux. on ne se comprend pas toujours entre interlocuteurs d’une même langue, alors.

              je note une chose : histoire religion et philosophie ne font pas partie des spécialités ou des domaines pris en compte par ces logiciels de traduction automatique.

              ensuite primo : je crois effectivement qu’il ne faut attendre qu’une aide de la part de ces logiciels, du type premier jet, le document final devant être revu et corrigé par un être humain.

              Secundo : la bonne idée ce serait peut être un programme interactif, capable de dialoguer avec l’homme, de proposer des traductions mais de demander à chaque fois l’avis ou des, précisions de la part de l’être humain. et de mémoriser les réponses de l’être humain. ce serait fastidieux au début mais ça irait ensuite de plus en plus vite.

              A mon avis ça devrait être possible puisque ce logiciels utilisent déjà des textes dits « de traduction parfaite »

              ce qui manque c’est l’interactivité.

Ajouter une réaction

Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page

Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.


FAIRE UN DON







Palmarès