• AgoraVox sur Twitter
  • RSS
  • Agoravox TV
  • Agoravox Mobile

Accueil du site > Actualités > Politique > L’arbre des candidats

L’arbre des candidats

Vous aviez aimé cet automne mon arbre des politiques, basé sur la proximité qu’ils entretenaient dans les articles de presse (voir ici et ici). Depuis, quelques feuilles sont tombées... Mais ceux qui restent ont beaucoup parlé. Voici donc l’arbre des candidats, basé non plus cette fois sur les citations dans la presse, mais sur l’analyse lexicale de leurs discours (vous noterez que certains candidats sont absents, car je n’arrive pas à avoir leurs discours).


Les proximités dans l’arbre reflètent la plus ou moins grande similitude du vocabulaire utilisé par les différents candidats. On note que Voynet et Le Pen apparaissent sur des branches isolées : leur discours, chacun dans son genre, ne ressemble vraiment à aucun autre... Buffet et Laguiller sont proches : ce n’est sans doute pas étonnant. Sarkozy, Royal et Bayrou apparaissent sur la même branche, mais les plus proches l’un de l’autre sont Royal et Bayou. Intéressant, n’est-ce pas ? Et sans doute à mettre en relation avec les récents appels de Rocard, Kouchner et d’autres à une reconfiguration du paysage politique français...
*
* *

Un peu de technique, pour vous expliquer comment l’arbre a été obtenu. Pour chaque paire de discours, j’ai calculé une distance, appelée distance intertextuelle, qui reflète la proximité de vocabulaire entre les deux textes. Il y a de multiples façons de calculer une distance lexicale entre deux textes  : si vous êtes intéressé par plus de détails, vous pourrez consulter avec profit le numéro 3 de la revue Corpus (en ligne) entièrement consacré au sujet. En ce qui me concerne, comme j’ai toujours pour principe d’essayer les choses les plus simples avant de passer aux choses compliquées, j’utilise la distance proposée par mon collègue et ami Etienne Brunet (voir article ici).

Prenons deux textes A et B. On fait la liste des mots de A, celle des mots de B. Il y a des mots qui sont communs et des mots qui n’appartiennent qu’à l’un ou à l’autre des deux textes (son vocabulaire exclusif) :



Le rapport entre le taille du vocabulaire exclusif de chaque texte à celle de son vocabulaire total, ( A - AB ) / A par exemple, donne une bonne idée de la spécificité lexicale du texte. Ce rapport est égal à 0 si tout le vocabulaire de A est inclus dans B, et à 1 s’il est complètement disjoint de B. Si on fait la même chose du côté de A et du côté de B, on obtient la distance suivante (je divise par 2 juste pour avoir un indice entre 0 et 1 ) :
d = ( (A-AB)/A + (B-AB)/B ) / 2

Par exemple, entre le discours de Nicolas Sarkozy à la porte de Versailles le 11 janvier et celui de Ségolène Royal à Villepin le 11 février, on trouve une distance de 0,62. Il suffit de faire la moyenne entre toutes les paires de discours Royal/Sarkozy, et on obtient une distance moyenne Royal/Sarkozy de 0,66. En faisant ça pour tous les candidats, on obtient une « matrice de distances », qu’on peut ensuite transformer en arbre avec des méthodes analogues à celles qu’utilisent les biologistes pour représenter les parentés entre organismes vivants à partir des séquences d’ADN (arbre phylogénétique) (mais qui ont été proposées depuis bien longtemps en analyse lexicométrique, voir référence ci-dessous). J’utilise à nouveau la méthode de classification UPGMA et le logiciel SplitsTree (voir ici).

Pour en savoir plus

  • Étienne Brunet, « Peut-on mesurer la distance entre deux textes ? », Corpus, Numéro 2, La distance intertextuelle - décembre 2003, mis en ligne le 15 décembre 2004 : http://corpus.revues.org/document30.html
  • Barthélémy J.-P. & Luong X. (1987). « Sur la topologie d’un arbre phylogénétique : aspects théoriques, algorithmes et applications à l’analyse des données textuelles », Mathématiques et Sciences humaines, 100 : 57-80.
  • Numéro spécial de la revue Corpus. La distance intertextuelle. En ligne : http://corpus.revues.org/sommaire52.html

Jean Véronis - Technologies du Langage


Moyenne des avis sur cet article :  4.6/5   (149 votes)




Réagissez à l'article

14 réactions à cet article    


  • Bernard Dugué Bernard Dugué 19 avril 2007 10:20

    Bonjour Jean,

    Quid de la signification par-delà l’analyse formelle ?

    J’ose une interprétation mais c’est un peu facile. A gauche, Sarkozy (qui aurait pu être mis à droite, car votre arbre peur être renversé par symétrie sans perdre son sens), le candidat des riches, des parvenus, puis, Bayrou et Royal pour un discours vers les classes moyennes, à droite, Buffet et Laguillers parlent aux prolétaires

    En bas, Voynet parle aux Verts et beaucoup moins aux électeurs, c’est normal que son discours soit lexicalement différent, comme celui de Le Pen, très singulier, puisqu’il s’adresse à une France qui existe pour une bonne part dans un lieu imaginaire


    • Bernard Dugué Bernard Dugué 19 avril 2007 10:21

      Une précision, il faut ajouter les parvenants au public visé par le discours de Sarkozy, ceux qui actifs, veulent et ci et ça et plus


    • Jean Véronis Jean Véronis 19 avril 2007 11:09

      C’est vrai, la gauche et la droite n’ont pas de signification particulière dans ce genre de figure. Seule la position relative des branches en a une.

      L’intérêt des méthodes quantitatives est de nous donner des photographies d’une situation. Ici, des parentés plus ou moins grandes entre les vocabulaires des candidats. Après, commence la question de l’interprétation. Les vôtres me paraissent assez raisonnables.

      Je crois que l’arbre permet aussi d’exclure certaines idés reçues. Buffet est plus proche de Laguiller dans son vocabulaire que de Royal, même si dans la statégie électorale actuelle, c’est l’inverse... On voit aussi que Bayrou, que la gauche a intérêt à présenter désespérément comme « de droite » a un vocabulaire plus proche de Royal que de Sarkozy...


    • nasko 19 avril 2007 11:30

      Allez lire l’article : « la sécurité des machine à voter n’est pas vérifiée : c’est prévu ». Puis lisez les commentaires. Ca peut valoir le coup.


    • Bulgroz 19 avril 2007 10:25

      Bien compliqué tout cela, bravo pour cet effort, quant à moi, je fais appel à mon subconscient pour m’y retrouver dans la jungle des professions de foi,

      vous aussi, interrogez votre subconscient à l’aide de ce test révolutionnaire ::

      http://207.234.225.64/test_subconscient.htm


      • jako jako 19 avril 2007 10:35

        Bonjour C’est très interessant cette méthode merci de nous en faire part.


        • aurelien 19 avril 2007 11:47

          « (vous noterez que certains candidats sont absents, car je n’arrive pas à avoir leurs discours). »

          C’est cela oui... smiley


          • jesuisunhommelibre jesuisunhommelibre 19 avril 2007 17:05

            Amusant et intéressant comme article.

            J’avais noté, de façon totalement subjective, en écoutant des deuxième couteaux, qu’on pouvait largement confondre le discours du parti des travailleur avec celui de de Villier. Même protectionnisme et repliement sur soi.

            Dommage que vous n’ayez pas pu faire ce travail sur leurs discours.


            • Senatus populusque (Courouve) Courouve 19 avril 2007 18:22

              « Peut-on mesurer la distance entre deux textes ? »

              Ce n’est pas « la » distance, mais une distance parmi d’autres possibles.

              Encore faudrait-il vérifier que cette « distance » vérifie les axiomes de la distance mathématique :

              d(x,x) = 0 : oui d(x,y) = d(y,x) : oui d(x,z) <= d(x,y) + d(y,z) : ??


              • Jean Véronis Jean Véronis 19 avril 2007 20:48

                Ce n’est pas une distance, mais une dissimilarité. Mais l’usage est établi dans la littérature d’appeler ça distance...


              • Senatus populusque (Courouve) Courouve 19 avril 2007 18:26

                Rectif : la propriété 2 n’est pas réalisée.


                • Senatus populusque (Courouve) Courouve 19 avril 2007 18:28

                  La troisième, d(x,z) inférieur ou égal à d(x,y) + d(y,x), non plus.


                • Jean Véronis Jean Véronis 19 avril 2007 20:49

                  Si. Seule l’inégalité triangulaire n’est pas vérifiée.


                • Blablabla 20 avril 2007 06:38

                  Je propose à l’auteur avant les frimats de rabattre la plante à l’amorce de la division, ce qui permettra au printemps suivant la pousse de nouveaux bourgeons juste au dessus du rameau Le Pen.

                  La couper plus haut fragiliserait la plante, déjà qu’elle n’est pas bien droite.

                  La rabattre en dessous de voynet interdirait tout nouvelle repousse, car c’est le premier bourgeon vert.

Ajouter une réaction

Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page

Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.


FAIRE UN DON








Les thématiques de l'article


Palmarès



Partenaires