• vendredi 25 mai 2012
  • Agoravox France Agoravox Italia Agoravox TV Naturavox
  • Agoravox en page d'accueil
  • Newsletter
  • Contact
AgoraVox le média citoyen
La fondation Agoravox
  Accueil du site > Actualités > Politique > L’arbre des candidats
11%
D'accord avec l'article ?
 
89%
(149 votes) Votez cet article
  • Faire un don
  • Imprimer cet article
  • Marquer et partager

L’arbre des candidats

Vous aviez aimé cet automne mon arbre des politiques, basé sur la proximité qu’ils entretenaient dans les articles de presse (voir ici et ici). Depuis, quelques feuilles sont tombées... Mais ceux qui restent ont beaucoup parlé. Voici donc l’arbre des candidats, basé non plus cette fois sur les citations dans la presse, mais sur l’analyse lexicale de leurs discours (vous noterez que certains candidats sont absents, car je n’arrive pas à avoir leurs discours).


Les proximités dans l’arbre reflètent la plus ou moins grande similitude du vocabulaire utilisé par les différents candidats. On note que Voynet et Le Pen apparaissent sur des branches isolées : leur discours, chacun dans son genre, ne ressemble vraiment à aucun autre... Buffet et Laguiller sont proches : ce n’est sans doute pas étonnant. Sarkozy, Royal et Bayrou apparaissent sur la même branche, mais les plus proches l’un de l’autre sont Royal et Bayou. Intéressant, n’est-ce pas ? Et sans doute à mettre en relation avec les récents appels de Rocard, Kouchner et d’autres à une reconfiguration du paysage politique français...
*
* *

Un peu de technique, pour vous expliquer comment l’arbre a été obtenu. Pour chaque paire de discours, j’ai calculé une distance, appelée distance intertextuelle, qui reflète la proximité de vocabulaire entre les deux textes. Il y a de multiples façons de calculer une distance lexicale entre deux textes  : si vous êtes intéressé par plus de détails, vous pourrez consulter avec profit le numéro 3 de la revue Corpus (en ligne) entièrement consacré au sujet. En ce qui me concerne, comme j’ai toujours pour principe d’essayer les choses les plus simples avant de passer aux choses compliquées, j’utilise la distance proposée par mon collègue et ami Etienne Brunet (voir article ici).

Prenons deux textes A et B. On fait la liste des mots de A, celle des mots de B. Il y a des mots qui sont communs et des mots qui n’appartiennent qu’à l’un ou à l’autre des deux textes (son vocabulaire exclusif) :



Le rapport entre le taille du vocabulaire exclusif de chaque texte à celle de son vocabulaire total, ( A - AB ) / A par exemple, donne une bonne idée de la spécificité lexicale du texte. Ce rapport est égal à 0 si tout le vocabulaire de A est inclus dans B, et à 1 s’il est complètement disjoint de B. Si on fait la même chose du côté de A et du côté de B, on obtient la distance suivante (je divise par 2 juste pour avoir un indice entre 0 et 1 ) :
d = ( (A-AB)/A + (B-AB)/B ) / 2

Par exemple, entre le discours de Nicolas Sarkozy à la porte de Versailles le 11 janvier et celui de Ségolène Royal à Villepin le 11 février, on trouve une distance de 0,62. Il suffit de faire la moyenne entre toutes les paires de discours Royal/Sarkozy, et on obtient une distance moyenne Royal/Sarkozy de 0,66. En faisant ça pour tous les candidats, on obtient une « matrice de distances », qu’on peut ensuite transformer en arbre avec des méthodes analogues à celles qu’utilisent les biologistes pour représenter les parentés entre organismes vivants à partir des séquences d’ADN (arbre phylogénétique) (mais qui ont été proposées depuis bien longtemps en analyse lexicométrique, voir référence ci-dessous). J’utilise à nouveau la méthode de classification UPGMA et le logiciel SplitsTree (voir ici).

Pour en savoir plus

  • Étienne Brunet, « Peut-on mesurer la distance entre deux textes ? », Corpus, Numéro 2, La distance intertextuelle - décembre 2003, mis en ligne le 15 décembre 2004 : http://corpus.revues.org/document30.html
  • Barthélémy J.-P. & Luong X. (1987). « Sur la topologie d’un arbre phylogénétique : aspects théoriques, algorithmes et applications à l’analyse des données textuelles », Mathématiques et Sciences humaines, 100 : 57-80.
  • Numéro spécial de la revue Corpus. La distance intertextuelle. En ligne : http://corpus.revues.org/sommaire52.html

Jean Véronis - Technologies du Langage

par Jean Véronis (son site) jeudi 19 avril 2007 - 16 réactions
11%
D'accord avec l'article ?
 
89%
(149 votes) Votez cet article

2 moyens pour donner

Don défiscalisé 10€ ou plus

Obtenez une réduction fiscale de 66% avec un e-reçu. Un don de 10 € ne vous coûte que 3€40.

Grâce à votre aide, AgoraVox peut continuer à publier plus de 1000 articles par mois. En donnant à la Fondation AgoraVox, vous offrez un soutien à la liberté d'expression et d'information.

Les réactions les plus appréciées

  • Par Bernard Dugué (xxx.xxx.xxx.219) 19 avril 2007 10:20
    Bernard Dugué

    Bonjour Jean,

    Quid de la signification par-delà l’analyse formelle ?

    J’ose une interprétation mais c’est un peu facile. A gauche, Sarkozy (qui aurait pu être mis à droite, car votre arbre peur être renversé par symétrie sans perdre son sens), le candidat des riches, des parvenus, puis, Bayrou et Royal pour un discours vers les classes moyennes, à droite, Buffet et Laguillers parlent aux prolétaires

    En bas, Voynet parle aux Verts et beaucoup moins aux électeurs, c’est normal que son discours soit lexicalement différent, comme celui de Le Pen, très singulier, puisqu’il s’adresse à une France qui existe pour une bonne part dans un lieu imaginaire

  • Par Jean Véronis (xxx.xxx.xxx.136) 19 avril 2007 11:09
    Jean Véronis

    C’est vrai, la gauche et la droite n’ont pas de signification particulière dans ce genre de figure. Seule la position relative des branches en a une.

    L’intérêt des méthodes quantitatives est de nous donner des photographies d’une situation. Ici, des parentés plus ou moins grandes entre les vocabulaires des candidats. Après, commence la question de l’interprétation. Les vôtres me paraissent assez raisonnables.

    Je crois que l’arbre permet aussi d’exclure certaines idés reçues. Buffet est plus proche de Laguiller dans son vocabulaire que de Royal, même si dans la statégie électorale actuelle, c’est l’inverse... On voit aussi que Bayrou, que la gauche a intérêt à présenter désespérément comme "de droite" a un vocabulaire plus proche de Royal que de Sarkozy...

  • Par Bernard Dugué (xxx.xxx.xxx.219) 19 avril 2007 10:21
    Bernard Dugué

    Une précision, il faut ajouter les parvenants au public visé par le discours de Sarkozy, ceux qui actifs, veulent et ci et ça et plus

  • Par jako (xxx.xxx.xxx.70) 19 avril 2007 10:35
    jako

    Bonjour C’est très interessant cette méthode merci de nous en faire part.

Réactions à cet article

Ajouter une réaction

Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page

Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.


Faites un don

Les thématiques de l'article

Palmarès

Agoravox utilise les technologies du logiciel libre : SPIP, Apache, Debian, PHP, Mysql, FckEditor.


Site hébergé par la Fondation Agoravox