L’arbre des candidats
Vous aviez aimé cet automne mon arbre des politiques, basé sur la proximité qu’ils entretenaient dans les articles de presse (voir ici et ici). Depuis, quelques feuilles sont tombées... Mais ceux qui restent ont beaucoup parlé. Voici donc l’arbre des candidats, basé non plus cette fois sur les citations dans la presse, mais sur l’analyse lexicale de leurs discours (vous noterez que certains candidats sont absents, car je n’arrive pas à avoir leurs discours).

* *
Un peu de technique, pour vous expliquer comment l’arbre a été obtenu. Pour chaque paire de discours, j’ai calculé une distance, appelée distance intertextuelle, qui reflète la proximité de vocabulaire entre les deux textes. Il y a de multiples façons de calculer une distance lexicale entre deux textes : si vous êtes intéressé par plus de détails, vous pourrez consulter avec profit le numéro 3 de la revue Corpus (en ligne) entièrement consacré au sujet. En ce qui me concerne, comme j’ai toujours pour principe d’essayer les choses les plus simples avant de passer aux choses compliquées, j’utilise la distance proposée par mon collègue et ami Etienne Brunet (voir article ici).
Prenons deux textes A et B. On fait la liste des mots de A, celle des mots de B. Il y a des mots qui sont communs et des mots qui n’appartiennent qu’à l’un ou à l’autre des deux textes (son vocabulaire exclusif) :

Le rapport entre le taille du vocabulaire exclusif de chaque texte à celle de son vocabulaire total, ( A - AB ) / A par exemple, donne une bonne idée de la spécificité lexicale du texte. Ce rapport est égal à 0 si tout le vocabulaire de A est inclus dans B, et à 1 s’il est complètement disjoint de B. Si on fait la même chose du côté de A et du côté de B, on obtient la distance suivante (je divise par 2 juste pour avoir un indice entre 0 et 1 ) :
Par exemple, entre le discours de Nicolas Sarkozy à la porte de Versailles le 11 janvier et celui de Ségolène Royal à Villepin le 11 février, on trouve une distance de 0,62. Il suffit de faire la moyenne entre toutes les paires de discours Royal/Sarkozy, et on obtient une distance moyenne Royal/Sarkozy de 0,66. En faisant ça pour tous les candidats, on obtient une « matrice de distances », qu’on peut ensuite transformer en arbre avec des méthodes analogues à celles qu’utilisent les biologistes pour représenter les parentés entre organismes vivants à partir des séquences d’ADN (arbre phylogénétique) (mais qui ont été proposées depuis bien longtemps en analyse lexicométrique, voir référence ci-dessous). J’utilise à nouveau la méthode de classification UPGMA et le logiciel SplitsTree (voir ici).
Pour en savoir plus
- Étienne Brunet, « Peut-on mesurer la distance entre deux textes ? », Corpus, Numéro 2, La distance intertextuelle - décembre 2003, mis en ligne le 15 décembre 2004 : http://corpus.revues.org/document30.html
- Barthélémy J.-P. & Luong X. (1987). « Sur la topologie d’un arbre phylogénétique : aspects théoriques, algorithmes et applications à l’analyse des données textuelles », Mathématiques et Sciences humaines, 100 : 57-80.
- Numéro spécial de la revue Corpus. La distance intertextuelle. En ligne : http://corpus.revues.org/sommaire52.html
Jean Véronis - Technologies du Langage
14 réactions à cet article
Ajouter une réaction
Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page
Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.
FAIRE UN DON