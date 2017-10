Quiconque s'est déjà informé à différentes sources d'informations se sera rendu compte d'un traitement différentiel. Mais pas seulement vis-à-vis de la différence des sujets abordés. Car les médias mainstream et alternatifs partagent aussi des thématiques. Difficile alors d'avoir une analyse objective. Car qui a le temps et la possibilité de vérifier aux sources ? Et dès lors, comment dire d'un média qu'il est engagé dans telle voie ou telle autre, d'autant quand l'affectif - la convergence vers sa propre vision du monde - emmêle l'argumentaire. L'important est donc de pouvoir montrer, de façon rationnelle, les lignes de force qui sous-tendent les discours. Voici un petit exemple.

Feu Jean Véronis, professeur de linguistique et d'informatique, était très apprécié pour sa contribution sur internet, en œuvrant en ce sens sous le quiquennat de Mr Sarkozy. La piste fut ouverte, et je crois qu'il est temps de reprendre ce flambeau. Bien sûr ce n'est pas moi qui peut le porter comme un seul, mais j'aimerais apporter ici ma contribution et, pourquoi pas, rappeler un temps que nous disposons d'outils puissants pour faire face au côté obscur de la communication.

J'ai choisi un thème simple : Mr Mélenchon dans le discours médiatique de la version électronique du journal Le Monde. Parce que s'y manifeste, je crois, au moins trois éléments très contrastés : celui d'un mainstream cultivé et dominant, celui de l'opposition politique représentée par la FI, et celui de la communication sur internet (lieu de diffusion orienté vers une classe démographique plutôt jeune).

Technique et méthodologie

La technique utilisée est simple et à portée. Il s'agit d'abord d'extraire un corpus d'articles. Bien que pour l'usage habituel je conseille d'autres moteurs de recherche, Google va un peu nous aider par une technique, appelée dork, qui permet de filtrer les résultats plus finement qu'on ne le fait habituellement.

Par exemple, la recherche effectuée sera, pour ne chercher que sur le site du journal Le Monde : "inurl :www.lemonde.fr Mélenchon". Les paramètres de recherche vous permettront de choisir une période dans le temps. Bien sûr, les pages affichées telles quelles ne seront pas directement exploitables par une analyse algorithmique. Pour cela, il faudra faire un peu de code : récupérer les liens seulement, télécharger les contenus, convertir les textes du HTML à un format brut, et extraire les articles en filtrant les données annexes.

Google connaît parfaitement la possibilité d'exploiter les résultats, et aurait tendance, on le sait moins, à bloquer tout ce qu'il ne maîtrise pas. La technologie du XXIème siècle est avant tout économique. Pour détourner cette mauvaise manie, je vous conseille pour vos scripts de récupération d'utiliser un proxy - et d'y aller mollo (pour info une dizaine de requêtes automatiques et rapprochées dans le temps peuvent conduire Google à vous bloquer).

Voici par exemple un outil qui permet, en ligne de commande sous Linux, d'extraire très simplement les 99 premières URL d'une page de résultats Google :

$ googler "Mélenchon" -p <UN PROXY> -w www.lemonde.fr —np -t m1 -s 1 -n 99 —json | grep url | tr -s '\t' ' ' | cut -d' :' -f2-3 | tr -d ' ' | tr -d '"'

Une fois les contenus récupérés à partir des URL et transformés dans un format exploitable, on les injectera simplement dans un logiciel. Et là encore, je dis un grand merci au freeware, qui met à dispo des milliers d'outils, gratuitement et en toute légalité. Une question en passant : que se passerait-il selon vous si la technologie était la seule propriété des riches et des puissants ?

Vous trouverez une liste de ces outils ici. Beaucoup sont issus de travaux universitaires, et fonctionnent sous Windows et Linux.

______________________________________________________________

Démarche

J'ai extrait, en quelques minutes, un corpus de 100 textes, soit 52930 mots (environ 200 pages) écrits sur le site du monde.fr de fin avril 2017 à aujourd'hui (21 octobre 2017). L'outil d'analyse utilisé est Tropes (1), qui fonctionne parfaitement sous Linux avec wine.

Il ne m'a pas été possible de faire tourner le beau iramuteq sur ma config actuelle, qui date de Mathusalem. Tropes est un peu ancien, mais correspond bien à mon besoin.

Je précise en effet qu'il n'était pas question pour moi d'analyser très finement, en croisant des outils et en analysant les résultats avec une méthodologie pointue. Les résultats que je présente ici sont le fait d'une démarche qui a l'avantage de pouvoir être comprise largement. L'idée n'était pas d'extraire des statistiques qui nécessitent une expertise pour être interprétées, mais des lignes de forces sous-tendant le discours. En d'autres termes les indicateurs majoritaires, clairs, simples, reproductibles et objectifs.

______________________________________________________________

Résultats généraux

Je présente ici les premiers résultats, d'ordres généraux, calculés sur l'ensemble des articles de la période mentionnée. Les phrases entre guillemets que j'emploie sont les appréciations que fournissent les auteurs du logiciel quant aux résultats, ou les éléments directement produits par cet outil.

Sur l'ensemble du corpus, le logiciel souligne :

- un style argumentatif : "le sujet s’engage, argumente, explique ou critique pour essayer de persuader l’interlocuteur". Premier élément, le logiciel n'a pas caractérisé le style comme étant "narratif", c'est-à-dire quand l'auteur "expose une succession d’événements, qui se déroulent à un moment donné, en un certain lieu".

- une mise en scène "prise en charge par le narrateur". C'est-à-dire une situation stylistique qui permet "de réaliser une déclaration sur un état, une action, ...". Cela reste conforme au type de récit journalistique.

- des univers de référence : il s'agit d'un ensemble de mots (des classes) caractérisant le sens du corpus. On obtient les trois tendances suivantes :

- majoritairement "politique" (poids 1671) : curieusement, la fréquence de ce thème augmente l'été dernier (+75%), avant d'arriver au niveau plus faible de mai-juin en septembre-octobre. La rentrée politique ne semble pas avoir influencée la rédaction sur ce thème concernant Mr Mélenchon. Tout du moins peut-on dire que la rentrée sociale n'a pas été identifiée dans les textes comme "politique" vis-à-vis de Mr Mélenchon par le logiciel.

- en second, le "temps" (poids 1099) : ce sont en fait les références temporelles qui se montrent, dans le journal Le Monde en ligne, plus dépendantes de la rentrée politique. La référence au temps est ici souvent une référence au calendrier, un ton de neutralité donc.

- en troisième, la "France" (poids 860) : champ sémantique global et d'autorité.

Fait général très intéressant sur le corpus concernant le classement suivant des univers de références spécifiques à Mr Mélenchon : "groupe social" (poids 309), "conflit" (poids 301), "communication" (276), "droit" (187, 9 fois moins que "politique") , "ville", "média", "finance", "sentiment", "supériorité", "gens", "comportement", "commerce". On ne retrouve clairement les thèmes du programme et le discours de la France insoumise que beaucoup plus bas dans le classement des fréquences : impôt (26 fois moins que "politique"), éducation (idem), santé (38 fois moins), homme, femme... et encore au plus bas du classement, et de manière quasi anecdotique sous la plume des journalistes concernant Mr Mélenchon : paix (100 fois moins que "politique"), et à la même échelle, vie, environnement, économie, culture, nature, désespoir, favoritisme, inquiétude, crise, inégalité, ONU, vision, machine-outil, industrie, retraite, ...

Petit point théorique très important. Les auteurs du logiciel précisent que ces classes ne font pas l'objet d'un tri a priori, mais qu'elles sont déduites du texte sans présupposé hiérarchique. Autrement dit quand on parle de Mr Mélenchon, les éléments concrets de politique sont très pauvres dans les articles du journal cité. Concernant Mr Mélenchon, on parlera par exemple volontiers de "politique", mais on classera "l'écologie", "l'éducation" ou la "santé" comme des sous-ensembles minoritaires, et on ne dira pas que la "crise" des "inégalités" concerne la France avant toute autre considération.

On voit dès cette première analyse globale du corpus, et de manière objective, calculatoire, que tous les éléments du langage de politique concrète tenus par Mr Mélenchon sont statistiquement amoindris par un facteur d'au moins 100.

______________________________________________________________

Relations

L'élément en relation le plus fort (66%) dans le corpus concerne Mr Mélenchon lui-même. Autrement dit c'est la personne dont on parle le plus à son sujet. Les références de l'ordre du "succès", de la "campagne", du "rassemblement", de la "FI", ou encore plus rare dans le discours, du "programme", sont beaucoup plus éloignés à son sujet que celles de "leader", "Emmanuel Macron" ou "Marine Le Pen". Cet éloignement statistique est suffisamment important pour indiquer que les journalistes utilisent un angle de personnification lié à ces deux personnalités politiques (relations majoritaires). A noter également que les références "Candidat" ou "Bouche-du-Rhône" sont aussi fréquemment employées que la référence au Front National.

Les liens entre Mr Mélenchon et le Front National sont assez fréquents. Les épisodes autour de Mr Mélenchon et de Mr Macron s'articulent autour des références "France", "Parlement", "Marine Le Pen". Bien que cette dernière soit statistiquement liée aux références "candidat", "police" et "vote" dans les textes, elle est la personnalité la plus présente dans les relations sémantiques avec Mr Mélenchon au journal lemonde.fr, les autres personnalités politiques étant indéniablement écartées, y compris ceux de la FI.

A ce sujet la référence "rapport de force" n'est pas jugée significative dans les textes par le logiciel... On trouvera à la place "doctrine sociale", dans le haut du classement des références utilisées.

______________________________________________________________

Quelques épisodes

Les épisodes sont, selon les auteurs du logiciel, des "grands blocs d’argumentation, représentatifs de la structure du discours observé".

On trouve d'abord l'épisode indiqué en priorité par le logiciel : l'épisode "Cédric Villani". Un pur buzz ! Les caractéristiques générales déjà remarquées (globalité et neutralité) se retrouvent dans cet épisode avec les références "parlement", "député", "France" et une référence temporelle (juin), toutes d'égales fréquences. Le vocabulaire utilisé dans les articles se rapprochant le plus de celui de Mr Mélenchon concernant cet épisode, à savoir seulement "ordonnance", "contrat de travail", "gens", se retrouvent en bas du classement des fréquences (10%). Est jugé comme inutile par le logiciel la référence "histoire sociale". Fait explicatif, une majorité des citations est liée à Mr Villani et au Front National.

Les épisodes sur les syndicats sont assez pauvres. Le vocabulaire temporel y est quatre fois plus présent que celui relatif au droit du travail. Les épisodes sur les "mobilisations" utilisent cependant un champ lexical représentatif ("législation", "ordonnance", "classe sociale", "projet de loi", "droit du travail"), mais non majoritairement lié à la référence "syndicats". On pourrait dire que le journal Le Monde en ligne reconnaît les soucis des français mais sans les relier au monde syndical quand il y a des manifestations.

Le logiciel montre sur les épisodes que lorsqu'on parle du "leader" Mélenchon, on fait à 81% référence à la France, le mouvement des "Insoumis" étant statistiquement faible dans cette association, c'est-à-dire jugé non significatif par l'outil dans les textes. Élément intéressant, la référence "Insoumis" peut être, selon les épisodes, à égalité de fréquence avec Mr Poutou, Lutte Ouvrière, Mme Arthaud (autrement dit les plus petites minorités politiques), et bien entendu, le Front National.

Épisode isolé mais assez particulier aussi, la référence "mensonge" n'est associé qu'à Mr Mélenchon, avec le champs sémantique du "calcul", de la "malhonnêteté", du "procès" et de la "frontière". Autre curiosité (plutôt rigolote), une forte relation entre "vote" et "bouteille" (30% de corrélation), avec, toujours, le "Front National" proche.

Un rapide tour d'horizon sur les références à Mr Fillon et Mr Hamon montre, dans le cadre de la cible Mélenchon, une analyse plutôt conforme à ce qui pourrait être attendu, avec des liens au socialisme et aux personnalités de la droite.

Je n'ai bien sûr pas le temps nécessaire pour tout explorer (et n'ai pas utilisé toutes les fonctions du logiciel) et bien des surprises restent cachées dans les chiffres. Le temps de finir cet article et je découvrais par exemple l'association faite dans un épisode entre "anti-fascisme", "obsession" et "anarchie", alors que "haine" est associée à "fascisme" dans un autre. Il serait très intéressant d'ajouter à tout cela une analyse temporelle contextualisée.

______________________________________________________________

Conclusion

Pour rappel, les éléments donnés sont extraits de la totalité des articles (le corpus, de la taille d'un roman) concernant Mr Mélenchon. En cela les données et les relations entre les champs sémantiques sont significatives au niveau de l'esprit d'ensemble. Ces données seraient différentes, moins visibles car plus disjointes, si on faisait une analyse article par article.

Autre point, il est important de comprendre que les traits relevés ici sont de l'ordre des associations sémantiques. Ce n'est pas tout à fait la même chose que l'on peut entendre d'un propos tenu, même si c'est ce qu'on fait de mieux pour le formaliser. Cela a ses inconvénients, mais aussi ses avantages.

De nombreuses autres données sont fournies par le logiciel Tropes, ainsi que de nombreux autres épisodes. Je n'ai voulu fournir que quelques traits majoritaires marquants.

Les éléments généraux sont assez alarmants pour un media qui fait de l'information politique : les thèmes de politique concrète sont en fait largement sous-employés au profit de catégories générales de fait plus creuses. D'autre part les traits majoritaires montrent un éloignement certain d'une rédaction objective, dont se réclame pourtant la profession, du moins dans le mainstream.

Le logiciel utilisé n'est pas une IA : il n'indique pas de stratégie dans le corpus, mais les éléments soulignés sont compatibles avec une analyse de ce type. J'ai retrouvé bien souvent les mêmes constantes : un emploi fréquent de la globalité (référence nationale) et de la neutralité (temporalité), surplombantes à vrai dire, une sous-représentation importante des thèmes de politique concrète de la FI, une fréquence assez faible d'associations de Mr Mélenchon avec la FI (hormis durant la période d'élection), une association rare entre "FI" et "mouvement" (au profit des références "gauchisme" et "insurgés"), un lien statistique fort et exclusif avec Mr Macron et Mme Le Pen, l'extrême rareté dans les statistiques des soutiens et des députés de la France insoumise, le tout sous la forme d'une absence à peu près totale des points programmatiques de la FI dans le journal Le Monde en ligne.

Merci pour votre lecture !

___

(1) Tropes est un logiciel développé par Pierre Molette et Agnès Landré sur la base des travaux de Rodolphe Ghiglione (http://www.tropes.fr/)