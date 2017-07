L’article précédent a montré les difficultés de l’interprétation des résultats statistiques obtenus par des méthodes simples. J’aborde ici des méthodes plus compliquées à mettre en œuvre et dont les résultats sont d’autant plus difficiles à interpréter scientifiquement. Dans un troisième article, j’aborderai les illusions du « big data », et donnerai une bibliographie.

La corrélation

Le coefficient de corrélation sert à évaluer la relation entre deux variables quantitatives, par exemple le poids et la taille d’un ensemble de personnes. Il est compris entre -1 et 1, et est d’autant plus proche de ces valeurs que la liaison est forte. Toutes les calculatrices scientifiques offrent un programme de calcul de ce coefficient couramment utilisé et dont l’interprétation est une source d’erreurs fréquentes. La liste ci-dessous n’est évidemment pas complète :

1. La première est de considérer qu’une forte corrélation met en évidence une relation causale. Cette erreur montre en fait l’illusion créée par les chiffres. Elle est de la même nature que celle qui consiste à considérer qu'une inégalité statistique montre une injustice sociale.

2. La seconde concerne l’évaluation du coefficient : la procédure consiste à comparer la valeur observée à une valeur théorique obtenue en supposant qu’il n’existe pas de relation entre les deux variables, que les données sont tirées au hasard dans une population homogène et qu’elles sont réparties selon la loi binormale. Lorsque ces conditions ne sont pas vérifiées, au moins à peu près, la comparaison n’a pas de sens.

3. La troisième consiste à considérer qu’il n’existe pas de relation si le coefficient est proche de 0. C’est faux : c’est seulement la proximité des points avec une droite – la relation linéaire – que ce coefficient mesure. Il peut exister une relation exacte et non linéaire entre deux variables dont le coefficient de corrélation est égal à 0.

4. La quatrième est la transitivité de la corrélation. Le fait que le poids soit lié à la taille et la taille à la pointure n’implique nécessairement que le poids et la pointure soient liés. La transitivité de la corrélation existe, mais s’exprime sous la forme d’un intervalle de variation à l’intérieur duquel le dernier coefficient de corrélation peut varier, et dont les bornes dépendent des autres. Le calcul est compliqué.

5. Pour expliquer la cinquième, je vais donner un exemple (les chiffres ne sont pas réels, mais j’ai trouvé cette erreur dans des études officielles de l’éducation nationale) : le coefficient de corrélation entre les notes de français et de mathématiques en classe de 4e est significatif et égal à 0,6 en 1980 et en 1990. La moyenne des notes de mathématiques a augmenté en 1990 par rapport à celle de 1980. En déduire que celle de français a aussi augmenté est faux. La variation des moyennes n’a aucun rapport avec le coefficient de corrélation.

Modèles multidimensionnels

Dans la plupart des analyses, plusieurs variables sont observées sur chaque individu de l’échantillon. Les données sont alors qualifiées de « multidimensionnelles ». Le scientifique dispose de plus d’informations mais est confronté à de nouvelles limites dans les méthodes d’analyse.

Supposons qu’on recueille les valeurs de vingt variables sur chaque individu de l’échantillon. Le nombre de coefficients de corrélations est alors de 190 (19 x 20 / 2). C’est en observant leurs valeurs que le scientifique détecte l’existence ou l’inexistence de liaisons.

Imaginons qu’il n’existe aucune liaison entre ces variables. La méthode statistique classique montrera quand même une liaison dans 5% des cas. Sur 190 coefficients de corrélation, elle fait apparaître une dizaine de liaisons qui n’existent pas dans la réalité.

Inversement, dans le cas général, certaines liaisons réelles échappent à l’analyse. On ne peut pas en connaître le nombre, mais on sait qu’il n’est pas négligeable.

En résumé, la méthode statistique détecte des liaisons linéaires qui existent réellement, mais aussi des liaisons qui n’existent pas, et ne détecte pas des liaisons qui existent. On ne sait pas a priori lesquelles. Cette difficulté est bien rarement connue. La solution réside dans l’étude approfondie des données par des méthodes relevant leur champ scientifique.

Le problème devient inextricable si on cherche à étudier la relation entre deux variables en fixant les valeurs d’autres variables. On compare par exemple les salaires des hommes et des femmes de même âge, de même niveau d’études, de même formation, etc. S’il y a dix critères dans l’enquête en plus du salaire, le nombre de tableaux regroupant des données dont les valeurs des autres variables sont les mêmes est considérable, plus de mille. La méthode classique ne fonctionne plus pour les raisons précédentes et parce que l’effectif dans un grand nombre de tableaux est insuffisant pour que les tests statistiques soient valides.

Dans cette situation, la solution proposée par les statisticiens est la modélisation. Cette dernière est la mise en équation du problème posé, et paraît résoudre les difficultés précédentes. En réalité, ce sont les hypothèses sur lesquelles elle est fondée qui les font plus ou moins disparaître.

Un modèle fréquent est le modèle linéaire : on suppose que les liaisons entre une variable particulière, par exemple le salaire, et les autres variables observées (sexe, âge, niveau d’étude, formation etc.) obéissent à une formule mathématique, que l’on peut contrôler et dont on peut interpréter les résultats. Mais ces hypothèses ne sont jamais vérifiées, parce que cela reviendrait à étudier les mille tableaux auxquels j’ai fait référence ci-dessus. Cela n’empêche pas l’intérêt de cette modélisation : la simplification permet de mieux appréhender la réalité observée, mais l’erreur courante est d’accorder beaucoup trop de confiance aux résultats de cette modélisation qui ne peut être que très approximative.

L’hypothèse « toutes choses égales par ailleurs »

Les salaires des femmes sont inférieurs à ceux des hommes. C’est incontestable. Cette inégalité numérique est présentée généralement comme révélatrice d’une injustice sociale. Pour justifier cette interprétation, les sociologues raisonnent « toutes choses égales par ailleurs. » C’est une hypothèse classique, contestée depuis longtemps (1932 !), mais utilisée très couramment parce qu’elle facilite les interprétations.

Le salaire ne dépend pas que du sexe, mais aussi de l’âge, du niveau d’études, de la fonction dans l’entreprise, de la quantité de travail, du lieu géographique, de la situation matrimoniale, du nombre d’enfants, de la situation du conjoint etc. Pour établir cette injustice sociale, il faut comparer les salaires d’un homme et d’une femme en supposant que tous les autres paramètres sont les mêmes : c’est l’hypothèse « toutes choses égales par ailleurs ».

Cette hypothèse n’est jamais vérifiée. L’histoire personnelle de deux individus, qu’ils soient de même sexe ou non, n’est jamais la même. En outre, comme je l’explique dans le paragraphe précédent, il est impossible de tenir compte de tous les facteurs qui interviennent dans le salaire à l’aide d’analyses simples. On procède donc par modélisation en tenant compte de tous les facteurs intervenant dans le salaire, définissant les « profils ». On analyse les résultats « toutes choses égales par ailleurs » pour montrer l’inégalité des salaires entre hommes et femmes de mêmes profils, et l'injustice sociale à l’égard des femmes.

La contestation de cette conclusion est inaudible, parce qu’elle correspond à une idéologie enracinée dans la mentalité de la population. Il est très vraisemblable qu’un autre modèle aboutirait une autre conclusion : par exemple, les petits gagnent moins que les grands « toutes choses égales par ailleurs ». Vat-on en déduire une injustice sociale à l’égard des petits ? D’ailleurs les femmes sont souvent plus petites que les hommes, et le choix du sexe et non de la taille est de nature idéologique. Toutes ces interprétations nécessitent beaucoup de prudence.

La différence de salaires entre hommes et femmes peut aussi s’expliquer par l’impossibilité de l’hypothèse « toutes choses égales par ailleurs ». L’explication est alors la suivante : la loi garantissant la liberté et l’égalité en droit, si les salaires des hommes et des femmes ne sont pas les mêmes, c’est parce que leurs choix de vie sont différents et que cela n’a été pris en compte dans les profils.

Ajoutons que cette hypothèse est contradictoire avec l’injustice supposée à l’égard des femmes : les situations des conjoints d’une femme et d’un homme ne peuvent être égales, puisqu’ils sont de sexes opposés, et la condition « toutes choses égales par ailleurs » est impossible.

Sciences sociales et démarche scientifique

Cette hypothèse copie la démarche scientifique suivie dans les sciences de la matière : les résultats d’une expérience de physique ou de chimie ne sont validés que si d’autres expériences identiques, menées par d’autres expérimentateurs et réalisées « dans les mêmes conditions de température et de pression », ont donné les mêmes résultats. On ne peut pas recommencer une expérience menée dans sur des hommes, et l’hypothèse « toutes choses égales par ailleurs » n’est jamais vérifiée. La scientificité des sciences sociales n’est pas comparable à celles des sciences de la matière. C’est la neutralité axiologique du scientifique qui assure cette scientificité, et non les conditions de l'expérimentation.

Méfions-nous des interprétations qui satisfont l’intuition, les idées a priori. Elles rendent très difficile la neutralité axiologique et renforcent des convictions idéologiques. La tentation est grande de justifier une position idéologique à l’aide de chiffres, au lieu de déduire des chiffres une explication des faits observés.