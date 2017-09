Les deux articles précédents sur l'interprétation statistique ont montré les limites des méthodes classiques. En 1965, de nouvelles méthodes sont apparues sous le nom d’analyse des données. Elles consistent à étudier ce que l’on appelle maintenant les big data. L’illusion scientiste, qui transpose sans précaution les méthodes des sciences de la matière dans les sciences sociales, a été renforcée par ces nouvelles méthodes, et est à la source d’un grand nombre d’erreurs méthodologiques et d’interprétations erronées.

La révolution numérique ne date pas des nouvelles technologies de communication. Elle est née dans les années 1960 du développement de l’informatique. Évidemment, à l’époque, les ordinateurs étaient beaucoup moins puissants qu’actuellement, mais pouvaient déjà effectuer des calculs impossibles à faire la main.

Cette nouvelle puissance de calcul a donc permis d’analyser des données bien plus nombreuses qu’auparavant. Dès l’obstacle numérique résolu, on a utilisée l’analyse factorielle, développée par Spearman et Hotelling au début du XXe siècle et appliquée alors à un petit nombre d’observations, pour traiter des données beaucoup plus nombreuses et de façon beaucoup plus rapide. En 1980, un collègue m’a demandé de l’aider à dépouiller une enquête constituée d’une cinquantaine de questions effectuée auprès de 250 personnes et à en effectuer l’analyse des correspondances. Je lui ai communiqué les résultats dans l’heure qui a suivi. Je me souviens de la surprise d’un autre (et de son directeur de thèse), lorsqu’en l’espace d’un quart d’heure, je lui ai donné les équations de 50 droites de régression calculées chacune sur une centaine d’observations.

De nouvelles méthodes informatiques sont apparues : elles utilisent des algorithmes pour regrouper les observations et nécessitent des ordinateurs de plus en plus puissants.

Les conséquences de cette évolution sont évidentes :

C’est tout d’abord la difficulté de choisir la bonne méthode, c’est-à-dire celle qui va donner les résultats que l’on cherche et qui correspond à la nature des données.

C’est ensuite la difficulté d’interpréter correctement les résultats. La facilité avec laquelle on obtient des résultats cache la complexité des méthodes employées.

La méthode d’observation est elle-même biaisée : un échantillon n’est représentatif que pour quelques critères. C’est une image faussée que l’on observe, et augmenter indéfiniment la taille de l’échantillon, c’est le rapprocher plus de cette image faussée que de la réalité.

La puissance des méthodes est avérée. Un exemple surprenant est la détection d’une supercherie en littérature au 17e siècle : c’est par une analyse statistique qu’on a pu confirmer l’hypothèse de Pierre Louÿs, à savoir que Corneille était l’auteur réel de certaines pièces signées de Molière.

Le danger est de se laisser aveugler par cette puissance, de ramener la réalité à la quantification, et d’ignorer les limites numériques et méthodologiques. Buffon, en 1730, écrit au mathématicien Cramer à propos de la quantification : « Un mathématicien dans son calcul, n'estime l'argent que par sa quantité, c'est-à-dire, par sa valeur numérique ; mais l'homme moral doit l'estimer autrement & uniquement par les avantages ou le plaisir qu'il peut procurer. » Les limites numériques sont montrées par le mathématicien Morgenstern dans un article de la revue La recherche : « il serait certainement injustifié de prétendre atteindre un haut degré de précision dans les données économiques ; on rencontre cependant cette prétention un peu partout, et elle est en particulier souvent revendiquée par les gouvernements qui ont la responsabilité de décisions économiques cruciales. » Enfin, un exemple d'erreur méthodologique est donné par le modèle actuel d'assurance qui consiste à estimer un paramètre statistique (le risque individuel) qui n'existe théoriquement pas (cf. l'article publié sur bastiat.net).

La question de la confiance que l’on peut accorder à des résultats numériques a une réponse claire : aucune s’il n’y a pas de contrôle méthodologique ni d’analyse non quantitative des données. Ces deux conditions sont souvent vérifiées dans les sciences de la matière. Mais dans les sciences sociales, y compris l’économie, la scientificité n’est pas la même et les enjeux politiques et financiers sont tels qu’il est bien naïf de le croire.

On a mis entre les mains des scientifiques un outil très puissant, mais qu’ils ne maîtrisent pas toujours, et dans certaines disciplines pas souvent. Les responsables politiques et sociaux, persuadés de l’efficacité de cet outil, jouent actuellement à l’apprenti sorcier. Ce sont les citoyens qui en sont les victimes.

Bibliographie

Généralités : Foucart T., 2017, Un projet social-libéral pour la France, Libréchange, Nice.

Sur l’analyse des données : Foucart T., 1997, Analyse des données mode d’emploi, Presses universitaires de Rennes.

Sur l’usage de la statistique dans les sciences sociales : http://www.dogma.lu/pdf/TF-mirage.pdf

Sur le calcul économique : Morgenstern O., 2000, L'économie est–elle une science exacte ?, La Recherche, n°99, p. 36.

Sur la quantification : Weil F., 1961, La correspondance Buffon-Cramer, Revue d'histoire des sciences et de leurs applications, Tome 14 n°2 p 97-136.

Sur le risque individuel : http://www.bastiat.net/fr/blog/article/assurances-mutualisation-et