• AgoraVox sur Twitter
  • RSS
  • Agoravox TV
  • Agoravox Mobile

Accueil du site > Actualités > Politique > Big data et analyse des données

Big data et analyse des données

Les deux articles précédents sur l'interprétation statistique ont montré les limites des méthodes classiques. En 1965, de nouvelles méthodes sont apparues sous le nom d’analyse des données. Elles consistent à étudier ce que l’on appelle maintenant les big data. L’illusion scientiste, qui transpose sans précaution les méthodes des sciences de la matière dans les sciences sociales, a été renforcée par ces nouvelles méthodes, et est à la source d’un grand nombre d’erreurs méthodologiques et d’interprétations erronées.

La révolution numérique ne date pas des nouvelles technologies de communication. Elle est née dans les années 1960 du développement de l’informatique. Évidemment, à l’époque, les ordinateurs étaient beaucoup moins puissants qu’actuellement, mais pouvaient déjà effectuer des calculs impossibles à faire la main.

Cette nouvelle puissance de calcul a donc permis d’analyser des données bien plus nombreuses qu’auparavant. Dès l’obstacle numérique résolu, on a utilisée l’analyse factorielle, développée par Spearman et Hotelling au début du XXe siècle et appliquée alors à un petit nombre d’observations, pour traiter des données beaucoup plus nombreuses et de façon beaucoup plus rapide. En 1980, un collègue m’a demandé de l’aider à dépouiller une enquête constituée d’une cinquantaine de questions effectuée auprès de 250 personnes et à en effectuer l’analyse des correspondances. Je lui ai communiqué les résultats dans l’heure qui a suivi. Je me souviens de la surprise d’un autre (et de son directeur de thèse), lorsqu’en l’espace d’un quart d’heure, je lui ai donné les équations de 50 droites de régression calculées chacune sur une centaine d’observations.

De nouvelles méthodes informatiques sont apparues : elles utilisent des algorithmes pour regrouper les observations et nécessitent des ordinateurs de plus en plus puissants.

Les conséquences de cette évolution sont évidentes :

  • C’est tout d’abord la difficulté de choisir la bonne méthode, c’est-à-dire celle qui va donner les résultats que l’on cherche et qui correspond à la nature des données. 
  • C’est ensuite la difficulté d’interpréter correctement les résultats. La facilité avec laquelle on obtient des résultats cache la complexité des méthodes employées.
  • La méthode d’observation est elle-même biaisée : un échantillon n’est représentatif que pour quelques critères. C’est une image faussée que l’on observe, et augmenter indéfiniment la taille de l’échantillon, c’est le rapprocher plus de cette image faussée que de la réalité.

La puissance des méthodes est avérée. Un exemple surprenant est la détection d’une supercherie en littérature au 17e siècle : c’est par une analyse statistique qu’on a pu confirmer l’hypothèse de Pierre Louÿs, à savoir que Corneille était l’auteur réel de certaines pièces signées de Molière.

Le danger est de se laisser aveugler par cette puissance, de ramener la réalité à la quantification, et d’ignorer les limites numériques et méthodologiques. Buffon, en 1730, écrit au mathématicien Cramer à propos de la quantification : « Un mathématicien dans son calcul, n'estime l'argent que par sa quantité, c'est-à-dire, par sa valeur numérique ; mais l'homme moral doit l'estimer autrement & uniquement par les avantages ou le plaisir qu'il peut procurer. » Les limites numériques sont montrées par le mathématicien Morgenstern dans un article de la revue La recherche : « il serait certainement injustifié de prétendre atteindre un haut degré de précision dans les données économiques ; on rencontre cependant cette prétention un peu partout, et elle est en particulier souvent revendiquée par les gouvernements qui ont la responsabilité de décisions économiques cruciales. » Enfin, un exemple d'erreur méthodologique est donné par le modèle actuel d'assurance qui consiste à estimer un paramètre statistique (le risque individuel) qui n'existe théoriquement pas (cf. l'article publié sur bastiat.net).

La question de la confiance que l’on peut accorder à des résultats numériques a une réponse claire : aucune s’il n’y a pas de contrôle méthodologique ni d’analyse non quantitative des données. Ces deux conditions sont souvent vérifiées dans les sciences de la matière. Mais dans les sciences sociales, y compris l’économie, la scientificité n’est pas la même et les enjeux politiques et financiers sont tels qu’il est bien naïf de le croire.

On a mis entre les mains des scientifiques un outil très puissant, mais qu’ils ne maîtrisent pas toujours, et dans certaines disciplines pas souvent. Les responsables politiques et sociaux, persuadés de l’efficacité de cet outil, jouent actuellement à l’apprenti sorcier. Ce sont les citoyens qui en sont les victimes. 

Bibliographie

Généralités : Foucart T., 2017, Un projet social-libéral pour la France, Libréchange, Nice.

Sur l’analyse des données : Foucart T., 1997, Analyse des données mode d’emploi, Presses universitaires de Rennes.

Sur l’usage de la statistique dans les sciences sociales : http://www.dogma.lu/pdf/TF-mirage.pdf

Sur le calcul économique : Morgenstern O., 2000, L'économie est–elle une science exacte ?, La Recherche, n°99, p. 36.

Sur la quantification : Weil F., 1961, La correspondance Buffon-Cramer, Revue d'histoire des sciences et de leurs applications, Tome 14 n°2 p 97-136.

Sur le risque individuel : http://www.bastiat.net/fr/blog/article/assurances-mutualisation-et

 


Moyenne des avis sur cet article :  4.67/5   (6 votes)




Réagissez à l'article

5 réactions à cet article    


  • sloop sloop 27 septembre 09:55

    Bonjour et merci pour l’article,

    Votre conclusion explique-t-elle le laxisme des autorités sur le « vol » de données à caractère personnel ?

    La financiarisation de nos vies privées n’est-elle pas un moyen de dissuasion — Non pas dans les termes d’un Palantir, mais plus dans les termes d’une STASI — sur ce que l’on croie avoir le droit de penser, dire ou entreprendre : un asservissement global conceptuel ?

    Les publications des résultats stigmatisant les comportements ne caractérisent-elles pas des croyances que l’on veut affermir ?

    La bouillie pour chats qui sort de ces ordinateurs n’a-t-elle pas reçu, par quelques ingrédients secrets de multinationales ajoutés à la recette, son agrément pour l’alimention humaine ?


    • sloop sloop 27 septembre 14:15

      @Shawford

      Je n’ai de joker, je ne vais pas téléphoner à un ami pour si peu…
      Je crois que je vais prendre le 5 contre 1.


    • ADEL 27 septembre 15:15

      Usage du Big data/intelligence artificielle et profil de personnalité

       

      Lanalyse de données a connu ces vingt dernières années un gap conceptuel, technologique et algorithmique que ne rebutent pas les données considérées comme qualitatives.

      Ainsi, toutes les données formelles et informelles, quantitatives et qualitatives, explicites et implicites et mêmes symboliques, internes et connexes et à adjacence congruente pour l’objet de la recherche, ayant immédiatement ou médiatement rapport à la nature et aux objectifs de la stratégie de recherche sur le sujet [ pensez entre autres données de sources classiques ou usuelles, sur les données générées dans les réseaux sociaux tous types et tailles confondus] sont, dans un premier temps, collectées, compilées et classées selon plusieurs paramètres et protocoles.
      Cette masse énorme de matière première de données stochastiquement ordonnées est prête maintenant pour recevoir le malaxage et ensuite la trituration, à l’image du process de fabrication de la farine dans une minoterie :
      __ Matière première principale, le blé tendre lavé et préparé pour entrée en process = Masse de données globalement ordonnées
      __ Produit fini, la farine = information pertinente
      __ Un sous-produit, le son=information secondaire
      __ Les déchets «  irrécupérables » : informations inutiles pour l’objet de la recherche
      A partir de là, s’enclenche un procédé d’imbrication et de croisement/recoupement au moyen d’une stratégie de combinaison associant productivement :
      __Algorithmique itérative dynamique et des heuristiques d’intelligence artificielle
      __Techniques, pratiques et procédés éprouvées de stratégies d’exploitation de données par le data mining,le data warehouse et le Big Data
      __ L’usage de langages de programmation forts agiles et à noyau computationnel puissant permettant la haute simulation, comme Python, ruby, R, etc. et des systèmes de gestion de bases de données compatibles Big data.
      Et la finalité de tout celà, c’est pour en en extraire le jus, c’est-à-dire des informations solides autant pertinentes que perspicaces sur le sujet de recherche.
      Et si ces informations-output concernent comme objet de recherche des personnes, elles peuvent leur renvoyer une image d’elles-mêmes qu’elles ne connaissaient pas et ne soupçonnaient même pas son existence.
      Faîtes alors un benchmarking entre les pratiques les plus up to date d’un système de curiosité maladive et de voyeurisme d’un facteur (ou groupe de facteurs) mégère indélicat d’un côté, et le système de traitement de données du groupement GAFA décrit plus haut, quant à l’importance des informations tirées des données brutes de chacun des 2 systèmes.


      • ADEL 27 septembre 18:08
        Errata sur post suivant :

        @ADEL 27 septembre 15:15

        §1 L1__ Au lieu de   gap lire saut

        • sloop sloop 27 septembre 18:40

          @ADEL

          Mais dans quel but ? Êtes-vous persuadés que vos agrégats de données synthétisants des notions qualitatives pensés à t₀ seront encore valables à t₁, t₂, t₃ lors de leur première utilisation et des suivantes ?

          Après le résultat, on le connait : c’est 42 ! C’est limite une blague, car avec les budgets cramés dans les outils cités, sur des facebookiens — déjà la gueule de l’échantillon — vos oracles interprèteront la donnée dans le sens qui leur a été demandé.

Ajouter une réaction

Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page

Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.


FAIRE UN DON








Les thématiques de l'article


Palmarès