Comment les scientifiques utilisent les statistiques, les échantillons et les probabilités pour répondre aux questions de recherche

 |    |  Imprimer cet article

Ce texte de Jessica Sendef et Arryn Robins publié dans Frontiers for Young Minds en septembre 2019, a été traduit de l’anglais par S.Desmidt, Marie Palu et G. Dehaene-Lambertz.

Résumé
Des études montrent ,en moyenne, qu’une personne pose environ 20 questions par jour ! Bien sûr, certaines de ces questions peuvent être simples, comme demander à votre professeur si vous pouvez aller aux toilettes, mais d’autres peuvent être plus complexes et plus difficiles à trouver une réponse. C’est là que les statistiques sont utiles ! Les statistiques nous permettent de tirer des conclusions à partir d’un ensemble de données et sont souvent appelées la « science des données ». Elles peuvent également aider les gens de tous les secteurs d’activité à répondre à leurs questions de recherche ou d’affaires, et peuvent aider à prédire les résultats, par exemple quelle émission vous voudrez peut-être regarder ensuite sur votre application vidéo préférée. Pour les spécialistes des sciences sociales comme les psychologues, les statistiques sont un outil qui nous aide à analyser les données et à répondre à nos questions de recherche.


POSER DES QUESTIONS DE RECHERCHE

Les scientifiques posent toute une série de questions auxquelles les statistiques permettent de répondre. Par exemple, un psychologue de recherche pourrait s’intéresser à la manière dont les performances d’un test sont affectées par la quantité de sommeil que l’élève acquiert la veille du test. Les psychologues, les biologistes et de nombreux autres types de scientifiques sont intéressés par les réponses aux questions concernant une population ou un groupe d’individus. Par exemple, un biologiste peut être intéressé par l’étude d’un type spécifique d’oiseau en tant que population de recherche, un psychologue du développement peut être intéressé par la recherche sur les enfants âgés de 3 à 6 ans, ou un scientifique clinicien peut être intéressé par les patients atteints d’un certain type de maladie. Le type d’analyse statistique qui doit être effectué dépend de la question posée et des variables mesurées. Les variables sont des facteurs, des traits ou des conditions qui peuvent exister en différentes quantités ou types, comme la taille, l’âge ou la température.

Figure 1 – L’échantillonnage aléatoire est un moyen de choisir un échantillon de manière à ce qu’il représente précisément la population.
Dans l’échantillonnage aléatoire, chaque individu de la population a une chance égale d’être sélectionné pour l’échantillon. Dans cet exemple, chaque couleur de la population est également présente dans l’échantillon, et les proportions de chaque couleur sont également représentées dans l’échantillon.



L’ÉCHANTILLONNAGE D’UNE POPULATION

Lorsque nous répondons à nos questions de recherche, il n’est souvent pas possible de recueillir des informations auprès de tous les membres de la population qui nous intéressent. Par exemple, lorsque nous cherchons à savoir si le sommeil affecte les résultats des tests, il nous est impossible de recueillir des informations sur le sommeil et les résultats des tests de tous les élèves du monde ! C’est pourquoi nous recueillons des données auprès d’un échantillon d’individus qui représente au mieux la population. Il est important que les caractéristiques de notre échantillon soient similaires à celles de l’ensemble de la population. Les chercheurs en sciences sociales s’assurent que leurs échantillons ont des groupes d’âge ou des groupes ethniques similaires qui sont typiques de l’ensemble de la population. Si nous ne nous assurons pas que nos échantillons présentent le même type de caractéristiques que celles de l’ensemble de la population, il pourrait y avoir des problèmes pour répondre à nos questions de recherche (Figure 1).

Par exemple, disons qu’un vétérinaire est intéressé par le calcul du poids moyen de tous les chiens. Elle prélève un échantillon de cinq chiens à peser, trouve le poids moyen de son échantillon et conclut que le poids moyen de tous les chiens se situe entre 4,5 et 7 kg. Si vous êtes un amoureux des chiens, vous pouvez soupçonner que ce chiffre ne vous semble pas correct. Certains chiens sont assez gros, vous pouvez donc vous attendre à ce que la moyenne soit plus élevée. Et si le vétérinaire ne prélevait qu’un échantillon de chihuahuas ? Dans ce cas, on ne peut certainement pas dire que tous les chiens pèsent entre 4,5 et 7 kg ; l’échantillon ne contenait qu’une seule race et n’était pas représentatif de tous les types de chiens. Si la vétérinaire disposait d’un échantillon qui représentait mieux la population de tous les chiens, le poids moyen qu’elle a mesuré à partir de l’échantillon serait probablement très différent.

L’échantillonnage aléatoire est une méthode essentielle de sélection des individus qui feront partie d’un échantillon pour représenter au mieux une population. Les scientifiques utilisent l’échantillonnage aléatoire pour garantir que chaque individu de la population a une probabilité égale d’être sélectionné, et cela permet de s’assurer que l’échantillon est le plus similaire à la population globale.


L’ESTIMATION À PARTIR D’UN ÉCHANTILLON

Une fois que le scientifique a rassemblé l’échantillon, il ou elle peut vouloir tirer des conclusions sur cet échantillon et généraliser les résultats à l’ensemble de la population. Par exemple, un scientifique peut vouloir connaître le nombre moyen d’heures de sommeil des enfants de 12 ans chaque nuit, ou la taille moyenne des lycéens aux États-Unis. Afin d’estimer la valeur d’une variable dans une population (comme la taille moyenne), les scientifiques calculent une estimation ponctuelle à partir de l’échantillon. Une estimation ponctuelle est un nombre qui permet d’estimer la valeur réelle d’une variable dans une population, et souvent l’estimation ponctuelle est une moyenne. Par exemple, si nous voulons connaître le nombre moyen d’enfants par ménage dans la ville de Chicago, nous rassemblons un échantillon aléatoire de familles à Chicago et nous demandons à chaque famille combien d’enfants vivent dans leur maison. Ensuite, en utilisant ces informations, nous pourrions calculer le nombre moyen d’enfants de ces maisons pour obtenir notre estimation ponctuelle. Nous pouvons alors supposer que le nombre moyen d’enfants dans notre échantillon est très similaire au nombre moyen d’enfants dans tous les ménages de Chicago (figure 2).

Figure 2 – Plutôt que d’aller dans chaque maison de Chicago pour déterminer le nombre moyen d’enfants par foyer, les scientifiques peuvent prélever un échantillon. Ici, le nombre d’enfants de chaque foyer de l’échantillon a été recueilli et la moyenne de l’échantillon a été calculée. Le scientifique a constaté que Chicago a une moyenne de deux enfants par ménage, ce que l’on appelle l’estimation ponctuelle.


Les mesures et les méthodes d’échantillonnage ne peuvent jamais être exactes, c’est pourquoi les scientifiques utilisent souvent des intervalles de confiance autour d’estimations ponctuelles, pour montrer une gamme de valeurs qui contiennent probablement la vraie moyenne d’une variable dans la population. Pour calculer l’intervalle de confiance, le scientifique doit d’abord calculer la marge d’erreur. La marge d’erreur est une valeur calculée qui est ajoutée et soustraite d’une estimation ponctuelle. C’est une façon de représenter numériquement les erreurs de calcul ou les erreurs d’échantillonnage dans la population (par exemple, lorsqu’un échantillon n’est pas totalement représentatif de la population).

Entraînons-nous à calculer un intervalle de confiance ! Imaginons que nous prélevons un échantillon de 49 élèves pour une étude sur le sommeil, et que nous constatons que la durée moyenne du sommeil des élèves est de 10,5 heures (notre estimation ponctuelle).Ensuite, nous devons déterminer l’écart type, qui est la distance moyenne entre le point de données de chaque personne et la moyenne totale. Lorsque l’écart-type est faible, cela signifie que la plupart des données sont proches de la moyenne, et un grand écart-type signifie que les données sont plus étalées sur un plus grand nombre de valeurs. Dans notre échantillon, disons que l’écart-type est de 1,5 h. Nous devons alors calculer la marge d’erreur à l’aide de cette formule :

Dans cette formule, s représente l’écart-type (1,5 h) et n se réfère au nombre de points de données de notre échantillon (49 personnes). Nous remplaçons les symboles par leurs valeurs correspondantes et calculons que notre marge d’erreur est de 0,42 h de sommeil. Pour compléter les intervalles de confiance, nous ajoutons et soustrayons la marge d’erreur de notre estimation ponctuelle, pour obtenir les limites inférieure et supérieure de l’intervalle de confiance. Les psychologues utilisent généralement un intervalle de confiance de 95% pour calculer la marge d’erreur, ce qui signifie que nous pouvons être sûrs que, 95% du temps, notre intervalle de confiance contient la moyenne réelle de la population. Notre intervalle de confiance pour l’estimation ponctuelle dans notre exemple serait de 10,5 ± 0,42 h, ou 10,08 et 10,92. Cela signifie que, dans 95% des cas, le nombre d’heures de sommeil des étudiants dans la population globale se situe entre 10,08 et 10,92 h (figure 3).

Figure 3 – Les intervalles de confiance nous montrent une gamme de valeurs qui contiennent probablement la véritable valeur de population d’une variable. Cet exemple montre le nombre moyen d’heures de sommeil dans notre échantillon (10,5 h). La barre montre l’intervalle de confiance à 95% autour de la moyenne, avec 0,42 h de sommeil ajouté et soustrait de la moyenne pour donner la marge d’erreur. L’intervalle de confiance montre que la véritable moyenne d’heures de sommeil des étudiants dans la population globale se situe entre 10,08 et 10,92 h de sommeil.


Les scientifiques peuvent réduire la marge d’erreur de plusieurs façons pour rendre leur estimation de la population plus précise. L’une d’entre elles consiste à inclure davantage d’individus dans l’échantillon, de manière à ce que celui-ci soit plus représentatif de la population. Une autre façon de réduire la marge d’erreur est de s’assurer que la collecte des données est aussi exempte d’erreurs que possible afin de réduire la variabilité des données, par exemple en s’assurant que tous les outils de mesure (comme les échelles, les enquêtes, les règles, etc.) sont précis dans ce qu’ils mesurent. Plus l’échantillon représente précisément la population, en utilisant un échantillonnage aléatoire et de bonnes pratiques de collecte de données, plus la marge d’erreur est faible et plus l’intervalle de confiance sera précis pour estimer la valeur réelle de la population.


POSER DES QUESTIONS DE RECHERCHE PLUS COMPLEXES

Parfois, les scientifiques veulent aller au-delà de la description de simples calculs comme la taille moyenne ou l’âge de leurs populations, pour comprendre des aspects de leurs populations qui sont plus complexes. Disons que nous ne sommes pas seulement intéressés par la quantité de sommeil des étudiants, mais nous voulons aussi savoir de combien les résultats des tests vont baisser après avoir perdu quelques heures de sommeil. La taille de l’effet est une valeur qui permet d’estimer l’ampleur d’un phénomène, ou la mesure dans laquelle une variable (comme les heures de sommeil) influe sur une autre variable (comme les résultats des tests). Par exemple, si le fait de ne dormir que 3 h diminue de quelques points la note de votre test par rapport à 9 h de sommeil, vous ne « perdez pas de sommeil ». Bien qu’il y ait une différence dans le score, ce n’est pas une grande différence. Cependant, si après avoir perdu 6 h de sommeil, vous perdez beaucoup de points à un test, cela pourrait avoir un impact majeur sur votre note. Dans ce cas, vous conviendrez probablement que l’effet de la perte de sommeil sur vos notes est important.

Il existe différentes façons de calculer la taille de l’effet, selon la question de recherche et le type de statistiques utilisées par un scientifique. Une fois qu’un scientifique a calculé la taille de l’effet, il peut déterminer si l’effet est petit, moyen ou grand. La taille de l’effet permet au scientifique, ainsi qu’aux autres personnes qui examinent les résultats, de mieux comprendre les effets que certaines variables ont sur d’autres variables de la population.


CONCLUSIONS

Les scientifiques posent de nombreux types de questions, et les statistiques peuvent y répondre de nombreuses manières. Les exemples de statistiques dont nous avons parlé dans cet article sont des façons dont les spécialistes des sciences sociales peuvent répondre à des questions simples à partir d’échantillons. Mais les statistiques ne se limitent pas à un domaine ou à un secteur de la recherche scientifique. Les statistiques ont aidé les scientifiques à savoir si les médicaments sont susceptibles de guérir des maladies, et ont aidé les ingénieurs à comprendre la sécurité du véhicule dans lequel vous roulez. Cela ne s’arrête pas là ; il y a une infinité de questions auxquelles nous pouvons répondre grâce aux statistiques.


Glossaire

Population : Un groupe d’individus identifiés sur lequel les scientifiques veulent répondre à des questions.

Variable : Facteur, trait ou condition qui existe en différentes quantités ou types et qui est mesuré dans le cadre de la recherche.

Échantillonnage aléatoire : Une façon de sélectionner des individus dans une population qui garantit que chaque individu a une probabilité égale d’être sélectionné.

Estimation ponctuelle : Estimation d’une certaine valeur dans une population, telle qu’une moyenne.

Intervalles de confiance : Une gamme de valeurs autour d’estimations ponctuelles qui contiennent probablement la valeur réelle d’une variable dans la population.

Marge d’erreur : Une valeur calculée ajoutée et soustraite à une estimation ponctuelle, qui est prise en compte en cas d’erreur de calcul.

Écart-type : La distance moyenne entre chaque point de données et la moyenne totale.

Taille de l’effet : Indique la différence entre les moyennes des variables.

Participez avec votre enfant à nos études

Pour progresser, nous avons besoin de votre collaboration et beaucoup de parents accompagnés de leur enfant ont déjà participé à nos travaux depuis de nombreuses années. Si vous voulez participer à nos études, venez à Neurospin.
Le lien ci-dessous redirige vers le site du CEA

Participer
Share This