Modules mathématiques dans Python: statistiques

French (Français) translation by New Lune (you can also view the original English article)

L'analyse statistique des données nous aide à comprendre l'information dans son ensemble. Cela a des applications dans de nombreux domaines comme la biostatistique et l'analyse commerciale.

Au lieu de passer par des points de données individuels, un seul regard sur leur valeur moyenne collective ou leur variance peut révéler les tendances et les caractéristiques que nous aurions manquer en observant toutes les données en format brut. Cela rend également la comparaison entre deux grands ensembles de données plus facile et plus significative.

Compte tenu de ces besoins, Python nous a fourni le module de statistiques.

Dans ce tutoriel, vous apprendrez les différentes façons de calculer les moyennes et de mesurer la propagation d'un ensemble donné de données. Sauf indication contraire, toutes les fonctions de ce module supportent les int, les float, les decimal et les ensembles de données basés sur des fraction comme entrée.

Calcul du moyen

Vous pouvez utiliser la fonction mean(data) pour calculer la moyenne de certaines données. Elle est calculée en divisant la somme de tous les points de données par le nombre de points de données. Si les données sont vides, une erreur Statistique est générée. Voici quelques exemples:

import statistics
from fractions import Fraction as F
from decimal import Decimal as D

statistics.mean([11, 2, 13, 14, 44])
# returns 16.8

statistics.mean([F(8, 10), F(11, 20), F(2, 5), F(28, 5)])
# returns Fraction(147, 80)

statistics.mean([D("1.5"), D("5.75"), D("10.625"), D("2.375")])
# returns Decimal('5.0625')

Vous avez appris beaucoup de fonctions pour générer des nombres aléatoires dans notre dernier tutoriel. Utilisons-les maintenant pour générer nos données et voir si la moyenne finale est égale à ce que nous attendons.

import random
import statistics

data_points = [ random.randint(1, 100) for x in range(1,1001) ]
statistics.mean(data_points)
# returns 50.618

data_points = [ random.triangular(1, 100, 80) for x in range(1,1001) ]
statistics.mean(data_points)
# returns 59.93292281437689

Avec la fonction randint(), on s'attend à ce que la moyenne soit proche du point médian des deux extrêmes, et avec la distribution triangulaire, il est supposé être proche de low + high + mode / 3. Par conséquent, la moyenne dans le premier et le deuxième cas devraient être respectivement de 50 et 60.33, ce qui est proche de ce que nous avons réellement obtenu.

Calcul du mode

La moyenne est un bon indicateur de la moyenne, mais quelques valeurs extrêmes peuvent entraîner une moyenne qui est loin de l'emplacement central actuel. Dans certains cas, il est plus souhaitable de déterminer le point de données le plus fréquent dans un ensemble de données. La fonction mode() renvoie le point de données le plus courant à partir de données numériques discrètes et non numériques. C'est la seule fonction statistique qui peut être utilisée avec des données non numériques.

import random
import statistics

data_points = [ random.randint(1, 100) for x in range(1,1001) ]
statistics.mode(data_points)
# returns 94

data_points = [ random.randint(1, 100) for x in range(1,1001) ]
statistics.mode(data_points)
# returns 49

data_points = [ random.randint(1, 100) for x in range(1,1001) ]
statistics.mode(data_points)
# returns 32

mode(["cat", "dog", "dog", "cat", "monkey", "monkey", "dog"])
# returns 'dog'

Le mode d'entiers générés au hasard dans une plage donnée peut être l'un de ces nombres car la fréquence d'occurrence de chaque nombre est imprévisible. Les trois exemples de l'extrait de code ci-dessus prouvent ce point. Le dernier exemple nous montre comment on peut calculer le mode de données non numériques.

Calcul de la médiane

S'appuyer sur le mode pour calculer une valeur centrale peut être un peu trompeur. Comme nous venons de voir dans la section précédente, ce sera toujours le point de données le plus populaire, indépendamment de toutes les autres valeurs dans l'ensemble de données. Une autre façon de déterminer un emplacement central est d'utiliser la fonction median(). Il renverra la valeur médiane des données numériques données en calculant la moyenne de deux points intermédiaires si nécessaire. Si le nombre de points de données est impair, il renvoie le point central. Si le nombre de points de données est pair, il renvoie la moyenne de deux valeurs médianes.

Le problème avec la fonction median() est que la valeur finale peut ne pas être un point de données réel lorsque le nombre de points de données est égal. Dans de tels cas, vous pouvez utiliser median_low() ou median_high() pour calculer la médiane. Avec un nombre pair de points de données, ces fonctions renverront respectivement la valeur plus petite et plus grande des deux points intermédiaires.

import random
import statistics

data_points = [ random.randint(1, 100) for x in range(1,50) ]
statistics.median(data_points)
# returns 53

data_points = [ random.randint(1, 100) for x in range(1,51) ]
statistics.median(data_points)
# returns 51.0

data_points = [ random.randint(1, 100) for x in range(1,51) ]
statistics.median(data_points)
# returns 49.0

data_points = [ random.randint(1, 100) for x in range(1,51) ]
statistics.median_low(data_points)
# returns 50

statistics.median_high(data_points)
# returns 52

statistics.median(data_points)
# returns 51.0

Dans le dernier cas, la médiane basse et haute était de 50 et 52. Cela signifie qu'il n'y avait pas de point de données avec la valeur 51 dans notre ensemble de données, mais la fonction median() a toujours calculé la médiane à 51.0.

Mesurer la diffusion des données

Déterminer combien les points de données s'écartent de la valeur typique ou moyenne de l'ensemble de données est tout aussi important que le calcul de la valeur centrale ou moyenne elle-même. Le module de statistiques comporte quatre fonctions différentes pour nous aider à calculer cette diffusion des données.

Vous pouvez utiliser la fonction pvariance(data, mu=None) pour calculer la variance de population d'un ensemble de données donné.

Le second argument dans ce cas est facultatif. La valeur de mu, lorsqu'elle est fournie, doit être égale à la moyenne des données données. La moyenne est calculée automatiquement si la valeur est manquante. Cette fonction est utile lorsque vous souhaitez calculer la variance d'une population entière. Si vos données ne sont qu'un échantillon de la population, vous pouvez utiliser la fonction de variance(data, xBar=None) pour calculer la variance de l'échantillon. Ici, xBar est la moyenne de l'échantillon donné et est calculé automatiquement s'il n'est pas fourni.

Pour calculer la définition standard de la population et l'écart type de l'échantillon, vous pouvez utiliser les fonctions pstdev(data, mu=None) et stdev(data, xBar=None) respectivement.

import statistics
from fractions import Fraction as F

data = [1, 2, 3, 4, 5, 6, 7, 8, 9]

statistics.pvariance(data)     # returns 6.666666666666667
statistics.pstdev(data)        # returns 2.581988897471611
statistics.variance(data)      # returns 7.5
statistics.stdev(data)         # returns 2.7386127875258306

more_data = [3, 4, 5, 5, 5, 5, 5, 6, 6]

statistics.pvariance(more_data)   # returns 0.7654320987654322
statistics.pstdev(more_data)      # returns 0.8748897637790901

some_fractions = [F(5, 6), F(2, 3), F(11, 12)]
statistics.variance(some_fractions)
# returns Fraction(7, 432)


Comme il ressort de l'exemple ci-dessus, une plus petite variance implique que plus de points de données sont plus proches de la moyenne. Vous pouvez également calculer l'écart type des décimales et des fractions.

Dernières pensées

Dans ce dernier tutoriel de la série, nous avons appris différentes fonctions disponibles dans le module statistique. Vous avez peut-être observé que les données fournies aux fonctions ont été classées dans la plupart des cas, mais cela ne doit pas être nécessaire. J'ai utilisé des listes triées dans ce tutoriel, car elles permettent de mieux comprendre comment la valeur renvoyée par différentes fonctions est liée aux données d'entrée.