Advertisement
  1. Code
  2. Python

Módulos Matemáticos em Python: Estatística

by
Length:ShortLanguages:
This post is part of a series called Mathematical Modules in Python.
Mathematical Modules in Python: Decimal and Fractions
Mathematical Modules in Python: Statistics

Portuguese (Português) translation by Erick Patrick (you can also view the original English article)

Análise estatística de dados ajuda-nos a entender informações como um todo. Ela tem aplicação em vários ampos, de bioestatística a análise de negócios.

Ao invés de passar por cada ponto de dados, apenas uma olhada em seu valor médio ou variança coletiva pode revelar tendências e recurso que talvez deixamos passar ao observar os dados crus. Também facilita a comparação de dois conjuntos de dados grandes.

Tendo isso em mente, Python provê-nos o módulo statistics.

Nesse tutorial, aprenderemos sobre as diferentes formas de calcular médias e calcular a dispersão de um conjunto de dados. A menos que dito o contrário, todas as funções do módulo aceitam conjuntos de dados de entrada de tipos int, float, decimal e fraction.

Calculando a Média

Podemos usar mean(data) para calcular a média de algum conjunto. É calculada dividindo a soma de todos os valores pela quantidade deles. Se o conjunto é vazio, um erro StatisticsError será lançado. Eis alguns exemplos:

Aprendemos várias funções de geração de dados aleatórios no tutorial anterior. Usemo-nas para gerar nossos dados e ver se a média final bate com o que é esperado.

Com randint(), espera-se que a média esteja próxima ao meio de ambos extremos e em um distribuição triangular, espera-se que esteja perto de min + high + moda / 3. Assim, a média nos primeiro e segundo casos deve ser 50 e 60.33, respectivamente, o que é bem próximo do que obtemos.

Calculando a Moda

Média é um bom indicador de valor médio, mas alguns valores extremos podem resultar em uma média longe do valor central. Em alguns casos é desejável determinar o valor mais frequente num conjunto. mode() retornará o valor mais comum de um conjunto numérico discreto bem como dados não numéricos. Essa a única função estatística que pode ser usada com valores não numéricos.

A moda de inteiros gerados aleatoriamente pode ser qualquer número já que a frequência de cada valor é imprevisível. Os três exemplos acima provam isso. O último exemplo mostra como podemos calcular a moda de dados não numéricos.

Calculando a Mediana

Depender da moda para calcular o valor central pode ser um pouco ilusório. Como vimos na seção anterior, sempre será o valor mais popular, independente dos outros valores no conjunto. Outra forma de determinar o local central é usando median(). Ela retornará a mediana de um conjunto numérico ao calcular a média de dois pontos médios, se necessário. Se a quantidade de valores for ímpar, retornará o valor do meio. Se for par, retornará a média dos valores centrais.

O "problema" com a median() é que o valor final pode não ser um número do conjunto se a quantidade de dados for par. Nesses casos, podemo usar median_low() ou median_high() para calcular a mediana. Com um número ímpar de valores, essas funções retornará o menor e o maior valores entre os pontos centrais, respectivamente.

No último caso, o menor e maior médio eram 50 e 52. Isso significa que não havia valor de número 51 em nosso conjunto, mas a função median() ainda calculou a média 51.0

Calculando a Dispersão dos Dados

Determinar o quanto os valores desviam do valor típico ou mediando de um conjunto é tão importante quanto calcular o valor central ou médio em si. O módulo statistics tem quatro funções diferentes para nos ajudar a calcular a dispersão.

Podemos usar pvariance(data, mu=None) para calcular a variação da população de um conjunto.

O segundo argumento é opcional. O valor de mu, quando passado, deve ser igual à media do conjunto. A média é calculada automaticamente se não for passada. A função é útil quando queremos calcular a variação de uma população inteira. Se os dados são apenas uma amostra da população, podemos usar variance(data, xBar=None) para calcular variança de exemplo. xBar é a média do exemplo dado e é calculada automaticamente se não for passada.

Para calcular o desvio padrão e desvio padrão de amostra de população, podemo usar pstdev(data, mu=None) e stdev(data, xBar=None), respectivamente.

Como evidente no exemplo acima, varianças menores implicam que vários valores estão próximos da média. Também podemos calcular o desvio padrão de decimais e frações.

Ideias Finais

Nesse último tutorial desta série, aprendemos sobre diferentes funções disponíveis no módulo statistics. Talvez tenhamos percebido que os dados passados para a função estão ordenados na maioria das vezes, mas não é preciso. Usamos listas ordenadas no tutorial para facilitar o entendimento de como o valor retornado por funções diferentes se relacionam à entrada.

Advertisement
Advertisement
Advertisement
Advertisement
Looking for something to help kick start your next project?
Envato Market has a range of items for sale to help get you started.