COMO A MÉDIA PODE SER USADA CONTRA VOCÊ: Medidas descritivas resistentes e não resistentes
Como as medidas descritivas, quando usadas com pouco conhecimento, podem distorcer sua análise e como compreensão da resistência delas pode te ajudar!
Fala, pessoal! Retomando depois de muito tempo parado agora com um novo artigo voltando ao básico da estatística descritiva. A ideia desse artigo veio dá vontade de esclarecer alguns pontos importantes do básico da estatística que muitas vezes podem passar batido quando alguém procura rapidamente “o que é média?” ou talvez “o que é o desvio padrão?”, e não se atentam de como devem ser usadas e o mais importante, QUANDO!
Então, vamos começar! Vamos, primeiramente, falar sobre o que é uma medida resistente e o que não é uma medida resistente.
MEDIDAS RESISTENTES E NÃO RESISTENTES
Vamos começar tentando analisar a média e a mediana, sendo elas duas medidas descritivas de posição. Média aritmética (ou apenas média para os mais íntimos) é uma medida de posição que, tecnicamente falando, é a soma de todos os elementos numéricos de uma distribuição divida pelo número de elementos dessa distribuição. Ou seja, em forma matemática teríamos algo mais ou menos assim:
A mediana, por outro lado, é uma medida um pouco diferente. Primeiro, é necessário pegar todos os elementos de uma distribuição e organizá-los de forma crescente e então encontrar o valor central da distribuição, isso é a mediana. Exemplo, se tiver 9 números variados, vamos organizá-los de forma crescente e então achar o meio, que é o valor de posição 5. Por que? Bom, a mediana deve dividir metade dos dados para a direita e metade para esquerda, como temos 9 elementos, ela divide 4 para a direita e 4 para a esquerda. Quando tivermos distribuições com números de elementos pares, devemos encontrar a média de dois valores. Exemplo, caso tivéssemos 10 valores, se pegássemos o valor da posição 5 teríamos 4 para um lado e 5 para o outro, o que não condiz com a mediana e o mesmo vale para a posição 6. Logo, o que seria a mediana nesse caso? Seria a média dos valores da posição 5 e 6, criando um valor central que divide 5 valores à direita e 5 valores à esquerda.
Você leitor, antes de continuar o artigo, PARE E PENSE AGORA! qual entre as duas medidas é resistente e qual não é?
Bom, caso você tenha pensado que a média é a medida resistente da vez, você está enganado. Vamos para a explicação. Uma medida resistente é uma medida que tem pouca influência de valores absurdos, como exemplo, valores muito grandes.
Quer um exemplo? Vamos para a melhor analogia que você vai encontrar sobre isso! Imagine um bar onde estão sentados ao balcão 9 colaboradores da Microsoft sendo eles estagiários e analistas. O salários deles varia entre $2.200,00 e $3.800,00, vamos imaginar algo como o cenário abaixo:
Neste caso, a média e a mediana desse de salários neste balcão de bar é R$3.000,00. Porém, vamos dizer que o grandioso Satya Nadella, atual CEO da Microsoft, decide se juntar ao Happy Our e entra pela porta e senta no balcão ao lado dos analistas e estagiários que serão o futuro da companhia! Como fica agora nossa distribuição considerando que o salário de Satya Nadella (segundo algumas fontes da internet, pode conter erro, mas não muda nossa ilustração!) é de $2,5 Milhões? Nossa média salarial passa a ser de $457.000,00, porém nossa mediana salarial passa a ser de $3.200,00.
Logo, qual a medida mais resistente ao novo valor gigantesco dessa distribuição? Bom, é a MEDIANA! Sendo assim, acabamos de visualizar como a média é uma medida muito mais sensível à dados espúrios e a mediana muito mais resistente.
COMO A MÉDIA PODE SER USADA CONTRA VOCÊ
Agora que sabemos o que é uma medida estatística resistente e o que não é, vamos analisar como ela pode ser usada para distorcer ou enganar consumidores finais de informação que não compreendem todos os dados que estão por trás da análise. Vamos dizer que você esteja analisando a média salarial de várias cidades do seu estado de forma geral e encontra, por exemplo, que uma cidade remota no interior tem uma média salarial altíssima e você pode pensar “Hm…Essa deve ser uma ótima cidade para se trabalhar!”. O que você não esperava é que nessa cidade remota do interior tem uma universidade de ponta que movimenta o local e paga altos salários aos professores e isso faz com que a média salarial da população seja distorcida. Talvez a mediana seria uma medida melhor nesse caso? Olhando de forma geral a população sim!
Talvez possa surgir então a pergunta, “como vou saber que a média é uma boa medida para se usar? Quando é melhor usar a mediana?”. Bom, tudo depende de como você analisa seus dados. Se você tivesse analisado a média salarial das cidades filtrando por um cargo específico, talvez a média não seria tão ruim! Ou seja, você precisa conhecer o seu cenário para então decidir qual medida é melhor usar e até mesmo apresentar, pois foram feitas analogias e exemplos simples, mas isso pode afetar sua apresentação para um tomador de decisão caso esteja em uma posição de analista ou cientista de dados.
Eu particularmente gosto de usar a média e a mediana nas apresentações de uma certa análise de dados, porém, além delas, eu gosto de trazer informações de quartis, ou seja, gosto de informar também quartil da posição 1 e 3, ou até mesmo percentis de posição 80 e 90, que indicam até onde 80% e 90% dos nossos dados, respectivamente está contido. Essas medidas são resistentes a valores extremos e podem ser muito úteis, por exemplo, caso você esteja analisando a distribuição das compras na sua plataforma de e-commerce. Você pode indicar que 90% das suas compras que são feitas tem valor de até R$350,00 e isso pode levantar um questão da qual surja um insight ou uma tomada de decisão.
OUTRAS MEDIDAS RESISTENTES E NÃO RESISTENTES
Até o momento falamos de medidas mais interpretáveis, mas existem outras medidas que inclusive apresentam comportamentos de resistência e não resistência! Outro exemplo, seriam as medidas de dispersão, como desvio padrão, desvio médio e afins.
Essas medidas não irei desenvolver uma explicação de calculo e interpretação, mas vamos entender que elas dão o quão disperso estão nossos dados, ou seja, o quão homogêneo é nossa distribuição. Observando a formula do desvio médio e do desvio padrão é possível identificar o porquê de o desvio padrão ser uma medida de dispersão menos resistente do que o desvio médio. Caso não tenha sacado, eu te digo! É por causa da potência do desvio padrão, que cresce os valores das diferenças em comparação a média e os torna positivos. No caso do desvio médio apenas é tirado o valor absoluto da diferença, não envolvendo potência, ou seja, não cresce os valores.
Outra uma medida de dispersão mais resistente e robusta do que as mencionadas é a distância interquartil, usada para o desenvolvimento do boxplot. Essa medida é muito mais robusta pois ela surgi da diferença entre o 3º quartil e 1º quartil, que são medidas de posição similares a mediana, ou seja, são resistentes a grandes valores e por consequência geram uma diferença resistente.
CONCLUSÃO
Resumindo, caso estejamos muito acostumados com o uso de medidas descritivas ou até mesmo de dispersão, é importante entender elas de uma forma um pouco mais profunda, pois elas podem ser usadas CONTRA VOCÊ. É importante se atentar para a resistência das medidas e também ao contesto em que está inserida a sua análise de dados, pois, com apenas um filtro a média pode ser totalmente alterada.
Caso tenha alguma dúvida, sugestão ou curiosidade para descobrir mais sobre meu conteúdo, entre em contato pelas minhas redes!