3
Medidas de Dispersão
Você já viu como funciona uma disputa de tiro ao alvo? Todos os competidores miram ao centro, mas na maioria das vezes acertam regiões vizinhas. O centro até pode resumir a região onde as flechas atingiram, mas não diz muito sobre a variabilidade dos pontos atingidos, fazendo com que informações relevantes possam passar despercebidas.
A variância busca estimar a diferença entre os valores realizados e a média, para tanto são calculadas as diferenças entre os valores reais e a média. Acontece que como os resultados apresentam valores tanto acima como abaixo da média, a soma dos mesmos tende à média o que inviabiliza a compreensão da variabilidade. Para aliminar o risco da “soma zero” a solução adotada é adotar o calculo do quadrado das diferenças, onde todas as diferenças são elevadas ao quadrado, tornando-as positivas e divididas pelo núnero de dados menos 1. A custo disso é a mudança de escala, pois a variância é pedida a partir do quadrado da diferença, o que agera a perda de referência em relação à escala observada.
library(foreign)
acidentes = read.dbf("data/acidentes.dbf")
var(acidentes$FERIDOS)
## [1] 0.481047
table(acidentes$DIA_SEM)
##
## DOMINGO QUARTA-FEIRA QUINTA-FEIRA SABADO SEGUNDA-FEIRA
## 591 1323 1332 850 1237
## SEXTA-FEIRA TERCA-FEIRA
## 1317 1228
var(table(acidentes$DIA_SEM))
## [1] 83808.29
var(acidentes$DIA)
## [1] 73.59216
Sabendo que a variância é um produto quadrático das diferenças, a solução é transformar os valores da variância em valores compatíveis com os valores do mundo das coisas. Para realizar tal tarefa é calculado o desvio padrão, qua nada mais é do que a raiz quadrada da variância
sd(acidentes$FERIDOS)
## [1] 0.6935755
sd(table(acidentes$DIA_SEM))
## [1] 289.4966
sd(acidentes$DIA)
## [1] 8.578588
Quando os dados abservados são obtidos por amostragem o desvio padrão tende a apresentar desvio abaixo do desvio populacional, para corrigir tal comportamento, o desvio padrão amostral é obtido multiplicando o desvio padrão ára raiz quadrada de (n-1)/n, sendo n o tamanho da amostra
sd(acidentes$FERIDOS) * ( length(acidentes$FERIDOS-1)/length(acidentes$FERIDOS) )
## [1] 0.6935755
sd(table(acidentes$DIA_SEM)) * ((7-1)/7 )
## [1] 248.1399
sd(acidentes$DIA) * ( length(acidentes$DIA-1)/length(acidentes$DIA) )
## [1] 8.578588