Sondagens e Estudos de Opinião

Início » Estatística » Estatística Descritiva

Estatística Descritiva

*

ESTUDOS ELEITORAIS, COMPORTAMENTO ELEITORAL, SONDAGENS,  VOTO

A Estatística Descritiva permite-nos resumir, descrever e compreender os dados de uma distribuição usando medidas de tendência central (média, mediana e moda), medidas de dispersão (valores mínimo e máximo, desvio padrão e variância), percentis, quartis e decis, e  medidas de distribuição (achatamento e simetria da curva de distribuição).

Quando estamos perante muitos dados (o que acontece nas sondagens e estudos de opinião) é necessário tornar essa informação manejável para a podermos comparar e relacionar. A Estatística Descritiva é o instrumento que nos permite concentrar e reduzir essa informação. No entanto, como acontece sempre que se resume qualquer coisa, este processo implica também a perda de alguma informação. Todos nós já ouvimos a história em que uma pessoa comeu dois bifes e outra nenhum e em média cada um deles comeu um bife. A média diz-nos que havia um bife para cada pessoa mas não nos diz como é que os bifes foram distribuídos.

Este enviesamento introduzido pela redução da informação a um único número pode ser minimizado pela utilização de várias medidas que nos permitam cruzar informação e contrapor outras leituras dos nossos dados resumidos. Esta é uma das razões pelas quais os dados estatísticos que se apresentam em relatórios de investigação terem frequentemente duas ou mais medidas descritivas associadas. Por exemplo, o valor da Média (medida de tendência central) é frequentemente apresentado em associação com o valor do Desvio Padrão (medida de dispersão).

As medidas da Estatística Descritiva são também a base para a Estatística Inferencial (aquela que relaciona os dados da nossa distribuição). A Estatística Descritiva descreve a nossa amostra e a Estatística Inferencial permite-nos fazer extrapolações dos resultados obtidos na nossa amostra para a população, ou seja, permite-nos tirar conclusões, fazer estimativas, previsões e generalizações sobre todo um conjunto de dados estudando apenas parte dele.

*

O primeiro passo para o tratamento estatístico de dados é a sua organização numa base de dados. A base de dados é uma tabela de dupla entrada em que habitualmente as colunas são usadas para colocar os dados referentes às variáveis e as linhas para identificar os sujeitos. Na célula formada pela intercepção das linhas com as colunas coloca-se o valor da variável correspondente ao sujeito.  Se, por exemplo, estivermos a organizar dados referentes às notas de alunos, a base de dados teria duas colunas – uma para o nome do aluno e outra para a nossa variável (Nota_A) – e tantas linhas quantos os alunos (cf. imagem desta base de dados feita na aplicação SPSS).

A partir da informação organizada na nossa base de dados, podemos construir uma tabela de distribuição de frequências que mais não é do que a identificação do número de vezes em que cada tipo de resposta ocorre. Se estivermos a organizar dados referentes às notas dos alunos na disciplina A a nossa tabela de distribuição de frequências (cf. tabela reproduzida abaixo) teria duas colunas: na primeira apresentavam-se, por ordem crescente, o valor de todas as notas registadas pelos alunos e na segunda o número de vezes que cada uma dessas notas ocorreu. Estes dados permitiriam também acrescentar duas novas colunas, uma com a percentagem de vezes que cada nota ocorre e outra com a percentagem acumulada que nos permite saber qual a percentagem de notas iguais ou inferiores a um determinado valor (por exemplo, 50% das notas desta turma são iguais ou inferiores a 10).

Medidas de Tendência Central

Quando queremos resumir os dados de uma distribuição utilizando apenas um número recorremos a medidas de tendência central (Média, Moda e Mediana).  A utilização destas três medidas varia consoante o tipo de informação que pretendemos resumir ou descrever:

– Se pretendermos resumir o nível de aprendizagem escolar de um aluno ao longo da sua licenciatura utilizado apenas um valor, a média de todas as notas obtidas ao longo do curso é o melhor indicador disponível;

– Se quisermos identificar a nota mais frequente da turma (ou de cada um dos alunos) devemos usar a Moda.

– Se o nosso objectivo for saber quem são os 50% melhores alunos da turma (ou as 50% melhores notas de um aluno), deveremos utilizar a mediana.

A Média é a soma dos resultados dividida pelo número total de resultados, habitualmente designada por (X barra), e é o valor que, sozinho, melhor representa a totalidade dos dados de uma distribuição (trata-se aqui da média aritmética, uma vez que há outros tipos de média). No caso do nosso exemplo, a soma das notas da Disciplina A é igual a 220 e o número total de notas é 20, pelo que a Média é 11 (220/20=11). Como já vimos acima, o valor da média não permite, no entanto, saber como é que se distribuem os valores da variável pelos diferentes sujeitos da nossa amostra, isto é, não nos diz se a distribuição é ou não homogénea, se todos os alunos têm 11 valores ou se há alunos muito bons e outros muitos maus.

A Moda é o valor(es) mais frequente(s) numa distribuição. No nosso exemplo (cf. quadro apresentado acima), o valor da Moda das notas da disciplina A é 9.0 (é a nota mais frequente da turma considerando todas as notas e alunos).

A Mediana é o valor que se situa a meio da fila ordenada dos valores da nossa distribuição, desde o mais baixo ao mais alto. A mediana indica o centro da distribuição da variável, ou seja, é o valor acima do qual estão 50% dos valores da variável e abaixo os restantes 50%. No nosso exemplo, se colocarmos as notas ordenadas de forma sequencial da mais baixa à mais alta e dividirmos a distribuição a meio, vemos que a mediana da disciplina A é 10.5  (quando a distribuição tem número par – como é o nosso caso uma vez que a turma tem 20 alunos –  de elementos a mediana é a média dos dois valores centrais).

Percentis
O conceito da mediana pode ser generalizado para outras percentagens além dos 50%. Podemos querer saber, por exemplo, qual é o valor abaixo do qual estão 1%, 20%, 30%, ou 75% dos indivíduos. A estas medidas de posição dão-se o nome, respectivamente, de percentil 1 (P1), percentil 20 (P20), percentil 30 (P30) e percentil 75 (P75). A mediana é o percentil 50 (P50).
Alguns percentis têm uma designação específica. Por exemplo, os percentis 25, 50 e 75 são referidos como o 1º quartil (Q1), 2º Quartil (Q2) e 3º quartil (Q3), respectivamente. Os percentis 10, 20, 30, …,90 também podem ser designados por Decil 1 (D1), Decil 2 (D2), Decil 3 (D3). …, Decil 9 (D9). Como o próprio nome indica, os Quartis dividem a distribuição em quatro partes iguais, os Decis em dez e os Percentis em cem. Na figura que se segue representa-se esquematicamente essas divisões.


Estas medidas permitem-nos situar os valores de cada observação em relação à distribuição total dos dados, uma vez que dividem o conjunto de observações em partes iguais tendo por referência o número de elementos que compõem a nossa amostra. Elas são particularmente úteis quando queremos destacar um valor que marque um percentual de interesse. Também podem ser usadas para nos dar informação sobre o valor relativo de um dado valor numa distribuição. Por exemplo, na análise das médias de estudantes com o mesmo curso feito em instituições diferentes, a mesma média (por exemplo, 15 valores)  situada em percentis diferentes (por exemplo, P10 ou P80), tem um valor relativo diferente. No primeiro caso (P10), isso significa que 90% dos estudantes dessa instituição têm média igual ou superior a 15, enquanto no segundo caso (P80) isso significa que apenas 20% dos estudantes é que têm média igual ou superior a 15. Ou seja, na primeira instituição o 15 é a nota que é atribuída aos alunos mais fracos do curso, enquanto na segunda instituição o 15 é a nota que distingue os melhores alunos do curso.

Medidas de dispersão

O Desvio padrão é o valor que quantifica a dispersão das respostas numa distribuição normal, ou seja, a média das diferenças entre o valor de cada resposta e a média da distribuição (Nota: como a média da soma dos desvios é sempre igual a zero, elevam-se esses desvios ao quadrado e só depois é que se calcula a média desses desvios elevados ao quadrado, que se designa por Variância. Calculando a raiz quadrada da variância obtém-se o valor do desvio padrão).
O calculo da média dos desvios quadrados é feito dividindo a soma dos quadrados pelo valor de n-1  e não por n (a razão para este procedimento prende-se com o conceito de graus de liberdade).
O desvio padrão da Disciplina A é de 2.9912, e é calculado da seguinte forma:

Se, para além da disciplina A, estes estudantes tiverem obtido nas disciplinas B, C, D e E, as notas que se apresentam a seguir:

As médias destas 5 disciplinas são iguais (11 valores) e os desvios padrão das restantes disciplinas são, respectivamente, de 2.38416 , .64889, 2.55467 e 2.88371.


Como já se disse acima, quanto maior o desvio padrão maior a dispersão das notas e mais afastadas da média estão as notas dos alunos. Assim, se apenas conhecermos a média e o desvio padrão de cada disciplina  [A (M=11; DP=2.99122), B (M=11; DP=2.38416), C (M=11; DP=.64889), D (M=11; DP=2.55567) e E (M=11; DP=2.88371)] ficamos a saber que, embora a turma seja globalmente igual em todas as disciplinas (todas têm a mesma média, 11 valores), é na disciplina C que os estudantes obtêm resultados mais homogéneos, isto é, é nesta disciplina que os estudantes têm notas mais perto da média e que, por isso mesmo, são mais iguais entre si. A disciplina A é aquela onde há maiores diferenças entre as notas de cada aluno e a média da turma, com alguns estudantes a revelarem-se muito fracos e outros muito bons.

Medidas de distribuição

O conceito de distribuição é fundamental na estatística. Toda a estatística paramétrica assenta no pressuposto de que os factores e variáveis da população se distribuem de acordo com a distribuição normal e que, quando número de sujeitos ou de casos for suficientemente grande, a distribuição amostral da média se aproxima cada vez mais de uma distribuição normal (teorema do limite central). A distribuição normal das variáveis em estudo é um pressuposto para a utilização de testes estatísticos paramétricos. Quando os resultados não se distribuem de acordo com a curva normal, teremos de usar testes estatísticos não-paramétricos.

Uma distribuição normal perfeita caracteriza-se pelo facto de 68.26% dos casos se concentrem em valores que se situam no intervalo entre um desvio padrão acima e um desvio padrão abaixo da média. Esse valor sobe para 95.44% quando consideramos dois desvios padrões (acima e abaixo da média) e 99.72% se considerarmos três desvios padrões. Na figura abaixo representa-se graficamente uma distribuição normal (o valor zero representa a média e cada traço na vertical representa um desvio padrão acima ou abaixo da média).

Assim, se assumirmos que a altura dos membros da população se distribui de acordo com a curva normal e se, por exemplo, a altura média da população adulta de um determinado país for de 175cm e o desvio padrão de 10cm, sabemos que 68,26% dos sujeitos adultos dessa população terão uma estatura entre 165cm (Média menos 1 desvio padrão, ou seja, 175cm-10cm) e 185cm (Média + 1 desvio padrão, ou seja 175cm+10cm) e que 95,44% estão entre 155cm (175cm-10cm-10cm) e 195cm (175xcm+10cm+10cm). Sabemos igualmente que 0.13% dos adultos da população desse país têm estatura superior a 205cm (175cm+10cm+10cm+10cm) e os outros 0.13% têm uma estatura inferior a 145cm (175cm-10cm-10cm-10cm).

As medidas de dispersão permitem-nos avaliar se os nossos dados estão distribuídos de acordo com o padrão descrito acima, ou seja, verificar se temos uma distribuição normal, ou se há desvios nessa distribuição. Para medir a distribuição usamos medidas de achatamento (Kurtose) ou de simetria/obliquidade da curva de distribuição (Skewness).

A obliquidade (Skewness) mede a assimetria das caudas da distribuição. As distribuições assimétricas são aquelas que têm um dos lados da distribuição (abaixo ou acima da média) com mais elementos que o outro, enquanto as distribuições simétricas tem obliquidade igual a zero (existe o mesmo número de sujeitos acima e abaixo da média). Se o valor da obliquidade for maior que zero, isso quer dizer que essa distribuição tem uma lado esquerdo (valores abaixo da média) com mais elementos, se o valor for inferior a zero, então a distribuição tem o lado direito (valores acima da média) com mais elementos.

A curtose (Kurtose) mede o grau de achatamento da curva. As distribuições achatadas têm uma maior dispersão de valores pelos extremos da curva e as distribuições altas têm uma maior concentração de valores em torno da média (centro da curva).

Se analisarmos as notas do nosso exemplo, verificamos que em nenhuma das disciplinas a distribuição das notas se fez de acordo com a curva normal. Por exemplo, na disciplina A (M=11; DP=2.99122), 10 estudantes (50%) têm notas que se situam entre +1 ou -1 desvio padrão (entre 8.01 e 13.99), 4 estudantes (20%) têm notas que se situam entre -1 e -2 desvios padrão (entre 5.02 e 8.01) e 6 (30%) a entre +1 e +2 desvios padrão (entre 16.98 e 19.97). Não há notas superiores ou inferiores a 3 desvios padrão. A estes números correspondem valores de obliquidade de .131 e de curtose de -1.263, ou seja, há uma relativa simetria (seria perfeita se o valor da obliquidade fosse zero) na distribuição dos casos à esquerda (abaixo) e à direita (acima) da média, mas um achatamento da curva pelo facto de os valores dentro do intervalo que vai de -1 a +1 desvio padrão (50%) serem em percentagem inferior aos 68,26% que definem o valor da distribuição normal (como a percentagem do nosso exemplo é inferior, o valor da curtose é negativo). No gráfico (histograma com curva de distribuição) apresentam-se estes dados (as linhas verticais assinalam a média – a preto – e os desvios padrão – a azul).

Como calcular as Estatísticas Descritivas no SPSS

*

Ir para:


2 comentários

  1. Margarida Dias diz:

    Já me tinham dito que perceber o que é e como se acha uma variância e um desvio padrão é “mel” nas aulas do Prof. Rui Antunes. Consegui perceber, FINALMENTE, e só porque li. Obrigada. Tinham razão. O indecifrável… revelou-se, afinal, inteligível – um bom Professor faz um bom aluno.

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão / Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão / Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão / Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão / Alterar )

Connecting to %s

Blog Stats

  • 384,462 hits
%d bloggers like this: