• Nenhum resultado encontrado

Mesmo em casos excepcionais,

No documento Estatística e Probabilidades (páginas 36-51)

quando o gráfico

não é exportado

para nenhum

outro aplicativo,

sendo impresso

diretamente do

Excel, o título não

deve ser colocado

no meio da figura.

A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou somente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quarto dos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas de contingência, ferramentas que serão discutidas na Unidade 7 deste livro. Fonte: BAILAR & MOSTELLER,1992.

FIGURA 2 – Principais ferramentas estatísticas encontradas em artigos publicados no New England Journal of Medicine (NEJM).

3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar os rótulos nos eixos, o Excel coloca o título no meio da figura e uma legenda que não tem a menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de um grupo de dados na figura. Veja um exemplo correto de gráfico de barras na figura a seguir.

FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenharia e Tecnologia do Centro Universitário de Belo Horizonte – UniBH.

Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399 alunos. Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica e Álgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados.

Fonte: Elaborado pelo autor.

4. Não existe regra fixa para a escolha da escala do gráfico. Qualquer escala é boa desde que os valores no gráfico não fiquem muito espalhados nem muito juntos numa única região da figura.

5. Sombreamento, efeitos 3D e pequenas figuras relacionadas com o tipo de dado usado no gráfico, colocados para dar vida à figura: na maioria das vezes esses efeitos são inúteis, podendo até mesmo distorcer o gráfico.

6. A maioria dos gráficos apresenta o valor zero como ponto de início dos eixos, mas isso não é necessário se o ponto de início da escala é devidamente marcado na figura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do gráfico. Para os gráficos de linha isso

não é problemático, entretanto, quando se tratar de gráficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base da coluna. Caso isso não seja feito, ocorre uma distorção do gráfico levando a uma interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráfico, como não começa no valor zero, está errado, ele “ilude o leitor”: a auditoria foi um sucesso?!

FIGURA 4 – Exemplos de gráfico de colunas: o valor zero deve obrigatoriamente ser incluído na figura.

Fonte: Elaborado pelo autor.

7. Mais de uma curva ou linha pode ser desenhada em um único gráfico com o objetivo de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo símbolos).

Linhas de grade, usualmente colocadas no gráfico para auxiliar a leitura das escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.

FIGURA 5- Exemplo de gráfico com legenda identificando diferentes dados.

Fonte: Elaborado pelo autor.

8. Os gráficos devem ser desenhados no formato de paisagem, com a altura tendo aproximadamente ¾ da sua largura. Caso isso não seja feito, poderá haver distorção da figura e da própria informação, que fica comprometida: o primeiro gráfico está correto, mas os outros estão na categoria “como mentir com estatística”...

FIGURA 6 – Formato dos gráficos: a figura deve ser desenhada em formato de paisagem, com a altura tendo aproximadamente 75% da largura.

Fonte: Elaborado pelo autor.

FIGURA 7 – Gráfico distorcido: desenhando a figura com a altura muito pequena, em relação à largura, a informação é falseada e se tem a sensação de estabilidade dos dados.

FIGURA 8 - Gráfico distorcido: desenhando a figura com a altura muito grande, em relação à largura, a informação é falseada e se

tem a sensação de redução dos dados ao longo do tempo

Fonte: Elaborado pelo autor.

9. Gráficos de pizza, “o queridinho”: Apesar de muito “engraçadinhos”, estes gráficos são muitos confusos. Evite o seu uso, substituindo por gráficos de barra ou de colunas. É aceitável construi-los somente quando são poucos setores bem definidos (até cinco pedaços). Evitar gráficos de pizza em 3D, com vários pedaços. Construi-los como na figura 2.

10. Diagrama de dispersão: Ferramenta que nos permite avaliar o efeito de uma variável explicativa quantitativa sobre um desfecho. Serve tanto para visualizarmos funções matemáticas teóricas (figura 9) quanto funções de relacionamentos empíricos já conhecidos (figura 10), mas a sua grande utilidade é quando tentamos estabelecer a associação entre duas variáveis quantitativas (figura 11). A figura 9 é um diagrama de

dispersão mostrando uma relação completamente teórica entre duas variáveis (x e y). Como é uma relação exata, somente é desenhada a linha que liga os pontos do gráfico. Na figura 10 é desenhada uma relação empírica, no caso a lei de Abrams, que relaciona a resistência do concreto à compressão (R) com o fator água/cimento (fx) da seguinte forma: R = α/βfx. Nessa figura, α e β foram definidos como 100 e 10 respectivamente, de tal forma que a equação ficou R = 100/10fx, fx variando de 0 a 3. Já a figura 11 mostra o uso “nobre” dos diagramas de dispersão, quando tentamos explorar, criar e propor uma nova relação empírica entre duas variáveis quantitativas. Nesse exemplo, ao invés de aplicarmos a relação empírica de Abrams, usamos dados reais de fator fx de água/cimento e a resistência medida em 28 dias de uma amostra de concretos (desfecho). Ao inserirmos uma linha de tendência linear, estamos sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão do concreto se relaciona com fx por meio de uma equação de reta.

FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando a relação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama

está mostrando uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.

Fonte: Elaborado pelo autor.

FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrando a relação empírica da lei de Abrams que relaciona a resistência à compressão

de concretos, medida em megapascal (MPa), e o fator água/cimento (fx), determinado pela razão do peso de água pelo peso em cimento do concreto.

FIGURA 11 – Diagrama de dispersão somente com os marcadores e sem linhas contínuas mostrando uma possível relação linear entre resistência à

compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).

Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar a Resistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/Dario.pdf. Acesso em 14 maio 2015.

A figura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X) e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão, você deve interpretar o gráfico gerado em um dos quatro padrões mostrados na figura 12. A) Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em “linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B) Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média, quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim “em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y) e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D) Sem associação: Também é um padrão importante, pois indica que não há relação entre as duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na maioria das disciplinas que ele cursa.

FIGURA 12 – Padrões de relacionamentos entre variáveis avaliadas por meio de diagrama de dispersão: correlação positiva (A), correlação negativa (B), associação curvilinear (C) e

ausência de associação (D).

11. Histograma: A ideia deste gráfico é categorizar uma variável quantitativa, dividindo-a em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e construir um gráfico de colunas com o resultado. Ao se interpretar um histograma, deve-se tentar responder às seguintes questões: Qual é a forma da distribuição dos dados? Existe um ponto central bem definido? Como é a amplitude de variação dos dados? Existe apenas um pico isolado? A distribuição é simétrica? Os exemplos abaixo podem auxiliá-lo na interpretação de um histograma. Procure descobrir com qual destes oito tipos o seu histograma se parece.

Exemplo 1 - Histograma simétrico: A frequência de dados é mais alta no centro e decresce gradualmente à esquerda e à direita de forma aproximadamente simétrica, em forma de sino.

Fonte: Elaborado pelo autor

Exemplo 2 - Histograma fortemente assimétrico: A frequência dos dados decresce rapidamente num dos lados e muito lentamente no outro, provocando uma assimetria na distribuição dos valores. A distribuição dos salários numa empresa é um exemplo comum de histograma assimétrico: muitas pessoas ganham pouco e poucas pessoas ganham muito (a). A situação (b), apesar de mais rara, também pode acontecer.

Fonte: Elaborado pelo autor

Exemplo 3 - Histograma tipo despenhadeiro: O histograma termina abruptamente em um ou nos dois lados, dando a impressão de que faltam dados. Na verdade, essa possivelmente deve ser a explicação para histogramas com esse formato: os dados muito pequenos e/ ou muito grandes foram eliminados da amostra.

Fonte: Elaborado pelo autor

Fonte: Elaborado pelo autor

Exemplo 4 - Histograma com dois picos: Ocorrem picos na distribuição e a frequência é baixa entre os picos. Possivelmente, os dados se referem a uma mistura de valores de diferentes populações, devendo ser avaliados com cuidado. Se houve mistura dos dados, é melhor separá-los.

Exemplo 5 - Histograma tipo platô: As classes de valores centrais apresentam aproximadamente a mesma frequência. Essa situação também sugere mistura de valores de diferentes populações.

Fonte: Elaborado pelo autor

Fonte: Elaborado pelo autor

Exemplo 6 – Histograma com uma pequena ilha isolada: Alguns valores isolados têm frequência elevada, formando uma espécie de ilha. Também pode ter ocorrido uma mistura de dados.

Exemplo 7 – Histograma tipo serrote: As frequências de valores se alternam formando vários dentes. Pode indicar algum problema na obtenção (leitura) dos dados.

Fonte: Elaborado pelo autor

Fonte: Elaborado pelo autor

Vamos usar como exemplo de dados para a construção de um histograma notas de amostra de alunos em uma prova de Cálculo Diferencial (n=120):

FIGURA 13 – Dados brutos de notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.

0 0 0 1 5 5 6 9 13 17 18 21 0 0 0 1 5 5 6 10 13 17 18 21 0 0 0 1 5 5 6 11 14 17 20 22 0 0 0 2 5 5 9 11 14 17 20 22 0 0 0 2 5 5 9 12 14 17 20 24 0 0 0 3 5 5 9 12 14 17 20 24 0 0 0 3 5 5 9 13 15 17 20 25 0 0 0 5 5 6 9 13 15 17 20 25 0 0 0 5 5 6 9 13 17 18 21 25 0 0 1 5 5 6 9 13 17 18 21 25

Passo 1 - Determinar valores mínimo, máximo e amplitude (R): mín = 0; máx = 25; R = máx – mín = 25 – 0 = 25

Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. O número de classes deve ser

algo entre 5 a 20 subintervalos. Regra empírica: k

n e 5

k

20 . No exemplo, n ≈ 120; k

120 ≈ 10.

Passo 3 – Determinar o tamanho de cada subintervalo (h). hR . No exemplo, hR 25. ≈ 2,5 Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10 classes de tamanho 2,5.

Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero (valor mínimo), teremos uma

tabela de distribuição de frequências, base para construção do histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos valores se encaixam em cada classe. Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo, mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas com o símbolo “invertido”, |--, que indica valores maiores ou iguais ao número colocado à esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo Excel na construção de histogramas (figura 14).

No documento Estatística e Probabilidades (páginas 36-51)

Documentos relacionados