• Nenhum resultado encontrado

Estatística e Probabilidades

N/A
N/A
Protected

Academic year: 2021

Share "Estatística e Probabilidades"

Copied!
214
0
0

Texto

(1)

Bráulio Roberto Gonçalves Marinho Couto Janaína Giovani Noronha de Oliveira Octávio Alcântara Torres Reinaldo Carvalho de Morais

Estatística e

Probabilidades

(2)

Octávio Alcântara Torres Reinaldo Carvalho de Morais

ESTATÍSTICA E PROBABILIDADES

Belo Horizonte

Junho de 2015

(3)

Todos os direitos reservados ao:

Grupo Ănima Educação

Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios

empregados: eletrônicos, mecânicos, fotográficos, gravações ou quaisquer outros.

Edição Grupo Ănima Educação

Vice Presidência Arthur Sperandeo de Macedo

Coordenação de Produção Gislene Garcia Nora de Oliveira

Ilustração e Capa

Alexandre de Souza Paz Monsserrate Leonardo Antonio Aguiar

Equipe EaD

(4)

o Autor

Bráulio Roberto Gonçalves Marinho Couto é doutor em Bioinformática, mestre em Ciência da Computação, especialista em Estatística, bacharel em Engenharia Química e técnico em Química. Atuante nas áreas de Estatística, Cálculo Numérico, Informática em Saúde, Epidemiologia Hospitalar e Bioinformática.

Professor do Centro Universitário de Belo Horizonte (UniBH).

(5)

a Autora

Janaína Giovani Noronha de Oliveira é mestre em Estatística e graduada em Licenciatura em Matemática com Habilitação em Física. Possui experiência como docente na área de Matemática e Estatística do Ensino superior e médio.

Experiência com orientação de Monografias.

(6)

o Autor

Octávio Alcântara Torres é bacharel em Estatística e mestre em Demografia. Possui experiência nas áreas de probabilidade e estatística, regressão e correlação, análise estatística multivariada e controle estatístico de processo. Áreas de interesse:

projeções populacionais, projeções de mão de obra qualificada, pesquisa de mercado, estatística aplicada.

(7)

o Autor

Reinaldo Carvalho de Morais é mestre e bacharel em Administração Pública, graduado em Estatística e especialista em Gestão Financeira. Possui experiência em pesquisas sobre economia e finanças públicas mineiras, bem como docência nas disciplinas de estatística, de economia, de engenharia econômica, de matemática financeira e de administração da produção.

(8)

Egressos de cursos de Engenharia e Tecnologia são profissionais que resolvem problemas. E como isso ocorre? Pela aplicação eficiente do método científico. Pois bem, é disso que se trata essa disciplina:

apresentar ferramentas estatísticas que possibilitarão a você transformar-se num especialista em qualquer área do conhecimento e, portanto, apto a resolver problemas. A disciplina é dividida em oito unidades cujo objetivo é introduzir o aluno na área da Estatística e Probabilidades, tornando-o capaz de planejar e de executar experimentos de pequeno e médio porte nas áreas de Ciências Exatas e de Engenharia.

Além de fazer a análise exploratória dos dados e de realizar inferências, por meio da tomada de decisão na presença de incerteza.

A Unidade 1 apresenta definições fundamentais para a correta compreensão do processo de coleta e de análise de dados. Conceitos sobre população e amostra, censo e amostragem, e variáveis são discutidos nessa unidade. A Unidade 2 trata da análise exploratória de dados, quando são apresentadas técnicas de Estatística Descritiva. O objeto dessa unidade, bastante intuitiva, é trabalhar a síntese numérica, gráfica e tabular dos dados. A ideia é usar ferramentas como o Excel para construir tabelas e gráficos, como histograma, diagrama de dispersão, Pareto e calcular valores como média, mediana, desvio padrão, e coeficiente de variação. Na Unidade 3 são introduzidos conceitos básicos de probabilidades, cruciais para que se entenda o processo de tomada de decisão na presença de incerteza. Na unidade 4, que é uma continuação da terceira unidade, são apresentados os modelos probabilísticos mais importantes para se modelar problemas de pequeno e médio porte na área de Engenharia e Tecnologia.

A partir da Unidade 5 caminhamos para a área “nobre” da Estatística, que envolve as inferências, isto é, o processo de generalização de resultados parciais, observados em amostras, para toda a população envolvida num problema. Nessa unidade é discutida a forma de obter os intervalos

da disciplina

(9)

calculado e o significado do intervalo definido pela soma e subtração de uma “margem de erro”.

A Unidade 6 é voltada para o planejamento de experimentos, quando é apresentado, por exemplo, como calcular o tamanho de uma amostra. Em alguns livros este item é colocado na primeira unidade, o que tem certa lógica por tratar da coleta de dados, primeira etapa de qualquer análise estatística. Entretanto, como são necessários conceitos probabilísticos e de inferência para entender o planejamento de experimentos, optamos por colocar essa unidade logo após a discussão sobre intervalos de confiança.

As Unidades 7 e 8 fecham a disciplina, apresentado as ferramentas mais úteis para que você finalmente se transforme num especialista em uma área qualquer e, portanto, realmente apto a resolver seus problemas. Na Unidade 7 são discutidos os métodos para fazer e interpretar testes de hipóteses, num contexto uni variado e, na Unidade 8, discute-se métodos de correlação e regressão, introduzindo a análise multivariada.

Ao longo das oito unidades, procuraremos apresentar uma abordagem baseada em PPL – Aprendizagem Baseada em Problemas, além de usarmos como ferramentas computacionais o Microsoft® Excel e o software de domínio público, EpiInfo.

Bom trabalho!

Bráulio, Janaína, Octávio e Reinaldo.

(10)

UNIDADE 2 023

Análise exploratória de dados 024

Síntese gráfica de dados 026

Síntese tabular de dados 047

Síntese numérica de dados 048

Revisão 059

UNIDADE 3 061

Introdução à teoria de probabilidades 062

A teoria das probabilidades 064

Probabilidade clássica e probabilidade frequentista 066

Leis básicas de probabilidades 067

União e interseção de eventos 068

Tabelas de contingência 070

Eventos independentes 072

Teorema de Bayes 072

Revisão 076

UNIDADE 4 079

Modelos probabilísticos 080

Variáveis aleatórias 081

Modelos probabilísticos 088

Distribuição binomial 088

Distribuição Poisson 089

Distribuição normal 090

Revisão 095

Conceitos básicos 006

O papel das variáveis numa base de dados: identificação, auxiliares,

variáveis explicativas e variável reposta (desfecho) 012

Tipos de variáveis 015

Uso do Excel como um sistema de gerenciamento de dados

e dos formulários do Google Docs para coleta de informações 017

Revisão 021

(11)

Teorema central do limite 099 Estimação pontual e por intervalos de confiança para uma

média populacional 103

Estimação pontual e por intervalos de confiança para uma

proporção populacional 112

Uso do Excel no cálculo de intervalos de confiança para

média e proporção 116

Introdução ao programa EpiInfo 120

Revisão 121

UNIDADE 6 124

Planejamento de experimentos 125

Cálculo de tamanho de amostra baseado em intervalos de

confiança para uma proporção 127

Cálculo de tamanho de amostra baseado em intervalos de confiança

para uma média 132

Planejamento de experimentos 135

Planejamento de experimentos - terminologia básica 140

Revisão 144

UNIDADE 8 174

Análise de correlação e regressão 175

Análise de correlação 176

Regressão linear simples 185

Regressão linear múltipla 193

Revisão 200

REFERÊNCIAS 202

UNIDADE 7 147

Testes de Hipóteses 148

A construção e o significado de uma hipótese estatística 149

Testes para uma amostra 151

Testes para duas ou mais amostras 167

Revisão 172

(12)
(13)

Introdução à estatística

• Conceitos básicos

• O papel das variáveis numa base de dados:

identificação, auxiliares, variáveis explicativas e váriavel reposta (desfecho)

• Tipos de variáveis

• Uso do Excel como um sistema de gerenciamento de dados e dos formulários do Google Docs para coleta de informações

• Revisão

Introdução

Podemos entender o método estatístico como um processo para obter, apresentar e analisar características ou valores numéricos, identificando padrões que possibilitam a tomada de decisão em situações de incerteza.

Pode acreditar, se você aplicar o método estatístico para a análise e solução de problemas, muito rapidamente se tornará um especialista de qualquer área do conhecimento! Num mundo real, completamente cercado de incertezas, ser capaz de identificar padrões de comportamento de pessoas, projetos, produtos, serviços, etc pode transformá-lo num “mago”.

Entretanto, antes de você transformar-se num “mago”, é necessário um entendimento adequado do método estatístico, que tem suas

“armadilhas”. Costumo dizer que Estatística não é Matemática... é muito mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter uma vida incrivelmente confortável. Bom, quando afirmo que “Estatística não é Matemática”, quero dizer que, na Matemática que você aprendeu no Ensino Fundamental e Médio, os problemas têm usualmente uma única forma de serem resolvidos e devem todos chegar ao mesmo resultado (uma única resposta correta). Na Estatística, os problemas têm várias formas de serem resolvidos, podem chegar a resultados diferentes e todos estão corretos! Isso ocorre porque a Estatística requer a habilidade de considerarmos as coisas dentro de uma perspectiva probabilística, o que vai completamente contra a conceituação usual dos problemas em simplesmente certo ou errado. Não buscaremos a “verdade absoluta”, mas padrões de comportamento que nos possibilitarão tomar decisões com alto grau de confiança.

(14)

1. amostragem e coleta de dados;

2. análise exploratória de dados (estatística descritiva);

3. teoria das probabilidades;

4. decisão na presença de incerteza (inferência).

A ideia por trás dessa unidade é levar até você o conhecimento fundamental que lhe permitirá entender a coleta de dados.

Estudaremos conceitos fundamentais de Estatística, questões simples, mas essenciais para que tenhamos sucesso nas outras etapas do método estatístico, que serão discutidas nas próximas unidades. Estes são os objetivos da Unidade 1:

a) apresentar conceitos básicos de Estatística e Probabilidades;

b) identificar as funções e os principais tipos de dados e de variáveis;

c) identificar e corrigir problemas de dados faltantes (missing);

d) configurar o Excel como instrumento de coleta de dados;

e) entender o sistema de endereçamento de células do Excel.

f) construir formulários de coleta de dados no Google Docs;

g) enviar formulários de coleta de dados por meio de mala direta.

É crucial que você entenda os conceitos que serão discutidos nessa unidade. Sem o entendimento do que seja, por exemplo, uma variável, o seu tipo e a sua função na base de dados, não há como você ser feliz nas outras etapas do processo!

(15)

Vamos supor que uma cozinheira esteja preparando dois litros de sopa.

Como ela sabe se a sopa está temperada?

Os dois litros de sopa formam a população e, se a cozinheira comer/provar toda a sopa, estará fazendo um censo, o que geraria um absurdo do tipo “É, a sopa estava ótima!”.

A cozinheira sabe que em experimentos baseados em ensaios destrutivos, quando a própria análise destrói o dado coletado, o censo é um absurdo. Na verdade, ela sabe que censos, de modo geral, são inviáveis, muito caros e/ou muito demorados. Mais ainda, ela sabe que se usar uma pequena amostra cuidadosamente retirada, chamada amostra representativa, poderá tomar decisões sobre toda a população envolvida no problema com um alto grau de confiança.

A cozinheira então retira uma pequena amostra, uma “pitada”

da comida, prova-a e generaliza o resultado para toda a sopa.

Isso é chamado de inferência: tomar decisões sobre toda uma população com base em informações parciais de uma amostra (veja a FIGURA 1).

Entretanto, a cozinheira sabe que para fazer inferências válidas, deve tomar cuidado para não trabalhar com amostras viciadas. E o que seria isso?

Se ela retirar uma amostra somente da parte de cima da sopa, muito provavelmente terá uma amostra viciada, isto é, sem representantes

Conceitos básicos

Você sabe o que é população? E amostra? Vejamos o exemplo a seguir.

(16)

de todos os componentes da sopa como um todo que, neste caso, é a população amostrada.

E como ela retira uma amostra representativa da sua população (“sopa”)? Como a cozinheira procede para obter uma amostra com

“representantes” de cada estrato da sopa?

Simples, ela mistura a sopa fazendo uma homogeneização e sorteia uma porção/pitada que será usada no seu processo decisório.

Fazendo uma amostragem aleatória, a cozinheira sabe que terá grande chance de trabalhar com amostras representativas.

Podemos agora resumir esses conceitos.

População:

a. consiste na totalidade das unidades de observação a partir dos quais ou sobre os quais deseja tomar uma decisão;

b. conjunto de elementos que formam o universo do nosso estudo e que são passíveis de serem observados;

c. conjunto de indivíduos sobre os quais recairão todas as generalizações das conclusões obtidas no estudo;

d. usualmente, as unidades de observações são pessoas, objetos ou eventos;

e. é o universo a ser amostrado;

f. do ponto de vista matemático, a população é definida como um conjunto de elementos que possuem pelo menos uma característica em comum (SILVA, 2001).

População finita: o número de unidades de observação pode ser contado e é limitado. Exemplos:

a. alunos matriculados na disciplina Estatística e Probabilidades;

População finita: o

número de unidades

de observação pode

ser contado e é

limitado.

(17)

b. todas as declarações de renda recebidas pela Receita Federal;

c. todas as pessoas que compram telefone celular num determinado ano;

d. um lote com N produtos.

População infinita: a quantidade de unidades de observação é ilimitada, ou a sua composição é tal que as unidades da população não podem ser contadas. Exemplos:

a. conjunto de medidas de determinado comprimento;

b. gases, líquidos e alguns sólidos em que as suas unidades não podem ser identificadas e contadas.

Amostra: conjunto de unidades selecionadas de uma população, ou seja, uma parte dos elementos da população.

Amostra representativa: é uma versão em miniatura da população, exatamente como ela é, somente menor. A amostra representativa segue o modelo populacional, tal que suas características importantes são distribuídas similarmente entre ambos os grupos.

Unidade amostral: é a menor parte distinta de uma população, identificável para fins de seleção e construção da amostra.

Amostra aleatória: é aquela obtida por meio de um processo de sorteio ou aleatorização.

Amostra viciada: é aquela que representa apenas parte da população, não possuindo elementos de todos os estratos ou subconjuntos que formam a população como um todo.

Censo: exame de todas as unidades de observação de uma população. Como discutido no exemplo da cozinheira, se a

População infinita:

a quantidade

de unidades de

observação é

ilimitada, ou a sua

composição é tal

que as unidades

da população

não podem ser

contadas.

(18)

pesquisa envolve ensaio destrutivo, o censo é inviável. Na verdade, somente se a população alvo for pequena é razoável observá-la por inteiro, através do censo, pois mesmo quando viáveis, censos são caros e demorados. Outros exemplos de ensaios destrutivos, nos quais é impossível aplicar censo: pesquisa sobre a força de tração de um lote de barras de aço para construção; pesquisa sobre contaminação de soro fisiológico em um lote; testes de resistência e durabilidade de um lote de concreto; tempo de pega de um lote de cimento.

Amostragem: processo pelo qual uma amostra de unidades da população é retirada e observada. É a parte mais importante do processo de pesquisa. O principal e fundamental objetivo de qualquer plano de amostragem é selecionar a amostra, de tal maneira que ela retrate fielmente a população pesquisada.

FIGURA 1 - População alvo, população amostrada e amostra

População alvo do estudo

Amostra

População amostrada Inferência

Fonte: Elaborado pelo autor.

Inferir significa generalizar resultados de uma amostra para toda a população.

Por que usar amostras? Por que não incluir no estudo todos os indivíduos da população?

(19)

A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela é eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados desnecessários de um grande número de indivíduos pode ser gasto em outra atividade, como na monitoração da qualidade da própria coleta dos dados.

As amostras, por serem menores que a população, podem ser estudadas mais rapidamente que censos e são também mais baratas. Além disso, se o processo de amostragem gerar uma amostra representativa da população alvo do estudo, os resultados observados poderão ser generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtida se trabalhar com toda a população.

Vejamos agora alguns aspectos relevantes para o campo da amostragem. São eles:

- Questões da amostragem: Qual o tamanho da amostra?

Como a amostra será obtida? Como garantir que a amostra obtida seja representante da população objeto do estudo? A questão mais importante não é o seu tamanho, mas como a amostra será obtida, pois a amostragem mal feita invalida qualquer pesquisa.

- Tamanho da amostra (n): está relacionado ao total de unidades amostradas, usadas no processo de inferência.

Imagino que você esteja curioso em relação ao tamanho da amostra, mas, como citado anteriormente, esta não é de longe a questão mais importante. Por exemplo, o que você que teria mais credibilidade numa pesquisa sobre a aceitação (ou não) do aborto por parte da população brasileira: resultados de pesquisa realizada no domingo à noite por uma emissora de TV, envolvendo milhões de pessoas que, após assistirem a uma reportagem sobre o assunto, responderam à pesquisa; ou resultados de uma amostra de 2.500 pessoas selecionadas aleatoriamente no território brasileiro?

A amostragem deve

ser usada porque

torna o processo

eficiente e preciso.

(20)

No entanto, essa não é uma questão muito importante para obtermos o tamanho da amostra adequada para uma pesquisa, visto que é necessário estudarmos alguns conceitos probabilísticos, que serão apresentadas somente nas próximas unidades.

A maioria das pessoas, quando questionadas sobre qual o tamanho da amostra necessária para uma pesquisa, tem o raciocínio equivocado de que o tamanho da amostra (n) tem relação direta com o tamanho da população amostrada (N). Inevitavelmente, a maioria das pessoas afirma erroneamente que uma boa amostra deve conter pelo menos, digamos, 30% da população. O que a cozinheira diria disto? Para provar dois litros de sopa, quanto de amostra ela teria que avaliar? Isso mesmo, uma pitada.

E para provar 400 litros de sopa, ela beberia um prato inteiro? Não. Ela provará a mesma pitada, pois sabe que, o mais importante nesse processo inferencial não é o tamanho da amostra, mas provar uma amostra não viciada, representativa de toda a sopa.

Voltando aos processos de amostragem, as amostras podem ser classificadas em probabilísticas e não probabilísticas:

Amostra probabilística:

- existe uma garantia, em termos de probabilidade, de que qualquer membro da população possa ser selecionado para amostra.

Amostra não probabilística:

- os elementos da amostra não são escolhidos por meio de um sorteio.

CARVALHO e COUTO (2003) apresentam as principais características de tipos de amostragem mais comuns, relacionados

Amostra probabilística:

existe uma garantia,

em termos de

probabilidade, de que

qualquer membro

da população possa

ser selecionado para

amostra.

(21)

principalmente com pesquisas de survey. Outras amostras, por exemplo, amostragem de minério, de solo, de gases e de líquidos têm procedimentos próprios que buscam, em última instância, obter amostras que sejam representativas de cada população envolvida. Em suma, qualquer que seja o esquema de amostragem, probabilístico ou não, deve-se sempre garantir que a amostra reflita as características da população da qual foi retirada.

Conforme discutido anteriormente, algumas pessoas acreditam que uma amostra representativa é necessária coletar dados de um percentual mínimo da população, digamos, 30% do total de indivíduos. Isso é absolutamente falso e, o que é pior, mesmo que fossem analisados tal percentual de indivíduos da população, não é o tamanho que garante representatividade da amostra, mas a forma com ela é obtida.

É a imparcialidade do processo de seleção dos seus elementos e a homogeneidade da distribuição das características da amostra e da população que garantem a representatividade da amostra.

O papel das variáveis numa base de dados:

identificação, auxiliares, variáveis explicativas

e variável reposta (desfecho)

O primeiro passo de qualquer processo estatístico é a coleta de dados. Portanto, tudo o mais será alicerçado sobre o que for coletado. Sendo assim, essa fase deve ser cuidadosamente

Qualquer que

seja o esquema

de amostragem,

probabilístico

ou não, deve-se

sempre garantir que

a amostra reflita as

características da

população da qual

foi retirada.

(22)

planejada, já que da qualidade dos dados coletados dependerá toda a análise e a tomada de decisão subsequente.

Antes da coleta de um dado, é importante entender o conceito de variável que está por trás da informação que você procura. A variável contém a informação que você quer analisar, sob a forma de uma medição sobre determinadas características dos indivíduos estudados e das unidades de observação.

E, por que esse conceito é tão importante? Porque, no fim das contas, é a variável que é analisada e não a informação que ela contém. Por isso, é importante que você, antes de sair coletando informações, analise o seu questionário de coleta de dados, identifique cada variável envolvida e responda perguntas, tais como: O que exatamente a variável está medindo? Para que serve esta variável e, principalmente, é possível analisá-la? E com que método estatístico?

Uma variável é a quantificação de uma característica de interesse da pesquisa (SOARES e SIQUEIRA, 2002). Refere-se ao fenômeno a ser pesquisado. É o campo de variação de cada tipo de dado a ser pesquisado.

Observe que, como o próprio nome diz, uma variável deve variar, ou seja, se você está coletando dados sobre características de alunos da disciplina Cálculo Diferencial, podemos pensar em inúmeras variáveis para a unidade de observação “aluno”: idade, sexo, curso, local do ensino médio, tempo entre final do ensino médio e início da graduação, nota final, percentual de presença às aulas etc. Entretanto, o tipo de disciplina não é uma variável nesse caso, pois ela é constante (Cálculo Diferencial).

O grau de variabilidade de uma variável é chave no método estatístico e será foco de discussões nas próximas unidades.

Entretanto, neste momento, é crucial que você entenda dois aspectos básicos de qualquer variável: o seu tipo e a sua função, o papel que ela exerce na base de dados.

Uma variável é a

quantificação de

uma característica

de interesse da

pesquisa (SOARES e

SIQUEIRA, 2002).

(23)

Toda análise que será feita na base de dados dependerá do seu entendimento sobre o tipo e a função de cada variável coletada!

Vejamos os tipos de funções de cada variável:

QUADRO 1 - O papel de uma variável numa base de dados.

Fonte: Elaborado pelo autor.

Variáveis de identificação e auxiliares

Variáveis explicativas

Variável desfecho

Servem para o rastreamento dos indivíduos e das unidades amostrais, ou são usadas na definição de outras variáveis. Exemplos de variáveis de identificação: CPF, nome, número de matrícula, número da amostra etc.

Exemplos de variáveis auxiliares: datas, peso e altura.

Variáveis de identificação e auxiliares não são analisadas, mas fazem parte da base de dados.

São aquelas que, por hipótese, podem influenciar, determinar ou afetar a variável resposta ou desfecho da pesquisa. São chamadas também de co-variáveis ou variáveis independentes.

Para cada estudo existem variáveis explicativas próprias, definidas por hipóteses da própria pesquisa ou conforme revisão da literatura.

Em processos químicos, quando se busca entender os fatores que afetam o rendimento de uma reação química, são exemplos de variáveis explicativas a temperatura, a pressão, o tipo de catalisador e a concentração de reagentes. Se alguém pesquisar sobre as razões de algumas pessoas serem maiores que outras, as alturas do pai e da mãe, a origem étnica, a idade e o sexo são exemplos de variáveis explicativas.

É aquela que queremos explicar, em função de ser influenciada, afetada por outros fatores (variáveis explicativas). Também denominada de variável dependente ou variável resposta. Sempre defina um ou mais desfechos para o estudo, conforme os objetivos da sua pesquisa. Por exemplo, numa pesquisa cujo objetivo é explicar porque imóveis de uma mesma região têm preços tão variados, o preço de venda seria uma variável resposta. Fatores como área, número de quatros, número e tipo de vaga de garagem, quantidade de suítes, presença de salão de festas ou piscina são algumas das possíveis variáveis explicativas para esse problema.

TIPOS CARACTERÍSTICAS

(24)

A função de cada variável na base de dados, assim como o seu tipo, definirá que tipo de análise será feita. Não subestime esses conceitos pois, sem eles, não há como entender os métodos de análise estatística que serão estuados nas próximas unidades.

Tipos de variáveis

Se considerarmos a maioria absoluta das variáveis envolvidas em experimentos de pequeno e médio porte nas áreas de Ciências Exatas e Engenharia, teremos duas situações para o tipo da variável.

I) Variável qualitativa ou categórica: é aquela que expressa características ou atributos de classificação, distribuídos em categorias mutuamente exclusivas de objetos ou entidades.

Categorias mutuamente exclusivas ou mutuamente excludentes não podem ser observadas simultaneamente num mesmo indivíduo. Por exemplo, grupo sanguíneo (A, B, AB, O) é uma variável categórica mutuamente exclusiva: um indivíduo tem somente um grupo sanguíneo, não podendo ser classificado em mais de uma categoria ao mesmo tempo. Variáveis qualitativas têm um nível baixo de informação, sendo obtidas por um critério de classificação. Por exemplo, sexo (masculino, feminino), estado civil (com companheiro, sem companheiro), cor de um produto (branco, verde, amarelo, azul), tipo de transmissão de um carro (manual, automática), conformidade de qualidade de um produto (aceito, não aceito), dia chuvoso (sim, não), resultado final de um aluno numa disciplina (aprovado, reprovado) etc.

A análise de uma variável categórica é muito restrita e simples:

conta-se quantas unidades amostrais ou resultados observados em cada categoria da variável e calcula-se o percentual de ocorrência de cada classe ou categoria.

A função de cada

variável na base

de dados, assim

como o seu tipo,

definirá que tipo de

análise será feita.

(25)

II) Variável quantitativa: é aquela obtida por meio de um processo de medição ou contagem. Por exemplo: peso, altura, dosagem e concentrações de produtos químicos e outros insumos, temperatura, pressão, altitude, umidade, largura, diâmetro, comprimento, voltagem, corrente, quantidade de chuva (mm), número de falhas, número de ligações telefônicas, número de mensagens eletrônicas, número de faltas de um aluno numa disciplina, nota final na disciplina, área, preço, etc.

A variável quantitativa possui o mais alto nível de informação, sendo objeto de inúmeras técnicas de análise. Para cada variável quantitativa podemos calcular seu valor médio, mediano, modal, mínimo, máximo, seu desvio padrão, coeficiente de variação, intervalos específicos de variação e outras técnicas analíticas que serão descritas na próxima unidade.

As variáveis quantitativas são chamadas também de numéricas, mas essa nomenclatura pode gerar confusão, pois o simples fato de alocar números aos resultados de uma variável não a torna quantitativa. Por exemplo, se os grupos sanguíneos fossem classificados em 1, 2, 3 e 4 (ao invés de A, B, AB e O), tal codificação não a tornaria uma variável quantitativa. Na verdade, para que uma variável seja quantitativa, deve ser possível aplicarmos operações aritméticas aos seus resultados. A capacidade de realizarmos, por exemplo, somas e subtrações “válidas” aos resultados de uma variável é um indicativo de que ela é quantitativa. Claro que a análise do seu processo de obtenção é mais importante: os resultados de uma variável quantitativa devem ser obtidos por medição ou contagem. Além disso, essas variáveis podem ser contínuas, quando representadas por números reais, ou discretas, quando representadas por números inteiros.

Usualmente, se ela é obtida por medição, então é contínua. Caso seja obtida por meio de contagem, é uma variável discreta. Para efeitos práticos, não faremos distinção entre variáveis contínuas e discretas, o fundamental é entendê-las como quantitativas.

As variáveis

quantitativas são

chamadas também

de numéricas.

(26)

Algumas variáveis originalmente de classificação. As notas obtidas por um aluno numa prova são tratadas como quantitativas, mesmo que não sejam obtidas por meio de um aparelho ou dosador. Nesse caso, a nota de uma prova é tratada como variável quantitativa porque considera-se válido aplicar operações aritméticas aos seus resultados. Entretanto, será que um aluno que obtém 80 pontos numa disciplina sabe o dobro que um aluno que obteve 40 pontos?

Claro que não. Já uma pessoa de 100 Kg tem o dobro de peso de uma pessoa de 50 Kg. Outro exemplo, as temperaturas medidas em Graus Celsius são tratadas como variáveis quantitativas. Isso quer dizer que um dia com 40ºC tem o dobro de calor de um dia com 20ºC? Transforme os valores em Graus Celsius para Kelvin e compare o resultado.

Bom, os conceitos por trás dessa discussão envolve o nível de mensuração da variável (nominal, ordinal, intervalar e de razão) que será tratado a seguir. Para efeito prático, consideraremos somente duas categorias de variáveis: quantitativas versus categóricas.

Conforme citado anteriormente, esses são os tipos de variável coletadas em problemas típicos de Ciências Exatas e de Engenharia.

Uso do Excel como um sistema de

gerenciamento de dados e dos formulários do

Google Docs para coleta de informações

Duas ferramentas essenciais para coleta de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e Engenharia são o Excel, um dos componentes do

Para efeito prático, consideraremos somente duas categorias de variáveis:

quantitativas

versus categóricas.

(27)

pacote Office da Microsoft, e os Formulários do Google Docs

<https://docs.google.com/forms>.

O Excel é uma planilha eletrônica com origens no Lotus 1-2-3 (GAZZARRRINI, 2013). Ambas as ferramentas são extremamente práticas, de grande utilidade e serão discutidas por meio de vídeo aulas.

Os formulários do Google Docs são ótimos para pesquisas envolvendo pessoas que têm endereço eletrônico (e-mails).

Para usá-los você terá que obter uma lista com os nomes dos respondentes e os respectivos e-mails. Após construir o formulário de coleta de dados no Google Docs, você poderá enviá-lo usando o mecanismo de “mala direta”, da aba “correspondências” do Word, que também é parte do pacote Office da Microsoft. As respostas enviadas pelos respondentes são automaticamente armazenadas em planilha eletrônica, facilitando a coleta e a análise dos dados.

É crucial que você domine o Excel como instrumento de coleta de dados e entenda perfeitamente o papel de cada variável a ser coletada. Identificar variáveis explicativas e desfecho (s), distinguir entre variável quantitativa e categórica é uma questão relativamente simples, mas fundamental para as discussões que serão feitas nas próximas unidades.

Considere o artigo “Utilização de efluente de frigorífico, tratado com macrófita aquática, no cultivo de tilápia do Nilo”, de autoria de Adilson Reidel e outros pesquisadores da Universidade Estadual do Oeste do Paraná (REIDEL et al.; 2005) disponível em:

<http://www.agriambi.com.br/revista/suplemento/index_arquivos/

PDF/181.pdf>

(28)

Neste trabalho, os pesquisadores fizeram um experimento em que, resumidamente, foram colocadas amostras aleatórias de alevinos (“filhotes”) de tilápia em aquários com água potável (tratamento A) e em tanques com efluente de frigorífico após passar num sistema de filtro com aguapé (tratamento B), avaliando-se comparativamente o desenvolvimento e a sobrevivência dos peixes. A pergunta principal da pesquisa era: “É possível cultivar tilápias em efluente de frigorífico tratado com aguapé?”

Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um conjunto de variáveis envolvidas na pesquisa.

TABELA 1 – Valores médios dos parâmetros físico-químicos determinados durante o cultivo da tilápia do Nilo (O. niloticus)

Fonte: REIDEL et al., 2005.

PARÂMETROS TRATAMENTOS

A B

Temperatura média (ºC) 26,4 = 1,60 26,4 = 1,70

Oxigienio Dissolvido (mg L-1) 7,17 = 0,60 7,18 = 0,90 Condutividade Elétrica (uS cm-1) 227,48 = 36 1779,7 = 68

pH 8,44 = 0,12 7,40 = 0,35

Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de filtro de aguapé + ração)

TABELA 2 – Valores médios de desempenho e sobrevivência de alevinos de tilápia do Nilo, cultivados com água potável e efluente tratado

Fonte: REIDEL et al.; 2005.

VARIÁVEIS Tratamento A Tratamento B Teste t-Student

T calculado

média O média O

Peso inicial (indivíduo) (g) 0,235 a 43,267 0,232 a 46,113 0 Biomassa inicial (aquário) (g) 1,172 a 2,426 1,160 a 1,901 0,001 Peso final (indivíduo) (g) 1,391 a 42,269 1,054 a 45,582 0,028 Biomassa final (aquário) 5,280 a 38,890 4,300 a 45,721 0,028

Sobrevivência (%) 75 a 80,467 80 a 25,819 0,08

Médias seguidas da mesma letra, na linha, não diferem significadamente pelo teste t de Student ao nível 5% de significância

(29)

Esse é um exemplo prático da aplicação de conceitos discutidos na Unidade 1 em experimentos de pequeno e médio porte na área de Ciências Exatas e de Engenharia. O experimento é baseado em amostragem e analisa o impacto de variáveis explicativas em desfechos diretamente ligados ao objetivo do projeto: sobrevivência dos peixes, peso e biomassa final no aquário.

Nesse trabalho são usadas três variáveis resposta, uma categórica (“O peixe sobreviveu?” “sim ou não”) e dois desfechos quantitativos (peso final e biomassa final, medidos em gramas). Dentre as variáveis explicativas envolvidas, a mais importante, que está diretamente ligada ao objetivo da pesquisa é o tipo de tratamento (A versus B), uma variável categórica dicotômica.

Muitas pessoas têm dificuldade em identificar essa variável explicativa, apesar dela ser a mais importante na pesquisa. As outras variáveis explicativas são todas quantitativas e, como tal, foram obtidas por meio de um processo de medição, contagem ou dosagem: temperatura (ºC), oxigênio Dissolvido (mg L-1), condutividade Elétrica (μS cm-1), pH, peso inicial (g) e biomassa inicial (g).

Nas tabelas apresentadas aparecem métricas (média, desvio padrão e valor de t de student) que são usadas na análise e na conclusão do projeto. Fique tranquilo, esses conceitos serão tratados nas próximas unidades!

De qualquer forma, a conclusão da pesquisa para a pergunta “É possível cultivar tilápias em efluente de frigorífico tratado com aguapé?”, é: “Sim, é possível cultivar tilápias em efluente de frigorífico tratado com aguapé. Os dados não mostraram diferença significativa entre os dois tratamentos, tanto em relação ao desenvolvimento quanto à sobrevivência dos peixes”.

O entendimento completo das razões para chegar a essa conclusão será obtido nas próximas unidades. Entretanto, neste momento, é

(30)

fundamental que você já entenda conceitos referentes ao processo de amostragem/coleta de dados e, principalmente, que consiga diferenciar os tipos e as funções das variáveis numa pesquisa.

Revisão

Vimos nessa unidade alguns dos principais tópicos introdutórios do campo da Estatística. Em resumo, estudamos sobre:

População, amostra, censo e amostragem:

- Censo de toda a população não é viável, devido aos altos custos e/ou quando a pesquisa envolve ensaios destrutivos.

- Uma pequena, mas cuidadosamente escolhida, amostra pode ser usada para representar a população.

- Os resultados observados numa amostra representativa poderão ser generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtida no caso de trabalhar com toda a população.

- A questão mais importante numa amostragem não é o tamanho da amostra, mas como a amostra será obtida, pois o delineamento amostral mal feito invalida qualquer pesquisa.

Tipos de variáveis:

- Variável qualitativa ou categórica: é aquela que expressa características ou atributos de classificação, distribuídos em categorias mutuamente exclusivas de objetos ou entidades.

- Variável quantitativa: é aquela obtida por meio de um processo de medição ou contagem.

Variável

quantitativa: é

aquela obtida

por meio de

um processo

de medição ou

contagem.

(31)

Função das variáveis:

- Variáveis de identificação e auxiliares: servem para o rastreamento dos indivíduos e das unidades amostrais ou são usadas na definição de outras variáveis.

- Variáveis explicativas: são aquelas que, por hipótese, podem influenciar, determinar ou afetar a variável resposta ou desfecho da pesquisa.

- Variável desfecho: é aquela que queremos explicar, em função de ser influenciada e/ou afetada por outros fatores (variáveis explicativas). Também denominada de variável dependente ou variável resposta. Aconselha-se sempre definir um ou mais desfechos para o estudo, conforme os objetivos da sua pesquisa.

Ainda compreendemos que alguns sistemas computacionais são ferramentas essenciais para coleta de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e da Engenharia.

São eles: o Excel, um dos componentes do pacote Office da Microsoft, e os Formulários do Google Docs <https://docs.google.com/forms>.

Para aprofundar sobre as questões discutidas nessa unidade, leia o Capítulo 1 do livro texto: LEVINE, David M. et al. Estatística: teoria e aplicações usando Microsoft Excel em português, 3º edição ou superior:

“Introdução e Coleta de Dados”, assim como o suplemento do capítulo 1

“Introdução à Utilização do Microsoft Excel”.

(32)
(33)

Análise

exploratória de dados

• Sintese gráfica de dados

• Sintese tabular de dados

• Sinteses numérica de dados

• Revisão

Introdução

Conforme citado na Unidade 1, se você usar técnicas de análise estatística, você poderá rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem, como exemplo, que tal se tornar um especialista em reprovação em disciplinas básicas de cursos de Engenharia e Tecnologia? E você não precisará “repetir” nenhuma dessas disciplinas para ser um especialista em reprovação...! Esse é um problema bem conhecido, mas suas causas e fatores associados não! Uma hipótese é que durante o ensino fundamental e médio muitos alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deficiência então culmina nos cursos de Engenharia com altos índices de reprovação no ciclo básico. Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral e Algoritmos (AEDS) podem ser verdadeiros “infernos”

para alunos da área de Exatas.

Considerando o problema geral “desempenho acadêmico em disciplinas de ciclo básico de cursos de Engenharia”, que tal analisar dados de amostra de alunos, buscando identificar as características e possíveis fatores associados aos desfechos “conceito” (aprovado ou reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a disciplina?” (sim ou não)?

Para resolver o problema acima, qual a primeira providência? Muitos podem pensar: “Preciso estudar melhor o assunto, fazer uma revisão da literatura sobre o problema. Em seguida, preciso planejar

(34)

de Belo Horizonte – UniBH, cujo título da pesquisa é “Fatores associados ao desempenho acadêmico de alunos em disciplinas do ciclo básico de cursos de Engenharia”. A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa (CEP) do UniBH com o nº 920.308, em 17/12/2014 e os dados estão disponíveis para download no link:

http://disciplinas.nucleoead.com.br/complementos/graduacao/

grad_ep/arquivos/dados_brutos.xlsx.

Agora que você já tem acesso aos dados, qual o próximo passo para resolvermos o problema de reprovação e abandono em Cálculo, GAAL, Química Geral e AEDS? A primeira etapa de qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas a dados já coletados, é a análise exploratória dos mesmos. Como o próprio nome diz, a análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm como objetivo fazer uma síntese dos dados, organizando-os sob a forma de tabelas, gráficos e números. Portanto, para entendermos e resolvermos nosso problema de reprovação, precisamos estudar as ferramentas da Estatística Descritiva:

a. Síntese tabular: Resumo da análise por meio de tabelas;

b. Síntese numérica: Medidas de posição (média, mediana e moda) e medidas de variabilidade (soma dos quadrados dos resíduos, variância, desvio padrão, coeficiente de variação);

c. Síntese gráfica: Gráficos de pizza, barra, coluna, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot.

O objetivo desta unidade é promover o conhecimento fundamental que lhe permitirá entender dados coletados, transformando dados brutos em informações úteis!

(35)

Uma figura vale mais que mil palavras! Isso é verdade, entretanto um gráfico vale mais que mil palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase “basta olhar para entender” seja válida. Os gráficos mais úteis para análise de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e Engenharia são: gráficos de pizza, barras, colunas, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot (tabela 3).

De todos esses, somente vejo sentido em construi-los “à mão”

histogramas e diagramas de dispersão. Entretanto, na prática devemos construir gráficos usando ferramentas computacionais como o Excel.

Síntese gráfica de dados

TABELA 3 - Gráficos mais úteis para análise de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e Engenharia.

Fonte: Elaborado pelo autor.

Pizza ou setor Colunas (verticais) Barras (horizontais) Histograma

Gráficos de linha Séries históricas Gráfico de Pareto Gráfico misto, de coluna e linhas Diagrama de dispersão Box-plot

Uma Uma Uma Uma Duas Duas Uma Duas Duas Uma ou mais

Categórica Categórica Categórica

Quantitativa, mas categorizada numa tabela de distribuição de frequências

Quantitativa no eixo vertical, e categórica no eixo horizontal Quantitativa no eixo vertical, e

o “tempo” no eixo horizontal Categórica

Quantitativa no eixo vertical, e o “tempo” no eixo horizontal

Variável explicativa quantitativa no eixo horizontal, e desfecho quantitativo no eixo vertical

Quantitativa TIPO DE GRÁFICO NÚMERO DE VARIÁVEIS

ENVOLVIDAS TIPO DE VARIÁVEL ANALISADA

(36)

Como fazer os gráficos? Siga regras e comentários abaixo e você terá sucesso ao desenhar gráficos:

1. Um gráfico deve conter um título, entretanto este não deve ser colocado no próprio gráfico (como o Excel insiste em fazer...). Quando desenhamos um gráfico usando o Excel, por exemplo, este será exportado para algum documento do Word ou para o PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do gráfico será então colocado no slide ou na descrição da figura no editor de textos, sendo desnecessário e errado colocá-lo no meio do próprio gráfico. Mesmo em casos excepcionais, quando o gráfico não é exportado para nenhum outro aplicativo, sendo impresso diretamente do Excel, o título não deve ser colocado no meio da figura. O título deve ser inserido no cabeçalho da planilha que contém o gráfico.

2. Ao escrever um relatório, comece pelas figuras. É impressionante, mas as pessoas leem artigos científicos, relatórios técnicos, jornais e revistas de “fofoca” da mesma forma: começamos pelas figuras! Por isso, o título de gráficos e tabelas deve ser o mais claro possível: toda informação necessária para o entendimento da figura deve estar no seu título. Essa é uma tendência das revistas científicas (Nature, Science, por exemplo) e tem um efeito colateral: o título da figura fica muito longo. Isso não é exatamente uma regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de figuras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando? Onde?

A interpretação das informações no gráfico também deve ser colocada como subtítulo da figura. Se necessário, coloque notas explicativas, usando siglas somente para coisas realmente conhecidas de quem lerá o seu texto (seu chefe ou o chefe do seu chefe...). Veja um exemplo de gráfico de pizza na figura a seguir.

Mesmo em casos

excepcionais,

quando o gráfico

não é exportado

para nenhum

outro aplicativo,

sendo impresso

diretamente do

Excel, o título não

deve ser colocado

no meio da figura.

(37)

A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou somente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quarto dos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas de contingência, ferramentas que serão discutidas na Unidade 7 deste livro.

Fonte: BAILAR & MOSTELLER,1992.

FIGURA 2 – Principais ferramentas estatísticas encontradas em artigos publicados no New England Journal of Medicine (NEJM).

3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar os rótulos nos eixos, o Excel coloca o título no meio da figura e uma legenda que não tem a menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de um grupo de dados na figura. Veja um exemplo correto de gráfico de barras na figura a seguir.

(38)

FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenharia e Tecnologia do Centro Universitário de Belo Horizonte – UniBH.

Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399 alunos.

Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica e Álgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados.

Fonte: Elaborado pelo autor.

4. Não existe regra fixa para a escolha da escala do gráfico.

Qualquer escala é boa desde que os valores no gráfico não fiquem muito espalhados nem muito juntos numa única região da figura.

5. Sombreamento, efeitos 3D e pequenas figuras relacionadas com o tipo de dado usado no gráfico, colocados para dar vida à figura: na maioria das vezes esses efeitos são inúteis, podendo até mesmo distorcer o gráfico.

6. A maioria dos gráficos apresenta o valor zero como ponto de início dos eixos, mas isso não é necessário se o ponto de início da escala é devidamente marcado na figura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do gráfico. Para os gráficos de linha isso

(39)

não é problemático, entretanto, quando se tratar de gráficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base da coluna. Caso isso não seja feito, ocorre uma distorção do gráfico levando a uma interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráfico, como não começa no valor zero, está errado, ele

“ilude o leitor”: a auditoria foi um sucesso?!

FIGURA 4 – Exemplos de gráfico de colunas: o valor zero deve obrigatoriamente ser incluído na figura.

Fonte: Elaborado pelo autor.

7. Mais de uma curva ou linha pode ser desenhada em um único gráfico com o objetivo de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo símbolos).

Linhas de grade, usualmente colocadas no gráfico para auxiliar a leitura das escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.

(40)

FIGURA 5- Exemplo de gráfico com legenda identificando diferentes dados.

Fonte: Elaborado pelo autor.

8. Os gráficos devem ser desenhados no formato de paisagem, com a altura tendo aproximadamente ¾ da sua largura. Caso isso não seja feito, poderá haver distorção da figura e da própria informação, que fica comprometida:

o primeiro gráfico está correto, mas os outros estão na categoria “como mentir com estatística”...

(41)

FIGURA 6 – Formato dos gráficos: a figura deve ser desenhada em formato de paisagem, com a altura tendo aproximadamente 75% da largura.

Fonte: Elaborado pelo autor.

FIGURA 7 – Gráfico distorcido: desenhando a figura com a altura muito pequena, em relação à largura, a informação é falseada e se tem a sensação de estabilidade dos dados.

Fonte: Elaborado pelo autor.

(42)

FIGURA 8 - Gráfico distorcido: desenhando a figura com a altura muito grande, em relação à largura, a informação é falseada e se

tem a sensação de redução dos dados ao longo do tempo

Fonte: Elaborado pelo autor.

9. Gráficos de pizza, “o queridinho”: Apesar de muito

“engraçadinhos”, estes gráficos são muitos confusos.

Evite o seu uso, substituindo por gráficos de barra ou de colunas. É aceitável construi-los somente quando são poucos setores bem definidos (até cinco pedaços). Evitar gráficos de pizza em 3D, com vários pedaços. Construi- los como na figura 2.

10. Diagrama de dispersão: Ferramenta que nos permite avaliar o efeito de uma variável explicativa quantitativa sobre um desfecho. Serve tanto para visualizarmos funções matemáticas teóricas (figura 9) quanto funções de relacionamentos empíricos já conhecidos (figura 10), mas a sua grande utilidade é quando tentamos estabelecer a associação entre duas variáveis quantitativas (figura 11). A figura 9 é um diagrama de

(43)

dispersão mostrando uma relação completamente teórica entre duas variáveis (x e y). Como é uma relação exata, somente é desenhada a linha que liga os pontos do gráfico. Na figura 10 é desenhada uma relação empírica, no caso a lei de Abrams, que relaciona a resistência do concreto à compressão (R) com o fator água/cimento (fx) da seguinte forma: R = α/βfx. Nessa figura, α e β foram definidos como 100 e 10 respectivamente, de tal forma que a equação ficou R = 100/10fx, fx variando de 0 a 3.

Já a figura 11 mostra o uso “nobre” dos diagramas de dispersão, quando tentamos explorar, criar e propor uma nova relação empírica entre duas variáveis quantitativas.

Nesse exemplo, ao invés de aplicarmos a relação empírica de Abrams, usamos dados reais de fator fx de água/cimento e a resistência medida em 28 dias de uma amostra de concretos (desfecho). Ao inserirmos uma linha de tendência linear, estamos sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão do concreto se relaciona com fx por meio de uma equação de reta.

FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando a relação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama

está mostrando uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.

Fonte: Elaborado pelo autor.

(44)

Fonte: Elaborado pelo autor.

FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrando a relação empírica da lei de Abrams que relaciona a resistência à compressão

de concretos, medida em megapascal (MPa), e o fator água/cimento (fx), determinado pela razão do peso de água pelo peso em cimento do concreto.

FIGURA 11 – Diagrama de dispersão somente com os marcadores e sem linhas contínuas mostrando uma possível relação linear entre resistência à

compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).

Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar a Resistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/Dario.pdf. Acesso em 14 maio 2015.

(45)

A figura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X) e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão, você deve interpretar o gráfico gerado em um dos quatro padrões mostrados na figura 12. A) Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em “linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B) Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média, quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim “em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y) e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D) Sem associação: Também é um padrão importante, pois indica que não há relação entre as duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na maioria das disciplinas que ele cursa.

FIGURA 12 – Padrões de relacionamentos entre variáveis avaliadas por meio de diagrama de dispersão: correlação positiva (A), correlação negativa (B), associação curvilinear (C) e

ausência de associação (D).

Fonte: Elaborado pelo autor.

(46)

11. Histograma: A ideia deste gráfico é categorizar uma variável quantitativa, dividindo-a em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e construir um gráfico de colunas com o resultado. Ao se interpretar um histograma, deve-se tentar responder às seguintes questões: Qual é a forma da distribuição dos dados? Existe um ponto central bem definido? Como é a amplitude de variação dos dados? Existe apenas um pico isolado? A distribuição é simétrica? Os exemplos abaixo podem auxiliá- lo na interpretação de um histograma. Procure descobrir com qual destes oito tipos o seu histograma se parece.

Exemplo 1 - Histograma simétrico: A frequência de dados é mais alta no centro e decresce gradualmente à esquerda e à direita de forma aproximadamente simétrica, em forma de sino.

Fonte: Elaborado pelo autor

Exemplo 2 - Histograma fortemente assimétrico: A frequência dos dados decresce rapidamente num dos lados e muito lentamente no outro, provocando uma assimetria na distribuição dos valores. A distribuição dos salários numa empresa é um exemplo comum de histograma assimétrico: muitas pessoas ganham pouco e poucas pessoas ganham muito (a). A situação (b), apesar de mais rara, também pode acontecer.

(47)

Fonte: Elaborado pelo autor

Exemplo 3 - Histograma tipo despenhadeiro: O histograma termina abruptamente em um ou nos dois lados, dando a impressão de que faltam dados. Na verdade, essa possivelmente deve ser a explicação para histogramas com esse formato: os dados muito pequenos e/

ou muito grandes foram eliminados da amostra.

(48)

Fonte: Elaborado pelo autor

Fonte: Elaborado pelo autor

Exemplo 4 - Histograma com dois picos: Ocorrem picos na distribuição e a frequência é baixa entre os picos. Possivelmente, os dados se referem a uma mistura de valores de diferentes populações, devendo ser avaliados com cuidado. Se houve mistura dos dados, é melhor separá-los.

Exemplo 5 - Histograma tipo platô: As classes de valores centrais apresentam aproximadamente a mesma frequência. Essa situação também sugere mistura de valores de diferentes populações.

(49)

Fonte: Elaborado pelo autor

Fonte: Elaborado pelo autor

Exemplo 6 – Histograma com uma pequena ilha isolada: Alguns valores isolados têm frequência elevada, formando uma espécie de ilha. Também pode ter ocorrido uma mistura de dados.

Exemplo 7 – Histograma tipo serrote: As frequências de valores se alternam formando vários dentes. Pode indicar algum problema na obtenção (leitura) dos dados.

(50)

Fonte: Elaborado pelo autor

Fonte: Elaborado pelo autor

Vamos usar como exemplo de dados para a construção de um histograma notas de amostra de alunos em uma prova de Cálculo Diferencial (n=120):

FIGURA 13 – Dados brutos de notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.

0 0 0 1 5 5 6 9 13 17 18 21 0 0 0 1 5 5 6 10 13 17 18 21 0 0 0 1 5 5 6 11 14 17 20 22 0 0 0 2 5 5 9 11 14 17 20 22 0 0 0 2 5 5 9 12 14 17 20 24 0 0 0 3 5 5 9 12 14 17 20 24 0 0 0 3 5 5 9 13 15 17 20 25 0 0 0 5 5 6 9 13 15 17 20 25 0 0 0 5 5 6 9 13 17 18 21 25 0 0 1 5 5 6 9 13 17 18 21 25

Passo 1 - Determinar valores mínimo, máximo e amplitude (R):

mín = 0; máx = 25; R = máx – mín = 25 – 0 = 25

Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. O número de classes deve ser

(51)

algo entre 5 a 20 subintervalos. Regra empírica: k

n e

5

k

20 . No exemplo, n ≈ 120; k ≈

120 ≈ 10.

Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ R . No exemplo, h ≈ R

25

. ≈ 2,5 Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10 classes de tamanho 2,5.

Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero (valor mínimo), teremos uma tabela de distribuição de frequências, base para construção do histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos valores se encaixam em cada classe.

Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo, mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas com o símbolo

“invertido”, |--, que indica valores maiores ou iguais ao número colocado à esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo Excel na construção de histogramas (figura 14).

Lembre-se de que o total, a soma da coluna “Frequência”, deve ser exatamente o tamanho da amostra (n). Além da coluna de frequência absoluta, podemos calcular a frequência relativa ou percentual de cada classe (em relação ao total de valores) e

k k 10

Lembre-se de que

o total, a soma da

coluna “Frequência”,

deve ser exatamente

o tamanho da

amostra (n).

(52)

a frequência acumulada ou percentual acumulado, útil para a construção de gráficos de Pareto (que será explicado mais à frente).

FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.

0,0 |--| 2,5 35 29% 29%

2,5 --| 5,0 22 18% 48%

5,0 --| 7,5 6 5% 53%

7,5 --| 10,0 9 8% 60%

10,0 --| 12,5 4 3% 63%

12,5 --| 15,0 12 10% 73%

15,0 --| 17,5 10 8% 82%

17,5 --| 20,0 10 8% 90%

20,0 --| 22,5 6 5% 95%

22,5 --| 25,0 6 5% 100%

Total 120 100%

NOTA FREQUÊNCIA PERCENTUAL PERCENTUAL ACUMULADO

Fonte: Elaborado pelo autor

Fonte: Elaborado pelo autor

FIGURA 15 – Histograma com a distribuição das notas na prova de Cálculo Diferencial: os dados mostram um padrão de distribuição assimétrico,

semelhante àquele apresentado no histograma do exemplo 2.

Referências

Documentos relacionados

The project workplan recognised the need to offer to the teachers a sound background on pedagogical and technical aspects of on-line labs. An accompanying training programme

Com o intuito de discriminar a causa que levou à variação da espessura do revestimento ao longo da pista, procedeu-se à observação de amostras de WC-Ni e Stellite 6

1 – Abra a transformação do exercício anterior, clique com o botão direito em cima do step Excel input e escolha a opção Movimento dos dados -&gt; Distribui os dados para os

Para alcançar esta meta o serviço tem diversas áreas de trabalho tais como: a inventariação dos equipamentos e a actualização do seu cadastro; o historial

​Saliente-se que o Brasil registrou crescimento nas doações e transplantes de órgãos em 2016, de acordo com levantamento da Associação Brasileira de Transplantes de

Um programa de reabilitação convencional em um período de quatro semanas, associado a um treino de 100 repetições da troca postural de sentar para em pé em cadeira de altura de

Primeiro por que o avanço na quantidade de casos é para todos e não há fronteiras entre bairros e regiões, e depois por que a diferença não é tão grande e ainda assim estão

Nos ensaios efectuados na estufa de infravermelho de 3 m, as potências requeridas para efectuar a cura da resina fenólica aplicada em diversos produtos