Análise de dados
Mathias M Pires BE180
BE-180
Objetivo:
Como testar hipóteses a partir da análise dos dados e
como interpretar os resultados da análise
BE-180
A essência do método científico é o teste de hipóteses com o objetivo de responder perguntas sobre um fenômeno
BE-180
BE-180
A essência do método científico é o teste de hipóteses com o objetivo de responder perguntas sobre um fenômeno
BE-180
BE-180
Hipóteses são respostas plausíveis para uma pergunta
BE-180
• Pergunta: Qual o benefício que plantas obtém ao oferecer recursos às formigas?
BE-180
Hipóteses são respostas plausíveis para uma pergunta
BE-180
• Pergunta: Qual o benefício que plantas obtém ao oferecer recursos às formigas?
• Hipótese: Formigas protegem plantas de seus inimigos naturais
BE-180
Uma hipótese deve ter uma ou mais previsões em termos de variáveis que podemos medir ou determinar
• Pergunta: Qual o benefício que plantas obtém ao oferecer recursos às formigas?
• Hipótese: Formigas protegem plantas de seus inimigos naturais
• Previsão: Porcentagem de dano foliar é menor em plantas colonizadas por formigas
BE-180
Uma hipótese deve ter uma ou mais previsões em termos de variáveis que podemos medir ou determinar
• Pergunta: Presença de predadores influencia a diversidade?
• Hipótese: Predadores aumentam a diversidade pois controlam a abundância de suas presas
• Previsão: Riqueza de espécies será maior e dominância menor em áreas onde predadores estão presentes
BE-180
Para verificar a validade de uma hipótese precisamos contrastar nossas previsões com dados empíricos
1. Estudos experimentais:
- Testes para identificar relação de causa-e-efeito - Controle de fatores de confusão
- Manipulação de um fator de interesse - Não podem ser realizados para todos
organismos/sistemas
2. Estudos Observacionais
- Inferência sobre relações entre as variáveis - Utiliza dados coletados na natureza
- Fatores de confusão não podem ser controlados diretamente
BE-180
Para verificar a validade de uma hipótese precisamos contrastar nossas previsões com dados empíricos
1. Estudos experimentais:
- Testes para identificar relação de causa-e-efeito - Manipulação do fator de interesse
- Controle dos fatores de confusão
- Limitado a certos organismos/sistemas 2. Estudos Observacionais
- Inferência sobre relações entre as variáveis - Utiliza dados coletados na natureza
- Fatores de confusão não podem ser controlados diretamente
BE-180
Estudo observacional sobre a interação entre aves frugívoras e palmeiras
BE-180
Em angiospermas as sementes carregam os embriões que dão origem a novos indivíduos
BE-180
BE-180
O acúmulo de sementes reduz o sucesso de germinação pois atrai predadores e patógenos e aumenta competição por nutrientes e luz
BE-180
As plantas possuem estratégias que aumentam a capacidade de dispersão das sementes
BE-180
Nas interações entre frugívoros e plantas os animais obtém alimento e as plantas têm suas sementes dispersas (maior chance de sucesso da prole)
BE-180
As interações entre frugívoros e plantas são limitadas pela relação entre o tamanho do fruto e o tamanho do frugívoro
BE-180
Aves (especialmente as maiores) são ameaçadas pela caça e pela perda e fragmentação de habitat
BE-180
Pergunta: Quais os possíveis efeitos da defaunação sobre a dispersão de sementes?
Hipótese: A perda seletiva das grandes aves
frugívoras prejudica a dispersão de sementes grandes
Previsão: Sementes dispersas serão menores
BE-180
Para testar essa hipótese precisamos identificar previsões relacionadas à hipótese
Hipótese: A perda seletiva das grandes aves
frugívoras prejudica a dispersão de sementes grandes
Previsão: Sementes dispersas serão menores
BE-180
Uma previsão é uma relação entre variáveis que podemos medir ou definir a partir dos dados (operacionais)
• Variável resposta: tamanho da semente
• Variável preditora: grau de preservação da área (preservada ou defaunada)
*Variável: quantidade mensurável ou um atributo de um objeto
BE-180
O primeiro passo para testar uma hipótese é inspecionar os dados
• Tamanho da semente é uma variável quantitativa contínua (quantidades mensuráveis) • Status da área é uma variável categórica
Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 D 13.00 ND 13.5 ND 12.5 ND ... ...
BE-180
Vamos inspecionar a distribuição do tamanho das sementes que coletamos construindo um histograma
Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 D 13.00 ND 13.5 ND 12.5 ND ... ...
*Distribuição é a relação entre a frequência e os valores presentes em uma coleção de observações *Histograma é um diagrama que descreve a
frequência de valores em diferentes intervalos
Áreas defaunadas (D)
BE-180
BE-180
O histograma nos dá uma representação visual da distribuição dados, mas podemos usar estatísticas descritivas para caracterizar a distribuição
• A média ( ҧ𝑥) de uma amostra é uma medida de tendência central
• O valor mais provável em uma amostra
ҧ𝑥 = σ𝑖=1 𝑛 𝑥 𝑖 𝑛 = 𝑥1 + 𝑥2 + ⋯ 𝑥𝑛 𝑛 ഥ 𝒙 = 𝟏𝟎. 𝟎𝟏 ഥ 𝒙 = 𝟏𝟏. 𝟗𝟖 - xi é um valor observado
- n é o número de valores observados
Estatística: qualquer medida calculada a partir dos dados
BE-180
• A variância (𝑠2) é uma medida de
dispersão dos dados em relação à média 𝑠2 = σ𝑖=1 𝑛 𝑥 𝑖 − ҧ𝑥 2 𝑛 = 𝑥1 − ҧ𝑥 2 + 𝑥2 − ҧ𝑥 2 + ⋯ 𝑥𝑛 − ҧ𝑥 2 𝑛 𝒔𝟐 = 𝟏. 𝟎𝟏 𝒔𝟐 = 𝟎. 𝟗𝟗
O histograma nos dá uma representação visual da distribuição dados, mas podemos usar estatísticas descritivas para caracterizar a distribuição
BE-180
Podemos inspecionar a distribuição dos dados usando outros tipos de representações e estatísticas
• Máximo: maior valor • Mínimo: menor valor
• Amplitude: max(x) – min(x)
• Mediana: valor que divide distribuição (50% abaixo e 50% acima)
• Quantis: valor que divide distribuição em determinado percentil
• Moda: valor mais frequente na distribuição
BE-180
Certas estatísticas são melhores que as outras para caracterizar uma distribuição dependendo da forma da distribuição dos dados
Média= 10 Mediana = 6 Moda = 0 Média= 9.6 Mediana = 9.4 Modas = 7 e 12
BE-180
A partir da distribuição podemos inferir quais valores são menos ou mais prováveis
BE-180
A partir da distribuição podemos inferir quais valores são menos ou mais prováveis
BE-180
A partir da distribuição podemos inferir quais valores são menos ou mais prováveis
BE-180
A inspeção visual dos dados é um passo essencial na análise de dados e na ciência de maneira geral
• Permite identificar padrões
• Indica estatísticas e análises mais adequadas • Auxilia a interpretar resultados de uma análise
Explorem os dados visualmente antes de qualquer análise
BE-180
Voltando ao estudo de caso...
Hipótese: A perda seletiva das grandes aves frugívoras prejudica a dispersão de sementes grandes
BE-180
As distribuições do tamanho de sementes são distintas entre as áreas
ҧ𝑥 = 10,01 mm ҧ𝑥 = 11,98 mm
ҧ𝑥𝑑𝑒𝑓𝑎𝑢𝑛𝑎𝑑𝑜 − ҧ𝑥𝑝𝑟𝑒𝑠𝑒𝑟𝑣𝑎𝑑𝑜 = − 1,97 mm
Áreas não-defaunadas
BE-180
A diferença que observamos entre as distribuições é significativa ou poderia ser uma particularidade da nossa amostra?
ҧ𝑥 = 10,01 mm ҧ𝑥 = 11,98 mm
ҧ𝑥
𝑁ã𝑜−𝑑𝑒𝑓𝑎𝑢𝑛𝑎𝑑𝑜 − ҧ𝑥𝑑𝑒𝑓𝑎𝑢𝑛𝑎𝑑𝑜 = 1,97 mm
Qual a chance de encontrarmos tal diferença se não houver uma relação entre a variável resposta e
a variável preditora?
Áreas não-defaunadas
BE-180
Se pudéssemos medir todas as sementes de todas as plantas em todos os locais poderíamos responder a nossa pergunta de forma objetiva.
BE-180
Não conhecemos a distribuição real da variável (população estatística), somente a distribuição dos dados que coletamos (amostra)
ҧ𝑥𝑁𝐷 ≅ 𝜇𝑁𝐷
ҧ𝑥
BE-180
Não queremos testar uma hipótese a respeito da nossa amostra ou de uma realização de um experimento
• Queremos inferir sobre fenômenos que deveriam se aplicar à toda a população
• Inferência estatística: uso de análise de dados para deduzir aspectos sobre a população que os dados representam
BE-180
A forma como coletamos nossos dados (amostragem) determina a representatividade da amostra
• A amostra deve ser representativa para que possamos fazer inferências
• Em estudos observacionais não controlamos todos os fatores que influenciam a variável
BE-180
Para testar se a relação entre variáveis é significativa confrontamos o que observamos com o que seria esperado sob a hipótese de que a relação não existe (Hipótese nula)
𝐻
0: 𝜇
𝐷= 𝜇
𝑁𝐷 Áreas defaunadas Áreas não-defaunadas Áreas defaunadas𝐻
1: 𝜇
𝐷< 𝜇
𝑁𝐷 Áreas não-defaunadas Áreas defaunadasBE-180
Passo a passo
1. Definir uma estatística de interesse
2. Determinar a distribuição da estatística de interesse sob o cenário nulo 3. Calcular a probabilidade da estatística observada sob o cenário nulo
BE-180
Primeiro devemos definir uma estatística de interesse que permita testar a nossa previsão
ҧ𝑥𝑁ã𝑜−𝑑𝑒𝑓𝑎𝑢𝑛𝑎𝑑𝑜 − ҧ𝑥𝑑𝑒𝑓𝑎𝑢𝑛𝑎𝑑𝑜 = 1,97 mm
Diferença entre as médias:
ҧ𝑥 = 10,01 mm ҧ𝑥 = 11,98 mm
BE-180
Um cenário nulo é aquele no qual a variável preditora não tem efeito sobre a variável resposta
Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 D 13.00 ND 13.5 ND 12.5 ND ... ... Tamanho das sementes (mm) Status da área 10.01 ND 10.5 D 11.00 ND 13.00 D 13.5 D 12.5 ND ... ... Observado Simulado
𝐻
0: 𝜇
𝐷= 𝜇
𝑁𝐷BE-180
Um cenário nulo é aquele no qual a variável preditora não tem efeito sobre a variável resposta
Observado Simulado Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 D 13.00 ND 13.5 ND 12.5 ND ... ... Tamanho das sementes (mm) Status da área 10.01 ND 10.5 ND 11.00 D 13.00 D 13.5 ND 12.5 D ... ...
𝐻
0: 𝜇
𝐷= 𝜇
𝑁𝐷BE-180
Um cenário nulo é aquele no qual a variável preditora não tem efeito sobre a variável resposta
Observado Simulado Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 D 13.00 ND 13.5 ND 12.5 ND ... ... Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 ND 13.00 ND 13.5 D 12.5 ND ... ...
𝐻
0: 𝜇
𝐷= 𝜇
𝑁𝐷BE-180
Estamos criando vários cenários possíveis onde não há relação entre as variáveis tamanho de semente e status da área
• Mesmo não havendo relação entre as variáveis por definição, o valor da estatística de interesse quase nunca é exatamente ZERO
BE-180
BE-180
Com qual frequência o valor observado foi encontrado sob o cenário nulo simulado?
ഥ
BE-180
Qual probabilidade de obter o valor observado sob a hipótese nula?
ഥ
BE-180
Valores como o que observamos são muito pouco prováveis (não impossíveis) sob a hipótese nula
p < 0.001
• rejeitamos a hipótese nula (H0) sob o nível de significância de 0.001
• H1 é uma explicação mais plausível para o que observamos
ഥ
BE-180
Portanto, nossos dados permitem rejeitar a hipótese nula e corroboram a nossa hipótese de que a defaunação tem prejudicado a dispersão de
sementes grandes de E. edulis
• Em estudos científicos uma hipótese nunca é provada
BE-180
Diferentes tipos de testes permitem testar diferentes tipos de previsões usando diferentes tipos de variáveis
BE-180
Principais mensagens
1. Inspecione os dados visualmente
2. O que determina o tipo de variáveis e o teste adequado é a hipótese/previsão do estudo
3. A lógica de qualquer teste estatístico é a mesma: • Definimos uma estatística de interesse
• Calculamos a probabilidade de observar o valor obtido sob a hipótese nula (p-valor)