• Nenhum resultado encontrado

Análise de dados. Mathias M Pires BE180

N/A
N/A
Protected

Academic year: 2021

Share "Análise de dados. Mathias M Pires BE180"

Copied!
53
0
0

Texto

(1)

Análise de dados

Mathias M Pires BE180

(2)

BE-180

Objetivo:

Como testar hipóteses a partir da análise dos dados e

como interpretar os resultados da análise

(3)

BE-180

A essência do método científico é o teste de hipóteses com o objetivo de responder perguntas sobre um fenômeno

BE-180

(4)

BE-180

A essência do método científico é o teste de hipóteses com o objetivo de responder perguntas sobre um fenômeno

BE-180

(5)

BE-180

Hipóteses são respostas plausíveis para uma pergunta

BE-180

• Pergunta: Qual o benefício que plantas obtém ao oferecer recursos às formigas?

(6)

BE-180

Hipóteses são respostas plausíveis para uma pergunta

BE-180

• Pergunta: Qual o benefício que plantas obtém ao oferecer recursos às formigas?

• Hipótese: Formigas protegem plantas de seus inimigos naturais

(7)

BE-180

Uma hipótese deve ter uma ou mais previsões em termos de variáveis que podemos medir ou determinar

• Pergunta: Qual o benefício que plantas obtém ao oferecer recursos às formigas?

• Hipótese: Formigas protegem plantas de seus inimigos naturais

• Previsão: Porcentagem de dano foliar é menor em plantas colonizadas por formigas

(8)

BE-180

Uma hipótese deve ter uma ou mais previsões em termos de variáveis que podemos medir ou determinar

• Pergunta: Presença de predadores influencia a diversidade?

• Hipótese: Predadores aumentam a diversidade pois controlam a abundância de suas presas

• Previsão: Riqueza de espécies será maior e dominância menor em áreas onde predadores estão presentes

(9)

BE-180

Para verificar a validade de uma hipótese precisamos contrastar nossas previsões com dados empíricos

1. Estudos experimentais:

- Testes para identificar relação de causa-e-efeito - Controle de fatores de confusão

- Manipulação de um fator de interesse - Não podem ser realizados para todos

organismos/sistemas

2. Estudos Observacionais

- Inferência sobre relações entre as variáveis - Utiliza dados coletados na natureza

- Fatores de confusão não podem ser controlados diretamente

(10)

BE-180

Para verificar a validade de uma hipótese precisamos contrastar nossas previsões com dados empíricos

1. Estudos experimentais:

- Testes para identificar relação de causa-e-efeito - Manipulação do fator de interesse

- Controle dos fatores de confusão

- Limitado a certos organismos/sistemas 2. Estudos Observacionais

- Inferência sobre relações entre as variáveis - Utiliza dados coletados na natureza

- Fatores de confusão não podem ser controlados diretamente

(11)

BE-180

Estudo observacional sobre a interação entre aves frugívoras e palmeiras

(12)

BE-180

Em angiospermas as sementes carregam os embriões que dão origem a novos indivíduos

(13)

BE-180

(14)

BE-180

O acúmulo de sementes reduz o sucesso de germinação pois atrai predadores e patógenos e aumenta competição por nutrientes e luz

(15)

BE-180

As plantas possuem estratégias que aumentam a capacidade de dispersão das sementes

(16)

BE-180

Nas interações entre frugívoros e plantas os animais obtém alimento e as plantas têm suas sementes dispersas (maior chance de sucesso da prole)

(17)

BE-180

As interações entre frugívoros e plantas são limitadas pela relação entre o tamanho do fruto e o tamanho do frugívoro

(18)

BE-180

Aves (especialmente as maiores) são ameaçadas pela caça e pela perda e fragmentação de habitat

(19)

BE-180

Pergunta: Quais os possíveis efeitos da defaunação sobre a dispersão de sementes?

Hipótese: A perda seletiva das grandes aves

frugívoras prejudica a dispersão de sementes grandes

Previsão: Sementes dispersas serão menores

(20)

BE-180

Para testar essa hipótese precisamos identificar previsões relacionadas à hipótese

Hipótese: A perda seletiva das grandes aves

frugívoras prejudica a dispersão de sementes grandes

Previsão: Sementes dispersas serão menores

(21)

BE-180

Uma previsão é uma relação entre variáveis que podemos medir ou definir a partir dos dados (operacionais)

• Variável resposta: tamanho da semente

• Variável preditora: grau de preservação da área (preservada ou defaunada)

*Variável: quantidade mensurável ou um atributo de um objeto

(22)

BE-180

O primeiro passo para testar uma hipótese é inspecionar os dados

• Tamanho da semente é uma variável quantitativa contínua (quantidades mensuráveis) • Status da área é uma variável categórica

Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 D 13.00 ND 13.5 ND 12.5 ND ... ...

(23)

BE-180

Vamos inspecionar a distribuição do tamanho das sementes que coletamos construindo um histograma

Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 D 13.00 ND 13.5 ND 12.5 ND ... ...

*Distribuição é a relação entre a frequência e os valores presentes em uma coleção de observações *Histograma é um diagrama que descreve a

frequência de valores em diferentes intervalos

Áreas defaunadas (D)

(24)

BE-180

(25)

BE-180

O histograma nos dá uma representação visual da distribuição dados, mas podemos usar estatísticas descritivas para caracterizar a distribuição

• A média ( ҧ𝑥) de uma amostra é uma medida de tendência central

• O valor mais provável em uma amostra

ҧ𝑥 = σ𝑖=1 𝑛 𝑥 𝑖 𝑛 = 𝑥1 + 𝑥2 + ⋯ 𝑥𝑛 𝑛 ഥ 𝒙 = 𝟏𝟎. 𝟎𝟏 ഥ 𝒙 = 𝟏𝟏. 𝟗𝟖 - xi é um valor observado

- n é o número de valores observados

Estatística: qualquer medida calculada a partir dos dados

(26)

BE-180

• A variância (𝑠2) é uma medida de

dispersão dos dados em relação à média 𝑠2 = σ𝑖=1 𝑛 𝑥 𝑖 − ҧ𝑥 2 𝑛 = 𝑥1 − ҧ𝑥 2 + 𝑥2 − ҧ𝑥 2 + ⋯ 𝑥𝑛 − ҧ𝑥 2 𝑛 𝒔𝟐 = 𝟏. 𝟎𝟏 𝒔𝟐 = 𝟎. 𝟗𝟗

O histograma nos dá uma representação visual da distribuição dados, mas podemos usar estatísticas descritivas para caracterizar a distribuição

(27)

BE-180

Podemos inspecionar a distribuição dos dados usando outros tipos de representações e estatísticas

• Máximo: maior valor • Mínimo: menor valor

• Amplitude: max(x) – min(x)

• Mediana: valor que divide distribuição (50% abaixo e 50% acima)

• Quantis: valor que divide distribuição em determinado percentil

• Moda: valor mais frequente na distribuição

(28)

BE-180

Certas estatísticas são melhores que as outras para caracterizar uma distribuição dependendo da forma da distribuição dos dados

Média= 10 Mediana = 6 Moda = 0 Média= 9.6 Mediana = 9.4 Modas = 7 e 12

(29)

BE-180

A partir da distribuição podemos inferir quais valores são menos ou mais prováveis

(30)

BE-180

A partir da distribuição podemos inferir quais valores são menos ou mais prováveis

(31)

BE-180

A partir da distribuição podemos inferir quais valores são menos ou mais prováveis

(32)

BE-180

A inspeção visual dos dados é um passo essencial na análise de dados e na ciência de maneira geral

• Permite identificar padrões

• Indica estatísticas e análises mais adequadas • Auxilia a interpretar resultados de uma análise

Explorem os dados visualmente antes de qualquer análise

(33)

BE-180

Voltando ao estudo de caso...

Hipótese: A perda seletiva das grandes aves frugívoras prejudica a dispersão de sementes grandes

(34)

BE-180

As distribuições do tamanho de sementes são distintas entre as áreas

ҧ𝑥 = 10,01 mm ҧ𝑥 = 11,98 mm

ҧ𝑥𝑑𝑒𝑓𝑎𝑢𝑛𝑎𝑑𝑜 − ҧ𝑥𝑝𝑟𝑒𝑠𝑒𝑟𝑣𝑎𝑑𝑜 = − 1,97 mm

Áreas não-defaunadas

(35)

BE-180

A diferença que observamos entre as distribuições é significativa ou poderia ser uma particularidade da nossa amostra?

ҧ𝑥 = 10,01 mm ҧ𝑥 = 11,98 mm

ҧ𝑥

𝑁ã𝑜−𝑑𝑒𝑓𝑎𝑢𝑛𝑎𝑑𝑜 − ҧ𝑥𝑑𝑒𝑓𝑎𝑢𝑛𝑎𝑑𝑜 = 1,97 mm

Qual a chance de encontrarmos tal diferença se não houver uma relação entre a variável resposta e

a variável preditora?

Áreas não-defaunadas

(36)

BE-180

Se pudéssemos medir todas as sementes de todas as plantas em todos os locais poderíamos responder a nossa pergunta de forma objetiva.

(37)

BE-180

Não conhecemos a distribuição real da variável (população estatística), somente a distribuição dos dados que coletamos (amostra)

ҧ𝑥𝑁𝐷 ≅ 𝜇𝑁𝐷

ҧ𝑥

(38)

BE-180

Não queremos testar uma hipótese a respeito da nossa amostra ou de uma realização de um experimento

• Queremos inferir sobre fenômenos que deveriam se aplicar à toda a população

• Inferência estatística: uso de análise de dados para deduzir aspectos sobre a população que os dados representam

(39)

BE-180

A forma como coletamos nossos dados (amostragem) determina a representatividade da amostra

• A amostra deve ser representativa para que possamos fazer inferências

• Em estudos observacionais não controlamos todos os fatores que influenciam a variável

(40)

BE-180

Para testar se a relação entre variáveis é significativa confrontamos o que observamos com o que seria esperado sob a hipótese de que a relação não existe (Hipótese nula)

𝐻

0

: 𝜇

𝐷

= 𝜇

𝑁𝐷 Áreas defaunadas Áreas não-defaunadas Áreas defaunadas

𝐻

1

: 𝜇

𝐷

< 𝜇

𝑁𝐷 Áreas não-defaunadas Áreas defaunadas

(41)

BE-180

Passo a passo

1. Definir uma estatística de interesse

2. Determinar a distribuição da estatística de interesse sob o cenário nulo 3. Calcular a probabilidade da estatística observada sob o cenário nulo

(42)

BE-180

Primeiro devemos definir uma estatística de interesse que permita testar a nossa previsão

ҧ𝑥𝑁ã𝑜−𝑑𝑒𝑓𝑎𝑢𝑛𝑎𝑑𝑜 − ҧ𝑥𝑑𝑒𝑓𝑎𝑢𝑛𝑎𝑑𝑜 = 1,97 mm

Diferença entre as médias:

ҧ𝑥 = 10,01 mm ҧ𝑥 = 11,98 mm

(43)

BE-180

Um cenário nulo é aquele no qual a variável preditora não tem efeito sobre a variável resposta

Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 D 13.00 ND 13.5 ND 12.5 ND ... ... Tamanho das sementes (mm) Status da área 10.01 ND 10.5 D 11.00 ND 13.00 D 13.5 D 12.5 ND ... ... Observado Simulado

𝐻

0

: 𝜇

𝐷

= 𝜇

𝑁𝐷

(44)

BE-180

Um cenário nulo é aquele no qual a variável preditora não tem efeito sobre a variável resposta

Observado Simulado Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 D 13.00 ND 13.5 ND 12.5 ND ... ... Tamanho das sementes (mm) Status da área 10.01 ND 10.5 ND 11.00 D 13.00 D 13.5 ND 12.5 D ... ...

𝐻

0

: 𝜇

𝐷

= 𝜇

𝑁𝐷

(45)

BE-180

Um cenário nulo é aquele no qual a variável preditora não tem efeito sobre a variável resposta

Observado Simulado Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 D 13.00 ND 13.5 ND 12.5 ND ... ... Tamanho das sementes (mm) Status da área 10.01 D 10.5 D 11.00 ND 13.00 ND 13.5 D 12.5 ND ... ...

𝐻

0

: 𝜇

𝐷

= 𝜇

𝑁𝐷

(46)

BE-180

Estamos criando vários cenários possíveis onde não há relação entre as variáveis tamanho de semente e status da área

• Mesmo não havendo relação entre as variáveis por definição, o valor da estatística de interesse quase nunca é exatamente ZERO

(47)

BE-180

(48)

BE-180

Com qual frequência o valor observado foi encontrado sob o cenário nulo simulado?

(49)

BE-180

Qual probabilidade de obter o valor observado sob a hipótese nula?

(50)

BE-180

Valores como o que observamos são muito pouco prováveis (não impossíveis) sob a hipótese nula

p < 0.001

• rejeitamos a hipótese nula (H0) sob o nível de significância de 0.001

• H1 é uma explicação mais plausível para o que observamos

(51)

BE-180

Portanto, nossos dados permitem rejeitar a hipótese nula e corroboram a nossa hipótese de que a defaunação tem prejudicado a dispersão de

sementes grandes de E. edulis

• Em estudos científicos uma hipótese nunca é provada

(52)

BE-180

Diferentes tipos de testes permitem testar diferentes tipos de previsões usando diferentes tipos de variáveis

(53)

BE-180

Principais mensagens

1. Inspecione os dados visualmente

2. O que determina o tipo de variáveis e o teste adequado é a hipótese/previsão do estudo

3. A lógica de qualquer teste estatístico é a mesma: • Definimos uma estatística de interesse

• Calculamos a probabilidade de observar o valor obtido sob a hipótese nula (p-valor)

Referências

Documentos relacionados

Esse estudo pode ser de caráter exploratório para estudos posteriores, com o tema em vista sobre a atuação de jovens no poder de compra, a interiorização

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

Changes in the gut microbiota appears to be a key element in the pathogenesis of hepatic and gastrointestinal disorders, including non-alcoholic fatty liver disease, alcoholic

O contratante estabelecido no Município de São Paulo que tomar serviços de prestador que emitir nota fiscal ou outro documento fiscal equivalente autorizado por outro Município ou

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

No presente estudo conclui-se que a atividade física e as atividades de educação em Diabetes que compõem o Programa Doce Desafio, tiveram considerável impacto

Marca Vendedor Veículo Ford João Carro Ford João Caminhão Ford Mário Caminhão Fiat Mário Carro Chevrolet Felipe Carro Chevrolet João Carro Chevrolet João

Membro_Faculdade (Matrícula: Inteiro, Nome: string[50], Carga: Inteiro, IniContrato: data, Curso: string[30], professor: booleano, aluno: booleano). Membro