• Nenhum resultado encontrado

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 03. Universidade Federal Fluminense

N/A
N/A
Protected

Academic year: 2021

Share "TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 03. Universidade Federal Fluminense"

Copied!
33
0
0

Texto

(1)

CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

18 DE AGOSTO DE 2015

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS

AULA 03

Humberto José Bortolossi http://www.professores.uff.br/hjbortol/

(2)
(3)

EXEMPLOS DE DAC E PPDAC

Em sua análise da coleção didática de livros de matemática, você encontrou exemplos de atividades DAC (Dados, Análise e Conclusão) e PPDAC (Problema, Planejamento, Dados, Análise e Conclusão)? Quais?

Na terceira lista de exercícios você é convidado a fazer uma análise dos vídeos abaixo (que assistiremos agora) sob a perspectiva PPDAC. Os dois vídeos mostram duas palestras curtas dadas por Hans Rosling ao programa TED.

Hans Rosling: As Boas Notícias da Década?

http://www.ted.com/talks/lang/pt-br/hans_rosling_the_good_news_of_the_decade.html

HansRosling_2010X-480p.mp4

Hans Rosling: Religiões e Bebês

http://www.ted.com/talks/lang/pt-br/hans_rosling_religions_and_babies.html

(4)
(5)
(6)

FASES DO PROCESSO ESTATÍSTICO

(TANNENBAUM)

(7)

FASES DO PROCESSO ESTATÍSTICO

(WILD & PFANNKUCH)

(8)
(9)

OBJETIVOS DO CAPÍTULO 13

Definir a terminologia básica do processo de coleta de dados. Identificar se uma dada pesquisa pode estar enviesada.

Aprender os vários métodos de amostragem e discutir suas vantagens e desvantagens.

Estimar o tamanho de uma população usando o método de captura-recaptura. Identificar componentes de um estudo clínico bem construído.

Investigar se os livros didáticos abordam os tópicos de coleta de dados e os métodos de amostragem.

(10)

O SIGNIFICADO DAS PALAVRAS

A linguagem científica pode ser diferente da linguagem do cotidiano.

Uma mesma palavra pode ser usada em diferentes épocas por diferentes pessoas

com os mais variados significados

(muitas vezes, incompatíveis entre si). Uma mesma palavra pode ter, em um mesmo texto, significados diferentes dependendo do contexto.

(11)

O QUE É ESTATÍSTICA?

Dicionário Houaiss: s.f. (1815) ramo da matemática que trata da coleta, da análise,

da interpretação e da apresentação de massas de dados numéricos.

Dicionário Aurélio: s.f.

1. Parte da matemática em que se investigam os processos de obtenção, organização e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos de tirar conclusões e fazer ilações ou predições com base nesses dados. 2. Qualquer parâmetro de uma amostra, como, p. ex., a sua média, o seu desvio-padrão, a sua variância.

3. Conjunto de elementos numéricos respeitantes a um fato social.

4. Representação e explicação sistemática, por observações quantitativas de massa, dos acontecimentos e das leis da vida social que deles se podem deduzir.

5. Método que objetiva o estudo dos fenômenos de massa, i. e., os que dependem de uma multiplicidade de causas, e tem por fim representar, sob forma analítica ou gráfica, as tendências características limites desses fenômenos.

(12)

O QUE É ESTATÍSTICA?

ENCE/IBGE: O que modernamente se conhece como Ciências Estatísticas, ou

simplesmente Estatística, é um conjunto de técnicas e métodos de pesquisa e análise de dados que entre outros tópicos envolve o planejamento do experimento a ser realizado, a coleta qualificada dos dados, a inferência, o processamento, a análise e a disseminação das informações.

ASA (The American Statistical Association): Estatística é a ciência da coleta,

análise e apresentação de dados. Estatísticos contribuem para a investigação científica aplicando seu conhecimento na elaboração de pesquisas e experimentos; a coleta, processamento, e a análise de dados; e a interpretação dos resultados.

ABE (Associação Brasileira de Estatística): Estatística é uma ciência baseada na

Teoria da Probabilidade, cujo o objetivo principal é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir dos dados.

(13)

O QUE É ESTATÍSTICA?

Wikipedia (em Português): Estatística é a ciência que utiliza-se das teorias

probabilísticas para explicar a frequência da ocorrência de eventos, tanto em estudos observacionais quanto em experimento modelar a aleatoriedade e a incerteza de forma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso.

Wikipedia (em Inglês): Estatística é o estudo da coleta, organização, análise,

interpretação e apresentação de dados. Trata-se de todos os aspectos deste (estudo), incluindo o planejamento da coleta de dados em termos de projeto de pesquisas e experimentos.

(14)

O QUE É ESTATÍSTICA?

Nossa referência principal (Tannenbaum, 2009): Em seu nível mais básico, a Estatística é a junção de duas habilidades fundamentais que aprendemos na escola separadamente: manipular e comunicar números. Quando usamos números como uma ferramenta para transmitir informações, estamos fazendo algo estatístico. Se você preferir uma descrição mais formal, aqui está: Estatística é a ciência de se lidar com dados.

E o que são dados? Dados são qualquer tipo de informação que pode ser codificada numericamente.

Atrás de toda afirmação estatística, existe uma estória e, como qualquer estória, ela tem um início, um meio e um fim. Tipicamente, o início de uma estória estatística consiste no processo de coleta de dados.

(Compare com o ciclo PPDAC: investigação estatística:

(15)
(16)

POPULAÇÃO

Toda afirmação estatística se refere, direta ou indiretamente, a algum grupo de indivíduos ou objetos.

Na terminologia estatística, esta coleção de indivíduos ou objetos é denominada

população.

O primeiro passo para entender uma afirmação estatística é identificar qual é a população a qual ela se refere.

No mundo real nem sempre é fácil identificar a população: detalhes da estória são omitidos ou, alternativamente, duas (ou mais populações) podem estar envolvidas.

(17)

EXEMPLO 13.1: O RETORNO DA ÁGUIA AMERICANA

Duas populações: a população total de águias (incluindo filhotes, adolescentes, etc.) nos 48 estados contíguos dos EUA e a população de casais reprodutores de águias.

A primeira é a população de interesse, a segunda é a população de conveniência (mais fácil de se identificar, rastrear e contar). [From the brink: da beira do abismo.]

(18)

O VALOR-N

Dada uma população específica, uma questão relevante óbvia é “Quantos

indivíduos ou objetos existem nessa população?”. Este número é denominado

o valor-N (em inglês, N-value) da população (tradição: usar N para denotar tamanhos de populações).

Importante: ao longo do tempo, uma população e seu valor-N podem mudar!

(19)

EXEMPLO 13.2: O RETORNO DA ÁGUIA AMERICANA

Fonte: Serviço de Pesca e Vida Selvagem dos Estados Unidos.

(20)

EXEMPLO 13.3: N ESTÁ NOS OLHOS DE QUEM VÊ

Não é possível determinar um valor-N sem antes identificar qual é a população!

Pedro tem um cofrinho cheio de moedas de 25 centavos. Ele quer saber se o cofrinho tem dinheiro suficiente para comprar uma bola de futebol nova. Seu pai lhe disse para contar quantas moedas o cofre tem, pois ele emprestará a diferença. Após uma contagem cuidadosa, Pedro totalizou 116 moedas.

O que é o valor-N aqui?

A resposta depende em como vamos definir a população. Estamos contando moedas ou dinheiro?

Para o pai, o número total de moedas é que interessa. Logo, para o pai, N = 116 (moedas).

Para Pedro, o que interessa é quanto dinheiro o cofrinho tem. Logo, para Pedro, N = 29 (reais).

(21)

CENSO

O processo de coletar dados passando por cada membro da população é denominado um censo (em inglês, census).

A ideia por de trás de um censo é simples, mas na prática um censo exige um alto grau de “cooperação” da população.

Para populações maiores e mais dinâmicas (vida animal selvagem, humanos, etc.), contagens precisas são inerentemente difíceis, se não impossíveis e, em todos esses casos, o melhor que se pode esperar conseguir é uma boa estimativa para o valor-N.

(22)

EXEMPLO 13.4: O CENSO AMERICANO DE 2000

O Censo Americano de 2000 empregou cerca de 850.000 pessoas e custou certa de 6,5 bilhões de dólares.

Ainda assim, estima-se que ele deixou de contar entre 3 e 4 milhões de pessoas. O artigo do New York Times aponta para as implicações políticas desse fato.

(23)

ESTUDO DE CASO 1: O CENSO AMERICANO

O Artigo 1 da Seção 2 da Constituição dos Estados Unidos (1787) manda que um censo nacional seja conduzido a cada 10 anos.

O objetivo original do censo era “contar cabeças” com dois propósitos: impostos e

representação política.

No texto original, para fim de impostos, índios não deveriam ser taxados e um escravo contaria como 3/5 de uma pessoa livre.

(24)

ESTUDO DE CASO 1: O CENSO AMERICANO

O texto original da Constituição foi modificado e expandido pela Décima Quarta Emenda:

Além de contar cabeças, o U.S. Census Bureau agora coleta informações adicionais sobre a população: sexo, idade, raça, etnia, estado civil, habitação, renda e dados empregatícios.

Os dados do censo têm agora muitos propósitos importantes além daqueles originais de taxação e representação: a alocação de bilhões de dólares do governo federal para estados, condados, cidades e municipalidades, a reconfiguração de distritos legislativos em cada estado e o planejamento da produção e serviços pelo comércio e pela indústria.

Para os propósitos do censo, a população dos Estados Unidos é definida como consistindo de “todas as pessoas fisicamente presentes e residindo permanentemente nos Estados Unidos”. Cidadãos, estrangeiros legais residentes e mesmo estrangeiros ilegais devem ser incluídos.

(25)

ESTUDO DE CASO 1: O CENSO AMERICANO

O primeiro censo americano ocorreu em 1790 e, nessa época, a população era menor e relativamente homogênea, as pessoas tendiam a ficar em um único lugar e, na grande maioria, elas se sentiam confortáveis em suas relações com o governo. Sob essas condições, era fácil para os recenseadores contar cabeças.

As condições de hoje são completamente diferentes. As pessoas estão em constante movimento. Muitos desconfiam do governo. Nos grandes centros urbanos, muitas pessoas estão desabrigadas e não querem ser contadas. E, depois, há a apatia de muitas pessoas que pensam em um formulário do censo como um outro pedaço de lixo postal.

O moderno censo dos EUA é atormentado pelo que é conhecido como

subestimação diferencial (em inglês, differential undercount): minorias étnicas,

trabalhadores migrantes e as populações urbanas pobres têm significativamente taxas maiores de subestimação se comparadas com as taxas de subestimação da população como um todo, e as taxas de subestimação variam significativamente dentro desses grupos.

(26)

ESTUDO DE CASO 1: O CENSO AMERICANO

Usando técnicas estatísticas modernas, é possível fazer ajustes nos números brutos do censo que corrigem a imprecisão provocada pela subestimação diferencial.

Mas, em 1999, a Suprema Corte decidiu no Departamento de Comércio et al. versus

Câmera dos Deputados et al. que apenas os números brutos e não

os estatisticamente ajustados poderiam ser usados para fins de distribuição de assentos no Congresso entre os estados.

(27)
(28)

AMOSTRAGEM

A alternativa prática para um censo é coletar dados somente de alguns membros da população e usar esses dados para obter conclusões e fazer inferências sobre a população inteira.

Estatísticos denominam esse procedimento de survey (ou de poll quando a coleta de dados é feita através de questões). No Brasil, surveys e polls são denominados genericamente de pesquisas.

O subgrupo escolhido que irá fornecer os dados é denominado amostra (sample em inglês) e o ato de se selecionar uma amostra é denominado amostragem (sampling em inglês).

(29)

AMOSTRAGEM

Idealmente, cada membro da população deveria ter a oportunidade de ser escolhido como parte da amostra, mas isso só é possível se tivermos um mecanismo para identificar cada membro da população. Em muitas situações, isso é impossível.

Suponha que queiramos realizar uma pesquisa de opinião pública antes de uma eleição. A população da pesquisa é composta por todos os eleitores que votarão na próxima eleição, mas como podemos identificar quem vai e quem não vai votar antes da realização da eleição? Sabemos quem são os eleitores, mas entre eles, há ainda muitos não votantes.

(30)

AMOSTRAGEM

O primeiro passo importante em uma pesquisa é distinguir a população para a qual a pesquisa se ​​aplica (população-alvo) (target population em inglês) e o subconjunto efetivo da população da qual a amostra será tomada, denominado de base de

amostragem (sampling frame em inglês).

O cenário ideal ocorre quando a base de amostragem é igual a população-alvo, o que significa que todos os membros da população-alvo é um candidato para a amostra. Quando isso é impossível (ou não é prático), uma base de amostragem adequada deve ser escolhida.

Pesquisas eleitorais são famosas por serem usadas para prever o resultado de eleições políticas. Entre as muitas questões que fazem as pesquisas pré-eleitorais particularmente delicadas está o problema de identificar os membros da população-alvo, a saber, as pessoas que acabarão votando. A abordagem convencional é usar eleitores registrados como base de amostragem, mas o uso desses eleitores pode levar a alguns dados ruins. Nosso próximo exemplo ilustra esse ponto.

(31)

EXEMPLO 13.5: BASES DE AMOSTRAGEM

PODEM FAZER A DIFERENÇA

Uma pesquisa eleitoral CNN/USA Today/Gallup realizada logo antes do dia 2 de novembro de 2004, a data eleição nacional no Estados Unidos, fez a seguinte pergunta: “Se a eleição para o Congresso fosse realizada hoje, em qual candidato

você votaria em seu distrito: no candidato do Partido Democrata ou no candidato do Partido Republicano?”.

Quando a pergunta foi feita a 1866 dos eleitores registrados em todo o país, os resultados da pesquisa foram: 49% para o candidato do Partido Democrata, 47% para o candidato do Partido Republicano, 4% de indecisos.

Quando exatamente a mesma pergunta foi feita a 1573 eleitores prováveis (nos EUA, o voto não é obrigatório) em todo o país, os resultados da pesquisa foram 50% para o candidato do Partido Republicano, 47% para o candidato do Partido Democrata, 3% de indecisos.

A única diferença significativa entre as duas pesquisas foi a escolha da base de amostragem: na primeira, a base de amostragem utilizada foram todos eleitores

(32)

EXEMPLO 13.5: BASES DE AMOSTRAGEM

PODEM FAZER A DIFERENÇA

Embora nenhuma das bases de amostragem represente fielmente a população-alvo dos eleitores reais, o uso dos eleitores prováveis em vez dos eleitores registrados para a base de amostragem fornece, em geral, dados mais confiáveis. (A segunda pesquisa chegou muito perto dos resultados médios das corridas de 2004 ao Congresso dos Estados Unidos.).

Então, por que nem todas as pesquisas pré-eleitorais usam ​​eleitores prováveis ao invés de eleitores registrados como base de amostragem?

A resposta é econômica. Eleitores registrados são relativamente mais fáceis de se identificar: os cartórios eleitorais podem facilmente produzir uma lista precisa do eleitores registrados. Contudo, nem todo eleitor registrado irá votar e é muito mais difícil de se identificar aqueles que “provavelmente” irão votar. Normalmente, é

preciso considerar fatores demográficos (idade, etnia, etc.), bem como

o comportamento eleitoral passado para se descobrir quem está e quem não está propenso a votar. Fazer isso demanda muito mais esforço, tempo e dinheiro.

(33)

AMOSTRAGEM

Filosofia básica da amostragem: uma amostra “representativa” permite que informações que queiramos conhecer da população inteira possam ser obtidas a partir do estudo dessa amostra. Para obter dados confiáveis, devemos (a) encontrar uma amostra que é representativa e (b) determinar o tamanho da amostra.

Em algumas situações, amostras muito pequenas podem ser usadas para se obter informações confiáveis de uma população, não importando o quão grande a população seja. Este é o caso em que a população é altamente homogênea.

Por exemplo, o sangue de uma pessoa é essencialmente o mesmo em qualquer lugar do corpo, o que explica porque uma pequena amostra do sangue obtida de um braço fornece dados confiáveis sobre os níveis de açúcar e de colesterol do sangue do paciente.

Quanto mais heterogênea a população, mais difícil fica encontrar uma amostra representativa. As dificuldades podem ser bem ilustradas olhando-se a história das pesquisas de opinião pública.

Referências

Documentos relacionados

os candidatos que obtiverem, no mínimo, 60% (sessenta por cento) dos pontos em cada uma das partes da prova objetiva , que não tenham zerado em nenhum dos conteúdos da parte “A”,

A medicina integrativa envolve a parceria entre paciente e profissional de saúde, considerando todos os fatores que podem influenciar no estado de saúde, sejam eles físicos,

6° colocado na classificação do cargo por local de lotação 10º Vaga concorrência de ampla 1.6.5 Para os candidatos que se autodeclararem pretos e pardos, ocorrendo o

a) Resfriamento lento do planeta, formação de uma atmosfera e água no estado líquido. c) Os gases da atmosfera primitiva eram os mesmos da atmosfera atual e havia água no

através de investimentos em cotas de fundos de investimento ou cotas de fundos de investimento em cotas de fundos de investimento (FUNDOS INVESTIDOS), negociados nos mercados interno,

- Toxicidade para órgãos-alvo específicos (STOT), a exposição repetida: Com base nos dados disponíveis, os critérios de classificação não são preenchidos, no entanto,

No sentido de reverter tal situação, a realização deste trabalho elaborado na disciplina de Prática enquanto Componente Curricular V (PeCC V), buscou proporcionar as

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo