• Nenhum resultado encontrado

Associação entre duas Variáveis

No documento Literacia e estatística (páginas 87-93)

Capítulo 5. Metodologias

5.4. Associação entre duas Variáveis

O estudo da relação entre duas variáveis não é assunto previsto nos programas. Esta situação constitui uma condicionante em alguns estudos estatísticos propostos pelos próprios alunos. Actualmente, o Novo Programa de Matemática, no que se refere à Organização e Tratamento de dados, prevê que os alunos realizem estudos estatísticos mais

complexos que incluem a investigação de relações e tendências em conjuntos de dados bivariados.

Este tópico da Estatística sugerido para os alunos do terceiro ciclo é facilitado pelo facto de ser do seu conhecimento a identificação e representação de pares ordenados (x, y) no plano ou referencial cartesiano. A análise dos dados em geral, começa pelo estudo de cada uma das variáveis. Na fase seguinte, constrói-se a representação adequada para estudar as possíveis relações existentes entre as variáveis.

Em Estatística, à representação gráfica destes pares ou dados bivariados dá-se o nome de nuvem de pontos ou diagrama de dispersão. A própria definição de diagrama de dispersão torna-se familiar com o estudo das funções.

Um diagrama de dispersão é uma representação gráfica para os dados bivariados, em que cada par de dados (xi, yi) é representado por um ponto de coordenadas (xi, yi) num

sistema de eixos coordenados. Este tipo de representação permite realçar a existência de algum tipo de associação entre os dados.

Com a tarefa seguinte pretende-se averiguar como é que uma característica (vendas) se relaciona com outra (gastos).

Tarefa - Vendas e Gastos de uma empresa

Os valores observados para as vendas e para os respectivos gastos de promoção (em mil euros) de uma empresa foram os seguintes:

Anos x-Vendas y-Gastos

1997 600 50 1998 750 60 1999 800 70 2000 1000 100 2001 1050 110 2002 1250 125 2003 1500 150 2004 1550 190 2005 2250 250 2006 2750 300

1. Representa os pares de dados (x, y) num sistema de eixos coordenados. 2. Existirá alguma associação (linear) entre as variáveis x e y?

Usando o software estatístico MINITAB, a representação gráfica obtida pela opção Scatterplot tem o aspecto seguinte:

Figura 14 – Diagrama de dispersão das vendas e gastos de uma empresa

Naturalmente, verifica-se que da observação gráfica resulta a tendência linear das características em estudo. Para uma primeira abordagem ao tópico da Estatística em estudo, foi propositado um exemplo cuja correlação entre as variáveis traduz uma forte associação positiva entre as vendas e os gastos da empresa. O grau de associação linear entre duas variáveis é traduzido por uma estatística a que se dá o nome de correlação linear representada por R. O coeficiente de correlação de Pearson é igual a 0,992. Neste caso, é possível, conhecendo um valor de uma variável ter uma ideia do valor que a outra poderá tomar. Isto é, em linguagem estatística diz-se que se pode inferir o valor da outra variável.

O professor deverá informar os alunos, assinalando no diagrama de dispersão, a existência das rectas possíveis e que o critério mais usado para definir essa recta, é o de tornar mínima a soma dos desvios dos pontos em relação à recta. Designa-se por desvio no

Vendas G a s to s 3000 2500 2000 1500 1000 500 300 250 200 150 100 50

ponto de abcissa xi a diferença entre o valor observado yi e o valor correspondente sobre a

recta. Essa recta é a recta de regressão e segundo o critério referido também é conhecida por recta dos mínimos quadrados. O que importa referir é a sua construção matemática, pelo que foi intencional na tarefa a representação do ponto de coordenadas

( )

x,y e que permite orientar os alunos para uma das condições da respectiva construção. Este ponto é o centro de gravidade da distribuição e pertence à recta. Cada uma das coordenadas do ponto (1350; 140,5), corresponde respectivamente à média das vendas e dos gastos da empresa. A ideia que o declive da recta é positivo é evidente no gráfico, mas verificar que o declive da recta se relaciona com o coeficiente de correlação não será tão simples para alunos do 3º ciclo. No novo programa, propõe-se também que a análise das distribuições bidimensionais se apoie nos respectivos diagramas de dispersão, o que não dispensa a interpretação do coeficiente de correlação.

O recurso à tecnologia permite obter a recta automaticamente. A recta de regressão obtida tem por equação, y = - 21,3 + 0,120 x. Os gastos são expressos em função das vendas.

Figura 15 – Diagrama de dispersão e recta de regressão

Vendas G a s to s 3000 2500 2000 1500 1000 500 300 250 200 150 100 50 Diagrama de dispersão

Será correcto afirmar que, para aumentar as vendas é essencial aumentar a despesa de promoção? Esta interpretação é frequente nos mais diversos contextos e presta-se frequentemente a manipulações enganadoras.

O modelo linear é apenas uma representação simplificada da realidade. O facto de haver um número maior de vendas pode ser causado pela qualidade do produto e a satisfação dos consumidores – o pecado mortal mais frequente é o de confundir associação estatística com causalidade. Só com o planeamento cuidadoso e controlado de experiências, a associação estatística pode ser promovida a causalidade (relação causa – efeito).

Em outras situações, utiliza-se erradamente o coeficiente de correlação para exprimir o maior ou menor grau de associação entre duas variáveis, sobretudo se não forem tomadas certas precauções – a representação do diagrama de dispersão.

Problema – As notas de dois testes

As notas obtidas em dois testes de Matemática numa turma do 7º ano, na classificação de 0 a 100 % foram as seguintes:

Teste 48 52 55 58 63 64 70 74 75 78 81 90 98

Teste 57 59 61 63 63 66 71 70 70 77 80 83 18

Comenta a afirmação:

Um aluno com boa nota no 1º teste também tem boa nota no2º teste ”.

O coeficiente de correlação obtido automaticamente é igual a - 0,096. Este valor sugere que não há consistência entre o primeiro e o segundo teste. Analisando a representação dos dados sob a forma de diagrama de dispersão (Figura 16), verifica-se uma certa associação linear entre os dados, existindo, contudo, um ponto que se desvia desse

padrão. Se o ponto discrepante que aparece no gráfico for eliminado, o coeficiente de correlação é de 0,975, aproximadamente.

Figura 16 - Diagrama de dispersão das notas dos 1º e 2º testes

O problema pretende chamar à atenção para outros problemas que possam surgir quando a interpretação do coeficiente de correlação não é acompanhada previamente do diagrama de dispersão dos dados. Frequentemente se esquece que o coeficiente de correlação mede o grau de associação linear entre duas variáveis e, perante um valor muito próximo de zero, há tendência a dizer que as variáveis não se associam, quando na realidade pode existir uma forte associação linear. Por outro lado, ao detectar associação entre duas variáveis, nem sempre se toma o devido cuidado com a interpretação que é dada a essa associação. Nem sempre a existência de associação entre duas variáveis significa uma relação causa-efeito.

No documento Literacia e estatística (páginas 87-93)