• Nenhum resultado encontrado

também conhecida como normalização Min-Max, dado que o cálculo é feito com base nos valores mínimo e máximo de cada atributo no ajuste da escala (Marquesone 2014). A normalização Min-Max é definida pela Equação 2.1 (Faceli et al. 2011).

v0 = v− min

max− min· (nmax − nmin) + nmin (2.1)

Onde,

vé o valor a ser normalizado;

miné o valor mínimo encontrado na amostra; maxé o valor máximo encontrado na amostra; nmaxé o valor máximo do novo intervalo; nminé o valor mínimo do novo intervalo.

A normalização Min-Max implica a existência de duas escalas, isto é, a dos dados originais e a escala em que se pretende transformar.

2.5

Coeficientes de Correlação

Dado X e Y como sendo duas amostras, como estabelecer uma relação entre X e Y? Na EaD pode-se surgir indagações como: Se a taxa de participação dos alunos nos fóruns aumentar, será que as suas notas também irão aumentar?

Os campos investigativos que objetivam responder essas questões são os métodos es- tatísticos de análise de correlação e a análise de regressão entre variáveis.

A análise de correlação, também conhecida como coeficiente de correlação, indica o grau de variação conjunta entre duas variáveis. Esse grau representa a intensidade e a direção da relação linear ou não-linear entre essas variáveis. Esse método atende à necessidade de se estabelecer a existência ou não de uma relação entre variáveis, sem a necessidade de aplicar uma função matemática, pois não existe a distinção entre a variável explicativa e a variável resposta. Em outras palavras, o grau de variação conjunta entre X e Y é igual ao grau de variação entre Y e X (O’Rourke et al. 2005, Sharma 2012, Schumacker e Tomek 2014).

Já a análise de regressão, além de medir a associação entre a variável explicativa e a variável resposta, também estima os parâmetros do comportamento sistemático entre estas (Sharma 2005). No entanto, quando se deseja quantificar somente a força da relação entre as variáveis, nem sempre é necessário um detalhamento como o da análise de regressão, mas apenas determinar o grau de relacionamento entre as variáveis analisadas.

Segundo Meissner (2013), os coeficientes de correlação se dividem em três tipos: (i) o coeficiente de correlação de Pearson; (ii) o coeficiente de correlação de Spearman; e (iii) o coeficiente de correlação de Kendall.

Tendo em vista que a natureza dos dados analisados neste trabalho pertence à categoria das variáveis quantitativas, o coeficiente de correlação que mais se adéqua para essa aná- lise é o coeficiente de correlação de Pearson (LeBlanc 2004, Sharma 2005, Rubin 2012), que será explicado a seguir.

2.5.1

Coeficiente de Correlação de Pearson

O coeficiente de correlação de Pearson tem como origem o trabalho em conjunto de Karl Pearson e seu professor Francis Galton. De forma sucinta, o coeficiente de correlação de Pearson (r) é uma medida de associação linear entre variáveis (LeBlanc 2004, Sharma 2012) e é calculado da seguinte forma:

r = 1 n− 1·

 xi− x Sx  · yi− y Sy ! (2.2) Onde,

né o número de elementos das amostras x e y;

xie yirepresentam cada um dos elementos das amostras x e y, respectivamente;

xe y representam a média dos elementos das amostras x e y, respectivamente; Sxe Syrepresentam o desvio padrão das amostras x e y, respectivamente.

O resultado retornado deverá estar entre +1 e -1. O sinal indica a direção, ou seja, se a correlação é positiva ou negativa, e o valor numérico indica a força da correlação.

Segundo (Weinberg e Abramowitz 2002) e (Cohen 1988)1, quando os objetos de es- tudo são fatores comportamentais, a interpretação para a correlação de Pearson deve ser feita da seguinte forma:

• Se 1.0 ≤ r ≤ 0.5, sendo positivo ou negativo, indica uma forte correlação; • Se 0.3 ≤ r < 0.5, sendo positivo ou negativo, indica correlação moderada; • Se 0.1 ≤ r < 0.3, sendo positivo ou negativo, indica fraca correlação;

• Por fim, para 0 ≤ r < 0.1, sendo positivo ou negativo, pode-se considerar nula. Vale ressaltar que o coeficiente de correlação de Pearson é sensível a outliers2. Por- tanto, antes de realizar uma análise de correlação de Pearson é necessário verificar a existência de outliers nas amostras. Uma técnica que pode ser utilizada para a remoção de outliers é a Z-Score (Warner 2012). O valor Z é calculado por meio da Equação 2.3 (Warner 2012):

Z = xi− x

σ (2.3)

Onde,

xirepresenta cada um dos elementos da amostra x; xrepresenta a média dos elementos da amostra x;

1Jacob Cohen foi o primeiro pesquisador a introduzir a categorização do grau de relação de magni-

tudes no âmbito da análise comportamental, sendo hoje amplamente utilizada nas pesquisas das ciências comportamentais (Weinberg e Abramowitz 2002).

2Outlierssão valores atípicos, isto é, uma observação que apresenta um valor muito afastado em relação

2.5. COEFICIENTES DE CORRELAÇÃO 27

σ representa o desvio padrão da amostra x;

Z representa o quanto xise afasta da média amostral, em termos de desvio padrão.

Todavia, o uso da correlação de Pearson, por si só, não é suficiente para validar deter- minado resultado. Por exemplo, dada que a correlação entre as amostras X e Y obteve um grau de r = 0,955. Como é possível afirmar que essa correlação não se deu por coincidên- cia? Em outras palavras, o quão significante é o valor de r?

A fim de solucionar essa questão, na estatística, utiliza-se o conceito de nível de sig- nificância de um resultado, fazendo-se uso do conceito de hipótese nula. A hipótese nula (H0) simplesmente assume que um dado resultado estatístico foi obtido apenas por coin-

cidência, devido a flutuações probabilísticas dos eventos medidos. Por outro lado, caso a hipótese nula seja rejeitada, o resultado não ocorreu por mera coincidência, e, portanto, deve-se aceitar a hipótese concorrente, que é chamada de hipótese alternativa (H1).

O nível de significância é denotado por alfa (α) e indica a probabilidade de se cometer um erro do tipo I. O erro do tipo I consiste na possibilidade de se rejeitar a hipótese nula, quando esta é verdadeira. Logo, se α = 0,05, então a chance de se cometer um erro do tipo I é de 5%. Diante disso, o nível de confiança, que indica a probabilidade de decisão correta, baseada na hipótese nula, é de 95%, pois este é calculado como sendo 1 - α (Schlotzhauer 2007, Rubin 2012).

Sendo assim, quando se deseja utilizar o coeficiente de correlação de Pearson, em conformidade com o nível de significância, os seguintes passos devem ser realizados (LeBlanc 2004):

1. No primeiro passo, deve-se definir as hipóteses, isto é: • H0: r = 0;

• H1: r 6= 0.

2. No segundo passo, deve-se escolher um valor α para a significância. Por exemplo, α = 0,05;

3. No terceiro passo, como as amostras contêm n pares de dados, deve-se consultar na tabela de distribuição t de Student o valor de t(gl) para o valor de α escolhido, onde gl = n – 2. A tabela de distribuição t de Student fornece os valores críticos do intervalo de confiança a partir da probabilidade unicaudal ou bicaudal e do número de graus de liberdade (Keller 2011);

4. No quarto passo, deve-se calcular t0:

t0 = r q 1−r2 n−2 (2.4)

Caso t0> t(gl) ou t0< - t(gl), então H0deve ser rejeitada e H1deve ser aceita. Senão,

Se H0for rejeitada, deve-se concluir que o valor de r, obtido para a amostra, é signi-

ficante e que existe correlação r entre as variáveis analisadas, com nível de significância igual a α e nível de confiança de 1 – α.

Se H0 for aceita, deve-se concluir que o valor obtido de r não é significante, ou seja,

tanto pode haver correlação r, como não haver correlação.

Documentos relacionados