• Nenhum resultado encontrado

NÍVEL SOCIOECONÔMICO DENOMINAÇÃO

2.8 MODELOS MULTIVARIADOS E A ANÁLISE DE COMPONENTES PRINCIPAIS – ACP

A análise de dados se apresenta como um desafio permanente aos tomadores de decisão no que diz respeito à forma como é realizada. Dados são registros oriundos de fenômenos e eventos que podem ser empregados para se conhecer e compreender estes mesmos fenômenos geradores dos dados, e a partir deste conhecimento, se buscar maneiras de melhor explorar suas características com vistas à solução dos mais diversos problemas, ao aproveitamento de oportunidades, ao planejamento de recursos e ao diagnóstico e prognóstico de cenários. Uma grande disponibilidade de dados, no entanto, tende a tornar a busca pelo conhecimento desejado mais dificultosa, uma vez que a variedade e volume dos dados aumenta a complexidade das suas inter-relações (MASSY, 1965; FÁVERO; BELFIORE; SILVA; CHAN, 2009).

Portanto, é progressivamente importante, à medida que o volume e complexidade de dados disponíveis para estudo aumentam, que se empreguem técnicas de resumo ou síntese dos dados que permitam a um tomador de decisões compreender eficazmente um dado fenômeno de interesse. Contudo, tal resumo e correspondência causal raramente podem ser feitos apenas observando-se os dados brutos, de modo que a análise de dados realizada com o emprego de técnicas destinadas a este fim, devidamente testadas, podem fornecer uma enorme quantidade de informação e conhecimento (WOLD; ESBESEN; GELADI, 1987).

Entretanto, decidir quais dados são ou não relevantes para a compreensão de um fenômeno é particularmente desafiador. Frequentemente, os dados disponíveis são correlacionados e tal característica é danosa quando, por exemplo, o tomador de decisão deseja identificar padrões de comportamento, tendências, agrupamentos ou relações de causalidade (MASSY, 1965). Ainda, os dados (ou variáveis) podem ter características intrínsecas bem diferentes, pois as variáveis podem ser:

 Quantitativas: discretas (assumem um número contável de valores em um intervalo) ou contínuas (assumem um número infinito de valores em um intervalo);

 Qualitativas: nominais (não podem ser ordenadas) ou ordinais (podem ser ordenadas).

Deste modo, métodos de análise dos dados frequentemente devem ser mais sofisticados do que a simples observação dos parâmetros estatísticos de posição (média, mediana, moda) e dispersão (variância, desvio padrão, assimetria, curtose) já que a interpretação de certo fenômeno a partir de seus dados deve levar em conta o comportamento destes dados entre si. De fato, a compreensão de tal comportamento pode levar a uma compreensão do fenômeno estudado, o que seria o objetivo finalístico da análise dos dados (MASSY, 1965; WOLD; ESBESEN; GELADI, 1987; FÁVERO; BELFIORE; SILVA; CHAN, 2009; LATTIN; CARROLL; GREEN, 2011).

Uma alternativa funcional para o desafio em questão é o emprego de métodos computacionais para a análise dos dados. O emprego do computador permite uma verificação mais extensiva e rápida das inter-relações entre os dados, tornando factíveis estudos de previsão, classificação e discriminação dos fenômenos que se busca compreensão. O emprego de soluções computacionais possibilita o uso de grande variedade de dados, em grande volume, possibilitando assim o estudo de um fenômeno considerando-se muitas de suas características, por um relativamente longo período de tempo. Tal disponibilidade computacional a custo relativamente baixo, combinada ao desenvolvimento concomitante de diversas técnicas de análise de dados que sejam aderentes a essa nova realidade e que impliquem três ou mais variáveis, culminou em um conjunto de abordagens conhecidas como Análise de Dados Multivariados (FÁVERO; BELFIORE; SILVA; CHAN, 2009; LATTIN; CARROLL; GREEN, 2011).

A Análise de Dados Multivariados – ADM é empregada no estudo de modelos em que as variáveis são aleatórias e inter-relacionadas, de maneira que seus diferentes efeitos específicos devem ser necessariamente interpretados em conjunto e não de forma isolada, e para atender a esta finalidade investigativa foram desenvolvidas diversas técnicas multivariadas de análise de dados. Estas técnicas multivariadas podem ser mais bem compreendidas quando relacionadas aos objetivos buscados pelo pesquisador quando de sua utilização. Tais objetivos podem ser:

 Redução da base de dados ou simplificação estrutural: o fenômeno sendo estudado é representado através de uso de menor número de variáveis, ao invés de se utilizar todas as variáveis disponíveis, sem perda de acurácia do conhecimento;

 Ordenação e agrupamento: grupos de variáveis são criados com base nas características mensuradas das mesmas;

 Investigação da inter-relação ou dependência entre as variáveis: a natureza do relacionamento entre as variáveis é necessária à formulação de hipóteses;

 Construção e testes de hipóteses: parâmetros de populações de dados multivariados podem ser testados, objetivando uma melhor descrição do fenômeno;

 Previsão: o relacionamento entre variáveis deve ser determinado com o propósito de se fazer previsões acerca do comportamento de uma ou mais variáveis com base na observação das demais variáveis.

Ainda segundo Fávero, Belfiore, Silva e Chan (2009), o desenvolvimento inicial das técnicas de Análise Multivariada de Dados deve-se ao trabalho de Charles Spearman, que em 1904, ao estudar a correlação entre o desempenho de alunos em provas escolares, percebeu que as mesmas poderiam ser simplificadas em um modelo mais parcimonioso e com bom poder explicativo do fenômeno, exatamente em função de que os desempenhos dos alunos nas várias disciplinas eram correlacionados e que estas inter-relações poderiam ser explicadas pelo nível de inteligência geral dos estudantes. Observando a matriz de correlações dos resultados das provas, Spearman identificou que as variáveis (as notas das provas obtidas pelos alunos) poderiam ser expressadas algebricamente, após a devida normalização dos dados (ou seja, converter os dados para que apresentem média igual a zero e desvio padrão igual a 1) por:

Xi = aiF+εi (13)