• Nenhum resultado encontrado

Estudo de estratégias de valorização económica do Alto Douro Vinhateiro: aplicação de técnicas multivariadas qualitativas

N/A
N/A
Protected

Academic year: 2021

Share "Estudo de estratégias de valorização económica do Alto Douro Vinhateiro: aplicação de técnicas multivariadas qualitativas"

Copied!
187
0
0

Texto

(1)

E

STUDO DE

E

STRATÉGIAS DE

V

ALORIZAÇÃO

E

CONÓMICA

DO

A

LTO

D

OURO

V

INHATEIRO

:

Aplicação de Técnicas Multivariadas Qualitativas

T

ESE DE MESTRADO EM

E

STATÍSTICA

A

PLICADA

Cristina Alexandra Teixeira Ribeiro

O

RIENTAÇÃO

:

Professora Doutora Irene Cristina Salgueiro Oliveira (Orientadora)

Professor Doutor João Fernandes Rebelo(Coorientador)

(2)

E

STUDO DE

E

STRATÉGIAS DE

V

ALORIZAÇÃO

E

CONÓMICA

DO

A

LTO

D

OURO

V

INHATEIRO

:

Aplicação de Técnicas Multivariadas Qualitativas

T

ESE DE MESTRADO EM

E

STATÍSTICA

A

PLICADA

Cristina Alexandra Teixeira Ribeiro

O

RIENTAÇÃO

:

Professora Doutora Irene Cristina Salgueiro Oliveira (Orientadora)

Professor Doutor João Fernandes Rebelo (Coorientador

)

J

ÚRI

:

Professora Doutora Maria de Fátima Monteiro Ferreira

Professora Doutora Maria Paula de Pinho de Brito Duarte Silva Professora Doutora Irene Cristina Salgueiro Oliveira

(3)
(4)

iii

A

GRADECIMENTOS

A realização deste trabalho só foi possível com a ajuda de algumas pessoas, às quais estarei sempre grata.

Em primeiro lugar quero agradecer aos meus orientadores, ao Professor João Rebelo pelo voto de confiança no desafio que me propôs sobre o nosso Douro. À Professora Irene Oliveira pela prontidão com que aceitou orientar esta investigação, sem nunca hesitar. Ambos estiveram sempre disponíveis com sugestões pertinentes e críticas construtivas.

À professora Lina Lourenço Gomes pela SEMPRE disponibilidade demonstrada na leitura dos

capítulos do trabalho, partilhando o seu conhecimento com críticas valiosas, especialmente sobre o ADV.

Ao Centro de Estudos Transdisciplinares para o Desenvolvimento (CETRAD) por disponibilizar os dados referentes aos visitantes do Alto Douro Vinhateiro (ADV) e por me confiarem a administração dos inquéritos aos residentes do ADV.

Às individualidades que facilitaram a recolha de dados sobre os residentes do ADV, especialmente ao Gabinete Técnico Missão Douro, inserido na estrutura da sub-região de Vila Real da Comissão de Coordenação e Desenvolvimento Regional do Norte (CCDRN). Aos residentes do ADV inquiridos, que se mostraram recetivos e preencheram os inquéritos com muita seriedade e interesse.

E por fim, a toda a minha família, aos meus pais, irmã, avó e, em especial, ao meu filho e ao meu marido. Obrigado pela paciência, compreensão e pelo acreditar constante de que eu era capaz.

(5)

iv

R

ESUMO

Esta dissertação centra-se na investigação e aplicação de técnicas Estatísticas Multivariadas, específicas para dados maioritariamente qualitativos, assentes nos métodos dos Mínimos Quadrados Alternados com Quantificação Ótima (ALSOS), concretamente a Análise de Homogeneidade (HOMALS) e a Análise de Componentes Principais Categórica (CATPCA). As técnicas referidas são aplicadas a um inquérito a residentes do Alto Douro Vinhateiro, item de Património da Humanidade pela UNESCO desde 2001, para aferir a sua perceção sobre o impacto da chancela UNESCO a vários domínios.

Devido, principalmente, à implementação de restrições exigidas aquando da inclusão das propriedades métricas (ordem e distância) das variáveis originais, levando a quantificações diferenciadas para as categorias (optimal scaling levels), as duas técnicas produzem partições diferentes. Na HOMALS surgem dois grupos de residentes com perceções distintas: os que têm uma ideia definida, negativa ou positiva, e os que se revelam indiferentes à chancela UNESCO. A CATPCA permite a separação dos residentes segundo uma perceção positiva (os que consideram que a chancela trouxe um impacto positivo nas suas decisões e bem-estar económico) e negativa (em que os residentes não atribuem à chancela um fator motivo de melhoraria do seu percurso pessoal e profissional).

PALAVRAS-CHAVE:Variáveis qualitativas; Análise Multivariada; Análise de Homogeneidade

(HOMALS); Análise de Componentes Principais Categórica (CATPCA); Residentes; Alto Douro Vinhateiro (ADV).

(6)

v

A

BSTRACT

This thesis focuses on the research and application of Multivariate Statistics techniques, specific to mainly qualitative data, based on the Alternating Least Squares with Optimal Scaling (ALSOS) methods, more specifically Homogeneity Analysis (HOMALS) e Categorical Principal Components Analysis (CATPCA).

The techniques referred are applied to residents of the Alto Douro Wine Region, classified as World Heritage by UNESCO since 2001, in order to assess their perception on the impact of the UNESCO seal in various domains.

Mainly due to the implementation of the restrictions demanded when including the metric proprieties (order and distance) of the original variables, leading to differentiated quantifications to the categories (optimal scaling levels), both techniques produce different partitions. On HOMALS two groups of residents with different perceptions arise: the ones that have a precise idea, negative or positive, and those who prove to be indifferent to the UNESCO seal.

CATPCA allows for the separation of the residents according to a positive perception (those that believe the seal brought a positive impact on their decisions and economic well-being) and negative (where the residents don’t recognise the seal a reason of improvement of their personal and professional path).

KEY WORDS: Qualitative variables; Multivariate Analysis; Homogeneity Analysis

(7)

vi

Í

NDICE GERAL

Introdução………...………1

Parte I - Análise Multivariada de Dados Qualitativos

1. Evolução histórica………...………7

1.1. A Estatística ………...………7

1.2. A Análise Multivariada………....……...8

1.3. As Técnicas Multivariadas para variáveis qualitativas………9

2. Análise de Homogeneidade (HOMALS) ………...………..14

2.1. Pressupostos………..14

2.2. Principais conceitos………...………...15

2.2.1. Matrizes envolvidas……….………15

2.2.2. Função Perda………..……….………19

2.2.3. Quantificação……….……….……….………...23

2.2.4. Indicadores de qualidade das dimensões………..………27

2.2.5. Soluções gráficas……….……34

2.3. Algoritmo da HOMALS………...………40

2.4. Notas conclusivas………...……..43

3. Análise de Componentes Principais Categórica (CATPCA) ………...………….44

3.1. Pressupostos………...……….………..44

3.2. Principais conceitos………...……...45

3.2.1. Quantificação ótima por níveis………...……….………45

3.2.2. Função Perda………...…………52

3.2.3. Medidas de Qualidade……….…………54

3.2.4. As componentes principais na CATPCA……….………56

3.3. Algoritmo da CATPCA……….………60

3.4. Notas conclusivas………...…………..62

P

ARTE

II

-

Estratégias de Valorização Económica do Alto Douro Vinhateiro: a perceção dos residentes do ADV com a aplicação de Técnicas Multivariadas Qualitativas 1. Alto Douro Vinhateiro………...…..………67

2. Investigação por inquérito……….70

2.1. Inquérito………70

(8)

vii 3. Amostragem………..75 3.1. População alvo………..75 3.2. Base da sondagem……….………77 3.3. Processo de amostragem…………...………77 3.4. Dimensão da amostra………...……….78 3.5. Seleção da amostra………81

4. Análise dos resultados………...82

4.1. Análise da amostra………82

4.1.1. Benefícios económicos……….………...84

4.1.2. Custos….………...………88

4.1.3. Perceção de benefícios……….………93

4.1.4. Notas conclusivas……….………...94

4.2. Aplicação de técnicas multivariadas qualitativas………...96

4.2.1. HOMALS.……….………..96

4.2.1.1. HOMALS por partes………...………...97

4.2.1.2. Articulação da HOMALS por partes com a Análise de Clusters………109

4.2.1.3. HOMALS conjunta………...……….111

4.2.1.4. Articulação da HOMALS conjunta com a Análise de Clusters………...……...115

4.2.1.5. Notas conclusivas………..……117

4.2.2. CATPCA………..……….119

4.2.2.1. A aplicação da CATPCA………...………120

4.2.2.2. Articulação da CATPCA com a Análise de Clusters………...………...125

4.2.2.3. Notas conclusivas………..………126

Conclusão………..………..…………128

Bibliografia……….………134

(9)

viii

Í

NDICE DE

F

IGURAS

----PARTE I---

Figura 1.1: Técnicas de redução da dimensionalidade………12

Figura 2.1: Ilustração da matriz inicial, com 249 linhas e 7 colunas………16

Figura 2.2: Ilustração das matrizes auxiliares da HOMALS………...18

Figura 2.3: Ilustração da matriz inicial dos 249 visitantes (H) e matriz final dos scores dos objetos (𝐱∗)…...……22

Figura 2.4: Ilustração da matriz com as quantificações das categorias………23

Figura 2.5: Scores dos visitantes, nas duas primeiras dimensões (rotulados de 1 a 249)……….32

Figura 2.6: Representação gráfica das diversas categorias nas duas primeiras dimensões………..34

Figura 2.7: Biplot, representação conjunta dos centróides das categorias e dos scores dos visitantes (objetos)…35 Figura 2.8: Discriminação das variáveis nas duas primeiras dimensões……….…37

Figura 2.9: Algoritmo da HOMALS………...38

Figura 3.1: Transformações sob as categorias………44

Figura 3.2: Transformações segundo as funções spline………..45

Figura 3.3: Quantificações das categorias de variáveis socioeconómicas na CATPCA na componente 1 e componente 2………...48

Figura 3.4: Scree plot com os valores próprios nas 7 (possíveis) componentes principais…….……….…54

Figura 3.5: Representação gráfica das quantificações das categorias nas duas componentes………56

Figura 3.6: Biplot, posicionamento dos visitantes, definido pelas duas componentes principais e os Component Loadings, após a CATPCA………..57

Figura 3. 7: Algoritmo da CATPCA………...………58

---PARTE II---Figura 1.1: As delimitações do ADV……….64

Figura 3.1: Plano amostral………..71

Figura 4.1: Distribuição das classes do rendimento por grau de habilitações………..79

Figura 4.2: Perceção dos residentes sobre a influência da chancela………81

Figura 4.3: Relação entre o rendimento do vitivinicultor e a sua perceção na procura de vinho………83 Figura 4.4: Perceção dos proprietários sobre os efeitos da chancela no retorno económico nos diversos setores…84

(10)

ix

Figura 4.5. Diagrama de extremos e quartis dos gastos/investimentos na recuperação e manutenção de muros de

xisto……….87

Figura 4.6. Diagrama de extremos e quartis dos gastos/investimentos na recuperação de imóveis………...87

Figura 4.7. Diagrama de extremos e quartis dos gastos/investimentos na plantação e replantação de vinha……88

Figura 4.8. A perceção dos residentes sobre os benefícios (%)……….89

Figura 4.9. A perceção residentes sobre os problemas (%)……….90

Figura 4.10: Descrição do processo na HOMALS por partes………...92

Figura 4.11: Descrição do processo na HOMALS conjunta………...93

Figura 4.12. Representação gráfica das medidas de discriminação das variáveis socioeconómicas………...95

Figura 4.13: Biplot, scores dos residentes (1 a 250) nas duas primeiras categorias e os centróides das categorias das variáveis mais discriminantes………96

Figura 4.14. Categorias das variáveis em estudo nas duas primeiras dimensões………99

Figura 4.15: Biplot, scores dos residentes (1 a 250) nas duas primeiras dimensões e os centróides das categorias das variáveis………..100

Figura 4.16: Quantificações das categorias das variáveis originais nas duas primeiras dimensões………104

Figura 4.17:Biplot,scores dos residentes (1 a 250) nas duas primeiras dimensões e os centróides das categorias das variáveis mais discriminantes………..105

Figura 4.18: Sinal das quantificações das categorias mais discriminantes nas três primeiras dimensões………111

Figura 4.19: Principais resultados obtidos pela HOMALS por partes………115

Figura 4.20: Principais resultados obtidos pela HOMALS conjunta………116

Figura 4.21: Scree Plot, valores próprios das respetivas componentes principais com a CATPCA………117

Figura 4.22: Categorias mais importantes nas três componentes principais……….119

Figura 4.23: Diagrama de dispersão com o posicionamento dos residentes nas componentes principais de acordo com as categorias discordo, indiferente e concordo dos benefícios B8 (esquerda) e B6 (direita)………...120

Figura 4.24: Diagrama de dispersão com o posicionamento dos residentes nas componentes principais de acordo com as categorias discordo, indiferente e concordo dos benefícios P3 (esquerda) e P4 (direita)……….120

(11)

x

Í

NDICE DE

T

ABELAS

----Parte I---

Tabela 1.1: Desenvolvimento e aplicação de técnicas multivariadas de variáveis qualitativas………...12

Tabela 2.1: Codificação das variáveis socioeconómicas dos visitantes do ADV………16

Tabela 2.2: Quantificação das categorias da variável emprego………...29

Tabela 2.3: Medidas de discriminação de todas as variáveis………...30

Tabela 2.4: Valores próprios e variância explicada (ou inércia) nas duas primeiras dimensões………..31

Tabela 2.5: Critérios de recomendação de fiabilidade estimada pelo alfa de Cronbach (𝛼)………33

Tabela 2.6: Resumo do modelo………...33

Tabela 3.1: Impacto da transformação aplicada nas variáveis nos resultados da CATPCA………49

Tabela 3.2:Impacto da transformação nominal múltipla nos resultados da HOMALS………..50

Tabela 3.3: Métodos de discretização das variáveis numéricas disponíveis no SPSS Statistics………50

Tabela 3.4:Componentes principais extraídas na CATPCA, com respetivos Loadings, variância total explicada (VAF, %), valores próprios e Alfa de Cronbach………...58

---PARTE II--- Tabela 2.1: Caracterização das variáveis socioeconómicas………72

Tabela 2.2:Caracterização das variáveis relativas ao benefício económico………72

Tabela 2.3: Caracterização das variáveis relativas aos Custos com a chancela………...73

Tabela 2.4. Caraterização das variáveis relativas à perceção dos residentes sobre benefícios e problemas que trouxe a inclusão do ADV………...74

Tabela 3.1: Número de habitantes por concelho do ADV………...76

Tabela 3.2: Distribuição dos residentes do ADV com mais de 15 anos por nível de escolaridade completo mais elevado………76

Tabela 3.4: Valores de 𝑧 mediante a margem de erro 𝑑………...80

Tabela 3.5: Dimensão da amostra segundo margens de erro e proporções diferentes……….80

Tabela 4.1: Estatísticas descritivas das variáveis socioeconómicas quantitativas………...82

Tabela 4.2: Estatísticas descritivas relativas aos benefícios económicos………84

Tabela 4.3: Cruzamento das variáveis Naturalidade e Tempo na atual morada………85

Tabela 4.4: Frequência absoluta e relativa para perceção dos vitivinicultores, n (%)………..86

(12)

xi

Tabela 4.6: Estatísticas descritivas sobre custos associados à chancela (2001-2014)………89

Tabela 4.7: Variáveis socioeconómicas envolvidas na caraterização do residente e respetivas categorias com as frequências marginais………..97

Tabela 4.8: Alfa de Cronbach, valor próprio e inércia das 19 dimensões………98

Tabela 4.9: Medidas de discriminação nas duas primeiras dimensões………98

Tabela 4.10: Variáveis de perceção dos residentes sobre os benefícios da chancela UNESCO e respetivas categorias com as frequências marginais………...……101

Tabela 4.11: Alfa de Cronbach, valor próprio e inércia nas primeiras dimensões……….101

Tabela 4. 12: Medidas de discriminação nas duas primeiras dimensões………...……102

Tabela 4.13: Frequência marginal das categorias das variáveis qua caracterizam a perceção dos residentes sobre os benefícios e problemas gerais………105

Tabela 4.14: Alfa de Cronbach, valores próprios e inércia nas primeiras 4 dimensões………106

Tabela 4.15: Medidas de discriminação nas duas primeiras dimensões………106

Tabela 4. 16: Média dos scores das 6 dimensões nos Clusters………..………110

Tabela 4.17: Categorias concentradas por Cluster………110

Tabela 4.18: Resumo do modelo HOMALS com a retenção das primeiras dimensões……….111

Tabela 4.19: A contribuição das variáveis na formação das 3 primeiras dimensões, considerando todas as variáveis (Medidas discriminantes e valores próprios)…….………112

Tabela 4.20: Contribuição das variáveis na formação das 3 primeiras dimensões (Medidas discriminantes e valores próprios)………113

Tabela 4. 21: Média dos scores das 3 dimensões nos Clusters………...115

Tabela 4.22: Concentração de residentes nos dois Clusters mediante as categorias mais discriminantes (%)…..116

Tabela 4.23: Optimal scaling levels nas variáveis que caraterizam a perceção do residente do ADV…………120

Tabela 4.24: Componentes principais extraídas da análise da CATPCA, com os component loadings, variância explicada (VAF), consistência interna (𝛼) e valor próprio……….121

Tabela 4. 25: Média dos scores das 3 componentes nos Clusters e valor de F………...125 Tabela 4.26: Concentração de residentes nos dois Clusters mediante as categorias mais discriminantes (%)…126

(13)

xii

L

ISTA DE

A

BREVIATURAS

ACM-Análise de Correspondência Múltipla

ACP–Analise de componentes Principais

ADV–Alto Douro Vinhateiro

ALS-Mínimos Quadrados Alternados(Alternating Least Squares)

ALSOS – Mínimos Quadrados Alternados com Quantificação Ótima (Alternating Least

Squares with Optimal Scaling)

ANOVA- Análise de Variância (Analysis of Variance)

CATPCA – Análise de Componentes Principais Categórica (CATegorical Principal

Components Analysis)

HOMALS–Análise de Homogeneidade(HOMogeneity Analysis by Alternating Least Squares)

UNESCO - Organização das Nações Unidas para a Educação, Ciência e Cultura (United

Nations Educational, Scientific and Cultural Organization)

QMC – Quadrado Médio do Cluster QME – Quadrado Médio do Erro

SPSS - Statistical Package for the Social Sciences SSQ – Soma dos Quadrados das Distâncias

(14)

1

I

NTRODUÇÃO

A Estatística é uma ciência que nasceu dos dados, da necessidade de explicar fenómenos sociais e políticos. Quer se queira, quer não, a sociedade atual é dominada pelos números (Marôco, 2011), pelas percentagens nas eleições, taxa de desemprego, taxas de juro…a Estatística não são os números, mas sim o mundo (Howell, 1999). Ao longo da história surgiu a necessidade de criar métodos estatísticos mais eficazes, capazes de dar resposta à análise de problemas da sociedade.

A investigação em Estatística suportou grandes mudanças, ultrapassou limitações e aproximou a teoria da aplicação, onde se distinguem duas fases importantes: a Estatística Clássica, centrada no formalismo matemático e a Moderna focada na aplicação e interpretação dos resultados (Reis, 2001). Foi na “era” Moderna, principalmente com os contributos de Pearson, Gosset e

Fisher, e com o avanço das tecnologias informáticas e softwares estatísticos que diversos

académicos, de várias áreas, começaram a trabalhar técnicas multivariadas. Estas permitem uma visão global sobre os objetivos da investigação, utilizando simultaneamente múltiplas variáveis na interpretação de um fenómeno.

Inicialmente, a análise multivariada apenas contemplava variáveis exclusivamente quantitativas, no entanto, os investigadores não tinham interesse pelas variáveis qualitativas, as quais eram conotadas como variáveis muito subjetivas. Mas, o dilema permanecia uma vez que na maioria dos estudos científicos, principalmente nas Ciências Sociais, os investigadores são confrontados com um grande número de variáveis categóricas, sendo necessário reduzir a sua dimensão, preservando o máximo de informação (Linting et al., 2007). Então, elementos da escola americana e uma equipa intitulada de Albert Gifi (1968 a 1991), da Universidade de Leiden, formalizaram um conjunto de métodos denominados por ALSOS (Alternating Least

Squares with Optimal Scaling) ou frequentemente designados “GIFI system”, métodos

multivariados qualitativos que procedem à estimação alternada dos parâmetros (categorias e objetos) e intervêm sob as categorias, quantificando-as e preservando o máximo de informação (minimizando a sua perda), através do processo de quantificação ótima, optimals scaling. Esta dissertação centra-se na investigação e aplicação de técnicas Estatísticas Multivariadas específicas a dados qualitativos ou mistos, assentes nos métodos ALSOS, concretamente a

(15)

2

Análise de Homogeneidade (HOMALS) e a Análise de Componentes Principais Categórica (CATPCA).

A HOMALS, genericamente, reduz a dimensionalidade, maximizando a homogeneidade dos dados (minimizando a função perda) qualitativos nominais ou ordinais, sendo, neste caso, a ordem e distância desprezadas. Submete os dados a um processo de quantificação (optimal

scaling), onde cada categoria é associada a uma quantificação e cada objeto (ou indivíduo) a

um score (Carvalho, 2004).

A CATPCA assume-se como uma extensão da HOMALS (Lavado, 2004 e 2012), permitindo a inclusão de variáveis categóricas ordinais e quantitativas, respeitando a natureza das variáveis, através de transformações diferenciadas (optimal scalings levels). Reduz a dimensionalidade, nomeia grupos de indivíduos de forma intuitiva e identifica as variáveis que permitem a discriminação entre grupos (Marôco, 2011).

Ambos os métodos permitem que os seus resultados, as dimensões retidas, que são variáveis quantitativas contínuas, sejam articulados com uma multiplicidade de técnicas multivariadas específicas para dados quantitativos (Carvalho, 2004; Meulman et al., 2004; Marôco 2011; Lavado, 2012), especialmente a Análise de Clusters (ou Classificatória) para uma classificação formal de grupos ou a Análise Discriminante em estudos em que ocorre informação, a priori, dos grupos de pertença dos indivíduos em análise.

Neste contexto, nesta dissertação, face à natureza dos dados disponíveis, articula-se a aplicação da HOMALS e da CATPCA, no sentido de se conhecer a perceção dos residentes do Alto Douro Vinhateiro (ADV).

Durante séculos assistiu-se ao empenho de uma população no desenvolvimento de uma das regiões mais sublimes, o Alto Douro Vinhateiro, com o trabalho da terra em socalcos suportados com a construção de muros de xisto e em condições naturais muito adversas (clima rigoroso, encostas íngremes e escassez de recursos). Os durienses moldaram uma paisagem evolutiva viva, que espelha a riqueza imaterial do património cultural (Lourenço, 2003). Em dezembro 2001, o ADV obteve o reconhecimento internacional da sua singularidade e autenticidade, com a sua inclusão na lista da UNESCO como paisagem Cultural Evolutiva Viva. Um reconhecimento do valor e do trabalho dos residentes, como construtores da excecional paisagem, como menciona Aguiar (2002). Considerando o residente do ADV como o

(16)

3

responsável pela sua inclusão e evolução, é importante conhecer a sua perceção sobre o impacto da chancela UNESCO na região e no seu bem-estar económico, passados mais de 10 anos, após a sua classificação. A presente dissertação procura, de algum modo, dar resposta a este desiderato, resultando como objetivo geral da investigação:

- Conhecer os benefícios/custos decorrentes da ligação à rede UNESCO para os residentes e estudar a sua perceção em termos de Valorização Económica do bem cultural, o Alto Douro Vinhateiro.

Para atingir os objetivo definido recorreu-se à administração de inquéritos aos residentes ADV

e à aplicação da HOMALS da CATPCA. Com aplicaçãoe comparação das técnicas referidas

surge a necessidade de dar resposta a outra problemática, emergindo o objetivo operacional:

- Aplicação e comparação de técnicas multivariadas qualitativas, que pressupõem quantificações ótimas (optimal scaling) distintas para “conhecer a perceção dos residentes sobre o impacto da chancela UNESCO atribuído ao ADV”.

Para o alcance dos objetivos estabelecidos, além da Introdução e Conclusão, esta tese apresenta duas partes primordiais, em coerência com o binómio “Estatística Aplicada”, articulando entre a teoria e a prática. A primeira parte, centrada na Estatística, envolve 3 capítulos, que descrevem teoricamente a aplicação e execução das técnicas estatísticas multivariadas para variáveis qualitativas, a HOMALS e a CATPCA. O capítulo 1 apresenta uma revisão da literatura sobre a história e a evolução das técnicas, seguindo-se nos capítulos 2 e 3, com a apresentação dos pressupostos, sistematização das premissas de cada um dos métodos e a definição dos principais conceitos, para uma melhor compreensão das técnicas. Os dois últimos capítulos (2 e 3) foram acompanhados de notas conclusivas e de alguns exemplos práticos, recorrendo a dados mais simples, com poucas variáveis, resultantes de um inquérito realizado a visitantes do ADV em 2013.

A segunda parte corresponde à componente Aplicada onde as referidas técnicas são usadas para conhecer a perceção dos residentes do ADV e, consequentemente, serem estudadas estratégias de Valorização Económica à região classificada.

No capítulo 1 desta parte, faz-se uma apresentação do ADV, permitindo um enquadramento da problemática emergente no objetivo geral da dissertação. Nos capítulos 2 e 3 planeia-se o

(17)

4

delineamento do estudo, justifica-se a escolha de uma investigação por inquérito, descrevendo e fundamentando as secções que o compõem. As etapas subjacentes à administração dos inquéritos, a amostragem, gerando um plano amostral, apoiado, principalmente, em Martins (2009) e Vicente (2012). No capítulo 4, além da aplicação da HOMALS e da CATPCA e da sua articulação com a Análise de Clusters, analisam-se os resultados obtidos na amostra, recorrendo a estatísticas simples e inferenciais, e redigem-se as principais notas conclusivas. Por fim, termina-se com a redação das principais conclusões, em termos da perceção dos residentes, em resposta aos objetivos estabelecidos.

(18)

P

ARTE

I

(19)

6

Esta parte descreve, teoricamente, a aplicação e execução de técnicas estatísticas multivariadas mais apropriadas para dados qualitativos: Análise de Homogeneidade (HOMALS) e a Análise de Componentes Principais Categórica (CATPCA).

No capítulo 1 apresenta-se uma revisão da literatura sobre a história e a evolução das técnicas, seguindo-se no capítulo 2 e 3, a apresentação dos pressupostos, sistematização das premissas em que assenta cada um dos métodos e a definição dos principais conceitos.

Paralelamente, a título de exemplo, recorreu-se à apresentação de uma aplicação prática nas

secções teóricas, utilizando outras fontes de dados1, relacionados com a Valorização Económica

do Alto Douro Vinhateiro, mas com ênfase num outro grupo de stakeholders2, os visitantes,

especificamente a sua caraterização socioeconómica.

Para finalizar esta primeira parte, apresentam-se algumas notas conclusivas sobre os métodos abordados.

1 Os dados foram recolhidos de um inquérito administrado presencialmente entre março e outubro de 2013 no Alto Douro Vinhateiro,

obtendo-se 249 inquéritos válidos.

(20)

7

1. Evolução Histórica

A história em torno da investigação estatística de dados multivariados qualitativos é relativamente recente, quando comparada às tecnicas desenvolvidas especificamente para dados quantitativos, de onde se depreendem as conotações de técnicas multivaridas clássicas e modernas, Reis (2001).

Para um enquadramento claro e adequado da evolução histórica das técnicas citadas, começa-se por descrever sucitamente a génecomeça-se da Estatística (Secção 1.1).

Na secção 1.2. apresenta-se uma perspetiva histórica da análise multivarida nas suas duas fases, a clássica e a moderna, referenciando-se os principais autores, técnicas e aplicações.

A descrição e a evolução das técnicas multivaridas para dados qualitativos é feita na Secção 1.3. Referem-se os principais investigadores da HOMALS e CATPCA. Finaliza-se com algumas referências a investigações e aplicações recentes das técnicas expostas.

1.1. A Estatística

A Estatística tem um longo percurso histórico e surgiu da necessidade de contabilizar factos, fenómenos observados ou mesmo pessoas. Até ao início do século XVII, limitava-se ao estudo de “assuntos de estado”, com a contagem dos residentes, o levantamento dos produtos agrícolas para serem estabelecidos impostos. Contar, enumerar e recensear sempre foi uma preocupação permanente em todas as culturas (Ferreira e Tavares, 2009). Nesse século, a Estatística começou a desenvolver-se com o cálculo de probabilidades, com os contributos de Pascal, Fermat e

Bernoulli3, através dos jogos do azar4 (Memória, 2004). No século XIX, a Estatística começou a ser aplicada noutras áreas: Ciências Sociais, Psicologia e Educação. Foram Quetelet e Galton que deram o maior impulso, com o conceito de correlação, regressão e percentis. Foram muitos os matemáticos que se dedicaram ao seu desenvolvimento desde, Laplace, Tchebycheff, Karl

Pearson, Augustus De Morgan, George Boole… Na segunda metade do século XIX dá-se uma

viragem da Estatística descritiva para o estudo metodológico5 (Ferreira e Tavares, 2009).

3 A sua obra, com publicação póstuma (1713), “Ars Conjectandi de Bernoulli”, mostrou como seria a Estatística como ciência.

4Surgiu da correspondência entre Pascal e Fermat. O termo “azar”, usado na expressão “jogos de azar” não significa má sorte ou má fortuna

mas simplesmente Acaso (Ferreira e Tavares, 2009).

(21)

8

No início do século XX, iniciou-se o desenvolvimento de técnicas de análise de variabilidade por Fisher (seguidor das metodologias de William Sealey Gosset de pseudónimo Student). A Estatística Multivariada aparece da generalização das metodologias de correlação e regressão e do avanço das tecnologias computacionais, através da qual a sua complexidade deixou de ser um problema, emergindo nas diversas áreas científicas (Reis, 2001; Neto, 2004).

1.2. A Análise Multivariada

A análise Multivariada quando surgiu, tomou um lugar de destaque na Estatística, Karl Pearson foi o grande impulsor das técnicas de associação multivariada. Em 1901 publicou a primeira abordagem à ACP (Análise de Componentes Principais), recorrendo apenas a situações duas ou três dimensões.

A Estatística Multivariada assume-se como um conjunto de técnicas, geralmente, agrupadas segundo os objetivos de exploração ou previsão e de acordo com a natureza das variáveis: qualitativas (nominais, nominais dicotómicas e ordinais), quantitativas (discretas ou contínuas) ou mista. Estas utilizam simultaneamente a informação de múltiplas variáveis (mais que 2) na interpretação de um fenómeno, permitindo uma visão global sobre os objetivos de pesquisa. Desde o seu aparecimento, a sua definição é consensual: metodologia estatística de estudo de uma relação conjunta das variáveis (Kendall, 1957); estudo sobre dados agregados em várias dimensões para mesmo indivíduo, (Morisson,1990); que estuda simultaneamente as relações entre variáveis (Dillon e Goldsteir, 1984); métodos estatísticos que analisam simultaneamente várias variáveis medidas num indivíduo, (Hair et al., 2005); estudo de um conjunto de variáveis aleatórias correlacionadas (Gifi 1990); métodos estatísticos que utilizam, simultaneamente, todas as variáveis na interpretação teórica do conjunto de dados obtidos, extraindo informação complementar que a análise univariada não consegue evidenciar, (Neto, 2004).

Reis (2001) descreve a sua evolução, distinguindo-a em duas fases: clássica e moderna. A Estatística Multivariada Clássica (1901 até 1979) centrava-se no formalismo matemático, tinha por base a distribuição Normal multivariada e a generalização dos métodos estatísticos univariados. Os métodos de exploração multivariada estavam em segundo plano. A fase Moderna (início de 1980) foca-se na aplicação e interpretação dos resultados, com uma formalização matemática mínima, mas rigorosa. Estendeu-se à simplificação estrutural,

(22)

9

classificação, agrupamento de variáveis, análise de dependência entre variáveis e testes de

hipóteses. Popularizou-se a sua aplicação nas mais diversas áreas de investigação6.

Atualmente dá-se a mesma designação à divisão existente nas técnicas multivariadas. As clássicas (ou tradicionais) aplicadas, quase exclusivamente, a variáveis quantitativas, englobam, por exemplo, a Análise de Regressão Múltipla trabalhada por Pearson em 1896 e seguidamente por Bartlett. A Análise de Componentes Principais (ACP), introduzida por

Pearson, seguido por Holleting, Eckart e Young ou a Análise de Clusters (ou Classificatória)

por Tyron e Diday que apresentou as primeiras aplicações na área da Taxonomia Botânica. As técnicas multivariadas modernas recorrem às potencialidades da análise multivariada quantitativa para analisar variáveis categóricas, através da quantificação das variáveis qualitativas. Tentam assim dar resposta às limitações evidenciadas nas clássicas (Carvalho, 2004).

Sendo o tema desta dissertação a análise multivariada de dados qualitativos, a HOMALS e a CATPCA, importa mencionar as limitações da técnica clássica - ACP, que reduz a dimensionalidade dos dados multivariados qualitativos, formando um menor conjunto de variáveis, as componentes principais, que são combinações lineares das originais e são não correlacionadas (Linting et al., 2007). Esta técnica apresenta duas limitações: é inviável em dados qualitativos, uma vez que tem por base, na informação inicial, o uso da matriz de covariâncias ou correlações, não fazendo sentido o cálculo usual de correlações em variáveis qualitativas (Linting et al., 2007), a menos que seja usada a matriz de correlações de Spearman na presença de variáveis ordinais; pouco eficiente quando as variáveis revelam relações não lineares (Lavado, 2004 e 2012).

1.3. As Técnicas Multivariadas para variáveis qualitativas

Inicialmente as técnicas qualitativas multivariadas limitavam-se às estatísticas básicas. Karl

Pearson em 1900, motivado com as suas extensas aplicações em situações reais, desenvolveu

o teste Qui – Quadrado (𝜒2). A evolução dos computadores, softwares estatísticos e a

necessidade de incluir as variáveis categóricas em diversos estudos científicos contribuíram para ultrapassar estas restrições.

6 Salienta-se que a autora, neste livro, se limita aos métodos de análise para variáveis definidas em escala de rácio ou de intervalo, ou seja,

(23)

10

O tratamento multivariado, onde todas as variáveis são qualitativas nominais, foi iniciado por

Benzécri em 1973, tendo continuidade na escola francesa, com a Análise de Correspondências

Múltiplas (ACM). Este método, adaptado a tabelas de contingência, permite estudar as correspondências eventualmente existentes entre múltiplas variáveis qualitativas, é uma generalização da Análise de Correspondências Simples (Fernando, 2014). Foi seguido por diversos autores que partilhavam o mesmo princípio matemático (princípio do centróide), mas a abordagem de Benzécri e da escola francesa destacou-se com a exploração da componente geométrica (princípio do baricentro), o ponto forte da ACM.

Movidos pela vontade de realizar análises multivariadas sobre dados qualitativos,

investigadores da escola americana e uma equipa7 intitulada com o heterónimo Albert Gifi

(1968 a 1991), da Faculty of Social and Behavorial Sciences da Universidade de Leiden, na

Holanda, formalizaram um conjunto de métodos denominados por ALSOS8 (Alternating Least

Squares with Optimal Scaling), frequentemente designados “GIFI system”.

Um dos métodos formalizado especificamente pela equipa Gifi foi a HOMogeneity Analysis by

Alternating Least Squares (HOMALS). Este analisa quantitativamente dados multivariados

nominais, com o objetivo de atingir a solução ótima na quantificação das categorias de cada variável e aperfeiçoar a homogeneidade dos objetos (indivíduos ou observações), recorrendo a uma função perda.

Na literatura existem referências que indicam que a ACM e HOMALS são equivalentes, partem de filosofias e procedimentos algébricos diferentes, mas obtêm resultados equivalentes, na definição de grupos homogéneos (Gifi, 1990). A HOMALS parte da formalização algébrica e chega à interpretação geométrica, enquanto na ACM é desenvolvido um raciocínio geométrico que só se serve da formalização algébrica nos resultados intermédios. Carvalho (2000 e 2004) faz a comparação entre os dois métodos, explorando a quantificação dos dados nos dois métodos. Conclui que a ACM está mais vocacionada para uma análise geométrica da estrutura das associações entre as múltiplas categorias e a HOMALS, para além de obter resultados geométricos, investe numa quantificação ótima das categorias, com o propósito de as transformar em novas variáveis quantitativas com enorme potencial analítico. Portanto é

7 Bert Bettonvil, Eeke van der Burg, John van de Geer, Willem Heiser, Jan de Leeuw, Jacqueline Meulman, Jan Van Rijckevorsel e Ineke

Stoop.

8Permitem quantificar categorias aliando o princípio quantificação ótima (Optimal Scaling) com procedimento mínimos quadrados alternados

(Alternating Least Squares). Em cada iteração vão sendo determinadas, alternadamente, estimativas para uma quantificação ótima, minimizando a função perda, dos objetos e das categorias.

(24)

11

consensual considerar que a Análise da Homogeneidade (HOMALS) é uma extensão da Análise de Correspondências Múltiplas (ACM), como refere Marôco (2011).

Gifi (1990) refere que o objetivo da HOMALS é explorar as potencialidades da quantificação ótima, nomeadamente a transformação das variáveis qualitativas em quantitativas, permitindo a aplicação de métodos estatísticos que requisitam de variáveis dessa natureza.

Em 1998, investigadores associados ao Data Theory Scaling System Group da Universidade de

Leiden9, estendem o conceito da HOMALS para variáveis quantitativas com a CATegorical

Principal Components Analysis (CATPCA). Considera-se uma evolução do sistema Gifi que

contém como casos particulares a HOMALS e a ACP tradicional10 (Lavado,2012). A CATPCA

resulta da dialética entre a qualidade do ajustamento e o respeito pela natureza das variáveis originais (Lavado, 2004).

Não obstante, Meulman et al. (2004) e Linting et al. (2007) mencionam que Guttman em 1941 fez uma abordagem inicial à CATPCA, intitulando-a de Análise de Componentes Principais Qualitativa (Principal Components Analysis of Qualitative).

A CATPCA veio contornar várias dificuldades: trabalhar com muitas variáveis, na maioria qualitativas e que, muitas vezes, revelam relações não lineares (Linting et al., 2007). A ACP tradicional, frequentemente denominada de ACP linear, permite reduzir um grande número de variáveis num mais pequeno, as componentes principais não correlacionadas, preservando o máximo de informação, respeitando os pressupostos de normalidade (embora seja robusta a este pressuposto) e linearidade das relações entre variáveis (Moreira, 2007). Mas nem sempre as variáveis revelam relações lineares, por exemplo a variável Idade não se relaciona linearmente com o rendimento mensal. Adicionalmente, a maioria dos estudos em Ciências Sociais trabalha

com variáveis em vários níveis de escala, onde a aplicação da ACP não é apropriado11. A

CATPCA veio ultrapassar as duas limitações, não assume uma relação linear nem a normalidade dos dados (Starkweather, 2010), fazendo a conversão das categorias em valores numéricos através de transformações não lineares (optimal scaling levels), respeitando a pertença, ordem e/ou distância entre variáveis inicias.

9 Não se pode considerar da autoria de Gifi, mas sim de elementos que criaram a equipa, Willem Heiser, Jacqqueline Meulman, Gerda Van der

Berg, Patrick Groenen, Peter Neufeglise e Anita van de Kooij, (Meulman et al, 2004; Lavado, 2012).

10 HOMALS quando todas as variáveis são nominais e a ACP quando todas as variáveis são quantitativas. 11 A variância só pode ser calculada em variáveis numéricas.

(25)

12

A Figura 1.1 estabelece as principais diferenças entre os métodos, a natureza das variáveis e as transformações a que são submetidas. Se estamos na presença de variáveis mistas, maioritariamente qualitativas, a análise aconselhada é a CATPCA (Linting et al., 2007). Se todas as variáveis são nominais, ou tratadas como tal, segue-se a HOMALS (Lavado, 2004). Ambos os métodos pressupõem o procedimento de optimal scaling que atribui quantificações numéricas ótimas às categorias, transformações não lineares. Com a minimização da função perda de cada uma das variáveis qualitativas (Lavado, 2004 e 2012).

Figura 1.1: Técnicas de redução da dimensionalidade

Estes métodos continuam a ser investigados e aplicados por inúmeros autores que trabalham, maioritariamente, com variáveis qualitativas. Segue-se a descrição de alguns estudos e aplicações feitas nos últimos anos por diversos investigadores. (Tabela 1.1.)

Tabela 1.1: Desenvolvimento e aplicação de técnicas multivariadas de variáveis qualitativas

1998

De Leeuw e Michailidis fazem uma revisão do método desenvolvido pela equipa Albert Gifi, sem contemplar os valores omissos (missing values) na função perda, mencionada de função perda simples (Mair e De Leeuw, 2009).

2004 Carvalho articula a HOMALS com a Análise de Cluster, reduz a dimensionalidade dos dados

com a HOMALS e obtém novas variáveis (dimensões) quantitativas, formando grupos sociais.

2004 Lavado analisa os algoritmos HOMALS e CATPCA e conclui que as transformações mais

eficientes, oferecidas na CATPCA, são funções polinomiais spline.

2007

Moreira compara a viabilidade de duas técnicas, ACP e CATPCA, na avaliação da satisfação do passageiro de uma transportadora aérea. Conclui que a ACP é a mais adequada aos dados, permite a preservação de uma variância explicada superior.

2007

Linting e Kooij referem que a CATPCA também se apresenta como um algoritmo para realizar uma ACP com variáveis de várias escalas e medida e, em simultâneo, como uma variante não linear12.

12 Na CATPCA verificam-se transformações não lineares das variáveis originais aquando da quantificação ótima.

R ed u çã o d a d im en sio n alid ad e Transformações não lineares HOMALS Variáveis qualitativas nominais CATPCA Variáveis mistas

Transformações Lineares CATPCA

(26)

13

2009

De Leeuw e Mair desenvolvem o package HOMALS no software estatístico R, com a inclusão da matriz presenças e ausências de cada objeto (missing values) na função perda e uma descrição menos formal dos métodos Gifi.

2012

Lavado mostra que de todas as técnicas provenientes do sistema Gifi, a HOMALS é a mais potente devido à flexibilidade permitida para as quantificações, seguindo-se a CATPCA, quando se pretende reduzir a dimensionalidade com um tratamento diferenciado das variáveis.

2013 Monteiro, Correia e Vilela, aplicam a CATPCA para estudar o perfil sensorial de diferentes

marcas e estilos de Vinhos do Porto.

2014 Costa G. articula a HOMALS com a Análise de Cluster para obter localidades homogéneas da

cidade do Rio de Janeiro, quanto aos preços de alojamento.

2014 Fernando A. compara a ACP clássica e a CATPCA num conjunto de dados qualitativos ordinais,

(27)

14

2. Análise de Homogeneidade (HOMALS)

A análise de homogeneidade (HOMALS) é uma técnica multivariada para dados qualitativos nominais que permite reduzir a dimensionalidade dos dados, minimiza a perda de informação (quantificada pela função perda) e maximiza a homogeneidade dos dados qualitativos. Não obstante, não está confinado a este tipo de variáveis, podem-se considerar variáveis quantitativas como categóricas, os valores distintos são considerados como um número finito e elevado de categorias, sendo a ordem e distância desprezadas. Adicionalmente a HOMALS, permite ainda uma descrição gráfica do conjunto de dados baseada na redução da dimensionalidade, identificando as associações entre os objetos (indivíduos ou observações) e as variáveis em estudo.

Para a formulação matemática da HOMALS contemplam-se os principais conceitos descritos nos seguintes passos: i) Pressupostos subjacentes ao modelo; ii) Conceitos matemáticos intrínsecos (a função perda, a quantificação ótima, sob Princípio das Médias Recíprocas, os indicadores de qualidade e as soluções gráficas); iii) O algoritmo.

Para uma clarificação dos principais conceitos, fazendo uma ligação entre a teoria e a prática, em cada uma das secções, recorre-se a um exemplo, utilizando-se dados com poucas variáveis, relacionados com os visitantes do ADV, especificamente a sua caraterização socioeconómica.

2.1. Pressupostos

A HOMALS define-se como uma técnica exploratória que estuda a relação entre as variáveis, determina a distância entre as suas categorias e entre objetos (ou indivíduos) que partilham as mesmas preferências, têm as categorias próximas. A sua aplicação exige duas condições: multidimensionalidade e a operacionalização de variáveis qualitativas.

A multidimensionalidade caracteriza-se pelo número de variáveis em análise, necessariamente superior a duas. Na HOMALS avalia-se a proximidade entre os diversos fatores (variáveis) e identificam-se os mais importantes, descortinando a complexidade de diversas investigações que envolvem obrigatoriamente múltiplos indicadores. Por exemplo, a caraterização socioeconómica dos visitantes do ADV, envolve diversas variáveis: local de residência, tipo de emprego, dimensão familiar, género, habilitações, idade e rendimento. Sendo importante conhecer a sua estrutura multidimensional.

(28)

15

O método em análise centra-se nas variáveis qualitativas que se subdividem em diferentes níveis (categorias), todas as variáveis são tratadas como nominais. Tem em consideração apenas a pertença dos objetos às categorias, nada é assumido sobre a distância ou ordem entre categorias.

2.2. Principais conceitos

O modelo envolve dados multivariados organizados em matrizes, a inicial e as auxiliares (secção 2.2.1.). A solução ótima é conseguida com recurso à minimização de uma função, denominada de função perda, descrita na secção 2.2.2. As quantificações dos objetos e das categorias, que levam à solução final, são efetuadas recorrendo ao Princípio das Médias Recíprocas, descrito na secção seguinte (2.2.3.). A interpretação e a avaliação do método HOMALS é feito com recurso a indicadores de qualidade, medidas de discriminação, valores próprios e Alfa de Cronbach e às soluções gráficas, traduzida nas duas últimas secções (2.2.4. e 2.2.5.).

Para a definição dos principais conceitos em torno da HOMALS, foram seguidos: Michailidis e De Leeuw (1998) e De Leeuw e Mair (2009); Lavado (2004 e 2012); Carvalho (1998 e 2004).

2.2.1. Matrizes envolvidas a) Matriz inicial (input)

O início do processo exige uma matriz multidimensional, 𝐇𝑛×𝑚= [ℎ𝑖𝑗], representando os

resultados dos 𝑛 objetos (linhas) em 𝑚 variáveis qualitativas nominais (colunas), onde cada

coluna ℎ𝑗, representa 𝑛 resultados de 𝑛 objetos para uma variável 𝑋𝑗, com 𝑞𝑗 categorias

exclusivas e exaustivas, 𝑗 = 1, … , 𝑚. As categorias de cada variável são codificadas, com

números naturais consecutivos, substituindo-se as designações qualitativas por designações

numéricas. No total têm-se 𝑝 categorias (∑ 𝑞𝑗 = 𝑝, 𝑗 = 1,2, … , 𝑚).

Exemplo 2.1.

Exemplificando com os dados referentes à caraterização socioeconómica dos visitantes do ADV, temos 249 visitantes, 𝑛 = 249, 7 variáveis que caracterizam o perfil socioeconómico do

inquirido, 𝑚 = 7, com um número diferente de categorias por variável, totalizando 25

(29)

evitando-16

se um grande número de categorias já que a sua ordem e/ou distância são ignoradas neste método, conforme a Tabela 2.1.

Tabela 2.1: Codificação das variáveis socioeconómicas dos visitantes do ADV

Variáveis Categorias (Acrónimo) /Codificação

Distância da Residência ao ADV Inferior 78 km (D1)/1; Entre 78 e 99 km (D2)/2 Entre 100 e 163 km (D3)/3; Mais que 163 km (D4)/4.

Emprego Empregado (E1)/1; Desempregado (E1)/2; Estudante (E3)/3; Reformado (E4)/4

Dimensão familiar 1 Elemento (D1)/1; 2 Elementos (D2)/2; 3 Elementos(D3)/3; Mais de 3 elementos (D4)/4

Género Feminino (G1)/1; Masculino (G2)/2

Habilitações Básico (H1)/1; Secundário (H2)/2; Superior(H3)/3

Idade Menos de 32 anos (I1)/1; Entre 32 e 39 anos (I2)/2; Entre 40 e 49 anos (I3)/3; Mais que 49 anos(I4)/4

Rendimento Menos de 1000 euros (R1)/1; 1000 a 2000 euros (R2) /2; 2001 a 3000 euros (R3)/3; Mais de 3000 euros (R4)/3

De acordo com a substituição das categorias iniciais por números naturais consecutivos é possível formar a matriz inicial com 249 linhas, referentes ao número de visitantes inquiridos (objetos) e 7 colunas referentes à categoria assumida em cada variável. Por exemplo, o primeiro indivíduo reside a mais de 163 km do ADV (4), encontra-se empregado (1), a sua família é constituída por dois elementos (2), é do género masculino (2), possui o ensino secundário (2), tem mais de 49 anos (4) e mencionou rendimentos mensais entre os 1 000€ e os 2000 € (2), Figura 2.1.

Figura 2.1: Ilustração da matriz inicial, com 249 linhas e 7 colunas

𝐇249×7 = [ 4 1 2 2 2 4 2 3 4 2 2 2 4 3 1 1 4 1 2 3 2 ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ 1 2 2 1 3 2 3] b) Matrizes auxiliares

Da matriz inicial 𝐇, derivam três matrizes auxiliares: matriz de ausências e presenças de todas

as variáveis (𝐆𝑛×𝑝); matriz de frequências univariadas das 𝑝 categorias (𝐃𝑝×𝑝); matriz de

presenças e ausências de cada objeto, em todas as variáveis (𝐌).

- Matriz de ausências e presenças de todas as variáveis (𝐆𝑛×𝑝)

A matriz de presenças e ausências de todas as variáveis 𝐆𝑛×𝑝, designada por alguns autores de

(30)

17

indicatriz associada à variável 𝑋𝑗 (𝑗 = 1, … , 𝑚): 𝐆𝑛×𝑝 = [𝐆1 𝐆2… 𝐆𝑚]. Para cada variável 𝑋𝑗,

com 𝑞𝑗 categorias, a respetiva coluna ℎ𝑗 com informação dessa variável em 𝑛 indivíduos,

considera-se uma matriz indicatriz (𝐆𝑗) com 𝑛 linhas e 𝑞𝑗 colunas. A informação na linha 𝑖

corresponde ao resultado para o indivíduo 𝑖 na variável 𝑋𝑗, apenas apresenta o valor 1 na coluna

correspondente à pertença do indivíduo 𝑖 e 0 caso contrário, tem-se apenas um elemento 1 e

(𝑞𝑗− 1) zeros.

Na caraterização da matriz G, tem-se que:

i) As categorias são mutuamente exaustiva e exclusiva. Linhas de 𝐆j têm só um elemento

1 e qj− 1 zeros, as colunas de 𝐆j são ortogonais entre si e existe uma delas que é redundante, sendo determinada pelas restantes.

ii) A matriz 𝐆 contém a mesma informação que a matriz 𝐇, mas com uma codificação

numérica, para o caso de uma observação sem valores omissos;

iii) O somatório de cada linha da matriz 𝐆 é igual a 𝑚 (número de variáveis);

iv) O somatório de cada coluna de 𝐆 indica a frequência marginal de cada uma das

categorias de cada variável.

- Matriz de frequências marginais das p categorias (𝐃𝑝×𝑝)

A matriz das frequências marginais, 𝐃𝑗, resulta da ortogonalidade da matriz G, ou seja, 𝐃𝑗= 𝐆𝐽𝑇𝐆𝑗.

Contém a frequência univariada de todas categorias (𝑝) de todas as variáveis, sendo uma matriz diagonal (𝑝 × 𝑝), cujos elementos principais, diagonais são as ditas frequências e os restantes elementos da matriz têm de ser diferentes de zero.

- Matriz de presenças e valores omissos de cada objeto (𝐌∗)

Para identificar os objetos com valores omissos, constrói-se a matriz diagonal de dimensão

𝑛 × 𝑛, 𝐌∗, que advém do somatório das diversas matrizes 𝐌j:

∑ 𝐌j= 𝐌

𝑚

𝑗=1

Cada 𝐌j caracteriza-se com uma matriz diagonal binária, onde o 1 traduz uma resposta válida

(31)

18

Exemplo 2.2.

Da matriz inicial 𝐇, com o perfil socioeconómico dos visitantes, derivam as matrizes: 𝐆249×25,

𝐃25×25 e 𝐌. A matriz 𝐆 traduz a pertença dos visitantes (objetos) às categorias, sendo que ao primeiro indivíduo corresponde a categoria 4 da variável Distância ao ADV (mais de 163 km), a categoria 1 da variável Emprego (empregado) e a categoria 2 da última variável, o Rendimento, (1 000€ a 2 000€).

Relativamente à matriz 𝐃, que traduz a frequência absoluta das 25 categorias das 7 variáveis

em estudo, constata-se, por exemplo, que para a variável Distância da Residência ao ADV (os

4 primeiros resultados da diagonal 𝐃) as frequências absolutas dos visitantes distribuem-se

pelas suas 4 categorias, com os seguintes valores: 62 (menos de 78km), 76 (entre 78 e 99 km), 49 (entre 100 e 163 km) e 61 (mais de 163 km). Totalizando 248 visitantes, indicador da presença de um valor omisso, ou seja, um visitante não mencionou a distância de sua casa ao

ADV. Na matriz de presenças e ausências de cada visitante, 𝐌249×249, também se detetam os

visitantes que registam ausência de respostas, por exemplo, o visitante 76 não mencionou a dimensão familiar, figurando na diagonal de 𝐌 o valor 6, (Figura 2.2).

Figura 2.2: Ilustração das matrizes auxiliares da HOMALS

𝐆249×25= [ 0 0 0 1 1 0 0 0 … 0 1 0 0 0 0 1 0 0 0 0 1 … 0 0 1 0 1 0 0 0 1 0 0 0 … 0 1 0 0 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋮ 1 0 0 0 0 1 0 0 … 0 0 1 0] ∑ 𝐆.𝑖= 7; 25 𝑖=1 ∑ 𝐆𝑘.= 𝑛𝑖, (𝑓𝑟𝑒𝑞𝑢ê𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑎𝑠 𝑒𝑚 𝑐𝑎𝑑𝑎 𝑣𝑎𝑟𝑖á𝑣𝑒𝑙). 249 𝑘=1 𝐃25×25= [ 62 0 0 0 0 0 … 0 0 76 0 0 0 0 … 0 0 0 49 0 0 0 … 0 0 0 0 61 0 0 … 0 0 0 0 0 201 0 … 0 0 0 0 0 0 14 … 0 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ 0 0 0 0 0 0 0 19] 𝐌249×249= [ 7 0 0 0 0 0 … 0 0 7 0 0 0 0 … 0 0 0 7 0 0 0 … 0 0 0 0 7 0 0 … 0 0 0 0 0 7 0 … 0 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ 0 0 0 0 0 6 … 0 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ 0 0 0 0 0 0 0 7]

(32)

19

2.2.2. Função Perda

A homogeneidade permite-nos avaliar as semelhanças/dissemelhanças entre grupos, de acordo com os atributos que os definem, através da quantificação da informação perdida. A ideia subjacente é a de quantificar a perda de informação que ocorre na transformação das variáveis originais por um índice (ou mais), na HOMALS este índice tem o nome de dimensão,

resultantes da metodologia. A função perda, designada por 𝜎, faz essa avaliação, medindo a

diferença entre as variáveis através da quantificação da perda de informação resultante da transformação das variáveis iniciais pelas ditas dimensões finais.

A função perda é o elemento central da HOMALS e do Gifi System, “The loss function is at the

heart of the Gifi system”, como referem Michailidis e De Leeuw (1998).

Chama-se função perda da HOMALS de dimensão 1 para variáveis categóricas:

𝜎1(𝐱, 𝐲) = 𝑚−1∑ 𝑆𝑆𝑄(𝐱 − 𝐆𝐣𝐲𝐣)

𝑗

𝐱 é um vetor que se pretende determinar e que contém as quantificações dos scores dos n objetos, na primeira dimensão;

𝐲 é um vetor de dimensão 𝑝 que contém a quantificação de todas as categorias das 𝑚 variáveis na 1.ª dimensão;

𝐲𝑗 é um vetor com a quantificação das 𝑞𝑗 categorias da variável 𝑋𝑗, j ∈ {1,2, … , m}; 𝑮𝑗 a matriz de presenças e ausências da variável 𝑋𝑗, de dimensão 𝑛 × 𝑞𝑗, j ∈ {1,2, … , m}

SSQ(𝐱 − 𝐆𝒋𝐲𝐣) traduz a soma dos quadrados das diferenças entre dois vetores, neste caso entre 𝐱 e 𝐆𝐣𝐲𝐣

Generalizando, define-se a função perda para 𝒔 dimensões13:

𝜎𝑠: ℝ𝑛 × ℝ𝑚 → ℝ

(𝐗, 𝐘) ↦ 𝑚−1∑ 𝑆𝑆𝑄(𝐗 − G

jYj) 𝑗

𝐗 é uma matriz que contém as quantificações dos scores dos objetos, com n linhas(número total de objetos) e s colunas(número de dimensões retidas);

𝐘 é uma matriz, 𝐘 = [𝐘𝟏, … , 𝐘𝐦]𝑻, com 𝑠 linha e 𝑝 colunas (número total de categorias de todas as variáveis);

𝐘𝐣 a matriz com o número de linhas igual ao número de categorias da variável 𝑋𝑗, 𝑗 ∈ {1,2, … , 𝑚} e s colunas;

𝐆𝐣 a matriz indicatriz da variável 𝑋𝑗 associada aos dados, 𝑗 ∈ {1,2, … , 𝑚}

De outra forma diz-se que esta função calcula o quadrado da distância Euclidiana entre as

variáveis transformadas (𝐆𝐣𝐘𝐣) e os scores dos objetos(𝐗). Para que a perda (distância) seja

mínima, é necessário encontrar o par ordenado (X, 𝐆𝐣𝐘𝐣) que minimize 𝜎𝑠, que corresponde à

quantificação ótima de 𝑛 valores de 𝐗, scores dos objetos (object score) nas 𝑠 dimensões e à

(33)

20

quantificação ótima das 𝑚 categorias, 𝐆𝐣𝐘𝐣 (component score) que cada objeto possui. Assim

sendo, as variáveis iniciais e as transformadas são homogéneas com uma perda igual ao mínimo de 𝜎𝑠.

O ponto que minimiza a função perda14 𝜎1 é determinado recorrendo ao Teorema 1 e o Teorema

2, descritos por Gifi (1990) para a generalidade de Gifi System e demostrados por Michailidis e De Leeuw (1998), Lavado (2004) e De Leeuw e Mair (2009).

Teorema 1: A função perda para uma dimensão pode ser escrita na forma

σ1(x, y)=𝐱Tx+𝑚−1𝐲T𝐃𝐲 − 2𝑚−1𝐱TGy. Demonstração: σ1(x, y) ≝ 𝑚−1∑ 𝑆𝑆𝑄(𝐱 − 𝐆 j𝐲j) 𝑗 = 𝑚−1∑(𝐱 − 𝐆 j𝐲j) T (𝐱 − 𝐆j𝐲j) 𝑗

Pelas propriedades de matriz transposta:

σ1(x, y) = 𝑚−1∑(𝐱𝑇− 𝐲 𝒋𝑻𝐆𝑗𝑇)(𝐱 − 𝐆j𝐲j) = 𝑗 𝑚−1∑(𝐱𝑇𝐱 − 𝐱𝑇𝐆 j𝐲j− 𝐲𝑗𝑇𝐆𝑗𝑇𝐱 + 𝐲𝑗𝑇𝐆𝑗𝑇𝐆j𝐲𝑗) 𝑗

Como 𝐃𝑗 = 𝐆𝐽𝑇𝐆𝑗 (secção 2.2.1), 𝐱𝑇𝐆j𝐲j e 𝐲𝑗𝑇𝐆𝑗𝑇𝐱 são numericamente iguais. 𝐲𝑗 é vetor com

números reais (quantificação das 𝑞𝑗 categorias da variável 𝑋𝑗) e o produto interno de 𝐱 por 𝐆j

goza da propriedade de simetria. Portanto:

σ1(x, y)=𝑚−1∑ (𝑗 𝐱𝑇𝐱 − 2𝐱𝑇𝐆j𝐲j+ 𝐲𝑗𝑇𝐃𝑗𝐲𝑗) =𝑚−1(𝑚𝐱𝑇𝐱 − 2𝐱𝑇∑ 𝐆𝑗 j𝐲j+ ∑ 𝐲𝑗 𝑗𝑇𝐃𝑗𝐲𝑗)

Adicionalmente ∑𝑗𝐆j𝐲j= 𝐆1𝐲1+ 𝐆2𝐲2+ ⋯ + 𝐆𝑚𝐲𝑚 = 𝐆𝐲 e ∑ 𝐲𝑗 𝑗𝑇𝐃𝑗𝐲𝑗 = ∑ 𝐲𝑗 𝑗𝑇𝑑𝑗𝑗𝐲𝑗 onde

d𝑗𝑗 é o j-ésimo elemento da diagonal de D, assim 𝐲𝑇𝐃𝐲 = ∑ 𝐲𝑗 𝑗𝑇𝑑𝑗𝑗𝐲𝑗 :

σ1(x, y) = 𝐱𝑇𝐱 − 2𝑚−1𝐱𝑇𝐆𝐲 + 𝑚−1𝐲𝑇𝐃𝐲 = 𝐱𝑇𝐱 + 𝑚−1𝐲𝑇𝐃𝐲 − 2𝑚−1𝐱𝑇𝐆𝐲

14 O mínimo de 𝜎

𝑠 ocorre da generalização dos teoremas apresentados, Lavado (2004). Considerando que para 𝑠 = 1 tem-se σ (X, Y)=σ1(𝐱𝟏,

y1), para 𝑠 = 2 tem-se σ(X, Y)=σ1(𝐱𝟏, y1)+σ1(𝐱𝟏, y1), …generalizando que para 𝑠 a ideia é a mesma. Cada parcela de σ (X, Y) é uma função

de contradomínio positivo (média de números ao quadrado) e minimizar soma de 𝑠 funções de contradomínio positivo é equivalente a minimizar cada uma delas.

(34)

21

Teorema 2: A função perda para variáveis categóricas é minimizada quando 𝐱 é o vetor

próprio normalizado associado ao maior valor próprio da matriz 𝐆𝐃−1𝐆𝑇 e 𝐲 = 𝐃−1𝐆𝑇𝐱.

Onde 𝐆 é a matriz indicatriz de presenças e ausências de todas as variáveis (𝐆n×p), 𝐃 é a

diagonal com as frequências marginais das m variáveis e 𝐲 é o vetor das quantificações de todas as variáveis.

Demonstração:

Para minimizar a função perda σ1(x, y), recorreu-se ao método dos multiplicadores de

Lagrange15, atendendo a que 𝐱𝐓𝐱 = 1 (evita-se a solução trivial 𝐱 e 𝐲 nulos). Considere-se

então a função Lagrangeana:

𝑓(𝐱, 𝐲, 𝛾) = σ1(x, y) − 𝛾(𝐱𝐓𝐱 − 1)

Pelo Teorema 1:

𝑓(𝐱, 𝐲, 𝛾) = 𝐱𝑇𝐱 + 𝑚−1𝐲𝑇𝐃𝐲 − 2𝑚−1𝐱𝑇𝐆𝐲 − 𝛾(𝐱𝐓𝐱 − 1)

Os candidatos a minimizantes são as soluções de 𝜕𝑓

𝜕𝐱= 𝟎 ∧ 𝜕𝑓 𝜕𝐲= 𝟎 ∧ 𝜕𝑓 𝜕𝛾 = 0. 𝜕𝑓 𝜕𝐱= 𝟎 ⟺ 𝜕 𝜕𝐱(𝐱 𝑇𝐱 + 𝑚−1𝐲𝑇𝐃𝐲 − 2𝑚−1𝐱𝑇𝐆𝐲 − 𝛾(𝐱𝐓𝐱 − 1)) = 𝟎 ⟺ ⟺𝜕(𝐱 𝑇𝐈𝐱) 𝜕𝐱 − 2𝑚 −1𝜕(𝐱𝑇𝐆𝐲) 𝜕𝐱 − 𝛾 𝜕(𝐱𝐓𝐈𝐱) 𝜕𝐱 = 𝟎 ⟺ 2𝐈𝐱 − 2𝑚 −1𝐆𝐲 − 2𝛾𝐈𝐱 = 𝟎 ⟺ ⟺ 𝐱 − 𝑚−1𝐆𝐲 − 𝛾𝐱 = 𝟎 ⟺ −𝑚−1𝐆𝐲 = 𝛾𝐱 − 𝐱 ⟺ 𝐆𝐲 = 𝑚(1 − 𝛾)𝐱 𝜕𝑓 𝜕𝐲= 𝟎 ⟺ 𝜕 𝜕𝐲(𝐱 𝑇𝐱 + 𝑚−1𝐲𝑇𝐃𝐲 − 2𝑚−1𝐱𝑇𝐆𝐲 − 𝛾(𝐱𝐓𝐱 − 1)) = 𝟎 ⟺ ⟺ 𝑚−1𝜕(𝐲 𝑇𝐃𝐲) 𝜕𝐲 − 2𝑚 −1𝜕(𝐱 𝑇𝐆𝐲) 𝜕𝐲 = 0⃗ ⟺ 𝑚 −12𝐃𝐲 − 𝟐𝑚−1𝐆𝑇𝐱 = 𝟎 ⟺

15 Método de otimização que permite encontrar os extremos de uma função, tendo em consideração uma restrição (𝑔(𝑥, 𝑦) = 𝑐). Introduz-se

uma nova variável (multiplicador de Lagrange, 𝛾), surgindo uma nova função: 𝑓(𝐱, 𝐲, 𝛾) = σ1(x, y) − 𝛾(𝑔(𝑥, 𝑦) − 𝑐). Os candidatos a

(35)

22

⟺ 𝐃𝐲 = 𝐆𝑇𝐱

𝜕𝑓

𝜕𝛾= 0 ⟺ −𝐱

𝑇𝐱 + 1 = 0 ⟺ 𝐱𝑇𝐱 = 1

Os vetores (x, y), candidatos a minimizantes verificam simultaneamente as três condições: (1) 𝐆𝐲 = 𝑚(1 − 𝛾)𝐱;

(2) 𝐃𝐲 = 𝐆𝑇𝐱;

(3) 𝐱𝑇𝐱 = 1.

Para estes pontos tem-se:

σ1(x, y) = 𝐱𝑇𝐱 + 𝑚−1𝐲𝑇𝐃𝐲 − 2𝑚−1𝐱𝑇𝐆𝐲 = 1 + 𝑚−1𝐲𝑇𝐆𝑇𝐱 − 2𝑚−1𝐱𝑇𝐆𝐲 = 1 + 𝑚−1(𝐆𝐲)𝑇𝐱 − 2𝑚−1𝐱𝑇𝐆𝐲 = 1 + 𝑚−1[𝑚(1 − 𝛾)𝐱]𝑇𝐱 − 2𝑚−1𝐱𝑇𝑚(1 − 𝛾)𝐱 = 1 + 𝑚−1𝑚(1 − 𝛾)𝐱𝑇𝐱 − 2𝑚−1𝑚(1 − 𝛾)𝐱𝑇𝐱 = 1 − 1 + 𝛾 = 𝛾

A função perda atingirá um mínimo16 para o menor valor possível de 𝛾, que pode ser encontrado

combinado as condições (1) e (2):

𝐆𝑇𝐱 = 𝐃𝐲 ⟺ 𝐃−𝟏𝐆𝑇𝐱 = 𝐲

𝐆𝐲 = 𝑚(1 − 𝛾)𝐱 ⟺ 𝐆𝐃−𝟏𝐆𝑇𝐱 = 𝑚(1 − 𝛾)𝐱

Verifica-se 𝑚(1 − 𝛾) é valor próprio de 𝐆𝐃−𝟏𝐆𝑇𝐱 e 𝐱 é um vetor próprio associado a

𝑚(1 − 𝛾), por definição de valor e vetor próprio17 de uma dada matriz.

16 Formalmente a existência do extremo só é garantida após a matriz Hessiana, mas como se trata de uma função que é a média do quadrado

da distância existe necessariamente um mínimo e um máximo (Lavado, 2004).

Imagem

Tabela 3.1: Impacto da transformação aplicada nas variáveis nos resultados da CATPCA  Tipo de
Figura 3.3: Quantificações das categorias de variáveis socioeconómicas na CATPCA na componente 1 (azul) e  componente  2  (cinzento):  Distância  da  residência  ao  ADV  (0-31,  53-135,  160-231,  254-360  e  386-1556  km),  Emprego (E1 empregado, E2 dese
Figura 3.4: Scree plot com os valores próprios nas 7 (possíveis) componentes principais
Tabela 2.2: Caracterização das variáveis relativas ao benefício económico
+7

Referências

Documentos relacionados

Desenvolvimento global da criança: desenvolvimento intra-uterino; Desenvolvimento psicomotor; Fatores que interferem na desenvolvimento infantil; Motricidade oral;

Para importar e exportar informações de diretório entre servidores de diretório baseado em LDAP, ou descrever um conjunto de mudanças que serão aplicadas a

Os objetivos específicos são: analisar o processo de implementação de um curso técnico integrado sob a vigência do Decreto nº 5.154/2004 no Instituto Federal

Valor: 10 pontos (sendo 2 pontos de DG) com peso 2 1 Avaliação Diagnóstica: bônus de até 1 ponto na média do trimestre.. 1 Avaliação Multidisciplinar: bônus de até 1 ponto

O motivo por que escolher este modelo em vez do modelo da Morfologia Distribuída, entre outras razões, diz respeito, principalmente, ao fato de que as versões da

Resumo: A relação de riscos de acidentes nesse ramo de atividade é extensa, incluindo desde cortes com ferramentas até acidentes de trânsito durante teste de veículos, bem como

performance de marca, e características gerenciais da empresa, como comunicação interna, recursos humanos e satisfação do cliente Com o objetivo de investigar o comportamento

 Quarto cavaleiro: lente cristal convergente com Ø5cm e distância focal de 10cm, em moldura plástica com fixação magnética. Ajustar a posição da lente de 5cm de distância