• Nenhum resultado encontrado

Análise de conglomerados e estatísticas das sociedades não financeiras

N/A
N/A
Protected

Academic year: 2021

Share "Análise de conglomerados e estatísticas das sociedades não financeiras"

Copied!
103
0
0

Texto

(1)

Universidade de Aveiro Ano 2016

Departamento de matemática

ANA LAGES COVILHÃ

CORTEZ

ANÁLISE DE CONGLOMERADOS E ESTATÍSTICAS

DAS SOCIEDADES NÃO FINANCEIRAS

(2)

ii

Universidade de Aveiro Ano 2016

Departamento de Matemática

ANA LAGES COVILHÃ

CORTEZ

ANÁLISE DE CONGLOMERADOS E ESTATÍSTICAS

DAS SOCIEDADES NÃO FINANCEIRAS

Dissertação apresentada à Universidade de Aveiro para cumprimento dos requisitos necessários à obtenção do grau de Mestre em Matemática e Aplicações, realizada sob a orientação científica da Doutora Adelaide Freitas, Professora Auxiliar do Departamento de Matemática da Universidade de Aveiro.

(3)

iii

Dedico este trabalho a minha adorada mãe Amélia de que muito me orgulho, que não pode estar presente, para comigo partilhar este momento inesquecível, de modesta conquista.

Aos meus filhos Orfeu e Jaciana, razão da minha existência, que apesar da distância que nos separa souberam estar próximo de mim, com palavras de carinho. Foi difícil ficar longe de vós, mas hoje é reconfortante, olhar para trás e fazer uma retrospetiva do caminho percorrido.

Aos meus irmãos, que são o meu suporte e que em todos momentos, estiveram presentes com uma palavra de encorajamento e consolo.

(4)

iv

o júri

presidente Professor Doutor Pedro Filipe Pessoa Macedo, Professor Auxiliar, Universidade de Aveiro

vogal-arguente principal Professora Doutora Anabela Virgínia dos Santos Flores da Rocha, Professora Adjunta, Universidade de Aveiro

vogal-orientador Professora Doutora Adelaide de Fátima Baptista Valente Freitas, Professora Auxiliar, Universidade de Aveiro

(5)

v

agradecimentos Agradecemos à administração do Banco Nacional de Angola, que tornou possível a realização deste Mestrado em Matemática e Aplicações, na especialização de Estatística e Otimização, bem como a todos os responsáveis e colegas dos Departamentos de Recursos Humanos, Controlo Cambial, Estatística, Gabinete do Governador e Relações Públicas do mesmo Banco que, de forma direta ou indireta, contribuíram para o culminar desta tarefa árdua.

Ao Banco de Portugal, que autorizou a realização do estágio curricular no Departamento de Estatística, na área da Central de Balanços, sobre o tema Estatísticas de S“ciedades Nã“ Financeiras de Ang“la . Em es”ecial agradecemos à Direção do referido Departamento, coordenadores de núcleos e todos quantos se mostraram disponíveis para colaborar e transmitir os seus conhecimentos.

Agradecemos à orientadora, Doutora Adelaide Freitas, Professora Auxiliar do Departamento de Matemática da Universidade de Aveiro, pela sua disponibilidade em acompanhar a minha evolução desde o primeiro ano do mestrado, bem como o apoio incondicional prestado nesta fase final e crucial. Reiteramos, ainda os nossos agradecimentos pela sua orientação, levada de forma moderada e firme, assim como a sua sabedoria na transmissão dos conhecimentos científicos, que serviram de suporte à preparação deste trabalho.

Reiteramos os agradecimentos à Doutora Isabel Pereira, Professora Auxiliar do Departamento de Matemática da Universidade de Aveiro por todo o apoio prestado, incluindo no tratamento de aspetos administrativos inerentes ao ato de matrícula e aceitação na Universidade de Aveiro e pelo voto de confiança depositado em mim.

Reiteramos os nossos agradecimentos ao quadro de professores do Departamento de Matemática da Universidade de Aveiro, bem como à área administrativa, pela permanente disponibilidade e atenção durante os dois anos que durou o Mestrado em Matemática e Aplicações, na especialização em Estatística e Otimização.

Ainda aos colegas que sempre se mostraram disponíveis para partilhar os seus conhecimentos e experiências no mundo da investigação científica. À minha querida e inesquecível mãe, cuja força batalhadora e perseverança, conseguiu transmitir aos seus filhos herdeiros dos princípios que sempre primaram a sua ideologia de vida.

À minha família, em especial aos meus irmãos e aos meus filhos que, mesmo à distância, souberam deixar palavras de incentivo, carinho e apreço, em todos os momentos deste percurso.

A Deus que guiou e orientou os meus passos, aclarou as minhas ideias e iluminou o meu caminho, tornando-o abençoado.

(6)

vi

palavras-chave Angola; análise de conglomerados; Banco de Portugal; método Cold-Deck; quadro de setor; setor não petrolífero; Sociedades Não Financeiras.

resumo Na primeira parte do estudo realiza-se a análise das medidas de similaridade e dissimilaridades entre os 12 setores de atividade do setor não petrolífero (excetuando o setor financeiro), que permitiu identificar conglomerados, ou clusters, de setores com comportamento e evolução semelhantes entre si e dissemelhantes face aos outros grupos.

A análise de conglomerados permitiu observar a existência de ligações e caraterísticas comuns entre os diferentes setores de atividade, revelando dinâmicas setoriais que podem ser potenciadas no sentido de introduzir a competitividade e a diversificação da economia angolana.

Sendo a construção um setor organizado e com boas perspetivas de crescimento, este foi selecionado para objeto de estudo de caso prático, tendo, para tal, sido aprofundado o conhecimento metodológico e funcional da formulação das estatísticas das Sociedades Não Financeiras.

Assim, o caso prático pretendeu a aplicação da metodologia do Banco de Portugal ao caso particular de Angola, no sentido de proceder à compilação de dados anuais e à produção das estatísticas de um grupo de empresas do setor de construção.

Para tal foi constituída uma amostra de 11 empresas portuguesas do setor da construção a operar em Angola, entre 2010 a 2012. Procedeu-se à imputação dos dados omissos através do método Cold-Deck e do método de imputação pela média para a elaboração do quadro de setor. Recorrendo à demonstração de resultados e ao balanço, os rácios económico-financeiros permitiram a análise da evolução económica e financeira e patrimonial do agregado do setor.

(7)

vii

keywords Angola; Bank of Portugal; cluster analysis; Cold- Deck method; Non-Financial Corporations; non-oil sector; sector framework

abstract In the first part of the study we carried out an analysis of the similarity and dissimilarities measures between the 12 non-oil sector activity sectors (excluding the financial sector), which identified sectors clusters with a similar behavior and evolution between each other and dissimilar groups.

The cluster analysis allowed us to observe the existence of links and common features between the different sectors of activity, revealing sectoral dynamics that can be enhanced to introduce competitiveness and diversification of the Angolan economy.

Being the civil construction an organized sector with good growth prospects, it has been selected for the case study object and to this goal have been further developed the methodological and practical knowledge of the formulation of Non-Financial C“r”“rati“ns’ statistics.

Thus, the case study intended to apply the methodology of the Bank of Portugal to the particular case of Angola, in order to proceed to the compilation of annual data and production statistics for a group of construction companies in the sector.

For this we have used a sample of 11 portuguese companies in the construction sector in Angola from 2010 to 2012. The procedure was the imputation of missing data through Cold-Deck method and the average allocation method for the preparation of the framework sector. Using the income statement and the balance sheet, the economic and financial ratios allowed the analysis of economic and financial developments and the balance of the sector aggregate.

(8)

viii

Siglas e acromolós

ATA – Autoridade Tributária e Aduaneira

BACH – Bank for Accounts of Companies Harmonised BAL – Balanço

BE – Boletim Estatístico BC – Central de Balanços

BCE – Banco Central Europeu

BNA – Banco Nacional de Angola BoP – Balança de Pagamentos BdP – Banco de Portugal

CAE – Classificação da Atividade Económica

CRC – Central de Responsabilidades de Crédito

CMVMPSC – Custo das Mercadorias Vendidas e das Matérias-Primas e Subsidiárias Consumidas

DNLP - Logaritmo do Periodograma Normalizado

DDE – Departamento de Estatística do Banco de Portugal

DR – Demonstração de Resultados

ECCBSO – European Committee of Central Balance-Sheet Data Offices

EUA – Estados Unidos da América

FAO - Food and Agriculture Organization FMI – Fundo Monetário Internacional FUE – Ficheiro das Unidades Empresariais IAHE – Inquérito Anual Harmonizado às Empresas I&D – Investigação & Desenvolvimento

(9)

ix

IES – Informação Empresarial Simplificada

IACB – Inquérito Anual da Central de Balanços do Banco de Portugal INE Angola – Instituto Nacional de Estatística de Angola

INE Portugal – Instituto Nacional de Estatística de Portugal ITENF - Inquérito Trimestral às Empresas Não Financeiras MPME – Micro, Pequenas e Médias Empresas

PALOP – Países de Língua Oficial Portuguesa PIB – Produto Interno Bruto

PII – Posição de Investimento Internacional PGC - Plano Geral de Contabilidade POC – Plano Oficial de Contabilidade QES – Quadros da Empresa e do Setor QS – Quadros do Setor

SAE- Setores de Atividade Económica SEE – Sistema Estatístico Europeu

SEBC – Sistema Europeu de Bancos Centrais

SGPS – Sociedades Gestoras de Participações Sociais SIET – Sistema Integrado de Estatísticas de Títulos SLQS – Série Longa dos Quadros do Setor

SNC – Sistema de Normalização Contabilística SNF – Sociedades Não Financeiras

SPAI – Sistema de Partilha de Informação de Referência SS – Segurança Social

(10)

x

Índice

Siglas e acromolós ... viii

Índice de Gráficos ... xii

Índice de Quadros ... xii

Índice de Figuras ... xiii

Nota Introdutória ... 1

I. Análise de Conglomerados ... 5

1. Estatística de Similaridades dos Setores de Atividade Económica em Angola ... 6

1.1.Procedimentos e Técnicas de Análise Estatística de Similaridades ... 7

1.2.Estatística Descritiva ... 9

1.3.Estudo das Correlações entre os setores de atividade económica ... 16

1.4. Análise de Clusters ... 22

II. A Experiência do Banco de Portugal na Produção de Estatísticas sobre Sociedades Não Financeiras ... 33

2. Enquadramento Legal ... 33

3. Fontes de Informação e Controlo de Qualidade ... 34

3.1. Inquérito Trimestral às Empresas não Financeiras ... 34

3.2. Informação Empresarial Simplificada ... 34

3.3. Controlo de Qualidade………..35

4. Compilação dos Dados Extrapolados ... 36

4.1. Tratamento da Informação Anual ... 36

4.2. Extrapolação de Dados Trimestrais ... 38

4.3. Conciliação dos Dados Anuais e Trimestrais ... 40

(11)

xi

5.1. Quadros de Empresa e Setor, Quadros de Setor e a Série Longa dos Quadros de Setor 42

5.2.Boletim Estatístico ... 43

5.3.Serviços ... 44

5.4.Portugal no Grupo BACH ... 44

III. Caso Prático: Aplicação da Produção de Estatísticas das Empresas Não Financeiras à realidade de Angola ... 47

6. Enquadramento Macroeconómico ... 48

6.1. Ecomonia Internacional... 48

6.2. Economia Angolana ... 49

7. Enquadramento Legal em Angola ... 51

8. Descrição do Problema em Estudo ... 52

9. Recolha da Informação... 54

10. Tratamento da Informação Anual ... 56

10.1. Tratamento da Não Resposta ... 57

10.1.1. Imputação pelo Método da Média – Variante I ... 58

10.1.2. Imputação pelo Método Cold-Deck – Variante II ... 60

10.2. Seleção do Método ... 65

11. Análise Económico Financeira com Base no Quadro de Setor ... 66

11.1. Atividade e Rendibilidade ... 68

11.1.1. Volume de Negócios ... 68

11.1.2. Custos da Atividade Operacional ... 69

11.1.3. Rendibilidade dos Capitais Próprios ... 70

11.2. Situação Financeira ... 71

11.2.1. Estrutura Financeira ... 71

11.2.2. Custos Financeiros e Solvabilidade ... 72

11.3. Análise de Risco Económico-financeiro ... 73

(12)

xii

Referências ... 83

ANEXOS... 87

Índice de Gráficos

Gráfico 1. Gráfico de linhas sobre a evolução do PIB Mundial, entre 2008 e 2012 (%) ... 48

Gráfico 2. Evolução do PIB, do PIB petrolífero e do PIB não petrolífero angolano (%) ... 50

Gráfico 3. Volume de Negócios do agregado das empresas em análise ... 68

Gráfico 4. Custos da atividade operacional ... 69

Gráfico 5. Rendibilidade dos Capitais Próprios ... 70

Gráfico 6. Grau de alavancagem combinada ... 73

Índice de Quadros

Quadro 1. Estatísticas descritivas dos setores de atividade económica ... 10

Quadro 2. Classificação dos Setores de Atividade em Três Classes ... 11

Quadro 3. Avaliação de Outliers ... 14

Quadro 4. Interpretação do Coeficiente de Correlação de Pearson ... 17

Quadro 5 - Matriz de correlações entre os setores de atividade económica em estudo ... 18

Quadro 6. Coeficiente de correlação cofenética ... 26

Quadro 7. Sumário dos clusters/grupos obtidos ... 29

Quadro 8. Pressupostos Comuns para a Variante I e Variante II ... 57

Quadro 9. Pressupostos Específicos da Variante I e Variante II ... 57

Quadro 10. Balanço da EMP1 (Em Milhões de Kwanzas) ... 62

Quadro 11. Balanço das EMP2 e EMP8 (Em Milhões de Kwanzas) ... 63

Quadro 12. Total de ativo 2010-2012 (Em Milhões de Kwanzas) ... 64

Quadro 13. Indicadores sínteses da Variante I e Variante II, para os anos de 2010, 2011 e 2012 .. 65

Quadro 14. Indicadores económico-financeiros ... 67

Quadro 15. Autonomia Financeira: Distribuição por quartis e média agregada ... 71

Quadro 16. Caraterização do agregado do Quadro do Setor ... 87

Quadro 17. Rácios Setoriais Europeus (a partir de 2006) - Base de Dados BACH para França e Portugal ... 88

(13)

xiii

Índice de Figuras

Figura 1. A taxa de distribuição das empresas por setor de atividade ... 8

Figura 2. Boxplots da Classe de CAE de Baixa Percentagem ... 12

Figura 3. Boxplots da Classe de CAE de Média Percentagem ... 13

Figura 4. Boxplots da Classe de CAE de Alta Percentagem... 15

Figura 5. Diagrama de Scatterplots ... 19

Figura 6. Dissimilaridade baseada na correlação ... 28

Figura 7. Dissimilaridade baseada no periodograma simples ... 28

Figura 8. Imputação pela Média – Variante I ... 59

Figura 9. Dissimilaridade baseada na autocorreção parcial (critério average linkage e critério centroide ………....89

Figura 10. Dissimilaridade baseada na autocorreção parcial (critério average linkage e critério median linkage)……….89

Figura 11. Dissimilaridade baseada no periodograma integrado (critério average linkage e critério McQuitty) ... 90

(14)

1

Nota Introdutória

A escolha do tema “Análise de Conglomerados e Estatísticas das Sociedades Não Financeiras”, aplicado ao caso particular de Angola, prende-se, em primeiro lugar, com o objetivo de identificar grupos ou clusters de Setores de Atividade Económica (SAE), mediante a análise das caraterísticas de similaridade e dissimilaridades do conjunto dos setores que integram o setor não petrolífero (com exceção do setor financeiro). Em segundo lugar, dado o interesse atual de Angola na produção de estatísticas das Sociedades Não Financeiras (SNF), pretende-se aplicar a metodologia utilizada pelo Banco de Portugal (BdP) na produção dos Quadros de Setor para o caso específico do setor da construção. A escolha do setor da construção prendeu-se com a sua organização, dimensão e importância para a economia angolana, no que respeita ao seu contributo para o Produto Interno Bruto (PIB) do setor não petrolífero ao ocupar a terceira posição em 2012 e consequentemente para o PIB angolano. (Contas Nacionais 2007-2012; outubro 2014).

O estudo parte assim, de uma abordagem macro, no que se refere a análise de informação agregada dos setores de atividade económica do setor não petrolífero, isto é, (número total de empresas ativas que compõem cada setor), no período de 2003 a 2014, para uma abordagem micro na qual serão analisadas as estatísticas das SNF do setor da construção, no período de 2010 a 2012.

Para tal, procedeu-se, numa primeira etapa, ao estudo das medidas de similaridade e dissimilaridade do universo dos 12 setores económicos (com base na Classificação das Atividades Económicas de Angola (CAE-Rev.2)) que incorporam as empresas ativas que atuaram em Angola, durante um período de 12 anos (2003-2014). Foi realizada a análise exploratória dos dados em estudo, com recurso a medidas de localização, dispersão e forma da distribuição dos dados, no sentido de descrever o comportamento de cada setor. Com vista à identificação das correlações entre os setores de atividade económica foi analisado o coeficiente de correlação de Pearson.

A análise das medidas de similaridade e dissimilaridades do comportamento dos setores de atividade recorreu ao método não supervisionado (que pode servir também para extrair caraterísticas dos dados e desenvolver hipóteses a respeito da sua natureza), não paramétrico

designado por análise de conglomerados (Cluster Analysis) com recurso ao “TSclust package” do

software estatístico R. Esta ferramenta permite efetuar o conglomerado hierárquico de variáveis,

geração de resultados e respetiva análise. Para o conglomerado hierárquico dos setores de atividade foram utilizadas as medidas de similaridades livres de modelos nomeadamente: a

(15)

2

correlação, a autocorrelação simples e parcial, bem com o periodograma simples e integrado, associados a sete critérios de agregação hierárquica (“complete linkage”, “single linkage”, “average

linkage”,“median linkage”, “centroide linkage”, “ward linkage” e “Mc Quitty”). Através da análise do

coeficiente de correlação cofenético identificaram-se os critérios e as medidas de similaridades mais ajustados.

A identificação de caraterísticas de homogeneidade e de heterogeneidade entre os setores de atividade económica permitiu estudar o comportamento e a evolução dos diferentes setores. Este conhecimento útil é uma mais-valia para Angola, numa altura em que o Executivo está a delinear políticas orientadas para uma maior diversificação da economia e uma maior autonomia da mesma face ao setor petrolífero.

A segunda etapa do estudo integra a experiência do BdP na produção de estatísticas das SNF, em termos das normas que regulam a produção das referidas estatísticas, as fontes de informação contabilística e as técnicas de controlo a qualidade utilizadas pelo BdP, bem como as técnicas de imputação, extrapolação e conciliação dos dados contabilísticos.

A última etapa corresponde ao caso prático da produção das estatísticas das SNF aplicada à realidade de Angola e teve como objetivo o estudo e a aplicação da metodologia do BdP na produção das estatísticas das SNF. Depois de realizado o enquadramento macroeconómico da economia internacional e da economia angolana relativo ao ano de 2012, foi estudada uma amostra de 11 empresas portuguesas do setor da construção a operar em Angola, tendo como período de observação os anos 2010, 2011 e 2012. Através de métodos de imputação de dados omissos (imputação pela média e Cold-Deck), procedeu-se ao tratamento da informação anual da não resposta. Obtidos os mapas da demonstração de resultados e do balanço, para o caso específico do setor da construção, foi analisada a evolução económica e financeira e patrimonial do agregado através do quadro de setor.

A par dos dados micro do setor da construção, no que se refere à compilação, controlo de qualidade da informação, tratamento de dados anuais, extrapolação de dados trimestrais, conciliação de dados trimestrais com os anuais e produção de estatísticas das SNF, a metodologia do BdP, constituiu o objeto de estudo do caso prático, na medida em que foram utilizadas as técnicas e os procedimentos metodológicos que podem possíveis de ser adaptados à realidade de Angola.

A informação produzida pelo BdP sobre as SNF, na ótica contabilística, conjugada com outras fontes de informação, permite caraterizar e acompanhar a situação económica e financeira, a

(16)

3

evolução patrimonial e a informação sobre um conjunto de variáveis que caraterizam a situação das mesmas, tais como a atividade económica, o emprego, os resultados, rendibilidades, passivos e ativos financeiros.

A produção de estatísticas sobre as SNF, não só de dados micro, como também macro, é uma matéria que tem vindo a registar um interesse significativo por parte dos Países de Língua Oficial Portuguesa (PALOP) e dos países da África Austral, em particular de Angola. A compilação deste tipo de estatísticas constitui uma importante ferramenta de análise da situação de competitividade da economia nacional.

Acredita-se que em Angola a compilação e a produção de informação estatística sobre o comportamento dos setores económicos e a sua estabilidade financeira potenciam o investimento direto estrangeiro e a implementação de políticas de investimento público visando a diversificação da economia. Atualmente, a publicação das estatísticas sobre a evolução das empresas não financeiras é realizada pelo Instituto Nacional de Estatística (INE) de Angola, através do Inquérito Anual Harmonizado às Empresas (IAHE) que recolhe dados económico-financeiros numa base anual, nomeadamente a Demonstração de Resultados.

O IAHE incorpora informação detalhada sobre os investimentos realizados pelas empresas e os serviços de terceiros, mas não contempla informação do balanço, fluxo de caixa, nem as notas às contas das empresas. A informação recolhida pelo INE Angola é reportada de acordo com o Plano Geral de Contabilidade e obedece às normas contabilísticas internacionais.

Do ponto de vista da análise de conglomerados, os resultados revelaram a formação de

clusters de dimensão variada, mas cuja constituição confirma a existência de sinergias e

complementaridades entre os clusters obtidos. Acredita-se que estes resultados podem constituir o suporte para a implementação de medidas de política que visem o estímulo à competitividade e à diversificação da economia angolana.

Uma vez concretizados os objetivos da investigação, e não obstante as limitações e constrangimentos associados ao trabalho do investigador, o último ponto do trabalho apresenta as considerações finais sobre a análise de conglomerados dos setores de atividade económica, bem como as conclusões do caso prático desenvolvido no âmbito do estágio realizado no BdP. No sentido de potenciar o aprofundamento do tema, são apresentadas recomendações para futuras investigações e abordagens à análise de clusters dos setores de atividade em Angola e à produção das estatísticas das SNF.

(17)
(18)

5

I. Análise de Conglomerados

A diversificação da economia é uma prioridade para a República de Angola. Por um lado, para a substituição paulatina das importações e aumento da produção interna de forma a satisfazer a procura doméstica e, por outro, para melhorar a estrutura das exportações e assegurar a redução da dependência económica e financeira do petróleo, uma vez que mais de 90% das receitas de exportação são provenientes do setor petrolífero. Assim, com a forte queda do preço em dólar dos Estados Unidos da América (USD) do barril do petróleo, em cerca de 60% desde 2009 no mercado internacional, tornou-se imperativo acelerar o processo de diversificação da economia angolana.

Através da análise de conglomerados (clusters) pretendeu-se constituir grupos ou clusters de setores de atividade económica com comportamento e caraterísticas semelhantes entre si e dissemelhantes face aos restantes grupos. Combinada com uma análise exploratória, esta abordagem teve como objetivo conhecer a evolução de cada setor no período em análise e identificar relações entre os mesmos, de forma a melhor perceber as dinâmicas setoriais. Este conhecimento é pertinente quando se planeiam incentivos para os diferentes setores, nomeadamente, incentivos económicos que apoiem o processo de diversificação da economia nacional, o aumento da competitividade e a redução da dependência da economia nacional face ao setor petrolífero.

A análise de clusters inclui um conjunto de procedimentos de estatística multivariada usados para classificar um conjunto de entidades (objetos ou indivíduos), para os quais é conhecida informação detalhada, em grupos relativamente homogéneos (Reis, 2001). Para um conjunto de n entidades, para os quais existe informação sob a forma de p variáveis, o método de análise de

clusters procede ao conglomerado dos indivíduos, em função da informação existente, de tal modo

que os indivíduos pertencentes a um mesmo grupo sejam tão semelhantes quanto possível e sempre mais semelhantes aos elementos do mesmo grupo do que a elementos dos restantes grupos (Reis, 2001). Um cluster pode ser definido como sendo um conglomerado composto por um número não fixo de objetos (exemplos) similares, de acordo com uma medida de similaridade (Everitt, Landau & Leese, 2001).

Com base na observação das semelhanças ou dissemelhanças entre os objetos, e sem definir previamente critérios de inclusão de qualquer conglomerado, o método da análise de clusters (também chamado de classificação ou taxonomia) tem sido utilizado em tarefas de exploração de dados e identificação de padrões (Reis, 2001).

(19)

6

1. Estatística de Similaridades dos Setores de Atividade Económica em Angola

A técnica do reconhecimento de padrões desenvolveu-se significativamente como um campo de estudo na década de 1960 e tornou-se uma técnica interdisciplinar que abrangia as áreas da estatística, engenharia, inteligência artificial, ciência da computação, psicologia e ciências sociais em geral. O desenvolvimento dos sistemas baseados no conhecimento, na década de 1970, e o estudo das redes neurais, na década de 1980, permitiram o aperfeiçoamento das técnicas de reconhecimento de padrões, sendo hoje uma componente fundamental da maior parte dos sistemas de tomada de decisão.

Os padrões são representados por vetores de atributos obtidos através de amostras cujos dados podem estar total ou parcialmente rotulados, ou não rotulados. Dependendo da quantidade de informação disponível na base de dados e dos objetivos que se pretendem atingir, podem ser identificados dois tipos de reconhecimento de padrões: o método supervisionado (que incluiu, por exemplo, a análise fatorial e a análise discriminante) e o não supervisionado (referida também na literatura simplesmente como classificação ou análise de clusters) (Webb, 2002).

Enquanto que no reconhecimento supervisionado os dados encontram-se categorizados e agrupados, no reconhecimento não supervisionado os dados não estão categorizados e, por isso, procura-se identificar grupos com base nas caraterísticas que simultaneamente os distinguem dos outros e aproximam os elementos de cada grupo. É exemplo deste tipo de reconhecimento a análise de clusters (Webb, 2002).

Com base na análise das caraterísticas de similaridade e dissimilaridade dos setores de atividade económica em Angola do setor não petrolífero (com a exclusão do setor financeiro), e tendo em conta a distribuição das empresas ativas em Angola por setor de atividade económica, sujeito à Classificação das Atividades Económicas de Angola (CAE- Rev.2), foram identificados conglomerados, ou clusters, de setores com caraterísticas semelhantes e comportamento homogéneo.

Para tal, procedeu-se numa primeira fase à análise exploratória do comportamento e evolução dos diferentes setores de atividade, no sentido de identificar caraterísticas que possibilitem a caraterização de grupos de setores. Através dos métodos exploratórios, foram geradas suposições sobre o conglomerado dos setores de atividade económica com caraterísticas semelhantes entre si e, simultaneamente, dissemelhantes em relação aos restantes conglomerados.

(20)

7

1.1. Procedimentos e Técnicas de Análise Estatística de Similaridades

Com vista a análise estatística de similaridades dos setores de atividade económica que compõem o setor não petrolífero em Angola, procedeu-se à análise exploratória dos dados. A análise exploratória, ou estatística exploratória, foi uma técnica introduzida por John Wilder Tukey no livro Exploratory Data Analysis (1977), sendo bastante utilizada para a análise de dissimilaridades.

Assim, a análise exploratória de dados teve como base a estatística descritiva, tendo sido utilizadas medidas de localização e tendência central (como a média e a mediana), quartis e extremos (inferior e superior), medidas de dispersão como o desvio padrão, a amplitude interquartil, o intervalo de variação e o coeficiente de variação, e medidas de assimetria, bem como descrições gráficas dos dados através de caixas de bigodes (boxplots) para visualização da estrutura dos dados. (Pinto,2009).

A análise exploratória dos dados incidiu sobre as medidas de estatística descritiva da amostra (N=12). A base de dados foi fornecida pelo INE Angola e continha a informação relativa à distribuição das empresas pelos 14 setores de atividade económica observada durante um período de doze anos, de 2003 a 2014. Do conjunto inicial dos 14 setores de atividade económica, foram excluídos dois setores: o financeiro e o da indústria extrativa.

O setor petrolífero gera mais de 90% das receitas de exportação em Angola que suporta o desenvolvimento da economia angolana, tornando a mas vulnerável aos choques externos. Neste contexto torna-se imperioso inverter esta situação, razão pela qual se pretende estudar as potencialidades do setor não petrolífero. Tendo em consideração que os pais depende das importação de bens e serviços para satisfação da sua procura interna, serão, portanto, objeto de estudo as variáveis referentes aos restantes 12 setores de atividade económica que compõem o setor não petrolífero, com vista a identificação de setores que poderão contribuir para a diversificação da economia angolana.

Inicialmente os dados fornecidos correspondiam à contagem de empresas distribuídas por cada setor. Para evitar a disparidade dos valores dessas contagens, optou-se por trabalhar em termos relativos (0-100%).

Os dados foram apresentados como taxas de distribuição das empresas ativas por setores de atividade económica, devido à diversidade de valores que as variáveis assumiam. Assim, a taxa de distribuição é dada pela seguinte equação matemática:

(21)

8

≡ × %

onde:

: Taxa de distribuição das empresas ativas por setor de atividade económica : Empresas

: setor de atividade económica

: Número de empresas do setor de atividade económica x

: Total de empresas ativas

Assim, começou-se por analisar o gráfico xyplot, gerado pelo package Lattice do software R, que espelha o comportamento de evolução das variáveis individuais (setor de atividade económica) em estudo (Figura 1), com vista à formulação de algumas suposições que poderão ser confirmadas ao longo do estudo através da análise de clusters.

Figura 1. A taxa de distribuição das empresas por setor de atividade

Na Figura 1 verifica-se que de 2003 a 2014 a distribuição das empresas por setor de atividade foi diferente e variada, não permitindo nesta fase formular conglomerados de setores de atividade com base nas caraterísticas de similaridade e dissimilaridade. A análise da Figura 1

Time 3 .9 4 .0 4 .1 4 .2 4 .3 A..Agricultura 2 4 6 8 10 12 0 .5 5 0 .6 0 0 .6 5 0 .7 0 B..Pesca 8 9 10 11 D..Ind.Transf. 2 4 6 8 10 12 0 .2 3 00 .2 3 50 .2 4 00 .2 4 50 .2 5 00 .2 5 50 .2 6 0 E..El...G.e.Ág. 2 3 4 5 F..Construção 2 4 6 8 10 12 5 0 .5 5 1 .0 5 1 .5 5 2 .0 G..C..G.e.Ret. 10 11 12 13 14 2 4 6 8 10 12 H..Aloj..e.Rest. 2 .4 2 .6 2 .8 I..Tr..Armaz.. 5 6 7 8 2 4 6 8 10 12 K..Activ..Imob. 2 .3 5 2 .4 0 2 .4 5 2 .5 0 2 .5 5 2 .6 0 M..Educação 3 .0 3 .5 4 .0 2 4 6 8 10 12 N..Sau.Ac..Soc. 3 .2 3 .4 3 .6 3 .8 O..Out..Activ.

(22)

9

sugere que os setores da indústria transformadora, do alojamento e restauração, da saúde e ação social e o de outras atividades possam ser agrupados no mesmo cluster, pois apresentam um comportamento decrescente e semelhante.

Os setores da construção, do comércio, grosso e retalho, dos transportes e armazenagem, e da atividade imobiliária apresentam também um comportamento semelhante com tendência crescente, o que pressupõe que poderão constituir o mesmo conglomerado.

Num outro possível cluster, poderão ser integrados os setores da agricultura, das pescas e o da eletricidade, gás e água, os quais aparentam possuir um comportamento semelhante.

A educação, por sua vez, registou um comportamento distinto comparativamente aos restantes setores, o que não permitiu identificar um conglomerado onde o mesmo pudesse ser integrado.

1.2. Estatística Descritiva

A análise da estatística descritiva permitiu observar as medidas de localização central, como a média e a mediana (Q2), de localização não central nomeadamente o primeiro e terceiro quartis (Q1 e Q3), os extremos valor mínimo e máximo, as medidas de dispersão, tais como o desvio padrão, coeficiente de variação e intervalo de variação para à taxa de empresas ativas por setor de atividade económica de acordo com a CAE-Rev.2, ao longo do período de 2003 a 2014 (Quadro 1).

(23)

10

Quadro 1. Estatísticas descritivas da taxa de empresas ativas por setor de atividade económica

SAE Mínimo 1º Quartil Mediana

(2º Quartil) Média Desvio Padrão Coeficiente de Variação

3º Quartil Máximo Intervalo Variação A - Agricultura 3,86 3,96 4,04 4,05 0,126 3,11 4,13 4,30 0,44 B - Pesca 0,54 0,57 0,63 0,63 0,063 10,00 0,67 0,72 0,18 D - Ind.Transf. 7,43 7,98 8,55 8,92 1,213 13,60 9,70 10,95 3,52 E - El...G.e.Ág. 0,23 0,24 0,24 0,24 0,009 3,75 0,26 0,26 0,03 F - Construção 1,84 2,84 3,84 3,72 1,178 31,67 4,73 5,45 3,61 G - C. G.e.Ret. 50,25 51,51 52,07 51,71 0,727 1,41 52,13 52,39 2,14 H – Hot. Aloj..e.Rest. 9,99 10,80 11,75 11,89 1,308 11,00 12,85 14,07 4,08 I - Tr..Armaz.. 2,26 2,63 2,71 2,69 0,180 6,69 2,81 2,89 0,63 K - Activ..Imob. 4,55 5,08 6,11 6,09 1,722 28,28 6,88 8,16 3,61 M - Educação 2,35 2,37 2,51 2,48 0,103 4,15 2,56 2,63 0,27 N - Sau.Ac..Soc. 2,79 2,94 3,33 3,41 0,525 15,40 3,76 4,30 1,52 O - Out..Activ. 3,13 3,17 3,39 3,43 0,291 8,48 3,62 3,94 0,81

De acordo com as estatísticas descritivas da taxa de empresas ativas por setores de atividade económica entre 2003 e 2014, observa-se pelo Quadro 1 que foi o setor da eletricidade, gás e água o que apresentou valores extremos da distribuição muito próximos (Min.=0,23; Max.=0,26). O valor do desvio padrão face à média (M=0,24; DP=0,01) refletiu uma reduzida dispersão dos dados, ou seja, os valores aproximaram-se da média. Além disso o valor da média foi igual ao da mediana (Q2=0,24) o que sugere uma distribuição simétrica, logo os quartis encontram-se equidistantes da mediana.

O setor das pescas, apresentou um comportamento semelhante ao da eletricidade, gás e água no que concerne aos extremos de 0,54 (Min.) a 0,72 (Max.). Também aqui o valor da média coincidiu com o valor da mediana (Q2=0,63) e o desvio padrão foi baixo (M=0,63; DP=0,06) o que demonstra uma reduzida variabilidade dos dados neste setor.

A construção apresentou o maior coeficiente de variação (Cv=31,67), logo apresenta uma maior dispersão dos dados comparativamente aos setores em análise, bem como o setor de saúde e ação social que apresentou o terceiro maior coeficiente de variação (Cv=15,40) comparativamente as restantes setores.

(24)

11

Apesar de o setor da atividade imobiliária registar o maior desvio padrão (M=6,09; DP=1,72) o que revela que apresenta uma grande variabilidade da distribuição na taxa de empresas ativas em torno da média no setor. Comparativamente aos restantes setores, apresenta o segundo maior coeficiente de variação (Cv=28,28), que indica uma grande dispersão dos valores em torno das médias, de distribuição de frequências dos restantes setores.

O setor do comércio, grosso e retalho apesar de apresentar a maior média (M=51,71) comparativamente aos demais setores. A mediana (Q2=52,07) situou-se próxima do valor máximo (Max.=52,39) o que significa que 50% das observações apresentaram valores muito próximos e próximos do máximo, foi o setor que registou o menor coeficiente de variação (Cv=1,41) comparativamente aos restantes setores, refletindo assim um maior grau de concentração das observações em torno da média.

O setor da educação e o dos transportes e armazenagem apresentaram valores médios semelhantes (M=2,48; DP=0,10 e M=2,69; DP=0,18 respetivamente). Entretanto no setor dos transportes e armazenagem o coeficiente de variação (Cv=6,69), foi superior ao observado no setor da educação (Cv=4,15), revelando assim uma menor variabilidade dos dados na educação.

Visando a melhoraria da visualização gráfica dos dados, foram definidas três classes de setores de atividade económica com base na taxa média de empresas por sector de atividade: Baixa percentagem, Média e Alta percentagem. Tal classificação, foi efetuada com base nos intervalos de [0,00; 1,00[, [1,00; 5,00[ e [5; +∞ ] respetivamente, conforme sistematiza o Quadro 2.

Quadro 2. Classificação dos setores de atividade económica em Três Classes

Classes Setores de atividade Intervalo da Classe

Baixa Percentagem 2 [0,00; 1,00[

Média Percentagem 6 [1,00; 5,00[

Alta Percentagem 4 [5,00; +∞[

Os casos em que a média se situou entre 0,00 e 1,00 os setores de atividade económica foram considerados de Baixa Percentagem e contabilizaram-se dois setores de atividade económica nesta classe. Quando a média se situou entre 1,00 e 5,00 os setores de atividade económica foram considerados de Média Percentagem e nesta classe incluíram-se seis setores de atividade. A Alta Percentagem correspondeu aos setores com média igual ou superior a 5,00 e integrou quatro setores.

(25)

12

Recorreu-se à representação dos dados através de boxplots os quais fornecem informação sobre a localização, dispersão e outliers, correspondentes a observações discrepantes, isto é, que fogem ao padrão dos dados.

Nas Figuras 2, 3 e 4 são apresentadas caixas de bigodes comparativas para os setores de atividades que integram cada classe.

Na Figura 2 estão reportados os boxplots relativos aos setores da pesca e da eletricidade, gás e água.

Figura 2. Boxplots da Classe de setores de atividade de Baixa Percentagem

Pela Figura 2 verificou-se que as distribuições dos dois setores são semelhantes. Tendo em conta a informação apresentada no Quadro 1, constatou-se que os setores das pescas e da eletricidade, gás e água apresentaram uma distribuição simétrica, pois a sua média é igual à mediana. Os dois setores apresentaram coeficientes de variação de 10,00% e 3,75% (Quadro 1), respetivamente, o que indica que os dois setores apresentaram baixa dispersão de dados, abaixo dos 15,00%, estão próximos da média e os dados são homogéneos.

Na Figura 3 estão representados os boxplots da Classe de setores de atividade de Média Percentagem. A sua análise reforçou a ideia de que as distribuições dos setores de atividade são distintas entre si e evidencia diferenças entre os valores da mediana e a amplitude entre o máximo e o mínimo.

(26)

13

Figura 3. Boxplots da Classe de setores de atividade de Média Percentagem

Com base na informação do Quadro 1, constatou-se que nos setores da agricultura, saúde e ação social e o de outras atividades, a média é superior à mediana, logo pode concluir-se que a sua distribuição é assimétrica positiva, pois os valores aproximaram-se do 1º quartil, verificando-se a concentração de dados em valores mais baixos, a média sofrerá influência da cauda à direita deslocando-se em sua direção, logo haverá mais observações abaixo da média do que acima dela.

Nos restantes setores da classe de média percentagem, a média é inferior à mediana, logo a distribuição é assimétrica negativa, pois aproxima se do 3ºquartil, verificando a concentração em valores mais altos e a média sofre a influência da calda a esquerda e desloca-se em sua direção, logo haverá mais observações acima da média do que abaixo dela.

Nos setores da construção e da saúde e ação social o coeficiente de variação foi de 31,67 % e 15,40%, respetivamente, o que indica que o setor da construção apresenta alta dispersão os dados são heterogéneos ou seja, as observações estão afastadas do valor médio, enquanto a saúde e ação social apresenta média dispersão, valores superiores a 15,00%.e inferior a 30,00%.

Os setores da agricultura, transporte e armazenagem, outras atividades e educação apresentaram coeficientes de variação de 3,11%; 6,69%; 8,48%; 4,15% respetivamente (Quadro 1), os setores apresentaram baixa dispersão, inferior a 15,00%, logo os valores são homogéneos e estão mas próximas do valor médio comparativamente aos restantes setores da classe.

(27)

14

No Quadro 3 analisa-se a existência de outliers, que é confirmada no setor dos transportes e armazenagem uma vez que o valor de 2,26 se situou fora dos extremos do boxplot [2,36; 3,07]. É uma observação discrepante localizada próxima do extremo inferior do boxplot tendo sido considerado estatisticamente um outlier não severo, se a este aspeto se associa a avaliação do ponto de vista económico, percebe-se que o ano de 2003 se refere ao início das observações e esta variável apresenta um comportamento crescente ao longo do período em análise, razão pela qual se decidiu pela sua não exclusão do conjunto de dados (Figura 3).

Quadro 3. Avaliação de Outliers Setor de atividade económico Q1 Q3 IIQ=Q3-Q1 Limite Inferior Q1-1,5*IIQ Limite Superior Q1+1,5*IIQ A - Agric. 3,963 4,134 0,171 3,707 4,391 B - Pesc. 0,572 0,672 0,101 0,421 0,823 D - Ind.T. 7,977 9,697 1,720 5,397 12,277 E - El.G.e.Ág. 0,239 0,255 0,016 0,215 0,279 F - Const. 2,838 4,733 1,895 -0,004 7,576 G - C..G.e.R. 51,510 52,130 0,620 50,580 53,060 H - Aloj..e.R. 10,803 12,853 2,050 7,728 15,928 I - Tr..Armaz.. 2,627 2,805 0,178 2,360 3,072 K - Activ..Imob. 5,080 6,883 1,803 2,376 9,588 M - Educação 2,368 2,557 0,189 2,085 2,841 N - Sau.Ac..Soc. 2,944 3,760 0,816 1,720 4,984 O - Out..Activ. 3,167 3,622 0,455 2,485 4,305

Nota: IIQ=Intervalo Interquartil

Pela análise da Figura 4, verifica-se que a distribuição do setor comércio, grosso e retalho é muito distinta dos restantes setores desta classe de alta percentagem.

(28)

15

Figura 4. Boxplots da Classe de setores de atividade de Alta Percentagem

Os setores da indústria transformadora e o do alojamento e restauração apresentaram uma distribuição assimétrica positiva, visto que a média é superior à mediana, pois a mediana aproxima-se do 1º quartil. Por outro lado, para os aproxima-setores do comércio a grosso e a retalho e o da atividade imobiliária a média é inferior à mediana, logo a distribuição é assimétrica negativa, pois a mediana aproxima-se do 3º quartil.

Os quatro setores apresentaram coeficientes de variação de 13,60%; 1,41%; 11,00%; 28,28% (Quadro 1), o setor de indústria transformadora, o comércio a grosso e a retalho e o alojamento e alimentação apresentaram baixa dispersão, enquanto o setor de atividade imobiliária apresentou média dispersão.

Após a análise descritiva dos setores de atividade económica, seguiu-se a análise de correlação entre os mesmos, com vista a determinar a sua direção e grau de intensidade da mesma, conforme se apresenta no ponto seguinte.

(29)

16

1.3. Estudo das Correlações entre os setores de atividade económica

A teoria da análise de correlação teve início na segunda metade do século XIX. Francis Galton (1822-1911) foi quem usou pela primeira vez os termos correlação e regressão. Publicou em 1869 o livro Hereditary Genius, sobre a teoria da regressão (Schultz & Schultz, 1992).

O termo “correlação” significa “co-relacionamento” e indica até que ponto os valores de uma variável estão relacionados com os de outra, através de uma medida que “sintetize” o grau de relacionamento entre as variáveis. É importante promover-se a análise de correlação, com vista a determinar o grau de relacionamento entre os setores de atividade económica e, com esta informação, descrever o que se espera para um setor com base no conhecimento de outro.

Pode-se inferir sobre um setor com base no outro. De salientar que não existe distinção entre a variável explicativa e a variável resposta, ou seja, o grau de variação conjunta entre X e Y é igual ao grau de variação entre X e Y (Mukaka, 2012).

Nesta parte do estudo aplica-se a análise do coeficiente de correlação linear de Pearson, com o objetivo de estudar o sinal da correlação (positiva ou negativa) e o grau de associação linear entre o número de empresas de cada de setor de atividade económico, medidos na métrica de razão.

Tratando-se de variáveis de razão, foi utilizado o coeficiente de correlação de Pearson adequado a relações lineares entre duas variáveis quantitativas , também chamado ρ de Pearson que é dado pela seguinte expressão:

� =

∑�= − ̅ − ̅

√∑�= − ̅ − ̅

=

� ,

√ � �

onde , , … ,

e

, , … , são as observações das séries temporais e . Note-se que

̅ = ∑= e ̅ = ∑= são as médias aritméticas das séries temporais e ,

respetivamente.

O coeficiente de correlação de Pearson é uma medida do grau de relação linear entre duas variáveis quantitativas. Este varia entre os valores 1 e 1. O valor 0 significa que não há relação linear, enquanto os valores 1 e 1 indicam uma relação linear perfeita. Quanto mais próximo este coeficiente estiver de 1 ou 1, mais forte é a associação linear entre as duas variáveis (Mukaka, 2012). Este coeficiente pode ser interpretado da seguinte forma:

: 1  

 Correlação negativa perfeita entre as duas variáveis, ou seja, quando uma variável

(30)

17 :

0 

 Não existe correlação linear entre as variáveis;

: 1 

 Correlação perfeita positiva entre as duas variáveis, ou seja, quando uma variável aumenta a outra também aumenta de forma diretamente proporcional.

A intensidade da correlação pode variar em valor absoluto entre 0 (nula) e 0,3 (desprezível) a 0,9 (muito forte). A interpretação do valor da correlação pode ser feita com base nos intervalos de valores propostos por Mukaka (2012) conforme sistematiza o Quadro 4.

Quadro 4. Interpretação do Coeficiente de Correlação de Pearson

Intervalo de confiança

Limite Inferior Limite Superior Sentido Correlação

0.9 Muito forte

0,7 0,9 Negativa Positiva Forte

0,5 0,7 Negativa Positiva Moderada

0,3 0,5 Negativa Positiva Fraca

0 0,3 Negativa Positiva Desprezível

Fonte: (Mukaka, 2012)

O estudo do coeficiente de correlação entre os setores de atividade permitiu identificar dois grupos, os que se influenciam de forma inversa (negativa) e os que se influenciam de forma direta (positiva). O Quadro 5 representa a matriz de correlações (matriz simétrica) com os valores do coeficiente de Pearson que permite avaliar as correlações obtidas.

Para completar a análise da correlação entre os setores das atividades económicas, apresenta-se o Diagrama de Scatterplots, para visualizar graficamente a relação/associação existente entre os distintos setores de atividade (Figura 5). O Diagrama de Scatterplots (diagrama de dispersão cartesiano, ou seja, diagramas X,Y ) é considerado o melhor método para examinar

os dados no que se refere à ocorrência de tendências lineares e não lineares dos conglomerados de duas ou mais variáveis, mudanças de dispersão de uma variável em relação à outra e verificar a ocorrência dos valores discrepantes. São consideradas relações lineares, quando os pontos no gráfico

X,Y

se aproximam do padrão de uma reta linear. As relações lineares são diretas positivas quando as duas variáveis crescem no mesmo sentido e inversas negativas quando as variáveis crescem em sentidos opostos.

(31)

18

Quadro 5 - Matriz de correlações entre os setores de atividade económica

Agric. Pesca Ind.Tran. El.G.e.Ág. Const. C.G.e.Ret. H.Al.e.R. I.Tr.Arm. K.Acti.Im. M..Educ N.S. Ac.S Out.Activ.

Agricultura 1 Pesca 0,617 1 Ind.Transf. -0,169 -0,776 1 Elet. G. Ág. -0,189 0,442 -0,715 1 Construção 0,080 0,714 -0,984 0,796 1 C.G.e.Ret. 0,242 0,835 -0,920 0,528 0,853 1 Aloj..e.Rest. -0,189 -0,770 0,985 -0,736 -0,988 -0,873 1 Tr..Armaz.. 0,111 0,746 -0,904 0,776 0,900 0,890 -0,887 1 Activ..Imob. 0,049 0,648 -0,956 0,758 0,984 0,783 -0,976 0,815 1 Educação 0,094 -0,567 0,786 -0,806 -0,858 -0,655 0,810 -0,805 -0,843 1 Sau.Ac..Soc. -0,161 -0,783 0,994 -0,733 -0,989 -0,911 0,988 -0,917 -0,962 0,837 1 Out..Activ. -0,030 -0,730 0,947 -0,759 -0,950 -0,906 0,923 -0,931 -0,902 0,896 0,964 1

(32)

19

(33)

20

A análise da matriz de correlações permitiu observar de que forma os setores de atividade se correlacionam e, assim, identificar grupos de setores cuja evolução afeta outros de forma proporcional direta ou inversa, conforme o sinal do coeficiente de correlação seja positivo ou negativo, respetivamente.

O setor da agricultura apresentou uma correlação moderada apenas com o setor das pescas num sentido positivo (ρ=0,62), o que permite equacionar que a variação do número de empresas nestes dois setores evoluiu no mesmo sentido de forma diretamente proporcional, em termos médios. A agricultura apresentou correlações muito baixas (inferiores a 0,3) com os restantes setores o que demonstra que a sua atividade está pouco relacionada com os outros setores.

O setor das pescas apresentou uma correlação fraca com o setor da eletricidade, gás e águas, e uma correlação forte e positiva com o setor da construção (ρ=0,71), do comércio, grosso e retalho (ρ=0,84), dos transportes e armazenagem (ρ=0,75) e do imobiliário (ρ=0,65), o que se interpretou como tendo origem no facto de estarem todos estes setores associados ao transporte de bens e mercadorias, tanto a nível interno como externo.

Contrariamente, o setor das pescas apresentou uma correlação negativa forte com a indústria transformadora (ρ=-0,78), assim como com os setores do alojamento e restauração (ρ=-0,77), da saúde e ação social (ρ=-0,78) e outras atividades (ρ=-0,73), enquanto que com a educação a sua correlação foi moderada negativa (ρ=-0,57).

À exceção dos casos particulares da agricultura e do setor das pescas, com diferentes sentidos da correlação, todos os restantes setores de atividade apresentaram correlações muito fortes, revelando em alguns casos uma relação inversa entre as variáveis e, noutros, uma relação direta. Assim sendo, não foi possível nesta fase distinguir um padrão de comportamento.

A partir da Figura 5 (diagrama de scatterplots) avaliou-se a linearidade das relações existentes entre os setores de atividade económica. O setor da indústria transformadora mantém uma relação linear positiva com os setores do alojamento e restauração, da educação, da saúde e ação social e o setor das outras atividades, o que significa que o aumento ou a diminuição da taxa de empresas no setor da indústria transformadora tende a estar associado a um aumento ou diminuição nos outros setores referidos. Isto é também visível pelos valores do Quadro 5

Contrariamente, o setor da indústria transformadora apresenta uma relação inversa com os setores de construção, de comércio a grosso e a retalho, transporte e armazenagem e da atividade imobiliária. O aumento do número de empresas do setor da indústria transformadora provoca uma

(34)

21

redução proporcional do número de empresas no setor da construção, assim como nos restantes setores referidos.

O setor da construção mantém também correlação linear positiva com os setores de comércio a grosso e a retalho, transporte e armazenagem e atividade imobiliária. Pode-se interpretar que o aumento do número de empresas na construção, motivada pela necessidade da reconstrução nacional, torna necessária a importação de matérias-primas, é acompanhado pelo aumento da atividade de comércio a grosso e a retalho para dar resposta à procura interna e, consequentemente, um aumento das empresas de transporte e armazenagem em termos médios. A atividade do setor de construção, do ponto de vista do número de empresas, implica também o desenvolvimento do setor do imobiliário uma vez que potencia a oferta no mercado imobiliário. Contrariamente a esta tendência, observou-se uma relação linear negativa entre o setor da construção e o setor indústria transformadora, o que pode ser explicado pelo facto do setor da indústria não estar ainda a beneficiar do desenvolvimento do setor da construção em termos da construção de infra-estruturas básicas de operacionalidade das indústrias transformadoras nacionais.

Observou-se uma relação linear positiva entre o setor do alojamento e a restauração e o setor imobiliário, bem como entre o primeiro e o do transporte e armazenagem. Neste caso pode-se interpretar que o setor do alojamento e restauração registou um desenvolvimento acentuado, sobretudo em 2010, em virtude da realização do Campeonato Africano de Futebol (CAN) e da preparação das infraestruturas (de alojamento e restauração) para a realização do Campeonato do Mundo de Hóquei em Angola que ocorreu em 2013. O setor do alojamento e a restauração apresentam uma relação positiva com o setor do transporte e armazenagem uma vez que utilizam os serviços externos permitindo um desenvolvimento dos transportes e logística.

Em relação à educação foi observada uma relação linear negativa com os setores do alojamento e restauração e da indústria transformadora, a qual pode eventualmente ser explicada pelo facto de Angola não ter neste momento uma oferta educativa acentuada orientada para estes setores face à procura. Com os restantes setores em análise (à exceção da agricultura), a educação apresentou uma relação linear positiva, o que revela que a formação de quadros nestas áreas beneficia o desenvolvimento de setores como a construção, o imobiliário, o comércio grosso e retalho, e o setor dos transportes.

Por sua vez, o setor da saúde e ação social revelou uma relação linear positiva com os setores da indústria transformadora e do alojamento e restauração, que pode ser associada ao facto destes dois últimos recorrerem a serviços de saúde e ação social. A relação linear positiva entre o setor da

(35)

22

educação e o setor da saúde e ação social pode ser compreendida pelo facto do primeiro permitir o desenvolvimento da saúde e ação social através da formação e capacitação de quadros.

1.4. Análise de Clusters

A contribuição mais expressiva para a aplicação do método de análise de clusters foi dada por Sokal e Sneath, no seu livro Numerical Taxanomy. The principles and the practice of numerical

classification (1963) inicialmente aplicados à biologia. Dado um conjunto de n indivíduos, todos

avaliados para p variáveis, tais indivíduos devem ser agrupados em clusters ou grupos, de forma que os mais semelhantes permaneçam no mesmo grupo. Geralmente, o número de classes não é conhecido á priori.

No caso em estudo, a análise de clusters pretende identificar as semelhanças e dissemelhanças entre os setores de atividade, de modo a formar grupos internamente homogéneos e externamente heterogéneos entre si. Para quantificar as semelhanças/dissemelhanças dos setores económicos, foram utilizadas as medidas de dissimilaridades baseadas na correlação, autocorrelação simples e parcial, no periodograma simples e integrado.

A dissimilaridade baseada na correlação calcula as distâncias entre os setores, com base no coeficiente de correlação de Pearson, introduzido anteriormente.

A dissimilaridade baseada na autocorelação informa o quanto o valor de uma realização de uma variável aleatória é capaz de influenciar seus vizinhos (autocorrelação). A dissimilaridade baseada na autocorrelação simples é definida por,

� , = √ �̂ − �̂ Ω �̂ − �̂

,

em que �̂ = �̂, , … , �̂, é o vetor das estimativas dos coeficientes de autocorrelação da série

temporal i, onde �̂, =� [ , + ]

,

e Ω é uma matriz de pesos.

Quando Ω = � (matriz de identidade) a dissimilaridade baseada na autocorrelação, corresponde

à distância euclidiana entre as matrizes de autocorrelação da série e . Quando Ω =

[ �̂ ]− obtém-se a distância de Mahalanobis entre as autocorrelações.

No caso, o cálculo das distâncias pelas autocorrelações parciais é equivalente ao cálculo pela autocorrelação simples, no entanto, �̂, são dados pela seguinte expressão:

�̂, = |�

| |� | ,

(36)

23

em que �∗ é a matriz de autocorrelações onde a última coluna da matriz � é substituída por

[� � … � ] . A matriz � é dada por:

[ � … � − � … � − ⋮ � − ⋮ � − ⋱ ⋮ … ]

Para a dissimilaridade baseada no periodograma, as distâncias são calculadas com base no coeficiente do periodograma. Este coeficiente é utilizado para identificar a sazonalidade dos dados, ou seja, fenómenos que se repetem a cada período idêntico de tempo. A medida conhecida como logaritmo do periodograma normalizado (DNLP) é definida como a distância euclidiana entre os coeficientes dos periodogramas das séries e ,

� , = √∑ [� ( ) − �=/ ]

em que � ( ) = |∑ = − | e � ( ) = |∑ = − | são os periodogramas das

séries temporais e , respetivamente, e = � .

A medida de dissimilaridade entre duas séries temporais baseada na distância dos seus periodogramas integrados é definida por:

INT.PER , = ∫ −�� | � − � | �

em que :

representa função de distribuição da série temporal representa a função de distribuição da série temporal

O conglomerado dos setores de atividade económica em estudo foi realizado através das técnicas de ligação hierárquicas que recorrem a passos sucessivos de agregação dos objetos considerados individualmente. Ou seja, cada objeto é um cluster e, esses clusters são sucessivamente agrupados de acordo com as suas proximidades (por isso estes métodos se dizem aglomerantes). Os métodos hierárquicos de conglomerado diferem no modo como as distâncias entre os objetos são calculadas (Marôco, 2011).

(37)

24

Um método de conglomerado é considerado hierárquico se ele consiste numa sequência de

+ conglomerados ( , , … , ), em que é a partição disjunta de todos os n indivíduos

e é a partição conjunta.

Na análise de clusters foram aplicados sete métodos hierárquicos de conglomerado, que a seguir se descrevem de forma sucinta.

No método de ligação simples (single linkage), ou critério do vizinho mais próximo, a distância

entre dois grupos (N e M) é determinada pela menor distância entre os objetos mais parecidos

entre os dois grupos. Isto é:

= min{ }

Pelo método de ligação completa (complete linkage), ou do vizinho mais distante, a distância entre dois grupos é definida como a sendo a dos dois vizinhos menos parecidos, ou seja, formam-se todos os pares com um membro de cada grupo, e a distância entre os grupos é definida pelo par que se encontra mais distante. Este método, geralmente, resulta na formação de grupos compactos e discretos, sendo os seus valores de similaridade relativamente pequenos (Bussab, Miazaki & Andrade, 1990). A distância entre os dois grupos é definida por:

= max { }

No método de ligação média (average linkage) é usada a similaridade média dos indivíduos ou grupo que se pretende unir a um grupo já existente. Nos métodos de conglomerado com base na média aritmética, é calculada a média de todas as distâncias entre todos os pares de elemento dos dois grupos. A distância entre os dois grupos é definida por:

= | | | | ∑

O método de ligação de centróide (centroid) considera a distância entre os centróides, ou seja, a distância entre os dois grupos é calculada com base na distância entre a média de todas as variáveis desses dois grupos (Marôco, 2011). A distância entre os dois grupos é definida por:

= ̅ , ̅

onde ̅ =

| | ∑ e ̅ =| | ∑ são os centróides dos clusters N e M.

O método de Ward (“ward linkage”) considera a distância entre dois grupos através do método de ligação de centróide sendo definida por:

(38)

25

= | | | | | | + | |

onde � é a distância entre e pelo método de centróide.

Com o método de ligação do McQuitty (McQuitty linkage), quando dois conglomerados

, são unidos, a distância entre o novo conglomerado e qualquer outro conglomerado é

calculada com base na média das distâncias dos conglomerados a serem unidos para esse outro conglomerado (McQuitty, 1964). A distância é definida por:

= +

No método de ligação da mediana (median linkage) entre dois clusters, é a mediana das

distâncias entre todos os possíveis pares de observações , com � e � . A distância entre

os dois grupos é definida por :

= � � { : � , � }

Depois de obtidos os conglomerados através dos diferentes métodos de ligação hierárquica, recorreu-se ao coeficiente de correlação cofenética para avaliar a qualidade de ajustamento entre as dissimilaridades e os resultados gerados pelos métodos de conglomerado (Sokal & Rohlf, 1962).

A correlação cofenética mede o grau de ajuste entre a matriz de similaridade original (matriz S) e a matriz resultante da simplificação proporcionada pelo método de conglomerado (matriz C). A matriz C é a obtida após a construção do dendrograma. Tal correlação foi calculada com a seguinte equação:

=

∑�−= ∑�= + (� −� ̅)( − ̅)

√∑�−= ∑�= + (� – �̅) √∑�−= ∑�= + ( – ̅)

em que: : valor de similaridade entre os indivíduos e , obtidos a partir da matriz cofenética; : valor de similaridade entre os indivíduos e , obtidos a partir da matriz de similaridade;

̅= = − ∑ = +

̅= = − ∑ = +

O coeficiente de correlação cofenética equivale à correlação de Pearson entre a matriz de similaridade original e aquela que é obtida após a construção do dendrograma. Ou seja, é a medida que indica o quanto o dendrograma (que é um modelo do comportamento de similaridade) modela o comportamento real. Assim, quanto mais próximo de 1, menor será a distorção provocada pelo conglomerado dos indivíduos através deste método (Bussab et al., 1990). A matriz cofenética é a

(39)

26

matriz das distâncias, na qual as distâncias entre os pares originais de objetos são substituídas pelas distâncias calculadas entre os grupos, no momento da formação dos conglomerados (Carr, Young, Aster & Zhang, 1999).

O Quadro 6 apresenta os valores do coeficiente de correlação cofenética para os critérios de agregação que apresentaram os dois melhores resultados e, para cada critério de agregação, as medidas de dissimilaridade baseadas na correlação, no periodograma simples, na autocorrelação parcial, autocorrelação simples e no periodograma integrado, bem como o critério de agregação que pior resultado gerou para as medidas de dissimilaridades analisadas.

Quadro 6. Coeficiente de correlação cofenética

Critérios de Agregação Medida de Dissimilaridade Coeficiente de correlação cofenético Complete Linkage Periodograma Simples 0,95316 Correlação 0,94902 Autocorelação Parcial 0,85102 Autocorelação Simples 0,69785 Periodograma Integrado 0,67323 Average Linkage Correlação 0,97331 Periodograma Simples 0,95759 Autocorelação Parcial 0,89994 Autocorelação Simples 0,89503 Periodograma Integrado 0,67947 Single Linkage Correlação 0,97166 Periodograma Simples 0,93073 Autocorelação Simples 0,88026 Autocorelação Parcial 0,86681 Periodograma Integrado 0,48853 Ward Linkage Correlação 0,92995 Autocorelação Parcial 0,85754 Periodograma Simples 0,81315 Autocorelação Simples 0,69181 Periodograma Integrado 0,65003

Com base no Quadro 6 observa-se que foi com o critério de agregação average linkage que se registaram maiores coeficientes de correlação cofenética em todas as medidas de dissimilaridade,

Imagem

Figura 1. A taxa de distribuição das empresas por setor de atividade
Figura 2. Boxplots da Classe de setores de atividade de Baixa Percentagem
Figura 3. Boxplots da Classe de setores de atividade de Média Percentagem
Figura 4.  Boxplots da Classe de setores de atividade de Alta Percentagem
+7

Referências

Documentos relacionados

O exemplo abaixo ilustra que a interpretação de um texto matemático pelo aluno surdo ocorre pela tradução da língua portuguesa para a Libras, como também da

A autora destaca a educação matemática de surdos a partir da filosofia da linguagem de Wittgenstein e traz como principais resultados, as dificuldades de intérpretes,

O presente texto teve como objetivo discutir acerca das adaptações curriculares no ensino de matemática na educação inclusiva, principalmente na educação de

Como já exposto, neste trabalho tivemos como objetivo de investigar que aspectos da educação inclusiva são contemplados na formação inicial e continuada dos professores

Ao término deste projeto, considera-se que o desenvolvimento de produtos realizados a partir da união das formas visuais obtidas no resultado das obras do

Os designers de moda não podem enxergar a sustentabilidade como algo limitador dentro do trabalho deles, mas, sim, como uma oportunidade de inovação nas suas áreas de atuação

O fato de que a Matemática possui linguagem própria, com termos que não estão consolidados em sinais específicos na Libras como logaritmos, matrizes, funções, particularmente porque

Nas turmas da noite, cada grupo (contendo de 4 a 6 estudantes) recebeu textos sobre uma teoria, sendo elas a Teoria Malthusiana, a Teoria Neomalthusiana, a Teoria reformista