• Nenhum resultado encontrado

Métodos paramétricos de screening em classificação supervisionada na presença de populações assimétricas

N/A
N/A
Protected

Academic year: 2021

Share "Métodos paramétricos de screening em classificação supervisionada na presença de populações assimétricas"

Copied!
295
0
0

Texto

(1)

FACULDADE DE CIÊNCIAS

Métodos paramétricos de screening em classificação supervisionada na presença de populações assimétricas

“ Documento Definitivo”

Doutoramento em Estatística e Investigação Operacional Especialidade de Probabilidade e Estatística

Ana Sofia Monteiro Araújo Soares

Tese orientada por: Marília Antunes e Lisete Sousa

(2)
(3)

FACULDADE DE CIÊNCIAS

Métodos paramétricos de screening em classificação supervisionada na presença de populações assimétricas

Doutoramento em Estatística e Investigação Operacional Especialidade de Probabilidade e Estatística

Ana Sofia Monteiro Araújo Soares

Tese orientada por: Marília Antunes e Lisete Sousa

Júri: Presidente:

● Doutora Maria Eugénia Vasconcelos Captivo, Professora Catedrática e Presidente do Departamento de Estatística e Investigação Operacional da Faculdade de Ciências da Universidade de Lisboa.

Vogais:

● Doutora Isabel Maria Simões Pereira, Professora Auxiliar do Departamento de Matemática da Universidade de Aveiro;

● Doutora Sandra Cristina de Faria Ramos, Professora Adjunta, Instituto Superior de Engenharia do Porto do Instituto Politécnico do Porto;

● Doutora Maria João Fernandes Pereira Polidoro, Professora Adjunta, Escola Superior de Tecnologia e Gestão do Instituto Politécnico do Porto;

● Doutora Patrícia Cortés de Zea Bermudez, Professora Auxiliar, Faculdade de Ciências da Universidade de Lisboa;

● Doutora Marília Cristina de Sousa Antunes, Professora Auxiliar, Faculdade de Ciências da Universidade de Lisboa (orientadora).

(4)
(5)

sença de populações assimétricas

Copyright © Ana Sofia Monteiro Araújo Soares, Faculdade de Ciências, Universidade de Lisboa.

Este documento foi gerado utilizando o processador (pdf)LATEX, com base no template “novathesis” [1] desenvolvido no Dep. Informática da FCT-NOVA [2]. [1]

(6)
(7)

Às minhas orientadoras, Professora Doutora Marília Antunes e Professora Doutora Lisete Maria Sousa pela forma brilhante como me orientaram: com muito profissionalismo, dedicação, paciência e amizade, um muitíssimo obrigada.

Aos professores Doutores Brunero Liseo e Antonio Parisi da Universidade de Roma, pela gentileza com que me prestaram ajuda numa parte de um script sobre a obtenção de uma distribuição a posteriori e pela troca de informações sobre as distribuições normais assimétricas, especialmente o caso bivariado, um sincero e comovido agradecimento.

Agradeço à FCUL todo o apoio institucional e pessoal, em certos casos.

A uma amiga muito especial que me ajudou imenso, quer em termos científicos relacionados com informática e programas que eu desconhecia (e que a ela lhe foram dados cursos sobre os mesmos, na sua universidade), quer em termos pessoais, o meu mais profundo e autêntico agradecimento. Foste a melhor coisa que me aconteceu neste doutoramento. Para quem não sabe, aqui nos conhecemos e aqui nos tornámos grandes amigas.

A outra grande amiga, extraordinária, pois sem ela nada disto teria sido possível, agradeço tudo o que fez por mim. Será eterna a minha dívida para contigo.

À Professora Doutora Ana Luísa Papoila por todo o seu apoio, o meu solene e sincero agradecimento, assim como a toda a equipa, que com ela trabalhamos. É um privilégo e um gosto poder trabalhar convosco!

Ao meu marido, grande companheiro, agradeço toda a atenção e paciência por este longo e conturbado tempo.

A toda a minha família, destacando as tias Teresa, Manuela e Laurinda e minha querida irmã, que não tenho como agradecer tudo o que têm feito por mim, em termos de logística doméstica, ao longo deste penoso tempo e pela força e ânimo que me têm transmitido. Sem elas, nada disto ter-se-ía concretizado.

Para os meus pais, em especial, não encontro em gramática alguma, dicionário, livro ou enciclopédia, palavras que possam descrever tamanha gratidão para com eles. Meus queridos e adorados pais, simplesmente não tenho palavras...

Finalmente, e porque os últimos são sempre os primeiros, ao meu filho Francisco as minhas desculpas por tantas ausências da mãe, frequentes faltas de paciência e atenção. Muito obrigada por tentares, na medida do que te é possível, compreendê-las. A única maneira que tenho de me redimir e de te agradecer é dedicar-te este trabalho.

(8)
(9)

No presente documento apresentam-se os resultados de um trabalho de investigação sobre me-todologia screening em classificação supervisionada, num contexto bayesiano e num cenário bivariado, isto é, métodos que permitem atribuir a um novo indivíduo, uma categoria, de entre um conjunto de categorias mutuamente exclusivas e exaustivas, com base na observação de vectores de características de dimensão dois, nesse indivíduo.

O referido trabalho inicia-se com a formulação do problema de screening do ponto de vista preditivo bayesiano e mostra-se como pode ser construída, de acordo com a formulação proposta, uma região de especificação quando se admite uma distribuição Normal Assimétrica Bivariada, para o vector de características, condicional à categoria. Tudo isto é feito primeiro para dois grupos, ou seja, a variável aleatoria Y apresenta duas categorias que dão origem aos dois grupos, e posteriormente para três grupos, isto é, a variável aleatoria Y apresenta três categorias que dão origem aos três grupos. Em ambas as situações deparou-se com uma grande necessidade de recurso a muita simulação, nomeadamente os métodos População de Monte Carlo, (Monte

Carlo Populacional (PMC)) e Monte Carlo simples ou ordinário (Monte Carlo (MC)).

O interesse deste problema estudado é desde logo o de utilizar um modelo tão interessante quanto o Normal Assimétrico Bivariado, depois o uso da metodologia de screening, que, para além de, como já foi dito, permitir classificar um novo indivíduo numa categoria e permite, também, obter um conjunto de probabilidades preditivas de interesse, necessárias para a forma-lização adequada e completa do problema de screening.

Trata-se de um trabalho que quando aplicado de forma adequada em casos práticos, evita expor indivíduos a situações dolorosas, invasivas, dispendiosas, etc..

Palavras-chave: Screening óptimo, classificador bayesiano, características operacionais,

(10)
(11)

This document presents the results of an investigation work on supervised classification screening methodology, in a bivariate scenario on a Bayesian setting, which means, a methodology which allows to atribute to a new subject, one category, from a mutually exclusive and exhaustive set of categories, based on the observation of characteristics vectors of dimension two, in that subject.

The work mentioned starts by formulating the screening problem, from the Bayesian predictive point of view, and it is shown how, accordingly with the proposed formulation, a specification region can be build when an asymmetric bivariate normal distribution is assumed for the characteristics vector, conditional on the category. All this is done, firstly to two groups, meaning the random variable Y has two categories creating the two groups, and secondly is done for three groups, when the random variable Y has three categories creating the three groups. In both situations simulation needs to be used heavily, namelly the methods Population Monte Carlo (PMC) and simple or ordinary Monte Carlo (MC).

The interest of this problem resides, first and foremost in using such an interesting model as the asymmetric bivariate normal, second the use of the screening methodology, which, besides of what was already said, allowing to classify a new subject in one category, it also creates a group of predictive probabilities of interest, which are needed for the adequate and complete formulation of the triage problem.

This methodology applied in real cases avoids exposing subjects to pain, invasive, expensive, etc. situations.

Keywords: Optimal screening, Bayesian classifier, operating characteristics, PMC and MC stochastic simulation methods.

(12)
(13)

Lista de Figuras xv

Lista de Tabelas xix

Siglas xxv

1 Introdução 1

2 A distribuição Normal assimétrica 5

2.1 Introdução . . . 5

2.1.1 A distribuição Normal assimétrica de Azzalini. . . 6

2.2 Distribuição Normal assimétrica multivariada . . . 11

2.2.1 A distribuição Normal assimétrica multivariada (multivariate skew-normal) (MSN) de Azzalini e Dalla Valle . . . 12

2.2.2 A distribuição MSN de Azzalini e Capitanio . . . 15

2.2.3 Outras formas de definir/construir a distribuição MSN . . . 16

2.2.4 A distribuição Normal assimétrica numa abordagem bayesiana . . . . 18

2.2.5 Inferência bayesiana para o modelo normal assimétrico multivariado . 19 2.2.6 Aspectos de natureza prática . . . 25

2.2.7 Distribuições a priori . . . 26

3 Screening para dois grupos 31 3.1 A Metodologia screening . . . 31

3.2 Screening óptimo . . . 33

3.3 Screening óptimo em Classificação Supervisionada . . . 36

3.4 Aspectos práticos para dois grupos de classificação . . . 39

3.4.1 Construção da região de especificação óptima . . . 41

3.4.2 Avaliação do desempenho da metodologia, por aplicação da mesma à amostra de teste . . . 53

3.4.3 Abordagem da minimização do custo médio preditivo, com recurso a uma solução de compromisso. . . 56

(14)

4.1 Breve descrição do modelo . . . 61

4.2 Screening simultâneo ou conjunto . . . 63

4.3 Máximo dos valores das probabilidades preditivas . . . 67

4.4 Screening sequencial . . . 76

5 Discussão 101

6 Conclusões 105

Bibliografia 109

A Procedimentos efectuados para as restantes sequências 115

B Códigos do R - Capítulo 2 137

C Códigos do R - Capítulo 3 141

(15)

2.1 Gráfico da f.d.p.da distribuição Normal assimétrica (skew-normal) (SN) para os três valores de α referidos.. . . 7

2.2 Representação gráfica de observações geradas de uma Normal assimétrica bivariada

(bivariate skew-normal) (BSN) e respectiva função densidade de probabilidade (f.d.p.). . . 25

2.3 Representação gráfica uma BSN em três dimensões. . . 26

2.4 Representação gráfica de valores simulados da distribuição a priori de Σ. . . . . 26

2.5 Representação gráfica da elipse que conjuntamente com o seu interior representam

o espaço parâmetro de δ para ρ= 0.5. . . 28

2.6 Representação gráfica dos valores aproximados de A(Ω), para diferentes valores de ρ. 29

2.7 Representação gráfica dos valores da densidade a priori relativa ao parâmetro δ,

para ρ= 0. . . 30

3.1 Gráfico com os 2000 valores gerados de distribuições BSN, para cada um dos grupos. 40

3.2 Representação gráfica das observações simuladas de distribuições BSN nos dois

grupos da amostra de treino. . . 41

3.3 Valores da função densidade preditiva de Y no Grupo 1, obtidos na grelha. . . 44

3.4 Representação gráfica das regiões de especificação Ck para os nove pontos de corte

considerados. . . 44

3.5 Representação gráfica do ajustamento feito aos pontos da fronteira das regiões de

especificação Ck para os nove pontos de corte considerados. . . 45

3.6 Observações geradas da distribuição preditiva, considerando dois grupos. . . 46

3.7 Representação gráfica das estimativas das características operacionais, obtidas a

partir da amostra dos dados gerados da distribuição preditiva a posteriori. . . . . 48

3.8 Representação gráfica das regiões de especificação Ck para os onze pontos de corte,

considerados na grelha afinada. . . 49

3.9 Representação gráfica do ajustamento feito aos pontos da fronteira das regiões de

especificação Ck para os onze pontos de corte considerados. . . 50

3.10 Representação gráfica das estimativas dos valores das CO, obtidas a partir da amostra dos dados gerados da distribuição preditiva a posteriori (os designados dados

“novos”), considerando a grelha afinada. . . 51

(16)

3.12 Representação gráfica da amostra de teste, já com a constituição dos dois Grupos, 1

e 0 e com a regra de classificação representada pela curva. . . 54

4.1 Representação gráfica dos três grupos, cada um com a respectiva distribuição BSN. 64

4.2 Representação gráfica dos três grupos de treino, cada um com a respectiva

distribui-ção BSN. . . 64

4.3 Representação gráfica dos valores gerados da distribuição preditiva de Y , obtidos na grelha, considerando cada um dos grupos, da esquerda para a direita, grupo 0, grupo 1 e grupo 2. . . 65

4.4 Representação gráfica das fronteiras das regiões de especificação aproximadas, Ck,

para os dezanove pontos de corte considerados. . . 66

4.5 Representação gráfica dos três grupos, construídos através dos valores máximos das

probabilidades preditivas de Y . . . 67

4.6 Representação gráfica do ajustamento das linhas que delimitam os grupos. . . 68

4.7 Representação gráfica da amostra de dados gerados das distribuições preditivas,

juntamente com as linhas construídas na grelha. . . 69

4.8 Representação gráfica da amostra de teste e Linhas 1 e 2. . . 69

4.9 Representação gráfica dos valores das características operacionais (CO) da tabela

anterior, P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2. . . 71

4.10 Representação gráfica dos valores das CO da tabela anterior, P(X ∈ Ci|Y = j; D),

para i, j = 0, 1, 2. . . 72

4.11 Representação gráfica dos valores das CO anteriores, na amostra de teste. . . 74

4.12 Representação gráfica dos valores das CO anteriores, na amostra de teste. . . 75

4.13 Representação gráfica da amostra de observações geradas da distribuição preditiva. 77

4.14 Representação gráfica das regiões de especificação relativas ao Grupo 2. . . 77

4.15 Representação gráfica das regiões de especificação relativas ao grupo 2, com fron-teiras ajustadas. . . 78

4.16 Representação gráfica das regiões de especificação relativas ao grupo 0 contra o grupo 1. . . 80

4.17 Representação gráfica das regiões de especificação relativas ao grupo 0 contra o grupo 1 com fronteiras ajustadas. . . 81

4.18 Representação gráfica dos três grupos relativos à amostra de dados gerados das distribuições preditivas, com os classificadores óptimos de cada um dos problemas binários sucessivos. . . 83

4.19 Heatmap das probabilidades P(Y = i|X ∈ C j; D), na amostra de dados gerados das distribuições preditivas e sequência(2 : 0 : 1). . . 85

4.20 Heatmap das probabilidades P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2, na amostra de

dados gerados das distribuições preditivas e sequência(2 : 0 : 1). . . . 86

4.21 Representação gráfica dos três grupos na amostra de teste, com os classificadores

(17)

4.22 Heatmap das probabilidades P(X ∈ Cj|Y = i; D), com i, j = 0, 1, 2, na amostra de

teste e sequência(2 : 0 : 1). . . 89

4.23 Heatmap das probabilidades P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2, na amostra de

teste e sequência(2 : 0 : 1). . . 90

4.24 Da esquerda para a direita, gráfico da amostra de dados gerados das distribuições preditivas com os classificadores óptimos, heatmap das CO do tipo P(Y = i|X ∈ Cj;D) e heatmap das CO do tipo P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2. . . 93

4.25 Da esquerda para a direita, gráfico da amostra de dados gerados das distribuições preditivas com os classificadores óptimos, heatmap das CO do tipo P(Y = i|X ∈ Cj;D) e heatmap das CO do tipo P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2. . . 94

4.26 Da esquerda para a direita, gráfico da amostra de dados gerados das distribuições preditivas com os classificadores óptimos, heatmap das CO do tipo P(Y = i|X ∈ Cj;D) e heatmap das CO do tipo P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2. . . 95

4.27 Da esquerda para a direita, gráfico da amostra de teste com os classificadores

óptimos, heatmap das CO do tipo P(Y = i|X ∈ Cj;D) e heatmap das CO do tipo

P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2. . . 97

4.28 Da esquerda para a direita, gráfico da amostra de teste com os classificadores

óptimos, heatmap das CO do tipo P(Y = i|X ∈ Cj;D) e heatmap das CO do tipo

P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2. . . 98

4.29 Da esquerda para a direita, gráfico da amostra de teste com os classificadores

óptimos, heatmap das CO do tipo P(Y = i|X ∈ Cj;D) e heatmap das CO do tipo

P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2. . . 99

5.1 À esquerda heatmap Y|X e à direita heatmap X|Y. . . . 102

5.2 Representação das probabilidades de pertença a cada um dos grupos (amostra de

treino). . . 102

5.3 À esquerda heatmap Y|X e à direita heatmap X|Y. . . . 103

5.4 Representação das probabilidades de pertença a cada um dos grupos (amostra de

(18)
(19)

3.1 Classificação, no Grupo 1, dos dados gerados da distribuição preditiva a posteriori,

para cada ponto de corte. . . 47

3.2 Estimativas dos valores das CO para os pontos de corte considerados inicialmente. 47 3.3 Classificação dos dados no Grupo 1, depois de afinada a grelha de pontos de corte. 50 3.4 Estimativas dos valores das CO para os onze pontos de corte considerados na grelha afinada. . . 51

3.5 Estimativas do erro aparente e do quociente entre as CO’s acima mencionadas, para cada um dos candidatos a ponto de corte óptimo. . . 52

3.6 Estimativas dos valores óptimos das CO para o ponto de corte óptimo, 0.46. . . . 54

3.7 Estimativas das CO para as primeiras dez amostras das mil obtidas por reamostragem com reposição, juntamente como a estimativa do erro de má classificação para cada uma das referidas amostras. . . 55

3.8 Algumas medidas amostrais relativas às CO e à estimativa do erro de má classifica-ção, tendo em conta as mil amostras já referidas. . . 56

3.9 Estimativas dos valores das CO para a grelha inicial. . . 57

3.10 Probabilidades de RS, RD, DS e DD para a grelha de pontos de corte considerada na tabela anterior. . . 58

3.11 Estimativas dos custos médios associados a cada ponto de corte. . . 58

3.12 Tabela com as CO obtidas na grelha afinada e respectivo custo médio preditivo. . 59

4.1 Contagens de observações do Grupo i e retidas no Grupo j, com i, j = 0, 1, 2. . . 70

4.2 Probabilidades conjuntas aproximadas das observações serem do Grupo i e serem retidas no Grupo j, com i, j = 0, 1, 2. . . 70

4.3 CO dos tipos P(X ∈ Ci| D) e P(Y = i| D). . . 70

4.4 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2.. . . 71

4.5 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2. . . 72

4.6 CO que traduzem outro tipo de erros na discriminação. . . 73

4.7 Contagens de observações do Grupo i e retidas no Grupo j, com i, j = 0, 1, 2, na amostra de teste. . . 73

4.8 Probabilidades conjuntas aproximadas das observações serem do Grupo i e serem retidas no Grupo j, com i, j = 0, 1, 2, na amostra de teste. . . 73

(20)

4.10 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2, na amostra de teste. . . 74

4.11 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2, na amostra de teste. . . 74

4.12 CO que traduzem erros na discriminação, na amostra de teste. . . 75

4.13 Tabela das contagens de observações, tomando o grupo 2 como prioritário relativa-mente ao conjunto dos outros dois, grupo 0 e grupo 1. . . 78

4.14 Estimativas das CO no contexto binário da separação do grupo 2 dos outros dois grupos. . . 79

4.15 Valores do erro aparente e do quociente já referido, para cada ponto de corte. . . 79

4.16 Tabela das contagens de observações, tomando o grupo 0 como prioritário em relação ao grupo 1. . . 81

4.17 Estimativas das CO no contexto binário da discriminação do grupo 0 do grupo 1. 82 4.18 Valores do erro aparente e do quociente no contexto em que o grupo 0 é considerado como prioritário em relação ao grupo 1. . . 82

4.19 Contagens de grupo real, em linha, e o grupo em que foi retido, em coluna.. . . . 83

4.20 Valores aproximados de probabilidades conjuntas grupo/retenção. . . 84

4.21 CO dos tipos P(X ∈ Ci| D) e P(Y = i| D). . . 84

4.22 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2.. . . 84

4.23 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2. . . 86

4.24 CO relacionadas com erros na discriminação. . . 86

4.25 Contagens de grupo real e retenção em certo grupo, na amostra de teste. . . 88

4.26 Valores aproximados de probabilidades preditivas conjuntas grupo/retenção, na amostra de teste. . . 88

4.27 CO do tipo P(X ∈ Ci| D) e P(Y = i| D), na amostra de teste. . . 89

4.28 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2, na amostra de teste. . . 89

4.29 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2, na amostra de teste. . . 90

4.30 Outras CO relativas a erros de uma discriminação incorrecta.. . . 90

4.31 Expressão analítica das fronteiras óptimas obtidas.. . . 92

5.1 QDA - Tabelas de contagens e de probabilidades conjuntas aproximadas, para os dados de treino. . . 101

5.2 QDA - Tabelas de contagens e de probabilidades conjuntas aproximadas, para os dados de teste. . . 103

A.1 Tabela das contagens de observações, tomando o grupo 2 como prioritário relativa-mente ao conjunto dos outros dois (grupo 1 e grupo 0). . . 115

A.2 Estimativas das CO no cenário binário da separação do grupo 2 dos outros dois grupos. . . 116

A.3 Valores do erro aparente e do quociente, para cada ponto de corte. . . 116

A.4 Tabela das contagens de observações, tomando o grupo 1 como prioritário em relação ao grupo 0. . . 116

(21)

A.5 Estimativas das CO no contexto binário da discriminação do grupo 1 do grupo 0. 117

A.6 Valores do erro aparente e do quociente no contexto em que o grupo 1 é considerado

como prioritário em relação ao grupo 0. . . 117

A.7 Contagens de grupo real, em linha, e o grupo em que foi retido, em coluna.. . . . 117

A.8 Valores aproximados de probabilidades conjuntas grupo/retenção. . . 117

A.9 CO do tipo P(X ∈ Ci| D) e P(Y = i| D). . . 118

A.10 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2. . . 118

A.11 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2.. . . 118

A.12 Outras CO relacionadas com erros na discriminação. . . 118

A.13 Contagens de grupo real, em linha, e o grupo em que foi retido, em coluna, na amostra de teste. . . 118

A.14 Valores aproximados de probabilidades conjuntas grupo/retenção, na amostra de teste. . . 119

A.15 CO do tipo P(X ∈ Ci| D) e P(Y = i| D), na amostra de teste. . . 119

A.16 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2, na amostra de teste. . . 119

A.19 Tabela das contagens de observações, tomando o grupo 1 como prioritário relativa-mente ao conjunto dos outros dois (grupo 2 e grupo 0). . . 119

A.17 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2, na amostra de teste. . . 120

A.18 Outras CO relacionadas com erros na discriminação, na amostra de teste. . . 120

A.20 Estimativas das CO no cenário binário da separação do grupo 1 dos outros dois grupos. . . 120

A.21 Valores do erro aparente e do quociente, para cada ponto de corte. . . 120

A.22 Tabela das contagens de observações, tomando o grupo 2 como prioritário em relação ao grupo 0. . . 121

A.23 Estimativas das CO no contexto binário da discriminação do grupo 2 do grupo 0. 121 A.24 Valores do erro aparente e do quociente no contexto em que o grupo 2 é considerado como prioritário em relação ao grupo 0. . . 121

A.25 Contagens de grupo real, em linha, e o grupo em que foi retido, em coluna.. . . . 121

A.26 Valores aproximados de probabilidades conjuntas grupo/retenção. . . 122

A.27 CO do tipo P(X ∈ Ci| D) e P(Y = i| D). . . 122

A.28 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2. . . 122

A.29 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2.. . . 122

A.30 Outras CO relacionadas com erros na discriminação. . . 122

A.31 Contagens de grupo real, em linha, e o grupo em que foi retido, em coluna, na amostra de teste. . . 122

A.32 Valores aproximados de probabilidades conjuntas grupo/retenção, na amostra de teste. . . 123

A.33 CO do tipo P(X ∈ Ci| D) e P(Y = i| D), na amostra de teste. . . 123

A.34 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2, na amostra de teste. . . 123

(22)

A.36 Outras CO relacionadas com erros na discriminação. . . 123

A.37 Tabela das contagens de observações, tomando o grupo 1 como prioritário

relativa-mente ao conjunto dos outros dois (grupo 0 e grupo 2). . . 124

A.38 Estimativas das CO no cenário binário da separação do grupo 1 dos outros dois grupos. . . 124

A.39 Valores do erro aparente e do quociente no contexto em que o grupo 1 é considerado

como prioritário em relação aos outros dois (juntos), grupo 0 e grupo 2. . . 124

A.40 Tabela das contagens de observações, tomando o grupo 0 como prioritário relativa-mente ao grupo 2). . . 125

A.41 Estimativas das CO no contexto binário da discriminação do grupo 0 do grupo 2. 125

A.42 Valores do erro aparente e do quociente no contexto em que o grupo 0 é considerado

como prioritário em relação ao grupo 2. . . 125

A.44 Valores aproximados de probabilidades conjuntas grupo/retenção. . . 125

A.43 Contagens de grupo real, em linha, e o grupo em que foi retido, em coluna.. . . . 126

A.45 CO do tipo P(X ∈ Ci| D) e P(Y = i| D). . . 126

A.46 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2. . . 126

A.47 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2.. . . 126

A.48 Outras CO relacionadas com erros na discriminação. . . 126

A.49 Contagens de grupo real, em linha, e o grupo em que foi retido, em coluna, na amostra de teste. . . 126

A.50 Valores aproximados de probabilidades conjuntas grupo/retenção, na amostra de teste. . . 127

A.51 CO do tipo P(X ∈ Ci| D) e P(Y = i| D), na amostra de teste. . . 127

A.52 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2, na amostra de teste. . . 127

A.54 Outras CO relacionadas com erros na discriminação, na amostra de teste. . . 127

A.62 Valores aproximados de probabilidades conjuntas grupo/retenção. . . 127

A.53 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2, na amostra de teste. . . 128

A.55 Tabela das contagens de observações, tomando o grupo 0 como prioritário

relativa-mente ao conjunto dos outros dois (grupo 1 e grupo 2). . . 128

A.56 Estimativas das CO no cenário binário da separação do grupo 0 dos outros dois grupos. . . 128

A.64 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2. . . 128

A.57 Valores do erro aparente e do quociente no contexto em que o grupo 0 é considerado

como prioritário em relação aos outros dois (juntos), grupo 1 e grupo 2. . . 129

A.58 Tabela das contagens de observações, tomando o grupo 1 como prioritário relativa-mente ao grupo 2). . . 129

A.59 Estimativas das CO no contexto binário da discriminação do grupo 1 do grupo 2. 129

A.66 Outras CO relacionadas com erros na discriminação. . . 129

A.60 Valores do erro aparente e do quociente no contexto em que o grupo 1 é considerado

(23)

A.61 Contagens de grupo real, em linha, e o grupo em que foi retido, em coluna.. . . . 130

A.63 CO do tipo P(X ∈ Ci| D) e P(Y = i| D). . . 130

A.67 Contagens de grupo real, em linha, e o grupo em que foi retido, em coluna, na amostra de teste. . . 130

A.68 Valores aproximados de probabilidades conjuntas grupo/retenção, na amostra de teste. . . 130

A.70 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2, na amostra de teste. . . 130

A.65 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2.. . . 131

A.69 CO do tipo P(X ∈ Ci| D) e P(Y = i| D), na amostra de teste. . . 131

A.71 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2, na amostra de teste. . . 131

A.72 Outras CO relacionadas com erros na discriminação, na amostra de teste. . . 131

A.73 Tabela das contagens de observações, tomando o grupo 0 como prioritário

relativa-mente ao conjunto dos outros dois (grupo 2 e grupo 1). . . 131

A.74 Estimativas das CO no cenário binário da separação do grupo 0 dos outros dois grupos, 2 e 1. . . 132

A.75 Valores do erro aparente e do quociente no contexto em que o grupo 0 é considerado

como prioritário em relação aos outros dois grupos (juntos), grupo 2 e grupo 1. . 132

A.76 Tabela das contagens de observações, tomando o grupo 2 como prioritário relativa-mente ao grupo 1). . . 132

A.84 Outras CO relacionadas com erros na discriminação. . . 132

A.77 Estimativas das CO no contexto binário da discriminação do grupo 2 do grupo 1. 133

A.78 Valores do erro aparente e do quociente no contexto em que o grupo 2 é considerado

como prioritário em relação ao grupo 1. . . 133

A.79 Contagens de grupo real, em linha, e o grupo em que foi retido, em coluna.. . . . 133

A.80 Valores aproximados de probabilidades conjuntas grupo/retenção. . . 133

A.81 CO do tipo P(X ∈ Ci| D) e P(Y = i| D). . . 133

A.82 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2. . . 134

A.83 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2.. . . 134

A.85 Contagens de grupo real, em linha, e o grupo em que foi retido, em coluna, na amostra de teste. . . 134

A.86 Valores aproximados de probabilidades conjuntas grupo/retenção, na amostra de teste. . . 134

A.87 CO do tipo P(X ∈ Ci| D) e P(Y = i| D), na amostra de teste. . . 134

A.88 CO do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2, na amostra de teste. . . 134

A.89 CO dos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2, na amostra de teste. . . 134

(24)
(25)

a.a. amostra aleatória.

BSN Normal assimétrica bivariada (bivariate skew-normal).

CO características operacionais.

f.d.p. função densidade de probabilidade.

f.g.m. função geradora de momentos.

i.i.d. independentes e identicamente distribuídas.

LFGN Lei Forte dos Grandes Números.

MC Monte Carlo.

MSN Normal assimétrica multivariada (multivariate skew-normal).

PMC Monte Carlo Populacional.

SN Normal assimétrica (skew-normal).

SN-2 Normal assimétrica bidimensional.

(26)
(27)

C a p í t u l

1

I n t ro d u ç ão

Este capítulo tem, como a própria designação sugere, o objectivo de contextualizar o leitor sobre o estudo descrito nos capítulos seguintes. O objectivo fundamental deste trabalho é a constru-ção e implementaconstru-ção, seguindo uma abordagem bayesiana, de um procedimento de screening paramétrico assente na observação de dados (bivariados) com distribuição Normal assimétrica bidimensional, simbolicamente, BSN.

Considera-se a metodologia bayesiana porque, ao contrário da metodologia clássica, permite a introdução de informação a priori, além de possibilitar obter probabilidades preditivas a

posteriori, designadas por características operacionais (CO), que aferem a qualidade preditiva e

discriminativa do método de screening proposto.

Muito sucintamente a metodologia de screening consiste no seguinte: suponha-se que se tem um conjunto de indivíduos classificados em grupos, segundo uma variável aleatória (v.a.)Y , de interesse mas cujas realizações são dispendiosas, invasivas ou difíceis de obter, podendo até chegar a ser destrutivas. Assim, só será conveniente obter o seu valor se a probabilidade do indivíduo pertencer à categoria prioritária dav.a.Y for elevada. Procede-se, pois, à avaliação indirecta desta probabilidade através de técnicas de seleção baseadas na observação de um vector aleatório, X = (X1, ..., Xd), com d ≥ 1, correlacionado com Y , denominado vector de

características e cujas realizações são mais fáceis de conseguir, de tal forma que seja possível triar os indivíduos que têm uma elevada probabilidade de pertencerem à categoria prioritária dav.a.Y , diminuindo, consequentemente, o número de indivíduos cujo valor de Y terá que ser obtido de forma directa.

A metodologia de screening é, em certas situações confundida com classificação e noutras po-dendo mesmo ser uma metodologia de classificação. Apesar da existência de outras metodologias de classificação, cujas fronteiras são estabelecidas a priori e têm outras formas, esta metodologia tem a vantagem de não exigir a definição prévia da forma da fronteira, sendo esta adaptada consoante a situação em causa.

(28)

O estudo iniciar-se-á, no capítulo2, com a descrição do modelo Normal assimétrico na versão univariada e na versão multivariada, MSN, da qual a versão bivariada é um caso particular. Descreve-se o modelo na versão univariada, propriedades, etc., e na versão multivariada far-se-á o mesmo mas apresentando várias abordagens seguidas nas diferentes linhas de investigação, ou seja por diversos autores, que levaram ao surgimento e desenvolvimento do conhecimento desta distribuição.

A utilização do modelo Normal assimétrico está relacionada com algumas questões como se explica de seguida.

Na modelação de variáveis com características biomédicas ou outras, a primeira escolha é, regra geral, o recurso à distribuição Normal. Muitas metodologias baseiam-se no pressuposto de normalidade das variáveis e não são suficientemente robustas quando o referido pressuposto é violado; o resultado são inferências enviesadas. Uma solução seria adoptar transformações para tornar os dados simétricos mas o resultado não é, por vezes, muito satisfatório, sobretudo se eles apresentarem caudas mais pesadas.

A suposição de normalidade pode mesmo não ser real e ocultar características importantes presentes nos dados, segundo Arellano-Valle e Genton [10].

Surge, então, o modelo Normal assimétrico que se mostra adequado e versátil para descrever quantidades que são assimétricas, mantendo algumas das propriedades (apelativas) da distribui-ção Normal padrão. Possui, além disso, tratabilidade matemática e amplitudes aceitáveis para os índices de assimetria e de achatamento.

Como consequência, tem-se assistido, nas últimas décadas, a um interesse cada vez maior por modelos flexíveis que representem os dados tão adequadamente quanto possível e não partam de suposições muitas vezes irrealistas.

No capítulo3descrevem-se os conceitos fundamentais da metodologia de screening, nomeada-mente é descrito o método de screening óptimo proposto por Turkman e Amaral Turkman [79]. A partir da metodologia de screening óptimo proposto pelos referidos autores, são desenvolvidas as contribuições propostas neste trabalho e que, neste capítulo, são aplicadas a dois grupos de classificação.

O vector de características será, neste trabalho, bidimensional (dados bivariados) e uma das situações diferenciadoras é considerar para este vector, condicional ao grupo (são considerados dois grupos), uma distribuição Normal assimétrica bivariada,BSN.(veja-se capítulo2)

Dado que a obtenção de probabilidades através de integração não é possível pelo facto de a f.d.p.

deste modelo não ter uma expressão analítica fechada, referem-se, no capítulo 3 os métodos computacionais de simulação, concretamente os métodos População de Monte Carlo e Monte Carlo ordinário, que se mostram indispensáveis para ultrapassar alguns problemas de cálculo e também para resolver o problema da ausência de dados reais. Ainda neste capítulo, aplica-se a metodologia de screening com base na existência de uma função custo ou perda, associada a quatro, e só quatro, tipos de decisão possíveis. São apresentadas duas situações: apenas interessar a minimização da função perda ou associar essa situação ao bom desempenho da metodologia. No capítulo4apresentam-se metodologias, também de screening, utilizadas num problema de

(29)

um modelo Normal assimétrico bivariado ou BSN.

Visto ser uma situação nova, testaram-se alternativas distintas: a primeira é aplicar o procedi-mento de screening da mesma forma que no capítulo3, ou seja, de uma forma simultânea, um dos grupos ”contra” os demais. Esta alternativa não pareceu viável porque dava origem a dados não classificados em nenhum dos três grupos ou, então, classificados simultaneamente em mais do que um grupo, facto que não pode acontecer pois os grupos são mutuamente exclusivos e exaustivos, ou seja, formam uma partição do suporte da variável Y .

Numa segunda alternativa, fez-se o agrupamento dos ”dados” através do valor máximo da distribuição preditiva, nos três grupos, ou seja, uma vez simulados valores das distribuições preditivas, P(Y = y| D), y = 0, 1, 2, foi tomado o valor máximo para cada um de 400 pontos de uma grelha, correspondentes a 20 valores de abcissas, tomados no intervalo [-2,8] e 20 valores de ordenadas, tomados no intervalo [-2,8], para cobrir com probabilidade aproximadamente igual a um, todo o suporte de X para os três grupos. De seguida, construiram-se fronteiras para os grupos, fronteiras essas constituídas por duas linhas ajustadas a pontos que se obtiveram como delimitadores dos grupos. Esta abordagem é eficaz mas tem a desvantagem de o processo de obtenção das fronteiras ser moroso e de construção não automática, além de que os dados são tratados todos da mesma forma, ou seja, não entra em linha de conta com a possibilidade de existir um grau de prioridade no que diz respeito aos referidos grupos.

A última forma de abordar o problema foi aplicar a metodologia de screening mas de forma sequencial, dando origem a duas abordagens binárias sequenciais, isto é, separa-se um grupo do conjunto dos outros dois, que formam como que um grupo só, por aplicação da metodologia para dois grupos e seguidamente separa-se o conjunto dos dois grupos em dois grupos distintos, utilizando novamente o procedimento do caso binário.

Existe, no entanto, uma questão importante, no caso de três grupos, porque existindo prioridades associadas a cada um deles, não se sabe se as referidas prioridades são um factor a ter em conta na aplicação da metodologia. Assim, foram tidas em conta todas as possíveis ordens de prioridades entre grupos, pois visto que os dados foram simulados não dispomos de informação acerca da prioridade dos mesmos, o que nos levou a aplicar a metodologia acima referida a seis situações distintas.

O primeiro dos procedimentos sequenciais iniciar-se-á sempre pelo grupo que se priviligia. Uma vez discriminado este grupo, tem-se um outro problema binário onde se confere prioridade a um dos dois restantes grupos, como se o grupo já discriminado não existisse. Se se consideram três grupos, existirão seis alternativas possíveis de ordenação dos mesmos, portanto, no total, seis cenários binários sequenciais.

O capítulo5apresenta uma breve discussão da metodologia utilizada na última parte do capítulo

4, Screening sequencial e de uma abordagem clássica alternativa para o caso de três grupos de classificação, nomeadamente a Análise Discriminante Quadrática, comparando-as nos aspectos em que isso é possível.

(30)

O capítulo6 culmina o trabalho com conclusões, comparações entre as várias abordagens e aponta sugestões para trabalho futuro, prioritariamente, além de outros, a melhoria dos aspectos que possam ter corrido menos bem neste trabalho e a aplicação a dados reais.

(31)

C a p í t u l

2

A d i s t r i b u i ç ão No r m a l a s s i m é t r i ca

2.1

Introdução

A teoria sobre distribuições assimétricas (contínuas) teve início no século XIX e, depois, em grande parte do século XX, sofreu uma relativa estagnação, voltando a ter desenvolvimentos em meados dos anos oitenta desse século. Nos últimos vinte anos do século XX tornou-se uma área de rápidos avanços. Contudo, estes desenvolvimentos parecem apresentar-se na literatura científica de forma algo fragmentada, talvez pelo facto de os investigadores trabalharem em diferentes países mais, ou menos, simultaneamente mas com uma constatada (na literatura científica) falta de coordenação, segundo Kotz e Vicari [49].

A primeira ideia de “estender” a classe das distribuições normais parece dever-se ao ma-temático italiano Fernando de Helguero que, em 1908, no IV Congresso de Matemática, em Roma, apresentou um artigo sobre a representação analítica do que ele denominou por curvas “anormais” (abnormal curves). Este trabalho parece ser um dos primeiros, se não o primeiro, da distribuição normal assimétrica, cuja formulação específica ocorre somente na segunda metade do século XX. Helguero sugeriu, neste trabalho, duas formas de afastamento da normalidade: uma tem a ver com a mistura de duas populações normais, a qual foi motivada por um artigo de A. Giard (1894), que havia formulado idêntica hipótese, em contexto biológico; a outra reporta a um mecanismo de selecção de populações normais, sendo que esta pode ser a primeira ocorrência na literatura de uma distribuição gerada por amostragem selectiva que conduz a uma curva distribucional unimodal e assimétrica.

A ideia de modelar a assimetria, no contexto de uma análise bayesiana, através da construção de uma família de distribuições fáceis de tratar matematicamente obtida a partir da distribuição normal assimétrica, “modificando-a”, pode atribuir-se a Birnbaum [25] e, talvez, independente-mente, e posteriormente a O’Hagan e Leonard [63]. Birnbaum [25] sugeriu a aplicação do que

(32)

hoje se denomina por “método condicionante”. O artigo de Roberts [72] onde o modelo apresen-tado foi desenvolvido tomando o mínimo de duas variáveis normais correlacionadas resulta numa representação equivalente. Aigner, Lovell e Schmidt [1] lidaram com a mesma questão usando o “método de transformação”, envolvendo duas variáveis normais, com aplicações à Econometria.

Posteriormente, Mukhopadhyah e Vidakovic [62] fornecem mais desenvolvimentos sobre esta questão com aplicação, na análise bayesiana, na construção de classes de distribuições a priori assimétricas.

Contudo, é Azzalini [16], juntamente com os seus alunos e colaboradores, o primeiro a formular de um modo específico a distribuição normal assimétrica e o grande impulsionador de toda a teoria moderna (e aplicações) acerca dessa distribuição. Cerca de dez anos depois, Azzalini e Dalla Valle [23] bem como Azzalini e Capitanio [21], generalizaram a distribuição Normal assimétrica ao caso multivariado, o que originou grande atenção e interesse por parte da comunidade científica. Todo o trabalho de Azzalini sobre a distribuição Normal assimétrica no caso univariado e multivariado bem como outras distribuições assimétricas encontra-se compilado no seu livro [20] que teve a colaboração de Antonella Capitanio.

Importante contribuição são também os trabalhos de Arnold, Beaver, Groeneveld e Mee-ker [14] e os de Arnold e Beaver [12,15] que geraram aplicações e mais expansões e interpretações. A versão multivariada do modelo Normal assimétrico gerou variadas publicações numa pers-pectiva tanto metodológica como de aplicações práticas. Das inúmeras publicações relacionadas com este modelo e suas ramificações podem encontrar-se algumas, por exemplo, no livro editado por Genton [39], em Mudholkar e Hutson [61], Arnold e Beaver [13], Azzalini [18] e noutros [40,

41,42].

2.1.1

A distribuição Normal assimétrica de Azzalini

Em muitas famílias de distribuições verifica-se, sob certas condições, a aproximação à distribuição Normal mas poucas há em que a Normal constitua um seu membro e que sejam tratáveis do ponto de vista matemático. A distribuição Normal assimétrica possui estas duas propriedades.

O interesse crescente por esta distribuição vem fundamentalmente de duas direcções. Do ponto de vista teórico, goza de um número de propriedades formais que se assemelham às da distribuição Normal; do ponto de vista prático é adequada para a análise de dados que exibam uma distribuição empírica unimodal mas com alguma assimetria presente (veja-se Hill e Dixon [47], sobre uma discussão e evidência da presença de assimetria em dados reais), uma situação que ocorre frequentemente em casos práticos.

Apresenta-se, de seguida, a definição e propriedades segundo a formalização da distribui-çãoSNde Azzalini [16].

Nota: Para que o leitor não perca tempo a tentar decifrar, na notação de Azzalini [16], o uso das funções φ e Φ, usuais na distribuição normal padrão para designar, respectivamente, f.d.p.e função distribuição, adverte-se já que, quando estas funções têm um só argumento, o significado é o usual; caso tenham dois argumentos é a notação utilizada pelo autor para o modelo Normal

(33)

assimétrico.

Definição 1 : Uma variável aleatória Z tem distribuiçãoSNpadrão com parâmetro α, simboli-camente X _S N(α) ou X _ SN(0, 1, α), se a sua f.d.p.for da forma:

φ(z; α) = 2φ(z)Φ(αz), z ∈ R, α ∈ R (2.1)

onde α é o parâmetro que regula a assimetria, φ e Φ são, respectivamente a função densidade de probabilidade e a função distribuição, da Normal padrão.

A expressão da definição (2.1), é, de facto, uma f.d.p., pelo lema que se segue e cuja demontração pode encontrar-se em Azzalini [16]:

Lema 1 : Seja f uma função densidade de probabilidade, simétrica em 0, e G uma função

distri-buição absolutamente contínua tal que G0é simétrica em 0. Então a função 2G(αz) f (z), z ∈ R, é uma função densidade para qualquer real α.

A figura que se segue mostra a forma daf.d.p.(2.1) para três valores do parâmetro α,(−2, 0, 5).

-4 -2 0 2 4 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 SN(0) SN(-2) SN(5)

Figura 2.1: Gráfico da f.d.p.da distribuiçãoSNpara os três valores de α referidos.

As propriedades que se seguem decorrem imediatamente da definição da distribuição S N(α) de Azzalini (2.1), em [16], e que ele aponta nesse seu trabalho:

(34)

Propriedade 1 :φ(z; 0) = φ(z), ∀z, ou seja, a função densidade de probabilidade da SN(0) é a

função densidade de probabilidade da N (0, 1).

Propriedade 2 : φ(0; α) = φ(0), ∀α.

Propriedade 3 : −Z _ SN(0, 1, α) ⇔ φ(−z; α) = φ(z; −α), ∀z, ou seja, se Z for umav.a.com distribuição S N (α), então −Z é umav.a.com distribuição S N (−α).

Propriedade 4 : limα−→∞φ(z; α) = 2φ(z) I[0,∞)(z), ∀z , 0, ou seja, quando α tende para infinito, φ(z; α) tende para a função densidade da semi-normal.

Propriedade 5 : A função densidade (2.1) é fortemente unimodal, isto é, log φ(z; α) é uma função côncava de z.

Propriedade 6 : Se Z _ SN(α), então Z2_ χ2(1).

As propriedades acima enunciadas corroboram o que já se mencionou: a distribuição normal padrão é um membro da família das distribuiçõesSN, propriedade1; para valores positivos (negativos) de α, obtém-se uma distribuição assimétrica à direita (esquerda); outra relação da distribuição normal assimétrica com a normal é dada pela propriedade6.

Estes factos, e outros mais, sustentam o termo normal assimétrica para esta distribuição.

Definição 2 : Designando por Φ(z; α) a função de distribuição de um modelo SN(α), ela tem

a seguinte forma: Φ(z; α) = 2 Z z −∞ Z αt −∞ φ(t)φ(u)dudt (2.2)

A função de distribuição pode também ser escrita, recorrendo à função T de Owen, Owen [64]. A expressão matemática desta função é a seguinte:

T(h, a) = 1 2π Z a 0 exp[−h2(1 + t2)/2] 1+ t2 dt

e representa, para h e a positivos, o integral daf.d.p.da distribuição Normal bivariada na região delimitada pelas linhas x= h, y = 0, y = ax, no plano (x, y). Contudo, caso exista um interesse acrescido sobre esta função, remete-se o leitor para a referência acima, onde se trata a referida função, pois que, não é, de todo, uma função trivial. Assim,Φ(z; λ) = Φ(z) − 2T(z, λ).

Sabe-se que T(h, a) é uma função decrescente de h e que

−T(h, a) = T(h, −a), T(−h, a) = T(h, a), 2T(h, 1) = Φ(h)Φ(−h).

Da propriedade3e de algumas propriedades da função T , surgem os seguintes corolários, que envolvem a função de distribuição da S N(α):

(35)

Propriedade 7 : 1 − Φ(−z; α) = Φ(z; −α) Propriedade 8 : Φ(z; 1) = [Φ(z)]2

Propriedade 9 : supz|Φ(z) − Φ(z; α)| = π−1arctan|α|

Relativamente aos momentos da distribuição S N(α), Azzalini [16], obtém afunção geradora

de momentos (f.g.m.), e, consequentemente, o valor médio e a variância deduzem-se como é

usual, ou seja, por derivação da f.g.m.. Assim, tem-se a definição, segundo o referido autor, daf.g.m.do modelo S N(α):

Definição 3 : A função geradora de momentos do modelo SN(α) tem a expressão

MZ(t) = E(et Z) = 2 exp(t2/2)Φ(δt), (2.3)

onde δ = √ α 1+α2.

Na obtenção daf.g.m.da v.a. Z é aplicado o resultado do lema que se segue, o qual foi usado e demonstrado por Zacks [82] e utilizado por Azzalini [16]:

Lema 2 : Seja U _ N(0, 1). Então, tem-se que E[Φ(hU + k)] = Φ

 k √ 1+h2  , ∀h, k ∈ R. Com o resultado do lema 2, a obtenção daf.g.m.é a que se segue:

MZ(t) = E(et Z) = 2 Z +∞ −∞ et zφ(z)Φ(αz)dz = = 2et 2 2 Z +∞ −∞ 1 √ 2π e −(z−t)22 Φ (αz)dz = = 2et 2 2 Z +∞ −∞ 1 √ 2π e −(u)22 Φ (α(u + t))du = = 2et 2 2 E[Φ(αU + λt)] , onde U _ N(0, 1).

Devido ao lema2, af.g.m.pode, então, ser expressa por MZ(t) = 2e t 2 2Φ αt 1+ α2 ! = 2et 22Φ(δt), t ∈ R, (2.4) onde|δ| = α √ 1+α2 < 1 e então α = δ 1−δ2.

Em virtude de se poder calcular os momentos simples de ordem r ∈N a partir das derivadas de ordem r, no ponto t = 0, vem que:

E(Z) = r 2 π δ , V ar(Z) = 1 − 2 π δ2 , (2.5)

(36)

ou seja, E(Z) = ∂t∂ MZ(t)|t=0 = 2(te t 2 2Φ(δt) + e t 2 2δφ(δt)|t=0 = 2δφ(0) = δ2 2π = bδ com b= √2 2π = q 2 π. E(Z2) = ∂ 2 ∂t2MZ(t)|t=0 = = ∂t∂t∂ MZ(t) ! |t=0 = = 2et 22Φ(δt) + t2e t 2 2Φ(δt) + δte t 2 2φ(δt) + δtφ(δt) + δ2e t 2 2φ0(δt)  |t=0= = 2(Φ(0) + δ2φ0 (0)) = = 1

V ar(Z) = E(Z2) − [E(Z)]2= 1 − b2δ2, com b= q

2 π.

Henze [46] obteve a expressão geral dos momentos de ordem ímpar já que os de ordem par coincidem com os da distrbuição Normal, pois Z2_ χ2(1). Assim, os momentos de ordem par de Z são dados por:

E(Z2k) = 2−k (2k)!k!

e os momentos de ordem ímpar de Z são dados por:

E(Z2k+1) = q 2 πα(1 + α2)−(k+ 1 2)2−k(2k + 1)!Pk j=0 j!(2α)2 j ( j+1)!(k− j)!

Do ponto de vista prático, faz, muitas vezes, sentido introduzir localização e escala nav.a. Z, o que pode efectuar-se através da seguinte definição:

Definição 4 : Av.a.Y tem distribuição Normal assimétrica com parâmetro de localização, ξ ∈ R, parâmetro de escala, ω > 0 e parâmetro de assimetria α ∈ R, simbolicamente Y _ S N (ξ, ω, α) se a suaf.d.p.for da forma:

f(y; ξ, ω, α) = ω2φ y −ωξ ! Φ " α y −ξ ω ! # , y ∈ R. (2.6)

Note-se que se ξ = 0 e ω = 1 tem-se af.d.p.(2.1). Além disso, estaf.d.p.só é centrada em ξ quando α= 0 e a variância de Y é sempre menor do que a variância do correspondente modelo de distribuição normal.

(37)

Af.g.m.de Y _ S N(ξ, ω, α) tem a expressão matemática: MY(t) = 2 exp(ξt +

ω2t2

2 )Φ(δωt) , t ∈ R. (2.7)

O valor médio e a variância da v.a. Y são, respectivamente iguais a E(Y ) = ξ + ωbδ e V ar(Y ) = (1 − b2δ2) ω2, onde δ = √ α

1+α2 e b= q

2 π.

Um dos aspectos interessantes da distribuição normal assimétrica é o facto de admitir diferentes tipos de representações estocásticas, o que se torna vantajoso em termos de geração de números aleatórios e da sua génese. São elas:

1. Condicionamento e amostragem selectiva: Se (U0, U1) for um par aleatório com

distri-buição BSN com marginais padronizadas e Corr(U0, U1) = δ, então a distribuição de

(U1|U0> 0) é da forma (2.1), onde α = √ δ 1−δ2.

2. Genesis via uma soma: Se V0 e V1 são v.a. independentes N(0, 1) e δ ∈ (−1, 1), então

Z = δ | V0 | +

1 − δ2 V

1, temf.d.p.do tipo (2.1), com α = √ δ 1−δ2.

3. Genesis via máximo/mínimo: Se (U0, U1) for um vector aletório com distribuiçãoBSNcom

marginais padronizadas e Corr(U0, U1) = δ, então, Z1 =min(U0, U1) , Z2 =max(U0, U1)

têm distribuição do tipo (2.1) com parâmetros, respectivamente iguais a −p(1 − δ)(1 + δ) e+p(1 − δ)(1 + δ).

Na mesma e em linhas de investigação distintas pode constatar-se esta génese da distribui-çãoSN. Nas publicações, por exemplo, de Azzalini [16,17], Henze [46] e Arnold et al. [14], mostra-se que operações não lineares simples e comuns, aplicadas av.a.com distribuição Normal, tais como truncatura, condicionamento e censura, conduzem invariavelmente a versões dev.a.

com distribuiçãoSN. Arnold et al. [14], introduz uma distribuiçãoSNmais generalizada como sendo a distribuição marginal de um modelo normal bivariado truncado, no qual uma v.a., X , é retida somente se uma outra v.a., Y , satisfizer algumas restrições (aquilo a que os autores chamam, numa tradução livre, truncatura escondida e/ou registo selectivo). Surgem também interpretações bayesianas do modelo SN sobretudo no caso multivariado, com se descreverá mais à frente.

2.2

Distribuição Normal assimétrica multivariada

Neste capítulo introduz-se a extensão multidimensional da distribuição SN, ou seja a distribui-çãoMSN. Esta extensão é de particular interesse já que, sobretudo em situações práticas, existem menos distribuições disponíveis para lidar com a não normalidade da poulação (sbjacente aos dados) do que no caso univariado, especialmente para a situação de assimetria moderada das distribuições marginais.

(38)

de uma extensão puramente formal da expressão (2.1). A generalização ao caso multivariado deve-se a Azzalini e Dalla Valle [23], Azzalini e Capitanio [21], Molina, Gonzáles-Farias e Gupta [58], entre outros.

2.2.1

A distribuição

MSN

de Azzalini e Dalla Valle

Nos seus trabalhos sobre o modeloMSN, Azzalini e Dalla Valle [23] podem consultar-se dois métodos sobre a génese da versão multivariada da distribuiçãoSN: o método da transformação e o método por condicionamento, que a seguir se descrevem:

- Método de transformação:

Considere-se Y = (Y1, . . . , Yk)T um vector aleatório k-dimensional com marginais padronizadas,

independentes de Y0 _ N(0, 1). Então, tem-se que:

* , Y0 Y + -_ Nk+1      0,* , 1 0 0 Ψ + -    

onde Ψ é uma matriz de correlação de dimensão(k × k). Se cada uma das componentes de (δ1, . . . , δk) tomar valores em (−1, 1), defina-se

Zj = δj|Y0| + (1 − δ2j)

1

2Yj, ( j = 1, · · · , k)

tais que Zj _ SN(λ(δj)). Pela proposição que se segue, devida a Andel, Netuka e Zvara [6],

Z _ SN(λ(δ)).

Os autores acima referidos obtiveram a normal assimétrica como a distribuição estacionária de um processo auto-regressivo não linear:

Proposição 1 Se Y0e Y1forem variáveis aleatórias N (0, 1), independentes e δ ∈ (−1, 1), então

Z = δ|Y0| + (1 − δ2)

1

2Y1

é S N (λ(δ)).

O cálculo da distribuição de Z = (Z1, · · · , Zk)T, segundo Azzalini e Dalla Valle [23], é trivial

mas moroso. A expressão final daf.d.p.é:

fZ(z) = 2φk(z; Ω)Φ(αTz), (z ∈ Rk) , (2.8) onde, αT = λ TΨ−1−1 (1 + λTΨ−1λ)1 2 , (2.9) ∆= diag  (1 − δ21)12, · · · , (1 − δ2 k) 1 2  ,

(39)

λ = (λ(δ1), · · · , λ(δk))T , (2.10)

Ω = ∆(Ψ + λλT)∆ , (2.11)

e Φk(z; Ω) é af.d.p.da distribuição Normal k-variada com marginais normal padrão e matriz

de correlação Ω. Um vector aleatório com esta função densidade de probabilidade diz-se ter distribuição Normal assimétrica k-variada com vector λ dos parâmetros de forma e parâmetro de dependência Ψ, simbolicamente, Z _ S N(λ, Ψ).

- Método de condicionamento:

Seja X = (X0, X1, . . . , Xk)Tum vector aleatório com distribuição Normal multivariada,

(k+1)-dimensional, tal que X _ Nk+1(0, Ω∗), com marginais padronizadas e matriz de correlação

Ω∗= * . . . . . . . , 1 δ1 · · · δk δ1 ... Ω δk + / / / / / / /

-e consid-er-e-s-e a distribuição condicional d-e(X1, . . . , Xk) dado X0> 0. Dado que cada uma das

distribuições condicionadas é S N(λ(δj)), j = 1, . . . , k, unidimensional, [(X1, . . . , Xk)|X0> 0] é

umav.a.com distribuição Normal assimétrica. Azzalini e Dalla Valle [23] referem no seu artigo que se pode mostrar que a classe de distribuições obtidas por este método é a mesma que a obtida pelo método da transformação. A função de distribuição do modeloMSNpadrão é definida da seguinte forma:

Definição 5 : Se Z tem distribuição Normal assimétrica k-variada padrão, a sua função

distri-buição é dada por:

Fk(z1, . . . , zk) = P(Z1 ≤ z1, . . . , Zk ≤ zk) = 2 Z z1 −∞ · · · Z zk −∞ Z αTν −∞ φk(ν; Ω)φ(u)dudν1· · · dνk ,

para z = (z1, . . . , zk) ∈ Rk e α definido a partir de (2.9). Para obter af.g.m.do vector aleatório

Z é necessário o seguinte resultado, o qual constitui uma extensão do resultado estabelecido por Zacks [82], (lema2), já que νTU _ N(0, νTν) :

Lema 3 Se U _ Nk(0, Ω), então: E(Φ(u + νTU)) = Φ    u (1 + νTν)12      , para z = (z1, . . . , zk) ∈ Rk.

(40)

A determinação daf.g.m.é, então, imediata: MZ(t) = 2 Z Rk exp(tTzk(z; Ω)Φ(αTz)dz = = 2 (2π)12k|Ω|12 Z Rk exp " −1 2(z T−1z − 2tTz ) # ΦTz)d z = = 2 exp( 1 2(t T Ωt) ) E fΦ( αT(U + Ωt)) g = = 2 exp( 1 2(t Tt ) ) Φ    αTΩt (1 + αTα)12      , t ∈ Rk , onde U _ Nk(0, Ω).

Na prática, e, como já se disse no caso univariado, é útil a introdução de parâmetros de localização e de escala que é feita através da transformação Y = ξ + ωZ, onde ξ = (ξ1, . . . , ξk)T

e ω= diag(ω1, . . . , ωk) são parâmetros de localização e escala, respectivamente; as componentes

de ω devem ser positivas.

Definição 6 : Af.d.p.de Y = ξ + ωZ é, então,

fk(y) = 2φk(y − ξ ; Ω) Φ(αTω−1(y − ξ)) , y ∈ Rk, (2.12) onde Ω = ωΩzω, sendo Ωz a matriz de correlação de Z .

Os autores referem neste trabalho que a classe de distribuições obtida por um dos métodos é a mesma que a obtida pelo outro e demonstram-no.

Ainda em Azzalini e Dalla Valle [23], eles particularizam a distribuição MSNao caso bivariado, ou seja à distribuição BSN(bivariate skew normal distribution), resultando na seguinte expressão: f2(z1, z2) = 2φ2(z1, z2; ω)Φ(α1z1+ α2z2), (2.13)

onde ω representa o elemento da diagonal principal da matriz Ω e, através da aplicação de alguma álgebra, tem-se:

α1= δ1−δ2ω [(1 − ω2)(1 − ω2δ 12−δ22+ 2δ1δ2ω)] 1 2 α2= δ2−δ1ω [(1 − ω2)(1 − ω2δ 12−δ22+ 2δ1δ2ω)] 1 2 .

Numa linha de investigação independente, Arnold et al. [14] fazem, também, a generalização para o caso multivariado dos modelos por eles obtidos no caso univariado, nomeadamente através dos mesmos procedimentos que para o caso univariado.

(41)

2.2.2

A distribuição

MSN

de Azzalini e Capitanio

A definição do modeloMSNé feita de forma idêntica à do trabalho de Azzalini e Dalla Valle [23] mas com uma apresentação de resultados um pouco diferente, senão, veja-se:

Definição 7 : Um vector aleatório k-dimensional, Z, diz-se ter distribuiçãoMSNpadrão, sim-bolicamente, Z _ S N (Ω, α), se a suaf.d.p.for da forma:

f(z) = 2φk(z; Ω) Φ(αTz) , z ∈ Rk, (2.14)

onde φk(z; Ω) é a função densidade de probabilidade da distribuição Normal k-dimensional com

vector de valores médios, nulo, e matriz de correlação Ω, Φ(.) a função distribuição da N(0, 1) e α um vector k-dimensional. Por simplicidade, assumem que Ω é de característica máxima. Alguns autores referem-se a α como sendo um parâmetro de forma, em termos genéricos, mas no caso multivariado ele é mais do que isso. A matriz Ω e o vector α que aparecem na definição (2.14) foram definidos em Azzalini e Dalla Valle [23], como funções de outras quantidades, nomeadamente outra matriz de correlação, Ψ e um vector λ ∈Rk; assim um membro da família paramétrica das distribuiçõesMSNpadrão é identificado pelo par(λ, Ψ). É possível identificar o referido membro directamente pelo par(α, Ω), ou seja, este par faculta uma parametrização equivalente da classe de densidades mencionada. A demonstração deste facto é de natureza puramente algébrica, segundo Azzalini e Capitanio [21]. A função geradora de cumulantes é dada por K(t) = ln M(t) = 1 2t T t+ ln(2Φ(δTt)) , t ∈ Rk onde δ = 1 (1 + αTα)1/2Ωα. (2.15)

Consequentemente, o vector de valores médios e a matriz de variâncias são, respectivamente, µZ = E(Z) =

2 π

!1/2

δ , V ar(Z) = Ω − µZµZT . (2.16)

No seu trabalho, Azzalini e Capitanio [21] apresentam uma representação estocástica de Z, útil na geração computacional de números aleatórios bem como para fins teóricos que é a seguinte:

Proposição 2 : Suponha-se que

* , Z0 Z + -_ Nk+1(0, Ω∗) , Ω∗ = * , 1 δT δ Ω +

-onde Z0é uma componente escalar e Ωé uma matriz de correlações. Então, tem-se que

X =     Z se X0 > 0 −Z c.c.

(42)

tem distribuição S Nk(Ω, α), onde

α = 1

(1 − δT−1δ)1/2 Ω −1δ .

(2.17) Como já foi dito, na maioria das aplicações práticas é vantajosa a introdução de localização e escala, feita através da transformação Y = ξ + ωZ, onde

ξ = (ξ1, . . . , ξk)T e ω = diag(ω1, . . . , ωk)

são, respectivamente, os parâmetros de localização e escala, e assume-se que as componentes de ω são positivas. Assim:

Definição 8 : Af.d.p.do vector aleatório Y = ξ + ωZ é

fY(y) = 2φk(y − ξ; Ω) Φ(αTω−1(y − ξ)) (2.18)

onde Ω= ωΩZω é uma matriz de covariâncias. Simbolicamente, Y _ SNk(ξ, Ω, α).

Relativa-mente à inferência estatística para esta distribuição, vários autores referem, nos seus trabalhos, que a obtenção de estimadores de máxima verosimilhança quer para a parametrização directa, que é a que foi apresentada, quer para a parametrização centrada (veja-se Arellano-Valle e Azzalini [8]), é uma questão complexa e controversa até pelas características da função de verosimilhança e da singularidade da matriz de informação de Fisher. Exemplos de discussões sobre estes temas e propostas de soluções são encontradas em trabalhos como os de Liseo [51], Lindsey [50], Arnold et al. [14], Catchpole e Morgan [30], Chiogna [33], Rotnitzky, Cox, Bottai e Robins [73], Pewsey [67], Azzalini e Capitanio [21,22], Azzalini [18], entre outros.

2.2.3

Outras formas de definir/construir a distribuição

MSN

O modeloMSNdefinido por Gupta, Gonzáles-Farias e Molina [45] tem a seguinte forma:

Definição 9 : Um vector aleatório Y , tem distribuição normal assimétrica k-variada,

simboli-camente, Y _ S Nk(µ, Σ, D), se a suaf.d.p.for da forma:

fk(y; µ, Σ, D) =

1

Φk(0; I + DΣDT)

φk(y; µ, Σ) Φk[D(y − µ)], y ∈ Rk , (2.19)

onde µ ∈Rk, Σ uma matriz definida positiva, D(k×k), φk(.; µ, Σ) e Φk(.; Σ) designam af.d.p.e

a função de distribuição da normal multivariada k-dimensional com valor médio µ e matriz de covarâncias Σ, definida positiva, respectivamente.

A construção do modelo normal assimétrico multivariado é baseado, segundo Gupta et al. [45], num método condicional particionado, procedimento esse que, para os autores, se revela de grande utilidade na simulação de vectores aleatórios com esta distribuição de probabilidade, o qual é descrito na proposição abaixo:

(43)

Proposição 3 : Sejam * , X Y + -_ N2k       * , ξ µ + -,* , I+ DΣDT DΣ ΣDT Σ + -      . Então a distribuição do vector aleatório Y|{X ≥ ξ } é SNk(µ, Σ, D).

Para o caso bivariado, ou seja para a SN-2(µ, Σ, D), Gupta et al. [45], obtêm fórmulas fechadas para af.d.p.. Quando D = * , δ1 δ2 0 0 + -ou D = * , 0 0 δ1 δ2 +

-, a função densidade de probabilidade do mo-deloBSNtem a seguinte forma:

f2(x, y; µ, Σ, D) = 2φ2(x, y; µ, Σ) Φ2[δ1(x − µ1) + δ2(y − µ2)]

que é idêntica à dada por Azzalini e Dalla Valle [23]. Os referidos autores não consideram este caso no seu artigo, mas sim o caso geral em que D= *

, δ11 δ12 δ21 δ22 + -. A constante da densidade (2.19) é calculada recorrendo ao lema que se segue.

Lema 4 : Se R = * , r21 r12 r12 r22 +

-for uma matriz definida positiva, Φ2(0; R) = 121 arccosrr112r2.

É de notar, segundo Gupta et al. [45], que, se r12 = 0, então Φ2(0; R) = 14, pois arccos(0) = π2.

Este resultado coincide com o facto de que, quando R = diag(r12, r22), se vai ter Φ2(0; R) =

Φ(0, r12) Φ(0, r22) = 12× 12 = 14. Corolário 1 : Se Σ = * , σ2 1 σ1σ2ρ σ1σ2ρ σ22 +

-for uma matriz definida positiva e D = *

,

δ11 δ12

δ21 δ22

+

-uma matriz arbitrária, então

Φ2  0; I+ DΣDT = 1 2 − 1 2π arccos(ρDΣ) , (2.20) onde ρDΣ) = δ21δ11σ12+ δ22δ12σ22+ (δ12δ21+ δ22δ11)σ1σ2ρ q (1 + δ211σ12+ 2δ11δ12σ1σ2ρ + δ122 σ22)(1 + δ221σ21+ 2δ21δ22σ1σ2ρ + δ222σ22) . Considerando µ = (µ1, µ2)T e Σ = * , σ2 1 σ1σ2ρ σ1σ2ρ σ22 + -, e tendo em conta ( 2.19) e ( 2.20), obtêm, então af.d.p.daBSN: f2(x, y; µ, Σ, D) = exp  − 1 2(1−ρ2)  (x−µ1)2 σ2 1 − 2ρ(x−µ1)(y−µ2) σ1σ2 + (y−µ2)2 σ2 2   2πσ1σ2 p 1 − ρ21 2− 1 2πarccos(ρDΣ)  (2.21) × Φ11(x − µ1) + δ12(y − µ2)] Φ[δ21(x − µ1) + δ22(y − µ2)].

Referências

Documentos relacionados

FIGURA 4.6 – Distribuição, por classe diamétrica, do número de indivíduos amostrados no fragmento 1, na cidade de Piranga, Minas Gerais Ao analisar a porcentagem de

Neste trabalho foi realizada uma análise comparada da distribuição das bandas CMA, dos sítios de DNAr 5S e 45S e de uma seqüência satélite isolada de Citrus sinensis nos cromossomos

O texto dramático «Pierrot e Arlequim – Personagens de Teatro» foi publicado em livro na íntegra em dezembro de 1924 – tendo sido divulgado na revista Athena –, como sendo

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

Passiflora edulis, popularly known in Brazil as sour passion fruit is the most widely cultivated species of the genus Passiflora, and is of economic importance in Brazil for

a) O modo de aplicação única ou parcelada do regulador de crescimento na densidade populacional de 6 a 14 plantas m -1 não interfere na produção de algodão em caroço das

O presente trabalho aborda a temática trânsito, especificamente seu processo administrativo, tendo por objetivo analisar como este deve se desenvolver, com observância dos

A indústria alimentar recorre usualmente a aditivos sintéticos para garantir ou melhorar as características e propriedades dos alimentos [1]. O sorbato de potássio (E202) é um dos