• Nenhum resultado encontrado

JAUMOT; TAULER, 2014).

2 PROJECTION PURSUIT E ANÁLISE DE PROCUSTO PARA DISCRIMINAÇÃO DE TINTAS DE CANETAS

2.4 RESULTADOS E DISCUSSÃO

2.4.3 Análise de Todas as Marcas

A Figura 25 mostra o gráfico dos escores da PCA para todas as marcas de canetas. As 3 primeiras PCs explicam, respectivamente, 35%, 29% e 9% da variabilidade do conjunto de dados. Embora as diferenças entre os espectros das canetas sejam muito pequenas, é possível observar que existe uma tendência de separação das amostras Rcp com relação às demais. Já a semelhança entre os espectros das tintas das outras marcas pode ser identificada porque a informação da caneta é sobreposta pela do papel, como já mencionado.

Outro comportamento importante das amostras no gráfico dos escores está relacionado às amostras da caneta Gbc, que parecem estar levemente distanciadas das demais, mas não é possível distingui-las e observar um agrupamento claro apenas dessas amostras. É importante notar que, novamente, a variância pode não ser a melhor métrica para avaliar o conjunto de dados, pois a PCA não foi capaz de,

em uma projeção de dimensionalidade reduzida, revelar as separações de interesse (diferentes marcas).

Figura 25 Gráfico dos escores das 3 primeiras PCs utilizando todas as marcas. As 3 primeiras PCs explicam 35,64%, 28,78% e 9,05% da variabilidade dos dados, respectivamente.

Observando os gráficos dos pesos (Figura 26b), é possível observar alguns picos característicos na faixa de 1700 a 650 cm-1. Isso ocorre porque a região de 4000 a 2000 cm-1 está basicamente relacionada com a informação da celulose, que é comum a todos os espectros. Assim, a maior variabilidade dos dados está na região de impressão digital.

Observando o gráfico da Figura 26a, é possível notar o percentual de variância explicada por cada PC. O gráfico sugere que o número de componentes principais que explicam a maior variabilidade dos dados é cerca de 10 PCs, ou seja, as informações mais relevantes para retratar o conjunto de dados estariam representadas pelas 10 primeiras variáveis latentes do modelo PCA.

Entretanto, as projeções da PCA não evidenciam separações das amostras de uma forma relevante para o tipo de estudo que está sendo realizado. Ou seja, as projeções no sentido da maior variância não evidenciam a separação das marcas.

Figura 26 Gráfico (a) da variância explicada e (b) dos pesos das três primeiras PCs para a análise das 4 marcas.

A Figura 27 mostra o mapa da análise de Procusto realizado para comparar as projeções de escores utilizando todas as marcas de canetas. É possível notar algumas regiões de estabilidade no mapa (em azul), algumas menores como a compreendida entre PCs 23-30, 40-48 e uma região maior compreendida entre PCs 48-75, apesar de apresentar menor estabilidade.

Figura 27 Mapa de Procusto e gráfico para todas as marcas.

Também na Figura 27, é possível perceber que nas regiões de estabilidade em que a análise é realizada com 80 PCs ou mais, o percentual de classificação das

amostras cai, mostrando que as projeções, apesar de semelhantes, não são informativas, pois, aparentemente, geram confusão de classes.

Na Figura 28, observam-se diferentes projeções tridimensionais de análise PP com diferentes níveis de compressão (6, 10, 44 e 98 PCs). A Figura 28a mostra que a projeção utilizando apenas 6 PCs para comprimir os dados não é informativa o suficiente para observar a separação dos agrupamentos. Na medida em que mais PCs são usadas para comprimir a matriz original de dados, a informação desejada parece ser revelada (Figura 28b e Figura 28c) até atingir o caso limite evidenciando projeções sobreajustadas (Figura 28d). Assim, é possível verificar que, a partir da região de estabilidade sugerida pelo mapa de Procusto, identifica-se que as projeções mais informativas estão entre as construídas utilizando de 40 a 70 PCs.

Nota-se que utilizando 10 PCs para a construção das projeções PP, número de PCs sugerido pelo modelo PCA, não é possível identificar uma separação clara das marcas de canetas, embora já exista uma tendência semelhante de comportamento de amostras de uma mesma classe; corroborando a ideia de que a métrica utilizada para construir modelos PCA (variância) não é a melhor maneira de abordar o problema de separação das tintas de canetas de forma não supervisionada. Assim, é possível utilizar a projeção construída com 44 PCs para observar uma melhor separação das marcas das canetas estudadas.

A Figura 29 mostra como os vetores de projeção mudam na medida em que mais PCs são adicionadas ao modelo. Da mesma forma que para a análise das 4 marcas, o modelo tende a ser desestabilizado quando mais PCs são adicionadas, forçando a uma projeção sobreajustada.

Figura 28 Gráficos de escores das análises PP usando um número diferentes de PCs para compressão dos dados para todas as marcas de canetas: (a) 6, (b) 10, (c) 44 e (d) 98 PCs.

Figura 29 Gráficos de pesos das análises PP usando um número diferente de PCs para cada nível de compressão dos dados: (a) 6, (b) 10, (c) 44 e (d) 98 PCs. Modelo para todas as marcas.

2.5 CONCLUSÃO

Das técnicas de pré-processamento utilizadas na correção dos espectros, SNV foi a que mostrou o melhor desempenho a partir das projeções PP em todos os casos. No modelo PCA construído tanto para as quatro marcas, quanto para todas as marcas, não foi possível observar uma separação clara em projeções tridimensionais.

A análise de PP foi capaz de contornar esse problema, utilizando projeções tridimensionais capazes de revelar tendências de separação de todas as marcas analisadas. Para encontrar o nível de compressão mais informativo para o problema estudado, regiões de estabilidade no mapa de Procusto foram identificadas. A metodologia proposta foi capaz de mostrar o potencial de ferramentas não supervisionadas para identificar a separação de diversas marcas de canetas.

3 MODELOS DE CALIBRAÇÃO PARA DATAÇÃO DE DOCUMENTOS